国語研とワークス、単語ベクトルに関して産官連携による共研究 … ·...

4
■本件に関するお問い合わせ先 Press Release 1/4 TEL03-6229-1210 FAX03-6229-1211 Email[email protected] 株式会社ワークスアプリケーションズ 広報(担当:金田、山際) 国語研とワークス、単語ベクトルに関して産官連携による共同研究を開始 ~国内最大規模の日本語データベースと、ワークス開発の形態素解析器「Sudachi 」を用いて、 高精度な単語ベクトルの構築、無料公開を目指す~ 報道関係者各位 2018 12 25 株式会社ワークスアプリケーションズ 株式会社ワークスアプリケーションズ(本社:東京都港区、代表取締役最高経営責任者:牧野正幸、以 ワークス)の AI 研究機関であるワークス徳島人工知能 NLP 研究所は、大学共同利用機関法人 人間 文化研究機構 国立国語研究所(以下 国語研)と、自然言語処理の重要な資源の一つである「単語ベク トル」において、共同研究協定を締結いたしましたのでお知らせします。 本共同研究では、国語研が保持する 100 億語規模の日本語データベース「国語研日本語ウェブコーパス NWJC )」 1 と、ワークス徳島人工知能 NLP 研究所が開発した新たな形態素解析器「Sudachi 2 を用 いて、より実用的な「単語ベクトル」を構築します。 単語ベクトルとは、単語の特徴を数値化したものです。この単語ベクトルを用いることで、コンピュー タは単語の類似性や関連性を捉えることが可能となり、コンピュータによる高精度な検索や翻訳、テキ ストマイニング(情報抽出)、分析、自動会話(例:チャットボット)の実現につながります。 本共同研究による成果を、オープンソースソフトウェアとして無償公開することで、これら自然言語処 理の研究開発の加速に貢献してまいります。 <国語研とワークスによる共同研究 イメージ図> 1 「国語研日本語ウェブコーパス」とは、言語を分析するための基礎資料として、書き言葉や話し言葉の資 料を体系的に収集し、研究用の情報を付与したもの。 2 形態素解析とは、「辞書」と呼ばれる単語の情報に基づき文章を形態分割し、それぞれの品詞などを判別す る技術のこと。「Sudachi」は、ワークス徳島人工知能 NLP 研究所が開発した形態素解析ツールである。

Upload: others

Post on 03-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 国語研とワークス、単語ベクトルに関して産官連携による共研究 … · 単語ベクトルとは、単語の特徴を数値化したものです。 この単語ベクトルを用いることで、コンピュー

■本件に関するお問い合わせ先 Press Release 1/4

TEL:03-6229-1210 FAX:03-6229-1211 Email:[email protected]

株式会社ワークスアプリケーションズ 広報(担当:金田、山際)

国語研とワークス、単語ベクトルに関して産官連携による共同研究を開始

~国内最大規模の日本語データベースと、ワークス開発の形態素解析器「Sudachi」を用いて、

高精度な単語ベクトルの構築、無料公開を目指す~

報道関係者各位

2018 年 12 月 25 日

株式会社ワークスアプリケーションズ

株式会社ワークスアプリケーションズ(本社:東京都港区、代表取締役最高経営責任者:牧野正幸、以

下 ワークス)の AI 研究機関であるワークス徳島人工知能 NLP 研究所は、大学共同利用機関法人 人間

文化研究機構 国立国語研究所(以下 国語研)と、自然言語処理の重要な資源の一つである「単語ベク

トル」において、共同研究協定を締結いたしましたのでお知らせします。

本共同研究では、国語研が保持する 100 億語規模の日本語データベース「国語研日本語ウェブコーパス

(NWJC )」1と、ワークス徳島人工知能 NLP 研究所が開発した新たな形態素解析器「Sudachi」2を用

いて、より実用的な「単語ベクトル」を構築します。

単語ベクトルとは、単語の特徴を数値化したものです。この単語ベクトルを用いることで、コンピュー

タは単語の類似性や関連性を捉えることが可能となり、コンピュータによる高精度な検索や翻訳、テキ

ストマイニング(情報抽出)、分析、自動会話(例:チャットボット)の実現につながります。

本共同研究による成果を、オープンソースソフトウェアとして無償公開することで、これら自然言語処

理の研究開発の加速に貢献してまいります。

<国語研とワークスによる共同研究 イメージ図>

1 「国語研日本語ウェブコーパス」とは、言語を分析するための基礎資料として、書き言葉や話し言葉の資

料を体系的に収集し、研究用の情報を付与したもの。 2 形態素解析とは、「辞書」と呼ばれる単語の情報に基づき文章を形態分割し、それぞれの品詞などを判別す

る技術のこと。「Sudachi」は、ワークス徳島人工知能 NLP 研究所が開発した形態素解析ツールである。

Page 2: 国語研とワークス、単語ベクトルに関して産官連携による共研究 … · 単語ベクトルとは、単語の特徴を数値化したものです。 この単語ベクトルを用いることで、コンピュー

■本件に関するお問い合わせ先 Press Release 2/4

TEL:03-6229-1210 FAX:03-6229-1211 Email:[email protected]

株式会社ワークスアプリケーションズ 広報(担当:金田、山際)

●産官連携による共同研究の目的

自然言語処理技術の研究・実用化を行うワークス徳島人工知能 NLP 研究所は、2017 年 8 月に商用利用

に耐えうる高品質な解析性能を持つ形態素解析器「Sudachi」をオープンソースソフトウェアとして公

開しました。

日本語学研究の中心機関である国語研は、様々な機関と理論的・実証的共同研究を展開することによっ

て、日本語教育や自然言語処理などへの応用発展に寄与することを重要な使命としています。

そこで、国語研およびワークス徳島人工知能 NLP 研究所は、それぞれが持つ技術資産を活用し、自然

言語処理技術の更なる発展、ならびに社会への技術還元を目的に、産官連携として共同研究することで

合意いたしました。

●自然言語処理分野における共同研究内容

単語ベクトルの作成のためには大量のテキストデータが必要となります。

このたび、国語研が有する国内最大級規模の「国語研日本語ウェブコーパス」と、実用面で使いやすい

「Sudachi」を活用して、高精度な単語ベクトルの構築を行います。なお、構築された単語ベクトルは

無償で商用利用可能なオープンデータとしての公開を目指してまいります。

●商用利用に耐えうる高精度で柔軟なオープンソース形態素解析器「Sudachi」

オープンソース(OSS)として公開されている「Sudachi」は、既存の形態素解析器に不足する柔軟性

や精度を兼ね備えた形態素解析器です。

単語の特徴や性質を数百次元の実数ベクトルで表現することで、コンピュータ上で日本語(自然言

語)を扱いやすくする研究が進んでいます。

この単語ベクトルとは、例えば「野球」や「サッカー」など、人間であれば双方ともに「スポーツ」

と認識できる単語であっても、コンピュータ上ではそれぞれ別の文字列で構成されているため、類

似性があることは判断できません。しかし、大量のテキストデータからある単語が他の単語とどの

ように出現しているかを学習し、単語の性質を数値化することで、コンピュータがそれぞれの単語

がどの程度似たものかを判断することが可能になります。この結果、文字列一致のみならず単語の

意味を考慮した文書の検索やトピックの分類が実現され、自然言語処理の精度向上につながること

が期待されています。

コンピュータによる日本語の意味理解に必要な「単語ベクトル」とは

Page 3: 国語研とワークス、単語ベクトルに関して産官連携による共研究 … · 単語ベクトルとは、単語の特徴を数値化したものです。 この単語ベクトルを用いることで、コンピュー

■本件に関するお問い合わせ先 Press Release 3/4

TEL:03-6229-1210 FAX:03-6229-1211 Email:[email protected]

株式会社ワークスアプリケーションズ 広報(担当:金田、山際)

「Sudachi」は、日本語における多様な表記の揺れに対応するとともに、形態素解析に必要な「辞書」

に最新の単語を取り込み、定期的な更新・メンテナンスを行うことで商業利用に耐えうる高品質な解析

性能を確保しています。画像や PDF に記載された文字列の読み取りや、自動会話プログラムにより会

話形式で必要な情報を得ることのできる人工知能を用いたチャットボットなど、様々な解析の基礎的な

処理に利用されています。

●ワークス徳島人工知能 NLP 研究所による研究プロジェクト

本研究所では、ワークスが開発する ERP に搭載する機能の進化を技術面から支え、企業における組織

や人に対し、新しい働き方を実現するための研究プロジェクトを進めています。

あらゆる入力業務を効率化する”インプットレス”の精度向上

情報の検索や申請業務など、日常的に発生するあらゆる入力作業において、ユーザー

の入力負担を極限までなくす”インプットレス”の技術に自然言語処理(NLP)を取り

入れます。

・業務場面ごとに最適化された検索サジェスト

過去の検索内容を解析・学習し、新たな検索の際にユーザーが入力したい項目を予測して提案し

ます。

・領収書/請求書からの読み取り

画像や PDF データを ERP にドラッグアンドドロップすると、記載された文字列を解析・抽出し

て入力欄へ自動補完します。

人工知能(AI)によるチャットボット業務効率化につながる様々なチャットボットの

開発促進

業務に特化した多様なチャットボット機能を開発。ユーザーは人と会話をするような

手軽さで、必要な情報を瞬時に入手することができるようになります。また、チャッ

トボットを通して行われたやり取りを人工知能が学習し続けることで、使うごとに進化する仕組みの

実現を目指します。

Page 4: 国語研とワークス、単語ベクトルに関して産官連携による共研究 … · 単語ベクトルとは、単語の特徴を数値化したものです。 この単語ベクトルを用いることで、コンピュー

■本件に関するお問い合わせ先 Press Release 4/4

TEL:03-6229-1210 FAX:03-6229-1211 Email:[email protected]

株式会社ワークスアプリケーションズ 広報(担当:金田、山際)

個人の生産性を最大化する“Workforce Tech”の研究

従業員が心身ともに健康に働くことのできる環境を創り出すために、ヘルスデータや

個々人に紐づくネットワーキング等の情報を掛け合わせ、社員のリテンションや人材

活用の推進をサポートする機能の実現を目指します。

・メンタルヘルス不調・退職リスクの早期発見

・隠れたハイパフォーマー人材の検出・分析、最適な人材配置の提案、キーパーソンの特定 など

NLP 基盤技術の研究開発

本研究所では NLP の基盤技術の向上を目的に研究開発に取り組んでおり、その一環と

して形態素解析技術の性能向上にも注力しています。成果のひとつである形態素解析

器「Sudachi」では、日本語における多様な表記の揺れに対応するとともに最新の単

語を取り込み、定期的な更新・メンテナンスを行うことで、より高精度な文章解析の

実現を目指しています。

●自然言語処理(NLP)とは

日本語や英語などをはじめとする人間が使う言語をコンピュータに処理させるための技術やソフトウェ

アなどの総称で、人工知能の一分野です。キーボード入力時のかな漢字変換にはじまり、テキスト検索

や音声認識など、あらゆるシーンで使用されています。また日本語処理においては、英語などの言語と

異なり、文章中の語句が空白で区切られていないため、単語の区切りを特定するために、より高度な処

理である形態素解析が多くの場面で必要となります。

株式会社ワークスアプリケーションズ Web サイト https://www.worksap.co.jp/

* 会社名、製品名等はそれぞれ各社の商標または登録商標です。

* 本リリースに掲載された内容は発表日現在のものであり、予告なく変更または撤回される場合がありま す。また、本リリースに掲

載された予測や将来の見通し等に関する情報は不確実なものであり、実際に 生じる結果と異なる場合がありますので、予めご了承

ください。