lucene/solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Post on 26-May-2015
2.871 Views
Preview:
DESCRIPTION
TRANSCRIPT
ベイシス・テクノロジー株式会社 www.basistech.jp
Solr/Lucene 向け自然言語処理製品のご紹介
シニア・ソフトウェア・エンジニア平賀 一昭
Basis Technology 概要
Basis Technology CorporationCarl Hoffman, CEO 以下MIT出身者を中心に、
1995年に設立
ベイシス・テクノロジー株式会社
2000年に、初の米国外オフィスとして設立
カスタマー
この他にも、多くの検索エンジン、政府、軍/情報機関などで利用されてい ます。特にここ数年は、商用エンジンから、Solr/Lucene への移行とあわ せ、弊社自然言語処理プラットフォームの採用が増えています。
Web などの非構造化データ、ある いは、JDBC経由でフィードされる データなど
Rosette® 言語処理プラットフォーム
010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 します。事前にWebページより参加登録をお願いします(参加 登録受付中)。
2009.11.24 2009.11.02 科研「情報爆発IT基盤」 評価助言委員会委員長の米澤明憲先生(東京大学情報 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。
Rosette® 言語処理プラットフォーム
010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 します。事前にWebページより参加登録をお願いします(参加 登録受付中)。
2009.11.24 2009.11.02 科研「情報爆発IT基盤」 評価助言委員会委員長の米澤明憲先生(東京大学情報 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。
構造化データ
Rosette® 言語処理プラットフォーム
Rosette®
言語判別
システム
Rosette®
Unicode対応
ライブラリ
Rosette®
形態素解析
システム
ユーザ個々のアプリケーショ ン
Rosette®
固有表現抽出
システム
API
「言語」と「文字コード」を判別します
世界の55言語・39種類の文字コードを判別日本語、中国語、朝鮮語、英語、ドイツ語、フランス語、ロシア語 等
平均判別精度 : 99.45%日本語 JIS : 100%朝鮮語 EUC-KR : 100%中国語 GB-2312 : 100%※約1KBのデータを利用したテスト結果
Rosette® 言語・文字コード判別システム (RLI)
Rosette® 言語・文字コード判別システム (RLI)
対応言語数: 55
対応文字コード数: 39
対応する言語・文字コード
Unicode と外部文字コードの相互変換を行います
文字コード変換170種類以上の文字コードに対応
Shift-JIS ⇔ UnicodeGB18030 ⇔ Unicode
テキスト正規化大文字 ⇔ 小文字
Unicode TEXT ⇔ unicode text半角 ⇔ 全角
ABCカンパニー ⇔ ABCカンパニー
ひらがな ⇔ カタカナ
Rosette® ユニコード対応ライブラリ (RCLU)
Rosette® 形態素解析システム (RBL) : 日本語版の特徴
分かち書き(テキストを単語に分割)独自開発の解析アルゴリズム
50万語の形態素解析辞書を標準搭載し、6ヶ月ごとにアップデート
品詞出力、名詞句抽出
ユーザー定義辞書複数の辞書が使用可能
ストップワード判別「された」「の」、「は」、「か」などの不要語を認識
カスタマイズ可
「読み」の出力
自然文の入力を形態素へ分割します
Rosette® 形態素解析システム (RBL) : 日本語版の特徴 (cont.)
カタカナ表記ゆれ対応 (約 9,000 語)ダンスセラピー ← ダンスセラピ/ダンステラピー
ファミコン ← ファミリーコンピュータ/ファミリーコンピューター
ベネチア ← ベニス/ベネツィア/ヴェネチア/ヴェネツィア
漢字の旧字体サポート (約 89,000 語)渡辺 ← 渡邊
大学 ← 大學
高島 ← 髙島
類義語対応 (ユーザー辞書により対応可能)Honda ← ホンダ、本田技研工業
ポルトガル語、オランダ語、ギリシャ語、ハンガリー語、ポーランド語、チェコ語、近代ペルシア語、ウルドゥ語にも 対応しています。
N - 未対応、n/a - この言語には該当せず
単語分割ステミング(基本化)
複合語分解 品詞解析 文尾検出 名詞句抽出 読み
日本語 ○ ○ ○ ○ ○ ○ ○
朝鮮語 ○ ○ ○ ○ ○ ○ N
中国語(簡・繁)
○ n/a n/a ○ ○ ○ ○
英語 ○ ○ n/a ○ ○ ○ n/a
アラビア語 ○ ○ n/a ○ ○ ○ ○
ロシア語 ○ ○ n/a ○ ○ N N
フランス語 ○ ○ n/a ○ ○ ○ n/a
イタリア語 ○ ○ n/a ○ ○ ○ n/a
ドイツ語 ○ ○ ○ ○ ○ ○ n/a
スペイン語 ○ ○ n/a ○ ○ ○ n/a
Rosette® 形態素解析システム (RBL) : 主要言語対応状況
固有名詞抽出すべき語の「文脈パターン」を事前学習
人名、地名、組織名、施設名、国籍、役職等を識別
特定パターンの語句与えられた正規表現と一致するパターンの文字列
日時、電話番号、URL、製品型番など
ユーザー定義可能
用語辞書(ガゼティア)ユーザーが指定した語句との一致
固有表現(Named Entity)を抽出します
Rosette® 固有表現抽出システム (REX)
Rosette® 固有表現抽出システム (REX) : 主要言語対応状況
人名 組織名 場所 都市名 施設 役職
日本語 ○ ○ ○ ○ ○ ○
朝鮮語 ○ ○ ○ ○ ○ ○
中国語(簡・繁)
○ ○ ○ ○ ○ ○
英語 ○ ○ ○ ○ ○ ○
アラビア語 ○ ○ ○ ○ ○ ○
ロシア語 ○ ○ ○ ○ ○ ○
フランス語 ○ ○ ○ X X ○
イタリア語 ○ ○ ○ X X ○
ドイツ語 ○ ○ ○ X X ○
スペイン語 ○ ○ ○ X X ○
上記言語以外に、オランダ語、ポルトガル語、ウルドゥ語、近代ペルシア語をサポートしています。
Rosette® 言語処理プラットフォーム : 提供形態
SDK による提供
シンプルなAPIのライブラリ各国言語共通のAPIC++, C, C#, Java アプリケーションから利用可
Solr/Lucene向けパッケージには、Analyzer/Factory ソースコードが付属
サポートプラットフォームWindows, Linux, Solaris, Mac OS X 等その他主要プラットフォームをサポート
ライセンス形態年間ライセンスなど
E-mail による技術サポート
次世代サーチ・テクノロジー・フォーラム 2010
主催:ベイシス・テクノロジー株式会社
開催日: 2010年4月22日(木)
時間: セミナー 9:30-16:30、 展示 12:00-16:30会場: 国際文化会館 (東京 六本木)
申込: 3月中旬より以下のURLで受付開始
http://www.basistech.co.jp/forum/2010/参加費: 無料
協賛パートナー
top related