マイニング探検会 #02

21
ママママママママ #2 マママママママママ ~~ ママママママママママママ ママママママママ ママ ママ ママ ( マ ママママママママ マママママ ) 2010 マ 5 マ 14 マ ママママママママママママママママママ

Upload: yoji-kiyota

Post on 17-Dec-2014

3.133 views

Category:

Education


2 download

DESCRIPTION

検索技術を知ろう

TRANSCRIPT

Page 1: マイニング探検会 #02

マイニング探検会 #2~検索技術を知ろう~

東京大学情報基盤センター学術情報研究部門 助教

清田 陽司( 兼 株式会社リッテル 上席研究

員 )

2010 年 5 月 14 日@東京大学アントレプレナープラザ会議室

Page 2: マイニング探検会 #02

2

検索システムのモデル

情報要求 情報集合

マッチング

検索質問 テキスト集合

内部表現 内部表現

合致する情報テキストの部分集合

経済の成長見通しに関する記事が欲しい

テキスト検索

富士山の高さは?

「 3776m」

QAシステム

Excelで行を

追加したい

「 Excelで行を追加する方法は以下の通りで

す…」

ヘルプシステムフ

ィー

ドバッ

Page 3: マイニング探検会 #02

検索技術の歴史 (1)

• 1950 年代– H. P. Luhn @ IBM による先駆的研究• キーワード抽出アルゴリズム• KWIC インデックス (cf. 岩波情報科学事典 )

– スプートニク・ショック (1957 年 )• 科学情報検索システムへの米国政府の支援強化

• 1960 年代– 文献目録検索システムの実用化• 1964 年 医学文献検索システム MEDLARS ( 後の

MEDLINE)

Page 4: マイニング探検会 #02

検索技術の歴史 (2)• 1970 年代~ 1980 年代– 全文検索システムの実用化と性能向上• MEDLINE の全文検索サービス• G. Salton らによる SMART システムの研究

– ベクトル空間法、 TFIDF 、適合性フィードバックなど• テストコレクションによる客観的精度評価

– 新聞記事などが利用された

• 1990 年代– 評価型ワークショップ ( 新聞記事が主 )• TREC (Text Retrieval Conference) http://trec.nist.gov/• MUC (Message Understanding Conferences)• NTCIR@NII http://research.nii.ac.jp/ntcir/

Page 5: マイニング探検会 #02

検索技術の歴史 (3)

• 1990 年代後半– Web テキスト集合が検索対象として利用可能

に• ハイパーリンク構造によるランキングアルゴリズ

ム– HITS アルゴリズム、 PageRank など

• 2000 年代– Web サーチエンジンの飛躍的発展• Web の規模に対応するためのスケールアウトに重

点• 膨大なデータからの機械学習による精度向上

Page 6: マイニング探検会 #02

検索システムを理解するためのキーワード

• 逐次検索 (sequential search) 、索引検索(index search)

• ベクトル空間法、転置インデックス、 TFIDF

• n-gram モデル、形態素解析モデル– ストップワード、 stemming

• 適合率 (precision) 、再現率 (recall)

Page 7: マイニング探検会 #02

マッチング• 逐次検索 (sequential search)– 検索質問が入力される毎に、すべてのドキュ

メントをスキャンする– インデキシング不要• 更新は即時結果に反映される

– 検索速度はドキュメント数に比例• 索引検索 (index search)– あらかじめインデックスを作成しておき、検

索実行時に利用

Page 8: マイニング探検会 #02

ベクトル空間法図書館

検索 Google Yahoo 電子 書籍 Amazon

文書1

3 0 0 2 1 0 0

文書2

0 0 1 0 1 1 0

文書3

1 2 3 0 0 1 2

文書4

0 1 0 0 0 0 1

文書5

2 1 0 1 3 0 1

文書6

0 0 1 0 1 0 1

D1=(3,0,0,2,1,0,0)

D5=(2,1,0,1,3,0,1)D6=(0,0,1,0,1,0,1)

sim(D1, D5) = 735.01614

10003112001023

sim(D1, D6) = 154.0314

10001102100003

※ 単語どうしについても同じような計算が可能 →関連キーワードの検索

Page 9: マイニング探検会 #02

TF ・ IDF• キーワード重要度の経験則– 1 つの文書の中で、たくさん出現するキー

ワードほど重要度が高い (Term Frequency, TF)• 「図書館」 x 1 回 , 「カレー」 x 10 回 → カレーの

話題?– 文書集合中で偏って現れるキーワードほど重

要度が高い (Document Frequency, DF)• 「日本」 500 文書、「サッカー」 5 文書 → サッ

カー>日本• 両者を掛け合わせてキーワードの重要度

を計算文書の数キーワードの出現する

文書の総数キーワード出現頻度 logIDFTF

Page 10: マイニング探検会 #02

転置インデックス文書 1 図書館 , Yahoo, 電子

文書 2 Google, 電子 , 書籍

文書 3 図書館 , 検索 , Google, 書籍 , Amazon

文書 4 検索 , Amazon

文書 5 図書館 , 検索 , Yahoo, 電子 , Amazon

文書 6 Google, 電子 , Amazon図書館 文書 1, 文書 3, 文書 5

検索 文書 3, 文書 4, 文書 5Google 文書 2, 文書 3, 文書 6Yahoo 文書 1, 文書 5

電子 文書 1, 文書 2, 文書 5, 文書 6

書籍 文書 2, 文書 3Amazon 文書 3, 文書 4, 文書 5, 文書 6

Page 11: マイニング探検会 #02

n-gram モデルと形態素解析モデル

図書館振興財団では、図書館総合展運営委員会と共に、 L-1 グランプリ 2010-若手ライブラリアンのためのワークショップ式登竜門を開催します。

図書館 , 振興 , 財団 , 図書館 , 総合 , 展 , 運営 , 委員会 , L-1, グランプリ , 2010, 若手 , ライブラリアン , ワークショップ , 式 , 登竜門 , 開催

図書 , 書館 , 館振 , 振興 , 興財 , 財団 , 団で , では , は、 , 、図 , 図書 , 書館 , 館総 , 総合 , 合展 , 展運 , 運営 , 営委 , 委員 , 員会 , 会と , と共 , 共に , に、 , 、 L, L-, -1, 1 グ , グラ , ラン , ンプ , プリ , リ 2, ….

インデックスのキーワードをどうやって切り出すか?

n-gram (2-gram, bi-gram) モデル 形態素解析モデル

Page 12: マイニング探検会 #02

形態素解析とは• 自然言語で書かれた文を形態素(意味を持つ最小単位)に分割する技術

• 日本語では単語の境界判別が大きな問題– キーワード辞書を与える必要がある

• 日本語で利用可能な主な形態素解析ツール– JUMAN ( 京都大 黒橋研 )– ChaSen (奈良先端大 松本研 )– MeCab (工藤拓氏 / 京大・ NTT共同研究ユニッ

ト )– Yahoo!日本語形態素解析 (Web API による利用 )

Page 13: マイニング探検会 #02

比較n-gramモデル長所• 辞書が不要• 検索の漏れが少ない

短所• ノイズが多い

– 「京都」に「東京都」がヒット

• インデックスのサイズが大きくなる

形態素解析モデル長所• ノイズが少ない

– 辞書の整備により精度向上• インデックスのサイズが小さい

短所• 辞書の整備はコスト大• 検索漏れの可能性

Page 14: マイニング探検会 #02

適合率と再現率全文書集合

適合文書 検索された文書

A BC

||

||

||

||

B

C

A

C

検索された文書の数合文書の数検索された文書中の適適合率

数全文書中の適合文書の合文書の数検索された文書中の適再現率 検索漏れの少なさ

検索ノイズの少なさ

Page 15: マイニング探検会 #02

検索システムの性能の考え方• 再現率・適合率はトレードオフの関係–漏れを少なくしようとするとノイズが増える–ノイズを減らそうとすると漏れが多くなる

• 測定にはテストコレクションが必要– 日本語では NTCIR, BMIR などが存在– 検索システムの利用目的に合っていることが必要• 独自に作らなければならないことも多い

• Web 検索では再現率の測定は極めて困難–ユーザはそもそも最初のページしか見ない?

Page 16: マイニング探検会 #02

主な検索ソフトウェア• Namazu ( 高林哲氏 )• HyperEstraier (平林幹雄氏 )• Lucene (Apache Project)• Solr (Apache Project)• Senna (未来検索ブラジル )– MySQL などでの組み込み利用が可能

• GETA / GETAssoc ( 国立情報学研究所 )

Page 17: マイニング探検会 #02

GETAssoc

• 国立情報学研究所 (NII) で開発された「連想検索エンジン」– GETA の後継

• ベクトル空間法に基づく各種機能– 関連キーワード、関連文書の検索– クラスタリング

• Web API が実装されている• 実用例– WebcatPlus, 想 -IMAGINE Book Search, BOOK

TOWN じんぼう

Page 18: マイニング探検会 #02
Page 19: マイニング探検会 #02

GETAssoc の使い方• 文書集合を「 ITB ファイル形式」に変換• stmd プロセスを起動– 形態素解析ツールを選択可能

• stp コマンドによって NWAM データベース生成

• NWAM データベースを選択し、クエリーをクライアントから送信– Web API のほか、 C言語・ Perl ・ Ruby の API が

利用可能

Page 20: マイニング探検会 #02

Web 検索 API

• Google AJAX Search API– http://code.google.com/intl/ja/apis/ajaxsearch/

• Yahoo! JAPAN 検索 Web API– http://developer.yahoo.co.jp/webapi/search/

• 開放型検索エンジン基盤 TSUBAKI– http://tsubaki.ixnlp.nii.ac.jp/api.html

Page 21: マイニング探検会 #02

For further information…

• 北研二ほか「情報検索アルゴリズム」 (共立出版 , 2002 年 )

• NTCIR Project: http://research.nii.ac.jp/ntcir/• TREC Conference: http://trec.nist.gov/• ACM SIGIR: http://www.sigir.org/