マイニング探検会 #02

マイニング探検会 #2～検索技術を知ろう～

東京大学情報基盤センター学術情報研究部門　助教

清田　陽司( 兼株式会社リッテル上席研究

員 )

2010 年 5 月 14 日＠東京大学アントレプレナープラザ会議室

2

検索システムのモデル

情報要求情報集合

マッチング

検索質問テキスト集合

内部表現内部表現

合致する情報テキストの部分集合

経済の成長見通しに関する記事が欲しい

テキスト検索

富士山の高さは？

「 3776m」

QAシステム

Excelで行を

追加したい

「 Excelで行を追加する方法は以下の通りで

す…」

ヘルプシステムフ

ィー

ドバッ

ク

検索技術の歴史 (1)

• 1950 年代– H. P. Luhn ＠ IBM による先駆的研究• キーワード抽出アルゴリズム• KWIC インデックス (cf. 岩波情報科学事典 )

– スプートニク・ショック (1957 年 )• 科学情報検索システムへの米国政府の支援強化

• 1960 年代– 文献目録検索システムの実用化• 1964 年医学文献検索システム MEDLARS ( 後の

MEDLINE)

検索技術の歴史 (2)• 1970 年代～ 1980 年代– 全文検索システムの実用化と性能向上• MEDLINE の全文検索サービス• G. Salton らによる SMART システムの研究

– ベクトル空間法、 TFIDF 、適合性フィードバックなど• テストコレクションによる客観的精度評価

– 新聞記事などが利用された

• 1990 年代– 評価型ワークショップ ( 新聞記事が主 )• TREC (Text Retrieval Conference) http://trec.nist.gov/• MUC (Message Understanding Conferences)• NTCIR@NII http://research.nii.ac.jp/ntcir/

http://trec.nist.gov/

http://research.nii.ac.jp/ntcir/

検索技術の歴史 (3)

• 1990 年代後半– Web テキスト集合が検索対象として利用可能

に• ハイパーリンク構造によるランキングアルゴリズ

ム– HITS アルゴリズム、 PageRank など

• 2000 年代– Web サーチエンジンの飛躍的発展• Web の規模に対応するためのスケールアウトに重

点• 膨大なデータからの機械学習による精度向上

検索システムを理解するためのキーワード

• 逐次検索 (sequential search) 、索引検索(index search)

• ベクトル空間法、転置インデックス、 TFIDF

• n-gram モデル、形態素解析モデル– ストップワード、 stemming

• 適合率 (precision) 、再現率 (recall)

マッチング• 逐次検索 (sequential search)– 検索質問が入力される毎に、すべてのドキュ

メントをスキャンする– インデキシング不要• 更新は即時結果に反映される

– 検索速度はドキュメント数に比例• 索引検索 (index search)– あらかじめインデックスを作成しておき、検

索実行時に利用

ベクトル空間法図書館

検索 Google Yahoo 電子書籍 Amazon

文書1

3 0 0 2 1 0 0

文書2

0 0 1 0 1 1 0

文書3

1 2 3 0 0 1 2

文書4

0 1 0 0 0 0 1

文書5

2 1 0 1 3 0 1

文書6

0 0 1 0 1 0 1

D1=(3,0,0,2,1,0,0)

D5=(2,1,0,1,3,0,1)D6=(0,0,1,0,1,0,1)

sim(D1, D5) = 735.01614

10003112001023

sim(D1, D6) = 154.0314

10001102100003

※ 単語どうしについても同じような計算が可能　→関連キーワードの検索

TF ・ IDF• キーワード重要度の経験則– 1 つの文書の中で、たくさん出現するキー

ワードほど重要度が高い (Term Frequency, TF)• 「図書館」 x 1 回 , 「カレー」 x 10 回 → カレーの

話題？– 文書集合中で偏って現れるキーワードほど重

要度が高い (Document Frequency, DF)• 「日本」 500 文書、「サッカー」 5 文書 → サッ

カー＞日本• 両者を掛け合わせてキーワードの重要度

を計算文書の数キーワードの出現する

文書の総数キーワード出現頻度 logIDFTF

転置インデックス文書 1 図書館 , Yahoo, 電子

文書 2 Google, 電子 , 書籍

文書 3 図書館 , 検索 , Google, 書籍 , Amazon

文書 4 検索 , Amazon

文書 5 図書館 , 検索 , Yahoo, 電子 , Amazon

文書 6 Google, 電子 , Amazon図書館文書 1, 文書 3, 文書 5

検索文書 3, 文書 4, 文書 5Google 文書 2, 文書 3, 文書 6Yahoo 文書 1, 文書 5

電子文書 1, 文書 2, 文書 5, 文書 6

書籍文書 2, 文書 3Amazon 文書 3, 文書 4, 文書 5, 文書 6

n-gram モデルと形態素解析モデル

図書館振興財団では、図書館総合展運営委員会と共に、 L-1 グランプリ 2010－若手ライブラリアンのためのワークショップ式登竜門を開催します。

図書館 , 振興 , 財団 , 図書館 , 総合 , 展 , 運営 , 委員会 , L-1, グランプリ , 2010, 若手 , ライブラリアン , ワークショップ , 式 , 登竜門 , 開催

図書 , 書館 , 館振 , 振興 , 興財 , 財団 , 団で , では , は、 , 、図 , 図書 , 書館 , 館総 , 総合 , 合展 , 展運 , 運営 , 営委 , 委員 , 員会 , 会と , と共 , 共に , に、 , 、 L, L-, -1, 1 グ , グラ , ラン , ンプ , プリ , リ 2, ….

インデックスのキーワードをどうやって切り出すか？

n-gram (2-gram, bi-gram) モデル形態素解析モデル

形態素解析とは• 自然言語で書かれた文を形態素（意味を持つ最小単位）に分割する技術

• 日本語では単語の境界判別が大きな問題– キーワード辞書を与える必要がある

• 日本語で利用可能な主な形態素解析ツール– JUMAN ( 京都大黒橋研 )– ChaSen (奈良先端大松本研 )– MeCab (工藤拓氏 / 京大・ NTT共同研究ユニッ

ト )– Yahoo!日本語形態素解析 (Web API による利用 )

http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/juman.html

http://chasen-legacy.sourceforge.jp/

http://mecab.sourceforge.net/

http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html

http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html

比較n-gramモデル長所• 辞書が不要• 検索の漏れが少ない

短所• ノイズが多い

– 「京都」に「東京都」がヒット

• インデックスのサイズが大きくなる

形態素解析モデル長所• ノイズが少ない

– 辞書の整備により精度向上• インデックスのサイズが小さい

短所• 辞書の整備はコスト大• 検索漏れの可能性

適合率と再現率全文書集合

適合文書検索された文書

A BC

||

||

||

||

B

C

A

C

検索された文書の数合文書の数検索された文書中の適適合率

数全文書中の適合文書の合文書の数検索された文書中の適再現率検索漏れの少なさ

検索ノイズの少なさ

検索システムの性能の考え方• 再現率・適合率はトレードオフの関係–漏れを少なくしようとするとノイズが増える–ノイズを減らそうとすると漏れが多くなる

• 測定にはテストコレクションが必要– 日本語では NTCIR, BMIR などが存在– 検索システムの利用目的に合っていることが必要• 独自に作らなければならないことも多い

• Web 検索では再現率の測定は極めて困難–ユーザはそもそも最初のページしか見ない？

主な検索ソフトウェア• Namazu ( 高林哲氏 )• HyperEstraier (平林幹雄氏 )• Lucene (Apache Project)• Solr (Apache Project)• Senna (未来検索ブラジル )– MySQL などでの組み込み利用が可能

• GETA / GETAssoc ( 国立情報学研究所 )

GETAssoc

• 国立情報学研究所 (NII) で開発された「連想検索エンジン」– GETA の後継

• ベクトル空間法に基づく各種機能– 関連キーワード、関連文書の検索– クラスタリング

• Web API が実装されている• 実用例– WebcatPlus, 想 -IMAGINE Book Search, BOOK

TOWN じんぼう

GETAssoc の使い方• 文書集合を「 ITB ファイル形式」に変換• stmd プロセスを起動– 形態素解析ツールを選択可能

• stp コマンドによって NWAM データベース生成

• NWAM データベースを選択し、クエリーをクライアントから送信– Web API のほか、 C言語・ Perl ・ Ruby の API が

利用可能

Web 検索 API

• Google AJAX Search API– http://code.google.com/intl/ja/apis/ajaxsearch/

• Yahoo! JAPAN 検索 Web API– http://developer.yahoo.co.jp/webapi/search/

• 開放型検索エンジン基盤 TSUBAKI– http://tsubaki.ixnlp.nii.ac.jp/api.html

http://code.google.com/intl/ja/apis/ajaxsearch/

http://developer.yahoo.co.jp/webapi/search/

http://tsubaki.ixnlp.nii.ac.jp/api.html

For further information…

• 北研二ほか「情報検索アルゴリズム」 (共立出版 , 2002 年 )

• NTCIR Project: http://research.nii.ac.jp/ntcir/• TREC Conference: http://trec.nist.gov/• ACM SIGIR: http://www.sigir.org/






http://www.sigir.org/

マイニング探検会 #02

Education