ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

26
ウウウウウウウウウウウ ウウウウウウウウウウウウウウウウ ウウウ ウウウウウウ () ウウウウ ウウウウ ウウウウ・・ Yahoo! 2009-05-21 ウウウウウウウ 191 ウウウウウウウウウウ ウ 76 ウウウウウウウウウウウウ

Upload: heidi

Post on 21-Jan-2016

56 views

Category:

Documents


0 download

DESCRIPTION

ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得. 小町守 (奈良先端大) 牧本慎平・内海慶・颯々野学( Yahoo! ) 2009-05-21 情報処理学会第 191 回自然言語処理研究会 第 76 回音声言語情報処理研究会. 背景 : 検索ユーザの関心を見つけることが重要. ターゲット広告 クエリ 書き換え ・クエリ 提案 ・クエリ 展開. 男性 既婚 30 代 就職活動中 …. !. ipod. ipot. search. ipot price. アイポット. iPot. i-pot. i-Pot. あいぽっと. 2. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲

得小町守(奈良先端大)

牧本慎平・内海慶・颯々野学( Yahoo! )2009-05-21

情報処理学会第 191 回自然言語処理研究会第 76 回音声言語情報処理研究会

Page 2: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

2

背景 : 検索ユーザの関心を見つけることが重要• ターゲット広告

• クエリ書き換え・クエリ提案・クエリ展開

男性既婚30 代就職活動中…

!

ipot searchipod ipot

priceiPot i-

poti-Potアイポット あいぽっと

2

Page 3: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

3

コーパスに基づく意味カテゴリ獲得

Singapore

Hong Kong

___ visa Hong Kong

China

___ history

Australia

Egypt

単語 パターン 新しいクエリ

このステップを繰り返す

入力 出力(コーパスから抽出する)

Singapore visa

Singapore map

3

Page 4: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

4

本研究のポイント大規模化・クリックログ・グラフ理論の適用

検索ログDB

before

ブートストラップ100 万検索クエリ 検索クエリログ

after

1,000 万検索クエリ

DB サイズ巨大

検索ログDB

検索ログDB 検索クエリ

+クリックログ グラフ理論

(以前作った)Tchai

Quetchup

Page 5: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

5

Quetchup アルゴリズム(QUEry Term CHUnk Processor)

• 情報獲得源としてクリックスルーログを用いる

• グラフ理論による半教師ありアルゴリズム• 並列分散環境を用いたラベル伝播の大規模化

5

アップル クリック

コンピュータ

Page 6: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

6

ブートストラップにおいては意味ドリフトが大問題

Singapore

ANA

___ visa UFJ

United___ airlines

ANA

Delta

単語 パターン 新しい単語

次のステップにエラーが伝播してしまう

入力 出力(コーパスから抽出した)

意味カテゴリが変わってしまった

6

Page 7: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

7

クリックスルーパターンを使って意味カテゴリを学習

Singapore

新加波

en.wikipedia.org/wiki/Singapore 新加波

Kuala Lumpur

www.singaporeair.com/saa/zh_CN

昭南島

Penan

単語 パターン 新しい単語

大規模に入手可能検索クエリと比較して曖昧性が少ない

入力 出力(クエリからクリックされたアドレス)

同じアドレスをクリックする単語は同じ意味

7

Page 8: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

8

グラフ理論に基づく意味カテゴリ学習• ブートストラップアルゴリズムの一部はグラフ上の類

似度計算と見なせる( Komachi et al. EMNLP-2008 )

8

Singapore

Hong Kong___ map

___ visa

UFJ

ANA

___ history

China___ airlines

似たパターンと共起するクエリ

は似ている

リンク解析( Google のPageRank 等)の手法を

用いて計算できる

Page 9: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

9

クリックスルーによるインスタンス・パターン共起グラフ

• クエリ“ Hong Kong”→http://en.wikipedia.org/wiki/Hong_Kong

9

Singapore

Hong Kong http://en.wikipedia.org/wiki/Hong_Kong

http://www.bk.mufg.jp/

UFJ

ANA

http://www.singaporair.com/hk.jsp

Chinahttp://www.china-airlines.co.jp/

http://www.ana.co.jp/

http://www.acl-ijcnlp-2009.org/

http://www.cikm2009.org/

Page 10: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

10

Quetchup アルゴリズム(QUEry Term CHUnk Processor)

• 情報獲得源としてクリックスルーログを用いる• グラフ理論による半教師ありアルゴリズム• 並列分散環境を用いたラベル伝播の大規模化

10

DB サイズ巨大

DB サイズ巨大

DB サイズ巨大

Pierre-Simon Laplace (1749-1827)

Page 11: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

11

Zhou et al. (NIPS-2004) によるラベル伝播アルゴリズム

• 類似度行列 W を以下のように定める。 if i != j and Wii = 0.

• 行列            を構築する。 D は要素 (i,i) が W の i 番目の行の和となるような次

数対角行列である。

• 収束するまで を反復する。 α は( 0,1 )の範囲のパラメータである。

• F* を列 {F(t)} の極限とし、各点 xi を

によってラベル付けする。

W ij exp( x i x j2/2 2)

S D 1/ 2WD 1/ 2

F(t 1)SF(t) (1 )Y

y i argmax j Fij*

11

X はインスタンスの集合xi はインスタンス

Page 12: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

12

提案手法 : ラプラシアンラベル伝播アルゴリズム

• 類似度行列 W を右のように定める。 ただし、 A はインスタンス・パターン共起行列である。

• 正規化ラプラシアン行列              を構築する。

D は要素 (i,i) が W の i 番目の行の和となるような次数対角行列である。

• 収束するまで を繰り返す。ただし α は (0,1) の範囲のパラメータである。

• F* を列 {F(t)} の極限とし、各点 xi を

によってラベル付けする。

W ATA

LI D 1/ 2WD 1/ 2

F(t 1)( L)F(t) (1 )Y

12

y i argmax j Fij*

並列分散計算が可能なように分解

グラフラプラシアンによって意味ドリフトの影響を抑制

Page 13: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

13

列 {F(t)} は F* = (1-α)(I-αS)-1Y に収束する

証明 :• F(0) = Y とする。• 反復的に計算すると、

• 0 < α < 1 かつ (-L) の固有値は [-1, 1] にあるので、

• 従って また、分類タスクでは、これは以下と同値である。

13

F(t)(( L))t 1Y (1 ) (( L))iY .i0

t 1

limt(( L))t 1 0,

limt

(( L))i (I ( L)) 1 (I L) 1i0

t 1

F * limtF(t)(1 )(I L) 1Y,

F * (I L) 1Y .

正則化ラプラシアンカーネル(Smola and Kondor, COLT-2003) と一致する

Page 14: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

14

グラフに基づく手法は単純だが、ウェブ文書などの大規模なデータにスケールす

利点• 大規模な生データにスケールする(並列分散計算)• 数学的背景が確立している( PageRank のように求める

ことができる)

欠点• 計算効率(→近似することができる)• なにが「よい」グラフか自明ではない• 計算リソースが必要( CPU ・ディスク・メモリ・などなど)

• 扱うために(バッド)ノウハウが必要14

Page 15: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

15

検索ログからの意味カテゴリ学習実験

15

Page 16: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

16

実験設定検索ログ• 日本語ウェブ検索ログ 2008年 8月分• 頻度上位 1,000 万件(異なり)• 圧縮状態で 60GB (展開すると 300GB )

パターン• 2単語クエリパターン・クリックパターン

使用カテゴリ( Komachi and Suzuki, IJCNLP-2008 )

16

DB サイズ巨大

DB サイズ巨大

DB サイズ巨大

カテゴリ

シード

旅行 jal, ana, jr, じゃらん , his

金融 みずほ銀行 , 三井住友銀行 , jcb, 新生銀行 , 野村證券

Page 17: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

17

実験の評価

比較手法• Tchai (クエリ)・ Quetchup (クリック・

クエリ)アノテーション• 複数単語の場合は全ての単語についてドメインを付与

• 1単語について複数のドメインを付与

評価尺度• 精度• 相対再現率( Pantel and Ravichandran, NAACL-

2004 )

RA |B RARB

CA C

CB CCACB

PA| A |PB| B |

RA|B はシステム A の B に対する相対再現率CX はシステム X の出力中の正解の数C は真の正解の数PX はシステム X の精度 |X| はシステム X の入力の数

あるシステムから見た別のシステムのカバー率

Page 18: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

18

旅行ドメインでの精度

クリックスルーを用いた手法が一番高い精度

18

Page 19: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

19

金融ドメインでの精度

金融ドメインもクリックスルーログを用いた手法が一番高い精度

19

Page 20: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

20

旅行ドメインでの相対再現率

クリックスルーログを用いた手法は精度が高いだけではなく相対再現率も高い水準

20

Page 21: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

21

金融ドメインでの相対再現率

21

Page 22: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

25

抽出したクエリの上位 1万件のランダムサンプル

タイプ(頻度)

交通( 54 ) 広島 新幹線 , 東海道線 , jr飯田線 , jr博多 , 京都 新幹線宿泊( 10 ) ホテルビーナス , リーガロイヤルホテル大阪 , www.route-

inn.co.jp, ホテル京阪ユニバーサル・シティ , 札幌全日空ホテル

旅行情報( 10 )

外務省 安全 , チケットショップ 大阪 , 観光 関西 , 高山観光協会 , グーグル ナビ

旅行代理店( 6)

jr おでかけネット , 近畿ツー , タビックス 静岡 , フレックスインターナショナル , オリオンツアー

その他( 2)

プロテカ( Proteca; 旅行かばんのブランド名) , jal紀行倶楽部

無関係( 20)

格安航空チケット 海外 , 新幹線予約状況 , 新幹線 時刻表 , 温泉宿 ,新幹線 停車駅 , 虎 , youtubu 海外ドラマ , 法務部採用 , おくりびと , 社会人野球

25

Page 23: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

27

パラメータ α による Quetchupclick の性能の違い

クリックスルーグラフはクエリグラフより密なグラフを作るため、大きな αの値(初期ラベルをあまり信用しない)でも小さな α の値より精度が高かった

27

Page 24: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

28

関連研究Pasca et al. (WWW-2007, IJCAI-2007)• 自然言語処理の分野で初めてウェブ検索クエリログの重

要性を説いた• 固有表現の属性を学習することに焦点を当てている

Talukdar et al. (EMNLP-2008), Pasca and Durme (ACL-2008)

• ウェブ文書とウェブ検索クエリログを組み合わせる

Hagiwara and Suzuki (NAACL 2009)• グラフカーネル(ノイマンカーネルと拡散カーネル)を

クエリ書き換えタスクに適用

28

Page 25: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

29

まとめ

• クリックスルーログは意味知識抽出に効果が高い情報源である

• グラフ理論に基づく手法はブートストラップよりはるかに少ないパラメータで扱いやすく、理論的背景も確立されている

29

Page 26: ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得

30

今後の予定

• 自然言語処理タスクで有用な情報源についてさらに調査する

•マルコフランダムウォークとラベル伝播手法の関係について考える

• 大規模なカテゴリ・粒度の異なるカテゴリでの実験

30