読解支援@2015 08-10-1

13
辞書からの上位語情報抽出と オントロジー自動生成 鈴木敏 自然言語処理 vol.16, No 1, pp.101116, 2009. プレゼンテーション 関沢祐樹 2015/08/10 1

Upload: sekizawayuuki

Post on 18-Aug-2015

16 views

Category:

Education


3 download

TRANSCRIPT

辞書からの上位語情報抽出と  オントロジー自動生成  

 鈴木敏  

自然言語処理 vol.16,  No  1,    pp.101-­‐116,  2009.

プレゼンテーション  関沢祐樹  

2015/08/10 1

概要

•  現在の日本語オントロジー  – 日本語語彙体系.etc  

•  人手で構築された大規模オントロジー  

•  提案すること  – オントロジーの自動生成  

•  辞書定義文を用いて上位語を抽出  

v オントロジー : 単語の意味的関連性を表す  

2015/08/10 2

辞書からの上位語情報抽出

•  上位語情報:ここでは、上位語と相関のある数値情報  

•  再帰的語義展開  – 見出し語の定義文を見出し語の集合とみなして、

展開することで、複数の定義文を獲得を繰り返す  •  得られた定義文を拡張定義文とする  •  単語が拡張定義文に現れるほど、頻度が高くなる  

– 確率にして、正規化  •  展開されるたびに影響が小さくなる  

2015/08/10 3

  実行例 (通信)

•  扱う単語:一般名詞、サ変名詞  –  43,915語の見出し語  –  語義曖昧性を無考慮  

•  定義文:語義文と例文  

•  拡張定義文  –  単語種類数増加  –  通信が突出していない  –  確率頻度が異なる  

•  順位付け可能  –  一般的な単語がでやすい

2015/08/10 4

�" %� �" ��%�

#� , #� ('(+(*1.

� ) � ('(*--),

�� ('()/1-+

� ) � ('(),,+)

�� ) �� ('())/+-

�� ) �� ('())-()

�63 ) �63 ('())+)+

�� ) �� ('()))/)

�2 ) �2 ('()(.*.

�� ) �� ('()(-/-

) ('((1-*)

�� ) �� ('((0,//

�� ) �� ('((0,((

�4 ('((//+)

978: ) 978: ('((/.*+

$� ) $� ('((/-+*

�5��� � ���

!=<&;?<"!;>"

上位語情報としての評価

•  仮説:見出し語の拡張定義文中に上位語がある    →重要な単語であるゆえ、確率頻度が高い    •  日本語語彙体系を正解データとして検証  –  43,915語中表記が一致した39,982語を対象  

•  予備実験:オントロジーの性質の調査  –  直接上位カテゴリ,  or  同一カテゴリを正解とすることに       図1          図2

2015/08/10 5

2015/08/10 6

2015/08/10 7

オントロジーにおける単語の意味

•  C  の意味は、上位語A,B,    および、C自身によって          特徴づけられる    

•  拡張定義文において、       Cは様々な単語から          成り立っている    この場合、A,B,Cのみを考慮  2015/08/10 8

オントロジーの自動生成

1.  見出し語を1つ選ぶ  2.  上位語候補を100個選ぶ  3.  各候補の見出し語に対する再現度を求め、最

大となる上位語を求める  4.  オントロジーの存在する確率が増加すれば上

位語を置換する  

•  この手順を、全見出し語に対して行い、    変化がなくなるまで繰り返す

2015/08/10 9

自動生成例

2015/08/10 10

2015/08/10 11

2015/08/10 12

おわりに

•  本論文が行ったこと  – 辞書定義文から上位語情報を抽出  

•  既存の手法を上回る  

– オントロジーの自動生成  

•  今後の課題  – 評価手法の確立  – 語義曖昧性の考慮  

2015/08/10 13