database2010 01slide
TRANSCRIPT
人文系データベース協議会 2010 1
ブーリアン演算による歌ことばモデルの解析
山 元 啓 史東京工業大学大学院社会理工学研究科
カリフォルニア大学サンディエゴ校環太平洋大学院大学
November 27th 2010
人文系データベース協議会 2010 4
離散的研究と組織的研究
離散的研究−→単語の計量分析
組織的研究−→単語の類縁関係の分析(中野 1969; 犬飼 1988; 山内 1985; 西端 1996; 山田 2002 など)
→主に分類語彙表(国語研究所)の語コードを利用した研究
人文系データベース協議会 2010 6
語の単位の問題/多義語の問題
語の単位の問題(西尾, 1988)
「リュウグウノオトヒメノモトユイノキリハズシ」
異形同語(森, 1998)
「たづ(田鶴)歌語/つる(鶴)日常語」
→多豆・多津・多都・多頭
「之努比鶴鴨(しの
偲ひつるかも)」(万葉巻一六)
同形異語(水谷, 1983)
「年月日」の上位語の「時」⇐⇒「日」の下位語の「時」
人文系データベース協議会 2010 8
和歌の語彙分析
• 古今集データベースによる歌語の視覚化(山元 2005)
• 歌ことばの可視化とコノテーションの抽出(山元 2006)
• 和歌のための品詞タグづけシステム(山元 2007)
• ネットワークによる歌ことばのモデリング(山元 2007)
• モデリングによる歌ことばの変遷と分析(山元 2007)
• 分類コードつき八代集用語のシソーラス(山元 2009)
• 和歌解析用MeCab辞書の開発(山元 2009)
人文系データベース協議会 2010 10
グラフによる分析
• 共出現パターンとグラフ理論
雪/の/ 内/に / 春/は/ 来/ に/ けり/ 鴬/の/ 凍れ/ る/ 涙/ 今/や/ 解く/ らむ
• 共出現パターンの重み付け計算
人文系データベース協議会 2010 12
グラフによる分析
• 共出現パターンとグラフ理論
• 共出現パターンの重み付け計算
w(t, d) = (1+log tf(t, d)) · idf(t) (1)
cw(t1, t2, d) = (1+log ctf(t1, t2, d)) · cidf(t1, t2) (2)
cidf(t1, t2) =√
idf(t1) · idf(t2) (3)
idf(t) = logN
df(t)(4)
(1)...Manning, 1999(4)...Sparck Jones, 1972
人文系データベース協議会 2010 13
鶯と時鳥の統合モデル
鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16
毎朝
野辺8
鴬17
老
笠
6
10
青柳
4
挿頭す
4
縫う 6春
88
10
立田
10
枝
35
花 138
とまる
15
折る
22
泣く
29
鳴く145
まだ
30
夏
横
8
時鳥
39
一声
8
五月
42
音羽
20
声174
山
110261
鳴き声
21
五月雨
14
聞く
69
聞える
37
去年
10
あやめ草
7
梢9
12
20
20
11
今朝
29
9
19
越える10
惜しむ
10
木高い
4
10
近く 6
6226
条理
8
6
案内
誘い出す4
9
送る
4
別れ
7
4
香
7
2010
春霞
9
立つ
10
夏山
11
ふりしぼる
6
梅
10
56
23
44
山時鳥
9
隠れる
76
10
散る
52
10
触れる
10
手
10
添える
5
羽ばたく6
6
借りる
19
何時の間に
9
梢高い
7
7
はるか
5
人文系データベース協議会 2010 17
方法:材料
• 国文学研究資料館開発正保版本「二十一代集」
• 長歌を除く 9484首の和歌テキスト
(シソーラスの作成はすべての和歌に対して)
• kh で単位分割 (短単位)し、
• 異形同語 (立田/竜田/龍田)の問題→ t2c でシソーラスコードをつける。
• 八代集シソーラスの開発→分類語彙表を利用
• 一般語 (48732)、地名 (1408)、人名 (49)
人文系データベース協議会 2010 19
プルーニング (a)
古今プルーニングなし
梅 (23/146/146, 4.16) cw > 0.00 K:1-1 U:2 L:0.00 M:7 Z:1.00
笠
縫ふ5
撚る
3
鶯
5
梅5
青い 3
柳
3
挿頭す2
老ゆ
2
言ふ5 隠る2
折る
2
花
5
1
1
1
1
2
2
来
4
未だ
1
鳴く
3
26
2
春辺
1
鞍部
1
2
5
霧る
1
18
異異
1
匂ふ3
枝
2
降る
4
咲く
3
5
1
1
1
香
102
誤つ
1
味気無し
1
7
1
触る
1
残す
1
糸
3
1
1
1
2
1
著し
1
1
1
1
1
末
1
園
1
1
1
1
1
1
並べて
1
1
近し
1植う
1
闇2
1
1
1
久方1
1
紛ふ
1
其れ
2
1
1
1
月1
1
誰
3
3
色
4
4
2
1
越ゆ
1
1
雪4
思ほゆ
1
居り3
厭ふ
1
1
留む
移す1
1
染む
咎む1
哀れ
2
2
袖
4
分く
1
文無し1
宿
3
止まる
転1
天
1
居る
1
人文系データベース協議会 2010 20
プルーニング (b)
古今プルーニングあり
梅 (23/146/146, 4.16) cw > 0.00 K:1-1 U:2 L:0.00 M:7 Z:1.00
笠縫ふ5
撚る
3
鶯
5
青い
3柳
3
挿頭す
2
老ゆ
2
言ふ
5
隠る
2
折る
2花
5
11
1
1
2
2
来
4
未だ
1
鳴く
3
1
1
1
糸
3
1
1
1
2
春辺
鞍部
1
著し
1
匂ふ
1
1
1
異異
1
末
1
園
1
枝
11
1
1
霧る
並べて
1
誤つ
味気無し
1
近し 1
植う
1
闇
1
1
1
久方
1
1
紛ふ
1
其れ
1
11
月
1
誰
香
3
2
1
1
7
1
触る
1
残す
1
色
4
2
1
越ゆ1
1思ほゆ
1
居り
3
厭ふ
1
1
1
留む
移す1
1
染む
咎む1
哀れ
2
分く
1
文無し
1
止まる
転1
天1
居る
1
人文系データベース協議会 2010 21
プルーニング (c)
新古今プルーニングなし
梅 (25/146/146, 4.16) cw > 0.00 K:8-8 U:2 L:0.00 M:7 Z:1.00
香
梅7
匂ふ2
雪もよに
1
比ふ
1
花5
問ふ
2
映る
1
訪る
1
8
淡い
1
情け無し
1
尋む
1
争ふ1
折る
4
疾し
1
遅し
1
惑はす
1
別きて
1
枝
3
2
鶯2
15
4
香る
1
1
散る
4
忘る3
降る 3
分く
2
眺む2
触る
1
羽根
1
1
1
1
移ろふ
1
雪1
1
鳴く
1
末
1
1
主
1
1
2
1
垣
1
唯
1尋ぬ
1
根
1
白妙
2
1 1
1
2
紅
1
2
1
紛ふ
1
古る
1
木
1
草
1
1
疎し
1
軒
1
移す
1
漏る
1
1
盛りなり
1
1寄る
1
2
1
誰 5
11
文目
1
1
違ふ
1
1
11
1
慰む
1
常なり 1
折
1
1
1
1種
11
遂に
1
植う
1
1
11
昔
2
4
6
1
1
散らす
1
1
1
袖
63
春
8
1
5
百敷
11
1
挿頭す
1
辛し
1
1
答ふ1
1
1
色
3
4
1
1
1
1
乱る
1
1
宿1
月
5
越ゆ
1
1
上
1
1後
1
軒端
1
忍ぶ
11
今朝 1
人文系データベース協議会 2010 22
プルーニング (d)
新古今プルーニングあり
梅 (25/146/146, 4.16) cw > 0.00 K:8-8 U:2 L:0.00 M:7 Z:1.00
羽根
淡い
1
枝
1
鶯
1
移ろふ
1
降る
1
雪
1
鳴く
1
末
情け無し
1
主
1
折る 1
1
垣
1 唯
1
尋ぬ
1
根
1
白妙1
1
1
紅
1
22
雪もよに
紛ふ
1
古る
1
木
1
草
1
1
尋む疎し1
軒
争ふ
1
移す
1
漏る
1
匂ふ1
盛りなり
1
1
寄る
1
疾し遅し1
惑はす
別きて
1
文目
違ふ
1
1
1
分く
1
1
1
香
1
映る
1
2
比ふ
1
問ふ2
花5
訪る
1
折
1
1
1
1
種
1
1
遂に
1
植う
1
1
1
1
1 1
散らす
香る1
1
1
1
1
2
百敷
1
挿頭す
11
辛し
1
1
答ふ
1
1
1
1
1
1
忘る
1
色
3
乱る
1 1
宿
1
昔2
慰む
1
常なり1
越ゆ
11
上
1
触る1
6
後
1
袖3
忍ぶ
1
1
今朝
1
人文系データベース協議会 2010 23
かはづ1
かはづ 1
蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00
山吹
蛙10
井手4
鳴く9
移ろふ
3
神無備川
1
花
7 5
10
閉づ
1
漁る
1
3 1
浮く2
集く
1
流石に
1
騒ぐ
1
隠れる
1
忍ぶ
2
宜
1
咲く
2
汲む1 菱
1水錆
1
11
11
1
1
1
県1
1
井戸
1折る
1
1
1
1
3
1
夫
1
1
1
水4
1
1
人
2
2
1
1
今
3
3
小田1
1
哀れ
1
7
1九重
11
1
折 11
1
影
2
沢
1盛りなり
1 1
1
人文系データベース協議会 2010 24
かはづ2
かはづ 2
蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00
山吹 井手4
鳴く9
移ろふ
3
神無備川
1
花
7
菱
水錆
1
閉づ
1
漁る
1
浮く
1
1
1
1
県
1
井戸1
折る
1
1
1
3
1
夫1
1
小田
流石に
1
哀れ
1
集く
騒ぐ
1
1
隠れる
1
九重1
汲む
1
折
1
1
人
2
11
今
3
盛りなり
1
1
人文系データベース協議会 2010 25
蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00
山吹 井手4
鳴く9
移ろふ
3
神無備川
1
花
7
菱
水錆
1
閉づ
1
漁る
1
浮く
1
1
1
1
県
1
井戸1
折る
1
1
1
3
1
夫1
1
小田
流石に
1
哀れ
1
集く
騒ぐ
1
1
隠れる
1
九重1
汲む
1
折
1
1
人
2
11
今
3
盛りなり
1
1
81477おりにあへはこれもさすかに 哀なりを田のかはつの夕暮の聲(忠良)
人文系データベース協議会 2010 26
蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00
山吹 井手4
鳴く9
移ろふ
3
神無備川
1
花
7
菱
水錆
1
閉づ
1
漁る
1
浮く
1
1
1
1
県
1
井戸1
折る
1
1
1
3
1
夫1
1
小田
流石に
1
哀れ
1
集く
騒ぐ
1
1
隠れる
1
九重1
汲む
1
折
1
1
人
2
11
今
3
盛りなり
1
1
10125かはつなくゐての山吹 ちりにけり花のさかりにあはまし物を (読人不知)
人文系データベース協議会 2010 27
蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00
山吹 井手4
鳴く9
移ろふ
3
神無備川
1
花
7
菱
水錆
1
閉づ
1
漁る
1
浮く
1
1
1
1
県
1
井戸1
折る
1
1
1
3
1
夫1
1
小田
流石に
1
哀れ
1
集く
騒ぐ
1
1
隠れる
1
九重1
汲む
1
折
1
1
人
2
11
今
3
盛りなり
1
1
70203あさりせし水のみさひに とちられてひしの浮はに蛙なくなり (俊頼)
人文系データベース協議会 2010 34
おわりに
• ブーリアン演算による語彙の分析方法を提案した。
• 共出現パターンの違いを統合・交差を用いて示した。
• 時代にわたって2語の関係の変化を示した。
• 研究目的に応じて、適宜判断しなければならない!
• どの演算がどういう局面に有効か?
• 2語のパターンの抽出は均等に行われているか?