database2010 01slide

36
人文系データベース協議会 2010 1 ブーリアン演算による 歌ことばモデルの解析 山元啓史 東京工業大学大学院社会理工学研究科 カリフォルニア大学サンディエゴ校環太平洋大学院大学 November 27th 2010

Upload: hilo-yamamoto

Post on 13-Jul-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

人文系データベース協議会 2010 1

ブーリアン演算による歌ことばモデルの解析

山 元 啓 史東京工業大学大学院社会理工学研究科

カリフォルニア大学サンディエゴ校環太平洋大学院大学

November 27th 2010

人文系データベース協議会 2010 2

本論の主旨

語彙とは「語の集まり」↓

集合論...ブーリアン演算↓

語彙研究の成果に貢献できるか?

人文系データベース協議会 2010 3

語彙論的研究とは何か?

語と語の

「結びつき」「まとまり」

に関する研究

人文系データベース協議会 2010 4

離散的研究と組織的研究

離散的研究−→単語の計量分析

組織的研究−→単語の類縁関係の分析(中野 1969; 犬飼 1988; 山内 1985; 西端 1996; 山田 2002 など)

→主に分類語彙表(国語研究所)の語コードを利用した研究

人文系データベース協議会 2010 5

整理の仕方

「結びつき」「まとまり」↓

何をどう整理すればよいのか?

→語彙の研究方法上の問題点は数々

人文系データベース協議会 2010 6

語の単位の問題/多義語の問題

語の単位の問題(西尾, 1988)

「リュウグウノオトヒメノモトユイノキリハズシ」

異形同語(森, 1998)

「たづ(田鶴)歌語/つる(鶴)日常語」

→多豆・多津・多都・多頭

「之努比鶴鴨(しの

偲ひつるかも)」(万葉巻一六)

同形異語(水谷, 1983)

「年月日」の上位語の「時」⇐⇒「日」の下位語の「時」

人文系データベース協議会 2010 7

結びつき/依存関係

語相互の結びつきや依存関係に関する研究はあまり報告されていない

人文系データベース協議会 2010 8

和歌の語彙分析

• 古今集データベースによる歌語の視覚化(山元 2005)

• 歌ことばの可視化とコノテーションの抽出(山元 2006)

• 和歌のための品詞タグづけシステム(山元 2007)

• ネットワークによる歌ことばのモデリング(山元 2007)

• モデリングによる歌ことばの変遷と分析(山元 2007)

• 分類コードつき八代集用語のシソーラス(山元 2009)

• 和歌解析用MeCab辞書の開発(山元 2009)

人文系データベース協議会 2010 9

グラフによる分析

• 共出現パターンとグラフ理論

• 共出現パターンの重み付け計算

人文系データベース協議会 2010 10

グラフによる分析

• 共出現パターンとグラフ理論

雪/の/ 内/に / 春/は/ 来/ に/ けり/ 鴬/の/ 凍れ/ る/ 涙/ 今/や/ 解く/ らむ

• 共出現パターンの重み付け計算

人文系データベース協議会 2010 11

グラフによる分析

• 共出現パターンとグラフ理論

• 共出現パターンの重み付け計算

人文系データベース協議会 2010 12

グラフによる分析

• 共出現パターンとグラフ理論

• 共出現パターンの重み付け計算

w(t, d) = (1+log tf(t, d)) · idf(t) (1)

cw(t1, t2, d) = (1+log ctf(t1, t2, d)) · cidf(t1, t2) (2)

cidf(t1, t2) =√

idf(t1) · idf(t2) (3)

idf(t) = logN

df(t)(4)

(1)...Manning, 1999(4)...Sparck Jones, 1972

人文系データベース協議会 2010 13

鶯と時鳥の統合モデル

鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16

毎朝

野辺8

鴬17

6

10

青柳

4

挿頭す

4

縫う 6春

88

10

立田

10

35

花 138

とまる

15

折る

22

泣く

29

鳴く145

まだ

30

8

時鳥

39

一声

8

五月

42

音羽

20

声174

110261

鳴き声

21

五月雨

14

聞く

69

聞える

37

去年

10

あやめ草

7

梢9

12

20

20

11

今朝

29

9

19

越える10

惜しむ

10

木高い

4

10

近く 6

6226

条理

8

6

案内

誘い出す4

9

送る

4

別れ

7

4

7

2010

春霞

9

立つ

10

夏山

11

ふりしぼる

6

10

56

23

44

山時鳥

9

隠れる

76

10

散る

52

10

触れる

10

10

添える

5

羽ばたく6

6

借りる

19

何時の間に

9

梢高い

7

7

はるか

5

人文系データベース協議会 2010 14

やりたいこと

「まとまり」を系統的/網羅的に分析するには?

人文系データベース協議会 2010 15

やりたいこと

グラフ図形→数理的表現論理和,論理差,論理積(ブーリアン演算)

↓語彙研究に応用する

人文系データベース協議会 2010 16

集合演算

A

B

統合/論理和

A

B

交差/論理積

A

B

差分A/論理差

A

B

差分B/論理差

A

B

排他/否定論理積

人文系データベース協議会 2010 17

方法:材料

• 国文学研究資料館開発正保版本「二十一代集」

• 長歌を除く 9484首の和歌テキスト

(シソーラスの作成はすべての和歌に対して)

• kh で単位分割 (短単位)し、

• 異形同語 (立田/竜田/龍田)の問題→ t2c でシソーラスコードをつける。

• 八代集シソーラスの開発→分類語彙表を利用

• 一般語 (48732)、地名 (1408)、人名 (49)

人文系データベース協議会 2010 18

コアノードの削除

見通しをよくする↓

プルーニング

人文系データベース協議会 2010 19

プルーニング (a)

古今プルーニングなし

梅 (23/146/146, 4.16) cw > 0.00 K:1-1 U:2 L:0.00 M:7 Z:1.00

縫ふ5

撚る

3

5

梅5

青い 3

3

挿頭す2

老ゆ

2

言ふ5 隠る2

折る

2

5

1

1

1

1

2

2

4

未だ

1

鳴く

3

26

2

春辺

1

鞍部

1

2

5

霧る

1

18

異異

1

匂ふ3

2

降る

4

咲く

3

5

1

1

1

102

誤つ

1

味気無し

1

7

1

触る

1

残す

1

3

1

1

1

2

1

著し

1

1

1

1

1

1

1

1

1

1

1

1

並べて

1

1

近し

1植う

1

闇2

1

1

1

久方1

1

紛ふ

1

其れ

2

1

1

1

月1

1

3

3

4

4

2

1

越ゆ

1

1

雪4

思ほゆ

1

居り3

厭ふ

1

1

留む

移す1

1

染む

咎む1

哀れ

2

2

4

分く

1

文無し1

宿

3

止まる

転1

1

居る

1

人文系データベース協議会 2010 20

プルーニング (b)

古今プルーニングあり

梅 (23/146/146, 4.16) cw > 0.00 K:1-1 U:2 L:0.00 M:7 Z:1.00

笠縫ふ5

撚る

3

5

青い

3柳

3

挿頭す

2

老ゆ

2

言ふ

5

隠る

2

折る

2花

5

11

1

1

2

2

4

未だ

1

鳴く

3

1

1

1

3

1

1

1

2

春辺

鞍部

1

著し

1

匂ふ

1

1

1

異異

1

1

1

11

1

1

霧る

並べて

1

誤つ

味気無し

1

近し 1

植う

1

1

1

1

久方

1

1

紛ふ

1

其れ

1

11

1

3

2

1

1

7

1

触る

1

残す

1

4

2

1

越ゆ1

1思ほゆ

1

居り

3

厭ふ

1

1

1

留む

移す1

1

染む

咎む1

哀れ

2

分く

1

文無し

1

止まる

転1

天1

居る

1

人文系データベース協議会 2010 21

プルーニング (c)

新古今プルーニングなし

梅 (25/146/146, 4.16) cw > 0.00 K:8-8 U:2 L:0.00 M:7 Z:1.00

梅7

匂ふ2

雪もよに

1

比ふ

1

花5

問ふ

2

映る

1

訪る

1

8

淡い

1

情け無し

1

尋む

1

争ふ1

折る

4

疾し

1

遅し

1

惑はす

1

別きて

1

3

2

鶯2

15

4

香る

1

1

散る

4

忘る3

降る 3

分く

2

眺む2

触る

1

羽根

1

1

1

1

移ろふ

1

雪1

1

鳴く

1

1

1

1

1

2

1

1

1尋ぬ

1

1

白妙

2

1 1

1

2

1

2

1

紛ふ

1

古る

1

1

1

1

疎し

1

1

移す

1

漏る

1

1

盛りなり

1

1寄る

1

2

1

誰 5

11

文目

1

1

違ふ

1

1

11

1

慰む

1

常なり 1

1

1

1

1種

11

遂に

1

植う

1

1

11

2

4

6

1

1

散らす

1

1

1

63

8

1

5

百敷

11

1

挿頭す

1

辛し

1

1

答ふ1

1

1

3

4

1

1

1

1

乱る

1

1

宿1

5

越ゆ

1

1

1

1後

1

軒端

1

忍ぶ

11

今朝 1

人文系データベース協議会 2010 22

プルーニング (d)

新古今プルーニングあり

梅 (25/146/146, 4.16) cw > 0.00 K:8-8 U:2 L:0.00 M:7 Z:1.00

羽根

淡い

1

1

1

移ろふ

1

降る

1

1

鳴く

1

情け無し

1

1

折る 1

1

1 唯

1

尋ぬ

1

1

白妙1

1

1

1

22

雪もよに

紛ふ

1

古る

1

1

1

1

尋む疎し1

争ふ

1

移す

1

漏る

1

匂ふ1

盛りなり

1

1

寄る

1

疾し遅し1

惑はす

別きて

1

文目

違ふ

1

1

1

分く

1

1

1

1

映る

1

2

比ふ

1

問ふ2

花5

訪る

1

1

1

1

1

1

1

遂に

1

植う

1

1

1

1

1 1

散らす

香る1

1

1

1

1

2

百敷

1

挿頭す

11

辛し

1

1

答ふ

1

1

1

1

1

1

忘る

1

3

乱る

1 1

宿

1

昔2

慰む

1

常なり1

越ゆ

11

1

触る1

6

1

袖3

忍ぶ

1

1

今朝

1

人文系データベース協議会 2010 23

かはづ1

かはづ 1

蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00

山吹

蛙10

井手4

鳴く9

移ろふ

3

神無備川

1

7 5

10

閉づ

1

漁る

1

3 1

浮く2

集く

1

流石に

1

騒ぐ

1

隠れる

1

忍ぶ

2

1

咲く

2

汲む1 菱

1水錆

1

11

11

1

1

1

県1

1

井戸

1折る

1

1

1

1

3

1

1

1

1

水4

1

1

2

2

1

1

3

3

小田1

1

哀れ

1

7

1九重

11

1

折 11

1

2

1盛りなり

1 1

1

人文系データベース協議会 2010 24

かはづ2

かはづ 2

蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00

山吹 井手4

鳴く9

移ろふ

3

神無備川

1

7

水錆

1

閉づ

1

漁る

1

浮く

1

1

1

1

1

井戸1

折る

1

1

1

3

1

夫1

1

小田

流石に

1

哀れ

1

集く

騒ぐ

1

1

隠れる

1

九重1

汲む

1

1

1

2

11

3

盛りなり

1

1

人文系データベース協議会 2010 25

蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00

山吹 井手4

鳴く9

移ろふ

3

神無備川

1

7

水錆

1

閉づ

1

漁る

1

浮く

1

1

1

1

1

井戸1

折る

1

1

1

3

1

夫1

1

小田

流石に

1

哀れ

1

集く

騒ぐ

1

1

隠れる

1

九重1

汲む

1

1

1

2

11

3

盛りなり

1

1

81477おりにあへはこれもさすかに 哀なりを田のかはつの夕暮の聲(忠良)

人文系データベース協議会 2010 26

蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00

山吹 井手4

鳴く9

移ろふ

3

神無備川

1

7

水錆

1

閉づ

1

漁る

1

浮く

1

1

1

1

1

井戸1

折る

1

1

1

3

1

夫1

1

小田

流石に

1

哀れ

1

集く

騒ぐ

1

1

隠れる

1

九重1

汲む

1

1

1

2

11

3

盛りなり

1

1

10125かはつなくゐての山吹 ちりにけり花のさかりにあはまし物を  (読人不知)

人文系データベース協議会 2010 27

蛙 (15/15/15, 6.45) cw > 0.00 K:1-8 U:2 L:0.00 M:7 Z:1.00

山吹 井手4

鳴く9

移ろふ

3

神無備川

1

7

水錆

1

閉づ

1

漁る

1

浮く

1

1

1

1

1

井戸1

折る

1

1

1

3

1

夫1

1

小田

流石に

1

哀れ

1

集く

騒ぐ

1

1

隠れる

1

九重1

汲む

1

1

1

2

11

3

盛りなり

1

1

70203あさりせし水のみさひに とちられてひしの浮はに蛙なくなり  (俊頼)

人文系データベース協議会 2010 28

2語の共有ノードの違い

•コアノード自体の共有

•2語の共有ノード数

→「鶯」と「桜」/「梅」

人文系データベース協議会 2010 29

「鶯/桜」(a)の統合と交差

「鶯/桜」(a)の統合と交差

人文系データベース協議会 2010 30

「鶯/梅」(b)の統合と交差

「鶯/梅」(b)の統合と交差

人文系データベース協議会 2010 31

歌集で変化する共有ノード

「桜」と「吉野」

•古今集における「桜/吉野」

•新古今集における「桜/吉野」

→「吉野」と「雪」

人文系データベース協議会 2010 32

古今集「桜/吉野」の交差

古今集「桜/吉野」の交差

人文系データベース協議会 2010 33

新古今集「桜/吉野」の交差

新古今集「桜/吉野」の交差

人文系データベース協議会 2010 34

おわりに

• ブーリアン演算による語彙の分析方法を提案した。

• 共出現パターンの違いを統合・交差を用いて示した。

• 時代にわたって2語の関係の変化を示した。

• 研究目的に応じて、適宜判断しなければならない!

• どの演算がどういう局面に有効か?

• 2語のパターンの抽出は均等に行われているか?

人文系データベース協議会 2010 35

研究計画

• 相対的違いとはいってもどの程度違うのか?

• 数値処理できるほどの客観的尺度化は可能か?

• 詠み手による同じ語の用法の違い?

人文系データベース協議会 2010 36

開発計画

• すべてのパスをあらかじめ計算しておく?

• ノード間を視点が移動

• ノードの色分け

• ネットワークの活性化、不活性化、

• ズームアウト、ズームイン