corpus2008ws slide01

32
2008 年 特定領域研究「日本語のコーパス」ワークショップ 1 シソーラスによる和歌語彙の計量 コーパス分析の基礎として山元啓史 辞書編集班研究協力者 March 16, 2008

Upload: hilo-yamamoto

Post on 13-Jul-2015

90 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 1

シソーラスによる和歌語彙の計量—コーパス分析の基礎として—

山 元 啓 史辞書編集班研究協力者

March 16, 2008

Page 2: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 2

概要

• 辞書を作成するためには、語彙計量や語の分布を検討する必要がある。

• 歌ことばの可視化システムの内部データベースとして開発したシソーラスデータベースによる語彙の計量について報告する。

Page 3: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 3

歌ことば可視化システム

http://etymology.jp/waka/poem.cgi

図0–1 「吉野」の入力

Page 4: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 4

吉野 {山 |川 }の表記• よしの/吉野/芳野/よし野/吉の• 吉野山/吉野の山/吉のゝ山/よしのゝ山• 吉野河/吉野川• よしのかは/よしのがは/よしのゝかは• みよしの/み吉野/御吉野/三吉野/御よしの

→異なる表記を同じものとして処理したい。

Page 5: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 5

図0–2 八代集における「吉野」の一覧と頻度

Page 6: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 6

図0–3 可視化モデルの出力

Page 7: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 7

図0–4 ノード「咲く」に相当する和歌の出力

• モデルから実例へのトラッキング

• 共出現パターンがほぼ正規分布となる

• 1シグマで内容語の抽出がだいたい可能

Page 8: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 8

日本語とはどんな言語か

• 日本語は系統として孤立。どの語族にも属さない。

• 使用人口第8ないし9位。

• 1億人以上の人々によって話される。(宮地他、1977)

• 古代日本語、現代日本語は「大筋」において変わっていない。千年以上前の言語が均一な形で観察できる。(坂倉, 1977) → 1000年以上も前から「花」は「花」!

Page 9: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 9

和歌と言語学

• 和歌→文学作品、言語分析の資料

• とりわけ「八代集」→言語の変遷を調査するのに重要

• 八代集 (ca.905–1205):

→古今集 (ca.905)から新古今集 (1205)までの 300年間の 9500首

• 言語の変遷を見る→ 言語の形は変わらないが、意味は変わる(Goodenough, 1991) ネオポリネシア語、語形 85 %以上が英語、意味は

現地語に近かった。p.43

Page 10: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 10

八代集の語彙の転換期

和歌の転換期?説はいろいろ。

1. 一般的には古今撰者の歌の排除された後拾遺集。

2. 上野 (1976)

• 古今・後撰→〈褻の歌〉の時代• 拾遺集以降→〈晴の歌〉の時代

3. 川村 (1991)

→後拾遺集以降の変化はすでに拾遺集に見られる。

4. 辻 (1998) 語彙的には千載集。

Page 11: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 11

語彙の転換期は?

• 何を基準に転換と考えているか?

語彙の体系は一つの平面の上にかけるものではなく、意味、形、文体などいくつかの側面の総合として存在するゆえ、各側面ごとに見ていかなければならない。(宮島, 1977, p.4)

→ 視点によって異なるのでは?→ 手法や単位の認定などによっても変わっている?

Page 12: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 12

データの統一・管理

• 単語の認定の仕方次第で見方は変わってしまう。→ データの統一・管理日本語の語い調査でいちばんこまることは、「単語」という単位が

確立していないことである (宮島, 1994, p.113)

• シソーラスの目的と機能単位 → 卯の花 or 卯/の/花 (中野, 1998)

表記 → さびしい/さみしい/寂しい/淋しい体系 → 卯の花 ∈ 植物 or 卯の花 ∈ 食料

Page 13: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 13

語彙分類をすることのむずかしさ

• 意味コードによる分類 (西端, 1989; 田島, 1995)

→ 作業の困難さ。(田島, 1995)

→ 予想以上に手間取った。(西端, 1989)

• 人手による意味分類の弊害 (土屋, 1978)

→ カードによる作業者の頭で大部分が行われてしまっている。

コンピュータによる作業の軽減と統一

Page 14: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 14

本発表では

• 八代集のためのシソーラスコード辞書

• 和歌テキストへの自動的付加 (タギング)ツール

• 試用評価

について述べる。

Page 15: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 15

材料、底本

• 材料: 「八代集データベース」

→ 国文学研究資料館蔵正保版本「八代集」

900

古今集

(•90

5)

46

950

後撰集

(•95

1)

56

1000

拾遺集

(•10

07)

79

1050�

後拾遺集

(108

6)

38

1100

金葉集

(•11

24)

20

詞花集

(•11

44)

44

1150

千載集

(118

8)

17

1200

新古今集

(120

5)

1250

Page 16: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 16

シソーラスの開発方法

• 方法

和歌テキスト kh t2c

コードづけ

代表形の付加

単位分割品詞タグづけ 詳細コードの付加

表記の統一

八代集シソーラス

(A) (B)

未登録語追加

解析用古語辞書 分類語彙表(一般)地名・人名辞書

未登録語追加

Page 17: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 17

Table 1: kh の入出力の例。後撰和歌集 664 番歌。「*助」は、助詞の種類が特定できないことを示す。“---” の区間は候補が複数あることを示す。

【入力】 000664 わすられて思ふなげきのしげるをや身をはづかしのもりといふらん

【出力】 000664わすら (ラ四-未:忘る:わする:忘ら:わすら)れ (自可受-用:る:る:れ:れ)て (接助:て:て)思ふ (ハ四-終体:思ふ:おもふ:思ふ:おもふ)なげき (カ四-用:嘆く:なげく:嘆き:なげき)の (格助:の:の)しげる (ラ四-終体:茂る:しげる:茂る:しげる)を (*助:を:を)や (係助:や:や)身 (名:身:み)を (*助:を:を)---はづかし (名-地名:羽束師:はづかし)の (格助:の:の)---はづかし (形シク-終:恥づかし:はづかし:恥づかし:はづかし)の (格助:の:の)---もり (名:森:もり)と (格助-引用:と:と)いふ (ハ四-終体:言ふ:いふ:言ふ:いふ)らん (推-終体:らむ:らむ:らむ:らむ)

Page 18: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 18

t2c (token to code)とは

• kh で切り出した単語に分類コードを付加。

• 異形同語「龍田」「竜田」「立田」の分類制御を行う。

• 一般語 (BG)→分類語彙表索引を利用し、古語の追加。

• 地名 (CH)・人名 (PN)→新規作成

• 文法質 (田島, 1999)の調査のために文法関連コード体系を追加。

Page 19: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 19

コードの形式と体系 (一般語の例)

大分類(2桁)

BG-01

1.体 (名詞)

2.用 (動詞)

3.相 (形容詞・副詞)

4.その他 (接続詞など)

中分類(4桁)

5520

1.抽象的関係

2.人間活動の主体

3.人間活動-精神・行為

4.生産物および用具

5.自然および自然現象

小分類(2桁)

17(柑橘類)

個別コード(4桁)

0100(きんかん)0101(金柑)

個別コードの下2桁は表記上の違いのみを区別する。

Page 20: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 20

「花橘」の例BG-01-5520-17-0400:02:00:00:たちばな:たちばな:橘BG-01-5520-17-0401:02:00:00:橘:たちばな:橘

...

.

BG-01-5520-17-1400:02:00:00:はなたちばな:はなたちばな:花橘:→BG-01-5530-12-0100+BG-01-5520-17-0400

BG-01-5520-17-1401:02:00:00:花たちばな:はなたちばな:花橘:→BG-01-5530-12-0100+BG-01-5520-17-0400

BG-01-5520-17-1402:02:00:00:花橘:はなたちばな:花橘:→BG-01-5530-12-0100+BG-01-5520-17-0400

「→」は実際には改行のないことを意味する。

Page 21: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 21

コード仕様

• 18桁で表現

BG-01-5520-17-0100 きんかん

BG-01-5520-17-0101 金柑

• 異形同語の区別の有無18桁すべてを照合させるか、16桁までで照合させるか。

if (strncmp(str_a, str_b, 16) == 0)

printf("same object.");

else

printf("different object.");

Page 22: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 22

開発過程

• 地名、人名の追加、不足語の登録

• 厳密には分類語彙表は現代語が前提 (犬飼, 1988)

ほぼ同義同形態→問題点が少ない。同形態で語義が大きく変化している場合→大問題。

• 計 50189レコードの t2cの辞書→ 一般語 48732、地名 1408、人名 49

• 問題点 (多義語、異形同語、同形異語)

→ 「焼き魚」は魚か?(荻野, 1993)

→ 「卯の花」は、植物か?食べ物か?

Page 23: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 23

Table 2:タグづけ済みの八代集シソーラス

01:000002:0001 A00 BG-01-4240-01-0100 袖 そで 袖 0201:000002:0002 A00 BG-02-5130-01-2100 漬つ ひつ 漬つ 4701:000002:0003 A00 BG-08-0064-16-0100 て て て 6401:000002:0004 A00 BG-02-1515-08-0105 掬ぶ むすぶ 掬ぶ 4701:000002:0005 A00 BG-09-0010-04-0200 き き き 7401:000002:0006 A00 BG-01-5130-03-0201 水 みづ 水 0201:000002:0007 A00 BG-08-0061-07-0100 の の の 6101:000002:0008 A00 BG-02-5160-01-0101 凍る こほる 凍る 4701:000002:0009 A00 BG-09-0010-03-0300 り り り 7401:000002:0010 A00 BG-08-0061-10-0100 を を を 6101:000002:0011 A00 BG-01-1624-02-0100 春 はる 春 0201:000002:0012 A00 BG-02-1513-01-0100 立つ たつ 立つ 4701:000002:0012 A10 BG-02-1521-06-0200 立つ たつ 立つ 4701:000002:0012 A20 BG-02-3330-11-0200 立つ たつ 立つ 4701:000002:0012 A30 BG-02-3391-02-1100 立つ たつ 立つ 4701:000002:0013 A00 BG-01-1641-02-1100 今日 けふ 今日 0201:000002:0014 A00 BG-08-0061-07-0100 の の の 6101:000002:0015 A00 BG-01-5151-01-0100 風 かぜ 風 0201:000002:0016 A00 BG-08-0065-14-0100 や や や 6501:000002:0017 A00 BG-02-1550-05-0200 解く とく 解く 4701:000002:0017 A10 BG-02-3060-09-0400 解く とく 解く 4701:000002:0018 A00 BG-09-0010-02-0100 らむ らむ らむ 74

Page 24: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 24

検索実験

• 異形同語の検索と集計「立田」のコード「CH-29-0000-00-1800」のうち上 16

桁を検索・集計

→ 立田 (54)、竜田 (5)、龍田 (4)と合わせた頻度 (63)

を出力。

• カテゴリによる検索と集計植物名のカテゴリ「BG-01-5520」

→ 「松」をはじめ、203 種類の植物名を出力。

• 欠落したカテゴリの探索→ 食物名と和歌

Page 25: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 25

食物名と和歌

• 「あの日食べた○○はおいしかったなぁ」「心に思ふことを見るもの聞くものにつけて、言ひいだせるなり」

(紀貫之, 古今集仮名序)

→ 美食の歌は存在しないのか?

• 和歌文学での食の表現は?概して王朝文学では飲食という行為は描写の対象として軽視され

ている。和歌文学に至っては、食い物・飲み物それ自体が意識的

に排除されている。(久保田, 2003)

→ 食料のカテゴリを検索し、実験的に検証する。

Page 26: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 26

食料 BG-01-4300

表: 食料カテゴリ(BG-01-43)の内訳一覧

BG-01-4300 品目名以外、おかず、常食、飼料、餌などBG-01-4310 飯・そば・パン・汁などBG-01-4320 米・糠・小麦粉などBG-01-4321 乾物・漬物・煮物などBG-01-4322 梅干・豆腐・寒天・とろろなどBG-01-4323 さかな・鰹節・肉BG-01-4330 調味料・麹などBG-01-4340 菓子BG-01-4350 飲料・たばこBG-01-4360 薬剤・薬品BG-01-4370 化粧品

% grep "BG-01-43[1-5]" hachidaishu.db

Page 27: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 27

結果表5: 食料(BG-01-43)を八代集シソーラスより検索

1. 01 000708 0005 BG-01-4330-03-0100 塩 しほ2. 01 000758 0005 BG-01-4330-03-0100 塩 しほ3. 01 000894 0009 BG-01-4330-03-0100 塩 しほ4. 02 001095 0001 BG-01-4330-03-0100 塩 しほ4. 02 001095 0014 BG-01-4310-08-0700 蓼水 ただみ5. 03 000423 0005 BG-01-4330-03-0100 塩 しほ6. 03 001350 0006 BG-01-4310-02-0201 飯 いゐ7. 04 001203 0005 BG-01-4310-06-0102 餅 もちひ8. 05 000501 0007 BG-01-4321-01-0600 磯干鯛 いそひたひ9. 08 001115 0004 BG-01-4330-03-0100 塩 しほ10. 08 001590 0007 BG-01-4330-03-0100 塩 しほ11. 08 001592 0005 BG-01-4330-03-0100 塩 しほ12. 08 001701 0007 BG-01-4330-03-0100 塩 しほ

Page 28: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 28

食物名と和歌1. 須磨の海人の塩焼く煙風をいたみ思はぬ方に棚引きにけり

(古今 708)

5. 塩と言へばなくても辛き世中にいかにあへたる蓼水成らん(後撰 1095)

7. しなてるや片岡山に飯に飢へて臥せる旅人あはれ親なし(拾遺 1350)

8. 三日の夜の餅は食はじ煩わし聞けば淀野に母子摘む也(後拾遺 1203)

9. 逢ふことは片眠りなる磯干鯛ひねり臥すとも甲斐やなからん(金葉 501)

Page 29: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 29

食物名と和歌

• 食物名はまったくないわけではない。

• しかし、わずかな歌に見えるだけ。(0.03%)

• 久保田の指摘はきわめて正確。

• 歌ことばとして使われないカテゴリを見つけることができる。

Page 30: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 30

まとめ

• 異形同語の語も一括して検索・抽出。

• コードづけ作業の軽減。

• 上位カテゴリによる検索・集計。

• 歌ことばの利用傾向をカテゴリを通して知る。

• 上位–下位関係は十分ではない。

Page 31: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 31

おわりに

• 分類語彙表の構造を利用し、それに追加。→ 一連の基礎研究を踏襲。

• 古語としての体系の検証(課題)

• 八代集から徐々に拡張していく予定。

• データフォーマットをXMLへ拡張。

• シソーラスのインターネット公開の可能性

Page 32: Corpus2008ws slide01

2008 年 特定領域研究「日本語のコーパス」ワークショップ 32

ご質問その他

• 歌ことばモデリングシステムhttp://etymology.jp/waka/poem.cgi

• お問い合わせ: [email protected]