書誌データベースの異体字処理 -谷と穀は同じ字か-

30
書誌データベースの異体字処理 -谷と穀は同じ字か- 京都大学工学研究科 桂化学系図書室 長坂和茂 [email protected] 大学図書館問題研究会 第44回全国大会 研究発表 1

Upload: zhangmao

Post on 31-May-2015

645 views

Category:

Documents


1 download

DESCRIPTION

第44回大図研全国大会研究発表の内容です。

TRANSCRIPT

Page 1: 書誌データベースの異体字処理 -谷と穀は同じ字か-

書誌データベースの異体字処理

-谷と穀は同じ字か-

京都大学工学研究科

桂化学系図書室

長坂和茂

[email protected]

大学図書館問題研究会 第44回全国大会 研究発表

1

Page 2: 書誌データベースの異体字処理 -谷と穀は同じ字か-

ところで

• 谷と穀は同じ字か

• 違うと思う人

• 同じだと思う人

2

Page 3: 書誌データベースの異体字処理 -谷と穀は同じ字か-

簡体字

• 谷は穀の簡体字

• 「じゃあ谷の簡体字は?」 →谷です。

• 「こんなの図書館の世界で使うの?」

3

Page 4: 書誌データベースの異体字処理 -谷と穀は同じ字か-

春秋穀梁伝

穀梁傳 - 维基百科,自由的百科全書

http://zh.wikipedia.org/wiki/%E7%A9%80%E6%A2%81%E5%82%B3 (閲覧:2012/7/10)

4

Page 5: 書誌データベースの異体字処理 -谷と穀は同じ字か-

春秋穀梁伝

谷梁传_百度百科 http://baike.baidu.com/view/40190.htm (閲覧:2012/7/10)

ちなみに。本当はWikipediaの表示を「大陸簡体」にするだけのつもりだったのに、ノートに「榖梁是姓氏,不能被简化成谷梁。简体字中有“榖”这个字,简体字文章中亦是用“榖梁传”。BlazOops (留言) 2008年9月12日 (五) 11:32

(UTC)」って書いてあって、簡体字にしても表示が谷にならなかった。 5

Page 6: 書誌データベースの異体字処理 -谷と穀は同じ字か-

何が言いたいかというと

• 「春秋穀梁伝」は

• 「春秋穀梁傳」と書かれたり

• 「春秋谷梁传」と書かれたりする

• 全部中身は同じもの。使われている漢字が違うだけ

• では、書誌データベースはこれらをどう扱っているのか。

6

Page 7: 書誌データベースの異体字処理 -谷と穀は同じ字か-

なんでそんなことを考えなあかんねん

• もし「春秋穀梁伝」で検索して、繁体字・簡体字で書かれたものもヒットすると思い込んで検索したら、検索モレが発生する可能性

• 反論「だったら全部OR検索すればいいんじゃない?」

• →……その通り。けど簡体字とか繁体字に変換するのめんどいじゃん。

7

Page 8: 書誌データベースの異体字処理 -谷と穀は同じ字か-

その通りなんだけど

• 日本人は古くから「中国語」を「漢文」と称して「日本語」として読んできた、という経緯

• 東洋文学とか東洋史の学生・研究者(=我々のお客様)は簡体字も繁体字も新字体も普通に読む、という事実

• その人たちにサービスするのが我々の仕事

8

Page 9: 書誌データベースの異体字処理 -谷と穀は同じ字か-

異体字の定義

• 今回はUnicodeを基準とする

→「しんにょう」の点の数や「しめすへん」が示かネかの違いなど)は考慮に入れず、同じ字として扱う。

Ex.

9

Page 10: 書誌データベースの異体字処理 -谷と穀は同じ字か-

簡体字・繁体字・新字体

• ざっと説明

• 大まかに言って、もともと日本も中国ももともと繁体字(旧字体)を使っていた

• 戦後日本は新字体を、中国は簡体字(简化字 )を、台湾はそのまま繁体字(正體字)を使用するようになり、文字がバラバラになる。

• 細かい事情などは省略。

10

Page 11: 書誌データベースの異体字処理 -谷と穀は同じ字か-

いろいろあって

• Unicodeでは、同じ字体の文字には同じコードが、違う字体の文字には違うコードが与えられた。

• 別のコードが宛てられた文字(コンピュータから見れば完全に別の文字)をどのようにして、どの範囲まで「同じ文字」として扱うべきか。

11

Page 12: 書誌データベースの異体字処理 -谷と穀は同じ字か-

今回対象とするデータベース

• CiNii Books

• NDL-OPAC

• NDL Search

• 理由

1.比較的新しく、分析が進んでいない

2.Google的、のイメージから、テキトーな検索キーワードでもなんとか探してくれるんじゃないか、という期待が発生している気がする。

3.古典的な資料(=同じ「著作」が簡体字・繁体字・新字体それぞれで書かれている可能性が高い)が論文よりも図書に多い。

12

Page 13: 書誌データベースの異体字処理 -谷と穀は同じ字か-

予想

• CiNii BooksはNACSIS-Webcatの後継なので、NII

の漢字統合インデックス準拠

• NDL-OPACは「漢字は日本漢字、簡体字、繁体字

のいずれでも検索可能」ただし「複数の正体字が同じ簡体字に置き換わる場合」は別の字

• NDL-Searchは「日本漢字、簡体字、繁体字は別字として認識」

国立国会図書館サーチ、NDL-OPACにおけるアジア言語資料の検索について: アジア情報室通報 第10巻第1号 http://rnavi.ndl.go.jp/asia/entry/bulletin10-1-3.php

(閲覧:2013/7/29) 13

Page 14: 書誌データベースの異体字処理 -谷と穀は同じ字か-

テスト用に使った漢字 A B C D E ウ

ン ゲイ

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

芸 芸

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

芸 艺

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

蕓 藝

14

Page 15: 書誌データベースの異体字処理 -谷と穀は同じ字か-

テスト方法

• A not BとB not Aで検索して、ヒット件数がどちらもゼロなら、A=Bといえる

• と思ったら、NDL-Searchにはnot検索がなかったので、仕方ないのでAとBの件数を比較。

15

Page 16: 書誌データベースの異体字処理 -谷と穀は同じ字か-

CiNii Books(予想) A B C D E ウ

ン ゲイ

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

芸 芸

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

芸 艺

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

蕓 藝

16

Page 17: 書誌データベースの異体字処理 -谷と穀は同じ字か-

CiNii Books A B C D E ウ

ン ゲイ

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

芸 芸

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

芸 艺

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

蕓 藝

17

Page 18: 書誌データベースの異体字処理 -谷と穀は同じ字か-

NDL-OPAC(予想) A B C D E ウ

ン ゲイ

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

芸 芸

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

芸 艺

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

蕓 藝

18

Page 19: 書誌データベースの異体字処理 -谷と穀は同じ字か-

NDL-OPAC

あれ? 穀=谷? 複数の正体字が同じ簡体字に置き換わる場合」は別の字のはず

A B C D E ウン

ゲイ

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

芸 芸

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

芸 艺

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

蕓 藝

19

Page 20: 書誌データベースの異体字処理 -谷と穀は同じ字か-

NDL-Search(予想) A B C D E ウ

ン ゲイ

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

芸 芸

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

芸 艺

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

蕓 藝

20

Page 21: 書誌データベースの異体字処理 -谷と穀は同じ字か-

NDL-Search

一致するものも、件数は一致するが、適合度順は異なる。

圖=図で、學=学だが、吳≠呉で、內≠内……なんでや?

A B C D E ウン

ゲイ

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

芸 芸

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

芸 艺

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

蕓 藝

21

Page 22: 書誌データベースの異体字処理 -谷と穀は同じ字か-

予想との乖離

• CiNii Books→なし。漢字統合インデックスのストライクゾーンの広さを知っていれば不思議でもなんでもない。(書=昼とか)

• NDL-OPAC→穀=谷。しかし、後≠后で機≠机。→穀,谷だけが例外なのか?

• NDL-Search→圖=図、學=学(予想はずれ)。 吳≠呉、內≠内(予想あたり)→繁体字の中でも一致するものとしないものがある→法則は?

22

Page 23: 書誌データベースの異体字処理 -谷と穀は同じ字か-

NDL-OPAC検証

• 何故、穀=谷?

• 同類を他にも調べてみた。鬱(郁)、醜(丑)、雲(云)、乾・幹(干)などは全て別の文字扱い

• もう一度。何故、穀=谷?

• 誰か分かる人は教えてください。

23

Page 24: 書誌データベースの異体字処理 -谷と穀は同じ字か-

NDL-Search検証

• 圖=図、學=学。吳≠呉、內≠内。

• と、こうやってpptに貼り付けてゴシック体にしてみてわかったけど、圖と學はMS Pゴシックに字が有るけど、吳と內には無い。

• この間京都大学附属図書館の書架をブラウジングしてたら以下のような記事を発見。

24

Page 25: 書誌データベースの異体字処理 -谷と穀は同じ字か-

NDL-Search検証

(近代デジタルライブラリーについて)「検索時の異体字の関連づけは第1~第4水準内に限られている」

• 富田倫生「冊子からテキストへ 文字コードがもたらすものと強いるもの (特集 図書館における全文テキストデータの可能性について)」『現代の図書館』49(2), 2011, p. 95-103 の p. 101

• JIS X 0208 圖 5426、學 555C 、吳 範囲外、內 範囲外

• →仮説「NDL-SearchはJIS第4水準までの旧字体を新字体に統合している」

25

Page 26: 書誌データベースの異体字処理 -谷と穀は同じ字か-

さらに検証

• とすれば……第3水準・第4水準の旧字体が統合されているか確認。

• 禰(第3水準)=祢を確認

• 第4水準表を見たが「○○という字の旧字体(繁体字)である」といえる字が見つからなかった。

• 第3水準の禰=祢なので、JIS X0208だけではなく、JISX0213を含むことは間違いない。

26

Page 27: 書誌データベースの異体字処理 -谷と穀は同じ字か-

どちらにしても

• NDLサーチについて、先に引用した「日本漢字、簡体字、繁体字は別字として認識されます。」という説明における「日本漢字」には一部の旧字体も含むので、注意が必要。

• 但し、適合度順でソートした時の順序は異なる。

27

Page 28: 書誌データベースの異体字処理 -谷と穀は同じ字か-

CiNii Books検証

• 漢字統合インデックスは簡体字・繁体字だけでなく「似た形や同じ意味の漢字」を統合する

• 例:書=昼(晝)

• なのになぜか書=昼と画(畫)は別の字扱い

• ちなみに、NDL-Searchで図昼館で検索すると……「公共圖晝館經營に關する感想片々 / 伊東平藏 」???

• NDL-Searchには「圖畫館」もあった

• 目録作成時のミスのよう。(目次部分は業者委託らしい)

28

Page 29: 書誌データベースの異体字処理 -谷と穀は同じ字か-

まとめ

• CiNii Booksは簡体字とか繁体字とか気にせず検索できる代わりに、それらを区別した検索はできない

• NDL-OPACは簡体字が現代日本で別の漢字として使われている場合に注意が必要

• NDL-Searchは基本的に別の文字は別の文字として扱うと思ったほうがいい

29

Page 30: 書誌データベースの異体字処理 -谷と穀は同じ字か-

おわり

京都大学工学研究科 桂化学系図書室

長坂和茂

30