教育研究論文索引とciniiの重複率(情報知識学会 第19...

27
教育研究論文索引とCiNii の重複率 江草由佳(国立教育政策研究所) 高久雅生(物質・材料研究機構)

Upload: yuka-egusa

Post on 31-May-2015

866 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

教育研究論文索引とCiNiiの重複率

江草由佳(国立教育政策研究所)

高久雅生(物質・材料研究機構)

Page 2: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

背景

• 様々な論文データベース– 作成方針が様々

• シームレスにつなげて利用したいニーズの高まり

• 解決策:例えば、リンクリゾルバ– なかなかうまくできない現実

– 表記の揺れがあり、そのままの書誌データではうまくつなげられない

– 統一的なIDがない(IDがあればつなげるのは簡単)• すべてにIDが付与されているわけではない。

– 過去に作成した膨大なデータをどうするか?• (新しい論文はIDがついている(DOIなど)、付けられるとしてよいとしても)

Page 3: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

目的

• モチベーション:

– 異なる作成方針のデータベースをシームレスにつなげたい

• 基礎的な調査として

– 2つの異なる作成方針のデータベースの重複率の調査

– 調査手法の確立

Page 4: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

対象データベース(1)‐‐ 教育研究論文索引(EPI) ‐‐

• 国立教育政策研究所教育研究情報センター教育図書館(以降は教育図書館と呼ぶ)が作成

• 教育分野の研究論文や記事のみを収録

• 収録対象誌

– 教育図書館が受け入れた大学紀要すべて

– 教育関係雑誌(学協会、商業誌)約300誌

• 181,294件(2011年3月時点)

Page 5: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

対象データベース(2)‐‐ CiNii(サイニィ) ‐‐

• 国立情報学研究所(NII)が作成

• 複数のデータベース作成機関より提供されたデータベースを統合したデータベース– 引用文献索引データベース(NII)

自然科学分野の論文の引用文献– NACSIS‐ELS(NII)

大学紀要や学協会誌など– 雑誌記事索引(国立国会図書館)

学協会誌、商業誌なども含む– J‐STAGE(科学技術振興機構)など

学協会誌

• 14,727,980件(2011/05/22 現在)

Page 6: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

調査結果

• EPI(教育研究論文索引)

• CiNii (サイニィ) 

重複率(EPIのうち、CiNiiにもあるレコード)は:

59% ~ 64% 

EPI

CiNii

※EPI とCiNii に重複しているレコードは,EPIの164,643 件中,少なくとも97,166 件(59%)は ある。サンプル調査の結果では、64%であった。

Page 7: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

調査方法と調査時期

• 調査方法

– 全数調査:全てのレコードを対象

– サンプル調査:サンプル1000件のレコードを対象

• 調査時期

– 第1期・・・2009年2月20日~2010年3月19日– 第2期・・・2010年3月30日~2011年2月4日

Page 8: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

調査方法(全数調査)

EPI

TSV論文書誌

論文書誌

論文書誌

TSV

論文書誌EPI01

論文書誌EPI02

論文書誌EPI03

候補論文書誌CiNii01

候補論文書誌CiNii02

候補論文書誌CiNii03

正解

不正解

不正解

同じ論文をさす論文書誌かどうか人手判定

候補検出プログラム

全データを抽出

CiNii

一致率が著しく低下したら中止する

類似度順

相澤のiLinkageによるレコード同定の手法

本当にCiNiiにないかは不明

・・・

・・・

Page 9: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

候補論文出力例

• EPI書誌ID: EA00000770• EPIの書誌データ: 松本昭彦 中古・中世文学に見る

「七歳」の意味 小学校満六歳入学制の淵源として三重大学教育学部研究紀要 教育科学 三重大学教育学部 59 311 320 2008

• CiNiiの書誌データ: 著者: 松本 昭彦 Matsumoto Akihiko;論題: 中古 中世文学に見る 七歳 の意味小学校満六歳入学制の淵源として; 掲載誌: 三重大学教育学部紀要 自然 人文 社会 教育科学;巻号: 59;ページ: 1‐10;発行年: 2008

• CiNiiのURL: http://ci.nii.ac.jp/naid/120001164708• 類似度: 0.150938

Page 10: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

調査方法(サンプル調査)

EPI

TSV

論文書誌

論文書誌

論文書誌

TSV

論文書誌EPI01

論文書誌EPI02

論文書誌EPI03

候補論文書誌CiNii01

候補論文書誌CiNii02

候補論文書誌CiNii03

正解

不正解

不正解

同じ論文をさす論文書誌かどうか人手判定

候補検出プログラム

ランダムに1000件抽出

CiNii

CiNiiにあり

CiNiiになし

CiNiiにあるかどうか人手調査

相澤のiLinkageによるレコード同定の手法

Page 11: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

EPIレコード数(予稿集:表2)

手順 第1期 第2期

データ取得 154,624 164,643候補検出 154,624 163,265

人手判定候補 154,624 68,956

人手判定 99,500 17,000

‐1,378

‐94,309

第1期ですでに判定済みのもの(当該候補CiNii 論文データが不一致と判明しているもの,もしくはすでに,EPI 論文データと一致CiNii 論文データが判明しているの)

候補がなかったもの

削除レコード1件を除き1期分をすべて含む

Page 12: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

第1期,第2期調査のまとめ(p.128 表6)

全164,643件中(少なくとも)98,222件CiNiiと重複したレコードがあるつまり 98,222 ÷ 164,643 = 59.7%

Page 13: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

サンプル調査結果(p.128 表7)

639 =

= =138 355

=361

つまり、レコード1000件中639件CiNiiにもあるレコードである。63.9%が重複する

Page 14: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

639

361

重複論文

重複なし

108, 17%

528, 83%

本文の有無本文あり 本文なし

8, 7% 6, 6%

95, 87%

有料 定額公開 オープンアクセス

本文の有無

※CiNiiのAPIのうち、2011年5月23日に追加された項目:「CiNii本文有無と提供条件」を使用して調査した

Page 15: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

まとめ

• 全数調査(類似度の高いものから全て):– 第1期は99,500レコードの人手判定– 第2期は17,000レコードの人手判定– EPI:164643件中少なくとも98,222件(59.7%)はCiNiiにもある

重複したレコード

• サンプル調査(1000件のランダム抽出):– EPI:1000件のうち、639件(63.9%)はCiNiiにもある重複した

レコード– うち、本文があるものは108件であり、1000件のうち10.8%

は本文があった。

• この結果は教育図書館の実サービスに反映– EPIからCiNiiへのリンクが実現

Page 16: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

謝辞

• 調査に使用した教育研究論文索引レコードに対するCiNii 論文候補検出は,相澤彰子教授

(国立情報学研究所)が開発したレコード同定システムとその同定結果をご提供いただいたものです.深く感謝いたします.

Page 17: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

ここからは予備スライド

Page 18: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

調査時期(予稿集:表1)

手順 第1期 第2期

データ取得 ’09年2月20日 ’10年3月30日

候補検出 ’09年3月15日 ’10年4月22日

人手判定’09年12月7日

~’10年3月19日

’10年11月25日~

’11年2月4日

Page 19: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

第1期判定分の結果(予稿集:表4)

Page 20: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

第2期分の判定結果(予稿集:表5)

Page 21: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

EPIレコード例

• 書誌ID: EA00000770

• 論題名: 中古・中世文学に見る「七歳」の意味―小学校満六歳入学制の淵源として

• 掲載誌名: 三重大学教育学部研究紀要

• 巻号: 59

• 著者: 松本昭彦

• 発行日付: 2008.3

• ISSN: 0389925X

• 掲載ページ: 311-320

Page 22: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

候補検出論文の項目

• EPIの論文書誌レコードデータ

• 対応するCiNiiの候補論文書誌レコードデータ,URL

• EPI論文とCiNii候補論文の類似度

Page 23: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

類似度の分布(予稿集:表3)

Page 24: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

サンプル調査結果(図3)

‐1

‐0.8

‐0.6

‐0.4

‐0.2

0

0.2

0.4

0.6

0.8

1

0 100 200 300 400 500 600 700 800 900 1000

1:CiNiiにある 0:CiNiiにない

類似度(‐1は未検出)

Page 25: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

CiNiiに未収録の具体例 (表8)

Page 26: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

判定の判断が難しかったレコード

• 書誌レコードを作成する際の入力ミスと推定されるもの

• EPI とCiNii のレコードの記述規則による違いによるもの

• 特集号全体と特集号の一論文など収録粒度の違いに起因するもの

Page 27: 教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

レコードの人手判定

• 論文書誌情報が単に同一のものであるか否かを見るだけではない

• 粒度や,いくつかの情報源を参照しながら判定を行う

• 書誌レコードの粒度が異なる場合は異なるレコードと判定– 例:

• 特集号全体を1つのレコードとしたものと,

• 特集号の中の1 論文が1 つのレコードとなっているもの→ 異なるレコードとして判定する