cinii books apiを利用した所蔵情報可視化

16
CiNii Books APIを利用した 所蔵情報可視化 大谷周平 長屋俊 林豊(Li:d tech)

Upload: shuhei-otani

Post on 01-Jul-2015

1.612 views

Category:

Entertainment & Humor


4 download

DESCRIPTION

一部後日公開予定のスライドがあります。 11/28 公開しました。

TRANSCRIPT

CiNii Books APIを利用した所蔵情報可視化 大谷周平 長屋俊 林豊(Li:d tech)

Li:d tech

•  “技術書を一緒に読もう”と同年代の3人+1人で2011年スタート

•  遠隔地(茨城・京都・沖縄→福岡)なのでMLで情報やアイディアの共有

•  ブログでアウトプット

Lid: tech Blog

•  Katachi •  ささくれ •  めじるし。 •  よしなしごと

Li:d tech

Why?

5/1 ブログエントリ.CiNii Books APIで所蔵館数

が出力されない件など. ささくれ(林)

7/12 CiNii Books APIが改修されて所蔵館数の取

   得可能に

8/2 某M課長から” CiNii Booksの全所蔵と所蔵

   館数のグラフが欲しい”とのオファーが

Why

8/11 NIIからCiNii Books の全データを提供して

   貰うのは時間的に厳しいことが判明

8/12 APIを使って900万件のデータ取得(長屋)

8/13〜 取得データを用いて可視化(林)

How?

•  APIからシェルスクリプトを使って取得

•  APIから一度に取得できるデータは20万件が上限

 →1年ごとに分割して取得

 →20万件を超える年は、ソート順をかえて

  再度取得、重複データを削除

Data Summary

•  921万件の図書書誌と1億1321万個の所蔵

•  最も多く所蔵されている図書は

 「新英和大辞典」研究社,1974.(1077館)

•  350万件のレコードは所蔵館1のみ

Visualization CiNii

京都大学人環・総人図書館 国際京大学図書・情報センター

天使大学図書館 長岡工業高専図書館

ウィルキン・グラフ

http://haseharu.org/labs/rdbs/

Future Work

•  いくつかの観点でさらなる分析

Ex.出版年や和洋別の分析、機関ごとのクラスタリング……

•  機関ごとの特徴がわかるような分析やツールの開発

ぜひ、CiNiiの全データを取得できる機能を

m(__)m