日本におけるlinked dataの課題とその解決への試み
DESCRIPTION
JEITA 知識情報処理技術に関するシンポジウム 2011年3月1日 「リンクするデータ、リンクするサービス」TRANSCRIPT
Hideaki Takeda / National Institute of Informatics
日本における Linked Data の課題とその解決への試み
武田英明[email protected] @takechan2000
国立情報学研究所
JEITA 知識情報処理技術に関するシンポジウム 2011 年 3 月 1 日「リンクするデータ、リンクするサービス」
LODAC project team大向一輝、加藤文彦、嘉村哲郎、高橋徹、上田洋
Hideaki Takeda / National Institute of Informatics
あらまし 情報循環 Linked Data Linked Data の日本における課題 LODAC Museum
Hideaki Takeda / National Institute of Informatics
情報循環
&
共有
収集
利用
公開
創造
情報は過去の情報を利用して作られる 無から生じない 収集 -> 利用・創造
情報の価値は利用されてこそ生じる 使われない情報には意味がない 利用・創造 -> 公開
情報の共有は社会の基盤 情報流通は社会の健全性の源 公開 -> 共有 -> 収集
Hideaki Takeda / National Institute of Informatics
情報循環
&
共有
収集
利用
公開
創造
グーテンベルグ以前 手段
手書き口伝
情報循環のスケール遅く少量わずかな人々
印刷革命、通信革命以後
Hideaki Takeda / National Institute of Informatics
マスメディア時代の情報循環2 つの層の断絶
共有
収集
利用
公開
創造
作家、学者、芸術家新聞記者、 TV 局政府…
創造一般市民
Hideaki Takeda / National Institute of Informatics
WebWeb 時代の情報循環
共有
収集
利用
公開
HTML エディタ
Web サーバ
インターネット
検索エンジン
創造Web ブラウザ
情報循環のスケール 高速 大量 大人数(分け隔てなく)
Hideaki Takeda / National Institute of Informatics
セマンティック Web人による循環から人と機械による循環へ
&
共有
収集
利用
公開
創造
Semantic Web
Hideaki Takeda / National Institute of Informatics
セマンティック Web
これまでの Web ( HTML) 人による理解のための情報として記述 コンピュータによる処理は苦手
セマンティック Web 人とコンピュータ双方が利用できる情報として記述 方法
メタデータによる記述オントロジーによるメタデータの構造化
Hideaki Takeda / National Institute of Informatics
セマンティック Web の階梯 Web を“知的”にしていく階梯
URI :情報の一意性の確保 RDF :メタデータの記述言語 RDFS/OWL: オントロジーの記述言語 推論 ・・・
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
クラスに関する記述
インスタンスに関する記述
オントロジー
Linked Data
Hideaki Takeda / National Institute of Informatics
Linked Data Linked Data とは “ Web of Data”
RDF で公開されるデータ 外部から参照可能
Linked Data のための 4 条件 事柄の名前に URI を使うこと
すべてのモノ,コトに URIを! 名前の参照が HTTP URI でできること
DOIとかいった URNは使わないでね URI を参照したときに関連情報が手に入るように
理解可能なデータを提供してね. 外部へのリンクも含めよう
Webのようにリンクでつながるデータを作ろう
Linked Data, TBL, http://www.w3.org/DesignIssues/LinkedData.html
Hideaki Takeda / National Institute of Informatics
LOD Cloud(Linking Open Data)
Hideaki Takeda / National Institute of Informatics
セマンティック Web人による循環から人と機械による循環へ
&
共有
収集
利用
公開
創造
Linked Data
Hideaki Takeda / National Institute of Informatics
Linked Data における公的機関のデータの重要性 もともと共有すべき情報 我々の社会の知識基盤
様々な公的機関 図書館 美術館・博物館 文書館 政府
&
共有
収集
利用
公開
創造
Linked Data
Hideaki Takeda / National Institute of Informatics
Linked Data の日本での課題 共有文化の欠如 Linked Data コミュニティの未発達中心的データの欠如 日本語の取り扱い
Hideaki Takeda / National Institute of Informatics
共有文化の欠如 公共性に関する意識の薄さ
公開と共有の文化 公共性の違い
官 vs. 民由らしむべし知らしむべからず
“ 共有地”
共有の文化の普及の必要性
Hideaki Takeda / National Institute of Informatics
Linked Data コミュニティの未発達 文理共同の必要性
技術系のコミュニティ 文化系のコミュニティ 両者を交えたコミュニティ
TAKE ACTOIN! / 行動しよう LODAC project
Hideaki Takeda / National Institute of Informatics
中心的データの欠如 Dbpedia は Linked Data の中心
とにかく Dbpedia につなげば LOD に入れる
日本語版 dbpedia を準備中!
Hideaki Takeda / National Institute of Informatics
日本語の問題 日本語を使うときの問題 コード
IRI を使えば文字コードとしては原理的は OKだが、特殊文字や各種ツールの対応が問題になることがある IRI (Internationalized Resource Identifier)
Hideaki Takeda / National Institute of Informatics
日本語の問題 メタデータは日本語 ? 英語 ?
日本語なら利点
( 日本人には ) 理解しやすい翻訳しないので簡単にデータが作れる
欠点 日英混交 日本人のみ理解
英語なら利点
国際的に流通 コードがクリーンで扱いやすい
欠点翻訳が必要、翻訳時の揺らぎ
目的でわけよう
Hideaki Takeda / National Institute of Informatics
LODAC Project
学術リソースのためのオープン・ソーシャル・セマンティック Web 基盤の構築 2010 年 4 月開始 Linked Data の基盤をつくる 実際にデータを集め利用可能にする
現在興味をもっている分野 美術館・博物館情報 地理・地名情報 ローカル情報 …
Hideaki Takeda / National Institute of Informatics
LODAC-Museum (仮 )
日本の美術館・博物館情報の現状 分散
各館で維持孤立
透明性がない各館それぞれで設計ばらばら
美術館・博物館情報を集めて関係づける LODAC-Museum (仮 )
Hideaki Takeda / National Institute of Informatics
Hideaki Takeda / National Institute of Informatics
20102008
13 million objects28 data aggregators1500 participating institutions200 partners35 FTE’s21 projects1 million visits in 201030,000 My Europeana signeeStable portalOpen Source Code EuropeanaLabsPublic Domain Charter
prototype operational service
Jill Cousins, Europeana Overview, Europeana Open Culture 2010 http://version1.europeana.eu/web/europeana-plenary-2010/presentations
Hideaki Takeda / National Institute of Informatics
http://lod.ac/ (2010 年 12 月 11 日オープン )
Hideaki Takeda / National Institute of Informatics
LODAC Museum – 主たる作業 データの収集
シソーラス、博物館・美術館情報など データの標準化
異なる情報源からのデータを統一的なフォーマットで表現 データの集約
データの同定 同一データの統合
公開
Hideaki Takeda / National Institute of Informatics
情報源 横断的データ
日本美術シソーラス DB絵画編 国指定文化財データベース 文化遺産オンライン(美術館情報のみ)
美術館・博物館 (現在 14 館 ) 国立美術館所蔵作品総合目録検
索システム ( 国立国際美術館,京都国立近代美術館,東京国立近代美術館 )
国立西洋美術館 京都国立博物館 奈良国立博物館 福島県立美術館
それ以外のデータ DBPedia Japan
栃木県立美術館 秋田県立近代美術館 岩手県立美術館 徳島県立近代美術館 山梨県立美術館 東京都現代美術館 香川県立東山魁夷せとうち
美術館
Hideaki Takeda / National Institute of Informatics
メタデータ設計 基本構造
作品 – 作者 – 収蔵館 専門的正確さより相互運用可能性、簡便性を優先
DC> DCTerm> FOAF> iCal >SKOS>NDLSH> RDA> CIDOC CRM
Keep it flat as long as possiblePREFIX URI crm http://purl.org/NET/cidoc-crm/core#
dc http://purl.org/dc/terms/
dc11 http://purl.org/dc/elements/1.1/
foaf http://xmlns.com/foaf/0.1/
skos http://www.w3.org/2004/02/skos/core#
rdfs http://www.w3.org/2000/01/rdf-schema#
ical http://www.w3.org/2002/12/cal/ical#
rda2 http://RDVocab.info/ElementsGr2
lodac http://lod.ac/ns/lodac#
lodac:Work Property( 一部項目省略 )資料分類 lodac:genre文化財 lodac:culturalAssets制作者 dc:creator / dc11:creator国籍 crm:P7_took_place_at作品名 dc:title / skos:prefLabel作品名読み dc:title @ja-hrkt / skos:altLabel作品名英語 dc:title @en / skos:altLabel銘文 crm:P62I_is_depicted_by印章 crm:P65_shows_visual_item員数 crm:P57_has_number_of_partsコレクション dc:isPartOf制作年 dc:created推定始年 lodac:estimatedStartYear材質 dc:medium / crm:P45_consists_of
メタデータ要素作品 : 46作者 : 23組織: 13書誌: 12
Hideaki Takeda / National Institute of Informatics
統合のポリシー どうやって異なる情報源の情報を統合するか
責任の分担各情報源はその情報に対する責任
LODAC は単に ID を同定して管理。LODAC は統合の部分だけの責任
LODAC ID を各情報源 ID に関連づけるData from Source B
28
Integrated data
dc:references dc:references
dc:references dc:references
dc:references dc:references
dc:creatordc:creator
crm:P55_has_current_location crm:P55_has_current_location
crm:P55_has_current_location dc:creator
Data from Source A
Work
Museum
Creator
Hideaki Takeda / National Institute of Informatics
例:作者情報の統合 作者情報統合の手順
統合元:日本美術シソーラス絵画編 統合対象:各情報源データ中の作者情報 統合元:文字列マッチング 作品情報中の作者と作者ノードを関連づける
LODAC data
Link to Work
DBpedia
Basic Information for Creators
Links
Hideaki Takeda / National Institute of Informatics
Hideaki Takeda / National Institute of Informatics
統合情報( 作品 )
一覧
Hideaki Takeda / National Institute of Informatics
WikiPedia の解説分を引用!
Hideaki Takeda / National Institute of Informatics
日本美術シソーラスの情報,専門性が高い
Hideaki Takeda / National Institute of Informatics
徳島県立美術館
Hideaki Takeda / National Institute of Informatics
東京近代美術館
Hideaki Takeda / National Institute of Informatics
国指定文化財データベース
Hideaki Takeda / National Institute of Informatics
徳島県立美術館 日本美術シソーラス 国指定文化財データベース
国立東京近代美術館 福井県立美術館
Hideaki Takeda / National Institute of Informatics
38
LODAC Museum のデータ
情報源 情報種別 データ数
国立美術館 (西美を除く 3 館 ) 作品 25180
国立西洋美術館 作品 4373
京都国立博物館 作品 5819
奈良国立博物館 作品 431
福島県立美術館 作品 20
栃木県立美術館 作品 32
秋田県立近代美術館 作品 22
岩手県立美術館 作品 1558
徳島県立近代美術館 作品 18482
山梨県立美術館 作品 262
東京都現代美術館 作品 5416
香川県立東山魁夷せとうち美術館 作品 266
日本美術シソーラス DB 作品 3800
日本美術シソーラス DB 人物 1332
日本美術シソーラス DB グループ 289
日本美術シソーラス DB 所蔵館情報 648
文化遺産オンライン 所蔵館情報 915
国指定文化財データベース 作品 10115
合計 103096
総データ数 特定項目キーの単純文字列統合実験結果
統合項目 情報源 データ数 統合数
所蔵館名 日本美術シソーラス 648 77
文化遺産オンライン 915
国宝・重文資料タイトル
日本美術シソーラス ( 作品 )
3800 74
国指定文化財 DB( 作品 ) 10115
作者名による資料タイトル
日本美術シソーラス ( 人物 )
1332 15020
各館 ( 作品 ) 61861
作者名 日本美術シソーラス ( 人物 )
1332 615
各館 ( 作品 ) 61861
「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,
単純文字列マッチでは少ない値となった
「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出
Hideaki Takeda / National Institute of Informatics
39
LOD の発展の方向 様々な分野のデータがつながるこ
とでデータの新しい価値
一つの主題に関わる情報集約 例)作者↔作品↔各地の所蔵館↔地域情報
一つの場所に関わる情報集約 例)地名↔地図↔観測データ↔論文 例)地名↔地理↔古地図↔古文献
様々なコミュニティからの情報の集約 例) Wikpedia ↔ 論文↔ データサイ
ト
集合知とのつながり
ミュージアム LOD
地域情報 LOD 学術論文、データ
地理LOD
Hideaki Takeda / National Institute of Informatics
40
LOD応用例 (地域情報 +ミュージアム )
地域情報 LOD 観光情報 LOD + ミュージアムLOD 地図情報 LOD
関連資料を巡る日本縦断ツアー
地域とイベント情報による展覧会 +α の情報
資料に登場する歴史メニューが食べられる食情報 +資料情報 +地域情報
ゲームやドラマに使用された資料軌跡( 新たなターゲット層の獲得 )
Hideaki Takeda / National Institute of Informatics
LOD応用例 : ミュージアム 2.0
ユーザによるコメントとコレクション関係の発見 学芸員ではない一般ユーザによる資料コメント
ex. 仏像フェチ 資料にある情報だけを見るのではなく様々な情報とつ
なげてコレクションを作る → 元資料に興味を持つ可能性も
1.弁財天像 2.了法寺 (八王子 )
例えば・・・1. 仏像への個人的解釈2. お寺にある弁財天像3. 動画サイトの動画4. 周辺情報の発信
3.了法寺テーマソング 4. イベント
Hideaki Takeda / National Institute of Informatics
まとめ Linked Data は情報共有の新しい方法 Metadata はより重要になっている いま行動するチャンス