Download - オープンデータの技術よりな話
オープンデータの技術よりな話
ROIS&LODI 加藤文彦 2013-06-20
第2回オープンデータ京都勉強会
1
加藤 文彦 (かとうふみひろ)• 情報・システム研究機構 特任研究員
• LODACプロジェクト
• DBpedia Japanese
• リンクト・オープン・データ・イニシアティブ 理事
• CKAN
• Open DATA METI
• コミュニティ
• Linked Data勉強会
• Linked Open Data チャレンジ Japan
• CKAN日本語
2
第一回のこれ前提
詳しくはslideshareで!3
5
Web Data
6
Webのどこかにファイル置けばおk
7
専用のWebサイト作ればなお良し
8
9
10
11
CKAN• FLOSSのデータポータルソフトウェア
• AGPL v3.0
• http://github.com/okfn/ckan
• Open Knowledge Foundation
• 約50の国や地方自治体等で採用
• Python+JavaScript
• PostgreSQL+SOLR
• API提供
• 豊富な拡張
12
13
14
15
Open License
16
“データやコンテンツがオープンであるというのは,クレジット表示と/またはライセンスの継承をするくらいの条件で,誰もが自由に利用,再利用,再配布できるということである.”
The Open Defini+on -‐ h.p://opendefini+on.org
17
◯ ☓18
CC0/PDDL最強
19
大体BYくらい
20
21
22
23
(machine) REdable
24
構造化データ
25
プログラムから扱えるほうが嬉しい
26
27
28
Open Format
29
ベンダー非依存の標準化されたデータ形式
30
仕様読めるライブラリ書ける
特定のツール等に縛られない...
31
CSV, XML, JSON, ...
32
33
http://www.w3.org/2013/04/odw/report
34
http://www.w3.org/2013/04/odw/report
35
37
Uniform Resource Identifier
38
http://data.linkedopendata.jp/dataset/sabae-shisetsu
39
40
<http://www3.city.sabae.fukui.jp/xml/public/001> <http://linkdata.org/property/rdf1s131i#name> "市役所"@ja ;
<http://linkdata.org/property/rdf1s131i#tel> "0778-51-2200"@ja ; <http://linkdata.org/property/rdf1s131i#zipcode> "916-8666"@ja ; <http://linkdata.org/property/rdf1s131i#address> "鯖江市西山町13番1号"@ja ;
<http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.956509"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.184193"^^xsd:float .
41
<http://www3.city.sabae.fukui.jp/xml/public/001> <http://linkdata.org/property/rdf1s131i#name> "市役所"@ja ;
<http://linkdata.org/property/rdf1s131i#tel> "0778-51-2200"@ja ; <http://linkdata.org/property/rdf1s131i#zipcode> "916-8666"@ja ; <http://linkdata.org/property/rdf1s131i#address> "鯖江市西山町13番1号"@ja ;
<http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.956509"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.184193"^^xsd:float .
ID name tel zipcode address lat long
001 市役所 0778-51-2200 916-8666鯖江市西山町13番1号 35.956509 136.184193
42
<http://www3.city.sabae.fukui.jp/xml/public/001> <http://linkdata.org/property/rdf1s131i#name> "市役所"@ja ;
<http://linkdata.org/property/rdf1s131i#tel> "0778-51-2200"@ja ; <http://linkdata.org/property/rdf1s131i#zipcode> "916-8666"@ja ; <http://linkdata.org/property/rdf1s131i#address> "鯖江市西山町13番1号"@ja ;
<http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.956509"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.184193"^^xsd:float .
IDをURIにすると世界でユニークなIDになる
ID name tel zipcode address lat long
001 市役所 0778-51-2200 916-8666鯖江市西山町13番1号 35.956509 136.184193
43
26
44
26
ISO3166-2:JP京都府
工業統計コード生産用機械器具製造業
FC東京阿部 巧
45
26
ISO3166-2:JP京都府
工業統計コード生産用機械器具製造業
FC東京阿部 巧
http://www.iso.org/3166-2/jp/26
http://www.fctokyo.co.jp/players/2013/26http://www.meti.go.jp/industrial-code/26
46
47
Linked Data
48
Linked Data
•Web技術でデータを公開・共有・統合するためのベストプラクティス
• "データのWeb"• HTTP, URI/IRI, リンク, グラフモデル, 構造化データ
49
ID name tel zipcode prefecture
001 市役所 0778-51-2200 916-8666 福井県
50
ID name population
18 福井県 795824
26 京都府 2623924
ID name tel zipcode prefecture
001 市役所 0778-51-2200 916-8666 18
51
URI name population
http://.../3166/jp/18 福井県 795824
http://.../3166/jp/26 京都府 2623924
ID name tel zipcode prefecture
001 市役所 0778-51-2200 916-8666 http://.../3166/jp/18
IDをURIにすることで外部から参照される
52
OpenRefine• Freebase Gridworks, GoogleRefine
• データと遊ぶためのツール (一部要拡張)
• インポート形式: *SV, Excel, JSON, XML, RDF/XML Google Data(Spreadsheet, Fusion Table)
• エクスポート形式: *SV, HTML, Excel, ODF Spreadsheet, MQL, RDF/XML, RDF/Turtle
• アップロード: Freebase, CKAN
• ビュアー: ファセット, フィルター,フラグ
• 編集履歴
• スクリプト: GREL
• データ変換
• データ公開
• 様々な拡張
• Reconciliation
53
Reconciliation• ラベル(と付加情報)にマッチする潜在的なエンティティリストを推薦
• Apple社 vs フルーツのapple vs New York City
• pathやURI
• サービス
• Freebase
• Reconciliation API
• SPARQL (要RDFRefine)
54
55
Webの原則1. IRIをHTML文書の識別子として使う
2. IRIにはhttpスキームを使う
3. IRIを見るとHTML文書が返ってくる
4. HTML文書には他のIRIへのリンクがある
56
Linked Dataの原則1. URIをモノ(Thing)の識別子として使う
2. URIにはhttpスキームを使う
3. URIを見るとモノのデータが返ってくる
4. データには他のURIへの型付リンクがある
子供
執筆
発行日
誕生日出版社
所在地
"Things, not Strings" by Google
57
子供
執筆
発行日
誕生日出版社
所在地
58
子供
執筆
発行日
誕生日出版社
所在地
59
グラフのシリアライズ形式• Turtle (N3)• JSON-LD• RDFa• Microdata• RDF/XML• TriX• TriG• ......
60
63
https://developers.google.com/gmail/schemas/reference/formats/json-ld
64
As of September 2011
MusicBrainz
(zitgist)
P20
Turismo de
Zaragoza
yovisto
Yahoo! Geo
Planet
YAGO
World Fact-book
El ViajeroTourism
WordNet (W3C)
WordNet (VUA)
VIVO UF
VIVO Indiana
VIVO Cornell
VIAF
URIBurner
Sussex Reading
Lists
Plymouth Reading
Lists
UniRef
UniProt
UMBEL
UK Post-codes
legislationdata.gov.uk
Uberblic
UB Mann-heim
TWC LOGD
Twarql
transportdata.gov.
uk
Traffic Scotland
theses.fr
Thesau-rus W
totl.net
Tele-graphis
TCMGeneDIT
TaxonConcept
Open Library (Talis)
tags2con delicious
t4gminfo
Swedish Open
Cultural Heritage
Surge Radio
Sudoc
STW
RAMEAU SH
statisticsdata.gov.
uk
St. Andrews Resource
Lists
ECS South-ampton EPrints
SSW Thesaur
us
SmartLink
Slideshare2RDF
semanticweb.org
SemanticTweet
Semantic XBRL
SWDog Food
Source Code Ecosystem Linked Data
US SEC (rdfabout)
Sears
Scotland Geo-
graphy
ScotlandPupils &Exams
Scholaro-meter
WordNet (RKB
Explorer)
Wiki
UN/LOCODE
Ulm
ECS (RKB
Explorer)
Roma
RISKS
RESEX
RAE2001
Pisa
OS
OAI
NSF
New-castle
LAASKISTI
JISC
IRIT
IEEE
IBM
Eurécom
ERA
ePrints dotAC
DEPLOY
DBLP (RKB
Explorer)
Crime Reports
UK
Course-ware
CORDIS (RKB
Explorer)CiteSeer
Budapest
ACM
riese
Revyu
researchdata.gov.
ukRen. Energy Genera-
tors
referencedata.gov.
uk
Recht-spraak.
nl
RDFohloh
Last.FM (rdfize)
RDF Book
Mashup
Rådata nå!
PSH
Product Types
Ontology
ProductDB
PBAC
Poké-pédia
patentsdata.go
v.uk
OxPoints
Ord-nance Survey
Openly Local
Open Library
OpenCyc
Open Corpo-rates
OpenCalais
OpenEI
Open Election
Data Project
OpenData
Thesau-rus
Ontos News Portal
OGOLOD
JanusAMP
Ocean Drilling Codices
New York
Times
NVD
ntnusc
NTU Resource
Lists
Norwe-gian
MeSH
NDL subjects
ndlna
myExperi-ment
Italian Museums
medu-cator
MARC Codes List
Man-chester Reading
Lists
Lotico
Weather Stations
London Gazette
LOIUS
Linked Open Colors
lobidResources
lobidOrgani-sations
LEM
LinkedMDB
LinkedLCCN
LinkedGeoData
LinkedCT
LinkedUser
FeedbackLOV
Linked Open
Numbers
LODE
Eurostat (OntologyCentral)
Linked EDGAR
(OntologyCentral)
Linked Crunch-
base
lingvoj
Lichfield Spen-ding
LIBRIS
Lexvo
LCSH
DBLP (L3S)
Linked Sensor Data (Kno.e.sis)
Klapp-stuhl-club
Good-win
Family
National Radio-activity
JP
Jamendo (DBtune)
Italian public
schools
ISTAT Immi-gration
iServe
IdRef Sudoc
NSZL Catalog
Hellenic PD
Hellenic FBD
PiedmontAccomo-dations
GovTrack
GovWILD
GoogleArt
wrapper
gnoss
GESIS
GeoWordNet
GeoSpecies
GeoNames
GeoLinkedData
GEMET
GTAA
STITCH
SIDER
Project Guten-berg
MediCare
Euro-stat
(FUB)
EURES
DrugBank
Disea-some
DBLP (FU
Berlin)
DailyMed
CORDIS(FUB)
Freebase
flickr wrappr
Fishes of Texas
Finnish Munici-palities
ChEMBL
FanHubz
EventMedia
EUTC Produc-
tions
Eurostat
Europeana
EUNIS
EU Insti-
tutions
ESD stan-dards
EARTh
Enipedia
Popula-tion (En-AKTing)
NHS(En-
AKTing) Mortality(En-
AKTing)
Energy (En-
AKTing)
Crime(En-
AKTing)
CO2 Emission
(En-AKTing)
EEA
SISVU
education.data.g
ov.uk
ECS South-ampton
ECCO-TCP
GND
Didactalia
DDC Deutsche Bio-
graphie
datadcs
MusicBrainz
(DBTune)
Magna-tune
John Peel
(DBTune)
Classical (DB
Tune)
AudioScrobbler (DBTune)
Last.FM artists
(DBTune)
DBTropes
Portu-guese
DBpedia
dbpedia lite
Greek DBpedia
DBpedia
data-open-ac-uk
SMCJournals
Pokedex
Airports
NASA (Data Incu-bator)
MusicBrainz(Data
Incubator)
Moseley Folk
Metoffice Weather Forecasts
Discogs (Data
Incubator)
Climbing
data.gov.uk intervals
Data Gov.ie
databnf.fr
Cornetto
reegle
Chronic-ling
America
Chem2Bio2RDF
Calames
businessdata.gov.
uk
Bricklink
Brazilian Poli-
ticians
BNB
UniSTS
UniPathway
UniParc
Taxonomy
UniProt(Bio2RDF)
SGD
Reactome
PubMedPub
Chem
PRO-SITE
ProDom
Pfam
PDB
OMIMMGI
KEGG Reaction
KEGG Pathway
KEGG Glycan
KEGG Enzyme
KEGG Drug
KEGG Com-pound
InterPro
HomoloGene
HGNC
Gene Ontology
GeneID
Affy-metrix
bible ontology
BibBase
FTS
BBC Wildlife Finder
BBC Program
mes BBC Music
Alpine Ski
Austria
LOCAH
Amster-dam
Museum
AGROVOC
AEMET
US Census (rdfabout)
Media
Geographic
Publications
Government
Cross-domain
Life sciences
User-generated content
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
65
http://wiki.dbpedia.org/Internationalization/Chapters
68
http://ja.dbpedia.org
69
http://ja.dbpedia.org/resource/京都市
70
71
http://linkedgeodata.org/triplify/node355845257
73
74
クエリ言語
• データの検索や操作を行うための言語• データモデルやDBシステムに合わせて設計
• 例: SQL
–データモデル: 関係モデル
–DBシステム: RDBMS
• LODのデータモデル: グラフモデル
75
SPARQL• LOD用クエリ言語
– データモデル: RDF (ラベル付き有向グラフ)
– プロトコル: HTTP
• W3C仕様
– 1.0: Recommendations
– 1.1: Working Drafts
76
SPARQLエンドポイント
• SPARQLクエリを受け付ける場所
– SPARQLエンドポイントURI
• プログラムからSPARQLを使うときに指定
– 入力フォームがある場合
77
79