lod를 말하다: europeana, bbc, linkedup

32
우리도 배워야 한다. - EuropeanaBBC 2014.5.12. 박진호(성균관대학교 DataLab, [email protected]) 2014 LOD를 말하다.

Upload: jinho-park

Post on 15-May-2015

368 views

Category:

Technology


2 download

DESCRIPTION

LOD Party5: LOD를 말하다. 2014년 6월 27일 MARU180 Think룸.

TRANSCRIPT

Page 1: LOD를 말하다: Europeana, BBC, LinkedUp

우리도 배워야 한다. - Europeana와 BBC2014.5.12. 박진호(성균관대학교 DataLab, [email protected])

2014 LOD를 말하다.

Page 2: LOD를 말하다: Europeana, BBC, LinkedUp

1 | 31룸2014.6.27. MARU 180 - THINK .

대표 브랜드

유럽 디지털문화유산 검색 서비스

데이터 API

Page 3: LOD를 말하다: Europeana, BBC, LinkedUp

2 | 31룸2014.6.27. MARU 180 - THINK .

Europeana의 모든 프로젝트와 관련 정보 검색http://pro.europeana.eu

Page 4: LOD를 말하다: Europeana, BBC, LinkedUp

3 | 31룸2014.6.27. MARU 180 - THINK .

• 유로피아나는 유럽 전역에 유럽의 문화유산에 대한 자유롭고 신뢰할 수 있는 접근 제공• 유로피아나 문화 유산 컨텐츠에 대한 광범위한 접근은 물론 창의, 혁신 촉진 지원

– 유로피아나 API : 서비스 개발자, 외부의 웹사이트, 응용프로그램이 유로피아나 컬렉션 검색– 링크드 오픈 데이터 : 컨텐츠를 재사용하기 위한 방법. 웹에서 유로피아나에서 수집한 메타데이

터에 접근하고 더 풍부하게 할 수 있도록 함

Page 5: LOD를 말하다: Europeana, BBC, LinkedUp

1. Europeana - History

• 2005: 유럽연합집행위원회(European Commission)의 유럽 디지털도서관프로젝트 제안(i2010의 중요 전략 중 하나인 디지털도서관)

• 2007: i2010 자금지원으로 EDLnet(European Digital Library Network 프로토타입 시작

• 2008:유로피아나 프로토타입 서비스 시작(11월 20일)• 2009: 5백만 건 수집 달성• 2010

– 유로피아나 자금, 컨텐츠 추가 승인 요청 통과(2월). – 유로피아나 컬렉션 1,000만건 달성– 유럽연합집행위원회의 경쟁력 혁신 프레임워크 프로그램 (CIP CIP ICT-PSP)의

• 2012 : CC0 기준에 준해서 자유롭게 재사용이 가능하도록 유로피아나의 모든 메타데이터 공개. 유로피아나 켈렉션 2,500백만 달성

• 2013 : 유럽2020 의 중요한 전략 중 하나로 유럽의 Digital Agenda를 지원하는 중요한 프로젝트로 계속 진행

2014.6.27. MARU 180 - THINK .룸 | 314

Page 6: LOD를 말하다: Europeana, BBC, LinkedUp

2. Europeana - APIs

• 유로피아나 APIs를 통해서 유로피아나의 데이터베이스를 새로운 응용서비스 개발 등에 직접 활용 가능

– REST-API: 유로피아나 웹사이트에서 이용자들이 볼 수 있는 데이터와 동일한

데이터의 검색과 탐색활동이 가능하도록 함

– LOD: SPARQL을 통해서 보다 진보적인 시맨틱 검색, 탐색활동 지원이 가능한

완전한 데이터셋 다운로드 지원(현재 전체 약 3,100백만 레코드 중 2,000만 데이

터셋을 제공)

2014.6.27. MARU 180 - THINK .룸 | 315

Page 7: LOD를 말하다: Europeana, BBC, LinkedUp

3. Europeana - LOD

• LOD 구조화된 데이터를 발행하는 방법으로 메타데이터가 서로 연결되고 풍부해지도록 함으로써 동일한 컨텐츠에 서로 다른 표현들이 발견될 수 있도록하고 연관된 자원간의 연결을 만들어냄

• 유로피아나 포털 안에 존재하는 모든 객체에 대한 메타데이터는 개방되어있고, CC0 Public Domain Dedication과 유럽의 Data Exchange Agreement(DEA) 규정에 따라 자유롭게 API를 통해서 다운로드가 가능함

• 데이터는 EDM(Europeana Data Model)에 따라 모델링

2014.6.27. MARU 180 - THINK .룸 | 316

http://creativecommons.org/publicdomain/zero/1.0/http://pro.europeana.eu/support-for-open-data

Page 8: LOD를 말하다: Europeana, BBC, LinkedUp

EMD

• EDM은 초기에 Europeana Semantic Elements(ESE) 모델에서 출발

– 표현하고자 하는 대상객체를 나타내는 메타데이터의 공통 요소 발굴

– 상호운용성 강화

– 원본 데이터의 손실을 최소화

– 객체와 메타데이터 레코드 분리

– 동일 객체에 대한 다양한 레코드 정보 연결 허용

– 다른 객체를 하나의 요소로 포함해서 표현되는 객체(예, 그림책)의 표현 지원

– 통제어휘에 기반해서 개념간의 관계를 반영할 수 있는 구조

• 메타데이터 상호운용성 확보

– 서로 다른 데이터 모델간의 조화

– 특정 도메인별 요구사항들의 조화

– 데이터 손실을 줄이고 원본 데이터와 함께 운용할 수 있는 방식 고려

2014.6.27. MARU 180 - THINK .룸 | 317

Page 9: LOD를 말하다: Europeana, BBC, LinkedUp

3. Europeana Apps

2014.6.27. MARU 180 - THINK .룸 | 318

• 실제 유로피아나의 OpenAPI와 Linked Data를 활용한 응용시스템 개발 사례• 현재 약 100개의 사례 존재

Page 10: LOD를 말하다: Europeana, BBC, LinkedUp

9 | 50룸2014.6.27. MARU 180 - THINK .

Page 11: LOD를 말하다: Europeana, BBC, LinkedUp

4. Europeana Creative Challenge

2014.6.27. MARU 180 - THINK .룸 | 3110

• 2013년 2월부터 30개월간 진행• 유로피아나가 구축한 콘텐츠를 산업계에서 창의적으로 활용할 수 있도록 지원

Page 12: LOD를 말하다: Europeana, BBC, LinkedUp

5. Europeana - Cloud

• 유로피아나의 메타데이터를 보다 풍부하게 하고 이용자들에게 메타데이터는 물론 관련된 콘텐츠 제공

• 현재의 메타데이터 수집 방식– 일방적 커뮤니케이션 구조로

풍부한 메타데이터 확장과다양한 관점의 반영이 어려움

2014.6.27. MARU 180 - THINK .룸 | 3111

Page 13: LOD를 말하다: Europeana, BBC, LinkedUp

5. Europeana - Cloud

• 유로피아나 회원기관들이 공통의 시스템을 통해서 메타데이터를 업로드하고 메타데이터를 관리(메타데이터 요소명 정의, 편집, 삭제, 주석 달기 등) 수행

• 3 Party들이 메타데이터를 관리(다운로드, 편집, 삭제, 주석 달기 등) 허용

• 연구자 집단의 참여 허용

2014.6.27. MARU 180 - THINK .룸 | 3112

Page 14: LOD를 말하다: Europeana, BBC, LinkedUp

6. Europeana Business Plan

2014.6.27. MARU 180 - THINK .룸 | 3113

유로피아나 참여 기관은 하나의 생태계로써 유기적으로 움직여야 함

데이터모델링, 관련지적재산권등모두가유로피아나의켄텐츠를이익창출이가능한구조구축네트워크의효과를통해일반이용자(최종이용자)도새로운서비스개발이가능한도구와인프라제공

개방과공유에더욱집중지식정보에접근하기위한가자기본은메타데이터로이런데이터들이제대로충분히개방되고있는지점검향후에는개방된데이터들이어떻게활용되고있는지를증명할것임

Page 15: LOD를 말하다: Europeana, BBC, LinkedUp
Page 16: LOD를 말하다: Europeana, BBC, LinkedUp

1. BBC의 문제

• 온라인으로 텍스트, 비디오, 오디오 등 많은 컨텐츠를 게시함

• 대부분의 데이터가 방송별 브랜드와 특정 지식분야를 위한 것임– 특정 지식분야: 음식, 음악, 뉴스 등

• 특정 지식분야 상호간의 인터링킹은 존재하지 않았으며, 데이터를 충분히활용하고 있지 못함

2014.6.27. MARU 180 - THINK .룸 | 3115

Page 17: LOD를 말하다: Europeana, BBC, LinkedUp

2. 해결방향

• DBPedia는 통제어휘집으로써의 역할과 서비스를 제공

• 새로운 시스템으로 구 시스템을 부드럽고 유연하게 전환– BBC의 라디오, TV채널, 프로그램 브랜드를 지원할 수 있는 서비스 개발

(bbc.co.uk/programmes)

– 기존에 개방형 웹 표준(LOD)을 준수하는 서비스와 통합된 새로운 음악 서비스제공(bbc.co.uk/music)

– 아주 간단한 탐색 요소(네비게이션 요소)로 상황적, 의미적 탐색 지원

– 모든 BBC 온라인 컨텐츠를 분류하고 여러 어휘집 사이에 동등성을 확보하기 위해 웹 식별자 활용

2014.6.27. MARU 180 - THINK .룸 | 3116

Page 18: LOD를 말하다: Europeana, BBC, LinkedUp

2. 해결방향

• BBC 도메인 간에 연결 지행: 프로그램, 사람, 장소, 주제 간의 관계설정

• CIS(자동 분류 시스템)로 데이터는 자동으로 분류됨– CIS는 5개의 주요 상위 Class로 구성(Proper names, Subjects, Brands,

Time periods, Places)

• 객체는 다양한 도메인에서(프로그램, 음악 등) 사용될 수 있고 동일명칭의경우 매핑을 통해서 구분하고 식별함

• CIS의 개념을 Dbpedia와 연결

2014.6.27. MARU 180 - THINK .룸 | 3117

Page 19: LOD를 말하다: Europeana, BBC, LinkedUp

2. 해결방향

2014.6.27. MARU 180 - THINK .룸 | 3118

공유(공통) 모델링+

공유(공통) 언어(표현방식)+

공유(공통)의 이해=

지속적인 이용자 경험

주제별, 도메인별 공유(공통)된 기본 요소(장소, 사람 등)에 의한 온톨로지 모델링과 누구나 이해가능한 구조의모델링(properties 구성)RDF/OWL 등 표준 준수

DBPedia 등 동일 개념에 대한 연결

결국에는 이용자에게 혜택 제공

Page 20: LOD를 말하다: Europeana, BBC, LinkedUp

3. DSP(Dynamic Semantic Publishing) Framework

• BBC 링크드 데이터의 핵심– BBC 스포츠 사이트, BBC 2012 올림픽 콘텐츠 작성에 직접 활용

• DSP는 향상된 이용자 경험과 참여 수준을 높이기 위해 자동적으로 통합, 출판, 게시, 컨텐츠 객체의 목적변경 등을 온톨로지 모델에 기반한 정보 설계로 해결하고 있으면 핵심으로 링크드 데이터 기술을 활용하고 있음

• DSP는 HTML과 RDF로 데이터를 출판하고 또한 내부적으로 관리함

• DSP의 RDF 활용은 RDF가 의미 탐색, 콘텐츠 재사용, 검색엔진 순위 등에있어서 자동화된 처리가 가능하여 효율적이며, 다차원적인 접근점과 풍부한정보 탐색을 가능하게 함에 기인

• DSP는 관련자(기사작성자 등)들의 최소한의 관리만을 요구하며, 대부분의출판 자료는 자동으로 메타데이터와 콘텐츠 상태를 수집하고 관련된 이야기나 BBC 정보자산과 링크를 관계를 설정함

2014.6.27. MARU 180 - THINK .룸 | 3119

Page 21: LOD를 말하다: Europeana, BBC, LinkedUp

20 | 31룸2014.6.27. MARU 180 - THINK .

2010년 월드컵에 적용된 BBC내 정보자산, 태그, 도메인 온톨로지 관계도

Page 22: LOD를 말하다: Europeana, BBC, LinkedUp

4. BBC Linked Data Platform

• DSP가 자연스럽게 진화한 형태로 뉴스나 스포츠기사에 의미적 태깅을 부여한 것과 같이 BBC의 모든 컨텐츠에 태깅을 허용한다는 생각에 기초

– BBC가 관심을 갖는 모든 유형의 주제(스포츠, 정치, 자연, 음악 등)에 대해서 링크드 데이터 질의와 저장이 가능한 과정과 도구 제공

– 현재 BBC 링크드 데이터의 대표적인 사례로 거론되는 BBC Programmes과Music을 포함해서 BBC는 매일 엄청난 양의 기사를 생산, 저장

– 기존의 BBC 콘텐츠 관리 시스템은 개방되고 연결된 구조의 웹에서 재활용되고서비스되는데 부적합

– 링크드 데이터 플랫폼은 의미태깅에 따라 출판되는 각각의 저작물에 일반적인메타데이터 모델을 적용하여 저장하는데 이 모델은 모든 유형의 컨텐츠에 적용가능한 유용한 속성들을 포함하고 있어 서로 다른 시스템과의 컨텐츠 조합을 쉽게 함

2014.6.27. MARU 180 - THINK .룸 | 3121

Page 23: LOD를 말하다: Europeana, BBC, LinkedUp

4. BBC Linked Data Platform

• DSP가 자연스럽게 진화한 형태로 뉴스나 스포츠기사에 의미적 태깅을 부여한 것과 같이 BBC의 모든 콘텐츠에 태깅을 허용한다는 생각에 기초

– 링크드 데이터 플랫폼의 주 목적은 모든 BBC 저작물이 데이터 뒤에 숨겨져 있는의미를 이해할 수 있도록 하고 “things”에 대한 검색이 가능하도록 하는 API를제공하는 것임

– 이는 해당 객체(things)가 갖는 미래의 모습을 예측하는 것이 아니고 현재 존재하는 이 객체와 관련된 사실들과의 연결을 가능하게 하는 것임

– 현재 BBC는 음악, 스포츠(축구와 올림픽), 정치, 학습 분야를 플랫폼에서 출판하고 있으며 향후 다양하게 발전할 것임

2014.6.27. MARU 180 - THINK .룸 | 3122

Page 24: LOD를 말하다: Europeana, BBC, LinkedUp

5. BBC News Juicer

• 모든 BBC의 뉴스와 스포츠 기사에 대해서 개념(사람, 장소, 시간, 사건 등)을 추출하고 외부 데이터셋(DBpedia, GeoNames 등)과 동일 개념으로matching

• 시맨틱 프로토타이핑 플랫폼으로 개념 추출(Concept extraction) -DBPedia로 의미적 개념 매칭(Semantic concept matching to DBPedia) - 의미적 주석(Semantic Annotation) - RDF 저장 등의 과정을 지원

2014.6.27. MARU 180 - THINK .룸 | 3123

Page 25: LOD를 말하다: Europeana, BBC, LinkedUp

6. 실제 웹사이트를 구축하는 방식

2014.6.27. MARU 180 - THINK .룸 | 3124

개념적 모델링: 도메인별 전문가와 실제 이용자 참여. 중요 요소 리스트화 및 관계설정구축될 웹 페이지가 아니라 모델링 대상에만 집중

데이터모델링

URI 디자인: 사람중심의 가독성, hackable, 지속적인 접근성, 각각의 객체를 구분할 수있는 하나의 식별자, 향후 변화가 가능한 명칭-구조는 제외

웹 페이지 디자인: 모든 객체를 표현할 수 있는 각각의 페이지 구성

레이아웃 적용

테스트: 시스템적 기능, 성능 외에 개념적 모델링이 반영되었는가 등 확인

Page 26: LOD를 말하다: Europeana, BBC, LinkedUp
Page 27: LOD를 말하다: Europeana, BBC, LinkedUp

• 유럽연합의 프로젝트: 2012년 11월 ~ 2014년 11월• FP7의 지원 프로젝트: 교육관련 기관이 웹에서 활용 가능한 공공, 개방형 데이터의 채택과 개발을 지원

Page 28: LOD를 말하다: Europeana, BBC, LinkedUp

• Linked Education Cloud는 교육적 애플리케이션과 관련된 웹 데이터셋의 저장소이자 목록

• Web of Data 즉, Linked Data 원칙(표준)에 맞추어 데이터를 제공하고 Linked Up Community로부터 입력된 데이터에 기초하여 구축

Page 29: LOD를 말하다: Europeana, BBC, LinkedUp

• 3competitions: Veni, Vidi, Vici(왔노라, 보았노라, 이겼노라)• 교육을 목적으로 하는 개방형 웹 데이터의 통합과 분석을 위한 툴 디자인 및 개발

• Veni Competition: 2013년 6월 - 2013년 9월

• Vidi Competition: 2013년 11월 – 2014년 5월

• Vici Competition: 2014년 6월 – 2014년 10월

Page 30: LOD를 말하다: Europeana, BBC, LinkedUp

• Open Education은 가장 일반적이고 광범위하게 활용되고 있는 Open Educational Resources(OER: 자유롭게 접근이 가능하고 교수, 학습, 연구 등 교육관련 활동에 있어서 개방형 라이센스로 자유롭게 활용 가능한 자원)의 개념으로 생각하지만,

• Open Education은 교육적 데이터와 관련된 것들을 개방하는 측면을 포함하는 보다OER 보다 광범위한 개념

• Open Education 작업반은 Open Education에 관심이 있는 사람이나 조직 모두를 위해설립

Page 31: LOD를 말하다: Europeana, BBC, LinkedUp

30 | 31룸2014.6.27. MARU 180 - THINK .

• Europeana 유럽 문화유산에 대한 통합적 접근점 제공 노력 디지털 documents 서비스에서 자연스럽게 data 중심 서비스 강화로 변화

(이용자와 제공 컨텐츠의 활성화 측면에서 고려) 단순 데이터 서비스 강화가 아니라 명확한 비전-목표-실행계획-단위과제 아래에

필요한 연구, 기술인프라, 개발, 장기적 이용자 참여 수행

• BBC LOD로 공개된 데이터의 적극적 채용과 활용 LOD는 BBC의 문제점 해결하고 보다 나은 서비스 제공을 위한 방법으로 선택

(받아들여야하는 기술 트렌드로 선택한 방법이 아님)

• LinkedUp LOD 데이터는 더 많아져야 하지만 내가 필요한 (특정 도메인) 데이터를 찾기는 여

전히 어려움 특정 도메인이나 목적(Open Education)/용도/필요성이 명확한 또 다른 노력이

LOD에 필요함

Page 32: LOD를 말하다: Europeana, BBC, LinkedUp

[참고자료]

• Atherton, M. (2011), Beyond the Polar Bear [PowerPoint slides]. Retrieved from http://www.slideshare.net/reduxd/beyond-the-polar-bear

• Dunning, A. (2013), Introduction to Europeana Cloud [PowerPoint slides]. Retrieved from http://www.slideshare.net/alastairdunning/introduction-to-europeana-cloud-project

• Introduction to the Europeana Data Model (EDM) [PowerPoint slides]. Retrieved from http://pro.europeana.eu/documents/900548/2f66c73a-f5c9-49cc-a8e1-4b3ed763bc63

• Knowlton, B.(2013), What is this Europeana thing? [PowerPoint slides]. Retrieved from http://www.slideshare.net/Europeana/europeana-creative-what-is-this-europeana-thing

• http://linkedup-challenge.org/• http://www.bbc.co.uk/blogs/internet• http://www.europeana.eu• http://linkedup-project.eu/

2014.6.27. MARU 180 - THINK .룸 | 3131