Введение в концепцию связанных открытых данных (linked open...

44
Связанные открытые данные @ AIMS Цикл вебинаров Linked Open Data @ AIMS 14 февраля 2013 года Введение в концепцию связанных открытых данных (Linked Open Data) Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ http://about.me/Irina.Radchenko НИУ ВШЭ, Москва, 2013

Category:

Education


3 download

DESCRIPTION

Связанные открытые данные @ AIMS Цикл вебинаров Linked Open Data @ AIMS 14 февраля 2013 года Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ LOD@AIMS

TRANSCRIPT

Page 1: Введение в концепцию связанных открытых данных (Linked Open Data)

Связанные открытые данные @ AIMSЦикл вебинаров Linked Open Data @ AIMS14 февраля 2013 года

Введение в концепцию связанных открытых данных(Linked Open Data)

Радченко Ирина Алексеевнакандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ

http://about.me/Irina.Radchenko

НИУ ВШЭ, Москва, 2013

Page 2: Введение в концепцию связанных открытых данных (Linked Open Data)

2

• Общее представление о Linked Open Data

• Каким образом осуществляется связывание наборов данных?

• Публикация наборов данных в пространстве Linked Open Data

НИУ ВШЭ, Москва, 2013

Содержание

Page 3: Введение в концепцию связанных открытых данных (Linked Open Data)

3

• Общее представление о Linked Open Data

НИУ ВШЭ, Москва, 2013

Page 4: Введение в концепцию связанных открытых данных (Linked Open Data)

Эволюционирование веба

4

Документы в вебе (протокол Gopher и т.д.)

Веб документов (гипертекст)

Данные в вебе (открытые данные и т.д.)

Веб данных (связанные данные)

Развитие веба

Время

НИУ ВШЭ, Москва, 2013

1990 2013

Источник: Linked Open Data: The Essentials. A Quick Start Guide for Decision Makers. http://www.semantic-web.at/LOD-TheEssentials.pdf

Page 5: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Основные понятия

5

Связанные данные (Linked Data) — это наборы данных, опубликованные в RDF-формате с использованием унифицированного идентификатора ресурсов URI (Uniform Resource Identifier) для идентификации элементов, которые они содержат.

Page 6: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Основные понятия

6

Связанные открытые данные (Linked Open Data) — это связанные наборы данных, опубликованные в RDF-формате и пригодные для использования и переиздания их пользователями в своих целях, без каких-либо ограничений в виде авторских прав, патентов и других механизмов контроля.

Page 7: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Проект DBpedia

7Источник: http://dbpedia.org/About

Проект DBpedia послужил важным стимулом для развития Linked Open Data.

Page 8: Введение в концепцию связанных открытых данных (Linked Open Data)

Динамика развития Linked Open Data

8

Темпы нарастания объемов фактов

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

2007 2008 2009 2010

НИУ ВШЭ, Москва, 2013

Время

Количество наборов

LOD

Page 9: Введение в концепцию связанных открытых данных (Linked Open Data)

Веб данных: связанные открытые данные

Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей

9

СМИГеография

ПубликацииСозданный

пользователями контент

Науки о жизни

Междисциплинарные области

Государственные данные

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

НИУ ВШЭ, Москва, 2013

Page 10: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Пятизвездочная модель открытых данных

по Тиму Бернерсу-Ли

10Источники: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.html

Page 11: Введение в концепцию связанных открытых данных (Linked Open Data)

Связывание данных в контексте семантической паутины

11НИУ ВШЭ, Москва, 2013

Источник: http://iradche.livejournal.com/12108.html

Тим Бернерс-Ли (Tim Berners-Lee) предложил идею связанных данных на основе четырех принципов, стимулирующих применение базовых принципов Web для доступа к данным:

• Применение универсальных идентификаторов ресурсов (URI) в качестве имен объектов;

• Применение HTTP URI для реализации возможности обращения по этим именам;

• Предоставление полезной информации тому, кто обращается по URI, с помощью стандартов (RDF*, SPARQL);

• Включение ссылок на другие URI, позволяющих найти дополнительную информацию.

Page 12: Введение в концепцию связанных открытых данных (Linked Open Data)

Прикладной уровень

НИУ ВШЭ, Москва, 2013

Интерпретация стека Linked Open Data

12

Источники: http://www.opendataimpacts.net/2011/05/whats-in-the-linked-open-data-stack/, http://iradche.livejournal.com/9036.html

Мэшапы Поисковые системы

Интеграция данных

Базы данных и публикация данных

Запросы на SPARQL

Обмен RDF

Словари Онтологии

Идентификаторы URL

Транспортный уровень: протокол HTTP

Лицензии открыты

х данны

х

Элементы стека данных LOD – 2 мая 2011, лицензия CC BY-CA-NCАвтор: Тим Дэвис (Tim Davies)

Page 13: Введение в концепцию связанных открытых данных (Linked Open Data)

13

• Каким образом осуществляется связывание наборов данных?

НИУ ВШЭ, Москва, 2013

Page 14: Введение в концепцию связанных открытых данных (Linked Open Data)

Отличный пример из презентации Тома Бейкера (Tom Baker)

14Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

Запись в AGRIS

Тезаурус AGROVOC

DBpedia

Эксперт VIVO

BBC

BBC News

Wikipedia

НИУ ВШЭ, Москва, 2013

Page 15: Введение в концепцию связанных открытых данных (Linked Open Data)

Ресурс 1: Проиндексированная статья в базе данных AGRIS

Тема статьи “acrididae”, т.е. “grasshoppers”.

Одного из авторов зовут “Han Jianguo”.

15

Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web, http://agris.fao.org/agris-search/search/display.do?f=2010%2FCN%2FCN0910.xml%3BCN2009002389

НИУ ВШЭ, Москва, 2013

Page 16: Введение в концепцию связанных открытых данных (Linked Open Data)

Описание Ресурса 1 в виде «условных» триплетов

Субъект Предикат Объект

Ресурс 1 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

Ресурс 1 имеет автора Han Jianguo

Ресурс 1 имеет тему Acrididae (grasshoppers)

16Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 17: Введение в концепцию связанных открытых данных (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора Han Jianguo

agris:CN2009002389 имеет тему Acrididae (grasshoppers)

Ресурс 1 идентифицирован при помощи URI http://agris.fao.org/resource/CN2009002389.Сократим его до agris:CN2009002389.

17Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 18: Введение в концепцию связанных открытых данных (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris:CN2009002389 имеет тему Acrididae (grasshoppers)

Автор идентифицирован при помощи URI http://agris.fao.org/author/hanjianguo.Сократим его до agris-author:hanjianguo.

18Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 19: Введение в концепцию связанных открытых данных (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris-author:hanjianguo имеет имя Han Jianguo

agris:CN2009002389 имеет тему Acrididae (grasshoppers)

Автор agris-author:hanjianguo имеет имя Han Jianguo.

19Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 20: Введение в концепцию связанных открытых данных (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris-author:hanjianguo имеет имя Han Jianguo

agris:CN2009002389 имеет тему agrovoc:c_4416

Тема идентифицируется при помощи URI http://aims.fao.org/aos/agrovoc/c_4416.Сократим ее до agrovoc:c_4416.

20Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 21: Введение в концепцию связанных открытых данных (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris-author:hanjianguo имеет имя Han Jianguo

agris:CN2009002389 имеет тему agrovoc:c_4416

agrovoc:c_4416 имеет пометку Acrididae (en)

agrovoc:c_4416 имеет пометку 蝗科 (zh)

Описание http://aims.fao.org/aos/agrovoc/c_4416 в AGROVOC Concept Scheme говорит нам о том, как этот концепт на английском и китайском языках.

21Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 22: Введение в концепцию связанных открытых данных (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris-author:hanjianguo имеет имя Han Jianguo

agris:CN2009002389 имеет тему agrovoc:c_4416

agrovoc:c_4416 имеет пометку Acrididae (en)

agrovoc:c_4416 имеет пометку 蝗科 (zh)

Элемент Dublin Core “Title” (заголовок) идентифицирован при помощи URI http://purl.org/dc/terms/title.Сократим его до dct:title.

22Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 23: Введение в концепцию связанных открытых данных (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

agrovoc:c_4416 имеет пометку Acrididae (en)

agrovoc:c_4416 имеет пометку 蝗科 (zh)

Повторяем то же самое для автора (author, creator) и темы (topic, subject).Имя определено в словаре FOAF.

23Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 24: Введение в концепцию связанных открытых данных (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

agrovoc:c_4416 skos:prefLabel Acrididae (en)

agrovoc:c_4416 skos:prefLabel 蝗科 (zh)

Свойство для пометок (preferred label) концепта определено в словаре Simple Knowledge Organization System (SKOS).

24Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 25: Введение в концепцию связанных открытых данных (Linked Open Data)

Триплет, построенный в виде графа

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

dct:title 典型草…

Han Jianguo

agris-author:hanjianguo

dct:subject

agrovoc:c_4416

foaf:name

dct:creator

agris:CN…389

25Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 26: Введение в концепцию связанных открытых данных (Linked Open Data)

Ресурс 2: статья в базе AGRIS на немецком языке

26Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Тема статьи “acrididae”

Одного из авторов зовут “Peter, B”

Page 27: Введение в концепцию связанных открытых данных (Linked Open Data)

Триплеты, описывающие Ресурс 2 в виде графа

Субъект Предикат Объект

agris:CH2001000179 dct:title Heuschrecken brauchen ökologische Ausgleichsflächen

agris:CH2001000179 dct:creator agris-author:peterb

agris-author:peterb foaf:name Peter, B.

agris:CH2001000179 dct:subject agrovoc:c_4416

agris:CH…179dct:title Heuschrecken

Peter, B.

agris-author:peterb

dct:subject

agrovoc:c_4416

foaf:name

dct:creator

27Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 28: Введение в концепцию связанных открытых данных (Linked Open Data)

Соединяем триплеты Ресурса 1…

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

28Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 29: Введение в концепцию связанных открытых данных (Linked Open Data)

…с триплетами Ресурса 2

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

agris:CH2001000179 dct:title Heuschrecken brauchen ökologische Ausgleichsflächen

agris:CH2001000179 dct:creator agris-author:peterb

agris-author:peterb foaf:name Peter, B.

agris:CH2001000179 dct:subject agrovoc:c_4416

29Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 30: Введение в концепцию связанных открытых данных (Linked Open Data)

Компьютер определяет совпадающие URI...

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416agris:CH2001000179 dct:title Heuschrecken brauchen

ökologische Ausgleichsflächen

agris:CH2001000179 dct:creator agris-author:peterb

agris-author:peterb foaf:name Peter, B.

agris:CH2001000179 dct:subject agrovoc:c_4416

30Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

Page 31: Введение в концепцию связанных открытых данных (Linked Open Data)

Компьютер определяет совпадающие URI...

agris:CN…389dct:title

典型草…

Han Jianguo

agris-author:hanjianguo

dct:subjectagrovoc:c_4416

foaf:name

dct:creator

agris:CH…179dct:title Heuschrecken

Peter, B.

agris-author:peterb

dct:subject

agrovoc:c_4416foaf:name

dct:creator

31Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 32: Введение в концепцию связанных открытых данных (Linked Open Data)

…и соединяет (“связывает”) графы в один

agris:CN…389

dct:title

典型草…

Han Jianguo

agris-author:hanjianguo

dct:subject

foaf:name

dct:creator

agris:CH…179dct:title Heuschrecken

Peter, B.

agris-author:peterb

dct:subject

agrovoc:c_4416foaf:name

dct:creator

Ресурсы на разных языках, связанные ссылками на общий концепт.

32Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 33: Введение в концепцию связанных открытых данных (Linked Open Data)

Одна запись, много связей

Запись в AGRIS

AGROVOC

AGRIS Authors Dublin Core

FOAF

SKOS

33Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 34: Введение в концепцию связанных открытых данных (Linked Open Data)

34

• Публикация наборов данных в пространстве Linked Open Data

НИУ ВШЭ, Москва, 2013

Page 35: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

35

Проанализировать данные. Необходимо окинуть критическим взглядом модель данных и метаданные.

Очистить данные. Данные и информация, приходящие из различного рода источников в различных форматах (включая базы данных, форматы CVS, геоданные, XML и т.д.), нуждаются в дополнительной очистке для более легкого и эффективного моделирования представления данных.

Источник: http://richard.cyganiak.de/2007/10/lod/

Для того чтобы опубликовать наборы данных в пространстве LOD, необходимо сделать следующие шаги

Page 36: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

36

Сформировать модель представления данных. Создайте необходимые словари и тезаурусы для представления данных в RDF-формате. Создайте идентификаторы URI для каждых объектов.

Выбрать подходящие словари. Существует большое количество RDF-словарей, которые можно использовать повторно. Выберите наиболее подходящий из них. Если подходящего словаря не найдено, то необходимо его создать.

Каталог словарей можно посмотреть здесь: http://lov.okfn.org/dataset/lov

Источник: http://richard.cyganiak.de/2007/10/lod/

…далее…

Page 37: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

37

Источник: http://lov.okfn.org/dataset/lov

RDF-словари

Page 38: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

38

Определить лицензию/лицензии. Необходимо решить вопрос лицензирования наборов данных. Удобнее всего выбрать из уже существующих и наиболее популярных лицензий:— Creative Commons (http://creativecommons.org/choose/);— Open Data Commons (http://opendatacommons.org/licenses/).

Источник: http://richard.cyganiak.de/2007/10/lod/

Page 39: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

39

Конвертировать наборы данных в RDF-формат. Это очень важный этап, т.к. RDF-формат является официальным стандартом консорциума W3C для моделей представления данных Семантического веба. Обязательно включите выбранные лицензии в RDF-файлы.

Источник: http://richard.cyganiak.de/2007/10/lod/

http://www.w3.org/2005/Incubator/mmsem/wiki/Tools_and_Resources

http://www.w3.org/wiki/ConverterToRdf

Выберите подходящий инструмент для перевода данных в RDF-формат

http://www.inf.unideb.hu/~jeszy/rdfizers/

Page 40: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

40

Проект Simile (Semantic Interoperability of Metadata and Information in unLike Environments)http://simile.mit.edu/wiki/RDFizers

Page 41: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

41

Связать наборы данных с наборами данных пространства LOD. Обязательно удостоверьтесь, что Ваши наборы данных связаны между собой, связаны с наборами данных из пространства LOD и доступны для связывания с наборами данных сторонними разработчиками. Это предоставит возможность машинной обработки представляемых наборов данных и позволит извлекать новые знания из представляемых наборов данных. Вычислите наиболее релевантные наборы данных для связывания с Вашими наборами данных.

Источник: http://richard.cyganiak.de/2007/10/lod/

…далее…

Page 42: Введение в концепцию связанных открытых данных (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

42

Опубликовать и разрекламировать Ваши наборы данных в пространстве LOD. Опубликуйте Ваши наборы данных в вебе и разрекламируйте Ваши новые LOD-наборы данных. Даже лучшие наборы данных LOD не могут быть повторно использованы, если пользователь не узнает об их существовании и не сможет получить к ним доступ. Лучше всего добавить наборы данных в LOD облако.

Источник: http://richard.cyganiak.de/2007/10/lod/

…и последнее

Page 43: Введение в концепцию связанных открытых данных (Linked Open Data)

Как сделать данные открытыми и связанными

43

1. Выделить наиболее значимые данные (например, Субъект, Автор, Публикатор и т.д.).

2. Использовать везде, где это возможно, URI для обозначения этих данных.

3. Опубликовать данные в формате RDF, чтобы пользователи могли связать свои данные.

4. Упростить. Простые решения дают хорошие результаты!

НИУ ВШЭ, Москва, 2013

Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

Page 44: Введение в концепцию связанных открытых данных (Linked Open Data)

http://iRadche.livejournal.com/

https://www.facebook.com/iRadche

@iRadche

http://www.slideshare.net/iRadche

http://about.me/Irina.Radchenko

Спасибо за внимание!