curs 1.6. dades enllaçades (14/02)
TRANSCRIPT
INICIATIVA BARCELONA OPEN DATA EL VALOR D’OBRIR LES DADES
Datos enlazadoscurso 1.6
Docente:Álvaro Sicilia @alvarosiciliago
OBJECTIVO DE LA SESIÓN
● Al final de la sesión seréis capaces de:
● Definir que son los datos enlazados y la web semántica
● Identificar datos enlazados y saber navegar por ellos
● Describir recursos en la web (RDF)
● Identificar tecnologías para enlazar datos
Facultar a los participantes para enlazar datos abiertos y su uso
Datos enlazados
ÍNDICE
1. Introducción a los datos enlazados2. De datos abiertos a datos enlazados3. Uso de vocabularios y DCAT4. Enlazar datos abiertos5. Describir recursos en la web6. Como transformar datos abiertos a RDF7. Tecnologías utilizadas en la web semántica8. Consultar datos enlazados
¿Que son los datos enlazados?Preparad una definición de este concepto
Actividad colectiva
Tiempo: 2 minutos
Actividad
* http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData** http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica
Los Datos Enlazados es la forma que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas web*
La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida**
INTRODUCCIÓN A LOS DATOS ENLAZADOS
INTRODUCCIÓN A LOS DATOS ENLAZADOS
INTRODUCCIÓN A LOS DATOS ENLAZADOS
IMDB Wikipedia
¿Lugar de nacimiento de Harrison Ford?
¿Número de habitantes de
Chicago?
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas sobre una fuente de datos?
ActoresCiudades
IMDB Wikipedia
¿Qué actores que han nacido en poblaciones de más de 2 millones de habitantes?
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas complejas sobre múltiples fuentes de datos?
ActoresCiudades
IMDB Wikipedia
Usar la Web como una única gran base de datos global Movernos de una Web de documentos a una Web de
Datos
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas complejas sobre múltiples fuentes de datos?
DE DATOS ABIERTOS A DATOS ENLAZADOS
1. Usar URIs como nombres de las cosas2. Usar HTTP URIs, para que cualquiera los pueda consultar3. Cuando alguien consulta una URI, proporcionar
información útil en lenguajes estándar (RDF, SPARQL) 4. Incluir enlaces a otras URIs
* http://www.w3.org/DesignIssues/LinkedData.html
Los Cuatro principios de la Web de datos enlazados (Tim Berners Lee, 2006)*
★ publicar los datos en la Web (en cualquier format) con una licencia abierta
★★ publicar los datos estructurados (ex: en Excel lugar de una imagen con datos)
★★★ publicar daots utilizando formatos no propietarios (ex:: CSV en lugar de Excel)
★★★★ utilitzar URIs para apuntar a cosas★★★★
★Enlazar datos con otros datos
DE DATOS ABIERTOS A DATOS ENLAZADOS
Las 5 estrellas de Tim Berners Lee
DE DATOS ABIERTOS A DATOS ENLAZADOS
Wikipedia
DE DATOS ABIERTOS A DATOS ENLAZADOS
Wikipedia
Navegar por portales de datos abiertos y enlazados listar los diferentes portales Actividad individual
Tiempo: 15 minutos
Actividad
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Cómo publicar datos enlazados?
1. Empezar por un plan
5. Mantenerl
o
2. Seleccion
ar los datos
4. Publicación3.
Creación de un
dataset
Proceso de los datos abiertos
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Cómo publicar datos enlazados?
Aplicar un formato abierto
Capturar los
metadatosAplicar una
licencia abiertaRevisar el dataset
Actividad¿Que es un vocabulario?Preparad una definición de este concepto
Actividad colectiva
Tiempo: 2 minutos
USO DE VOCABULARIOS Y DCAT
¿Qué es un vocabulario?
Los vocabularios definen los conceptos y relaciones utilizados para describir y representar un área de interés.
Definition taken from: http://www.w3.org/standards/semanticweb/ontology
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
Actividad¿Crear un vocabulario para el dataset de ejemplo?
Actividad en grupos
Tiempo: 5 minutos
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
RAE:1. f. Conjunto de edificios y calles, regidos por un ayuntamiento, cuya población densa y numerosa se dedica por lo común a actividades no agrícolas.
RAE:5. m. País soberano, reconocido como tal en el orden internacional, asentado en un territorio determinado y dotado de órganos de gobierno propios..
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
Uso de vocabularios y DCAT
¿Dónde está el vocabulario?
City Creation date Establishment date Long Lat Alt State
Pertenece aEstado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
- fecha creación- fundación
City Creation date Establishment date Long Lat Alt State
Pertenece aEstado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Punto
Localización
- longitud- latitud- altitud
- fecha creación- fundación
City Creation date Establishment date Long Lat Alt State
Pertenece aEstado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
• Un vocabulario puede representar muchos datasets
• Los vocabularios son utilizados para integrar o armonizar datos de diferentes fuentes (CSV, bases de datos, páginas web…)
Punto
Localización
- longitud- latitud- altitud
- fecha creación- fundación
City Creation date Establishment date Long Lat Alt State
Pertenece aEstado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
Ventajas de utilizar vocabularios
Un vocabulario:
- Da contexto (para moverse de datos a información)
- Facilita reutilización de los datos- Reduce ambigüedad- Facilita la integración- Facilita el mantenimiento
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
DCAT es una especificación (vocabulario) para la descripción de catálogos de datos en la red. La especificación oficial ha sido elaborada por el W3C, basada en algunos proyectos anteriores.
DCAT-AP (Application Profile) es una especificación basada en DCAT para describir datasets del sector público en Europa.
USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
https://www.w3.org/TR/vocab-dcat/
USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)Identificadores temáticos DCAT-AP Identificadores temáticos NTI-RISP
ciencia-tecnologia Ciencia-tecnologia
Agricultura, pesca, forestal y alimentación Medio-rural-pesca
Economía y finanzas
EconomíaComercioHacienda
Educación, cultura y deporte
EducaciónCultura-ocioDeporte
Energía Energía
Medio ambiente Medio-ambiente
Gobierno y sector público Sector-publico
Salud Salud
Asuntos internacionales
Justicia, sistema legal y seguridad Legislacion-justiciaSeguridad
Regiones y ciudades Urbanismos-infraestructurasVivienda
Población y sociedad DemografíaSociedad-bienestar Empleo
Transporte Transporte
IndustriaTurismo
Las temáticas de DCAT-AP han sido traducidas de su original en inglés. Esta equivalencia es realizada por Alberto Abella y no hay una guía oficial refrendándola
USO DE VOCABULARIOS Y DCAT
Vocabulary of Interlinked Datasets (VoiD)
http://richard.cyganiak.de/2011/gld/gld-dcat-and-void.pdf
ENLAZAR DATOS ABIERTOS
¿Cómo publicar datos enlazados?
Aplicar un formato abierto
Capturar los metadatos
Aplicar una licencia abierta
Revisar el dataset
Identificar enlaces con
otros datasets
Enlazar las instancias de los
diferentes datasets
ENLAZAR DATOS ABIERTOS
Enlazando datos abiertos
Procedimiento1. Identificar aquellos conceptos cuyos individuos
puedan ser enlazados dado su interés y potencial.
2. Identificar qué conjuntos de datos pueden contener instancias de los conceptos identificados previamente.
3. Seleccionar las herramientas mas adecuadas para llevar a cabo el enlazado (semi) automático.
4. Ejecutar estas herramientas sobre las fuentes de datos para obtener los correspondientes enlaces.
Adaptado de ODI Madrid
ENLAZAR DATOS ABIERTOS
Enlazando datos abiertos• Alineación por valores. Determinar cuando dos
valores de dos propiedades expresados de forma diferente son equivalentes
• Alineación por instancias. Determinar si dos instancias son equivalentes
• De acuerdo a las descripciones disponibles para dichas instancias
• Basado en agregación de técnicas de alineación de valores, transitividad de owl:sameAs, mapeos de ontologías, etc.
• Alineación por dataset. Utilizando un conjunto de potenciales mapeos de individuos entre dos datasets
Adaptado de ODI Madrid
Actividad¿Enlazar los datasets de ejemplo?
Actividad en grupos
Tiempo: 15 minutos
Actividad¿Enlazar los datasets de ejemplo?
Ciudad Fecha creación Fundación Long Lat Alt Estado
Nombre Latitud LongitudMadrid -10,074 -67,052Barcelona -10,943 -69,563Valencia -11,016 -68,748Bilbao -9,820 -67,952Tarragona -10,570 -67,674Toledo -7,631 -72,673Sevilla -11,028 -68,745Zaragoza -8,936 -70,542Cáceres -8,911 -73,111
Name Capital GeometryPortugal Lisbon …Italy Rome …Greece Athens …Spain Madrid …France Paris …Germany Berlin …Belgium Brussels …
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
Harrison Ford es un Actor
Harrison Ford mide 1,85
Harrison Ford nació en Chicago
ActividadEscribir triples para el dataset de ejemplo
Actividad en grupos
Tiempo: 15 minutos
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_Ford
http://es.dbpedia.org/ontology/Actor
https://www.w3.org/1999/02/22-rdf-syntax-ns#type
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_Ford
http://es.dbpedia.org/resource/Chicago
http://es.dbpedia.org/ontology/birthPlace
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_Ford
“1.85”
http://es.dbpedia.org/ontology/height
height
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
…/Harrison_Ford
“1.85”…/Chicago
…Actor
type
birthPlace
height
height
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
…/Harrison_Ford
“1.85”…/Chicago
…Actor
type …/RobinWilliams
“1.7”
type
birthPlace
COMO TRANSFORMAR DATOS ABIERTOS A RDF
dataset Rdf dump Triple store Consultas
Sparql
dataset SQL RDF wrapper
Consultas Sparql
• Rápido• No actualizado• Materializado
• No es rápido• Actualizado• Bases de datos relacionales
Mapeos R2RML
COMO TRANSFORMAR DATOS ABIERTOS A RDF
http://www.semanco-tools.eu/map-on
COMO TRANSFORMAR DATOS ABIERTOS A RDF
http://www.semanco-tools.eu/map-on
COMO TRANSFORMAR DATOS ABIERTOS A RDF
http://wifo5-03.informatik.uni-mannheim.de/pubby/
COMO TRANSFORMAR DATOS ABIERTOS A RDF
http://silkframework.org/
TECNOLOGÍAS UTILIZADAS EN LA WEB SEMÁNTICA
Triple stores:- Virtuoso Universal Server virtuoso.openlinksw.com- RDF4J www.rdf4j.org
Publicar datos- Pubby wifo5-03.informatik.uni-mannheim.de/
pubby- Elda github.com/epimorphics/elda
Enlazar datos- Silk silkframework.org- Limes aksw.org/Projects/LIMES.html
W3C listado de recursos:www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/SemWebClients
CONSULTAR DATOS ENLAZADOS
Breve introducción a SPARQL
SELECT Distinct ?Concepto
WHERE { ?x a ?Concepto.}
http://es.dbpedia.org/sparql
SELECT Distinct ?x
WHERE { ?x a <http://schema.org/Airport>.}
ActividadConsulta datos enlazados
Actividad individual
Tiempo: 10 minutos
EJEMPLO DE HERRAMIENTA QUE UTILIZA DATOS ENLAZADOS
EJEMPLO DE HERRAMIENTA QUE UTILIZA DATOS ENLAZADOS
EJEMPLO DE HERRAMIENTA QUE UTILIZA DATOS ENLAZADOS
OBJECTIVO DE LA SESIÓN
● Ara sois capaces de:
● Definir que son los datos enlazados y la web semántica
● Identificar datos enlazados y saber navegar por ellos
● Describir recursos en la web (RDF)
● Identificar tecnologías para enlazar datos
Facultar a los participantes para enlazar datos abiertos y su uso
Datos enlazados
Tiempo para preguntas
Autoevaluación
https://goo.gl/forms/zviBRVgbpniTFY9k2