formatos de datos para el desarrollo fuentes...
TRANSCRIPT
Fuentes y formatos de datos para el desarrollo
Pablo Martín | PR3SSHCreative Commons (Attribution - Share Alike)
Índice
● Open Data● Portales de datos● Formatos principales de distribución de datos● Legislación y licenciamiento● Conceptos avanzados de Open Data● Principales fuentes de datos abiertos para el desarrollo
Open Data
La era del dato
Fuente desconocida
La era del dato
http://johnkapeleris.com/blog
La era del dato
La era del dato
Open Data
Los datos abiertos son datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona.
Hay diversas variaciones de la definición en relación con el concepto de libertad, dependiendo de quién sea el encargado de recopilar, de almacenar y de publicar los datos.
Open Data
https://www.ted.com/talks/tim_berners_lee_on_the_next_web
Open Data
http://5stardata.info
Open Gov Data
Las administraciones públicas disponen de gran cantidad de datos públicos con un valor incalculable.
Es por ello que para el beneficio de todas y todos (administraciones, ciudadanía, empresas, academia, movimientos sociales) éstos deberían ser liberados. Además deberían serlo por una cuestión tan básica como reconocer quién es el dueño o con qué fondos se han producido.
Open Gov Data
http://index.okfn.org
Open Gov Data
Claves al abrir datos:
● Publicacion clara● Formatos accesibles● Periodicidad corta● Mecanismo de suscripción● Licenciamiento libre● Anonimato● Seguridad nacional
Open Gov Data
Beneficios de abrir datos:
● Implementación del Gobierno Abierto (transparencia y participación)
● Mayor eficiencia de las administraciones públicas● Investigación e innovación● Generación de una nueva economía● Nuevo conocimiento mezclando datos● y muchos otros que ni conocemos
Portales de datos
Definición
Un portal de datos abiertos es un espacio web donde una organización publicará todos sus datos para ser consultados y reutilizados por otros entes (ya sean personas o programas informáticos).
Los portales de datos, al contrario que otros portales web, están enfocados en el dato como unidad semántica básica y fundacional del mismo.
Independencia tecnológica
Los portales de datos pueden ser construidos de diversa forma y por ello son independientes de una herramienta concreta/
Diferentes son los estándares de datos que se usen para la publicación del contenido, los mecanismos de publicación y cierta homogeneización de buenas prácticas detectadas y ya asumidas por la comunidad.
Interacciones básicas
Buscar
El sistema de búsqueda debe ser potente y permitir opciones avanzadas de la misma así como mecanismos de búsqueda facetadas.
Publicar
La publicación debe ser simple, bien estructurada y que aporte toda la información necesaria.
Elementos fundamentales
● Catálogo de datos● Gestión de datos● Exploración de datos● Previsualización● Metadatos● Federación● Exposición de datos
Elementos generales
● Gestión de usuarios● Apariencia● Sindicación● Feedback● Analíticas● Seguridad● Alojamiento● Integración● etc
Herramientas más populares
● CKAN (ckan.org)● Socrata (socrata.com)
Buenos ejemplos de portales de datos
● Gobierno Reino Unido: data.gov.uk● Gobierno Estados Unidos: data.gov● Unión europea: data.europa.eu● Gobierno de Australia: data.gov.au● Gobierno de España: datos.gob.es● Banco Mundial: data.worldbank.org● FAO Stats: fao.org/faostat
Formatos principales de distribución de datos
Qué son los formatos de datos
● Los formatos de datos son un conjunto de reglas que definen la forma en la que se almacenan y definen los datos.
● Al hacer públicas dichas reglas se posibilita que todas las personas puedan conocerlas y con ello usarlas. Si se da un proceso global, puede que dicho formato de datos se estandarice al expandirse y afianzarse su uso.
● Los formatos de datos hacen referencia a los tipos de ficheros de datos en el que se almacenan. No se está haciendo referencia en ningún caso a las bases de datos.
● Son normalmente formatos de tipo texto, legibles por cualquier software de edición de texto pero a veces mejor procesado con software específico para facilitar su comprensión.
Formatos de datos más populares
● PDF● XLS● CSV● XML● JSON● GeoJSON● RDF● ...
Formatos de datos: PDF
Formatos de datos: XLS
● También conocido como XLSX en los últimos años● Desarrollado por Microsoft para su software de hojas de cálculo
Excel● Distribución en formato tabla bidimensional● Permite guardar código y estilos además de datos● La popularidad de las hojas de cálculo han hecho
tremendamente popular este formato● No es recomendable su uso por ser privativo
Formatos de datos: CSV
● Fichero de texto de valores separados por comas (o tabuladores en formato TSV)
● Distribución en formato tabla bidimensional● Alternativa abierta al formato XLS● Solo permite almacenar datos● Amplio uso en el almacenamiento de datos● Suele llevar una primera fila de definición de campos (cabecera)
Formatos de datos: CSV
Ej.:
nombre, color, talla
manzana, rojo, media
pera, verde, media
melón, verde, grande
ciruela, morado, pequeña
Formatos de datos: XML
● Extensive Markup Language● Formato de marcado ampliamente usado● Permite jerarquías o niveles de profundidad (estructura arbórea)● xHTML está basado en XML● Se considera tanto human-readable como machine-readable● Se basa en etiquetas (apertura y cierre) completamente
configurables● Puede contener o estar basado en una gramática en formato
DTD● Estándar abierto de la W3C (Consorcio de la World Wide Web)
Formatos de datos: XML
Ej.:
<frutas>
<fruta><nombre>manzana</nombre><color>rojo</color><talla>media</talla></fruta>
<fruta><nombre>pera</nombre><color>verde</color><talla>media</talla></fruta>
<fruta><nombre>melón</nombre><color>verde</color><talla>grande</talla></fruta>
<fruta><nombre>ciruela</nombre><color>morado</color><talla>pequeña</talla></fruta>
</frutas>
Formatos de datos: JSON
● Javascript Object Notation● Javascript es el lenguaje de la web● El uso masivo de Javascript ha popularizado este formato● Se basa en {clave: valor}● Permite jerarquías o niveles de profundidad (estructura arbórea)● Bajo coste de almacenamiento (en comparación con XML)● Estándar abierto
Formatos de datos: JSON
Ej.:
{ “frutas”: [
{“nombre”: “manzana”, “color”: “rojo”. “Talla”, “media”},
{“nombre”: “pera”, “color”: “verde”. “Talla”, “media”},
{“nombre”: “melón”, “color”: “verde”. “Talla”, “grande”},
{“nombre”: “ciruela”, “color”: “morado”. “Talla”, “pequeña”}
] }
Formatos de datos: GeoJSON
● Geographic Javascript Object Notation● Basado en JSON● Permite definir una serie de características geográficas● Además permite almacenar elementos no geográficos como
puntos y polígonos● Estándar abierto
Formatos de datos: RDF
● Resource Description Framework● Es un modelo de intercambio de datos en la Web● Extiende el sistema relacional de la Web, usando URIs para
nombrar las relaciones entre elementos (y sus elementos en sí)● Modelo de tripletas● Diferentes serializaciones: Turtle, RDF/XML, JSON-LD, RDFa● Estándar abierto
Legislación y licenciamiento
Legislación
● Directiva Europea de Reutilización de la Información del Sector Público (2003/98/EC).
● Ley 19/2013, de 9 de diciembre, de Transparencia, Acceso a la Información Pública y Buen Gobierno. Gobierno de España.
● Leyes autonómicas de transparencia y reutilización de información.○ Andalucía (1/2014 de 24 de junio))
○ Comunitat Valenciana (2/2015 de 2 de abril)
○ y otras
● Ordenanzas municipales de transparencia.
Licenciamiento
● OGL - Open Government License● ODbL - Open Database License● Otras licencias específicas pero de la misma naturaleza
Conceptos avanzados de Open Data
Una breve aproximación
● REST API● Formato RDF● Formato RDFa● DCAT● Pinceladas de ontologías y web semántica
Qué es una API
● API = Application Programming Interface● Conjunto de funciones y definiciones sobre un protocolo● Permite de forma relativamente sencilla integrar datos de unas
aplicaciones en otras permitiendo así obtener unos niveles bastante altos de interoperabilidad entre sistemas
● Puede tener mecanismos de autenticación y versionado
REST API
● REST = Representational State Transfer● Las REST API son las más populares dentro de los diversos tipos
de API que existen, o al menos las más comunes en servicios digitales existentes por su facilidad de uso
● Se basan en el protocolo HTTP usado en la Web para ofrecer documentos con hipertexto (HTML)
● Consta de una serie de puntos de acceso para los diferentes métodos
● Ej.: curl https://api.github.com/search/repositories?q=ckan
Formato RDFa
● RDFa = RDF in attributes● Se refiere a la inclusión de etiquetas RDF en atributos de los
elementos HTML● Muy usado para introducir metadatos semánticos en la Web● Otra alternativa: Microdata
DCAT
● DCAT es un vocabulario RDF diseñado para facilitar la interoperabilidad entre catálogos de datos publicados en la Web
● Básicamente su misión es describir conjunto de datos● Esto promueve el descubrimiento y facilita que las aplicaciones
consuman metadatos de diversos catálogos de datos de forma automatizada
● Basado en XML● Respaldado por el W3C● Está ampliamente extendido en los portales de datos● Ejemplos de uso en
www.w3.org/TR/vocab-dcat/#basic-example
Linked Open Data Cloud Diagram
La Wikipedia semántica
http://wikidata.org
Principales fuentes de datos abiertos para el desarrollo
The World Bank
https://data.worldbank.org
FAO
http://www.fao.org/statistics/databases
Open Data for Development
http://od4d.net
Global Partnership for Sustainable Development Data
http://data4sdgs.org
Data for Development Festival
http://www.data4sdgs.org/index.php/news/data-development-festival
Resource Watch
http://resourcewatch.org
API Highways
http://apihighways.org