Formatos y Metadatos El Proceso y las Herramientas para la Publicación y Uso de
Datos Abiertos en Uruguay
28-30 de Setiembre, Montevideo, Uruguay
Agenda
•Datasets y Principios
•Estrellas
•Formatos
•Metadatos
Dataset
•Es la “Unidad de Publicación”:
–Es raro que publique o modifique menos de un dataset.
•Es un conjunto de datos, usualmente de archivos, que tienen una cohesión semántica (por significado).
–Deberíamos evitar los “cambalaches”.
Principios de Datos Abiertos •Completos
•Primarios
•Oportunos
•Accesibles
•Procesables
•No Discriminatorios
•No Propietarios
•Con Licencia Abierta
Por qué?
Datos
Clase de la Publicación: Estrellas
Licencia Abierta
Estructurada
No Propietaria
URIs para poder apuntar
Enlazada a otras fuentes
Formatos de Publicación. •Describen la representación interna de los archivos contenidos en un dataset. –EJ: En un CSV se mantienen un registro por línea, y cada campo está separado por un carácter conocido, usualmente “,”.
•Hay que elegir el formato correcto para el tipo de datos que se desea publicar. –Pueden aplicarse patentes sobre todo o parte de los datos publicados. –Ej: No usar tablas de datos en imágenes.
Metadatos. DATO 18
grados
celsius
de máxima
en MVD
el 19/6/2015
tomados a la intemperie
con termómetro de mercurio
Qué
Dónde
Cuando
Cómo
Por qué gastar en Metadatos? •Por el usuario:
–Para poder usar adecuadamente los datos debe saber qué significa y establecer niveles de confianza adecuados
•Por el publicador:
–Quien publica los datos, quiere garantizar una interpretación de los datos, lo más cercana posible a su visión de los mismos.
Tipos de Metadatos • Descriptivos (del Dataset)
–Proveen información general del dataset (publicador, fecha de pub, encoding,formato,serie,etc)
•De Contenido (del Dataset)
–Qué significa cada dato del dataset y sus relaciones con otros datos (Incluye Modelo de Datos)
Tipos de Metadatos • De Calidad –Describen la calidad del dataset (la publicación el dataset y todo el conjunto de datos) y/o del contenido del dataset (en un nivel intermedio de agregación)
•De Provenance –Describe la cadena de procesos a los que fueron sometidos los datos desde su origen hasta su liberación.
Desafíos en la Publicación •Elegir el formato adecuado balanceando –Facilidad de la publicación.
–Facilidad en el uso.
–Asociación con la metadata adecuada.
•Elegir la metadata adecuada balanceando –Facilidad de generación y publicación
–Necesidad para el uso.
–Asociación con el dataset
Taller •Minitalleres –Pequeña charla técnica.
–Discusión y trabajo en grupo.
•M1: Determinación y transformación del formato adecuado.
•M2: Determinación y generación de la metadata.