openrefine limpieza profesional de datos

11
OpenRefine Limpieza profesional de datos Limpieza profesional de datos By @fontanon By @fontanon

Upload: openkratio

Post on 07-May-2015

387 views

Category:

Technology


6 download

DESCRIPTION

La web semántica no acaba de llegar: esa que promete datos estructurados y linkados para hacer de la web una inmensa base de datos. En el camino nos encontramos con OpenRefine, una gran herramienta que nos permite hacer limpieza de datos (data wrangling) y enlazado con terceras fuentes. Presentación preparada para los talleres de las Jornadas de Software Libre OSLUCA 2013: http://osl.uca.es/talleres

TRANSCRIPT

Page 1: OpenRefine limpieza profesional de datos

OpenRefineLimpieza profesional de datosLimpieza profesional de datos

By @fontanonBy @fontanon

Page 2: OpenRefine limpieza profesional de datos

OpenRefineOpenRefineLimpieza profesionalLimpieza profesional al alcance de todos :) al alcance de todos :)

Un poco de magia

Un poco de magia

Algoritmos de agrupamiento (Algoritmos de agrupamiento (ClusteringClustering))Enriquecimiento con fuentes externasEnriquecimiento con fuentes externas

No siempre son necesarias, pero cuando lo No siempre son necesarias, pero cuando lo son OpenRefine nos ¡son OpenRefine nos ¡ resuelve la vidaresuelve la vida!!

Funciones b sicasá

Funciones b sicasá

Abre todo tipo de formatos reutilizablesAbre todo tipo de formatos reutilizablesBúsquedas Búsquedas facetadasfacetadasUnifica/divide columnasUnifica/divide columnasRellena celdas en base a patronesRellena celdas en base a patrones

Dominar estas t cnicas solucionan el 80% de éDominar estas t cnicas solucionan el 80% de élas necesidades de limpieza de datoslas necesidades de limpieza de datos

Page 3: OpenRefine limpieza profesional de datos

Objetivo: Un Objetivo: Un datasetdataset limpio limpioCada fila una observaci n, cada columna una variableóCada fila una observaci n, cada columna una variableó

Page 4: OpenRefine limpieza profesional de datos

Datasets ¿para qué?Datasets ¿para qué?Descubrir las historias escondidas en los datosDescubrir las historias escondidas en los datos

ComparativasComparativas

Exploraci n óy

Agregados

Exploraci n óy

Agregados

An lisis de ádatos

An lisis de ádatos

Por ProporcionesPor Proporcionesinternas/externasinternas/externasTabla Tabla RankingsRankings

La universidad administra el doble de becas de familia La universidad administra el doble de becas de familia numerosa que por bajo ingreso de alumno.numerosa que por bajo ingreso de alumno.

Series temporalesSeries temporalespor categoríaspor categorías

Las becas universitarias a familias numerosas han Las becas universitarias a familias numerosas han descandido en un 25% en los ltimos 10 a os.ú ñdescandido en un 25% en los ltimos 10 a os.ú ñ

Correlación de variablesCorrelación de variablesModelado predictivoModelado predictivo

Las becas universitarias a familias numerosas llegar áLas becas universitarias a familias numerosas llegar áa un 10% del importe actual en 2015.a un 10% del importe actual en 2015.

Page 5: OpenRefine limpieza profesional de datos

EL métodoEL método

Presenta resultadosPresenta resultados

Interpreta resultadosInterpreta resultados

Obtenci n óy

Limpieza

Obtenci n óy

Limpieza

An lisisáAn lisisá

La web como fuente de datosLa web como fuente de datos

Formula la pregunta correcta

Formula la pregunta correcta

Identifica fuentes de

datos

Identifica fuentes de

datos

Page 6: OpenRefine limpieza profesional de datos

EL métodoEL método

Formula la pregunta correcta

Formula la pregunta correcta

Presenta resultadosPresenta resultados

Identifica fuentes de

datos

Identifica fuentes de

datos

Interpreta resultadosInterpreta resultados

Obtenci n óy

Limpieza

Obtenci n óy

Limpieza

An lisisáAn lisisá

La web como fuente de datosLa web como fuente de datos

Nos centra

remos en .

..

Nos centra

remos en .

..

Page 7: OpenRefine limpieza profesional de datos

FormatosFormatosSoporta todo lo reutilizable…Soporta todo lo reutilizable…

ReutilizableReutilizable

Hojas de cálculo: XLS, ODS, CSV ...Hojas de cálculo: XLS, ODS, CSV ...Machine-Readable: XML, JSON ...Machine-Readable: XML, JSON ...

Facilitan el an lisis de forma directaáFacilitan el an lisis de forma directaá

No reutilizable

No reutilizable

Información contenida en páginas webInformación contenida en páginas webDocumentos: PDF, Imágenes ...Documentos: PDF, Imágenes ...

Requieren de t cnicas de extracci n de datosé óRequieren de t cnicas de extracci n de datosé ó

Page 8: OpenRefine limpieza profesional de datos

Ejemplo de exploraci nóEjemplo de exploraci nóPlayas MagramaPlayas Magrama

Descarga Descarga dataset original y transformaci nódataset original y transformaci nó (GitHub) (GitHub)

Page 9: OpenRefine limpieza profesional de datos

Ejemplo de Armonizado y ClusteringEjemplo de Armonizado y ClusteringLos Papeles de BárcenasLos Papeles de Bárcenas

Descarga Descarga dataset original y transformaci nódataset original y transformaci nó (GitHub) (GitHub)

Page 10: OpenRefine limpieza profesional de datos

Ejemplo de enriquecimiento sem nticoáEjemplo de enriquecimiento sem nticoáGanadores de OscarsGanadores de Oscars

Descarga Descarga dataset original y transformaci nódataset original y transformaci nó (GitHub) (GitHub)

Page 11: OpenRefine limpieza profesional de datos

Por: J. Félix OntañónPor: J. Félix Ontañón@fontanon@fontanon

S guenosí : http://openkratio.org

OpenRefine en tu kit de

herramientas para hacer de la

web una gran base de datos

Para más información consultar:

● OpenRefine Website

● Tutorial OpenRefine

● Linked Open Data Refine (LodRefine)●

● Using OpenRefine (ebook)

OpenRefineOpenRefineLimpieza profesional de datosLimpieza profesional de datos