workshop de datos científicos. introducción

Download Workshop de datos científicos. Introducción

If you can't read please download the document

Upload: fernando-ariel-lopez

Post on 22-Jan-2017

856 views

Category:

Education


0 download

TRANSCRIPT

Fernando Ariel LpezCAICYT CONICET@fernando__lopez

Workshop de Datos Cientficos

Big Data: Volumen, Velocidad, Variedad y VeracidadMinera de Datos, Descubrimiento de Conocimiento, Inteligencia de Negocios

(Data Mining, Knowledge Discovery, Business Intelligence)

Ciencia Abierta = Open Science

Metodologas Abiertas / Open Methodology (Mtodos, procesos, documentos relevantes, etc.)

Software y Hardware Libres / Soft and Hard open

Datos Abiertos / Open Data (libres para reutilizar)

Acceso Abierto / Open Access (libre y gratuito)

Revisin por pares Abierto / Open Peer Review (transparencia en los criterios de evaluacin y calidad)

Recursos Educativos Abiertos / Open Educational Resources (MOOC y REA)

Principios de la CIENCIA ABIERTA

hechos, observaciones o experiencias (basado argumento, teora o prueba) pueden ser numricos, descriptivos o visuales. pueden ser en estado bruto o analizado, pueden ser experimentales u observacionales. pueden ser abiertos o cerrados

Qu son los datos de investigacin?

Qu son los datos de investigacin?

Los datos incluyen:- cuadernos de laboratorio o de campo,- datos de investigacin primaria (en papel o digital),- cuestionarios,- fotografas, audio y videos- desarrollo de modelos

Las colecciones datos para la investigacin pueden incluir:- diapositivas, diseos, muestras.

Procedencia de los datos: cmo, cundo, donde se recogi y con qu (por ejemplo, instrumentos).

Qu son los datos de investigacin?

Qu son los datos de investigacin?

Es una coleccin de datos reunidos durante la ejecucin de un proyecto de investigacin.

Son objetos digitales compuestos y heterogneos.

Constituye la base de la investigacin y va asociado a una publicacin cientfica (resultado de la investigacin).

Se almacena y gestiona en Repositorios Interoperables conforme a estndares internacionales.

Es el objeto especfico de trabajo, control, organizacin, descripcin y preservacin de datos cientficos

DATASET

ACTORES IMPLICADOS- Investigadores [productores de datos]- Agencias de Financiamiento- Universidades y Centros de Investigacin- Gestores de datos: Repositorios Institucionales (corto plazo) Centro de Datos (mediano-largo plazo)- Usuarios (otros investigadores, ciudadanos, etc.)

Sociedad Civil (ONG) + Empresas

Antecedentes: Polticas en las Agencias de Financiamiento

Estados Unidos: NSF (National Science Foundation), NIH (National Institutes of Health), NASA y NODC (National Oceanographic Data Center).

Europa: Horizon2020

Reino Unido: AHRC, BBSRC, Cancer Research UK, EPSRC, ESRC, MRC, NERC, STFC, WellcomeTrust.

Australia: ARC

Regional: OCDE

Argentina:Iniciativas Nacionales de Datos http://sistemasnacionales.mincyt.gob.ar/

Ley Nacional 26.899. Datos primarios en 5 aos disponibles. Excepciones

Lneas de Trabajo

Plan de Gestin de Datos / Data Management Plan (DMP)

e-Infraestructuras

DATOS

PLAN DE GESTIN DE DATOS [DMP]Es un documento que describe el tratamiento que van a recibir los datos de investigacin generados o recopilados en el transcurso de un proyecto de investigacin.

CAICYT- CONICET (Argentina)
Propuesta: Plan de Gestin de Datos Cientficos

Anlisis de las actuales Polticas y Requisitosde importantes Agencias de Financiamiento:

DCC (UK)

Horizon2020 (UE)

NSF (EEUU)

ARC (AU)

e-Infraestructura

Repositorio Interoperable de DatosDatos Pblicos Argentina (CKAN, OKF),

Zenodo (Invenio, CERN)

DRYAD, PLICSS, LAGOS (DSpace, MIT & HP),

Harvard DATAVERSE (Eprints)

Plataforma de Trabajo para InvestigadoresOSF, HubZero, MyExperiment.org, etc.

Cluster de Almacenamiento y/o Procesamiento

Los investigadores pueden ser reacios a compartir sus datos pblicamente debido a los costos individuales reales y/o percibidos.

Mayor resistencia: Cambio Cultural

BENEFICIOS #DatosAbiertos

Ayuda a verificar los resultados.

Evitar la fabricacin y falsificacin de datos.

Diferentes interpretaciones o enfoques aplicados a datos existentes contribuyen a los avances cientficos.

Optimizacin en el uso de recursos.

Preservacin a largo plazo bien gestionada, permite mantener la integridad de los datos.

TenopirC, Allard S, Douglass K, AydinogluAU, et al. (2011) Data Sharing by Scientists: Practices and Perceptions. PLoSONE 6(6): e21101. doi:10.1371/journal.pone.0021101
http://www.plosone.org/article/info:doi/10.1371/journal.pone.0021101

Debemos desarrollar Polticas y Acciones para Gestionar los Datos Cientficos:

Polticas a nivel de agencias de financiacin e institucionales. Definicin de roles/responsabilidades de los distintos actores.

Recursos financieros a largo plazo ya que los datos son acumulativos y se preservan.

Recursos humanos especializados (para generacin de datos, normalizacin, explotacin y preservacin).

Infraestructuras coordinadas para garantizar su interoperabilidad. Entre los requisitos de las infraestructuras destacar: preservacin, acceso, data curation, data processing, distribucin.

y los Investigadores?

Colaborar con su formacin

Proveer una infraestructura de trabajo (framework):Almacenamiento de datos

Curacin, Procesamiento, Explotacin, Visualizacin de datos.

Contar con Repositorios / Centros de Datos:Identificadores nicos (Autor, Datos, etc.)

Estadsticas de impacto (uso, descarga, citacin, etc.)

Preservacin Digital

Ciclo de Vida de los Datos
ABIERTO

Muchas Gracias

Fernando Ariel LpezCAICYT CONICET@fernando__lopez

Definicin de METADATOS

"datos sobre los datos"

son datos altamente estructurados que describen informacin, describen el contenido, la calidad, la condicin y otras caractersticas de los datos.

En los metadatos se describe varios atributos de los objetos de informacin para otorgarles:

significado, contexto y organizacin

METADATOS

Seleccin de Esquemas http://www.dcc.ac.uk/resources/metadata-standards

Ejemplo de Esquemas de Metadatos de ECONOMA

DDI - Data Documentation InitiativeAn international standard for describing data from the social, behavioral, and economic sciences. Expressed in XML, the DDI metadata specification supports the entire research data life cycle.

SDMX - Statistical Data and Metadata ExchangeA set of common technical and statistical standards and guidelines to be used for the efficient exchange and sharing of statistical data and metadata.

Esquema de metadatos DDI

Documentacin http://www.ddialliance.org/Specification/

Vocabulario controlado asociado http://www.ddialliance.org/Specification/DDI-CV/

Extensiones, Herramientas (editores, etc) y Casos de uso

Ejemplos:Yale University (EEUU) http://isps.yale.edu/research#.Vl04knYvfIV

European Center Bank. Statistical Data Warehouse

Portal (humanos) http://sdw.ecb.europa.eu/home.doWeb service (maquinas) https://sdw-wsrest.ecb.europa.eu/Paneldata.org (Alemania) https://paneldata.org/topics