big data genomico

26
Joaquín Dopazo Computational Genomics Department, Centro de Investigación Príncipe Felipe (CIPF), Functional Genomics Node, (INB), Bioinformatics in Rare Diseases (BiER-CIBERER), Valencia, Spain. Big data genómico Presente y futuro en el manejo de datos genómicos en la práctica clínica http://bioinfo.cipf.es http://www.babelomics.org @xdopazo XXIII Jornadas Nacionales de Informática Sanitaria, Málaga, 16 junio, 2016

Upload: joaquin-dopazo

Post on 18-Feb-2017

383 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Big data genomico

Joaquín Dopazo

Computational Genomics Department,

Centro de Investigación Príncipe Felipe (CIPF),

Functional Genomics Node, (INB),

Bioinformatics in Rare Diseases (BiER-CIBERER),

Valencia, Spain.

Big data genómico

Presente y futuro en el manejo de datos genómicos en la práctica clínica

http://bioinfo.cipf.es http://www.babelomics.org @xdopazo

XXIII Jornadas Nacionales de Informática Sanitaria, Málaga, 16 junio, 2016

Page 2: Big data genomico

La medicina de precisión (P4*) de basa en un mayor conocimiento

de las relaciones entre el genotipo y el fenotipo

Precisa de una forma mejor de definir las enfermedades

introduciendo tecnologías genómicas en los procedimientos

diagnósticos

*P4: Predictiva, Preventiva, Personalizada, Participativa

La transición a la medicina de precisión

Intuitiva y basada en

ensayo y error

Reconocimiento de patrones

probabilísticos

Decisiones y acciones

basadas en el conocimiento

Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)

Hoy Mañana

Medicina genómica

Biomarcadores moleculares

Page 3: Big data genomico

A pesar de la simplicidad de la Medicina Empírica, realmente funciona: Los tratamientos personalizados aumentan la

supervivencia del paciente

Page 4: Big data genomico

Con exomas a 600-800€ y paneles a menos de 300€ los costes empiezan a ser similares a los de otras pruebas clínicas Mientras los costes se reducen, la cantidad de datos a manejar y su complejidad

crecen exponencialmente. La medicina se hace más computacional

Todo cambia con la aparición de las

nuevas tecnologías de secuenciación. ht

tp:/

/ww

w.g

eno

me.

go

v/se

qu

enci

ng

cost

s/

Page 5: Big data genomico

Los “1000 genomas” españoles Iniciativa para secuenciar pacientes de

enfermedades raras

Enfermedades con: • Genes desconocidos • Genes conocidos/mutaciones descartadas

Búsqueda de: • Nuevos genes • Genes conocidos con genes modificadores desconocidos • Genes de susceptibilidad

http://www.gbpa.es/

Producción de datos Plataformas de secuenciación Análisis de datos

Page 6: Big data genomico

Manejo, almacenamiento y análisis de datos genómicos

http://www.gbpa.es/

GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGGATTGCGATTGGCAGAGCGGC

AAAGT

GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGGATTGCGATTGGCAGAGCGGC

AAAGT

GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGGATTGCGATTGGCAGAGCGGC

AAAGT

GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGGATTGCGATTGGCAGAGCGGC

AAAGT

Raw files (FastQ)

DB

Analysis Pipeline

Storage

K-DB

Gene 1 ksdhkahcka Gene 2 jckacsksda Gene 3 lkkxkccj<jdc Gene 4 ksfdjvjvlsdkvjd Gene 5 kckcksñdksd Gene 6 ldkdkcksdcldl Gene x kcdlkclkldsklk Gene Y jcdksdkcdks

Informe de priorización

Diálogo con expertos en la enfermedad + validaciones

Samples

GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGG

GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGG

VCF BAM Processed files

Page 7: Big data genomico

Descubrimiento de mutaciones y genes por secuenciación exómica

En la iniciativa CIBERER se han encontrado nuevas 36 mutaciones en genes asociados y 27 mutaciones en genes nuevos (13 genes).

WES

IRDs

arRP (EYS)

BBS

arRP arRP (USH2)

3-MGA-uria

(SERAC1)

NBD (BCKDK )

Page 8: Big data genomico

Knowledge DB

Freq. p

op

ul.

MiSeq IonTorrent IonProton

Illumina

NO

Diagnostic Therapeutic

decision

New

var

ian

ts

Dis

ease

All

Candidate Prioritization

Dat

a p

rep

roce

ssin

g

Sequence DB

Seq

uen

ces

Freqs.

Future Technologies

(e.g. nanopore)

New knowledge for future diagnostic

Desarrollo de un sistema completo para diagnóstico y descubrimiento de genes

Page 9: Big data genomico

Se ha realizado un proyecto piloto instalando el sistema en el IT4I supercomputing center, donde se centralizará el análisis de datos genómicos del país

Manejo de datos genómicos escalable al tamaño de un país de 10M de habitantes

Implementación del sistema de gestión de

datos genómicos en el centro de

supercomputación IT4I (República Checa)

Page 10: Big data genomico

Medicina genómica: transición de la medicina empírica a la de precisión

Test marcador momogénico

Therapy 1

Medicina empírica basada en biomarcadores

Therapia 1

Therapia 2

Therapia 3

Medicina genómica

+

El análisis genómico permite asociar biomarcadores de pacientes al resultado

de las terapias y aplicar ese conocimiento desde el principio ahorrando tiempo,

costes e incrementando el éxito de los tratamientos feedback

Therapy 2

Therapy 3

Test marcador multigénico

Ensayo clínico Resultado

Page 11: Big data genomico

Medicina genómica. Fase I: generación de la base de datos de conocimiento

----------------------------------------------------------------------

Secuenciación

Paciente Lista de variantes

Database. Query

Terapia resultado

Retroalimentación del sistema

Variantes genómicas (biomarcadores) se asocian a diagnósticos precisos y al resultado de terapias

Inicialmente el sistema va a necesitar mucha retroalimentación: Fase de generación de conocimiento. Crecimiento de la base de datos de conocimiento

Medicina genómica

Knowledge database

2011

Page 12: Big data genomico

Medicina genómica.

Fase II: aplicación de la base de datos de conocimiento

Paciente

1) Secuenciación 2) Base de datos de conocimiento 3) Sugerencia de terapia

Genomic core facility Fase II

El clínico recibe recomendaciones de tratamiento basadas en biomarcadores

+ Otros factores (riesgo, coste, etc.)

Tratamiento Análisis pre-sintomático: • Diagnóstico temprano de enfermedades genéticas •Predisposición genética a enfermedades adquiridas

Análisis sintomático • Diagnóstico de enfermedades adquiridas • Detección temprana de cáncer • Recomendación de tratamientos

2011

Page 13: Big data genomico

Componente computacional de la medicina

genómica: Preparando el escenario para la introducción del

genoma en la práctica clínica

Paciente

Tratamiento

eHR

Técnicas de soporte de la

decisión: algoritmos que

relacionan biomarcadores

a tratamientos,

pronósticos, etc.

Integración

de datos en

el eHR

Presentación de los

datos al clínico:

listos para su

interpretación

Aceleración de

algoritmos de

procesamiento y

almacenamiento de

datos

feedback

Sistemas

corporativos

Orion clinic

Abucasis, Gaia,

etc.

Page 14: Big data genomico

?

SIP

Diagnostico + descubrimiento de

biomarcadores: una aproximación integral Proyecto CIBERER con la colaboration de: La Paz, FJD, Ramón y Cajal, CBM

(Madrid), Virgen del Rocio (Sevilla), Hospital del Mar (Barcelona), HU La Fe

(Valencia)

http://team.babelomics.org

http://BiERapp.babelomics.org

Page 15: Big data genomico

Diagnóstico con NGS y

paneles virtuales

Variante diagnóstica

Hallazgos secundarios

Informe médico Generación de paneles virtuales http://team.babelomics.org

Page 16: Big data genomico

3-Methylglutaconic aciduria (3-

MGA-uria) is a heterogeneous

group of syndromes

characterized by an increased

excretion of 3-methylglutaconic

and 3-methylglutaric acids.

WES with a consecutive filter

approach is enough to detect

the new mutation in this case.

Heuristic Filtering approach An example with 3-Methylglutaconic aciduria syndrome

Page 17: Big data genomico

Priorización de variantes

candidatas a causar enfermedad

Filtros para descartar

variantes candidatas por

- Impacto mutacional

- Segregación familiar

- Frecuencia poblacional

- Tipo de mutación

- Etc.

Page 18: Big data genomico

El efecto de la variación local

E1 E2 E3 E1 E3 E1 E2 E3 E1 E2

Control Recurrencia

Hospital 1 Hospital 2 Hospital 3 Hospital 4 Y su uso sin

comprometer la

confidencialidad

de los datos

genómicos

Page 19: Big data genomico

Propuesta para integrar datos genómicos

dentro de un sistema sanitario

La integración de datos

genómicos en el sistema

sanitario es factible.

• Secuenciación para

diagnóstico (en el futuro

rutinaria)

• Trazabilidad de las

operaciones

• Almacenamiento basado

en OpenCGA (100KUK

project)

• Búsqueda de recurrencias

y uso de (pseudo)controles

• Medicina preventiva sobre

la base de datos de

pacientes

Page 20: Big data genomico

La transición a la medicina de precisión

Intuitiva y basada en

ensayo y error

Reconocimiento de patrones

probabilísticos

Decisiones y acciones

basadas en el conocimiento

Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)

Hoy Mañana

Medicina genómica

Biomarcadores moleculares

Grado de personalización

Aunque implementando prácticas de medicina genómica, aún estamos en la

era de la medicina empírica. Sin conocer la relación funcional entre el genotipo y

la enfermedad solo tenemos patrones probabilísticos más precisos

Page 21: Big data genomico

Future prospects: Actionable models

The real advantage of models is that, the same way they can be used

to convert omics data into measurements of cell functionality that

provide information on disease mechanisms and drug MoA, they can

be used to test hypothesis such as “what if I suppress (or over-

express) this gen?” This lead to the concept of actionable models.

By simulating changes of gene expression/activity it is easy to:

• Direct study of the consequences of induced gene over-expressions

or KOs

• Reverse study of genes that need to be perturbed to change cell

functionalities, such as:

• Reverting the “normal” functional status of a cell

• Selectively kill diseased cells without affecting normal cells

• Enhancing or reducing cell functionalities (e.g., apoptosis or

proliferation, respectively, to fight cancer)

• Etc.

Page 22: Big data genomico

Actionable pathway models

KO in RAF1 gene Drugs that

target RAF1

Selected

drugs

extra

targets

Other

pathways

affected

by the KO

Specific

circuits

affected

Action

button

http://pathact.babelomics.org/

Page 23: Big data genomico

Precision personalized and individualized treatments will soon be a reality

From: Dopazo, 2014, Genomics and transcriptomics in drug discovery. Drug Discovery Today

Page 24: Big data genomico

La transición a la medicina de precisión

Intuitiva y basada en

ensayo y error

Reconocimiento de patrones

probabilísticos

Decisiones y acciones

basadas en el conocimiento

Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)

Hoy Mañana

Medicina genómica

Biomarcadores moleculares

Grado de personalización

El uso de nuevos algoritmos que permitan hacer modelos que relacionen

funcionalmente el genotipo con la enfermedad o con los mecanismos de

acción de los fármacos permitirá una verdadera transición a la medicina de

precisión y a una mayor personalización de los tratamientos.

Page 25: Big data genomico

Software development at Computational

Genomics Department (CIPF)

See interactive map of for the last 24h use http://bioinfo.cipf.es/toolsusage Babelomics is the third most cited tool for functional analysis. Includes more than 30 tools for advanced, systems-biology based data analysis

More than 150.000 experiments were analyzed in our tools during the last year

HPC on CPU, SSE4, GPUs on NGS data processing Speedups up to 40X

Genome maps is now part

of the ICGC data portal

Ultrafast genome viewer with google technology

Mapping

Visualization

Functional analysis

Variant annotation

CellBase Knowledge

database

Variant

prioritization

NGS

panels

Signaling network

Regulatory

network Interaction

network

Diagnostic

Used in the

annotation of

GEL (UK100K)

Pilot

project in

seven

hospitals

Page 26: Big data genomico

The Computational Genomics Department at the Centro de

Investigación Príncipe Felipe (CIPF), Valencia, Spain, and…

...the INB, National Institute of Bioinformatics (Functional Genomics Node) and the BiER (CIBERER Network of Centers for Research in Rare Diseases)

@xdopazo @bioinfocipf Follow us on twitter