big data genomico
TRANSCRIPT
Joaquín Dopazo
Computational Genomics Department,
Centro de Investigación Príncipe Felipe (CIPF),
Functional Genomics Node, (INB),
Bioinformatics in Rare Diseases (BiER-CIBERER),
Valencia, Spain.
Big data genómico
Presente y futuro en el manejo de datos genómicos en la práctica clínica
http://bioinfo.cipf.es http://www.babelomics.org @xdopazo
XXIII Jornadas Nacionales de Informática Sanitaria, Málaga, 16 junio, 2016
La medicina de precisión (P4*) de basa en un mayor conocimiento
de las relaciones entre el genotipo y el fenotipo
Precisa de una forma mejor de definir las enfermedades
introduciendo tecnologías genómicas en los procedimientos
diagnósticos
*P4: Predictiva, Preventiva, Personalizada, Participativa
La transición a la medicina de precisión
Intuitiva y basada en
ensayo y error
Reconocimiento de patrones
probabilísticos
Decisiones y acciones
basadas en el conocimiento
Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)
Hoy Mañana
Medicina genómica
Biomarcadores moleculares
A pesar de la simplicidad de la Medicina Empírica, realmente funciona: Los tratamientos personalizados aumentan la
supervivencia del paciente
Con exomas a 600-800€ y paneles a menos de 300€ los costes empiezan a ser similares a los de otras pruebas clínicas Mientras los costes se reducen, la cantidad de datos a manejar y su complejidad
crecen exponencialmente. La medicina se hace más computacional
Todo cambia con la aparición de las
nuevas tecnologías de secuenciación. ht
tp:/
/ww
w.g
eno
me.
go
v/se
qu
enci
ng
cost
s/
Los “1000 genomas” españoles Iniciativa para secuenciar pacientes de
enfermedades raras
Enfermedades con: • Genes desconocidos • Genes conocidos/mutaciones descartadas
Búsqueda de: • Nuevos genes • Genes conocidos con genes modificadores desconocidos • Genes de susceptibilidad
http://www.gbpa.es/
Producción de datos Plataformas de secuenciación Análisis de datos
Manejo, almacenamiento y análisis de datos genómicos
http://www.gbpa.es/
GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGGATTGCGATTGGCAGAGCGGC
AAAGT
GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGGATTGCGATTGGCAGAGCGGC
AAAGT
GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGGATTGCGATTGGCAGAGCGGC
AAAGT
GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGGATTGCGATTGGCAGAGCGGC
AAAGT
Raw files (FastQ)
DB
Analysis Pipeline
Storage
K-DB
Gene 1 ksdhkahcka Gene 2 jckacsksda Gene 3 lkkxkccj<jdc Gene 4 ksfdjvjvlsdkvjd Gene 5 kckcksñdksd Gene 6 ldkdkcksdcldl Gene x kcdlkclkldsklk Gene Y jcdksdkcdks
Informe de priorización
Diálogo con expertos en la enfermedad + validaciones
Samples
GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGG
GCGTATAGCACGGGTATCTGTATTATGGTGGATATCAGCGG
VCF BAM Processed files
Descubrimiento de mutaciones y genes por secuenciación exómica
En la iniciativa CIBERER se han encontrado nuevas 36 mutaciones en genes asociados y 27 mutaciones en genes nuevos (13 genes).
WES
IRDs
arRP (EYS)
BBS
arRP arRP (USH2)
3-MGA-uria
(SERAC1)
NBD (BCKDK )
Knowledge DB
Freq. p
op
ul.
MiSeq IonTorrent IonProton
Illumina
NO
Diagnostic Therapeutic
decision
New
var
ian
ts
Dis
ease
All
Candidate Prioritization
Dat
a p
rep
roce
ssin
g
Sequence DB
Seq
uen
ces
Freqs.
Future Technologies
(e.g. nanopore)
New knowledge for future diagnostic
Desarrollo de un sistema completo para diagnóstico y descubrimiento de genes
Se ha realizado un proyecto piloto instalando el sistema en el IT4I supercomputing center, donde se centralizará el análisis de datos genómicos del país
Manejo de datos genómicos escalable al tamaño de un país de 10M de habitantes
Implementación del sistema de gestión de
datos genómicos en el centro de
supercomputación IT4I (República Checa)
Medicina genómica: transición de la medicina empírica a la de precisión
Test marcador momogénico
Therapy 1
Medicina empírica basada en biomarcadores
Therapia 1
Therapia 2
Therapia 3
Medicina genómica
+
El análisis genómico permite asociar biomarcadores de pacientes al resultado
de las terapias y aplicar ese conocimiento desde el principio ahorrando tiempo,
costes e incrementando el éxito de los tratamientos feedback
Therapy 2
Therapy 3
Test marcador multigénico
Ensayo clínico Resultado
Medicina genómica. Fase I: generación de la base de datos de conocimiento
----------------------------------------------------------------------
Secuenciación
Paciente Lista de variantes
Database. Query
Terapia resultado
Retroalimentación del sistema
Variantes genómicas (biomarcadores) se asocian a diagnósticos precisos y al resultado de terapias
Inicialmente el sistema va a necesitar mucha retroalimentación: Fase de generación de conocimiento. Crecimiento de la base de datos de conocimiento
Medicina genómica
Knowledge database
2011
Medicina genómica.
Fase II: aplicación de la base de datos de conocimiento
Paciente
1) Secuenciación 2) Base de datos de conocimiento 3) Sugerencia de terapia
Genomic core facility Fase II
El clínico recibe recomendaciones de tratamiento basadas en biomarcadores
+ Otros factores (riesgo, coste, etc.)
Tratamiento Análisis pre-sintomático: • Diagnóstico temprano de enfermedades genéticas •Predisposición genética a enfermedades adquiridas
Análisis sintomático • Diagnóstico de enfermedades adquiridas • Detección temprana de cáncer • Recomendación de tratamientos
2011
Componente computacional de la medicina
genómica: Preparando el escenario para la introducción del
genoma en la práctica clínica
Paciente
Tratamiento
eHR
Técnicas de soporte de la
decisión: algoritmos que
relacionan biomarcadores
a tratamientos,
pronósticos, etc.
Integración
de datos en
el eHR
Presentación de los
datos al clínico:
listos para su
interpretación
Aceleración de
algoritmos de
procesamiento y
almacenamiento de
datos
feedback
Sistemas
corporativos
Orion clinic
Abucasis, Gaia,
etc.
?
SIP
Diagnostico + descubrimiento de
biomarcadores: una aproximación integral Proyecto CIBERER con la colaboration de: La Paz, FJD, Ramón y Cajal, CBM
(Madrid), Virgen del Rocio (Sevilla), Hospital del Mar (Barcelona), HU La Fe
(Valencia)
http://team.babelomics.org
http://BiERapp.babelomics.org
Diagnóstico con NGS y
paneles virtuales
Variante diagnóstica
Hallazgos secundarios
Informe médico Generación de paneles virtuales http://team.babelomics.org
3-Methylglutaconic aciduria (3-
MGA-uria) is a heterogeneous
group of syndromes
characterized by an increased
excretion of 3-methylglutaconic
and 3-methylglutaric acids.
WES with a consecutive filter
approach is enough to detect
the new mutation in this case.
Heuristic Filtering approach An example with 3-Methylglutaconic aciduria syndrome
Priorización de variantes
candidatas a causar enfermedad
Filtros para descartar
variantes candidatas por
- Impacto mutacional
- Segregación familiar
- Frecuencia poblacional
- Tipo de mutación
- Etc.
El efecto de la variación local
E1 E2 E3 E1 E3 E1 E2 E3 E1 E2
Control Recurrencia
Hospital 1 Hospital 2 Hospital 3 Hospital 4 Y su uso sin
comprometer la
confidencialidad
de los datos
genómicos
Propuesta para integrar datos genómicos
dentro de un sistema sanitario
La integración de datos
genómicos en el sistema
sanitario es factible.
• Secuenciación para
diagnóstico (en el futuro
rutinaria)
• Trazabilidad de las
operaciones
• Almacenamiento basado
en OpenCGA (100KUK
project)
• Búsqueda de recurrencias
y uso de (pseudo)controles
• Medicina preventiva sobre
la base de datos de
pacientes
La transición a la medicina de precisión
Intuitiva y basada en
ensayo y error
Reconocimiento de patrones
probabilísticos
Decisiones y acciones
basadas en el conocimiento
Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)
Hoy Mañana
Medicina genómica
Biomarcadores moleculares
Grado de personalización
Aunque implementando prácticas de medicina genómica, aún estamos en la
era de la medicina empírica. Sin conocer la relación funcional entre el genotipo y
la enfermedad solo tenemos patrones probabilísticos más precisos
Future prospects: Actionable models
The real advantage of models is that, the same way they can be used
to convert omics data into measurements of cell functionality that
provide information on disease mechanisms and drug MoA, they can
be used to test hypothesis such as “what if I suppress (or over-
express) this gen?” This lead to the concept of actionable models.
By simulating changes of gene expression/activity it is easy to:
• Direct study of the consequences of induced gene over-expressions
or KOs
• Reverse study of genes that need to be perturbed to change cell
functionalities, such as:
• Reverting the “normal” functional status of a cell
• Selectively kill diseased cells without affecting normal cells
• Enhancing or reducing cell functionalities (e.g., apoptosis or
proliferation, respectively, to fight cancer)
• Etc.
Actionable pathway models
KO in RAF1 gene Drugs that
target RAF1
Selected
drugs
extra
targets
Other
pathways
affected
by the KO
Specific
circuits
affected
Action
button
http://pathact.babelomics.org/
Precision personalized and individualized treatments will soon be a reality
From: Dopazo, 2014, Genomics and transcriptomics in drug discovery. Drug Discovery Today
La transición a la medicina de precisión
Intuitiva y basada en
ensayo y error
Reconocimiento de patrones
probabilísticos
Decisiones y acciones
basadas en el conocimiento
Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)
Hoy Mañana
Medicina genómica
Biomarcadores moleculares
Grado de personalización
El uso de nuevos algoritmos que permitan hacer modelos que relacionen
funcionalmente el genotipo con la enfermedad o con los mecanismos de
acción de los fármacos permitirá una verdadera transición a la medicina de
precisión y a una mayor personalización de los tratamientos.
Software development at Computational
Genomics Department (CIPF)
See interactive map of for the last 24h use http://bioinfo.cipf.es/toolsusage Babelomics is the third most cited tool for functional analysis. Includes more than 30 tools for advanced, systems-biology based data analysis
More than 150.000 experiments were analyzed in our tools during the last year
HPC on CPU, SSE4, GPUs on NGS data processing Speedups up to 40X
Genome maps is now part
of the ICGC data portal
Ultrafast genome viewer with google technology
Mapping
Visualization
Functional analysis
Variant annotation
CellBase Knowledge
database
Variant
prioritization
NGS
panels
Signaling network
Regulatory
network Interaction
network
Diagnostic
Used in the
annotation of
GEL (UK100K)
Pilot
project in
seven
hospitals
The Computational Genomics Department at the Centro de
Investigación Príncipe Felipe (CIPF), Valencia, Spain, and…
...the INB, National Institute of Bioinformatics (Functional Genomics Node) and the BiER (CIBERER Network of Centers for Research in Rare Diseases)
@xdopazo @bioinfocipf Follow us on twitter