intelligent system group u.p.v. / e.h.u. aprendizaje automático en bioinformática pedro larrañaga...
TRANSCRIPT
![Page 1: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/1.jpg)
Intelligent System GroupU.P.V. / E.H.U.
Aprendizaje Automático en Bioinformática
Pedro LarrañagaPedro Larrañaga
Intelligent Systems GroupIntelligent Systems Group
Departamento de CCIADepartamento de CCIA
UPV-EHUUPV-EHU
Lejona, 12 de noviembre de 2003Lejona, 12 de noviembre de 2003
![Page 2: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/2.jpg)
2Aprendizaje Automático en Bioinformática
Esquema
IntroducciónIntroducción ClusteringClustering Clasificación SupervisadaClasificación Supervisada Selección de VariablesSelección de Variables ConclusionesConclusiones
![Page 3: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/3.jpg)
3Aprendizaje Automático en Bioinformática
Introducción
Gran volumen de datosGran volumen de datos Problemas de almacenamiento (bases de Problemas de almacenamiento (bases de
datos)datos) Problemas de tratamiento de imagenProblemas de tratamiento de imagen Problemas de optimizaciónProblemas de optimización Sistemas de ayuda: predicción de Sistemas de ayuda: predicción de
enfermedades, descubrimiento de enfermedades, descubrimiento de conocimientoconocimiento
![Page 4: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/4.jpg)
4Aprendizaje Automático en Bioinformática
Clustering
Tenemos caracterizados 50 pacientes, con Tenemos caracterizados 50 pacientes, con su expresión génica en 2000 genessu expresión génica en 2000 genes
Nos interesa:Nos interesa: Grupos de pacientes con expresiones Grupos de pacientes con expresiones
génicas parecidasgénicas parecidas Grupos de genes que se comportan de la Grupos de genes que se comportan de la
misma formamisma forma
![Page 5: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/5.jpg)
5Aprendizaje Automático en Bioinformática
Clustering
Objetivo: agrupar objetos en grupos, Objetivo: agrupar objetos en grupos, homogeneidad dentro, heterogeneidad entrehomogeneidad dentro, heterogeneidad entre
Dos técnicas básicas:Dos técnicas básicas: Clustering particional: k-means Clustering particional: k-means
(MacQueen, 1967)(MacQueen, 1967) Clustering jerárquico (McQuitty, 1962)Clustering jerárquico (McQuitty, 1962)
![Page 6: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/6.jpg)
6Aprendizaje Automático en Bioinformática
k-means
Paso 1: Seleccionar k centroidesPaso 1: Seleccionar k centroides Paso 2: Asignar cada objeto a agrupar al Paso 2: Asignar cada objeto a agrupar al
centroide más cercanocentroide más cercano Paso 3: Iterar hasta convergenciaPaso 3: Iterar hasta convergencia
Paso 3.1: Recalcular los centroides como Paso 3.1: Recalcular los centroides como baricentros de los objetos de cada grupobaricentros de los objetos de cada grupo
Paso 3.2: Reasignar cada objeto al Paso 3.2: Reasignar cada objeto al centroide más cercanocentroide más cercano
![Page 7: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/7.jpg)
7Aprendizaje Automático en Bioinformática
k-means
Iteración 0 Iteración 1Iteración 0 Iteración 1
![Page 8: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/8.jpg)
8Aprendizaje Automático en Bioinformática
k-means
Iteración 1 Iteración 2Iteración 1 Iteración 2
![Page 9: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/9.jpg)
9Aprendizaje Automático en Bioinformática
k-means
Iteración 3 Iteración 4Iteración 3 Iteración 4
![Page 10: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/10.jpg)
10Aprendizaje Automático en Bioinformática
Clustering ascendente jerárquico
Técnica aglomerativaTécnica aglomerativa ““Fusiona” objetos de Fusiona” objetos de
forma sucesivaforma sucesiva Definición de distancia Definición de distancia
entre “superobjetos”entre “superobjetos” VisualizaciónVisualización
Dendrograma (árbol)Dendrograma (árbol) Diagrama de VennDiagrama de Venn
J K E W D R S A
![Page 11: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/11.jpg)
11Aprendizaje Automático en Bioinformática
Clustering ascendente jerárquico
Enlace simple (single Enlace simple (single linkage)linkage) La distancia entre La distancia entre
dos superobjetos se dos superobjetos se define como la define como la mínima distancia mínima distancia entre pares de entre pares de objetos objetos pertenecientes a los pertenecientes a los mismosmismos
x x
x
x
O OO
O
![Page 12: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/12.jpg)
12Aprendizaje Automático en Bioinformática
Clustering ascendente jerárquico
Enlace medio (mean Enlace medio (mean linkage)linkage) La distancia entre dos La distancia entre dos
superobjetos se define superobjetos se define como la media entre como la media entre las distancias de las distancias de todos los pares de todos los pares de objetos cada uno de objetos cada uno de ellos de distintos ellos de distintos superobjetossuperobjetos
x x
x
x
O OO
O
![Page 13: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/13.jpg)
13Aprendizaje Automático en Bioinformática
Clustering ascendente jerárquico
Enlace completo Enlace completo (complete linkage)(complete linkage) La distancia entre dos La distancia entre dos
superobjetos se define superobjetos se define como el máximo entre como el máximo entre las distancias de las distancias de todos los pares de todos los pares de objetos cada uno de objetos cada uno de ellos de distintos ellos de distintos superobjetossuperobjetos
x x
x
x
O OO
O
![Page 14: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/14.jpg)
14Aprendizaje Automático en Bioinformática
![Page 15: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/15.jpg)
15Aprendizaje Automático en Bioinformática
Clasificación supervisada Objetivo: a partir de unas muestras Objetivo: a partir de unas muestras
etiquetadas, ser capaz de etiquetar nuevas etiquetadas, ser capaz de etiquetar nuevas muestrasmuestras
0.70.7 -0.2-0.2 SanoSano
0.60.6 0.50.5 SanoSano
-0.6-0.6 0.10.1 EnfermoEnfermo
00 -0.9-0.9 SanoSano
-0.4-0.4 0.40.4 SanoSano
-0.8-0.8 0.60.6 EnfermoEnfermo
0.50.5 -0.7-0.7 SanoSano
0.60.6 -0.1-0.1 ??
0.40.4 0.60.6 ??
-0.1-0.1 0.20.2 ??
00 -0.5-0.5 ??
-0.3-0.3 0.40.4 ??
-0.8-0.8 0.70.7 ??
0.30.3 -0.7-0.7 ??
![Page 16: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/16.jpg)
16Aprendizaje Automático en Bioinformática
Clasificación supervisada
Paradigmas clasificatoriosParadigmas clasificatorios Clasificadores BayesianosClasificadores Bayesianos Árboles de clasificaciónÁrboles de clasificación K-NNK-NN Inducción de reglasInducción de reglas Redes neuronalesRedes neuronales Máquinas de soporte vectorialMáquinas de soporte vectorial
![Page 17: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/17.jpg)
17Aprendizaje Automático en Bioinformática
Clasificación supervisada
Criterios de comparación de clasificadoresCriterios de comparación de clasificadores Tasa de aciertoTasa de acierto Área bajo la curva ROCÁrea bajo la curva ROC Complejidad algorítmica del inductorComplejidad algorítmica del inductor Interpretabilidad del modeloInterpretabilidad del modelo Simplicidad del modeloSimplicidad del modelo
![Page 18: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/18.jpg)
18Aprendizaje Automático en Bioinformática
Clasificación supervisada
Clasificadores Bayesianos: naïve BayesClasificadores Bayesianos: naïve Bayes
...
C
X1 X2 X3 Xn
)|()|()|()(),,,|( 2121 cxpcxpcxpcpxxxcp nn
![Page 19: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/19.jpg)
19Aprendizaje Automático en Bioinformática
Clasificación supervisada
Árboles de clasificaciónÁrboles de clasificación
gen_32
gen_27 gen_91
gen_40 gen_98
sano25/5
sano26/2
sano40/6
enfermo 3/17
enfermo 4/30
enfermo 2/40
< .34 > .34
< .72> .72> .59 < .59
< .29 > .29 < .63 > .63
![Page 20: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/20.jpg)
20Aprendizaje Automático en Bioinformática
Selección de variables
MotivaciónMotivación Mejora en el eficacia, eficiencia y rapidez de Mejora en el eficacia, eficiencia y rapidez de
uso del modelouso del modelo Mejor comprensibilidad de los datosMejor comprensibilidad de los datos
Variables redundantes, variables irrelevantesVariables redundantes, variables irrelevantes Dos tipos de aproximación:Dos tipos de aproximación:
FiltradoFiltrado EnvolturaEnvoltura
![Page 21: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/21.jpg)
21Aprendizaje Automático en Bioinformática
Selección de variables
Naïve BayesNaïve Bayes Árbol de Árbol de clasificaciónclasificación
K-NNK-NN Inducción de Inducción de reglasreglas
noFSSnoFSS 84.7284.72 84.7284.72 86.1186.11 75.0075.00
filter3filter3 90.1890.18 87.5087.50 81.9481.94 86.1186.11
filter20filter20 90.2890.28 93.0693.06 80.5680.56 81.9481.94
envolturaenvoltura 95.8395.83
44
95.8395.83
44
100.0100.0
33
97.2297.22
33
Porcentaje de casos bien clasificados para la base de datos Leukemia (Golub et al., 1999): 7129 genes, 72 casos (25 AML, 47 ALL) (Inzay col., 2003)
![Page 22: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU](https://reader035.vdocuments.mx/reader035/viewer/2022062808/5665b4351a28abb57c8ffc61/html5/thumbnails/22.jpg)
22Aprendizaje Automático en Bioinformática
Conclusiones
Biología molecular rica en datosBiología molecular rica en datos Técnicas de aprendizaje automático válidas para: Técnicas de aprendizaje automático válidas para:
descubrir conocimientodescubrir conocimiento sugerir nuevas hipótesissugerir nuevas hipótesis crear modelos predictivoscrear modelos predictivos estudiar la corregulación entre genesestudiar la corregulación entre genes resolver problemas de optimizaciónresolver problemas de optimización