alineamientos simple y mÚltiple
DESCRIPTION
ALINEAMIENTOS SIMPLE Y MÚLTIPLE. Juan José Nieto Lunes, 11 de Julio de 2005. ALINEAMIENTO SIMPLE. Consiste en establecer un segmento entre dos secuencias biológicas donde el número de coincidencias sea máximo. INDELS. Inserción: IN SERT Se asigna una base demasiado pronto - PowerPoint PPT PresentationTRANSCRIPT
ALINEAMIENTOS ALINEAMIENTOS SIMPLE Y MÚLTIPLESIMPLE Y MÚLTIPLE
Juan José Nieto
Lunes, 11 de Julio de 2005
ALINEAMIENTO SIMPLEALINEAMIENTO SIMPLE
Consiste en establecer un segmento entre dos secuencias biológicas donde
el número de coincidencias sea máximo
INDELSINDELS
Inserción: INSERT Se asigna una base demasiado pronto
Eliminación: DELETEDQueda sin asignar una base
Se introduce una nueva letra en el alfabeto DNA: El “hueco” (gap) -
ComparaciónComparación
Secuencia 1: M A R I ASecuencia 2: M I R I A MSecuencia 3: M A R I OSecuencia 4: A R I A D N A
ComparaciónComparación
Secuencia 1: MM A R I AR I ASecuencia 2: MM I R I AR I A M
4 coincidencias
ComparaciónComparación
Secuencia 1: MM AA R I R I ASecuencia 3: MM AA R I R I O
3 coincidencias
ComparaciónComparación
Secuencia 1: M A R I ASecuencia 4: A R I A D N A
0 Coincidencias
ComparaciónComparación
Secuencia 1: M A R I AA R I ASecuencia 4: - A R I AA R I A D N A
4 Coincidencias
ComparaciónComparación
Secuencia 5: J O S E
Secuencia 6: P E P E
ComparaciónComparación
Secuencia 5: J O S EE
Secuencia 6: P E P E E
1 coincidencia
Comparación DNA - Comparación DNA - Leucina
Secuencia : T T T A
Secuencia : C T T G
1 coincidencia
ALINEAMIENTOALINEAMIENTO
SIMILITUD
Cuantitativo
HOMOLOGÍA
Cualitativo
Clasificación Clasificación
AlineamientosAlineamientos
Por número de secuenciasPor número de secuencias
Simple
Múltiple
Por nivel de análisisPor nivel de análisis
Global
Local
ProgramasProgramas
BLAST (Basic Local Alignment Search
Tool) http://www.ncbi.nlm.nih.gov
FASTA http://www.ebi.ac.uk
BLASTBLAST
blastp blastn blastx tblastn tblastx
EjemploEjemplo
g c t g a a c g
c t a t a a t c
2 coincidencias2 coincidencias
g c t g a a c g
c t a t a a t c
Otro alineamiento (Muy malo)Otro alineamiento (Muy malo)
- - - - - - - - g c t g a a c g
c t a t a a t c - - - - - - - -
Otro alineamientoOtro alineamiento(1 coincidencia)(1 coincidencia)
- - - - g c t g a a c g
c t a t a a t c - - - -
Otro alineamiento (malo)Otro alineamiento (malo)
g c t g a - a - - c g
- - c t - a t a a t c
Otro alineamiento (bueno)Otro alineamiento (bueno)5 coincidencias
g c t g - a a - c g
- c t a t a a t c -
¿Cuántos alineamientos ¿Cuántos alineamientos posibles hay?posibles hay?
Problema combinatorio
No se permite alinear dos huecos
Hay un número finito de alineamientos
Número de alineamientosNúmero de alineamientos
Primera secuencia: 8 letras
Segunda secuencia: 8 letras
Hay 265 729 alineamientos posibles
¿Cómo elegir el mejor ¿Cómo elegir el mejor alineamiento? alineamiento?
Hay que dar un valor a cada alineamientoElegiremos el (los) que tengan mayor
puntuación.
Por ej.: Coincidencia +1 puntos
No coincidencia 0 puntos
Nos da el número de coincidenciasnúmero de coincidencias
Otra puntuaciónOtra puntuación
Por ej.: Coincidencia +2 puntos
No coincidencia -1 punto
2 coincidencias2 coincidenciasPuntuación: -2 puntosPuntuación: -2 puntos
g c t g a a c g
c t a t a a t c
Otro alineamientoOtro alineamiento-10 puntos-10 puntos
- - - - g c t g a a c g
c t a t a a t c - - - -
Otro alineamientoOtro alineamiento- 11 puntos- 11 puntos
g c t g a - a - - c g
- - c t - a t a a t c
Otro alineamientoOtro alineamiento5 puntos5 puntos
g c t g - a a - c g
- c t a t a a t c -
Algoritmo (teórico)Algoritmo (teórico)
Paso 1 : Considerar todos los alineamientos posibles
Paso 2 :Determinar un valor para ese alineamiento
Paso 3 :Guardar el valor máximo
ProblemaProblema
El número de operaciones crece e una forma “exagerada”
Número de alineamientos de Número de alineamientos de dos secuencias de longituddos secuencias de longitud
n ,mn ,m
n = m = 8 265 729 alineamientos
n = m = 10 8 097 453 alineamientos
Fórmula del número de Fórmula del número de alineamientos posibles alineamientos posibles para dos secuencias de para dos secuencias de
longitud n y m:longitud n y m:
f(n,m)f(n,m)
Fórmula de recurrenciaFórmula de recurrencia
f(n+1 , m+1) = f(n,m+1) + f(n+1,m)
+ f(n,m)
DemostraciónDemostración
Se basa en que el final de un alineamiento es: (- , letra) , (letra , - ) ó (letra , letra)
A. Torres, A. Cabada, J.J. Nieto “An exact formula for the number of alignments between two DNA sequences” DNA SEQUENCE (2003)
ConsecuenciasConsecuencias
f(n+1,n+1) > 3n
f (107 , 107 ) > 1080
Una secuencia “pequeña” tiene 200-500 nucleótidos
Una proteína sobre 200-400 aminoácidos
Alineamiento global:Alineamiento global:Algoritmo de Algoritmo de
Neddleman&Wunsch (1970)Neddleman&Wunsch (1970)
EjemploEjemplo
g c t g a a c g
c t a t a a t c
g c t g a a c g
c 1 1
t 1
a 1 1
t 1
a 1 1
a 1 1
t 1
c 1 1
¿Cómo se puede determinar ¿Cómo se puede determinar el alineamiento óptimo?el alineamiento óptimo?
Aunque no tengamos ni idea, sabemos una cosa: El alineamiento tiene que tener una de las tres terminaciones siguientes
g - g - c c
g c t g a a c g
c 1 1
t 1
a 1 1
t 1
a 1 1
a 1 1
t 1
c 1 1
TerminaciónTerminación
c g c -
g c t g a a c g
c 1 1
t 1
a 1 1
t 1
a 1 1
a 1 1
t 1
c 1 1
g c t g a a
c 1
t 1
a 1 1
t 1
a 1 1
a 1 1
t 1
Simplificación del problema Simplificación del problema originaloriginal
Secuencia 1: g c t g a a Longitud 6
Secuencia 2: c t a t a a t Longitud 7
Posibles terminacionesPosibles terminaciones
a - a - t t
g c t g a a
c 1
t 1
a 1 1
t 1
a 1 1
a 1 1
t 1
TerminaciónTerminación
a - a t
g c t g a a
c 1
t 1
a 1 1
t 1
a 1 1
a 1 1
t 1
4 últimas posiciones del 4 últimas posiciones del alineamientoalineamiento
a - c g a t c -
g c t g a c 1 t 1 a 1 t 1 a 1
g c t g a c 1 t 1 a 1 t 1 a 1
Posibles terminacionesPosibles terminaciones
a - a - a a
5 últimas posiciones del 5 últimas posiciones del alineamientoalineamiento
a a - c g a a t c -
g c t g
c 1
t 1
a
t 1
g c t g
c 1
t 1
a
t 1
Posibles terminacionesPosibles terminaciones
g - g - t t
Terminación correspondiente Terminación correspondiente a la última submatriza la última submatriz
t g t -
g c t g
c 1
t 1
a
t 1
7 últimas posiciones del 7 últimas posiciones del alineamientoalineamiento
t g a a - c g t - a a t c -
g c
c 1
t
a
g c
c 1
t
a
Posibles terminacionesPosibles terminaciones
c - c - a a
Terminación correspondiente Terminación correspondiente a la última submatriza la última submatriz
g c - - - c t a
Alineamiento FinalAlineamiento Final5 coincidencias5 coincidencias
g c - - t g a a - c g - c t a t - a a t c -
Alineamiento FinalAlineamiento Final5 coincidencias5 coincidencias
g c - - t g a a - c g - c t a t - a a t c -
Observación importanteObservación importante
Hemos valorado positivamente las coincidencias, pero no hemos penalizado la introducción de huecos ni las no coincidencias
Alineamiento globalAlineamiento globalPROGRAMACIÓN DINÁMICAPROGRAMACIÓN DINÁMICA
1.- Función de similitud2.- Los indels se penalizan con un peso3.- Se construye una matriz4.- Se recupera la solución
Programación DinámicaProgramación Dinámica
1.- Coincidencia: +1No coincidencia: 0
2.- Introducción de “huecos”: 0
EjemploEjemploProgramación dinámicaProgramación dinámica
g g a t c g a
g a a t t c a g t t a
g g a t c g a
g
a
a
t
t
c
a
g
t
t
a
g g a t c g a
0 0 0 0 0 0 0 0
g 0
a 0
a 0
t 0
t 0
c 0
a 0
g 0
t 0
t 0
a 0
g g a t c g a
0 0 0 0 0 0 0 0
g 0
a 0
a 0
t 0
t 0
c 0
a 0
g 0
t 0
t 0
a 0
Cálculo de los elementos de Cálculo de los elementos de la matrizla matriz
H(i-1,j-1) H(i,j-1)
H(i-1,j) H(i,j)
Entradas matrizEntradas matriz
H(i,j) es el máximo entre:
H(i-1,j-1)+c(xi,yi)
H(i-1,j)-w H(i,j-1)-w
g g a t c g a
0 0 0 0 0 0 0 0
g 0
a 0
a 0
t 0
t 0
c 0
a 0
g 0
t 0
t 0
a 0
g g a t c g a
0 0 0 0 0 0 0 0
g 0 1
a 0
a 0
t 0
t 0
c 0
a 0
g 0
t 0
t 0
a 0
g g a t c g a
0 0 0 0 0 0 0 0
g 0 1 1 1 1 1 1 1
a 0 1
a 0 1
t 0 1
t 0 1
c 0 1
a 0 1
g 0 1
t 0 1
t 0 1
a 0 1
g g a t c g a
0 0 0 0 0 0 0 0
g 0 1 1 1 1 1 1 1
a 0 1
a 0 1
t 0 1
t 0 1
c 0 1
a 0 1
g 0 1
t 0 1
t 0 1
a 0 1
g g a t c g a
0 0 0 0 0 0 0 0
g 0 1 1 1 1 1 1 1
a 0 1 1
a 0 1
t 0 1
t 0 1
c 0 1
a 0 1
g 0 1
t 0 1
t 0 1
a 0 1
g g a t c g a
0 0 0 0 0 0 0 0
g 0 1 1 1 1 1 1 1
a 0 1 1
a 0 1
t 0 1
t 0 1
c 0 1
a 0 1
g 0 1
t 0 1
t 0 1
a 0 1
g g a t c g a
0 0 0 0 0 0 0 0
g 0 1 1 1 1 1 1 1
a 0 1 1 2
a 0 1
t 0 1
t 0 1
c 0 1
a 0 1
g 0 1
t 0 1
t 0 1
a 0 1
g g a t c g a
0 0 0 0 0 0 0 0
g 0 1 1 1 1 1 1 1
a 0 1 1 2 2 2 2 2
a 0 1 1 2 2 2 2 3
t 0 1 1 2 3 3 3 3
t 0 1 1 2 3 3 3 3
c 0 1 1 2 3 4 4 4
a 0 1 1 2 3 4 4 5
g 0 1 2 2 3 4 5 5
t 0 1 2 2 3 4 5 5
t 0 1 2 2 3 4 5 5
a 0 1 2 3 3 4 5 6
g g a t c g a
0 0 0 0 0 0 0 0
g 0 1 1 1 1 1 1 1
a 0 1 1 2 2 2 2 2
a 0 1 1 2 2 2 2 3
t 0 1 1 2 3 3 3 3
t 0 1 1 2 3 3 3 3
c 0 1 1 2 3 4 4 4
a 0 1 1 2 3 4 4 5
g 0 1 2 2 3 4 5 5
t 0 1 2 2 3 4 5 5
t 0 1 2 2 3 4 5 5
a 0 1 2 3 3 4 5 6
AlineamientoAlineamientoProgramación dinámicaProgramación dinámica
g g a - t - c - g - - a
g - a a t t c a g t t a
AlineamientoAlineamientoProgramación dinámicaProgramación dinámica
6 coincidencias
g g a - t - c - g - - a
g - a a t t c a g t t a
EjemploEjemploProgramación dinámicaProgramación dinámica
g c t g a a c g
c t a t a a t c
c t a t a a t c
0 0 0 0 0 0 0 0 0
g 0
c 0
t 0
g 0
a 0
a 0
c 0
g 0
c t a t a a t c
0 0 0 0 0 0 0 0 0
g 0 0 0 0 0 0 0 0 0
c 0 1 1 1 1 1 1 1 1
t 0 1 2 2 2 2 2 2 2
g 0 1 2 2 2 2 2 2 2
a 0 1 2 3 3 3 3 3 3
a 0 1 2 3 3 4 4 4 3
c 0 1 2 3 3 4 4 4 5
g 0 1 2 3 3 4 4 4 5
c t a t a a t c
0 0 0 0 0 0 0 0 0
g 0 0 0 0 0 0 0 0 0
c 0 1 1 1 1 1 1 1 1
t 0 1 2 2 2 2 2 2 2
g 0 1 2 2 2 2 2 2 2
a 0 1 2 3 3 3 3 3 3
a 0 1 2 3 3 4 4 4 3
c 0 1 2 3 3 4 4 4 5
g 0 1 2 3 3 4 4 4 5
Alineamiento FinalAlineamiento FinalProgramación dinámicaProgramación dinámica
5 coincidencias / 5 puntos5 coincidencias / 5 puntos
- c t a t a a t c - g c t g - a a - c g
c t a t a a t c
0 0 0 0 0 0 0 0 0
g 0 0 0 0 0 0 0 0 0
c 0 1 1 1 1 1 1 1 1
t 0 1 2 2 2 2 2 2 2
g 0 1 2 2 2 2 2 2 2
a 0 1 2 3 3 3 3 3 3
a 0 1 2 3 3 4 4 4 3
c 0 1 2 3 3 4 4 4 5
g 0 1 2 3 3 4 4 4 5
Alineamiento FinalAlineamiento FinalProgramación dinámicaProgramación dinámica
5 coincidencias / 5 puntos5 coincidencias / 5 puntos
- c t - a t a a t c - g c t g a - a - - c g
Programación DinámicaProgramación Dinámica
1.- Coincidencia: +2No coincidencia: -1
2.- Introducción de “huecos”: -1
c t a t a a t c
0 -1 -2 -3 -4 -5 -6 -7 -8
g -1 -1 -2 -3 -4 -5 -6 -7 -8
c -2 1 0 -1 -2 -3 -4 -5 -5
t -3 0 3 2 1 0 -1 -2 -3
g -4 -1 2 2 1 0 -1 -2 -3
a -5 -2 1 4 3 3 2 1 0
a -6 -3 0 3 3 5 5 4 3
c -7 -4 -1 2 2 4 4 4 6
g -8 -5 -2 1 1 3 3 3 5
c t a t a a t c
0 -1 -2 -3 -4 -5 -6 -7 -8
g -1 -1 -2 -3 -4 -5 -6 -7 -8
c -2 1 0 -1 -2 -3 -4 -5 -5
t -3 0 3 2 1 0 -1 -2 -3
g -4 -1 2 2 1 0 -1 -2 -3
a -5 -2 1 4 3 3 2 1 0
a -6 -3 0 3 3 5 5 4 3
c -7 -4 -1 2 2 4 4 4 6
g -8 -5 -2 1 1 3 3 3 5
Alineamiento FinalAlineamiento FinalProgramación dinámicaProgramación dinámica
5 coincidencias / 4 puntos5 coincidencias / 4 puntos
- c t - a t a a t c - g c t g a - a - - c g
M. TuberculosisM. Tuberculosis 1-100 1-100
ttgaccgatgaccccggttcaggcttcaccacagtgtggaacgcggtcgtctccgaacttaacggcgaccctactaaggttgacgacggacccagcagtgatg
http://www.ebi.ac.uk
BlastNBlastN
c t a t
http://www.ebi.ac.uk
BlastNBlastN
c t a t a a t
c t a t a a tc t a t a a t
EMBL:HS216E10 Z83840 Human DNA sequence from clone CTA-216E10 on chromosone 22 ..... 122320
EMBL:CHCRRU573 U57326Chlamudomonas reinhardtii RpoC2 protein ...... 10826
Alineamiento MúltipleAlineamiento Múltiple
Alineamiento MúltipleAlineamiento Múltiple
FINFIN