introducción a la bioinformática
DESCRIPTION
hola espero que les sirvaTRANSCRIPT
Introducción a la Bioinformática
Dr. Alfonso Méndez Tenorio
Laboratorio de Biotecnología y Bioinformática Genómica
Escuela Nacional de Ciencias Biológicas- IPN.
e-mail: [email protected]
Dr. Alfonso Méndez Tenorio
La revolución informática en biología.
La forma como son estudiados los organismos en biología y todas las ciencias relacionadas ha sufrido una revolución.
Un componente de esta revolución ha sido el incremento en el número genomas completos secuenciados de varios organismos.
Otro componente ha sido la integración de las computadoras en el análisis de la información.
Dr. Alfonso Méndez Tenorio
Determinación de la secuencia de proteínas
1945-1955: Frederick Sanger y Cols. determinaron exitosamente la secuencia de aminoácidos de la insulina.
Paralelamente Pehr Edman desarrolla un método más conveniente para la determinación de secuencia (degradación de Edman).Permitió la sistematización.
A finales de la década de los 60s P. Edman desarrolla un dispositivo automatizado para determinar la secuencia de aminoácidos.
Figura 1: Historial de las primeras secuencias de proteínas que fueron establecidas. En un periodo de 19 años se conoció la secuencia de 13 proteínas.
Insulina
(cadena )
1951 1953 1957 1960 1961 1962 1963 1965 1966 1967 1969
Insulina
(cadena )
Oxitocina
Vasopresina
Glucagon
Ribonucleasa
Citocromo c
Hemoglobina
(cadena )
Hemoglobina
(cadena )
Lisozima
Cubierta viral Mosaico del
Tabaco
Mioglobina
Tripsinógeno
Hormona de crecimiento
Deshidrogenasa del Glicerarldehído 3 – fosfato
Inmunoglobulina
(cadena )
Dr. Alfonso Méndez Tenorio
Margaret Dayhoff.
Margaret Oakley Dayhoff (NBRF-NIH): En la década de los 60s ideó las primeras técnicas matemáticas para analizar datos de secuencia.
Desarrolló técnicas computacionales para reconstruir la secuencia de proteínas a partir de la secuencia de fragmentos generados por los métodos de digestión parcial
Estableció el Atlas of Protein Sequence and Strcuture. Desarrolló la Matriz de Porcentajes de Mutación Aceptados
(PAM) para evaluar la probabilidad de que un aminoácido sea substituido por otro durante el transcurso de un proceso evolutivo.
Dr. Alfonso Méndez Tenorio
Determinación de la secuencia de nucleótidos.
En 1973 se determinó la secuencia de un fragmento del DNA del bacteriófago X174 (48 nt) mediante un complejo proceso de digestiones de DNA marcado con P32 y análisis posterior de los fragmentos obtenidos por cromatografía
En 1977 Maxam y Gilbert publicaron un método para la determinación de secuencia basado en un rompimiento químico específico de la molécula.
Ese mismo año Sanger, Nicklen y Coulson publican de manera independiente un método enzimático para la determinación de secuencia.
Dr. Alfonso Méndez Tenorio
Bases de datos primarias
GenBank JDDBEMBL
DNA Proteínas
PIR PDBSWISS-PROT
Fueron las primeras en ser creadas
UniProtInternational Nucleotide Sequence Database Collaboration
Son las primeras en consultarse
Figura 7: Algunas bases de datos importantes en bioinformática: La base de datos del Genbank-NCBI y la del EMBL-EBI son dos de las bases de datos más importantes de secuencias de DNA. SWISSPROT y PIR son el equivalente en bases de datos para proteínas. La PDB es una base de datos muy importante de proteínas de las que se conoce su estructura tridimensional.
Crecimiento de la base de datos del GenBank. Actualmente el GenBank está en una etapa de crecimiento exponencial
El problema de los grandes números. El tamaño actual de las bases de datos ha impuesto dificultades en el almacenamiento y en el uso de las herramientas para su análisis.
65
Entrez es el sistema de consulta de las bases de datos del NCBI
Se han secuenciado 1010 genomas procarióticos
Hay 24 genomas eucarióticos completos
Hay 3255 secuencias de referencia para 2194 genomas virales
Dr. Alfonso Méndez Tenorio
Análisis básico en bioinformática
Alineamiento de pares de secuencias. Búsqueda de similitudes en bases de
datos. Alineamiento múltiple de secuencias. Elaboración de árboles filogenéticos. Predicción de estructura de ácidos
nucleicos y proteínas. Búsqueda de genes.
Análisis de regulación global.
Principales tareas en el análisis
bioinformático
Dr. Alfonso Méndez Tenorio
Alineamiento de secuencias.
Acomodar dos o más secuencias de tal manera que se alcance el máximo de coincidencias entre los residuos de las mismas.
Global: Se pretende alinear la secuencia entera empleando tantos caracteres como sea posible de los extremos de las secuencias.
Local: Se buscan las porciones de las secuencias que presentan mayor cantidad de concordancias, con lo que se generan zonas de concordancia llamadas subalineamientos.
¿Qué nos indica que dos secuencias se parecen entre si?
Dr. Alfonso Méndez Tenorio
Primer problema:
Dr. Alfonso Méndez Tenorio
¿Homología o similitud?
Las proteínas homólogas son aquellas que se originaron de un ancestro común.
Las proteínas homólogas tienen similitud estructural.
Generalmente hay un alto grado de similitud en la secuencia (aunque esta no es un indicio suficiente para la homología).
Pueden tener función idéntica o similar.
Tipos de alineamiento de secuencias. Fundamentalmente hay dos formas de alinear las secuencias biológicas.
LGPSSKQTGKGC-SRIWDN| | ||| | | LN-ITKSAGKGAIMRLGDA
-------TGKG-------- ||| -------AGKG--------
GLOBAL
LOCAL
A AC TG
A
C
G
C
T
A
A C G - T A| | | | | |A C G C T A
Ejemplo: Alineamiento de un par de secuencias de DNA. Gráfica de matriz de puntos.
•Las diagonales representan pares de caracteres alineados consecutivos.
•Los desplazamientos horizontales y verticales representan huecos.
Alineamiento de una secuencia por programación dinámica. La programación dinámica garantiza obtener el alineamiento “óptimo”
-1 -5-2 -4-3
-1
-2
-3
-4
-5
-6
1
0
-1
-2
-3
-4
0
2
1
0
-1
-2
-1
1
3
2
1
-2
0
2
1
3
0 2
-3
-1
1
1
1
4
A C G - T A| | | | | |A C G C T A
MaxVX,Y =
VX, Y-1 - GAP
VX-1, Y - GAP
VX-1, Y-1 + ScoreXY
Gap = -1 x n ScoreXY = +1 (match)ScoreXY = - 1 (mismatch)
A AC TG
A
C
G
C
T
A
0
Dr. Alfonso Méndez Tenorio
¿ Por qué deseamos comparar secuencias?
De acuerdo a la teoría de la evolución las secuencias de DNA y proteínas de los organismos contemporáneos se originaron por mutaciones al azar que han ocurrido en las secuencias de organismos ancestrales.
Por ese motivo es posible encontrar que secuencias homólogas tienen cierto grado de similitud.
Si hay similitud entre dos secuencias ¿podemos inferir que son homólogas?
Dr. Alfonso Méndez Tenorio
¿Cómo evaluamos la similitud de dos secuencias?
H Y K S T R H E D H
1 1 0 1 0 1 0 0 1 0
H Y R S A R R C D K
%50%10010
5%100%
Longitud
aciertosNoIdentidad
La matriz de substitución de aminoácidos PAM 250. Los valores de la tabla se han derivado a partir de la frecuencias de substitución de pares de aminoácidos observadas en la evolución de proteínas homólogas.
Dr. Alfonso Méndez Tenorio
Evaluación de la similud mediante el esquema de puntuación PAM 250
H Y K S T R H E D H
6 10 3 2 1 6 2 -5 4 0
H Y R S A R R C D K
2904526123106 Puntuación
Secuencia de función desconocida
Secuencia de función conocida
¿ son parecidas?
Es posible que tengan la misma función
si
Buscar otra secuencia de función conocida que sea similar
no
Proceso de inferencia en el análisis comparativo de secuencias. Asumimos que dos secuencias “similares” tienen estructura y funciones similares.
Dr. Alfonso Méndez Tenorio
¿Qué representa la puntuación de un alineamiento?
En principio se trata del logaritmo de una relación entre dos probabilidades:
De acuerdo con esto: Si la puntuación del alineamiento es positiva, la probabilidad de que haya una relación evolutiva será mayor que aquella de un alineamiento al azar.
)(
)(
)|(
)|(
azar al sea By A toalineamien el que de adProbabilid
enteevolutivam asrelacionadestén By A adProbabilid
RP
MP
RtoAlineamienP
MtoAlineamienPLog
LogPuntuacion
AB
AB
AB
Dr. Alfonso Méndez Tenorio
Tripsina bovina 5PTP vs tripsina de S. griseus 5SGT
Tripsina bovina 5PTP vs Proteasa A S. griseus 1SGT
Tripsina bovina 5PTP vs Subtilisina 1SBT
¿Homólogos?
Tripsina bovina
5PTP
rmsd=muy grande (no significativo)
Tripsina S. griseus 5SGT34.6% identidad 50.8% similitud
Proteasa A S. griseus 5SGC 24.3% identidad 40.4% similitud
Subtilisina 5SBT 24.2% de identidad 39.8%
similitud
rmsd=1.4Årmsd=2.7Å
Dr. Alfonso Méndez Tenorio
¿Qué sucedió?
En la práctica no basta que la puntuación de un alineamiento sea positiva, ya que hay errores en la medición de los valores de las matrices.
Además el alineamiento debería realizarse usando la matriz que corresponde con la distancia evolutiva correcta entre las proteínas.
# Matrix: EPAM250# Gap_penalty: 10.0# Extend_penalty: 0.5# Identity: 93/373 (24.9%)# Similarity: 181/373 (48.5%)# Gaps: 88/373 (23.6%)# Score: 336.5
100 150 200 250
0
100
200
300
400
500
600
Puntuación Proteína
Fre
cuen
cia
Distribución de puntuaciones de 10000 alineamientos al azar (PAM250)
336.5
# Matrix: EDNAFULL# Gap_penalty: 10.0# Extend_penalty: 0.5# Identity: 1051/2731 (38.5%)# Similarity: 1051/2731 (38.5%)# Gaps: 1408/2731 (51.6%)# Score: 1582.0
1650155014501350
600
500
400
300
200
100
0
Puntuaciones DNA
Fre
cuen
cia
Distribución de puntuaciones de 1000 alineamientos al azar (DNAFULL)
1582.0
Distribución de valores extremos (Gumbel)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
-6.00 -4.00 -2.00 0.00 2.00 4.00 6.00
f(x)
u
)ln(
)(Kmn
SE
4500.05771.0 u
xeKmn eKmnexSPx
1)(
Dr. Alfonso Méndez Tenorio
Búsqueda de similitudes en grandes bases de datos.
Dada una secuencia (A.N. ó proteína): encontrar secuencias altamente similares en una base de datos determinada.
Para esta tarea se utilizan programas de cómputo basados en algoritmos acelerados para la comparación de secuencias.
Se utiliza un análisis estadístico para estimar si la similitud es significativa:
Los programas más difundidos son BLAST (Altschul et al., 1990) y FASTA (Pearson y Lipman, 1988).
Basic Local Aligment Search Tool (Blast). Blast es una de las heramientas más rápida y eficiente para la búsqueda de similitudes de secuencias en las bases de datos, no obstante se trata de un algoritmo heurístico.
Comparación de algoritmos de búsqueda de similitudes de secuencias. Los algoritmos heurísticos son considerablemente más rápidos pero rinden respuéstas subóptimas.
Página principal de BLAST en el NCBI
Descripción inicial de resultados
Representación gráfica de resultados
Resultados de mayor similitud
Resultados de similitud baja pero significativa
Resultados no significativos
Dr. Alfonso Méndez Tenorio
El trabajo de Russell F. Doolittle.
Por los años 70s se sabía que el virus del sarcoma del simio causaba cáncer en ciertas especies de primates.
El oncogene responsable (v-sis) fue aislado y se determinó su secuencia en 1983.
Ese mismo año se obtuvo la secuencia parcial del factor de crecimiento derivado de plaquetas (PDGF).
R.F. Doolittle, realizó una búsqueda de similitudes entre la secuencia del PDGF y una base de datos de proteínas personal, encontrando concordancias entre esta secuencia y la del v-sis.
Referencia: Doolittle R. F., et al (1983): Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Science, 221(4607):275-277.
Dr. Alfonso Méndez Tenorio
Actualmente vivimos en la época de las “ómicas”...
Dr. Alfonso Méndez Tenorio
Y la meta es llegar a la biología de sistemas
Alineamiento múltiple de secuencias de citocromo c de diferentes especies obtenido por el programa Clustal X. Un alineamiento múltiple permite distinguir fácilmente las zonas mejor conservadas de secuencias de DNA o de proteínas. Las zonas de alta conservación son importantes para la estructura y/o función de estas secuencias. Existen diversas herramientas de cómputo para llevar a cabo el alineamiento, principalmente métodos progresivos (como Clustal X), reiterativos (más efectivos pero considerablemente más lentos) y estadísticos (muy efectivos cuando el número de secuencias a alinear es grande)..
Relación entre el alineamiento múltiple y árboles filogenéticos. El árbol filogenético representa gráficamente los pasos evolutivos que dieron origen a las secuencias.
Dr. Alfonso Méndez Tenorio
Métodos para la construcción de árboles filogenéticos.
Medición de distancias. Encontrar el árbol filogenético que sea consistente con los datos de distancia evolutiva entre las secuencias.
Máxima parsimonia: Encontrar el árbol filogenético en que se necesita el menor número de “pasos” para generar las secuencias.
Máxima probabilidad (verosimilitud): De todas las posibles combinaciones de árboles filogenéticos para un grupo de secuencias encontrar aquel con la mayor probabilidad tomando en cuenta la factibilidad de los eventos evolutivos necesarios para producir el árbol.
Bayesiano: Se utiliza el teorema de Bayes para calcular el árbol con la mayor probabilidad, utilizando una estrategia de muestreo de las probabilidades a priori.
Cálculo de árboles filogenéticos basados en medición de distancias. Las distancias se calculan a partir del número de diferencias entre las secuencias. Se trata de obtener el árbol en el que las distancias entre las secuencias sean mínimas.
Alineamiento de secuencias
Tabla de distancias
Arbol filogenético
Walter Fitch
Método de la máxima parsimonia.
Máxima probabilidad (verosimilitud)
)()()()()()( 4463366602251155500 vPvPvPvPvPvPgI XXXXXXXXXXXXXK
Niveles de estructura de proteínas. Las proteínas presentan hasta cuatro niveles de estructura.
Fundamento de las Predicciones 1D
I K N L E P K I I H G S E S M D S G I S L D ...
I K N L E P K I I H G S E S M D S G I S L D ...
I K N L E P K I I H G S E S M D S G I S L D ...
I K N L E P K I I H G S E S M D S G I S L D ...
I K N L E P K I I H G S E S M D S G I S L D ...
c c
K I I H G
Tamaño de la ventana = 13
Funcionamiento de
PHDsec
1fdx AYVINDSC-- IACGACKPEC PVNIIQGSI- -YAIDADSCI DCGSCASVCP VGAPNPED
5fd1 AFVVTDNCIK CKYTDCVEVC PVDCFYEGPN FLVIHPDECI DCALCEPECP AQAIFSED
*.*. *.* * * **. . . * .* ** **. * . ** * .**
1fdx sss hhh sss sss hhhhh sss
5fd1 sssss hhh sssss sssss hhhh sssss
1fdx 5fd1
Predicción de estructura tridimensional por modelación por homología. La estructura tridimensional de la ferrodoxina de Azotobacter vinelandii es conocida (No. Acceso PDB: 5fd1). Esta estructura se utilizó para predecir la estructura de la ferrodoxina 1fdx (no conocida). En este tipo de predicción se hace un alineamiento estructural entre las dos secuencias, el cual se refina tomando en cuenta las interacciones entre los átomos. En este caso la estructura a modelar es mas pequeña y se muestra también la predicción de la estructura secundaria (s=beta plegada, h=alfa hélice). Predicción llevada a cabo con los programas Modeller version 6 y DeepView..
Estructura y estabilidad de los ácidos nucleicos. La molécula del DNA es una doble cadena polinucleotídica que se mantiene unida por el apareamiento entre las bases Adenina - Timina y Guanina – Citosina. Desde hace varios años se sabe que hay una dependencia de la estabilidad de la doble cadena con el contenido de pares G-C.
RO
N N
C
O
H
N
NN
N
R
NN
H3
H
N
NN
N
R
O
H
N NR
N
N
H
H
H
H
O
A-T
G-C
60
70
80
90
100
110
0 0.2 0.4 0.6 0.8
Fracción molar de G+C (Xgc)
Tm ( °C)
Componentes de la estructura secundaria de ácidos nucleicos
Contribuciones energéticas de diversos tipos de subestructuras.
5’- ATGGGGCGATTGTTCGATA -3’ |||| || || 3’- CCCGACGGCAGGC -5’
Apilamiento Bases No Apareadas
HorquillaExtremo Colgante 1Extremo Colgante 2
21 ECECHBNAATotal GGGGGG 21 ECECHBNAATotal GGGGGG