introducción a la bioinformática

72
Introducción a la Bioinformática Dr. Alfonso Méndez Tenorio Laboratorio de Biotecnología y Bioinformática Genómica Escuela Nacional de Ciencias Biológicas- IPN. e-mail: [email protected]

Upload: ofito165306

Post on 18-Jun-2015

845 views

Category:

Documents


2 download

DESCRIPTION

hola espero que les sirva

TRANSCRIPT

Page 1: Introducción a La Bioinformática

Introducción a la Bioinformática

Dr. Alfonso Méndez Tenorio

Laboratorio de Biotecnología y Bioinformática Genómica

Escuela Nacional de Ciencias Biológicas- IPN.

e-mail: [email protected]

Page 2: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

La revolución informática en biología.

La forma como son estudiados los organismos en biología y todas las ciencias relacionadas ha sufrido una revolución.

Un componente de esta revolución ha sido el incremento en el número genomas completos secuenciados de varios organismos.

Otro componente ha sido la integración de las computadoras en el análisis de la información.

Page 3: Introducción a La Bioinformática
Page 4: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Determinación de la secuencia de proteínas

1945-1955: Frederick Sanger y Cols. determinaron exitosamente la secuencia de aminoácidos de la insulina.

Paralelamente Pehr Edman desarrolla un método más conveniente para la determinación de secuencia (degradación de Edman).Permitió la sistematización.

A finales de la década de los 60s P. Edman desarrolla un dispositivo automatizado para determinar la secuencia de aminoácidos.

Page 5: Introducción a La Bioinformática

Figura 1: Historial de las primeras secuencias de proteínas que fueron establecidas. En un periodo de 19 años se conoció la secuencia de 13 proteínas.

Insulina

(cadena )

1951 1953 1957 1960 1961 1962 1963 1965 1966 1967 1969

Insulina

(cadena )

Oxitocina

Vasopresina

Glucagon

Ribonucleasa

Citocromo c

Hemoglobina

(cadena )

Hemoglobina

(cadena )

Lisozima

Cubierta viral Mosaico del

Tabaco

Mioglobina

Tripsinógeno

Hormona de crecimiento

Deshidrogenasa del Glicerarldehído 3 – fosfato

Inmunoglobulina

(cadena )

Page 6: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Margaret Dayhoff.

Margaret Oakley Dayhoff (NBRF-NIH): En la década de los 60s ideó las primeras técnicas matemáticas para analizar datos de secuencia.

Desarrolló técnicas computacionales para reconstruir la secuencia de proteínas a partir de la secuencia de fragmentos generados por los métodos de digestión parcial

Estableció el Atlas of Protein Sequence and Strcuture. Desarrolló la Matriz de Porcentajes de Mutación Aceptados

(PAM) para evaluar la probabilidad de que un aminoácido sea substituido por otro durante el transcurso de un proceso evolutivo.

Page 7: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Determinación de la secuencia de nucleótidos.

En 1973 se determinó la secuencia de un fragmento del DNA del bacteriófago X174 (48 nt) mediante un complejo proceso de digestiones de DNA marcado con P32 y análisis posterior de los fragmentos obtenidos por cromatografía

En 1977 Maxam y Gilbert publicaron un método para la determinación de secuencia basado en un rompimiento químico específico de la molécula.

Ese mismo año Sanger, Nicklen y Coulson publican de manera independiente un método enzimático para la determinación de secuencia.

Page 8: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Bases de datos primarias

GenBank JDDBEMBL

DNA Proteínas

PIR PDBSWISS-PROT

Fueron las primeras en ser creadas

UniProtInternational Nucleotide Sequence Database Collaboration

Son las primeras en consultarse

Page 9: Introducción a La Bioinformática

Figura 7: Algunas bases de datos importantes en bioinformática: La base de datos del Genbank-NCBI y la del EMBL-EBI son dos de las bases de datos más importantes de secuencias de DNA. SWISSPROT y PIR son el equivalente en bases de datos para proteínas. La PDB es una base de datos muy importante de proteínas de las que se conoce su estructura tridimensional.

Page 10: Introducción a La Bioinformática

Crecimiento de la base de datos del GenBank. Actualmente el GenBank está en una etapa de crecimiento exponencial

Page 11: Introducción a La Bioinformática

El problema de los grandes números. El tamaño actual de las bases de datos ha impuesto dificultades en el almacenamiento y en el uso de las herramientas para su análisis.

65

Page 12: Introducción a La Bioinformática
Page 13: Introducción a La Bioinformática

Entrez es el sistema de consulta de las bases de datos del NCBI

Page 14: Introducción a La Bioinformática

Se han secuenciado 1010 genomas procarióticos

Page 15: Introducción a La Bioinformática

Hay 24 genomas eucarióticos completos

Page 16: Introducción a La Bioinformática
Page 17: Introducción a La Bioinformática

Hay 3255 secuencias de referencia para 2194 genomas virales

Page 18: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Análisis básico en bioinformática

Alineamiento de pares de secuencias. Búsqueda de similitudes en bases de

datos. Alineamiento múltiple de secuencias. Elaboración de árboles filogenéticos. Predicción de estructura de ácidos

nucleicos y proteínas. Búsqueda de genes.

Análisis de regulación global.

Principales tareas en el análisis

bioinformático

Page 19: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Alineamiento de secuencias.

Acomodar dos o más secuencias de tal manera que se alcance el máximo de coincidencias entre los residuos de las mismas.

Global: Se pretende alinear la secuencia entera empleando tantos caracteres como sea posible de los extremos de las secuencias.

Local: Se buscan las porciones de las secuencias que presentan mayor cantidad de concordancias, con lo que se generan zonas de concordancia llamadas subalineamientos.

¿Qué nos indica que dos secuencias se parecen entre si?

Page 20: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Primer problema:

Page 21: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

¿Homología o similitud?

Las proteínas homólogas son aquellas que se originaron de un ancestro común.

Las proteínas homólogas tienen similitud estructural.

Generalmente hay un alto grado de similitud en la secuencia (aunque esta no es un indicio suficiente para la homología).

Pueden tener función idéntica o similar.

Page 22: Introducción a La Bioinformática

Tipos de alineamiento de secuencias. Fundamentalmente hay dos formas de alinear las secuencias biológicas.

LGPSSKQTGKGC-SRIWDN| | ||| | | LN-ITKSAGKGAIMRLGDA

-------TGKG-------- ||| -------AGKG--------

GLOBAL

LOCAL

Page 23: Introducción a La Bioinformática

A AC TG

A

C

G

C

T

A

A C G - T A| | | | | |A C G C T A

Ejemplo: Alineamiento de un par de secuencias de DNA. Gráfica de matriz de puntos.

•Las diagonales representan pares de caracteres alineados consecutivos.

•Los desplazamientos horizontales y verticales representan huecos.

Page 24: Introducción a La Bioinformática

Alineamiento de una secuencia por programación dinámica. La programación dinámica garantiza obtener el alineamiento “óptimo”

-1 -5-2 -4-3

-1

-2

-3

-4

-5

-6

1

0

-1

-2

-3

-4

0

2

1

0

-1

-2

-1

1

3

2

1

-2

0

2

1

3

0 2

-3

-1

1

1

1

4

A C G - T A| | | | | |A C G C T A

MaxVX,Y =

VX, Y-1 - GAP

VX-1, Y - GAP

VX-1, Y-1 + ScoreXY

Gap = -1 x n ScoreXY = +1 (match)ScoreXY = - 1 (mismatch)

A AC TG

A

C

G

C

T

A

0

Page 25: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

¿ Por qué deseamos comparar secuencias?

De acuerdo a la teoría de la evolución las secuencias de DNA y proteínas de los organismos contemporáneos se originaron por mutaciones al azar que han ocurrido en las secuencias de organismos ancestrales.

Por ese motivo es posible encontrar que secuencias homólogas tienen cierto grado de similitud.

Si hay similitud entre dos secuencias ¿podemos inferir que son homólogas?

Page 26: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

¿Cómo evaluamos la similitud de dos secuencias?

H Y K S T R H E D H

1 1 0 1 0 1 0 0 1 0

H Y R S A R R C D K

%50%10010

5%100%

Longitud

aciertosNoIdentidad

Page 27: Introducción a La Bioinformática

La matriz de substitución de aminoácidos PAM 250. Los valores de la tabla se han derivado a partir de la frecuencias de substitución de pares de aminoácidos observadas en la evolución de proteínas homólogas.

Page 28: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Evaluación de la similud mediante el esquema de puntuación PAM 250

H Y K S T R H E D H

6 10 3 2 1 6 2 -5 4 0

H Y R S A R R C D K

2904526123106 Puntuación

Page 29: Introducción a La Bioinformática

Secuencia de función desconocida

Secuencia de función conocida

¿ son parecidas?

Es posible que tengan la misma función

si

Buscar otra secuencia de función conocida que sea similar

no

Proceso de inferencia en el análisis comparativo de secuencias. Asumimos que dos secuencias “similares” tienen estructura y funciones similares.

Page 30: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

¿Qué representa la puntuación de un alineamiento?

En principio se trata del logaritmo de una relación entre dos probabilidades:

De acuerdo con esto: Si la puntuación del alineamiento es positiva, la probabilidad de que haya una relación evolutiva será mayor que aquella de un alineamiento al azar.

)(

)(

)|(

)|(

azar al sea By A toalineamien el que de adProbabilid

enteevolutivam asrelacionadestén By A adProbabilid

RP

MP

RtoAlineamienP

MtoAlineamienPLog

LogPuntuacion

AB

AB

AB

Page 31: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Tripsina bovina 5PTP vs tripsina de S. griseus 5SGT

Page 32: Introducción a La Bioinformática

Tripsina bovina 5PTP vs Proteasa A S. griseus 1SGT

Page 33: Introducción a La Bioinformática

Tripsina bovina 5PTP vs Subtilisina 1SBT

¿Homólogos?

Page 34: Introducción a La Bioinformática

Tripsina bovina

5PTP

rmsd=muy grande (no significativo)

Tripsina S. griseus 5SGT34.6% identidad 50.8% similitud

Proteasa A S. griseus 5SGC 24.3% identidad 40.4% similitud

Subtilisina 5SBT 24.2% de identidad 39.8%

similitud

rmsd=1.4Årmsd=2.7Å

Page 35: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

¿Qué sucedió?

En la práctica no basta que la puntuación de un alineamiento sea positiva, ya que hay errores en la medición de los valores de las matrices.

Además el alineamiento debería realizarse usando la matriz que corresponde con la distancia evolutiva correcta entre las proteínas.

Page 36: Introducción a La Bioinformática

# Matrix: EPAM250# Gap_penalty: 10.0# Extend_penalty: 0.5# Identity: 93/373 (24.9%)# Similarity: 181/373 (48.5%)# Gaps: 88/373 (23.6%)# Score: 336.5

Page 37: Introducción a La Bioinformática

100 150 200 250

0

100

200

300

400

500

600

Puntuación Proteína

Fre

cuen

cia

Distribución de puntuaciones de 10000 alineamientos al azar (PAM250)

336.5

Page 38: Introducción a La Bioinformática
Page 39: Introducción a La Bioinformática

# Matrix: EDNAFULL# Gap_penalty: 10.0# Extend_penalty: 0.5# Identity: 1051/2731 (38.5%)# Similarity: 1051/2731 (38.5%)# Gaps: 1408/2731 (51.6%)# Score: 1582.0

Page 40: Introducción a La Bioinformática

1650155014501350

600

500

400

300

200

100

0

Puntuaciones DNA

Fre

cuen

cia

Distribución de puntuaciones de 1000 alineamientos al azar (DNAFULL)

1582.0

Page 41: Introducción a La Bioinformática

Distribución de valores extremos (Gumbel)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

-6.00 -4.00 -2.00 0.00 2.00 4.00 6.00

f(x)

u

)ln(

)(Kmn

SE

4500.05771.0 u

xeKmn eKmnexSPx

1)(

Page 42: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Búsqueda de similitudes en grandes bases de datos.

Dada una secuencia (A.N. ó proteína): encontrar secuencias altamente similares en una base de datos determinada.

Para esta tarea se utilizan programas de cómputo basados en algoritmos acelerados para la comparación de secuencias.

Se utiliza un análisis estadístico para estimar si la similitud es significativa:

Los programas más difundidos son BLAST (Altschul et al., 1990) y FASTA (Pearson y Lipman, 1988).

Page 43: Introducción a La Bioinformática

Basic Local Aligment Search Tool (Blast). Blast es una de las heramientas más rápida y eficiente para la búsqueda de similitudes de secuencias en las bases de datos, no obstante se trata de un algoritmo heurístico.

Page 44: Introducción a La Bioinformática

Comparación de algoritmos de búsqueda de similitudes de secuencias. Los algoritmos heurísticos son considerablemente más rápidos pero rinden respuéstas subóptimas.

Page 45: Introducción a La Bioinformática

Página principal de BLAST en el NCBI

Page 46: Introducción a La Bioinformática

Descripción inicial de resultados

Page 47: Introducción a La Bioinformática

Representación gráfica de resultados

Page 48: Introducción a La Bioinformática

Resultados de mayor similitud

Page 49: Introducción a La Bioinformática
Page 50: Introducción a La Bioinformática

Resultados de similitud baja pero significativa

Page 51: Introducción a La Bioinformática
Page 52: Introducción a La Bioinformática

Resultados no significativos

Page 53: Introducción a La Bioinformática
Page 54: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

El trabajo de Russell F. Doolittle.

Por los años 70s se sabía que el virus del sarcoma del simio causaba cáncer en ciertas especies de primates.

El oncogene responsable (v-sis) fue aislado y se determinó su secuencia en 1983.

Ese mismo año se obtuvo la secuencia parcial del factor de crecimiento derivado de plaquetas (PDGF).

R.F. Doolittle, realizó una búsqueda de similitudes entre la secuencia del PDGF y una base de datos de proteínas personal, encontrando concordancias entre esta secuencia y la del v-sis.

Referencia: Doolittle R. F., et al (1983): Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Science, 221(4607):275-277.

Page 55: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Actualmente vivimos en la época de las “ómicas”...

Page 56: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Y la meta es llegar a la biología de sistemas

Page 57: Introducción a La Bioinformática

Alineamiento múltiple de secuencias de citocromo c de diferentes especies obtenido por el programa Clustal X. Un alineamiento múltiple permite distinguir fácilmente las zonas mejor conservadas de secuencias de DNA o de proteínas. Las zonas de alta conservación son importantes para la estructura y/o función de estas secuencias. Existen diversas herramientas de cómputo para llevar a cabo el alineamiento, principalmente métodos progresivos (como Clustal X), reiterativos (más efectivos pero considerablemente más lentos) y estadísticos (muy efectivos cuando el número de secuencias a alinear es grande)..

Page 58: Introducción a La Bioinformática

Relación entre el alineamiento múltiple y árboles filogenéticos. El árbol filogenético representa gráficamente los pasos evolutivos que dieron origen a las secuencias.

Page 59: Introducción a La Bioinformática

Dr. Alfonso Méndez Tenorio

Métodos para la construcción de árboles filogenéticos.

Medición de distancias. Encontrar el árbol filogenético que sea consistente con los datos de distancia evolutiva entre las secuencias.

Máxima parsimonia: Encontrar el árbol filogenético en que se necesita el menor número de “pasos” para generar las secuencias.

Máxima probabilidad (verosimilitud): De todas las posibles combinaciones de árboles filogenéticos para un grupo de secuencias encontrar aquel con la mayor probabilidad tomando en cuenta la factibilidad de los eventos evolutivos necesarios para producir el árbol.

Bayesiano: Se utiliza el teorema de Bayes para calcular el árbol con la mayor probabilidad, utilizando una estrategia de muestreo de las probabilidades a priori.

Page 60: Introducción a La Bioinformática

Cálculo de árboles filogenéticos basados en medición de distancias. Las distancias se calculan a partir del número de diferencias entre las secuencias. Se trata de obtener el árbol en el que las distancias entre las secuencias sean mínimas.

Alineamiento de secuencias

Tabla de distancias

Arbol filogenético

Page 61: Introducción a La Bioinformática

Walter Fitch

Page 62: Introducción a La Bioinformática
Page 63: Introducción a La Bioinformática

Método de la máxima parsimonia.

Page 64: Introducción a La Bioinformática

Máxima probabilidad (verosimilitud)

)()()()()()( 4463366602251155500 vPvPvPvPvPvPgI XXXXXXXXXXXXXK

Page 65: Introducción a La Bioinformática

Niveles de estructura de proteínas. Las proteínas presentan hasta cuatro niveles de estructura.

Page 66: Introducción a La Bioinformática

Fundamento de las Predicciones 1D

I K N L E P K I I H G S E S M D S G I S L D ...

I K N L E P K I I H G S E S M D S G I S L D ...

I K N L E P K I I H G S E S M D S G I S L D ...

I K N L E P K I I H G S E S M D S G I S L D ...

I K N L E P K I I H G S E S M D S G I S L D ...

c c

K I I H G

Tamaño de la ventana = 13

Page 67: Introducción a La Bioinformática

Funcionamiento de

PHDsec

Page 68: Introducción a La Bioinformática

1fdx AYVINDSC-- IACGACKPEC PVNIIQGSI- -YAIDADSCI DCGSCASVCP VGAPNPED

5fd1 AFVVTDNCIK CKYTDCVEVC PVDCFYEGPN FLVIHPDECI DCALCEPECP AQAIFSED

*.*. *.* * * **. . . * .* ** **. * . ** * .**

1fdx sss hhh sss sss hhhhh sss

5fd1 sssss hhh sssss sssss hhhh sssss

1fdx 5fd1

Predicción de estructura tridimensional por modelación por homología. La estructura tridimensional de la ferrodoxina de Azotobacter vinelandii es conocida (No. Acceso PDB: 5fd1). Esta estructura se utilizó para predecir la estructura de la ferrodoxina 1fdx (no conocida). En este tipo de predicción se hace un alineamiento estructural entre las dos secuencias, el cual se refina tomando en cuenta las interacciones entre los átomos. En este caso la estructura a modelar es mas pequeña y se muestra también la predicción de la estructura secundaria (s=beta plegada, h=alfa hélice). Predicción llevada a cabo con los programas Modeller version 6 y DeepView..

Page 69: Introducción a La Bioinformática

Estructura y estabilidad de los ácidos nucleicos. La molécula del DNA es una doble cadena polinucleotídica que se mantiene unida por el apareamiento entre las bases Adenina - Timina y Guanina – Citosina. Desde hace varios años se sabe que hay una dependencia de la estabilidad de la doble cadena con el contenido de pares G-C.

RO

N N

C

O

H

N

NN

N

R

NN

H3

H

N

NN

N

R

O

H

N NR

N

N

H

H

H

H

O

A-T

G-C

60

70

80

90

100

110

0 0.2 0.4 0.6 0.8

Fracción molar de G+C (Xgc)

Tm ( °C)

Page 70: Introducción a La Bioinformática

Componentes de la estructura secundaria de ácidos nucleicos

Page 71: Introducción a La Bioinformática

Contribuciones energéticas de diversos tipos de subestructuras.

5’- ATGGGGCGATTGTTCGATA -3’ |||| || || 3’- CCCGACGGCAGGC -5’

Apilamiento Bases No Apareadas

HorquillaExtremo Colgante 1Extremo Colgante 2

21 ECECHBNAATotal GGGGGG 21 ECECHBNAATotal GGGGGG

Page 72: Introducción a La Bioinformática