introducción a la bioinformática

Introducción a la Bioinformática

Dr. Alfonso Méndez Tenorio

Laboratorio de Biotecnología y Bioinformática Genómica

Escuela Nacional de Ciencias Biológicas- IPN.

e-mail: [email protected]

mailto:[email protected]


La revolución informática en biología.

La forma como son estudiados los organismos en biología y todas las ciencias relacionadas ha sufrido una revolución.

Un componente de esta revolución ha sido el incremento en el número genomas completos secuenciados de varios organismos.

Otro componente ha sido la integración de las computadoras en el análisis de la información.


Determinación de la secuencia de proteínas

1945-1955: Frederick Sanger y Cols. determinaron exitosamente la secuencia de aminoácidos de la insulina.

Paralelamente Pehr Edman desarrolla un método más conveniente para la determinación de secuencia (degradación de Edman).Permitió la sistematización.

A finales de la década de los 60s P. Edman desarrolla un dispositivo automatizado para determinar la secuencia de aminoácidos.

Figura 1: Historial de las primeras secuencias de proteínas que fueron establecidas. En un periodo de 19 años se conoció la secuencia de 13 proteínas.

Insulina

(cadena )

1951 1953 1957 1960 1961 1962 1963 1965 1966 1967 1969

Insulina

(cadena )

Oxitocina

Vasopresina

Glucagon

Ribonucleasa

Citocromo c

Hemoglobina

(cadena )

Hemoglobina

(cadena )

Lisozima

Cubierta viral Mosaico del

Tabaco

Mioglobina

Tripsinógeno

Hormona de crecimiento

Deshidrogenasa del Glicerarldehído 3 – fosfato

Inmunoglobulina

(cadena )


Margaret Dayhoff.

Margaret Oakley Dayhoff (NBRF-NIH): En la década de los 60s ideó las primeras técnicas matemáticas para analizar datos de secuencia.

Desarrolló técnicas computacionales para reconstruir la secuencia de proteínas a partir de la secuencia de fragmentos generados por los métodos de digestión parcial

Estableció el Atlas of Protein Sequence and Strcuture. Desarrolló la Matriz de Porcentajes de Mutación Aceptados

(PAM) para evaluar la probabilidad de que un aminoácido sea substituido por otro durante el transcurso de un proceso evolutivo.


Determinación de la secuencia de nucleótidos.

En 1973 se determinó la secuencia de un fragmento del DNA del bacteriófago X174 (48 nt) mediante un complejo proceso de digestiones de DNA marcado con P32 y análisis posterior de los fragmentos obtenidos por cromatografía

En 1977 Maxam y Gilbert publicaron un método para la determinación de secuencia basado en un rompimiento químico específico de la molécula.

Ese mismo año Sanger, Nicklen y Coulson publican de manera independiente un método enzimático para la determinación de secuencia.


Bases de datos primarias

GenBank JDDBEMBL

DNA Proteínas

PIR PDBSWISS-PROT

Fueron las primeras en ser creadas

UniProtInternational Nucleotide Sequence Database Collaboration

Son las primeras en consultarse

Figura 7: Algunas bases de datos importantes en bioinformática: La base de datos del Genbank-NCBI y la del EMBL-EBI son dos de las bases de datos más importantes de secuencias de DNA. SWISSPROT y PIR son el equivalente en bases de datos para proteínas. La PDB es una base de datos muy importante de proteínas de las que se conoce su estructura tridimensional.

Crecimiento de la base de datos del GenBank. Actualmente el GenBank está en una etapa de crecimiento exponencial

El problema de los grandes números. El tamaño actual de las bases de datos ha impuesto dificultades en el almacenamiento y en el uso de las herramientas para su análisis.

65

Entrez es el sistema de consulta de las bases de datos del NCBI

Se han secuenciado 1010 genomas procarióticos

Hay 24 genomas eucarióticos completos

Hay 3255 secuencias de referencia para 2194 genomas virales


Análisis básico en bioinformática

Alineamiento de pares de secuencias. Búsqueda de similitudes en bases de

datos. Alineamiento múltiple de secuencias. Elaboración de árboles filogenéticos. Predicción de estructura de ácidos

nucleicos y proteínas. Búsqueda de genes.

Análisis de regulación global.

Principales tareas en el análisis

bioinformático


Alineamiento de secuencias.

Acomodar dos o más secuencias de tal manera que se alcance el máximo de coincidencias entre los residuos de las mismas.

Global: Se pretende alinear la secuencia entera empleando tantos caracteres como sea posible de los extremos de las secuencias.

Local: Se buscan las porciones de las secuencias que presentan mayor cantidad de concordancias, con lo que se generan zonas de concordancia llamadas subalineamientos.

¿Qué nos indica que dos secuencias se parecen entre si?


Primer problema:


¿Homología o similitud?

Las proteínas homólogas son aquellas que se originaron de un ancestro común.

Las proteínas homólogas tienen similitud estructural.

Generalmente hay un alto grado de similitud en la secuencia (aunque esta no es un indicio suficiente para la homología).

Pueden tener función idéntica o similar.

Tipos de alineamiento de secuencias. Fundamentalmente hay dos formas de alinear las secuencias biológicas.

LGPSSKQTGKGC-SRIWDN| | ||| | | LN-ITKSAGKGAIMRLGDA

-------TGKG-------- ||| -------AGKG--------

GLOBAL

LOCAL

A AC TG

A

C

G

C

T

A

A C G - T A| | | | | |A C G C T A

Ejemplo: Alineamiento de un par de secuencias de DNA. Gráfica de matriz de puntos.

•Las diagonales representan pares de caracteres alineados consecutivos.

•Los desplazamientos horizontales y verticales representan huecos.

Alineamiento de una secuencia por programación dinámica. La programación dinámica garantiza obtener el alineamiento “óptimo”

-1 -5-2 -4-3

-1

-2

-3

-4

-5

-6

1

0

-1

-2

-3

-4

0

2

1

0

-1

-2

-1

1

3

2

1

-2

0

2

1

3

0 2

-3

-1

1

1

1

4

A C G - T A| | | | | |A C G C T A

MaxVX,Y =

VX, Y-1 - GAP

VX-1, Y - GAP

VX-1, Y-1 + ScoreXY

Gap = -1 x n ScoreXY = +1 (match)ScoreXY = - 1 (mismatch)

A AC TG

A

C

G

C

T

A

0


¿ Por qué deseamos comparar secuencias?

De acuerdo a la teoría de la evolución las secuencias de DNA y proteínas de los organismos contemporáneos se originaron por mutaciones al azar que han ocurrido en las secuencias de organismos ancestrales.

Por ese motivo es posible encontrar que secuencias homólogas tienen cierto grado de similitud.

Si hay similitud entre dos secuencias ¿podemos inferir que son homólogas?


¿Cómo evaluamos la similitud de dos secuencias?

H Y K S T R H E D H

1 1 0 1 0 1 0 0 1 0

H Y R S A R R C D K

%50%10010

5%100%

Longitud

aciertosNoIdentidad

La matriz de substitución de aminoácidos PAM 250. Los valores de la tabla se han derivado a partir de la frecuencias de substitución de pares de aminoácidos observadas en la evolución de proteínas homólogas.


Evaluación de la similud mediante el esquema de puntuación PAM 250

H Y K S T R H E D H

6 10 3 2 1 6 2 -5 4 0

H Y R S A R R C D K

2904526123106 Puntuación

Secuencia de función desconocida

Secuencia de función conocida

¿ son parecidas?

Es posible que tengan la misma función

si

Buscar otra secuencia de función conocida que sea similar

no

Proceso de inferencia en el análisis comparativo de secuencias. Asumimos que dos secuencias “similares” tienen estructura y funciones similares.


¿Qué representa la puntuación de un alineamiento?

En principio se trata del logaritmo de una relación entre dos probabilidades:

De acuerdo con esto: Si la puntuación del alineamiento es positiva, la probabilidad de que haya una relación evolutiva será mayor que aquella de un alineamiento al azar.

)(

)(

)|(

)|(

azar al sea By A toalineamien el que de adProbabilid

enteevolutivam asrelacionadestén By A adProbabilid

RP

MP

RtoAlineamienP

MtoAlineamienPLog

LogPuntuacion

AB

AB

AB


Tripsina bovina 5PTP vs tripsina de S. griseus 5SGT

Tripsina bovina 5PTP vs Proteasa A S. griseus 1SGT

Tripsina bovina 5PTP vs Subtilisina 1SBT

¿Homólogos?

Tripsina bovina

5PTP

rmsd=muy grande (no significativo)

Tripsina S. griseus 5SGT34.6% identidad 50.8% similitud

Proteasa A S. griseus 5SGC 24.3% identidad 40.4% similitud

Subtilisina 5SBT 24.2% de identidad 39.8%

similitud

rmsd=1.4Årmsd=2.7Å


¿Qué sucedió?

En la práctica no basta que la puntuación de un alineamiento sea positiva, ya que hay errores en la medición de los valores de las matrices.

Además el alineamiento debería realizarse usando la matriz que corresponde con la distancia evolutiva correcta entre las proteínas.

# Matrix: EPAM250# Gap_penalty: 10.0# Extend_penalty: 0.5# Identity: 93/373 (24.9%)# Similarity: 181/373 (48.5%)# Gaps: 88/373 (23.6%)# Score: 336.5

100 150 200 250

0

100

200

300

400

500

600

Puntuación Proteína

Fre

cuen

cia

Distribución de puntuaciones de 10000 alineamientos al azar (PAM250)

336.5

# Matrix: EDNAFULL# Gap_penalty: 10.0# Extend_penalty: 0.5# Identity: 1051/2731 (38.5%)# Similarity: 1051/2731 (38.5%)# Gaps: 1408/2731 (51.6%)# Score: 1582.0

1650155014501350

600

500

400

300

200

100

0

Puntuaciones DNA

Fre

cuen

cia

Distribución de puntuaciones de 1000 alineamientos al azar (DNAFULL)

1582.0

Distribución de valores extremos (Gumbel)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

-6.00 -4.00 -2.00 0.00 2.00 4.00 6.00

f(x)

u

)ln(

)(Kmn

SE

4500.05771.0 u

xeKmn eKmnexSPx

1)(


Búsqueda de similitudes en grandes bases de datos.

Dada una secuencia (A.N. ó proteína): encontrar secuencias altamente similares en una base de datos determinada.

Para esta tarea se utilizan programas de cómputo basados en algoritmos acelerados para la comparación de secuencias.

Se utiliza un análisis estadístico para estimar si la similitud es significativa:

Los programas más difundidos son BLAST (Altschul et al., 1990) y FASTA (Pearson y Lipman, 1988).

Basic Local Aligment Search Tool (Blast). Blast es una de las heramientas más rápida y eficiente para la búsqueda de similitudes de secuencias en las bases de datos, no obstante se trata de un algoritmo heurístico.

Comparación de algoritmos de búsqueda de similitudes de secuencias. Los algoritmos heurísticos son considerablemente más rápidos pero rinden respuéstas subóptimas.

Página principal de BLAST en el NCBI

Descripción inicial de resultados

Representación gráfica de resultados

Resultados de mayor similitud

Resultados de similitud baja pero significativa

Resultados no significativos


El trabajo de Russell F. Doolittle.

Por los años 70s se sabía que el virus del sarcoma del simio causaba cáncer en ciertas especies de primates.

El oncogene responsable (v-sis) fue aislado y se determinó su secuencia en 1983.

Ese mismo año se obtuvo la secuencia parcial del factor de crecimiento derivado de plaquetas (PDGF).

R.F. Doolittle, realizó una búsqueda de similitudes entre la secuencia del PDGF y una base de datos de proteínas personal, encontrando concordancias entre esta secuencia y la del v-sis.

Referencia: Doolittle R. F., et al (1983): Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Science, 221(4607):275-277.


Actualmente vivimos en la época de las “ómicas”...


Y la meta es llegar a la biología de sistemas

Alineamiento múltiple de secuencias de citocromo c de diferentes especies obtenido por el programa Clustal X. Un alineamiento múltiple permite distinguir fácilmente las zonas mejor conservadas de secuencias de DNA o de proteínas. Las zonas de alta conservación son importantes para la estructura y/o función de estas secuencias. Existen diversas herramientas de cómputo para llevar a cabo el alineamiento, principalmente métodos progresivos (como Clustal X), reiterativos (más efectivos pero considerablemente más lentos) y estadísticos (muy efectivos cuando el número de secuencias a alinear es grande)..

Relación entre el alineamiento múltiple y árboles filogenéticos. El árbol filogenético representa gráficamente los pasos evolutivos que dieron origen a las secuencias.


Métodos para la construcción de árboles filogenéticos.

Medición de distancias. Encontrar el árbol filogenético que sea consistente con los datos de distancia evolutiva entre las secuencias.

Máxima parsimonia: Encontrar el árbol filogenético en que se necesita el menor número de “pasos” para generar las secuencias.

Máxima probabilidad (verosimilitud): De todas las posibles combinaciones de árboles filogenéticos para un grupo de secuencias encontrar aquel con la mayor probabilidad tomando en cuenta la factibilidad de los eventos evolutivos necesarios para producir el árbol.

Bayesiano: Se utiliza el teorema de Bayes para calcular el árbol con la mayor probabilidad, utilizando una estrategia de muestreo de las probabilidades a priori.

Cálculo de árboles filogenéticos basados en medición de distancias. Las distancias se calculan a partir del número de diferencias entre las secuencias. Se trata de obtener el árbol en el que las distancias entre las secuencias sean mínimas.

Alineamiento de secuencias

Tabla de distancias

Arbol filogenético

Walter Fitch

Método de la máxima parsimonia.

Máxima probabilidad (verosimilitud)

)()()()()()( 4463366602251155500 vPvPvPvPvPvPgI XXXXXXXXXXXXXK

Niveles de estructura de proteínas. Las proteínas presentan hasta cuatro niveles de estructura.

Fundamento de las Predicciones 1D

I K N L E P K I I H G S E S M D S G I S L D ...





c c

K I I H G

Tamaño de la ventana = 13

Funcionamiento de

PHDsec

1fdx AYVINDSC-- IACGACKPEC PVNIIQGSI- -YAIDADSCI DCGSCASVCP VGAPNPED

5fd1 AFVVTDNCIK CKYTDCVEVC PVDCFYEGPN FLVIHPDECI DCALCEPECP AQAIFSED

*.*. *.* * * **. . . * .* ** **. * . ** * .**

1fdx sss hhh sss sss hhhhh sss

5fd1 sssss hhh sssss sssss hhhh sssss

1fdx 5fd1

Predicción de estructura tridimensional por modelación por homología. La estructura tridimensional de la ferrodoxina de Azotobacter vinelandii es conocida (No. Acceso PDB: 5fd1). Esta estructura se utilizó para predecir la estructura de la ferrodoxina 1fdx (no conocida). En este tipo de predicción se hace un alineamiento estructural entre las dos secuencias, el cual se refina tomando en cuenta las interacciones entre los átomos. En este caso la estructura a modelar es mas pequeña y se muestra también la predicción de la estructura secundaria (s=beta plegada, h=alfa hélice). Predicción llevada a cabo con los programas Modeller version 6 y DeepView..

Estructura y estabilidad de los ácidos nucleicos. La molécula del DNA es una doble cadena polinucleotídica que se mantiene unida por el apareamiento entre las bases Adenina - Timina y Guanina – Citosina. Desde hace varios años se sabe que hay una dependencia de la estabilidad de la doble cadena con el contenido de pares G-C.

RO

N N

C

O

H

N

NN

N

R

NN

H3

H

N

NN

N

R

O

H

N NR

N

N

H

H

H

H

O

A-T

G-C

60

70

80

90

100

110

0 0.2 0.4 0.6 0.8

Fracción molar de G+C (Xgc)

Tm ( °C)

Componentes de la estructura secundaria de ácidos nucleicos

Contribuciones energéticas de diversos tipos de subestructuras.

5’- ATGGGGCGATTGTTCGATA -3’ |||| || || 3’- CCCGACGGCAGGC -5’

Apilamiento Bases No Apareadas

HorquillaExtremo Colgante 1Extremo Colgante 2

21 ECECHBNAATotal GGGGGG 21 ECECHBNAATotal GGGGGG

introducción a la bioinformática

Documents