introducción al análisis bioinformático de secuencias proteínas

19
Curso: Biología Molecular Profesor: Gustavo Sandoval Práctica: Análisis Bioinformático de Secuencias Proteicas Alumnos: Mendivil Malpica, Alejandro Chipana Yausin, Gerardo Vargas Román, Augusto Nizama Salazar, Oscar Meza Quispe, Benjamín 03 de septiembre del 2015

Upload: augusto-vargas-roman

Post on 10-Feb-2016

10 views

Category:

Documents


0 download

DESCRIPTION

segundo trabajo

TRANSCRIPT

Page 1: Introducción Al Análisis Bioinformático de Secuencias Proteínas

Curso: Biología Molecular

Profesor: Gustavo Sandoval

Práctica: Análisis Bioinformático de Secuencias Proteicas

Alumnos: Mendivil Malpica, Alejandro

Chipana Yausin, Gerardo

Vargas Román, Augusto

Nizama Salazar, Oscar

Meza Quispe, Benjamín

03 de septiembre del 2015

Page 2: Introducción Al Análisis Bioinformático de Secuencias Proteínas

Introducción al análisis bioinformático de secuencias proteínas

Hoy en día el desarrollo de técnicas avanzadas tanto para el análisis como para la separación de péptidos y proteínas ha traído consigo un aumento considerable en el conocimiento que tenemos de las proteínas (1). Por ejemplo, en agosto del 2015, GenBank, que es el principal repositorio de secuencias genéticas, acumuló aproximadamente 187 millones de registros de secuencias de genes y aproximadamente 302 millones de entradas de secuencias del genoma (2). Además de esto, Uniprot Knowledgebase (Uniprot), que es la principal base de datos en cuanto a función y secuencia primaria de proteínas, cuenta con más de 50 millones de entradas (3). Tras el explosivo desarrollo que alcanzo la genómica, en especial con el Proyecto Genoma Humano, quedo claro que para poder conocer y entender cómo funcionan las células y nosotros mismos no bastaba con la ubicación y mapeo de los genes sino que era necesario estudiar la inmensa variedad de proteínas (4). Esto es lo que se conoce como proteomica.

La función que una proteína cumple en cualquier organismo viene determinada por el orden en el que se disponen sus aminoácidos que al formar una estructura tridimensional caracterizan a la proteína otorgándole su plegamiento específico. Con el desarrollo de la genómica y el vertiginoso crecimiento de las bases de datos de secuencias proteicas, la predicción del plegamiento es cada vez más importante (4). Al mismo tiempo, a partir de los años 80, surgió el problema inverso, en lugar de predecir la estructura tridimensional ahora se buscaba reconocer secuencias a partir el estudio de su plegamiento. Las proteínas que comparten segmentos de secuencias iguales se dice que son homologas. Generalmente un 25 a 30% de homología de secuencias entre proteínas es suficiente para que compartan un pliegue común y métodos de diseño computacional a menudo permiten categorizar proteínas desconocidas a partir del reconocimiento de familias específicas (5).

Además de ser energéticamente coherente con su estructura plegada, una secuencia debe ser también incompatible con plegamientos alternativos. Los métodos computacionales están diseñados para superar algunas de estas dificultades y hacer frente a la gran cantidad de interacciones posibles. Mayormente la proteína que se va a estudiar se representa como una armazón que asemeja una columna vertebral lo que reduce enormemente la complejidad del análisis. Sin embargo también disminuye la variabilidad que se puede encontrar en las secuencias y por tanto fija un patrón que limita la variación de estructuras tridimensionales que podemos observar. Para poder analizar estas estructuras secundarias se observan las conformaciones de las cadenas laterales que deben corresponder con el estado más favorable termodinámicamente. La colección de estas conformaciones posibles se conoce como una biblioteca de rotameros. Hoy en día

Page 3: Introducción Al Análisis Bioinformático de Secuencias Proteínas

algunas de estas bibliotecas llegan a 50000 rotameros y están disponibles para el modelado y diseño de proteínas (6).

Los plegamientos naturales se calculan que podrían llegar a 10000 o incluso 100000, sin embargo si consideramos todas las posibles disposiciones moleculares que podrían obtenerse a partir de los átomos de los aminoácidos esta cantidad es pequeña. Es poco probable que la naturaleza haya probado una por una las millones de combinaciones por lo que se deduce que del estudio de los dominios bien conocidos como barriles αβ se puede conocer detalles sobre la evolución molecular (7).

Para explorar este vasto universo de pliegues proteicos el enfoque habitual es generar secuencias aleatorias e identificar, a partir de la comparación con bases de datos como los del PDB, su estructura y función más probable. Este enfoque permite armar una biblioteca de secuencias funcionales que al contrastarla con secuencias de ADN y ARN mensajero nos da una idea del rol que desempeña en la célula. A partir del hallazgo de una secuencia homologa entonces es posible conocer su estructura tridimensional y su función más probable (8).

Cuando se determina la secuencia completa de una proteína se inicia la búsqueda de secuencias homologas. Esto se hace mediante la comparación de la nueva secuencia con las ya conocidas. Sin embargo, en el caso de proteinas alejadas, se podría haber producido una acumulación de mutaciones hasta llegar a dar secuencias similares aunque sean totalmente diferentes en todos los aspectos. Asimismo podría haber ocurrido un reordenamiento de segmentos de genes en el genoma lo que indicaría un dominio o motivo asociado con una estructura o función que es propenso a mutaciones. Actualmente las bases de datos como PIR o SwissProt permiten realizar búsquedas que cumplan criterios específicos facilitando el proceso de búsqueda que debe cumplir 3 requisitos: encontrar secuencias con suficiente similitud, que esta similitud no sea debido al azar y que sea rápida (10).

El análisis comparativo de proteínas de baja homología sigue siendo un reto difícil en biología computacional, especialmente las dificultades que surgen del alineamiento de secuencias. Una herramienta reciente partiFold-Align, el primer algoritmo para la alineación y el consenso simultaneo del plegamiento de secuencias de proteínas no alineadas (11). La eficacia de esta nueva herramienta se ha demostrado en proteínas transmembrana B-barril, una importante pero difícil clase de proteinas cuya estructura todavía es poco conocida. Aunque existen imprecisiones en los algoritmos de plegado y dificultad en la obtención de alineamientos de secuencia fiables para familias de proteinas divergente, no hay dudas de que es un gran avance.

Page 4: Introducción Al Análisis Bioinformático de Secuencias Proteínas

1. Song K, Ren J, Zhai Z, Liu X, Deng M, Sun F. Alignment-Free Sequence Comparison Based on Next-Generation Sequencing Reads. Journal of Computational Biology. 2013 Feb 1;20(2):64–79.

2. GenBank [base de datos en Internet].Bethesda: National Library of Medicine. 2002 [acceso 31 de agosto de 2015]. Disponible en: http://www.ncbi.nlm.nih.gov/genbank/statistics

3. UnitProtKB [base de datos en Internet].Cambrige: Universal Protein Resource. 2002 [acceso 31 de agosto de 2015]. Disponible en: http://www.uniprot.org/uniprot/

4. Baxevanis AD, Ouellette BF. Bioinformatics: a practical guide to the analysis of genes and proteins [Internet]. John Wiley & Sons; 2004 [cited 2015 Aug 29]. Available from: https://books.google.com/books?hl=es&lr=&id=i0W9NBmxewQC&oi=fnd&pg=PR7&dq=bioinformatics+A+Practical+Guide+to+the+Analysis+of+Genes+and+Proteins&ots=_bHyqhL8EH&sig=Aiy8Z8BJysKPLVCkTYaBkYYET5k

5. National Human Genome Research Institute [sede Web]. Bethesda: National Human Genome Research Institute; 2003 [acceso 31 de agosto de 2015]. What's Next?Turning Genomics Vision into Reality. Disponible en: http://www.genome.gov/11006944

6. Schmidt Am Busch M, Lopes A, Mignon D, Simonson T. Computational protein design: software implementation, parameter optimization, and performance of a simple model. J Comput Chem. 2008 May;29(7):1092–102.

7. Samish I, MacDermaid CM, Perez-Aguilar JM, Saven JG. Theoretical and computational protein design. Annu Rev Phys Chem. 2011;62:129–49.

8. Woolfson DN, Bartlett GJ, Burton AJ, Heal JW, Niitsu A, Thomson AR, et al. De novo protein design: how do we expand into the universe of possible protein structures? Current Opinion in Structural Biology. 2015 Aug;33:16–26.

9. Barber S. Protein Bioinformatics: An Algorithmic Approach to Sequence and Structure Analysis [Internet]. Taylor & Francis; 2004 [cited 2015 Sep 2]. Available from: http://www.tandfonline.com/doi/pdf/10.1080/0266476042000291257

10.Escobar CAM, Murillo LVR, Soto JF. Tecnologías bioinformáticas para el análisis de secuencias de ADN. Scientia et Technica. 2011 Dec 30;3(49):116–21.

Page 5: Introducción Al Análisis Bioinformático de Secuencias Proteínas

11. Waldispühl J, O’Donnell CW, Will S, Devadas S, Backofen R, Berger B. Simultaneous Alignment and Folding of Protein Sequences. Journal of Computational Biology. 2014 Apr 25;21(7):477–91.

Identificación De La Secuencia Problema

Secuencia en formato FASTA proporcionado por el profesor:

>Seq13MTCEAAVQLRKAGKVVVRDSTLKKIGATHFKYGVADEHFEVTKYALLETIKEASPEMWSVEMKNAWGEAY

SECUENCIA PROBLEMA A ANALIZAR:

Los resultados nos muestran dos posibles proteínas, según sus parámetros determinaremos con cual trabajar.

Description hemoglobin [Solanum tuberosum] non-symbiotic hemoglobin class 1 isoform X1 [Solanum lycopersicum]

Query cover 100 % 100%

E-value 6e-43 1e-41

Ident 100% 97%

Accession NP_001275068.1 XP_010323149.1

En la secuencia Query (secuencia de aminoácidos) tenemos una coincidencia de -----100%. La evaluación estadística presenta una menor probabilidad de haber sido obtenida ----al

azar en Solanum tuberosum.

La coincidencia en el banco de datos, nos sugiere un 100% para la HEMOGLOBINA (Solanum tuberosum)

LA SECUANCIA FASTA E LA HEMOGLOBINA DE PAPA ES LA SIGUIENTE:

>hemoglobina_Solanum_tuberosum

Page 6: Introducción Al Análisis Bioinformático de Secuencias Proteínas

MSSFSEEQEALVVKSWGSMKKDAGEWGLKFFLKIFEIAPSAKKMFSFLKDSNVPLDQNPKLKVHAKSILVMTCEAAVQLRKAGKVVVRDSTLKKIGATHFKYGVADEHFEVTKYALLETIKEASPEMWSVEMKNAWGEAYDQLVSAIKTEMK

Page 7: Introducción Al Análisis Bioinformático de Secuencias Proteínas

Determinación De Parámetros Bioquímicos Y Dominios:

Con ayuda de la página de la herramienta ProtParam del ExPASy. Para la proteína asignada:

HEMOGLOBINA (Solanum tuberosum):

NUMERO DE AMINOACIDOS PESO MOLECULAR pI TEORICO152 171.379 kDa 8.85

El peso molecular nos indica que es una proteína de alto peso molecular, ya que se encuentra entre los rangos para alto peso molecular ( 80 – 200 kDa).

El punto isoeléctrico en esta molécula nos indica que esta molécula es básica.

CUADRO DE CANTIDAD DE AMINOACIODOS DE LA PROTEINA

AMINOACIDOSNUMERO DE

AMINOACIDOS%

Val(A) 15 9.9Arg(R) 2 1.3Asn(N) 3 2.0Asp(D) 6 3.9Cys(C) 1 0.7Gln(Q) 4 2.6Glu(E) 14 9.2Gly(G) 7 4.6His(H) 3 2.0Ile(I) 6 3.9

Leu(L) 12 7.9Lys(K) 21 13.8

Met(M) 7 4.6Phe(F) 8 5.3Pro(P) 4 2.6Ser(S) 13 8.6Thr(T) 6 3.9Trp(W) 4 2.6Tyr(Y) 3 2.0Val(V) 13 8.6

Page 8: Introducción Al Análisis Bioinformático de Secuencias Proteínas

TIPO DE AMINOACIDO

%

ALIFATICO 30.3AROMATICO 9.9

POLAR 17.1APOLAR 12.5

POSITIVO 17.1NEGATIVO 13.1

La grafica nos indica que la mayor parte de la proteína esta compuesta por aminoácidos alifáticos (30.3 %) , y en una menor proporción de aminoácidos aromáticos (9.9 %).

NUMERO DE RESIDUOS CON CARGA POSITIVA

NUMERO DE RESIDUOS CON CARGA NEGATIVA

20 23

La proteína tiene una carga ligeramente negativa.

COMPOSICION ATOMICA

ELEMENTO CANTIDADCarbono (C) 778

Hidrogeno (H) 1230Oxigeno (O) 222

Nitrógeno (N) 196Sulfuro (S) 8

17%

13%

30%10%

17%

13%

PORCENTAJE DE AMI-NOACIDOS

POLARESAPOLARESALIFATICOSAROMATICOSPOSITIVOSNEGATIVOS

Page 9: Introducción Al Análisis Bioinformático de Secuencias Proteínas

Carbono (C)

Hidrogeno (H)

Oxigeno (O)

Nitrógeno (N)

Sulfuro (S)0

200

400

600

800

1000

1200

1400

COMPOSICION ATOMICA

Series1

La grafica muestra que la proteína tiene una mayor cantidad del elemento hidrogeno, y en una minoría al elemento azufre, responsable de los puentes disulfuro (cisteína).

La proteína tiene la siguiente formula empirica:

C778H1230N196O222S8

Según el Programa esta proteína es estable. Esta proteína es parte de la super familia de la GLOBINAS. El sitio web prosite indica que esta proteína es parecida a la hemoglobina de los

vertebrados, que está compuesta de un tetrámero con dos cadenas α y dos β. La mioglobina en vertebrados (Mg), es monomérica y transporta oxígeno a los músculos En Invertebrados la estructura de la hemoglobina puede ser monomérica o dimérica. La Leghemoglobina (Lg). Presente en los nódulos de las raíces de las leguminosas.

Visualización De La Estructura Tridimensional De La Proteína

Page 10: Introducción Al Análisis Bioinformático de Secuencias Proteínas

La estructura de dicha proteína se halló mediante: Experimento: Difracción de rayos-X con una resolución de 1.84 Å

PRINCIPALES CARACTERISTICAS DE LA PROTEINA ENCONTRADA

CLASIFICACION: Unión al oxígeno, proteína con inclusión de elemento metálico.

ESTRUCTURA: Secundaria alfa hélice

CADENAS: A, B

IMAGEN DE LA PROTEINA OBTENIDA EN 3D

Conclusiones Y Discusión De Resultados

ESTILO CARTOON

COLOR RAINBOW

Page 11: Introducción Al Análisis Bioinformático de Secuencias Proteínas

Una vez recibida toda la información en el formato BLAST se encontró que dicho fragmento de proteína pertenece a la hemoglobina de Solanum tuberosum, luego buscando en la base de datos de PROTEIN DATA BANK (PDB) nos dio el resultado de Hemoglobinas de las plantas Parasponia andersonii (ParaHb) y Trema tomentosa (TremaHb) que son 93% idénticas en estructura primaria pero difieren en las constantes de unión al oxígeno de acuerdo con sus funciones fisiológicas distintas.

A partir de estos datos llegaremos a diversas conclusiones, pero antes de esto es válido dar una introducción a la superfamilia de las globinas, con lo cual está relacionado el presente trabajo:

Las globinas son proteínas unidas a un grupo hemo que participan en la unión y/o transporte de oxigeno; los principales grupos de globinas son:

Hemoglobina de los vertebrados (Hb) esta es la responsable desde el transporte de oxigeno desde los pulmones a otros tejidos.

Mioglobinas (Mg) a partir vertebrados. Mg es una proteína monomérica responsable del almacenamiento de oxígeno en los músculos.

Las plantas utilizan la hemoglobina para unir y transferir oxígeno a las mitocondrias durante la respiración. Fue descubierta en los nódulos de las raíces de las legumbres. Estos nódulos representan una actividad simbiótica con bacterias Rhizobium que permiten la fijación (reducción) del nitrógeno atmosférico para la eventual síntesis de aminoácidos para la planta. Este proceso requiere grandes cantidades de energía; los nódulos contienen una abundante hemoglobina denominada leghemoglobina, que facilita la difusión de oxígeno a la cadena respiratoria bacteriana. Además, constituye un mecanismo de secuestro de oxígeno, que mantiene al sistema reductor de nitrógeno libre de oxígeno, el cual es lesivo para dicha maquinaria (enzima nitrogenasa). Aunque la secuencia de aminoácidos de las leghemoglobinas difiere en 80% de las hemoglobinas de los vertebrados, sus estructuras tridimensionales son idénticas.

El descubrimiento de hemoglobinas en una gran variedad de plantas soporta el modelo de la leghemoglobina como un producto especializado de un gen común propio de las plantas, que codifica para hemoglobina. La presencia de hemoglobinas, distintas a la leghemoglobina, en plantas no leguminosas (Parasponia andersonni) está relacionada también con la fijación simbiótica de nitrógeno. Sin embargo, estudios posteriores demostraron la existencia de hemoglobina extranodular con funciones no simbióticas, posiblemente relacionadas con el

transporte de O2 en la planta Trema tomentosa. Se describen entonces dos tipos de hemoglobinas en las plantas: simbióticas y no simbióticas, codificadas por un gen ancestral y al parecer común con el gen animal 1500 millones de años atrás.

Page 12: Introducción Al Análisis Bioinformático de Secuencias Proteínas

A continuación se trabajara con la hemoglobina de la Trema tomentosa (TremaHb) la cual tiene funciones no simbióticas se darán a conocer su secuencia de aa:

De estas 2 imágenes se puede observar que la proteína está compuesta por dos unidades α la cual cada una está unida a un grupo hemo, en un principio se pensó comparar la secuencia de aa de nuestra proteína con la de la hemoglobina humana, mioglobina y con alguna otra especie (del reino de las Plantas) que contenga una leghemoglobina simbiótica pero en el proceso nos dimos cuenta de que podría existir la posibilidad de abrir una brecha en alguna de las secuencias de aa para mejorar el % de semejanza, pero si esto fuera asi; ¿Qué tan grande seria dicha brecha? ¿a qué secuencia de aa sería necesaria hacer este cambio? ¿Cuántas posibilidades existirían de hacer esto? ¿Si hiciéramos la brecha tendríamos que correr toda la cadena de aa de las demás proteínas?

La comparación que se hizo de aa fue entre la hemoglobina humana y la mioglobina humana; también se hizo la comparación entre la hemoglobina de la Trema tomentosa y la hemoglobina de Solanum tuberosum, estas comparaciones que se hicieron a nivel de la estrucutra primaria solo se hicieron en tales especies ya que si se hacia entre la hemoglobina de la Trema tomentosa y la hemoglobina humana el % de semejanza es bajo esto se puede dar ya que habría necesidad de hacer brechas en alguna de las estructura primarias de dichas proteínas, pero ¿donde serian tales

Page 13: Introducción Al Análisis Bioinformático de Secuencias Proteínas

brechas?, es por esta razones y por las expuestas en líneas arriba que no se hizo entre esas especies y demás otras combinaciones.

El grado de semejanza de la Trema tomentosa y Solanum tuberosum es de un 93% y de la Hemoglobina y mioglobina de Homo Sapiens esta entre un 15% y 16%.

RECORDAR: Que se está cogiendo una de las subunidades alfa de la hemoglobina.Se está cogiendo solo una subunidad de la Trema tomentosa y de la Solanum tuberosum que por lo cierto también son subunidades alfa.

De esta comparación de aa entre diferentes subunidades de la proteína estamos concluyendo que hay un grado alto de semejanza entre la proteína de la Solanum tuberosum y de la Trema tomentosa (93%) y un la hemoglobina y mioglobina un 15% a 16%; pero esto no nos dice que la proteína de las Solanum tuberosum y de la Trema tomentosa sean leghemoglobinas pertenecientes a la superfamilia de las globinas, nos dice todo lo contrario ya que la semejanza en la estructura primaria comparándolas con la hemoglobina y mioglobina del hombre presentan un bajísimo grado de semejanza, esto quiere decir que si las pusiéramos en línea horizontal (una mirando a la otra) muy pocos aa estarían coincidiendo, para esto se analizara la estructura terciaria ya sea de la Solanum tuberosum o de la Trema tomentosa ya que las dos son muy semejantes en su estructura primaria (93%) y se compararan con la hemoglobina y mioglobina del Homo sapiens.

Trema tomentosa (Leghemoglobina)

Page 14: Introducción Al Análisis Bioinformático de Secuencias Proteínas

Como se puede observar en las figuras se observa una gran similitud en la estructura terciaria de estas proteínas estando el grupo hemo en la misma posición, esta similitud establece que la estructura que enlaza al grupo hemo y facilita la unión del oxígeno se ha conservado durante un periodo de evolución muy prolongado.

Otra importante conclusión a partir de la observación de las estructura terciarias de estas proteínas es que podemos establecer un árbol genealógico entre el ancestro común de las globinas, podemos decir que la cadena beta de la hemoglobina es la última en aparecer en la estructura de la hemoglobina ya que es diferente que la subunidad alfa y esto lleva a la vez que es diferente de la mioglobina (Homo sapiens) y Leghemoglobina de la Trema tomentosa, otro punto es que el subunidad alfa de la hemoglobina es más reciente que la mioglobina y que esta a su vez es más reciente aun que la leghemoglobina.

ANCESTRO EN COMUN

LEGHEMOGLOBINA MIOGLOBINA

HEMOGLOBINA ALFA

HEMOGLOBINA BETA

ANCESTRO EN COMUN

LEHEMOGLOBINA MIOGLOBINA

HEMOGLOBINA ALFA HEMOGLOBINA BETA

ANCESTRO EN COMUN

LEGHEMOGLOBINA

MIOGLOBINA

HEMOGLOBINA ALFA

HEMOGLOBINA BETA

Page 15: Introducción Al Análisis Bioinformático de Secuencias Proteínas

Una posible explicación de esta evolución molecular es que consideremos que la estructura tridimensional de la globina, con residuos apolares recubriendo el grupo prostético hemo, es la más eficaz que existe en la naturaleza como transportador y fijador de oxígeno. Naturalmente no podemos considerar a la leghemoglobina y a la mioglobina como eslabones en una evolución molecular, sino que ambas son resultado de una misma respuesta al problema de transporte de oxígeno. El desarrollo de la hemoglobina posiblemente se debió a duplicación y mutación de segmentos codificadores de mioglobina, lo que aumento la eficacia del transporte de oxígeno y la adsorción de este en el musculo.