informe 7 bioinformática

17
Informe: BIOINFORMÁTICA

Upload: catalina-merino-yunnissi

Post on 21-Jan-2016

69 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Informe 7 Bioinformática

Informe:

BIOINFORMÁTICA

Page 2: Informe 7 Bioinformática

INTRODUCCIÓN

A partir de la secuenciación del genoma humano, se dió inicio a una biología moderna, en la cual la mayoría de las investigaciones biológicas y biomédicas son conducidas en una modalidad basada en la secuenciación. Este nuevo alcance promete llevar a avances no sólo en el entendimiento de los procesos biológicos básicos, sino que también en la prevención, diagnóstico, y tratamiento de muchas enfermedades causadas por desórdenes genéticos y genómicos. (1)La bioinformática representa una nueva área de la ciencia que usa acercamientos computacionales para responder preguntas biológicas, aprovechando amplios y complejos conjuntos de datos de forma rigurosa para alcanzar conclusiones válidas.(2)Un modelo de datos para la información relacionada con secuenciaciones comúnmente usado es el del National Center for Biotechnology Information (NCBI), el cual integra las bases de datos que son la base del popular sistema de recuperación Entrevez.(3) y es básicamente un recurso nacional para la información de biología molecular, que crea bases de datos públicas, conduce investigaciones de biología computacionales, desarrolla softwares y herramientas para el análisis de genomas y difunde información biomédica , todo esto para el mejor entendimiento de los procesos moleculares que afectan la salud humana. (4)Dentro de los servicios que componen el sitio web del NCBI se encuentran: PubMed que consiste en una base de datos de publicaciones científicas (5); la Basic Local Alignment Search Tool (BLAST) que es una herramienta de búsqueda para bases de datos que fue diseñada para encontrar alineamientos locales de alta puntuación entre secuencias aminoacídicas o nucleotídicas (6); el Online Mendelian Inheritance in Man (OMIM) que es un catálogo, continuamente actualizado, de genes y de desórdenes genéticos hereditarios (7); TaxBrowser que contiene información taxonómica para cada especie asociada a secuencias de DNA y proteínas de la base de datos del NCBI (8); MapViewer que es una herramienta que presenta una vista gráfica del genoma humano secuenciado disponible(9); Múltiples bases de datos y libros.

Hoy en día, la bioinformática se encuentra en alza, es por esto que el manejo de estos softwares se vuelve algo necesario para todos los científicos, especialmente para aquellos interesados en el área biomédica, y de la biotecnología.

Los principales objetivos par este práctico fueron:­ Familiarizarse con los principales conceptos de la bioinformática y algunas herramientas del sitio NCBI­ Aprender a utilizar estas herramientas para el análisis del genoma, y aplicarlas en casos de investigación genética.

Actividad N° 1

Page 3: Informe 7 Bioinformática

Conceptos a analizar:­ Apareamiento de bases y código genético.­ Transcripción de un gen.­ Traducción de un gen.

La secuencia que aparece a continuación es una pequeña fracción de un cromosoma y representa una doble hebra complementaria de DNA. La hebra templado para el mRNA es la hebra de arriba.

5’­CCCGGGCCAACCGATAGTTTCAAATCAGCTCAAATGGCCTCATGC­3’3’­GGGCCCGGTTGGCTATCAAAGTTTAGTCGAGTTTACCGGAGTACG­5’

¿Cuál de las dos hebras de DNA se parece al mRNA que se va a producir?­ La de arriba, en sentido 3´­ 5´

Transcriba este fragmento de un gen, usando la hebra superior como templado. Anote la secuencia de bases que corresponderá a la nueva hebra transcrita:

5´­GCAUGAGGCCAUUUGAGCUGAUUUGAAACUAUCGGUUGGCCCGGG­3´

¿Cómo traduciría este gen?­ El gen se traduciría utilizando el Código Genético Universal, viendo a cuál aminoácido corresponde cada codón del mRNA.

¿Qué herramienta usaría?­ Un software que traduzca a partir de una secuencia de DNA. (DataBase)

¿Qué es un codón de inicio?­ Triplete que especifíca el primer aminoácido de la cadena polipeptídica y por el que el ribosoma inicia el proceso de traducción (10). En el mRNA es AUG, el cual codifica para el aminoácido metionina.

¿Qué es un codón de término?­ Triplete de nucleótidos para el que no existe una molécula correspondiente de tRNA que inserte un aminoácido a la cadena polipeptídica (11). Existen tres codones de término UAA (ocre), UAG (ámbar) y UGA (ópalo).

¿Qué es un Open Reading Frame, ORF?­ Un marco de lectura abierto permite saber qué genes están presentes en la secuencia a analizar. Existen tres marcos posibles partiendo de tres nucleótidos distintos de un codón de inicio, hasta el primer codón de término (el más cercano). Se puede determinar el tamaño del

Page 4: Informe 7 Bioinformática

ORF.

Utilizando el sitio web http://www.dnalc.org/bioinformatics/2003/2003_dnalc_nucleotide_analyzer.htm se obtuvo la secuencia aminoacídica para la el fragmento de gen anterior. Los resultados se muestran en la Figura I próxima.

Figura I. Secuencia aminoacídica del fragmento de gen en estudio. Se muestran las tres opciones para lostres marcos de lectura posible.

¿Por qué hay tres resultados?­ Se muestran tres resultados ya que hay tres marcos de lectura posible. El código genético se compone de tripletes no solapados, en principio existen tres maneras posibles de traducir una secuencia de nucleótidos en proteína, según cuál sea el nucleótido de partida. Cada una de ellas constituye un marco de lectura.

¿Cuál de los frentes de lectura es el correcto? (1, 2, 3) ¿Por qué?­ El frente número tres, puesto que contiene un codón de inicio y un codón de término para la secuencia aminoacídica.

¿Qué importancia tiene el codón para metionina (M)?­ Corresponde a un codón de inicio, el codón que codifica para este aminoácido en necesario para que comience la traducción de la proteína.

Utilizando el mismo link se buscaron los sitios reconocidos por enzimas de restricción

Page 5: Informe 7 Bioinformática

(endonucleasas) que posee la siguiente secuencia.

5’ CTCTCGGCATGGACGAGCTGTACAAGTACTCAGATCTCGAGCTCAAGCTTCGAATTCTGCAGTCGACGGTACCGCGGGCCCGGGATCCACCGGATCTAGATAACTGATCATAATCAGCCATACCACATTTGTAGAGGTTTTACTTGC 3’

Esta secuencia corresponde al MCS del plasmidio pEGFP­C3 de Clontech.Primero se hizo un análisis con la enzima de restricción EcoRI, la Figura II. muestra los resultados obtenidos.

Figura II. Análisis del fragmento de gen en estudio con la enzima EcoRI. Se muestra la secuencia de corte,y los fragmentos generados luego de la digestión.

Posteriormente se analizó la secuencia con la enzima KpnI, los resultados para esta enzima semuestran a continuación en la Figura III.

Page 6: Informe 7 Bioinformática

Figura III. Análisis del fragmento del gen en estudio con la enzima KpnI. Se muestra la secuencia quereconoce y los tamaños de los fragmentos generados.

¿Qué es el MCS de un vector plasmidial?­ Es un sitio de clonado múltiple (MCS), el cual es una pequeña región que contiene los sitios de restricción más comúnmente usados, permitiendo una fácil inserción de fragmentos de ADN de interés en ese lugar.

¿Cuántos sitios hay para la endonucleasa Kpn I? ¿Cuál es la secuencia que reconoce?­ Tiene 68 sitios, para este fragmento sólo corta en uno..La secuencia que reconoce esta enzima es GGTACC.

Se utilizó otro programa (WEBCUTER) para analizar qué enzimas cortan la secuencia en estudio.

¿Cuántas enzimas cortan la secuencia? ¿cuáles?­ Existen 140 enzimas que cortan la secuencia del MCS del plasmidio, algunas de las más utilizadas en el laboratorio son: XhoI, SacI, HindIII, EcoRI, PstI y SmaI.

¿Qué ventaja presenta este link con respecto al anterior?­ El programa WEBCUTER entrega una mayor información, como el total de enzimas de restricción que cortan la secuencia, el número de corten que realizan, la posición de los sitios y la secuencia que reconoce.

Page 7: Informe 7 Bioinformática

Actividad N°2 Uso de la herramienta BLAST

Usted es un científico forense y en la escena del crimen descubre una muestra de tejido que contiene DNA (la secuencia que aparece a continuación) en un árbol de un parque cercano. La policía sospecha que se trata de un homicidio, pero la muestra se encuentra en tal mal estado que ellos no fueron capaces de determinar si se trata de una muestra humana o no. Su trabajo es:1. Determinar si la muestra es humana.2. ¿La muestra contiene algún gen? ¿cuál?

Para ello debe realizar un búsqueda en BLAST de las bases de datos de DNA en el sitio de National Center for Biotechnology Information (NCBI).La siguiente secuencia de DNA de una sola hebra, se lee de izquierda a derecha y continua en la siguiente línea, y así sucesivamente (a diferencia de la secuencia que aparece en la actividad N°1). Una de las ventajas de la búsqueda en BLAST, es que el programa automáticamente busca la hebra complementaria, aunque ésta no se incluya.

“TGCCCCCGGGCGAGCGGGATGGGCGGGAGTGGAGTGGCGGGTGGAGGGTGGAGACGTCCTGGCCCCCGCCCCGCGTGCACCCCCAGGGGAGGCCGAGCCCGCCGCCCGGCCCCGCGCAGGCCCCGCCCGGGACTCCCCTGCGGTCCAGGCCGCGCCCCGGGCTCCGCGCCAGCCAATGAGCGCCGCCCGGCCGGGCGTGCCCCCGCGCCCCAAGCATAAACCCTGGCGCGCTCGCGGCCCGGCACTCTTCTGGTCCCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGTGAGGCTCCCTCCCCTGCTCCGACCCGGGCTCCTCGCCCGCCCGGACCCACAGGCCACCCTCAACCGTCCTGGCCCCGGACCCAAACCCCACCCCTCACTCTGCTTCTCCCCGCAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGGTGAGCGGCGGGCCGGGAGCGATCTGGGTCGAGGGGCGAGATGGCGCCTTCCTCGCAGGGCAGAGGATCACGCGGGTTGCGGGAGGTGTAGCGCAGGCGGCGGCTGCGGGCCTGGGCCCTCGGCCCCACTGACCCTCTTCTCTGCACAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAAAGTCTGAGTGGGCGGCAGCCTGTGTGTGCCTGAGTTTTTTCCCTCAGCAAACGTGCCAGGCATGGGCGTGGACAGCAGCTGGGACACACATGGCTAGAACCTCTCTGCAGCTGGATAGGGTAGGAAAAGGC”

¿Qué programa de BLAST debe elegir? ¿Por qué?­ Basic blast: Nucleotide blast. Porque este programa sirve para alinear bases nucleotídicas y la secuencia que se entrega corresponde a una secuencia nucleotídica.

Page 8: Informe 7 Bioinformática

Pegue la secuencia en la ventana superior izquierda. Seleccione un set de búsqueda y un programa para realizar la búsqueda. Considerando lo que usted debe hacer ¿Cuáles de las opciones que se presentan son las más adecuadas?Se determina alinear la secuencia nucleotídica entregada con toda la base de datos del buscador para lograr determinar si la secuencia entregada corresponde a humano. En selección de programa, se optimiza por secuencias altamente similares (megablast).Una vez elegido, presione BLAST y espere los resultados.

A continuación se muestran los resultados obtenidos de la búsqueda en BLAST, utilizando el programa nucleotide BLAST y la secuencia anteriormente señalada. Se consideran los primeros ocho resultados porque tienen el valor de Max ident mayor.

(recortar imagen ocho primeros resultados)Figura IV. Resultado de la búsqueda en el BLAST, se consideran las ocho primeras secuencias que entrega el buscador.

¿A qué especie corresponde la muestra de tejido? ¿Cómo lo sabe?­ Como se observa en la Figura IV, corresponde a Homo Sapiens, esto por el valor de Max ident que indica que los resultados presentan un 100% de homología con la secuencia ingresada.

¿Alguno de los resultados dice homo sapiens?­ Si, los primeros 4 resultados indican que es Homo Sapiens, la secuencia presenta un 100% de homología.

Page 9: Informe 7 Bioinformática

¿Aparece alguna otra especie entre los resultados?­En la Figura IV. entre los resultados obtenidos además de Homo Sapiens se encuentra Hylobates y Pan Troglodytes.

¿Cuál es la mejor secuencia del alineamiento?­Al observar en la Figura IV. los valores de max score, query cover, e value y Max ident., las mejores secuencias de alineamiento son las que aparecen en primer y segundo lugar: Homo sapiens 16p13.3 sequence section 1 of 8 y Homo sapiens alpha globin region (HBA@); and hemoglobin, alpha 1.

¿Cuál es el valor de E (e­value) del mejor alineamiento?­ El menor valor de E es 0,0, lo que indica que hay una probabilidad de un 0% que el alineamiento esté hecho al azar

¿Qué significa el e­value?­ Permite definir qué alineamientos queremos obtener de acuerdo a su significación estadística, cuanto menor sea el valor de E, más significativo es un alineamiento. Para tomar una decision hay que elegir el valor de E menor, ya que este indica que el alineamiento no es al azar

¿Cuál es la diferencia entre “identities” y “positives”?­Identities: se utiliza para los residuos de aminoácidos que son idénticos en ambas secuencias de proteínas, la codificada por el mRNA de la secuencia muestra y la codificada por la del mRNA de la secuencia entregada por el programa. Por su parte positives se aplica a los residuos que son muy similares entre sí, para las proteínas anteriores.

¿Cómo utiliza los siguientes conceptos, presentados por BLAST, para tomar una decisión?1. Score: se relaciona con el grado de homología entre las secuencias. Un mayor score indica una mayor homología, por lo cual sería el adecuado de seleccionar.2. E­value:indica alineamientos por azar, por lo que permite rechazar secuencias que poseen alineamiento producto de esto, de forma tal que un menor E­value es indicio de que la secuencia es homóloga y que el alineamiento no es consecuencia del azar.3. Gaps: este valor indica que si la fracción tiende a cero, todos los pares de baces coinciden y el marco de lectura no está corrido por lo tanto se debe seleccionar aquella fracción cuyo numerador sea el menor,

¿Qué significa lo que aparece en los resultados: STRAND: plus/plus; plus/minus?­ Plus/plus: significa que la secuencia muestra va desde 5’­>3’ y la secuencia arrojada por la base de datos también, mientras que minus/plus indica que la secuencia muestra va desde 5’­>3’, y que la secuencia encontrada en la base de datos va desde 3’­>5’ que correspondería a la secuencia complementaria

¿La muestra contiene algún gen? ¿Cuál?

Page 10: Informe 7 Bioinformática

­ Si, en la Figura IV. el segundo resultado es un gen que se encarga del control de la expresión de la agrupacion de los genes alfa­globulina: HBA1

En la actualidad, se conoce la función de varios genes. Algunas mutaciones en los genes son responsables de enfermedades genéticas específicas. ¿Hay alguna enfermedad genética asociada a este gen? ¿Cuál? ¿Cómo llegó a esta información?

Se ingresó a buscador “OMIM”> luego se escogió la opción“gene” enl campo de búsqueda se puso “alpha globin disease”> Al lado izquierdo en “Top organism” se eligió “Homo Sapiens”> la búsqueda arroja como primer resultado “ HBA1 – hemoglobin, alpha 1 [Homo sapiens]”

En la siguiente imagen se muestra el resultado que arrojó la búsqueda de enfermedades para la alfa­globulina. El primer resultado es el que se escogió

(Achicar imagen)Figura V. Resultado arrojado por el buscador OMIM para enfermedades relacionadas con la alfa­globulina

El artículo corresponde a información detallada del gen HBA1 que es parte de la agrupación de genes de la alfa­globulina. Hay un resumen , información del contexto genómico, bibliografía y la opción “fenothypes”, es decir fenotipos en el cual entre otros se indica la enfermedad alpha talasemia entre las mas importantes.

Actividad N°3: Taxonomía

1) En el sitio del NCBI www.ncbi.nlm.nih.gov, “TaxBrowser” ¿A qué corresponden los

Page 11: Informe 7 Bioinformática

nombres de las especies que allí aparecen?­ Corresponde a organismos modelos cuyo genoma se encuentra secuenciado, que son comúnmente utilizados para proyectos de investigación molecular.

2) En la sección “Taxonomy Statistics” ¿Qué información aparece?­ Aparece el número de taxa, géneros y especies que se encuentran analizadas por el programa TaxBrowser, es decir, para los cuales se encuentra secuenciado por lo menos un gen para los grupos Archaea, Bacteria, Eukaryota, Fungi, Metazoa, Viridiplantae y Virus.

3) En la columna all dates, ¿Cuántas especies de bacterias hay en las bases de datos?­ Aparecen 11477 especies

4) En el año 2000 ¿Cuántas especies bacterianas fueron incluidas? ¿Qué puede decir con respecto a la pregunta anterior?­ 480; Que en el transcurso de los años a partir del 2000 se han secuenciado aproximadamente 11.000 especies de bacterias, lo que es un número significativo, de lo que se concluye que este programa crece cada día más, y que cada vez es más completo.

5) En “Taxonomy Home”, “Extinct Organisms”. ¿Qué información aparece? ¿Cómo están clasificadas las especies que allí aparecen?­ Aparecen las especies extintas, cuyo genoma se encuentra secuenciado.Algunas especies se encuentran agrupadas por clase: Mamíferos, Aves, Reptiles, y otras simplemente en grupos que comparten características en común: Insectos, Plantas Verdes y Dinosaurios

6) Con respecto a Libanorhinus succinus ¿A qué insecto corresponde? ¿En qué época existió? ¿Cómo lo encontraron?­ Corresponde a un escarabajo del ámbar del Líbano, que existió hace 120­135 millones de años. Este fue encontrado en trozos de ambár, y corresponde a la primera descripción formal que se hizo de un individuo de la familia Nomonychidae. (12)

7) En la opción Arthropoda ¿Qué otros organismos pertenecen a este Phylum? ¿Qué rasgo corporal comparten estos organismos?­ Arañas, escorpiones, crustáceos, escarabajos, pulgas, garrapatas etc... La característica corporal que comparten estos organismo es un exoesqueleto de quitina.

8) ¿Cuántas secuencias nucleotídicas han sido depositadas en los registros de entrada (Entrez Records) para este organismo?­ Solo una.

9) ¿Cuál es el nombre del gen que fue secuenciado para este organismo? (Presione 1 al lado de nucleotide)­ LBNRR18S (Lebanorhinus succinus 18S RNA ribosomal gene)

Page 12: Informe 7 Bioinformática

10) ¿Qué puede decir de la conservación evolutiva de este gen?­ Se puede decir que este gen se encuentra altamente conservado, lo que se concluye al ver que encontramos un homólogo de este gen en especies que no se han extinguido.

11) ¿Cuántos pares de bases contiene la secuencia incorporada en la base de datos? ¿Qué sucede si hace click en el número 8505978? ¿Qué información aparece ahora? ¿Qué puede decir de la base de datos PUBMED? ¿Qué puede decir de la organización de la información en el sitio NCBI?­ La secuencia contiene 315 pares de bases; Al hacer click en el número 8505978 se abre una página web PubMed) que contiene las publicaciones científicas que existen sobre la especie de interés: Libanorhinus succinus; Con respecto a la página PubMed se puede decir que es muy completa ya que en ella se pueden encontrar trabajos que han sido publicados desde 1950, lo que constituye una base de datos muy íntegra. Con respecto al sitio del NCBI se puede decir que es una herramienta bastante útil para hacer estudios bioinformáticos, ya que en esta misma página hay distintos softwares y bases de datos que me permiten obtener información de prácticamente todos los aspectos de interés que puedo incluir en mi estudio, desde la secuencia un gen, hasta la taxonomía de las distintas especies en que este se encuentra.

Actividad N°4

Se recolectó información acerca de la enfermedad Tay­Sachs, utilizando sólo el sitio web de NCBI.

Primera parteSe ingresó a la base de datos de NCBI, y en la categoría OMIM se procedió a buscar la enfermedad antes mencionada. El número de acceso seleccionado fue #272800.

¿Cuáles son las causas bioquímicas de la enfermedad?­ La causa principal es la acumulación de glicoproteínas en células rojas. Hay un defecto en la enzima hexosaminidasa, la cual presenta una actividad total normal, pero al separar los componentes A y B se descubre que el componente A está ausente.

Describa brevemente las características clínicas de la enfermedad.­ Las principales características son un retardo en el desarrollo infantil seguido de parálisis, demencia y ceguera, que se van haciendo más severas hasta provocar la muerte al segundo o tercer año de vida.

¿Cuál es la genética molecular de esta enfermedad? ¿Las mutaciones que causan la enfermedad son iguales para toda la población humana?­ La enfermedad se produce por una mutación en la subunidad alfa del gen de la hexosaminidasa A, y su herencia es autosómica recesiva.

Page 13: Informe 7 Bioinformática

¿En qué cromosoma humano se encuentra el gen responsable de la enfermedad?­ Se encuentra en el cromosoma 11.

Luego, en la página OMIM, en los resultados desplegados para Tay­Sachs, se seleccionó el número de acceso para Hexaminidasa A (606869).

¿Qué tipo de información obtiene ahora? ¿Es equivalente buscar la enfermedad y buscar el gen? ¿Cuál búsqueda cree usted entrega mayor información y por qué?­ Esta opción permite obtener información sobre el gen Hexosaminidasa A. No es equivalente a buscar la enfermedad, puesto que los datos específicos de ésta no aparecen.La primera búsqueda entrega mayor información relacionada a la enfermedad, como sus características y síntomas clínicos, sin embargo, la segunda opción permite obtener datos más específicos del gen que puede presentar la mutación que conlleva a la enfermedad.

Luego se procedió a la base de datos GENE (en la misma página) y en el espacio de búsqueda se puso en número de acceso BC084537.

¿Cuál es el nombre completo del gen? ¿Cuál es el tamaño del transcrito y la proteína?­ El nombre completo del gen es Hexosaminidasa A (polipéptido alfa). El tamaño del transcrito corresponde a 2.437 pares de bases y el de la proteína son 529 aminoácidos.

Segunda parte

En la página de NCBI se seleccionó la base de datos Gene y sobre el recuadro de búsqueda se escribió HEXA human.

¿Cuántos intrones y exones contiene este gen?­ Este gen contiene 14 exones y 13 intrones.

¿Cuáles son los cinco tejidos que presentan una mayor expresión del gen?­ Los cinco tejidos que presentan mayor expresión del gen en orden descendente son: tiroides, ascites, tejido adiposo, esófago y placenta.

¿Qué dominios conservados presenta la proteína?­ pfam02838 Location:35 – 165 Blast Score: 458 (dominio 2)­ cd06562 Location:167 – 511 Blast Score: 1407 (subunidades alfa y beta)­ pfam00728 Location:167 – 488 Blast Score: 814 (dominio catalítico)

¿Qué tipo de proteína codifica este gen? ¿A qué familia de enzimas pertenece? ¿Se relaciona con los dominios conservados presentes en ella?­ Es una proteína con actividad catalítica que hidroliza el terminal no reductor de residuos de N­acetyl­D­hexosamine a N­acetyl­beta­D­hexosaminides. Pertenece a la familia glycosyl

Page 14: Informe 7 Bioinformática

hydrolase 20. Sí se relaciona con los dominios conservados, puesto que estos están presente en la mayoría de las proteínas que conforman la familia. Dominios conservados pueden sugerir una función similar, por lo tanto si se analiza una proteína que presenta dichos dominios se podría pensar que corresponde a la familia.

¿Qué otras mutación/polimorfismo presenta este gen? ¿Alguna de las mutación/polimorfismo descritas se relaciona con la enfermedad?­ Existe una extensa lista con variantes naturales, que no se relacionan directamente con la enfermedad. Existen algunas mutaciones, pero tampoco se relacionan en forma directa con la enfermedad (actividades catalíticas no se ven afectadas).

Adquiera la secuencia del ARNm y de la proteína en formato FASTA, seleccionando la secuencia y luego en Display “FASTA”.FASTA entregó la secuencia de la proteína, la cual se muestra en la Figura VI.

Figura VI. Secuencia de la proteína HEXA human.

¿En qué otras especies se expresa este gen? (Links a la derecha en Gene: Homologene)­ El gen se expresa en las siguiente especies (homólogos): P. troglodytes, M. mulatta, C. lupus,B. taurus, M. musculus, R. norvegicus, G. gallus, O. sativa y A. thaliana.Tercera Parte: Búsqueda de Homólogos en BLAST

Page 15: Informe 7 Bioinformática

Se buscó un modelo animal para la investigación de esta enfermedad. Con el número de acceso NP_00511.1 (secuencia peptídica de HEXA)En la categoría BLAST de NCBI se seleccionó la base de datos Protein Query vs. Translated database (tblastn:search translated nucleotide database using a protein query). Se ingresó la secuencia peptídica en el campo de búsqueda.

¿Cuál es el largo de la secuencia ingresada? ¿Cuál es el largo de la secuencia obtenida?Tanto en el Protein Query como en el tblastn el largo de la secuencia obtenida fue 529 aminoácidos

¿Cuál es la mejor secuencia del alineamiento y cuál es su tamaño en aminoácidos?

Para escoger la mejor secuencia de alineamiento, entre los resultados obtenidos se buscó la secuencia que fuera de animal con mayor homología entre la secuencia ingresada y la obtenida y ésta fue el Pan troglodytes para Protein Query y para tblastn:

En el Protein Query es la “beta­hexosaminidase subunit alpha isoform 9 [Pan troglodytes]”, el largo de la secuencia obtenida es de 529 aminoácidos.

Para el tblastn es “Pan troglodytes hexosaminidase A (alpha polypeptide), transcript variant 9 (HEXA), mRNA”, de 3120 nucleótidos y 529 aminoácidos.

¿Existe una diferencia entre los resultados obtenidos por tblastn vs protein BLAST? ¿Por qué?Si existen diferencias debido a que tblastn entrega información acerca de secuencias de alineamiento con la correspondiente secuencia de aminoácidos que se ha ingresado; para el caso de protein BLAST, la información entregada se relaciona con la proteína correspondiente a dicha secuencia, como la cantidad de aminoácidos, su tamaño, la función biológica asociada, entre otras.

¿Qué es un homólogo? Y ¿qué diferencia hay entre parálogos, ortólogos y homólogos?Un homólogo es un gen con función equivalente a otro gen, los cuales provienen de un ancentro común; dentro de los genes homólogos se puede clasificar a los parálogos y los ortólogos. Los parálogos son genes de la misma especie con función similar. Los genes ortólogos son genes de distinta especie con función equivalente. Genes parálogos y ortólogos son genes homólogos, pero uno hace referencia a genes de la misma especie y el otro a genes de distinta especie, respectivamente.

¿Puede encontrar alguno de ellos usando BLAST?Existe una opción que permite encontrar la expresión de un mismo gen para distintas especies. Mediante el uso de BLAST o FASTA se ingresa el gen de interés, luego se puede acceder a Homologene, dando a conocer todas las especies que lo expresan.

Page 16: Informe 7 Bioinformática

¿Cuál de las siguientes secuencias representa el mejor homólogo de HEXA humano? ¿por qué?

Especie Homólogo Número de Acceso (Protein)

Mus musculus HEXA NP_034551.2

Pan troglodytes similar to Chain A, X­Ray Crystal Structure Of Ngt­Bound Hexa

XP_001175122.1

Sus scrofa HEXB Q29548.

Caenorhabditis elegans Hex A Q22492

Rattus norvegicus Hexa hexosaminidase A NP_001004443

Para cada especie seleccione y guarde en formato fasta. ¿Qué herramienta debe usar para identificar el mejor homólogo? ¿Qué base de datos?La herramienta más útil para identificar el mejor homólogo es tBLAST, ya que a partir de esta se pueden comparar los parámetros: e­value, score y gaps con respecto al homólogo humano, y en abse a esto escoger el mejor.

A partir de los resultados obtenidos ¿cuál cree usted sería el mejor modelo animal a utilizar? ¿Qué dice OMIM al respecto?1) Copiando la secuencia nucleotídica de cada especie y se usando la herramienta para alinear secuencias del BLAST:Mus musculus: 93% de identidad.Pan troglodytes: 99% de indentidad.Rattus norvegicus: 90 y 76 % de identidad (evaluando 2 fragmentos separados).

2) Usando la herramienta tblastn.Mus musculus: 85% de identidad.Pan troglodytes: 99% de identidad según la (secuencia predicha).Sus scrofa: 85% de identidad.Caenorhabditis elegans: no se despliegaRattus norvegicus: 84% de identidad.

Por lo tanto el mejor modelo es Pan troglodytes, porque su homología es muy alta con el gen HEXA del ser humano.

Page 17: Informe 7 Bioinformática

REFERENCIAS

(1) “Bioinformatics: A Practical Guide to Analysis of Genes and Proteins” A.D Baxevanis, B.F Francis Ouellette, 2° Edición, Editorial Wiley, 2001, Pág xv(2) Referencia 1, Pág 1(3) Referencia 1, Pág 19(4) “Principles of Biotechnology”, A.J Nair, 1° Edición, Laxmi Publications, 2007, Pág 195.(5) “PubMed Essentials: A User´s Guide to Smarter Searching of Medical Information”, B.M Edhlund, 2° Edición, FORM AND KUNSKAP AB, 2006, Pág 9­10(6) “Java for Bioinformatics and Biomedical Applications”, H. Bal, J. Hujol, 1° Edición, ,Springer,2007, Pág 24(7) “The Internet for Molecular Biologists: A Practical Approach”, C.E. Sansom, R.M. Horton,1° Edición, Oxford University Press, 2004, Pág 44.(8) “Biodata Mining and Visualization”, I. Havukkala, 1° Edición, World Scientific Publishing, 2010, Pág 37(9) Referencia 1, Pág 124(10) “Glosario de biotecnología” Juan Jáuregui, Norma Chavez, 1° Edición, Universidad Autónoma de Aguas Calientes, 2006, página 54.(11) Referencia 10.(12) Kuschel G., Poinar G.O, 1993, “Libanorhinus succinus gen. & sp. n. (Coleoptera: Nemonychidae) from Lebanese amber”. Insect Systematics & Evolution, Volumen 24, (2), pp 143­ 146