tp 1 - exploración de bases de datos humanas introducción
TRANSCRIPT
TP 1 - Exploración de Bases de datos Humanas
Introducción
A partir del avance tecnológico y del desarrollo de nuevas técnicas de alto rendimiento en
las ciencias naturales y exactas, en las últimas décadas la cantidad de datos científicos ha
crecido exponencialmente. De esta manera surge la necesidad de almacenar toda esa
información de manera rápida y ordenada, con la posibilidad de un fácil acceso para su
consulta y posterior análisis. Actualmente, este almacenamiento y consulta es, casi
exclusivamente, una tarea computacional, donde los datos son guardados de manera digital
para agilizar el acceso a ellos de entre una gran maraña de datos, juntándolos y
ordenándolos en bases de datos. Particularmente, para las ciencias biológicas, y más
específicamente dentro del área de la salud y genómica humana, existe una gran variedad
de bases de datos públicas, disponibles gratuitamente que pueden ser consultadas
libremente vía internet.
En el trabajo práctico 0 ya se analizaron algunas de las capacidades de un buscador como lo
es Ensembl. En este trabajo práctico (TP) se brindará un recorrido por otras de las bases de
datos más relevantes, con el fin de explorar sus principales características.
Tarea 1) Visitando dbSNP
La base de datos de polimorfismos de un solo nucleótido (dbSNP) es una base de datos
pública y libre para el almacenamiento de variaciones genéticas en diferentes especies,
desarrollada por el National Center of Biotechnology Information (NCBI) en colaboración con
el National Human Genome Research Institute (NHGRI). Es quizás la base de datos más
importantes de variantes genómicas en general.
1
Genómica y Medicina de Precisión Agosto 2019
Link http://www.ncbi.nlm.nih.gov/SNP/
Figura 1: Pantalla inicial de dbSNP.
Figura 2: Descripción de una variante.
2
Genómica y Medicina de Precisión Agosto 2019
A. Ingrese en el cuadro de búsqueda el identificador de la variante rs137853222.
Ingrese en la variante haciendo click sobre el código rs.
B. En primer lugar, se le presenta un recuadro color azul claro con toda la información
de principal relevancia.
i) ¿Puede inferir qué información le brindará cada campo?
ii) ¿Qué consecuencias trae aparejada esta variante sobre el gen?
iii) ¿Qué información provee el campo Clinical Significance? ¿A qué base de datos lo
conduce?
C. Ubique el cursor sobre el SNP de interés y analice toda la información presentada en
el recuadro. ¿Cuantas posiciones distintas les aparece? ¿A qué se debe esto? ¿Qué
conclusión puede sacar respecto a la versión del genoma de referencia utilizado para
identificar una variante? ¿Basta con indicar la posición?
D. Observe la tabla “Genomic placements”. ¿Entiende la construcción de los términos
observando la Tabla 1?
HGVS o la Human Genome Variation Society establece las reglas de nomenclatura apropiada para cada variante (ver http://varnomen.hgvs.org/). Siempre posee una primera parte que indica la referencia (en qué, en cuál y qué versión) y una
segunda parte, con la descripción de la variante. Esta segunda parte la conforma un prefijo que
indica la secuencia de referencia usada, la posición y la variante propiamente dicha. Dependiendo
el caso la nomenclatura puede complejizarse, pero como introducción veremos un ejemplo;
NM_004006.2:c.5234G>A
NM_004006 .2 :c. 5234 G>A
Secuencia de referencia
Versión de la secuencia de
referencia
Prefijo
Posición de la variante
Referencia y variante referida
● Indicador en letra de la secuencia de referencia:
NC_ una secuencia de referencia genómica basada en un cromosoma
NG_ una secuencia de referencia genómica basada en una región Genética o Genómica
LRG_ una secuencia de referencia genómica, utilizada en un entorno de diagnóstico, basada en
una región Gen o región genómica
NM_ una secuencia de referencia basada en un ARN que codifica una proteína (ARNm)
NR_ una secuencia de referencia basada en un ARN de codificación no proteica
NP_ una secuencia de referencia basada en una secuencia de proteína (aminoácido)
● Prefijo en letra:
"g." Para una secuencia de referencia genómica
3
Genómica y Medicina de Precisión Agosto 2019
"c." Para una secuencia de referencia de ADN codificante
"m." Para una secuencia de referencia de ADN mitocondrial
"n." Para una secuencia de referencia de ADN no codificante
"r." Para una secuencia de referencia de ARN (transcripción)
"p." Para una secuencia de referencia de proteína
Tabla 1: Nomenclatura HGVS
E. Analicemos ahora el “entorno de la variante” en la sección de “Genomic regions,
transcripts and products”.
Figura 7: Visualización/Navegación del genoma en dbSNP
i) ¿La variante se encuentra en una región codificante? ¿Cuál es el alelo de referencia en el
genoma?
ii) ¿Encuentra variantes cercanas a la variante del ejemplo? ¿Existen diferencias con las
variantes cercanas encontradas en Ensembl? ¿Puede determinar a qué se deben las
diferencias observadas? Como ayuda, le suministramos el link con el visor de Ensembl
enfocado en la posición de la variante ejemplo:
http://www.ensembl.org/Homo_sapiens/Location/View?db=core;r=17:63917572-63918572
;v=rs137853222;vdb=variation;vf=24027206
F. Finalmente analicemos el efecto biológico del SNP en el gen/proteína:
4
Genómica y Medicina de Precisión Agosto 2019
Figura 8: Efecto biológico del SNP en dbSNP
i) ¿Cuál es el cambio que introduce la variante en la proteína?
ii) ¿Por qué si en el genoma la variante es C→G, en el gen figura como G→C?
Otras páginas útiles: VarSome https://varsome.com/
SNPedia https://www.snpedia.com/
Tarea 2) OMIM y ClinVar
OMIM (Online Mendelian Inheritance in Man) es un amplio compendio de genes humanos
y fenotipos genéticos. El objetivo principal es catalogar todas las enfermedades que posean
un componente genético y generar relaciones bibliográficas y con otras bases de datos con
datos genómicos. Una de estas bases de datos es ClinVar, que recopila información de
variantes genómicas y sus relaciones con la salud humana.
Links http://www.omim.org/ http://www.ncbi.nlm.nih.gov/clinvar/
A. Seguiremos trabajando con la variante rs137853222. Vaya primero al sitio web de
OMIM e ingrese la variante.
i) ¿A qué fenotipo (condition) se encuentra relacionada la variante? Puede verificarlo
en OMIM y en ClinVar, incluso también en Ensembl.
ii) ¿Puede identificar cuáles son las publicaciones que relacionan a la variante con el
fenotipo asociado?
5
Genómica y Medicina de Precisión Agosto 2019
B. Ahora cambiaremos el enfoque. Supongamos que nos interesa conocer variantes y
genes relacionados con una enfermedad en particular, por ejemplo fenilcetonuria
(PKU, abreviado en inglés).
i) Busque en la página principal de OMIM la enfermedad fenilcetonuria y seleccione,
entre los resultados, aquel correspondiente a la enfermedad (figura 9). Puede
repasar las características del cuadro clínico, con la información brindada por OMIM.
ii) ¿Cuál es el gen asociado a la enfermedad? ¿Qué modelo de herencia describe la
transmisión de la enfermedad? Desde la página de la enfermedad encuentre el link
que lo lleva hasta la página de dicho gen.
iii) En la página del gen existe una sección donde se detallan las variantes
relacionadas con la enfermedad. Encuentre la sección y seleccione “Table view” para
explorar estas variantes. Analice brevemente las mismas, ¿qué tipo de variantes
son? ¿Hay algún patrón en común?
iv) Identifique en la tabla la variante con el ID “rs75193786” ¿Tiene entrada en
ClinVar? De ser así, abra el link en una pestaña nueva del navegador.
6
Genómica y Medicina de Precisión Agosto 2019
Figura 9: (A) Entrada de fenilcetonuria en OMIM. (B) Acceso al gen relacionado (PAH) en OMIM.
C. Explore la entrada de ClinVar abierta en el último inciso del ejercicio anterior, y
complete la siguiente tabla:
Cromosoma y posición de la variante (GRCh38 y GRCh37)
Cambio de aminoácido
7
Genómica y Medicina de Precisión Agosto 2019
D. Recorra la entrada de ClinVar en búsqueda de las respuestas a las siguientes
preguntas:
i) ¿Cuál es la significancia clínica de la variante? ¿Qué significa la graduación en
cantidad de estrellas? Investigue el concepto de Estado de Revisión.
ii) ¿Cómo se soluciona la situación en la cual una misma variante tiene más de una
significancia clínica asignada?
iii) ¿Con qué condición se asocia la presencia de la variante? ¿Existen publicaciones
que respalden el reporte de la misma como asociada al fenotipo informado?
Otras páginas útiles: Genetics Home Reference https://ghr.nlm.nih.gov/
FindZebra http://www.findzebra.com/ Orphanet https://www.orpha.net/consor/cgi-bin/index.php
Tarea 3) UniProt
Uniprot (de Universal Protein) es una fuente integral de datos de secuencias proteicas y
anotaciones funcionales relacionadas a ellas. Las bases de datos que componen Uniprot
(figura 10) son UniprotKB (Uniprot Knowledgebase), UniRef (Uniprot Reference Cluster) y
Uniprot Archive (UniParc).
Link http://www.uniprot.org/
UniprotKB es el eje principal para la recolección de información funcional en proteínas, a
partir de un vasto número de anotaciones. A su vez, esta base de datos está dividida en dos
partes, según sus entradas hayan sido manualmente curadas (Swiss-Prot) o subidas de
manera automática (TrEMBL).
Por ejemplo, el proteoma de Homo Sapiens tiene 74.470 proteínas, donde
aproximadamente el 27% pertenece a Swiss-Prot y el 73% a TrEMBL. Mientras que las
primeras disponen de evidencia experimental, el segundo grupo tiene poca o ninguna
evidencia de que se expresen en el organismo.
UniParc es la recopilación de secuencias proteicas de todas las bases de datos más
conocidas y agrupadas bajo un ID único por proteína. Esto permite eliminar la redundancia
de secuencias debido a múltiples fuentes de datos. Allí también se guarda el “historial” de
las proteínas, es decir, como van cambiando sus anotaciones, secuencia o si son eliminadas
por nuevas entradas.
Por ejemplo, es muy común que:
* Se compruebe que 2 proteínas eran en realidad la misma y junten en un nuevo id
y los ids viejos pasen a ser ids alternativos;
8
Genómica y Medicina de Precisión Agosto 2019
* Se verifique que una proteína no se expresa en el organismo y la entrada se borre;
* Se determina que en realidad “una” proteína eran dos distintas, y la entrada se
borre y se generen 2 nuevas.
En todos los casos, en Uniparc se guarda todo. UniprotKB tiene la última versión.
Por último, Uniref agrupa las secuencias de UniprotKB en clusters según su porcentaje de
identidad de secuencia. Por ejemplo, P62258 está en humano, gallina y en otras especies,
comparten el 100% de la secuencia, pero en gallina tiene el id Q5ZMT0. Tanto P62258 como
Q5ZMT0 (y otras 14 proteínas de distintas especies) pertenecen al cluster
UniRef100_P62258.
Figura 10: Organización de Uniprot.
Ahora vamos a navegar por UniProt para analizar algunas proteínas humanas
A. Ingrese en los proteomas y busque el proteoma humano (figura 11):
i. ¿Resulta lo mismo buscar “human” que buscar “homo sapiens”?
Figura 11: Parte superior de la web de Uniprot. Sección de búsquedas.
ii. En el proteoma seleccionado se pueden ver todos los cromosomas y la
cantidad de proteínas asociadas a cada uno. También se pueden descargar
9
Genómica y Medicina de Precisión Agosto 2019
todas en distintos formatos o visualizarlas desde “View all proteins”. Haga
click sobre ese botón.
La cantidad de proteínas observadas parece muy grande, ¿no?. Cada entrada considera
solo una isoforma, por lo que la aparente gran cantidad de proteínas no se debe solamente a
las variantes de splicing y variantes naturales. Una sola proteína puede contener varias
isoformas y cada una de ellas se encuentra como una entrada separada. Lo más probable es
que esto se deba a consideraciones con las que Uniprot determina cuándo 2 entradas son las
mismas (criterio de redundancia), que luego se van corrigiendo con el tiempo.
Ahora analizaremos entradas de Uniprot buscando sobre UniprotKB.
B. Realice una nueva búsqueda sobre UniprotKB para la palabra “phenylketonuria”:
i. Filtre por humano y Swiss-Prot (antes de filtrar por Swiss-Prot, vea cuántas
entradas distintas hay para el gen PAH).
ii. Utilice el filtro de la izquierda “disease”, éste filtrará aún más la búsqueda.
Las proteínas que quedan son aquellas que tienen variantes directamente
asociadas al trastorno. Verá que en este caso, por ejemplo, desaparece la
entrada Q03393, ¿por qué piensa que la misma es descartada?.
iii. Ingrese a la entrada correspondiente a PAH. ¿Cuál es la función de la proteína
codificada por PAH, la fenilalanin hidroxilasa humana? ¿En qué camino
metabólico (pathway) está involucrada?
iv. En la sección Sequence, ¿pueden identificar una única variante causante de
fenilcetonuria?
v. ¿Hay registradas modificaciones postraduccionales? ¿de qué tipo? ¿sobre
qué aminoácidos?
vi. Vaya a la sección Structure (figura 12) y de ahí a la subsección “3D structure
databases”.
10
Genómica y Medicina de Precisión Agosto 2019
Figura 12: Sección “Structure”. Brinda información sobre la disponibilidad de estructuras obtenidas de la
proteína codificada por el gen PAH.
1. ¿Hay estructuras disponibles? ¿Se observa una buena cobertura horizontal
de la secuencia de la PAH en las estructuras disponibles? ¿Por qué es
importante esto?
2. Para analizar la estructura, clickee sobre el primer código PDB (por Protein
Data Bank) de cuatro dígitos (1dmw), asociado a una estructura
cristalográfica de la proteína codificada por el gen PAH. En este punto, ya
estamos interactuando con otra base de datos: Protein Data Bank in
Europe (PDBe).
2. Para analizar la estructura, entrando por Feature viewer se accede a una pestaña que
permite visualizar características como dominios, estructuras secundarias, registros de
casos, etc. En la parte inferior, a la izquierda se puede visualizar la estructura de PDB (por
Protein Data Bank) identificado en el título, y a la derecha se puede seleccionar las
estructuras disponibles para visualizar. Cada estructura posee un link que lleva a su fuente
en Protein Data Bank in Europe (PDBe).
Link https://www.ebi.ac.uk/pdbe/
Figura 13: Entrada para el código 1dmw, correspondiente a una estructura cristalográfica de la fenilalanin
hidroxilasa humana.
C. Inspeccione la información brindada para la estructura bajo el código 1dmw: i. Haga click sobre alguna de las figuras de la proteína. Podrá ver la estructura
desde distintas vistas y, además, observará algunas con ligandos / metales resaltados. Con esta información, ¿puede determinar si el sitio de reconocimiento del ligando se encuentra sobre la superficie de la proteína o bien en su interior?
11
Genómica y Medicina de Precisión Agosto 2019
ii. Los metales, de estar presentes, suelen jugar un rol muy importante en la función de una proteína, por lo que su identificación dentro de la estructura es una primera incursión hacia un estudio estructural / funcional. El sitio catalítico, ¿se coordina con algún metal? En caso afirmativo, ¿dónde se encuentra?
iii. A su derecha, en Quick links, clickee en “3D visualization”. Se cargará un visualizador interactivo. Espere a que cargue todos los componentes (se lo va informando en la esquina inferior izquierda).
Otras páginas útiles: NextProt https://www.nextprot.org/
GTEx Portal https://www.gtexportal.org/home/
12
Genómica y Medicina de Precisión Agosto 2019
Visualizador Interactivo (para hacer en casa)
Esta herramienta embebida en este sitio web le permite ir moviendo la proteína y verla
desde distintos ángulos (figura 14). Pruebe posicionarse sobre la estructura terciaria y
verá cómo va identificando a cada aminoácido que allí se encuentra, señalándolo con
amarillo y etiquetándolo en la región izquierda superior.
Figura 14: Visor interactivo de la estructura cristalográfica de la fenilalanin hidroxilasa
humana, código de PDB 1dmw.
Intente ahora clickear sobre un
aminoácido determinado, o sobre otra
partícula que desee. Si clickea sobre alguna
zona de la proteína muy cercana al ligando,
por ejemplo, inmediatamente el
visualizador hará zoom sobre esa región y
le mostrará los aminoácidos más cercanos
a esa zona, es decir, aquellos que pueden
estar interactuando con el ligando
mediante distintos tipos de interacciones
químicas.
13
Genómica y Medicina de Precisión Agosto 2019
Tarea 4) GWAS catalog
Como la clase teórica de GWAS la tendrán más adelante, haremos por aquí sólo un recorrido
breve.
El acrónimo GWAS hace referencia a Genome-Wide Association Studies, estudios a nivel de
genomas completos, y busca determinar asociaciones entre secuencias de ADN y rasgos
fenotípicos. En estos estudios, se analizan dos grupos de individuos, “casos” (aquellos que
presentan una cierta enfermedad o característica) y “control” (aquellos sanos) y se analiza la
proporción de en que se presentan los alelos alternativos (ALT) y de referencia (REF) en cada
grupo. Es posible que alguno de los dos grupos esté enriqueciendo significativamente a
algún alelo en ciertos SNPs, y se asume que existe una correlación entre la presencia de
dicho alelo y la presencia o ausencia de la enfermedad.
Abajo mostramos una tabla de contingencia hipotética:
Casos Control
Alelo ALT 400 200
Alelo REF 100 800
A través de esta tabla se puede realizar una prueba de Χ2 (CHI cuadrado) para determinar si
estas diferencias se deben al azar o son significativas (donde el valor p es menor a un umbral
determinado). Este análisis puede realizarse para todos los distintos SNPs en el genoma
humano, obteniéndose un gráfico como el de la figura 15 (conocido como Manhattan plot).
Figura 15: Distribución de valores p para distintos SNPs a lo largo del genoma humano relacionados a
un ensayo GWAS.
14
Genómica y Medicina de Precisión Agosto 2019
Como pueden observar, existen variantes en ciertos cromosomas con un valor p muy bajo
(valores -log10(p) altos) (¿por qué?) lo que implica que existe una asociación fuertemente
significativa entre el locus y el carácter/condición analizada.
Para estos SNPs significativos se puede calcular un “Odds ratio (OR)”, también conocido
como “cociente de chances” o “razón de momios”, en español. Se define como “chance”, a
un cálculo de la probabilidad de un evento determinado a partir de frecuencias observadas.
Así el cociente de chances queda definido como:
R O = Casos Alt / Controles AltCasos Ref / Controles Ref Si esta razón es igual a 1 implica que no existe relación entre el alelo alternativo (ALT) y la
presencia de la enfermedad. Si es mayor a 1, el ALT estaría relacionado a una mayor
incidencia de la enfermedad. Por último, si es menor a 1, el riesgo mayor estaría dado por el
alelo de referencia (REF). Existe una base de datos que recopila este tipo de información y la
almacena de forma ordenada y accesible, denominada GWAS catalog.
Link http://www.ebi.ac.uk/gwas
A. Ingrese a GWAS catalog, luego vaya primero a la lista de características (traits) que
están descritas en el mismo (si no encuentra el acceso siga este link:
http://www.ebi.ac.uk/gwas/search/traits). Ahí podrá encontrar todos los traits para
los que se ha realizado un GWAS. Como verá los traits pueden ser enfermedades
como “Alzheimer” y “Coronary heart disease” o características muy generales como
“Aging” ó “Coffee consumption”. ¿Por qué se pueden realizar estudios GWAS de
cosas tan diversas?
B. Seleccione la opción de “Alzheimer’s disease” y clickee “Search for traits” ó escriba
“Alzheimer disease” en la barra superior. Vaya a la sección “Associations”. ¿Puede
reconocer los parámetros explicados en la introducción (OR, p-value)? ¿Que otra
información provee GWAS Catalog?
C. Busque el SNP rs1333049.
i) ¿Con qué enfermedad está relacionado la variante?
ii) ¿Cuál es su OR? ¿cómo se interpreta ese valor?
iii) Observe el valor de la frecuencia del alelo en la población sana (RAF). ¿Es un
polimorfismo o una variante rara? ¿Encuentra algún correlato entre la frecuencia de
este alelo y la incidencia de esta enfermedad en el mundo?
15
Genómica y Medicina de Precisión Agosto 2019
Tarea 5) PharmGKB
Al igual que para GWAScat, para PharmGKB haremos solo un recorrido breve, ya que la clase
será más adelante.
PharmGKB es un proyecto que recopila y organiza información clínica relacionada con la
farmacogenómica, incluyendo guías de dosaje y asociaciones gen-droga con potencial
relevancia clínica y relaciones genotipo-fenotipo. PharmGKB recopila, cura y publica
información acerca de las variaciones genéticas humanas asociadas a la respuesta de
drogas.
Link www.pharmgkb.org
A. Ingrese en Pharmgkb y busque en la base de datos “hypercholesterolemia”.
Dentro de los resultados que le devuelve la búsqueda:
i) Seleccione, por ejemplo, el rs4149056, el cual, entre las drogas asociadas tiene a
“simvastatin”. Busque, haciendo Ctrl+F, la droga “simvastatin”. ¿Qué información
puede encontrar entre la droga y genotipos posibles en un paciente? ¿Cuán
relevante considera este tipo de información brindada?
ii) ¿Qué tipo de efecto tiene la variante sobre la droga (“Type”)? ¿Con qué nivel de
evidencia se observa esta relación? Investigue la clasificación para los niveles de
evidencia.
iii) ¿Existen otras entradas relacionadas a la misma variante? ¿Todas las entradas
corresponden al mismo cuadro clínico?
iv) ¿Reconoce el gen afectado por la variante? ¿cuál es el resultado funcional de
dicha variante?
D. La FDA (Food and Drug Administration) posee una lista con aquellas drogas usadas
como biomarcadores de farmacogenómica. Así, las drogas pueden tener información
de dosaje, efectividad, mecanismos de acción, etc. que sean dependientes o estén
relacionadas a un cierto genotipo.
Link http://www.fda.gov/drugs/scienceresearch/researchareas/pharmacogenetics/ucm083378.htm
i) Abra el link de FDA y busque en la lista la droga “dolutegravir”. ¿Cuál es el gen cuyo
producto es el blanco de dicha droga? ¿En qué secciones del prospecto (Labelling
Section) se encuentra la información de farmacogenómica?
16
Genómica y Medicina de Precisión Agosto 2019
ii) Ingrese nuevamente en PharmGKB y busque “Annotation of FDA Label for
dolutegravir and UGT1A1”. Se abrirá una nueva página. ¿Puede encontrar alguna
información que relacione la efectividad de la droga con aspectos genéticos?
iii) En esta página usted podrá encontrar un link (dolutegravir drug label) de descarga
del prospecto de la droga (en formato pdf), con la secciones que tienen anotaciones
sobre farmacogenómica resaltadas. ¿Puede encontrar una región resaltada en
naranja que tenga información acerca de en qué población es más efectiva la droga?
E. PharmGKB permite también acceder a anotaciones clínicas, que de otra forma son
inaccesibles (para poder visualizarlas tienen que registrarse, pero la página solicita
datos que acrediten que pertenecen a una entidad académica / clínica y la
autorización a veces lleva un tiempo). Para poder realizar este ejercicio, a
continuación le suministramos una captura de pantalla para la variante rs1800497. i) Observe detenidamente la información suministrada para cada caso. Ver figura 16.
ii) ¿Considera estos datos importantes a la hora de recetar un fármaco?
iii) Describa brevemente la interacción de la variante con ambas drogas. Tenga en
cuenta el tipo de interacción, la evidencia, los genotipos, si alguna raza en particular
se ve afectada, etc.
NOTA: Si bien se considera que no existen razas en la especie humana, muchos sitios utilizan
este término como sinónimo a grupo étnico o población en la que se realizó el estudio.
Nosotros no adherimos a esta terminología, pero lo incluimos de esta forma para evitar
confusiones. iv) ¿Le llama la atención que una variante afecte a dos genes distintos? Busque dicha
variante en Ensembl y localícela en el genoma con el visor integral (figura 17).
¿Puede concluir algo al respecto?
17
Genómica y Medicina de Precisión Agosto 2019
Figura 16: Anotaciones clínicas detalladas para la variante rs1800497.
18
Genómica y Medicina de Precisión Agosto 2019
Figura 17: Localización de la variante rs1800497 y su entorno génico cercano.
19