curs einesbioinformatiques juny2011_bloc1_sessio3
TRANSCRIPT
![Page 1: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/1.jpg)
Curs de Formació UEB
Eines bioinformàtiques per a la investigació biomèdica
1r bloc: Introducció a la Bioinformàtica i les bases de dades
3ª sessió: Aplicacions guiades: Blast. Genome Browsers.
Ferran Briansó (tècnic UEB)[email protected]
https://ueb.ir.vhebron.net
Vall d'Hebron Institut de Recerca 21/06/2011
![Page 2: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/2.jpg)
Sesión 3 – Índice de contenidos
Vall d'Hebron Institut de Recerca 21/06/2011
BLAST- Motivación: predicción funcional- Similaridad vs Homología- Alineamiento por parejas
– Sistemas de puntuación– Sistemas de puntuación para proteínas– Matrices de substitución (PAM, BLOSUM)
- BLAST (Alineamiento contra BD)– Blast en NCBI– ¿Cómo funciona?– Parámetros, criterios, Bit-scores, E-values– ¿Dónde cortar?– ¿Existe homología?
GENOME BROWSERS- Ensembl- NCBI Map Viewer- UCSC- VEGA
![Page 3: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/3.jpg)
Vall d'Hebron Institut de Recerca 21/06/2011
BLASTBúsqueda de homologías
![Page 4: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/4.jpg)
Predicción funcional de una proteína/gen
Vall d'Hebron Institut de Recerca 21/06/2011
- Secuencia problema:Queremos averiguar sus posibles propiedades.
- La evolución es un proceso conservativoCambian los residuos en una secuencia pero se conservan
las propiedades bioquímicas y los procesos fisiológicos
- Si somos capaces de encontrar secuencias homólogas a la secuencia problema podemos inferir que ésta “debe de tener” propiedades similares a las de la secuencia conocida.
- La búsqueda (el hallazgo, de hecho) de secuencias homólogas puede ser una vía para predecir la función de una proteína o un gen.
![Page 5: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/5.jpg)
Similaridad vs Homología
Vall d'Hebron Institut de Recerca 21/06/2011
- Homología:
- Descendencia de un ancestro común
- Medida cualitativa: dos secuencias son homólogas o
no lo son
- Similaridad
- Medida cuantitativa para determinar el grado de
relación entre dos secuencias
- Podemos usar una medida de similaridad para inferir
homología
![Page 6: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/6.jpg)
Sistemas de puntuación
Vall d'Hebron Institut de Recerca 21/06/2011
- Queremos medir el grado de similaridad de dos secuencias
- Es necesario definir un criterio(sistema de puntuación) que evalue esta similaridad
Ejemplo:- Match=1- Mismatch=0
S= A T G C A G TT= A T A A G T
![Page 7: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/7.jpg)
Sistemas de puntuación
Vall d'Hebron Institut de Recerca 21/06/2011
- El alineamiento de las secuencias puede aumentar la puntuación:
S= A T G C A G TT= A T A A G Tp(s,t) 1 1 0 0 0 0 Σ = 2
S= A T G C A G TT= A T A A ▬ G Tp(s,t) 1 1 0 0 -1 1 1 Σ = 3
S= A T G C A G TT= A T ▬ A A G T
- Match=1- Mismatch=0- Gap=-1
![Page 8: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/8.jpg)
Sistemas de puntuación
Vall d'Hebron Institut de Recerca 21/06/2011
S= A T G C A G TT= A T A A G Tp(s,t) 1 1 -1 -1 -1 -1 Σ= -2
S= A T G C A G TT= A T A A ▬ G Tp(s,t) 1 1 -1 -1 -5 1 1 Σ= -3
S= A T G C A G TT= A T ▬ A A G Tp(s,t) 1 1 -5 -1 1 1 1 Σ= -1
- Match=1- Mismatch=-1- Gap Open=-3- Gap Ext.=-2
![Page 9: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/9.jpg)
Sistemas de puntuación para proteínas
Vall d'Hebron Institut de Recerca 21/06/2011
- Match=1- Mismatch=0- Gap=-1
S= T T Y G A P P W C ST= − T G Y A P P P W Sp(s,t) -1 1 0 0 1 1 1 0 0 1 Σ= 4
S= T T Y G A P P W C ST= T G Y A P P P W S −
![Page 10: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/10.jpg)
Sistemas de puntuación para proteínas
Vall d'Hebron Institut de Recerca 21/06/2011
Los AA tienen distintas propiedades posibilidades distintas de ser sustituidos unos por otros en la evolucion
CP
GGAVI
L
MF
Y
W HK
RE Q
DN
S
T
CSH
S+S
positive
chargedpolar
aliphatic
aromatic
small
tiny
hydrophobic
![Page 11: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/11.jpg)
Matrices de substitución
Vall d'Hebron Institut de Recerca 21/06/2011
A 4 R -1 5 N -2 0 6 D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y V
Pairwise alignment scoresare determined using a scoring matrix such asBlosum62
![Page 12: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/12.jpg)
Matrices de substitución
Vall d'Hebron Institut de Recerca 21/06/2011
BLOSUM62
S= T T Y G A P P W C ST= − T G Y A P P P W Sp(s,t) -1 5 -3 -3 4 7 7 -4 -2 4 Σ= 14
S= T T Y G A P P W C ST= T G Y A P P P W − S
![Page 13: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/13.jpg)
Matrices de substitución
Vall d'Hebron Institut de Recerca 21/06/2011
- No hay una matriz única que se pueda usar siempre
- Según la familia de proteínas y el grado de similitud esperado se usará una u otra
- Las más utilizadas PAM y BLOSUM- PAM: Percent Accepted Mutation Matrix
- Derivadas de alineamientos globales de secuencias próximas- PAM40 PAM250. A mayor nº, mayor distancia evolutiva
- BLOSUM: BLOcks of amino acid SUbstitution Matrix- Derivadas de alineamientos locales de secuencias distantes- BLOSUM90 BLOSUM45 El nº representa porcentaje de
identidad
![Page 14: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/14.jpg)
Matrices de substitución
Vall d'Hebron Institut de Recerca 21/06/2011
- Generalmente, la matrices BLOSUM funcionan mejor que las PAM para búsquedas de similaridad local(Henikoff & Henikoff, 1993).
- Cuando comparamos proteinas cercanas deberíamos usar matrices PAM mas bajas o BLOSUM mas altas, mientras que para proteinas distantes sería mas conveniente el uso de matrices PAM mas altas o BLOSUM mas bajas.
- Para búsquedas en BBDD sin información previa es bastante comun el uso de una BLOSUM62.
![Page 15: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/15.jpg)
Alineamiento contra BD
Vall d'Hebron Institut de Recerca 21/06/2011
Supongamos que buscamos secuencias homólogas a nuestra secuencia problema.
- Una estrategia posible es hacer alineamientos contra una base de datos de secuencias.
- El algoritmo de Smith-Waterman obtiene un alineamiento local óptimo, dado un sistema de puntuacion dado
- Demasiado lento para buscar contra una BBDD
![Page 16: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/16.jpg)
Alineamiento vs BD
Vall d'Hebron Institut de Recerca 21/06/2011
- El algoritmo BLAST(Basic Local Alignment Search Tool) permite un rápida comparación(alineamiento) de una secuencia problema contra una BBDD
- Es rápido y preciso (ademas, accesible via web)
- Algoritmo heurístico: puede obviar alineamientos óptimos
![Page 17: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/17.jpg)
Blast en NCBI
Vall d'Hebron Institut de Recerca 21/06/2011
![Page 18: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/18.jpg)
Blast en NCBI
Vall d'Hebron Institut de Recerca 21/06/2011
![Page 19: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/19.jpg)
Ejemplo
Vall d'Hebron Institut de Recerca 21/06/2011
![Page 20: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/20.jpg)
Ejemplo
Vall d'Hebron Institut de Recerca 21/06/2011
![Page 21: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/21.jpg)
¿Cómo funciona Blast?
Vall d'Hebron Institut de Recerca 21/06/2011
- Fase 1: compilar una lista de palabras (w=3) con score por encima de un threshold T (high-scoring segment pairs (HSPs))
- Ejemplo: búsqueda para “human RBP”…FSGTWYA…
Lista de palabras (w=3):FSG SGT GTW TWY WYAYSG TGT ATW SWY WFAFTG SVT GSW TWF WYS
![Page 22: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/22.jpg)
¿Cómo funciona Blast?
Vall d'Hebron Institut de Recerca 21/06/2011
Fase 2:
- Escaneo de la base de datos para buscar entradas que coincidan con la lista compilada.
- Esto es relativamente rápido y fácil.
![Page 23: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/23.jpg)
¿Cómo funciona Blast?
Vall d'Hebron Institut de Recerca 21/06/2011
- Fase 3: cuando encontramos un hit
(es decir, una coincidencia entre una palabra y una entrada de la BBDD), extender el hit en ambas direcciones.
- Calcular los “scores” a cada paso (usando la matriz de substitución)
- Parar cuando la puntuación cae por debajo de cierto “cutoff”.
KENFDKARFSGTWYAMAKKDPEG RBP (query)
MKGLDIQKVAGTWYSLAMAASD lactoglobulin (hit)
Hit!extender extender
![Page 24: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/24.jpg)
Parámetros del algoritmo
Vall d'Hebron Institut de Recerca 21/06/2011
![Page 25: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/25.jpg)
Criterios de selección
Vall d'Hebron Institut de Recerca 21/06/2011
![Page 26: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/26.jpg)
Bit-scores
Vall d'Hebron Institut de Recerca 21/06/2011
- El valor de la puntuaciones obtenidas por un emparejamiento carecen de sentido si no se tiene en cuenta el tamaño de la base de datos y el sistema de puntuación
- Los Bit-scores normalizan las puntuaciones para independizarlas de ambos factores de forma que podamos compararlas
![Page 27: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/27.jpg)
E-values
Vall d'Hebron Institut de Recerca 21/06/2011
- Dada una secuencia que ha obtenido una puntuacion E-value es el número esperado de puntuaciones iguales o superiores a las de dicha secuencia atribuibles al azar.
- Un E-value de 10 para una coincidencia significa, que, en una base de datos de secuencias aleatorias del mismo tamaño en la que se ha realizado la búsqueda, se podría esperar encontrar hasta 10 coincidencias con la misma puntuación o similar.
- El E-value es la medida de corte más utilizada en las búsquedas en bases de datos. Sólo se informa de las coincidencias que superan un nivel mínimo
- El E-value oscila entre 0 y cualquier valor
E = Kmn e-λS
![Page 28: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/28.jpg)
¿Dónde cortar?
Vall d'Hebron Institut de Recerca 21/06/2011
- Valores bajos de E se pueden interpretar como un p-valor (probabilidad de encontrar por azar una secuencia con la misma puntuación o superior)
- Si queremos seguridad de que las seqs. que encontramos son realmente homologas (mas especificidad), tomaremos valores de corte pequeños (E=0.05, 0.1 + Bit scores altos + Alto porcentaje de identidad)
- Si, en cambio, nos interesa explorar y priorizamos no perder información por delante de la seguridad (mas sensibilidad), podemos relajar el punto de corte (E=1, 10 + Bit scores normales + Alto porcentaje de identidad)
![Page 29: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/29.jpg)
¿Existe homología?
Vall d'Hebron Institut de Recerca 21/06/2011
>gb|AAA60147.1| placental protein 14 [Homo sapiens]Length=162 Score = 33.9 bits (76), Expect = 0.34 Identities = 24/107 (22%), Positives = 46/107 (42%), Gaps = 11/107 (10%) Query 28 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 86 + K++ + + +GTW++MA + L + A V T + +L+ W+ Sbjct 5 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN 63Query 87 -VCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTY 132 C + T +P KFK+ Y ++ ++DTDYD +Sbjct 64 NSCVEKKVLGEKTGNPKKFKINYTVA--------NEATLLDTDYDNF 102
- RBP4 y PAEP:Bit-score bajo, E-value 0.34, 22% identidad (“zona gris”).
- Pero son, en efecto, homólogas. Se puede comprovar con una búsqueda BLAST con PAEP como secuencia “query”, y se encuentran muchas lipocalinas.
![Page 30: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/30.jpg)
Vall d'Hebron Institut de Recerca 21/06/2011
Genome browsers
![Page 31: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/31.jpg)
Sesión 3 – Índice de contenidos
Vall d'Hebron Institut de Recerca 21/06/2011
BLAST- Motivación: predicción funcional- Similaridad vs Homología- Alineamiento por parejas
– Sistemas de puntuación– Sistemas de puntuación para proteínas– Matrices de substitución (PAM, BLOSUM)
- BLAST (Alineamiento contra BD)– Blast en NCBI– ¿Cómo funciona?– Parámetros, criterios, Bit-scores, E-values– ¿Dónde cortar?– ¿Existe homología?
GENOME BROWSERS- Ensembl- NCBI Map Viewer- UCSC- VEGA
![Page 32: Curs einesbioinformatiques juny2011_bloc1_sessio3](https://reader033.vdocuments.mx/reader033/viewer/2022052909/55978afc1a28ab735a8b47c1/html5/thumbnails/32.jpg)
Genome Browsers
Vall d'Hebron Institut de Recerca 21/06/2011
Ensembl http://www.ensembl.org
NCBI Map Viewerhttp://www.ncbi.nlm.nih.gov/projects/mapview
UCSC Genome Browserhttp://genome.ucsc.edu/
VEGA Genome Browserhttp://vega.sanger.ac.uk