ejemplos de problemas biológicos que pueden ser resueltos mediante un enfoque bioinformático
TRANSCRIPT
Ejemplos de problemas Ejemplos de problemas Biológicos que pueden ser Biológicos que pueden ser
resueltos mediante un resueltos mediante un enfoque Bioinformáticoenfoque Bioinformático
Conceptos básicosConceptos básicos
Homología y otras relaciones evolutivas Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos)(paralógos, ortólogos, xenólogos)
Uso preferencial de codones, CAI y Uso preferencial de codones, CAI y expresividadexpresividad
Microarreglos y aproximaciones Microarreglos y aproximaciones estadísticas para su análisisestadísticas para su análisis
Descripción de programas existentesDescripción de programas existentes
BLAST (Comparación apareada de BLAST (Comparación apareada de secuencias)secuencias)
MEME/MAST (Identificación de motivos MEME/MAST (Identificación de motivos sobre-representados)sobre-representados)
Planteamiento de problemas para resolverPlanteamiento de problemas para resolver
1.1. Grupo mínimo de genes para la vidaGrupo mínimo de genes para la vida2.2. Predicción de operones bacterianosPredicción de operones bacterianos3.3. Expresividad en unidades Expresividad en unidades
transcripcionalestranscripcionales4.4. Conservación de expresividad entre Conservación de expresividad entre
organismosorganismos5.5. Identificación de genes transferidos Identificación de genes transferidos
horizontalmente horizontalmente H. pyloriH. pylori6.6. Regulación por glucosa en Regulación por glucosa en E. coliE. coli y y B. B.
subtilissubtilis
Predicción de operones bacterianosPredicción de operones bacterianos
En organismos bacterianos, genes funcionalmente relacionados, ya sea porque participan en una misma vía metabolica o en el mismo proceso celular, son transcritos en una misma unidad transcripcional (operon).
El operón de lactosa de Escherichia coli, es uno de los primeros operones descritos para explicar la regulación coordinada de un conjunto de genes.
Predicción de operones bacterianosPredicción de operones bacterianos
Los métodos más comúnmente utilizados para predecir operones se basan en:
Dirección de la transcripción
de los genes
Distancias intergénicas.
Otros parámetros importantes en la Otros parámetros importantes en la predicción de operones bacterianos son:predicción de operones bacterianos son:
1.1. Relación funcional de los genesRelación funcional de los genes
2.2. Co-ocurrencia de genes en genomasCo-ocurrencia de genes en genomas
3.3. Vecindad genómicaVecindad genómica
4.4. Co-expresividad Co-expresividad
The STRING databasehttp://string.embl.de/
Fusión de genesFusión de genes y predicción de operones y predicción de operones
Vecindad genómicaVecindad genómica y predicción de y predicción de operonesoperones
Co-ocurrencia de genesCo-ocurrencia de genes proteicosproteicos y y predicción de operonespredicción de operones
Conocimiento publicadoConocimiento publicado y predicción y predicción de operonesde operones
Datos de complejos proteicosDatos de complejos proteicos y y predicción de operonespredicción de operones
T
Coeficientes de interacciónCoeficientes de interacción
von Mering et al., Nucleic Acids Research, 2005
COG0147Anthranilate/para-aminobenzoate synthases component IAnthranilate/para-aminobenzoate synthases component I
Saccharomyces cerevisiaeSaccharomyces cerevisiae exosome complex exosome complex
Coeficientes de interacciónCoeficientes de interacción COG.links.v7.1.txtCOG.links.v7.1.txt
COG0001 COG0002 296 COG0001 COG0006 217 COG0001 COG0007 770 COG0001 COG0008 168 COG0001 COG0009 168 COG0001 COG0012 168 COG0001 COG0013 168 COG0001 COG0014 209 COG0001 COG0016 168 COG0001 COG0017 173 COG0001 COG0020 317 COG0001 COG0026 175 COG0001 COG0028 278 COG0001 COG0029 165 COG0001 COG0035 173 COG0001 COG0037 217 COG0001 COG0038 524
Identificación de ortólogos medianteIdentificación de ortólogos mediante el mejor hit bidireccional BDBH el mejor hit bidireccional BDBH
dnaAdnaNyaaAyaaBgyrByaaCguaBdacAyaaDyaaE..yaaK
Bsu0001Bsu0002Bsu0003Bsu0004Bsu0005Bsu0006Bsu0007Bsu0008Bsu0009Bsu0010..BsuNNNN
OrganismoAOrganismoA OrganismoBOrganismoB
dnaAdnaNyaaAyaaBgyrByaaCguaBdacAyaaDyaaE..yaaK
Bsu0001Bsu0002Bsu0003Bsu0004Bsu0005Bsu0006Bsu0007Bsu0008Bsu0009Bsu0010..BsuNNNN
OrganismoAOrganismoA OrganismoBOrganismoB
dnaAdnaNyaaAyaaBgyrByaaCguaBdacAyaaDyaaE..yaaK
Bsu0001Bsu0002Bsu0003Bsu0004Bsu0005Bsu0006Bsu0007Bsu0008Bsu0009Bsu0010..BsuNNNN
OrganismoAOrganismoA OrganismoBOrganismoB
Para evitar que el hit solamente sea entre dominios de las proteínas, se puede introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50% de la secuencia de menor tamaño.
COGs. Cluster of Orthologous COGs. Cluster of Orthologous Groups of ProteinsGroups of Proteins
SCIENCE. VOL. 278: 631-637
COGs. Cluster of Orthologous Groups COGs. Cluster of Orthologous Groups of Proteinsof Proteins
No hay líneaporque son parálogos
Bacterias Gram-negativa: Escherichia coli y Haemophilus influenzae
Bacterias Gram-positiva: Mycoplasma genitalium y M. pneumoniae
Cianobacteria: Synechocystis sp.
Aequeobacteria (Euryarchaeota): Methanocous jannaschii
Eucariota (hongos):Saccharomyces cerevisiae
CDS337..2799F16127996thrAB0002protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtKECOG0460,COG0527-- KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088- enzyme; Amino acid biosynthesis: Threoninefused aspartokinase I and homoserine dehydrogenase I --
0123456789101112131415161718
GenePositionStrandGICommonb_numberdb_refsCategoryCOGKategoryKOGKEGGGO1GO2GO3FunctionProductsp_idsp_ac
Archivo de datos SUPERLISTSUPERLIST
Lectura del primer registro del archivo SUPERLISTSUPERLIST
Predicción de operones bacterianosPredicción de operones bacterianos
Proceso cíclico de lectura y análisis de los demás registros
del archivo SUPERLISTSUPERLIST
Lectura de datos COG.linksCOG.links
Para cada renglon del archivoCOG.links
Subrutina de lectura de datos COG.linksSubrutina de lectura de datos COG.links
campos <- split(registro de archivo)
indice_COGs {COG1} {COG2} <- indice
COG1 <- campo 0
indice <- campo 2
COG2 <- campo 1
¿Es indice > 500?
SI
CDS337..2799F16127996thrAB0002protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtKECOG0460,COG0527-- KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088- enzyme; Amino acid biosynthesis: Threoninefused aspartokinase I and homoserine dehydrogenase I --
0123456789101112131415161718
GenePositionStrandGICommonb_numberdb_refsCategoryCOGKategoryKOGKEGGGO1GO2GO3FunctionProductsp_idsp_ac
Archivo de datos SUPERLISTSUPERLIST
Subrutina Distancias intergenicasSubrutina Distancias intergenicas
# gene position strand GI commonCDS 190..255 F 16127995 thrLCDS 337..2799 F 16127996 thrACDS 2801..3733 F 16127997 thrBCDS 3734..5020 F 16127998 thrCCDS 5234..5530 F 16127999 yaaXCDS 5683..6459 R 16128000 yaaACDS 6529..7959 R 16128001 yaaJCDS 8238..9191 F 16128002 talBCDS 9306..9893 F 16128003 mogCDS 9928..10494 R 16128004 yaaHCDS 10643..11356 R 16128005 yaaW
yaaX yaaA yaaJ yaaH yaaWthrCthrBthrAthrL mogtalB
190
255
337 2799
2801 3733
3734 5020
Distancia intergenica337-255=82 pb
337
Subrutina de lectura de datos SUPERLISTSubrutina de lectura de datos SUPERLIST
campos <- split(registro de archivo)
cog{gi} <- campo 9
gi <- campo 3
strand{gi} <- campo 2
gene{gi} <- campo 4
(inicio{gi},final{gi}) <- split(campo 2)
gi_anterior <- gi
Lectura del primer registro
(condición borde inicial)
Proceso cíclico de lectura y
análisis de los demás registros
Para cada renglon del archivo S
UP
ER
LIST
Subrutina de lectura de datos SUPERLISTSubrutina de lectura de datos SUPERLISTcampos <- split(registro de archivo)
cog{gi} <- campo 9
gi <- campo 3
strand{gi} <- campo 2
gene{gi} <- campo 4
(inicio{gi},final{gi}) <- split(campo 2)
dist_inter{gi} <-inicio{gi} - final{gi_anterior}
indice_string{gi} <-indice {COG{ gi}} {COG{gi_anterior}}
strand{gi} eq strand{gi_anterior}
indice_string{gi} > 500 oror dist_inter{gi} < 100
gi and gi_anterior pertenecen al mismo operon
SI
gi_anterior <- gi
Predicción de operones bacterianosPredicción de operones bacterianoshttp://www.microbesonline.org/operons/OperonList.html
G_1 G_2 Bnum1 Bnum2 Ge1 Ge2 Bop pOp 14146 14147 b0001 b0002 thrL thrA FALSE 0.115 14147 14148 b0002 b0003 thrA thrB TRUE 0.998
14148 14149 b0003 b0004 thrB thrC TRUE 0.999 14149 14150 b0004 b0005 thrC yaaX FALSE 0.088 14151 14152 b0006 b0007 yaaA yaaJ TRUE 0.675 14153 14154 b0008 b0009 talB mog FALSE 0.31 14155 14156 b0010 b0011 yaaH yaaW FALSE 0.309 14159 14160 b0014 b0015 dnaK dnaJ TRUE 0.989 14160 14161 b0015 b0016 dnaJ insL-1 FALSE 0.139
Comparar resultados con las predicciones depositadas en archivo PREDICCION_OPERONES.zip
¿ Qué porcentaje de las predicciones coinciden? ¿Qué características tienen las predicciones incorrectas ?
CAI and the most biased genes
Zinovyev Andrei
Institut des Hautes Études Scientifiques
El código genético estándar exhibe redundanciaEl código genético estándar exhibe redundancia
Esta flexibilidad en el nivel de DNA de la codificación no es utilizada aleatoriamente por todos los genes de todos los genomas.
Los patrones del uso de codones varían extensamente en y entre la especie
El uso preferencial de codones de un gene correlaciona con los niveles con los cuales éste se traduce a la proteína
El uso preferencial de codones también de un gene también está ligado a la exactitud del proceso de traducción
Uso Preferencial de Codones en Uso Preferencial de Codones en E. coliE. coli
Overall codon usage Highly expressed genes
Diferent tipos de codon biasDiferent tipos de codon bias
Traduccional (principalmente en fast-growing bacteria)
Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos
Influencia de la cadena codificante (leading o lagging)
Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos
Relación de CAI y traducibilidad
Diferent tipos de codon biasDiferent tipos de codon bias
Traduccional (principalmente en fast-growing bacteria)
Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos
Influencia de la cadena codificante (leading o lagging)
Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos
Relación de CAI y el contenido de GC en la tercera posición del codon
Estudio cuantitativo del Uso Preferencial de Codones
Podemos describir cada gene por la frecuencia de sus codones – vector with 64 componentes (59 son interesting por ser codificantes)
PCA (Principal Component Analysis) y CA (Correspondence Analysis) son las técnicas más comúnmente empleadas para estudiar el uso de codones
Cada gene es representado por un punto. Los puntos. Genes con un uso similar de codones son agrupados
Patrones del Uso Preferencial de Codones en bacterias de rápido crecimiento
IV
II
I
III
Genes of class I(most of)
Genes of class II(higly expressed)
Genes of class III(unusual)
Genes of class IV(hydrophobic)
Ejemplo del UPC en un bacteriano de rápido
crecimiento: Bacillus subtilis
Genes of class I(most of)
Genes of class II(higly expressed)
Genes of class III(unusual)
Genes of class IV(hydrophobic)
Ejemplo del UPC en un bacteriano de rápido crecimiento: Escherichia coli
Genes of class I(most of)
Genes of class II(higly expressed)
Genes of class III(unusual)
Genes of class IV(hydrophobic)
Ejemplo del UPC en un Organismo eucariote unicelular: Saccharomyces cerevisiae
Genes of class I(most of)
Genes of class II(higly expressed)
Genes of class III(unusual)
Genes of class IV(hydrophobic)
Ejemplo del UPC en un Organismo eucariote complejo:
Caenorhabditis elegans
Genes of class I(most of)
Genes of class II(higly expressed)
Genes of class III(unusual)
Genes of class IV(hydrophobic)
UPC en Organismo bacteriano de lento crecimiento:
Helicobacter pylori
Genes of class I(most of)
Genes of class II(higly expressed)
Genes of class III(unusual)
Genes of class IV(hydrophobic)
UPC en Organismo bacteriano de lento crecimiento:
Borrelia burgdorferi
Leading strand
Lagging strand
Bias dominante dependiente de la cadena de replicación
Fuentes de heterogenicidad de secuenicia
Hidrofobicidad
Presión evolutiva (bias traduccional)
Transferencia horizontal de genes
Diferentes contenidos GC(AT)
Dirección de cadena
Métricas del uso preferencial de codones
Relative Synonymous Codon Usage
Relative Codon Adaptiveness [0..1]
jNkk
j
i
fN
f
..1
i 1 RSCU
},max{ w i iforsynonymsallf
f
j
i
Grupo de referencia de proteínas Grupo de referencia de proteínas altamente expresadasaltamente expresadas
Proteínas Ribosomales Factores de elongación Proteínas glicolíticas Proteínas de membrana …
Codon Adaptaion Index (CAI)
Uso preferencial de codones con respecto a un pequeño grupo de genes de referencia
},max{ w i iforsynonymsallf
f
j
i
L
L
iiwgeneCAI
1
)(
fi – frequency of codon i, calculated over referenceset SL – number of all codons
in a gene
geneiii
i wwggeneCAI lnln)(ln64
1
gi – frequency of codon iin a gene
Codon Codon_Nu RSCU W Gene X
UUU(Phe) 78743 1.1636839 1.0000000 6
UUC(Phe) 56591 0.8363161 0.7186798 3
UUA(Leu) 51320 0.8561943 0.2698037 0
UUG(Leu) 45581 0.760448 0.2696937 0
CUU(Leu) 42704 0.7124497 0.2528585 3
CUC(Leu) 35873 0.5984851 0.2124108 2
CUA(Leu) 15275 0.2548396 0.0904462 0
CUG(Leu) 16885 2.8175832 1.0000000 8
= exp ( 6*ln(1) + 3*ln(0.72) + 3*ln(0.25) +2*ln(0.21)+8*ln(1)) =0.687
6+3+3+2+8
CAI
Valores de CAI para E. coli y levadura
Distribución de valores de CAI en genes de E. coli y levadura
Algoritmo para detectar genes con Bias en su CAI
1. Calcular wi considerando el 100% genes, y el CAI para todos los genes
2. Seleccionar 50% de los genes con los más altos CAIs y a partir de ellos calcular wi y recalcular el CAI para todos los genes
3. Seleccionar el 25% de los genes del paso anterior con los más CAIs, calculate wi, y recalcular nuevamente los CAIs
4. Repetir hasta seleccionar el 1% de los genes
Ejemplo: Bacillus subtilis
Desempeño del algoritmo en organismos de rápido crecimiento
Reference set
Identificación de genes transferidos horizontalmente
1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio
Identificación de genes transferidos horizontalmente
1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio
Identificación de genes transferidos horizontalmente
1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio
Identificación de genes transferidos horizontalmente
2.- Genes cuyo valor CAI sea menor al promedio menos 2Ds
Identificación de genes transferidos horizontalmente
3.- Buscar la intersección de genes seleccionados por CAI y GC
Genes identificados por CAI
Genes identificados por GC%
Genes transferidos
horizontalmente
Planteamiento de problemas para resolverPlanteamiento de problemas para resolver
1.1. Grupo mínimo de genes para la vidaGrupo mínimo de genes para la vida2.2. Predicción de operones bacterianosPredicción de operones bacterianos3.3. Expresividad en unidades Expresividad en unidades
transcripcionalestranscripcionales4.4. Conservación de expresividad entre Conservación de expresividad entre
organismosorganismos5.5. Identificación de genes transferidos Identificación de genes transferidos
horizontalmente horizontalmente H. pyloriH. pylori6.6. Regulación por glucosa en Regulación por glucosa en E. coliE. coli y y B. B.
subtilissubtilis