ejemplos de problemas biológicos que pueden ser resueltos mediante un enfoque bioinformático

Ejemplos de problemas Ejemplos de problemas Biológicos que pueden ser Biológicos que pueden ser

resueltos mediante un resueltos mediante un enfoque Bioinformáticoenfoque Bioinformático

Conceptos básicosConceptos básicos

Homología y otras relaciones evolutivas Homología y otras relaciones evolutivas (paralógos, ortólogos, xenólogos)(paralógos, ortólogos, xenólogos)

Uso preferencial de codones, CAI y Uso preferencial de codones, CAI y expresividadexpresividad

Microarreglos y aproximaciones Microarreglos y aproximaciones estadísticas para su análisisestadísticas para su análisis

Descripción de programas existentesDescripción de programas existentes

BLAST (Comparación apareada de BLAST (Comparación apareada de secuencias)secuencias)

MEME/MAST (Identificación de motivos MEME/MAST (Identificación de motivos sobre-representados)sobre-representados)

Planteamiento de problemas para resolverPlanteamiento de problemas para resolver

1.1. Grupo mínimo de genes para la vidaGrupo mínimo de genes para la vida2.2. Predicción de operones bacterianosPredicción de operones bacterianos3.3. Expresividad en unidades Expresividad en unidades

transcripcionalestranscripcionales4.4. Conservación de expresividad entre Conservación de expresividad entre

organismosorganismos5.5. Identificación de genes transferidos Identificación de genes transferidos

horizontalmente horizontalmente H. pyloriH. pylori6.6. Regulación por glucosa en Regulación por glucosa en E. coliE. coli y y B. B.

subtilissubtilis

Predicción de operones bacterianosPredicción de operones bacterianos

En organismos bacterianos, genes funcionalmente relacionados, ya sea porque participan en una misma vía metabolica o en el mismo proceso celular, son transcritos en una misma unidad transcripcional (operon).

El operón de lactosa de Escherichia coli, es uno de los primeros operones descritos para explicar la regulación coordinada de un conjunto de genes.


Los métodos más comúnmente utilizados para predecir operones se basan en:

Dirección de la transcripción

de los genes

Distancias intergénicas.

Otros parámetros importantes en la Otros parámetros importantes en la predicción de operones bacterianos son:predicción de operones bacterianos son:

1.1. Relación funcional de los genesRelación funcional de los genes

2.2. Co-ocurrencia de genes en genomasCo-ocurrencia de genes en genomas

3.3. Vecindad genómicaVecindad genómica

4.4. Co-expresividad Co-expresividad

The STRING databasehttp://string.embl.de/

Fusión de genesFusión de genes y predicción de operones y predicción de operones

Vecindad genómicaVecindad genómica y predicción de y predicción de operonesoperones

Co-ocurrencia de genesCo-ocurrencia de genes proteicosproteicos y y predicción de operonespredicción de operones

Conocimiento publicadoConocimiento publicado y predicción y predicción de operonesde operones

Datos de complejos proteicosDatos de complejos proteicos y y predicción de operonespredicción de operones

T

Coeficientes de interacciónCoeficientes de interacción

von Mering et al., Nucleic Acids Research, 2005

COG0147Anthranilate/para-aminobenzoate synthases component IAnthranilate/para-aminobenzoate synthases component I

Saccharomyces cerevisiaeSaccharomyces cerevisiae exosome complex exosome complex

Coeficientes de interacciónCoeficientes de interacción COG.links.v7.1.txtCOG.links.v7.1.txt

COG0001 COG0002 296 COG0001 COG0006 217 COG0001 COG0007 770 COG0001 COG0008 168 COG0001 COG0009 168 COG0001 COG0012 168 COG0001 COG0013 168 COG0001 COG0014 209 COG0001 COG0016 168 COG0001 COG0017 173 COG0001 COG0020 317 COG0001 COG0026 175 COG0001 COG0028 278 COG0001 COG0029 165 COG0001 COG0035 173 COG0001 COG0037 217 COG0001 COG0038 524

Identificación de ortólogos medianteIdentificación de ortólogos mediante el mejor hit bidireccional BDBH el mejor hit bidireccional BDBH

dnaAdnaNyaaAyaaBgyrByaaCguaBdacAyaaDyaaE..yaaK

Bsu0001Bsu0002Bsu0003Bsu0004Bsu0005Bsu0006Bsu0007Bsu0008Bsu0009Bsu0010..BsuNNNN

OrganismoAOrganismoA OrganismoBOrganismoB







Para evitar que el hit solamente sea entre dominios de las proteínas, se puede introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50% de la secuencia de menor tamaño.

COGs. Cluster of Orthologous COGs. Cluster of Orthologous Groups of ProteinsGroups of Proteins

SCIENCE. VOL. 278: 631-637

COGs. Cluster of Orthologous Groups COGs. Cluster of Orthologous Groups of Proteinsof Proteins

No hay líneaporque son parálogos

Bacterias Gram-negativa: Escherichia coli y Haemophilus influenzae

Bacterias Gram-positiva: Mycoplasma genitalium y M. pneumoniae

Cianobacteria: Synechocystis sp.

Aequeobacteria (Euryarchaeota): Methanocous jannaschii

Eucariota (hongos):Saccharomyces cerevisiae

CDS337..2799F16127996thrAB0002protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtKECOG0460,COG0527-- KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088- enzyme; Amino acid biosynthesis: Threoninefused aspartokinase I and homoserine dehydrogenase I --

0123456789101112131415161718

GenePositionStrandGICommonb_numberdb_refsCategoryCOGKategoryKOGKEGGGO1GO2GO3FunctionProductsp_idsp_ac

Archivo de datos SUPERLISTSUPERLIST

Lectura del primer registro del archivo SUPERLISTSUPERLIST


Proceso cíclico de lectura y análisis de los demás registros

del archivo SUPERLISTSUPERLIST

Lectura de datos COG.linksCOG.links

Para cada renglon del archivoCOG.links

Subrutina de lectura de datos COG.linksSubrutina de lectura de datos COG.links

campos <- split(registro de archivo)

indice_COGs {COG1} {COG2} <- indice

COG1 <- campo 0

indice <- campo 2

COG2 <- campo 1

¿Es indice > 500?

SI

CDS337..2799F16127996thrAB0002protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtKECOG0460,COG0527-- KEGG:00260,KEGG:00300 GO:0016597,GO:0016301,GO:0003824,GO:0004412 GO:0009067,GO:0008652,GO:0008152,GO:0009088- enzyme; Amino acid biosynthesis: Threoninefused aspartokinase I and homoserine dehydrogenase I --

0123456789101112131415161718

GenePositionStrandGICommonb_numberdb_refsCategoryCOGKategoryKOGKEGGGO1GO2GO3FunctionProductsp_idsp_ac

Archivo de datos SUPERLISTSUPERLIST

Subrutina Distancias intergenicasSubrutina Distancias intergenicas

# gene position strand GI commonCDS 190..255 F 16127995 thrLCDS 337..2799 F 16127996 thrACDS 2801..3733 F 16127997 thrBCDS 3734..5020 F 16127998 thrCCDS 5234..5530 F 16127999 yaaXCDS 5683..6459 R 16128000 yaaACDS 6529..7959 R 16128001 yaaJCDS 8238..9191 F 16128002 talBCDS 9306..9893 F 16128003 mogCDS 9928..10494 R 16128004 yaaHCDS 10643..11356 R 16128005 yaaW

yaaX yaaA yaaJ yaaH yaaWthrCthrBthrAthrL mogtalB

190

255

337 2799

2801 3733

3734 5020

Distancia intergenica337-255=82 pb

337

Subrutina de lectura de datos SUPERLISTSubrutina de lectura de datos SUPERLIST

campos <- split(registro de archivo)

cog{gi} <- campo 9

gi <- campo 3

strand{gi} <- campo 2

gene{gi} <- campo 4

(inicio{gi},final{gi}) <- split(campo 2)

gi_anterior <- gi

Lectura del primer registro

(condición borde inicial)

Proceso cíclico de lectura y

análisis de los demás registros

Para cada renglon del archivo S

UP

ER

LIST

Subrutina de lectura de datos SUPERLISTSubrutina de lectura de datos SUPERLISTcampos <- split(registro de archivo)

cog{gi} <- campo 9

gi <- campo 3

strand{gi} <- campo 2

gene{gi} <- campo 4

(inicio{gi},final{gi}) <- split(campo 2)

dist_inter{gi} <-inicio{gi} - final{gi_anterior}

indice_string{gi} <-indice {COG{ gi}} {COG{gi_anterior}}

strand{gi} eq strand{gi_anterior}

indice_string{gi} > 500 oror dist_inter{gi} < 100

gi and gi_anterior pertenecen al mismo operon

SI

gi_anterior <- gi

Predicción de operones bacterianosPredicción de operones bacterianoshttp://www.microbesonline.org/operons/OperonList.html

G_1 G_2 Bnum1 Bnum2 Ge1 Ge2 Bop pOp 14146 14147 b0001 b0002 thrL thrA FALSE 0.115 14147 14148 b0002 b0003 thrA thrB TRUE 0.998

14148 14149 b0003 b0004 thrB thrC TRUE 0.999 14149 14150 b0004 b0005 thrC yaaX FALSE 0.088 14151 14152 b0006 b0007 yaaA yaaJ TRUE 0.675 14153 14154 b0008 b0009 talB mog FALSE 0.31 14155 14156 b0010 b0011 yaaH yaaW FALSE 0.309 14159 14160 b0014 b0015 dnaK dnaJ TRUE 0.989 14160 14161 b0015 b0016 dnaJ insL-1 FALSE 0.139

Comparar resultados con las predicciones depositadas en archivo PREDICCION_OPERONES.zip

¿ Qué porcentaje de las predicciones coinciden? ¿Qué características tienen las predicciones incorrectas ?

CAI and the most biased genes

Zinovyev Andrei

Institut des Hautes Études Scientifiques

El código genético estándar exhibe redundanciaEl código genético estándar exhibe redundancia

Esta flexibilidad en el nivel de DNA de la codificación no es utilizada aleatoriamente por todos los genes de todos los genomas.

Los patrones del uso de codones varían extensamente en y entre la especie

El uso preferencial de codones de un gene correlaciona con los niveles con los cuales éste se traduce a la proteína

El uso preferencial de codones también de un gene también está ligado a la exactitud del proceso de traducción

Uso Preferencial de Codones en Uso Preferencial de Codones en E. coliE. coli

Overall codon usage Highly expressed genes

Diferent tipos de codon biasDiferent tipos de codon bias

Traduccional (principalmente en fast-growing bacteria)

Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos

Influencia de la cadena codificante (leading o lagging)

Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos

Relación de CAI y traducibilidad

Diferent tipos de codon biasDiferent tipos de codon bias

Traduccional (principalmente en fast-growing bacteria)

Bias en el contenido genómico del GC% por lo que GC-rich o AT-rich codons son preferidos

Influencia de la cadena codificante (leading o lagging)

Codon bias por la adquisición de genes transferidos horizontalmente de otros organismos

Relación de CAI y el contenido de GC en la tercera posición del codon

Estudio cuantitativo del Uso Preferencial de Codones

Podemos describir cada gene por la frecuencia de sus codones – vector with 64 componentes (59 son interesting por ser codificantes)

PCA (Principal Component Analysis) y CA (Correspondence Analysis) son las técnicas más comúnmente empleadas para estudiar el uso de codones

Cada gene es representado por un punto. Los puntos. Genes con un uso similar de codones son agrupados

Patrones del Uso Preferencial de Codones en bacterias de rápido crecimiento

IV

II

I

III

Genes of class I(most of)

Genes of class II(higly expressed)

Genes of class III(unusual)

Genes of class IV(hydrophobic)

Ejemplo del UPC en un bacteriano de rápido

crecimiento: Bacillus subtilis





Ejemplo del UPC en un bacteriano de rápido crecimiento: Escherichia coli





Ejemplo del UPC en un Organismo eucariote unicelular: Saccharomyces cerevisiae





Ejemplo del UPC en un Organismo eucariote complejo:

Caenorhabditis elegans





UPC en Organismo bacteriano de lento crecimiento:

Helicobacter pylori





UPC en Organismo bacteriano de lento crecimiento:

Borrelia burgdorferi

Leading strand

Lagging strand

Bias dominante dependiente de la cadena de replicación

Fuentes de heterogenicidad de secuenicia

Hidrofobicidad

Presión evolutiva (bias traduccional)

Transferencia horizontal de genes

Diferentes contenidos GC(AT)

Dirección de cadena

Métricas del uso preferencial de codones

Relative Synonymous Codon Usage

Relative Codon Adaptiveness [0..1]

jNkk

j

i

fN

f

..1

i 1 RSCU

},max{ w i iforsynonymsallf

f

j

i

Grupo de referencia de proteínas Grupo de referencia de proteínas altamente expresadasaltamente expresadas

Proteínas Ribosomales Factores de elongación Proteínas glicolíticas Proteínas de membrana …

Codon Adaptaion Index (CAI)

Uso preferencial de codones con respecto a un pequeño grupo de genes de referencia

},max{ w i iforsynonymsallf

f

j

i

L

L

iiwgeneCAI

1

)(

fi – frequency of codon i, calculated over referenceset SL – number of all codons

in a gene

geneiii

i wwggeneCAI lnln)(ln64

1

gi – frequency of codon iin a gene

Codon Codon_Nu RSCU W Gene X

UUU(Phe) 78743 1.1636839 1.0000000 6

UUC(Phe) 56591 0.8363161 0.7186798 3

UUA(Leu) 51320 0.8561943 0.2698037 0

UUG(Leu) 45581 0.760448 0.2696937 0

CUU(Leu) 42704 0.7124497 0.2528585 3

CUC(Leu) 35873 0.5984851 0.2124108 2

CUA(Leu) 15275 0.2548396 0.0904462 0

CUG(Leu) 16885 2.8175832 1.0000000 8

= exp ( 6*ln(1) + 3*ln(0.72) + 3*ln(0.25) +2*ln(0.21)+8*ln(1)) =0.687

6+3+3+2+8

CAI

Valores de CAI para E. coli y levadura

Distribución de valores de CAI en genes de E. coli y levadura

Algoritmo para detectar genes con Bias en su CAI

1. Calcular wi considerando el 100% genes, y el CAI para todos los genes

2. Seleccionar 50% de los genes con los más altos CAIs y a partir de ellos calcular wi y recalcular el CAI para todos los genes

3. Seleccionar el 25% de los genes del paso anterior con los más CAIs, calculate wi, y recalcular nuevamente los CAIs

4. Repetir hasta seleccionar el 1% de los genes

Ejemplo: Bacillus subtilis

Desempeño del algoritmo en organismos de rápido crecimiento

Reference set

Identificación de genes transferidos horizontalmente

1.- Genes cuya contenido de GC% estén localizados a más de 2Ds del promedio


2.- Genes cuyo valor CAI sea menor al promedio menos 2Ds


3.- Buscar la intersección de genes seleccionados por CAI y GC

Genes identificados por CAI

Genes identificados por GC%

Genes transferidos

horizontalmente

Planteamiento de problemas para resolverPlanteamiento de problemas para resolver

1.1. Grupo mínimo de genes para la vidaGrupo mínimo de genes para la vida2.2. Predicción de operones bacterianosPredicción de operones bacterianos3.3. Expresividad en unidades Expresividad en unidades

transcripcionalestranscripcionales4.4. Conservación de expresividad entre Conservación de expresividad entre

organismosorganismos5.5. Identificación de genes transferidos Identificación de genes transferidos

horizontalmente horizontalmente H. pyloriH. pylori6.6. Regulación por glucosa en Regulación por glucosa en E. coliE. coli y y B. B.

subtilissubtilis

ejemplos de problemas biológicos que pueden ser resueltos mediante un enfoque bioinformático

Documents