bioinformÁtica ufmg a t g c. a t g c performance de anotação automática com grupos de ortólogos...

22
BIOINFORMÁTICA UFMG A T G C

Upload: agata-netto

Post on 07-Apr-2016

215 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC

Page 2: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Performance de anotação automáticacom grupos de ortólogos KOG

Se vc conhece os grupos de ortólogos de MO

E vc pode conhecer a anotação correta de ESTs de um MO

Um experimento pode ser feito!

Mas… vc tem que conhecer o cutoff para o alinhamento de uma EST com a sua proteína cognata– (parece simples mas não é)

Page 3: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Como é uma entrada KOG?

Page 4: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC As seqüências analisadas

ORGANISM ESTs PROTEINS KOGs

Arabidopsis thaliana 178.538 24.154 13.744

Caenorhabditis elegans 215.200 17.101 10.581

Drosophila melanogaster 261.404 10.517 8.445

Homo sapiens 1.941.556 26.324 19.039

pUC18 846 1

Page 5: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Seqüências de pUC reunidas por 82% de similaridade equivalem a 96% de identidade

82%

.93

Page 6: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Os cutoffs se aproximam de 80% de similaridadepara alinhamentos EST-proteina correta

Page 7: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC O teste de anotação

cel

dmehsa

athKOG

dmeESTs

Assigned ESTsto desired KOGs

BLASTCutoff 78%

Page 8: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Elimine o KOG para um organismo por vez(transforme-o em um transcriptoma novo)

cel

dmehsa

athKOG

dmeESTs

• correct: same KOG• changed: distinct KOG• speculated: not assigned

BLAST

Page 9: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC A especulação minimiza com o cutoff apropriado de “designação”

correct

especulated

changed

Page 10: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC A anotação correta é maior que 90%

correct changed especulated

89,3%

5,2%5,5%

96,7%

1,6%1,8%

91,9%

3,0%5,1%

96,3%

2,4%1,2%

Page 11: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Quantas ESTs eu preciso para descobrir oKOG todo?(com ou sem o organismo cognato na base)

Picturing Discovering

Page 12: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Por categoria funcional

C. elegans

D. melanogasterpicturing sampling

Page 13: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Schistosoma mansoniK

OG

cat

egor

y

Page 14: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Sumarizando

80% (EST-aa) equivale a cutoff de 96% (EST-nt) usado no UniGene

Anotação com KOG é acima de 90% correta

Clusters KOG de S. mansoni não foram completamente descobertos– Alguns podem estar faltando…

Page 15: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC

Page 16: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Níveis de expressão e amostragemem bibliotecas de EST

A chance de descobrir um gene dependerá– Da ocorrência– Da conservação

Ambos podem ser estimados em Organismos Modelo

Page 17: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Computando amostragem e conservaçãode ESTs usando organismos modelo

ath cel dme hsa

KOG clusters

athESTs {N} Conservation

N Sampling

Page 18: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC I MISS YOUaplicado a S. mansoni

Page 19: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC I MISS YOUaplicado a S. mansoni

Page 20: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Glicólise: exemplo de amostragem

Page 21: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Genes muito expressos são mais compartilhados que os pouco expressos

Page 22: BIOINFORMÁTICA UFMG A T G C. A T G C Performance de anotação automática com grupos de ortólogos KOG Se vc conhece os grupos de ortólogos de MO E vc pode

BIOINFORMÁTICA UFMG

A TGC Resumindo

K-EST sugere a chance de descobrir um gene com quantidades crescentes de ESTs

Mostra o nível de variação da expressão entre as várias bibliotecas usando estatística de Steckel “R”

Amostragem conjugada a conservação, em organismos modelo, pode indicar ausência de genes