pcc146 - reconhecimento de padrões sávio gonçalves carvalho 2º seminário sobre estado da arte:...
TRANSCRIPT
PCC146 - Reconhecimento de Padrões
Sávio Gonçalves Carvalho
2º Seminário sobre estado da arte:
“Generic eukaryotic core promoter prediction using structural features of DNA”
Thomas Abeel, Yvan Saeys, Eric Bonnet, Pierre Rouzé,and Yves Van de Peer
Genome Research, 2008
Generic eukaryotic core promoter prediction using structural features
of DNA Introdução Properties of the core promoter region Relationship between structural profiles and
known core promoter elements Promoter prediction and comparison to the
state of art Resultados Conclusion
Introdução
Porquê predizer promotores? Descoberta de genes Genomas sem suporte experimental disponível Guiar novos experimentos
Introdução
Introdução
PPP Machine learning
Discriminant analyses, Hidden Markov Models, Artificial Neural Networks, etc
Desvantagens Difíceis de treinar Difíceis de interpretar Espécie-específicos Presença de motifs específicos (TATA-box) Performance
EP3
Introdução
Properties of the core promoter region
Características composicionais e estruturais Stabilizing energy of Z-DNA; DNA denaturation
values; protein-induced deformability; duplex-free energy, etc
Capacidade discriminativa Florquin et al (2005)
Genes variados em cada cluster Proteínas reconhecem características estruturais ao
invés de sequências de nucleotídeos
Properties of the core promoter region
Sequências alinhadas sobre o TSS (4000 pb) Convertidos em valores numéricos de acordo
com o perfil estrutural Valores obtidos normalizados
Examples of numerical profiles representing structural properties of the DNA in human over long-range distances around the transcription start site (TSS) (2000 bp upstream and 2000 bp
downstream).
Abeel T et al. Genome Res. 2008;18:310-323
Copyright © 2008, Cold Spring Harbor Laboratory Press
Examples of numerical profiles representing different species using the same property (inverted base stacking value) over long-range distances around the transcription start site (TSS) (2000 bp
upstream and 2000 bp downstream).
Abeel T et al. Genome Res. 2008;18:310-323Copyright © 2008, Cold Spring Harbor Laboratory Press
Properties of the core promoter region
Relação entre genomas e tamanho das regiões de picos e fendas Procariotas: ~100 pb Fungi: algumas centenas de pb Plantas: ~1000 pb 2000 pb em mamíferos
Diferenças entre promotores de diferentes tipos de RNAP (I, II e III)
Structural profile of promoters for genes transcribed by different polymerases.
Abeel T et al. Genome Res. 2008;18:310-323
Copyright © 2008, Cold Spring Harbor Laboratory Press
Relationship between structural profiles and known core
promoter elements
4 elementos TATA, INR, BRE, and CpG islands
Relação entre presença e perfil observado
Relationship between structural profiles and known core
promoter elements
Structural profiles of RNAP II promoters containing known motifs or elements versus promoters for which the presence of motifs cannot be demonstrated.
Abeel T et al. Genome Res. 2008;18:310-323
Copyright © 2008, Cold Spring Harbor Laboratory Press
Relationship between structural profiles and known core
promoter elements TATA box
Maior instabilidade na sequência Perfis estruturais similares em sua ausência
INR Acentua a transição estabilidade-instabilidade Sem diferenças significativas em grande escala
BRE Valor de perfil mais alto quando presente Mesma constatação em grande escala
CpG Amplitude mais baixa quando ausente
Promoter prediction and comparison to the state of art
Perfis estruturais com valores significativos bem posicionados próximos ao TSS
Janelas de 400 pb foram utilizadas Sem overlap entre elas
Suavização por janelas proibe detecção exata do TSS
Funciona para core promoter Baixa quantidade de FP
Structural profile (blue) of human chromosome 21 between position 32,000,000 bp and 33,000,000 bp.
Abeel T et al. Genome Res. 2008;18:310-323
Copyright © 2008, Cold Spring Harbor Laboratory Press
Resultados entre perfis estruturais
Resultados
Outros Resultados
Conclusões
Vantagens do EP3 Não requer treinamento Não necessita modificação de parâmetros (em
geral) Boa performance Método simples Capaz de trabalhar sobre outros genomas
eucarióticos sem modificação