biologia molecular – profª kátia guimarães e prof.º marcos morais jr. motif regressor...

28
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo: Integrating regulatory motif discovery and genome-wide expression analysis Equipe: Klaus Ribeiro Cavalcante Tairone César Alves da Silva

Upload: internet

Post on 22-Apr-2015

107 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Motif Regressor

Artigo: Integrating regulatory motif discovery and genome-wide expression analysis

Equipe: Klaus Ribeiro Cavalcante

Tairone César Alves da Silva

Page 2: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Introdução

• Determinação dos motifs de uma TFBM

• Algoritmos computacionais– Word-enumeration– Positioniespecific matrix update– Dictionary methods

• Estudos acerca de determinação de motifs baseados em correntes distintas

Page 3: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Descoberta de uma TFBM

• Grupamentos de genes baseado em profiles (Roth, et al)

• Presença de ruído– Acarretam presença de falsos positivos– Filtro (Hughes, Estep, Tavazoie, Church)

• Procedimento iterativo (Holmes e Bruno)– Não implementado para dados biológicos

Page 4: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Associação de valores da expressão gênica

• Enumeração da palavra e regressão linear

• Métodos eficazes para motifs pequenos com TFBM’s sem posições degenerativas

Page 5: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Passo a passo

• O artigo apresenta uma alternativa de aproximação

• MDscan - um método de encontrar motifs de forma rápida e sensível.

• Gera um conjunto grande de candidatos a motif.

Page 6: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Diagrama

Rank all genes by expression and obtain their upstream sequences

Use Mdscan to find motifs from most induced and most repressed genes

Score each upstream sequence for matches to each Mdscan reported motif

Perform simple linear regressio between motif-matching score and gene expression

to remove insignificant motifs

Perform stepwise regression on the significant motifs to find group of motifs

acting together to affect expression

Page 7: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Metodologia

• Rankeamento dos genes• De acordo com a mudança relativa no nível

de mRNA sob cada condição (microarray)• Extração de até 800 pb da região

“upstream” de cada gene• Remoção de repetições:

– Simples (ex.: AAAA…) > 10 b– Duplas (ex.: ACACA…) > 16 b

Page 8: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Metodologia

• Descoberta dos Motifs• Uso do MDSCAN• Utilização de sequencias como sementes

(5<w<15)• Busca de sequencias similares (no mínimo m

posições “matched”) e construção de matriz de motifs

• Matrizes são avaliadas por uma função de “score” e os 50 motifs com mais alto score são mantidos

• Adições e remoções são utilizadas para aumentar o “score” do motif. Motifs com frequencia abaixo de 0.7 são eliminadas.

• MDSCAN retorna até 30 motifs distintos

Page 9: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Metodologia

• “Score” de Motifs• Determinação de quão bem a região

“upstream” match um motif m em termos de grau de “matching” e numero de sites.

m = Matriz de Probabilidade do motif m

0 = Modelo de Markov de terceira ordem estimado de todas as sequencias gênicas

•Aumento da sensibilidade e especificidade da função de score

Page 10: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Metodologia

• Regressão Linear• Para cada motif encontrado pelo MDSCAN,

uma regressão simples é realizada:

Yg = Valor da expressão do gene gm = coeficiente de regressão

• Motifs candidatos com coef. m significantes são mantidos e usados no procedimento de regressão linear múltipla.

Page 11: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Metodologia

• Regressão Linear Múltipla

• Adição passo-a-passo de um novo motif.• Após cada adição, remove-se aqueles

cujosefeitos são suficientemente explicados por mi

• O modelo final é alcançado quando nenhum motif é adicionado com um coeficiente estatisticamente significante

Page 12: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Gráfico 1

Page 13: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Resultados

• Motifs descobertos de Rox1p e Yap1p em experimentos de “overexpression”

• Identificação das TFBMs da Rox1p e Yap1p examinando as regiões “upstream” dos genes com mais alta mudança na expressão do Rox1p e Yap1p.

• Rox1p é um TF que reconhece YYNATTGTTY (ROX1-binding consensus)

• MDSCAN: busca das regiões “upstream” de 10, 25, 50 e 100 genes mais reprimidos gerando 30 motifs candidatos de 5-15 b.

Page 14: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Resultados

• (cont.)• O motif correto foi encontrado como “top-

ranked” nas entradas de tamanho 10, 25 e 50 sequências, mas não foi no de 100 sequências.

• MOTIF REGRESSOR encontrou os motifs ”top-ranked” para todas as entradas (10, 25, 50 e 100) dentro do consenso (ROX1). Valores de regressão muito baixos ( < 10-

10).

Page 15: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Resultados

• (cont.)• ALIGNACE buscou as sequências

“upstream” dos 10, 25, 50 e 100 genes mais reprimidos e falhou em todos os tamanhos de entrada.

• MEME também não reportou nenhum motif em consenso (ROX1) em todas as entradas

Page 16: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Resultados

• (cont.)• Yap1p é um ativador de transcrição.

Reconhece a sequencia TTACTAA (YAP1-binding consensus)

• ALIGNACE reportou um motif rankeado em quarto que difere de uma base do consenso (YAP1) para entradas de tamanho 10 e 25. Não reportou nenhum motif para entradas de tamanhos 50 e 100.

• MEME encontrou o motif correto para entrada de tam. 10, para entradas de tam. 25 e 50 encontrou um rankeado em terceiro e para entrada 100 não achou nenhum motif.

Page 17: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Resultados

• (cont.)• MDSCAN superou ALIGNACE e MEME

encontrando o motif correto para entradas de tam. 10, 25 e 50. Para 100, MDSCAN encontrou o motif correto com largura w = 10.

• MOTIF REGRESSOR também superou os outros algoritmos com no mínimo 6 dos 10 motifs “top-ranked” em consenso (YAP1) para todos os tamanhos de entrada.

Page 18: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Resultados

• Motifs encontrados no experimento de falta de aminoácidos utilizando microarray

• MOTIF REGRESSOR foi aplicado em sequências “upstream” dos genes cuja expressão mudou depois de 30min da falta de aminoácidos (amino acid starvation)

• MDSCAN encontrou os 414 motifs de largura 5-15 dos genes mais induzidos e mais reprimidos respectivamente.

• Uma regressão linear simples descartou 179 motifs insignificantes (P > 0.01)

Page 19: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Resultados

• (cont.)• A regressão linear múltipla foi usada nos

235 motifs restantes e selecionou os 25 mais significantes. Estes 25 motifs juntos correspondem a 19.8% da variação da expressão genômica.

• Os 25 motifs são classificados em 15 padrões.

• 8 destes padrões (STRE, GCN4, M3A, M3B, MET4, PHO4, RAP1, URS1) são previamente conhecidos e juntos possuem 17.6%

Page 20: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Gráfico 2

Page 21: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Resultados

• (cont.)• Sob às condições do experimento:

– STRE e GCN4 regulam a síntese de aminoácidos, regulam positivamente a transcrição.

– M3A e M3B encontrados em genes reprimidos durante condições de “stress”.

– MET4 regula a ativação de genes envolvidos no metabolismo do aminoácido (sulfur ?).

– PHO4 presentes no metabolismo do fosfato sob condições limitantes.

– RAP1 é o regulador de genes de proteínas ribossômicas (RPGs).

– URS1 presente nas regiões “upstream” de muitos genes induzidos sob condições de stress.

Page 22: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Resultados

• (cont.)• A partir destes 8 motifs bem conhecidos, foi

adquirido uma visão maior sobre a resposta da célula à falta de aminoácidos. (aa starvation)

• Os 9 padrões desconhecidos restantes somam apenas 2.2% na variação.

Page 23: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Motif Regressor numa abordagem temporal

• Processo temporal– 18 pontos de tempo

• Obtidos: 273 motifs

• Eexaminar os efeitos dos motifs sobre todos os ponto de tempo

• Agrupamento utilizando distância euclidianas

Page 24: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Separando os motifs

Page 25: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Análise dos coeficientes

• Quinze dos 20 conjuntos do motifs sofreram influências do ciclo.– MCM1, SWI5, MCB, SCB, e SFF.

Page 26: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Coeficientes dos motifs

Page 27: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Considerações finais

• MOTIF REGRESSOR superou os outros algoritmos conhecidos

• O método combina as vantagens de encontrar o motif e da análise da regressão, tendo por resultado a sensibilidade e o especificidade elevados

Page 28: Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression

Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.

Artigo

Erin M. Conlon, X. Shirley Liu, Jason D. Lieb, and Jun S. Liu. Integrating regulatory motif discovery and genome-wide expression analysis. University, Cambridge, MA, January 30, 2003