identificação de elementos regulatórios usando genômica comparativa e phylogenetic footprinting...
TRANSCRIPT
Identificação de elementos regulatórios usando Genômica Comparativa e
Phylogenetic Footprinting
Raonne Barbosa Vargas
Introdução
Motivação
Regulação Gênica
Introdução
Fatores de Transcrição
Locais de amarração dos fatores de transcrição (TFBS’s)
Elementos regulatórios
Auxílio da Computação no estudo da regulação gênica
Introdução
Figura 1 – Elemento Regulatório
Objetivo
Identificação de elementos
regulatórios
Sequência Promotora
Objetivo
Figura 2 – Definindo uma sequência promotora, onde serão procurados os elementos regulatórios.
Phylogenetic Footprinting
“impressões de pegadas filogenéticas”
Hipótese
Conservação de elementos regulatórios em espécies próximas
Phylogenetic Footprinting
Genes Ortólogos
Procedimento baseia-se na comparação de sequências genômicas
2 etapas:
Phylogenetic Footprinting
1) Identificar genes ortólogos e obter sequências promotoras de cada um
2) Comparar sequências promotoras e extrair sub-sequências bem conservadas (motifs).
Estes motifs serão excelente candidatos a elementos regulatórios
Genômica Comparativa
Alinhamento Múltiplo
Agrupamento
Comparação com TRANSFAC
Algoritmo
Entrada:
Lista de genes
Conjunto de espécies
Algoritmo
ALGORITMO:
Para cada gene na lista de entrada:– Pesquise em HomoloGene para identificar os genes ortólogos a
este gene.– Se este gene possui ortólogos para todas as espécies consideradas
no conjunto de espécies da entrada: Para cada gene ortólogo:
– Pesquise em Entrez Gene para obter a localizaçãodo gene na sequência genômica de sua espécie.
– Pesquise em Entrez Nucleotide para obter a sequência promotora deste gene. Compute o Alinhamento Múltiplo das sequências promotoras. Extraia do alinhamento os motifs bem conservados.
Compute o agrupamento dos motifs. Compare com a base de dados TRANSFAC.
Algoritmo
Saída:
Lista de Motifs Lista de Grupos Lista de casamentos com TRANSFAC
Casos de Estudo
Humano / Chimpanzé / Camundongo / Rato
Humano / Chimpanzé / Camundongo / Rato / Cachorro
Humano / Chimpanzé / Camundongo / Rato / Galinha
Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha
Humano / Chimpanzé / Camundongo / Rato / Mosca
Dados Biológicos
NCBI
http://www.ncbi.nlm.nih.gov/
Consistência dos dados
Figura 3 - NCBI
Dados Biológicos
HomoloGene – Genes Ortólogos
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=homologene
Restrição das espécies
Figura 4 - HomoloGene
Dados Biológicos
Exemplo de Pesquisa no HomoloGene
ING5 (id 84289)
Humano / chimpanzé / camundongo / rato
Figura 5 – Pesquisa no HomoloGene
Dados Biológicos
Entrez Gene
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene
Objetivo: localização do gene
Figura 6 – Entrez Gene
Dados Biológicos
Exemplo:
ING5 Cromossomo: NC_000002.10 Início: 242290129 Fim: 242317569
Figura 7 – Pesquisa no Entrez Gene
Dados Biológicos
Entrez Nucleotide – Sequências Promotoras
promoter_start = gene_start – 1000
promoter_end = gene_start + 200
Figura 8 - Entrez Nucleotide - contém sequências de nucleotídeos de diversos genomas.
Dados Biológicos
Exemplo:
Região promotora do gene ING5
Cromossomo: NC_000002.10 promoter_start: 242289129 promoter_end: 242290329 Formato: FASTA
Figura 9 – Pesquisa no Entrez Nucleotide
Alinhamento Múltiplo
Problema NP-Hard
Needleman e Wunsch
Programação Dinâmica
Idéia do Algoritmo
Alinhamento Múltiplo
Ferramentas computacionais para alinhamento múltiplo
CLUSTALW
Heurística x Programação Dinâmica
Figura 10 – Exemplo de Alinhamento Múltiplo
Alinhamento Múltiplo
Identificação dos Motifs
Tamanho do motif = 10 b.p.
Casamento perfeito entre todas as espécies em pelo menos 9 dos 10 nucleotídeos.
Figura 11 – Motif com 10 casamentos perfeitos
Figura 12 – Motif com 9 casamentos perfeitos
Figura 13 – Sub-sequência com 9 casamentos perfeitos e 2 imperfeitos – não é um motif
Alinhamento Múltiplo
Casamentos imperfeitos completados por gaps (-)
Exemplo: motifs do estudo : humano / chimpanzé / camundongo / rato / mosca
Sequência do motif, id do gene, espécie, id do cromossomo, posição de início do gene, posição de término do gene e posição de início do motif.
Alinhamento Múltiplo
Figura 14 – Motifs encontrados no estudo humano/chimpanzé/camundongo/rato/mosca
Agrupamento
Introdução
Fim da estratégia de Phylogenetic Footprinting
Objetivo do Agrupamento
Método restritivo
Apenas grupos com mais de 1 motif serão mais detalhadamente analisados
Agrupamento
Algoritmo K-Means
Um dos mais populares algoritmos iterativos de agrupamento.
Este algoritmo é aleatório e baseia-se na heurística de Loyd.
O número de grupos (K) deve ser definido previamente.
Agrupamento
Algoritmo
1) Os motifs são designados aleatoriamente para os K grupos.
2) Um vetor de expressão média (ou centróide) de cada grupo é computado.
3) Cada motif é movido para o grupo mais próximo (do qual mais se assemelha ao centróide).
4) Repete 2 e 3 até que nenhum motif possa ser movido para outro grupo.
Agrupamento
Evitando não-convergência
Evitando mínimos locais
Vários valores de K foram testados
Agrupamento
Número “K” de grupos Duas considerações: 1) Estamos interessados em grupos com alta
similaridade entre os seus elementos, mesmo que tenhamos muitos grupos unitários.
Solução: foi definido que seriam testados 100 valores diferentes de K entre 70% e 90% do número de motifs.
Agrupamento
2) Conceito estatístico W = within-cluster sum of distances Quanto maior K, menor será o W. Existe um K’ tal que:
K < K’ => Wi+5 >>> Wi
K > K’ => Wi+5 > Wi
500 - 2567.29833333
501 - 2320.36666667
503 - 2632.32833333
504 - 2493.36666667
506 - 2424.73666667
507 - 2623.43
509 - 2337.16583333
510 - 2367.40880952
511 - 2456.52166667
513 - 2407.99833333
514 - 2297.01333333
516 - 2435.60833333
517 - 2289.1
519 - 2092.85666667
520 - 2500.10166667
521 - 2296.41666667
523 - 2297.80333333
524 - 2170.43833333
526 - 2156.93833333
527 - 1908.535
529 - 2179.25
530 - 1986.35833333
531 - 1919.5
533 - 1830.58666667
534 - 1894.125
536 - 2128.43333333
537 - 1936.9
539 - 1929.86333333
540 - 1870.675
541 - 1919.23
543 - 1871.20166667
544 - 1843.55333333
546 - 1756.30333333
547 - 1623.95
549 - 1788.83833333
550 - 1738.21666667
551 - 1799.64642857
553 - 1679.4
554 - 1758.215
556 - 1643.48
557 - 1622.35333333
559 - 1727.74166667
560 - 1746.45
561 - 1759.0
563 - 1526.36666667
564 - 1466.25833333
566 - 1565.76333333
567 - 1527.86833333
569 - 1545.51833333
570 - 1452.1
572 - 1559.96833333
573 - 1243.94166667
574 - 1489.82166667
576 - 1463.59166667
577 - 1374.70833333
579 - 1382.34333333
580 - 1462.59166667
582 - 1374.045
583 - 1394.11666667
584 - 1334.05
586 - 1371.36833333
587 - 1211.65
589 - 1268.01666667
590 - 1236.69166667
592 - 1216.375
593 - 1173.65
594 - 1105.06666667
596 - 1113.3
597 - 1155.88333333
599 - 1148.95833333
600 - 1050.44166667
602 - 1065.525
603 - 970.8
604 - 1021.13
606 - 985.383333333
607 - 933.033333333
609 - 988.533333333
610 - 917.241666667
612 - 1062.25
613 - 992.441666667
614 - 979.941666667
616 - 887.083333333
617 - 1041.15
619 - 823.758333333
620 - 863.6
622 - 864.541666667
623 - 904.158333333
624 - 905.575
626 - 817.416666667
627 - 846.625
629 - 795.25
630 - 858.133333333
632 - 689.358333333
633 - 812.8
634 - 704.7
636 - 706.116666667
637 - 593.266666667
639 - 724.2
640 - 626.766666667
642 - 701.35
Agrupamento
K W
1
2
3
4
5
6
7
8
9
10
11
12
13
1790.73846154
1459.11666667
1296.95
1034.98333333
818.425
627.166666667
683.875
446.733333333
404.433333333
417.9
11 - 76.3333333333
12 - 168.85
13 - 0.0
Figura 15 – Exemplo de Agrupamento
TRANSFAC
Figura 16 - TRANSFAC
TRANSFAC
1388 elementos regulatórios humanos anotados
Objetivos da comparação com TRANSFAC
TRANSFAC
Sequência de Consenso de um Grupo Um grupo do estudo
humano/chimpanzé/camundongo/rato:
CLUSTER 13576:
CCAGACACT- 222545 H.sapiens NC_000006.10 117219941 117256891 117219310
AAAGAACAT- 93081 H.sapiens NC_000013.9 102216460 102224143 102216728
AAAGACACT- 51297 H.sapiens NC_000020.9 31287463 31294773 31287424
AAAGACACT => Sequência de Consenso do grupo 13576
TRANSFAC
Casamentos relevantes
Alinhamento local sem gaps de tamanho pelo menos 5.
Exemplo de outro grupo do estudo humano / chimpanzé / camundongo / rato :
TRANSFAC
CLUSTER 13534:ATCCCTCCTC 1956 H.sapiens NC_000007.12 55054219 55242525 55054235CTCCCTCCTC 339287 H.sapiens NC_000017.9 35531749 35548144 35531706 - TCCCTCCTC => Sequência de Consenso do grupo 13534
Casamento relevante com TRANSFAC :
-TCCCTCCTC (sequência de consenso do grupo 13534)ATCCCTCCTC (motif do transfac com id R00377) TCCCTCCTC (casamento)
Figura 17 – Elemento regulatório anotado no TRANSFAC (R00377)
TRANSFAC
Figura 18 – Gene do grupo 13534 (id 1956)
TRANSFAC
A seguir temos mais exemplos do estudo humano / chimpanzé / camundongo / rato:
GENE MOTIF
EGFR (epidermal growth factor receptor); G000251
EGFR epidermal growth factor receptor (erythroblastic leukemia viral (v-erb-b) oncogene homolog, avian) (id 1956)
LOC339287 - hypothetical protein LOC339287 (id 339287)
ATCCCTCCTC (R00377)
ATCCCTCCTC (Cluster 13534)
CTCCCTCCTC (Cluster 13534)
GENE MOTIF
DBH (dopamine beta hydroxylase); G002007
DBH dopamine beta-hydroxylase (id 1621)
OR52K2 olfactory receptor, family 52, subfamily K, member 2 (id 119774)
GTCCATGTGT (R09521)
GA-GTCCATG (Cluster 17159)
GC-CTCCATG (Cluster 17159)
GENE MOTIF
G-CSF (granulocyte colony-stimulating factor); G000260
G-CSF (or CSF3) colony stimulating factor 3 (granulocyte) (id 1440)
AMHR2 anti-Mullerian hormone receptor, type II (id 269)
C9orf58 chromosome 9 open reading frame 58 (id 83543)
GAGATTCCAC (R02683)
TTCCCAGCTA (Cluster 21242)
TTCCAAGGTC (Cluster 21242)
TTCCAAGGTA (Cluster 21242)
GENE MOTIF
SI (sucrase-isomaltase); G000385
SI sucrase-isomaltase (alpha-glucosidase) (id 6476)
CPA2 carboxypeptidase A2 (pancreatic) (id 1358)
ITGB1BP2 integrin beta 1 binding protein (melusin) 2 (id 26548)
GGTGCAATAAAACTTTATGAGTA (R04239)
TTTATT-TCT (Cluster 22280)
TTTGTT-TCT (Cluster 22280)
TTTAGT-TAT (Cluster 22280)
GENE MOTIF
H4 (histone 4 pHu4A gene); G000295
H4 (or HRH4) histamine receptor H4 (id 59340)
NR1D1 nuclear receptor subfamily 1, group D, member 1 (id 9572)
GGTTTTCAATCTGGTCCG(R00687)
TGTTTTGAGT (Cluster 41063)
TGTTTTGGGT (Cluster 41063)
TRANSFAC
Observações
Motifs agrupados diferentes do motif anotado no TRANSFAC que teve casamento relevante.
Comparando nomes de genes entre NCBI e TRANSFAC
Resultados
Humano / Chimpanzé / Camundongo / Rato
Número inicial de genes humanos: 23516 genesNúmero de genes com ortólogos nas 4 espécies: 10738 genesNúmero de motifs identificados: 66903 motifsNúmero de grupos: K = 57536 grupos
57536 - 9738.3733333357670 - 9795.1166666757804 - 9765.1916666757937 - 9533.1383333358071 - 9449.37833333
Wmax – Wmin <= 400
Número de grupos com pelo menos 2 motifs: 8329 gruposNúmero de grupos com casamento relevante com TRANSFAC: 4498 grupos
Resultados
Humano / Chimpanzé / Camundongo / Rato / Cachorro
Número inicial de genes humanos: 23516 genesNúmero de genes com ortólogos nas 4 espécies: 9494 genesNúmero de motifs identificados: 11002 motifsNúmero de grupos: K = 7921 grupos
7921 - 10681.45333337943 - 10608.8057965 - 10619.74619057987 - 10602.748009 - 10498.6733333
Wmax – Wmin <= 200
Número de grupos com pelo menos 2 motifs: 2329 gruposNúmero de grupos com casamento relevante com TRANSFAC: 867 grupos
Resultados
Humano / Chimpanzé / Camundongo / Rato / Galinha
Número inicial de genes humanos: 23516 genesNúmero de genes com ortólogos nas 4 espécies: 6974 genesNúmero de motifs identificados: 1268 motifsNúmero de grupos: K = 968 grupos
968 - 2565.98333333971 - 2542.30333333973 - 2521.27666667976 - 2564.505978 - 2554.04833333
Wmax – Wmin <= 100
Número de grupos com pelo menos 2 motifs: 238 gruposNúmero de grupos com casamento relevante com TRANSFAC: 56 grupos
Resultados
Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha
Número inicial de genes humanos: 23516 genesNúmero de genes com ortólogos nas 4 espécies: 6382 genesNúmero de motifs identificados: 715 motifsNúmero de grupos: K = 537 grupos
537 - 1936.9539 - 1929.86333333540 - 1870.675541 - 1919.23543 - 1871.20166667
Wmax – Wmin <= 100
Número de grupos com pelo menos 2 motifs: 141 gruposNúmero de grupos com casamento relevante com TRANSFAC: 26 grupos
Resultados
Humano / Chimpanzé / Camundongo / Rato / Mosca
Número inicial de genes humanos: 23516 genesNúmero de genes com ortólogos nas 4 espécies: 3444 genesNúmero de motifs identificados: 13 motifsNúmero de grupos: K = 8 grupos
8 - 446.7333333339 - 404.43333333310 - 417.9
Wmax – Wmin <= 100
Número de grupos com pelo menos 2 motifs: 4 gruposNúmero de grupos com casamento relevante com TRANSFAC: 1 grupos
Resultados
Humano / Chimpanzé / Camundongo / Rato / Mosca
Neste estudo, o grupo que possui um casamento relevante com TRANSFAC foi o grupo 0.
CLUSTER 0:
ATTTATT-TG 1506 H.sapiens NC_000016.8 66520974 66523266 66521109
GTGTGTG-GT 5459 H.sapiens NC_000005.8 145698869 145700200 145698417
GGTTATG-AA 8834 H.sapiens NC_000017.9 21041855 21058297 21042121
GTTTATG--- => Sequência de consenso
A tabela a seguir lista os genes de cada um desses motifs e também o de alguns dos motifs do TRANSFAC com casamento relevante.
GENE MOTIF
CTRL chymotrypsin-like (id 1506)
POU4F3 POU domain, class 4, transcription factor 3 (id 5459)
TMEM11 transmembrane protein 11 (id 8834)
B-ACT (beta-actin); G000214
TCR-delta (T-cell receptor delta); G000395.
apoB (apolipoprotein B); G000205
GCC (guanylyl cyclase C); G001742
ATTTATT-TG (Cluster 0)
GTGTGTG-GT (Cluster 0)
GGTTATG-AA (Cluster 0)
CCTTTTATGG (R00040)
AAATAAACAAGGAGATAGGGTGTTTATTT (R01429)
GCATTTATGAGCTG (R04012)
GTTTATAGCTCTGACCT (R08886)
Conclusões
ESTUDO Genes com ortólogos
Motifs Grupos Grupos com mais de 1 motif
Grupos com casamento relevante no TRANSFAC
Humano/Chimpanzé/ Camundongo/Rato 10738 66903 57536 8329 4498
Humano/Chimpanzé/ Camundongo/Rato/ Cachorro
9494 11002 7921 2329 867
Humano/Chimpanzé/ Camundongo/Rato/ Galinha
6974 1268 968 238 56
Humano/Chimpanzé/ Camundongo/Rato/ Cachorro/Galinha
6382 715 537 141 26
Humano/Chimpanzé/ Camundongo/Rato/Mosca
3444 13 8 4 1
Conclusões
Objetivo alcançado
Motifs conhecidos / motifs novos
Resultados (lista de motifs, grupos e casamentos com Transfac) para cada um dos 5 estudos conduzidos nesta pesquisa estarão disponíveis na web.
Trabalhos Futuros
Conhecimento sobre genes ortólogos
Filtro de locais de início da transcrição ortólogos.
Vários elementos regulatórios para um mesmo gene.
Apêndice I - Programação
Python
BioPython
CLUSTALW
The C Clustering Library
Esta apresentação foi parte do Projeto Final de Graduação de Raonne Barbosa Vargas, para obtenção do grau de
Bacharel em Ciência da Computação
Departamento de InformáticaUniversidade Federal do Espírito Santo