uma abordagem computacional para a determinação de polimorfismos de base única
DESCRIPTION
Tese de Mestrado em Ciência da Computação, defendida em Janeiro de 2007, na Universidade Estadual de Campinas (UNICAMP)TRANSCRIPT
![Page 1: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/1.jpg)
Uma abordagem computacional para a determinação de polimorfismos de
base única
Miguel Galves Orientador: Zanoni Dias
IC - UNICAMP 01/12/2006
![Page 2: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/2.jpg)
Roteiro n Conceitos Básicos n Motivação n Objetivos n Alinhamento de seqüências n Detecção de SNPs e confiabilidade n Correlação de SNPs n Conclusão
![Page 3: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/3.jpg)
Processo básico de tradução genética n A informação genética dos seres vivos é
armazenada em cadeias de nucleotídeos n Bases A, C, G e T
n Proteínas são geradas a partir da leitura da cadeia de nucleotídeos n Processo de tradução
n Proteína = cadeia de aminoácidos n 1 aminoácido = 3 nucleotídeos = 1 códon
![Page 4: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/4.jpg)
Tradução
![Page 5: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/5.jpg)
Polimorfismos e SNP n Polimorfismo: dois ou mais alelos diferentes
em indivíduos da mesma espécie n Deve aparecer em pelo menos 1% da
população n SNP: polimorfismo que ocorre em apenas
uma base da seqüência n SNP sinônimo: não modifica o aminoácido n SNP não sinônimo: modifica o aminoácido
![Page 6: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/6.jpg)
Porque estudar SNPs? n Correspondem a mais de 90% dos
polimorfismos nos seres humanos n Causa de grande parte das doenças com base
genética n Grande interesse das industrias farmacêuticas
n Criação de terapias específicas n Marcadores para mapeamento fino do genoma
![Page 7: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/7.jpg)
Objetivos do trabalho n Estudar 3 etapas distintas no processo de
detecção e análise de SNPs: n Alinhamento de ESTs com DNA genômico n Detecção de SNPs por análise de
cromatograma n Correlação de SNPs
![Page 8: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/8.jpg)
Alinhamento de DNA com ESTs
![Page 9: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/9.jpg)
Alinhamento de sequências
n Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas
n Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G
ACCTTCGTTTTG
n Pontuação permite avaliar o alinhamento n Problema de otimização: obter o alinhamento
de melhor pontuação
![Page 10: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/10.jpg)
Algoritmos clássicos de alinhamento n Estratégias de alinhamento
n Global n Semi-global n Local
n Sistemas de pontuação n Simples: match, mismatch, gap n Linear: match, mismatch e
gap(k) = g + hk
![Page 11: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/11.jpg)
Porque estudar alinhamento de mRNA com DNA?
![Page 12: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/12.jpg)
Objetivos desta etapa
Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA
![Page 13: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/13.jpg)
Metodologia
n Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers
n Criação de uma base de testes n Definição de um conjunto de parâmetros de
alinhamento n Execução de alinhamentos de mRNAs com
genes de origem n Nosso alinhador, sim4, est_genome e Spidey
n Definição de métricas para avaliação dos alinhamentos obtidos
![Page 14: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/14.jpg)
Conjunto de dados
1. 64 genes do cromossomo Y humano com menos de 100.000 bases
2. 40 genes completos do cromossomo Y humano com menos de 100.000 bases
3. 7376 genes completos do genoma humano com menos de 10.000 bases
4. 4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%
![Page 15: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/15.jpg)
Resultados obtidos - Conjunto 3
Extra Gap Delta Exon Similaridade Mismatch
(1,-2,-1,0) 0.00 0.00 99.89% 0.00%
(1,-2,-10,0) 0.00 0.01 99.89% 0.00%
Sim4 1.03 -0.03 99.18% 0.21%
Est_genome 15.56 -0.17 58.00% 1.31%
Spidey 0.12 -3.82 81.02% 0.17%
![Page 16: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/16.jpg)
Resultados obtidos - Conjunto 4
![Page 17: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/17.jpg)
Resultados obtidos - Conjunto 4
![Page 18: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/18.jpg)
Resultados obtidos
n O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios
n O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores
n Sim4, est_genome e Spidey são mais regulares com ESTs com erros
![Page 19: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/19.jpg)
Detecção de SNPs
![Page 20: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/20.jpg)
Base-calling e sequenciamento
![Page 21: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/21.jpg)
Porque estudar base-calling? n Pacote phred ignora sinais secundários no
cromatograma n Apenas uma base por posição n SNPs podem gerar sinais secundários
n PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV
![Page 22: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/22.jpg)
Objetivos desta etapa
n Detecção de SNPs em cromatogramas de seqüências de HIV
n Estudo de métodos para determinação de confiabilidade dos resultados
![Page 23: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/23.jpg)
Metodologia
n Definir algoritmos para análise e correção de cromatograma
n Executar os algoritmos com diversos parâmetros, para análise preliminar
n Determinação de dois algoritmos para tunning
n Determinação do melhor algoritmo e do melhor conjunto de parâmetros
![Page 24: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/24.jpg)
Conjunto de dados n Sequências genéticas de HIV
n 1302 bp n Região bem conservada
n 35 lotes de amostras de indivíduos soropositivos n 6 leituras n 1 seqüência validada, com SNPs anotados
manualmente n Sequência de referência de HIV
![Page 25: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/25.jpg)
Algoritmos de correção n Relação das Áreas n Relação das Médias das Alturas n Limite Variável n Pico Único por Janela n Eliminação de Picos Ruins n Pico Mais Baixo
![Page 26: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/26.jpg)
Relação das Áreas
![Page 27: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/27.jpg)
Relação das Médias das Alturas
x2x1 x1
FAKE_PEAK_HEIGHT_PERCENTAGE
MAXIMUM_FAKE_PEAK_WIDTH
MINIMUM_BORDER_DISTANCE
MINIMUM_HEIGHT
PEAKLAST POSITION
FIRST POSITION
![Page 28: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/28.jpg)
Resultados obtidos Verdadeiro
Positivo Falso
Negativo Falso
Positivo
Área 75% 23% 394%
Média das alturas 53% 42% 317%
PolyPhred 0% 100% 0%
PolyBayes 0% 100% 0%
![Page 29: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/29.jpg)
Confiabilidade Estatística n Comparação de dois métodos de
confiablidade estatística para SNPs: n PolyBayes: estatística bayesiana n MSASNP: qualidades das bases
n Conjunto de teste: SNPs anotados do SUCEST
n MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes
![Page 30: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/30.jpg)
Correlação de SNPs
![Page 31: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/31.jpg)
Linkage Disequilibrium n Associação não aleatória entre alelos n Informações sobre um alelo fornece
informações sobre o outro n Medidas para quantificar LDs
n D’ = 1, chamado de LD completo n r2 ≥ 1/3, chamado de LD útil
n LD múltiplo: conjunto de SNPs em LD dois a dois
![Page 32: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/32.jpg)
Porque estudar LDs?
n Doenças genéticas podem ser influenciadas por vários SNPs correlacionados
n LD permite efetuar mapeamento fino do genoma humano n Técnica tradicional: definição de 1 a 2cM n LD: definição de 0.1cM
![Page 33: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/33.jpg)
Objetivos desta etapa n Estudar LDs múltiplos n Analisar o efeito do uso das medidas D’ e r2
![Page 34: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/34.jpg)
Metodologia
n Pré-processamento do conjunto de dados n Definição de uma heurística para busca de
cliques em grafos n Problema NP-Difícil
n Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2
![Page 35: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/35.jpg)
LDs múltiplos
![Page 36: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/36.jpg)
LDs múltiplos
(j, f, i, e, g, m, n)
(k, l, h)
![Page 37: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/37.jpg)
Conjunto de dados
n ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados
n Genes do genoma humano obtidos do NCBI: n HLA-A, HLA-B e HLA-DOB n Genes do complexo MHC n Região com alta densidade de SNPs anotados
![Page 38: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/38.jpg)
Resultados n Bons resultados obtidos com tempo de
busca de 5 segundos por clique n D’ apresenta resultados melhores
n Maior capacidade de agrupamento n Menor tendência de isolamento de SNPs
n r2 gera grafos com menos arestas
![Page 39: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/39.jpg)
Considerações finais n Foram estudadas 3 etapas distintas
relacionadas a SNPs n Resultados bastante satisfatórios, tendo em
vista o tipo de problema analisado n Seria interessante implementar um fluxo de
trabalho único unindo estas etapas
![Page 40: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/40.jpg)
Trabalhos publicados n Alinhamento
n M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg.
Apresentado no BSB 2005, Porto Alegre - RS.
n Detecção de SNPs n M. Galves, J. A. A. Quitzau e Z. Dias,
"New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006. Apresentado no X-Meeting 2005, Caxambu - MG.
![Page 41: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader033.vdocuments.mx/reader033/viewer/2022042614/558437bed8b42a84368b46ec/html5/thumbnails/41.jpg)
Relatórios técnicos n LDs múltiplos
n A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006.
n Confiabilidade Estatística
n C. Baudet, M. Galves e Z. Dias,“Comparação de métodos para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.