biologia/medicina a revolução da genômica/bioinformática
TRANSCRIPT
![Page 1: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/1.jpg)
BIOLOGIA/MEDICINA
A Revolução daGenômica/Bioinformática
![Page 2: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/2.jpg)
A Verdadeira Revolução
Início do séc. 20: Mendel e as leis da hereditariedade.
1944: DNA como elemento carreador da informação genética (Avery)
1953: Watson/Crick e aestrutura do DNA.
Anos 70 e 80: Biologia Molecular/Biotecnologia
Anos 90 e séc. 21: Genômica/Bioinformática
![Page 3: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/3.jpg)
História da Biologia Molecular
1951 Fred Sanger, Amino Acid Sequence of Insulin 1953 Watson/Crick, Estrutura do DNA 1957 Francis Crick, Central Dogma, DNA RNA Protein 1960’s Nirenberg, Matthaei, The Genetic Code 1967 Shapiro and Beckwith, First gene cloned, LacZ 1972 Paul Berg, First recombinant DNA molecule 1973 Cohen/Boyer, First recombinant organism 1977 Maxam/Gilbert and Fred Sanger, DNA sequencing 1977 Fred Sanger, Complete sequence of phage X174 1978 David Botstein, Restriction Fragment Length
Polymorphisms (RFLP) 1980 Kerry Mullis, PCR 1983 Lee Hood, First Automated DNA Sequencer
![Page 4: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/4.jpg)
Sequenciamentodo DNASanger, Gilbert (Nobel 1980)
![Page 5: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/5.jpg)
Sequenciamento Automático
Leroy Hood
30kb por corrida
![Page 6: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/6.jpg)
A era genômica
![Page 7: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/7.jpg)
376 Genomas Concluídos! 251 como rascunho! 342 em andamento
1995, Haemophilus influenzae 1996, Methanococcus jannaschii 1997, Saccharomyces cerevisiae 1997, Escherichia coli 1998, Caenorhabditis elegans 2000, Drosophila melanogaster 2000, Arabidopsis thaliana 2001, Homo sapiens 2002, Schizosaccharomyces
pombe 2002, Oryza sativa 2002, Mus musculus 2005, Pan troglodites
327 Bacterial, 27 Archeal, 22 Eukaryotic
http://www.ncbi.nlm.nih.gov09/07/2006
![Page 8: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/8.jpg)
Um modelo genético
![Page 9: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/9.jpg)
Genoma Humano2001
International Consortium Grupos acadêmicos
Celera Genomics Companhia Privada
![Page 10: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/10.jpg)
A nova revolução da Genômica
454 Solexa - Illumina SOLiD - ABI
~120 MB de DNApor corrida
~01 GB de DNApor corrida
~03 GB de DNApor corrida
12KB/US$ 100KB/US$ 300KB/US$
Tecnologia de Capilar = 0.5KB/US$
![Page 11: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/11.jpg)
Nova tecnologia
Dispensa clonagem dos fragmentos em sistemas bacterianos
Dispensa a preparação de DNA molde para sequenciamento
Reações feitas em paralelo em volume extremamente pequeno - nanotecnologia
![Page 12: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/12.jpg)
Aplicações
Sequenciamento de Genomas sequenciamento de novo re-sequenciamento - variabilidade SNPs e
mutações
Sequenciamento de Transcriptomas variabilidade - splicing, poliadenilação quantificação de expressão gênica
![Page 13: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/13.jpg)
Sequenciamento de novo
![Page 14: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/14.jpg)
Re-sequenciamento
![Page 15: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/15.jpg)
Transcriptoma
![Page 16: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/16.jpg)
Projeto 454
Participantes: LICR-SP, LICR-NY, Venter Institute
Objetivo: Sequenciamento extensivo dos genes expressos na linhagem celular HCC1954 (tumor de mama) buscando conhecer, com um único set de dados, alterações genéticas e epi-genéticas neste tipo de câncer.
Sequenciador: 454
![Page 17: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/17.jpg)
Fapesp/LICRGenoma Humano do Câncer Projeto 454 Venter/LICR
# sequências 1.2 milhões 520 mil
# sequenciadores 05 MegaBaces 01 454
# corridas ~15,000 01
Custo (US$)* 12 milhões 10 mil
* Excluindo o preço dos aparelhos
![Page 18: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/18.jpg)
Um objetivo a curto prazo
![Page 19: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/19.jpg)
Os sequenciadores de nova geraçãopromovem uma mudança no
paradigma
Com os bilhões de datapoints gerados em
horas, o processamento e análise dos dados tornou-se o maior
gargalo das pesquisas biomédicas.
Geração de dados deixa de ser o fator limitante
![Page 20: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/20.jpg)
Bioinformática
Computação Matemática Biologia
![Page 21: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/21.jpg)
O que é Bioinformática?
![Page 22: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/22.jpg)
![Page 23: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/23.jpg)
![Page 24: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/24.jpg)
Bioinformática - História
1970, Needleman/Wunch, Alinhamento Global. 1972, Margaret Dayhoff, Matrizes de
Comparação. 1979, Walter Goad, GenBank. 1981, Smith/Waterman, Alinhamento Local. 1989, NHGRI, Projeto Genoma Humano. 1990, Altschul/Gish/Miller/Myers/Lipman, BLAST. 1994, Eddy/Krogh/Durbin, Hidden Markov
Models (HMMs).
![Page 25: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/25.jpg)
Bioinformática - Importância
Poucas pessoas adequadamente treinadas em Biologia e Computação.
Biologia em larga-escala. Produção de dados em massa gera uma demanda para análises computacionais.
Economiza tempo e dinheiro.
![Page 26: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/26.jpg)
Bioinformática
Desenvolvimento de ferramentas. Forma de explorar novos dados. Processamento de dados gerados por
projetos em larga-escala. Uma nova forma de se fazer ciência
dirigida por hipóteses.
![Page 27: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/27.jpg)
Bioinformática
O Bioinformata O Usuário- Manipula a informação.- Desenvolve ferramentas- Bancos de dados locais.- Local. - Mta programação.- Habilidades de TI.
- Recursos da Web.- Local ou remoto.- nada de programação.- pouca habilidade de TI.
![Page 28: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/28.jpg)
Cinco websites que todos devem conhecer
NCBI (The National Center for Biotechnology Information; http://www.ncbi.nlm.nih.gov/
EBI (The European Bioinformatics Institute) http://www.ebi.ac.uk/
The UCSC Genome Browser http://genome.ucsc.edu/
SwissProt/ExPASy (Swiss Bioinformatics Resource) http://expasy.cbr.nrc.ca/sprot/
PDB (The Protein Databank) http://www.rcsb.org/PDB/
![Page 29: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/29.jpg)
NCBI (http://www.ncbi.nlm.nih.gov/)
Acesso aos bancos de dados via EntrezMedline/OMIMGenbank/Genpept/Structures
Servidor de BLASTTodos os tipos de Blast
Portal do Genoma Humano Muito, muito mais……..
![Page 30: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/30.jpg)
![Page 31: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/31.jpg)
![Page 32: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/32.jpg)
EBI (http://www.ebi.ac.uk/)
Acesso a bancos de dados via SRSEMBL, SwissProt, ……
Muitas outras ferramentasClustalW, DALI, …
![Page 33: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/33.jpg)
![Page 34: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/34.jpg)
UCSC Genome Browser (http://genome.ucsc.edu/) Banco de dados e Browser para genomas
de diferentes espéciesHumano, camundongo, rato, zebrafish, etc….
Muitas outras ferramentasSNPs, domínios prtéicos, genômica
comparativa, etc….
![Page 35: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/35.jpg)
![Page 36: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/36.jpg)
SwissProt (http://www.expasy.ch/sprot/) Checagem manual.
O número de entradas errôneas é bastante reduzido.
Cross-link extensivo com outros bancos SwissProt é o ‘gold-standard’ em termos
de bancos de dados e é o melhor lugar para se começar uma análise se vc procura info para uma ou poucas
![Page 37: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/37.jpg)
![Page 38: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/38.jpg)
Protein Data Bank – PDB (http://www.rcsb.org/pdb/)
Armazena a estrutura tri-dimensional para milhares de proteínas
Acesso a vários serviços relacionados a biologia estrutural
![Page 39: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/39.jpg)
![Page 40: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/40.jpg)
Bancos de Sequência Primários
GenBank (USA) http://www.ncbi.nlm.nih.gov/Genbank
EMBL (Europa) http://www.ebi.ac.uk/embl/
DDBJ (Japão)http://www.ddbj.nig.ac.jp/
![Page 41: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/41.jpg)
Homologia
- Ortologia
- Paralogia
![Page 42: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/42.jpg)
Dois conceitos importantes
Paralogia: O evento que originou às duas sequências é um evento de duplicação gênica!
Orthologia: O evento que deu origem às duas sequências é um evento de especiação!
FUNÇÕES SIMILARES!
FUNÇÕES IDÊNTICAS!
![Page 43: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/43.jpg)
Como definir função?
Alinhamento de sequências Motivos (padrões consensuais) Blocos, perfis, etc.... Hidden Markov Models - HMM
![Page 44: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/44.jpg)
Similarity Searches on Sequence Databases, EMBnet Course, October 2003
![Page 45: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/45.jpg)
Alinhamento
Identidade - MATCH
Semelhança / divergência - MISMATCH
Lacunas - GAPS
Inserção/Deleção - INDELS
0 1 2 3 4 5 6 7 8 9 10G A A - G G A T T A GG A T C G G A - - A G
![Page 46: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/46.jpg)
Alinhamento
Qual é o melhor alinhamento ?
Alinhamento 1:A – C – G G – A C T
| | | - | | A T C G G A T – C T
Alinhamento 2: A T C G G A T C T | | | | - | |
A – C G G – A C T
![Page 47: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/47.jpg)
Pontuação
Esquema de pontuação
match: +2 mismatch: +1
indel: –2
Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 – 8 = 3
Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 – 4 = 9
Escore final = soma dos escores para cada posiçãoFavorece os matches, penaliza os gaps
![Page 48: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/48.jpg)
Matriz de Substituição
Tabela de comparação
Reflete a probabilidade ou frequência de determinada substituição em sequências biologicamente relacionadas
p(A B) = p(B A)
Construídas pelo estudo do alinhamento de diversas sequências relacionadas
AA ou nucleotídeos
![Page 49: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/49.jpg)
Percent Accepted Mutation (PAM - Dayhoff)
Margaret Dayhoff (1978)
Probabilidade de substituição de aa em alinhamentos globais de sequências homólogas
Cada matriz reflete as mutações entre sequências que divergiram por determinado período de tempo
Mutações aceitas => não afetam negativamente a viabilidade da proteína
Primeira matriz 71 grupos de proteínas, 85% de similaridade 1572 substitutições de aminoácidos
Expansão do número de proteínas => 1991 database
![Page 50: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/50.jpg)
Premissa => cada mutação é independente das mutações anteriores
Consequência => as substituições observadas em curtos períodos podem ser extrapoladas para longos períodos
PAM 1 => sequências com 1% ou menos de divergência =>1 mutação aceita a cada 100 aminoácidos
PAM N mutações = (PAM 1)N
PAM 250 => 250 mutações por 100 aa => 250% mutações em 2500 milhões anos
PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60%
Matrizes PAM
![Page 51: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/51.jpg)
http://www.blc.arizona.edu/courses/bioinformatics/dayhoff.html
![Page 52: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/52.jpg)
Blocks Substitution Matrix (BLOSUM)
Kenikoff & Henikoff (1992)
Frequência de substituição de aa em um conjunto de ~2000 padrões (blocos)
Maior número de sequências consideradas => mais de 500 famílias
Alinhamentos locais de sequências relacionadas e não geradas a partir de extrapolações
BLOSUM 62 é o padrão para BLAST 2.0 => sequências moderadamente distantes ou mais próximas
Sequências Consenso 60% idênticas: BLOSUM 60 80% idênticas : BLOSUM 80
![Page 53: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/53.jpg)
http://www.blc.arizona.edu/courses/bioinformatics/blosum.html
G A V C T K IG V V C Y R E
6+0+4+9+(-2)+2+(-3)= 16
![Page 54: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/54.jpg)
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html
Relação ente BLOSUM e PAM
PAM => origens evolutivas de proteínas
BLOSUM => domínios conservados
![Page 55: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/55.jpg)
Global vs. Local
Global Alinhamento de toda a sequência utilizado o maior
número de caracteres possíveis Sequências similares e de tamanho aproximado
Local Segmentos com o maior número de identidades Regiões alinhadas e não alinhadas (≠ mismatch) Sequências similares em algumas regiões, que diferem
em tamanho ou que compartilham domínios conservados
![Page 56: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/56.jpg)
Aplicações
Global Deduzir histórias evolutivas entre membros da mesma família Estabelecer a existência de um ancestral comum (homologia)
Local Inferir funções biológicas Identificar regiões conservadas e de alta similaridade (sítio
ativo, domínios) entre outras pouco conservadas Reconstruir sequências de DNA a partir de seus fragmentos Comparar sequências de mRNA (sem íntrons) à sequência
genômica
![Page 57: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/57.jpg)
Métodos de Análise
Diagramas - DOT PLOT
Algoritmo de Programação Dinâmica
Algoritmos Heurísticos - Word-Based ou K-tuples
![Page 58: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/58.jpg)
Dot Plot
![Page 59: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/59.jpg)
Inserções & Deleções
![Page 60: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/60.jpg)
Repetições & Inversões
![Page 61: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/61.jpg)
Programas Disponíveis
Dotter (http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html)
COMPARE & DOTPLOT (Genetics Computer Group)
PLALIGN (http://fasta.bioch.virginia.edu/fasta/fasta_list.html)
Web browser (http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html)
![Page 62: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/62.jpg)
Programação Dinâmica
Needleman & Wunsch (1970)
Compara cada par de caracteres nas duas sequências
Posiciona os gaps de forma a obter o maior número de alinhamentos idênticos ou similares
Gera uma matriz de números que representa todos os possíveis alinhamentos de acordo com um sistema de escore
Alinhamento ótimo => maior escore
![Page 63: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/63.jpg)
Limitações
Computacionalmente lento
Número de alinhamentos cresce exponencialmente com a média dos comprimentos das sequências (n)
Número de cálculos => proporcional a n2 ou n3
Memória => capacidade da ordem de n2
![Page 64: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/64.jpg)
Needleman-WunschAs sequências abcdefghajklm abbdhijkSão alinhadas e scores são dados a b c d e f g h a j k l m | | | | | | a b b d . . . h i j k match 4 4 4 4 4 4 mismatch -3 -3 gap_open -2 gap_extend -1-1-1Score total de 24-6-2-3 = 13.
![Page 65: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/65.jpg)
Needleman-Wunsch
O alinhamento de maior score entre as duassequências é considerado o mais provável.
![Page 66: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/66.jpg)
Global: HBA_HUMAN vs HBB_HUMANScore: 290.50
HBA_HUMAN 1 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44 |:| :|: | | |||| : | | ||| |: : :| |: :|HBB_HUMAN 1 VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE 43
HBA_HUMAN 45 HF.DLS.....HGSAQVKGHGKKVADALTNAVAHVDDMPNALSAL 83 | ||| |: :|| ||||| | :: :||:|:: : |HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATL 88
HBA_HUMAN 84 SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF 128 |:|| || ||| ||:|| : |: || | |||| | |: |HBB_HUMAN 89 SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV 133
HBA_HUMAN 129 LASVSTVLTSKYR 141 :| |: | ||HBB_HUMAN 134 VAGVANALAHKYH 146
%id = 45.32 %similarity = 63.31Overall %id = 43.15 Overall %similarity = 60.27
Needleman-WunschSaída típica:
![Page 67: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/67.jpg)
Razões para se usar um banco de sequências
Eu acabei de obter uma sequência. O que é sabido à respeito desta sequência? Ela é única?
Eu tenho uma sequência única. Ela tem similaridade com alguma outra sequência de função conhecida?
Eu encontrei uma nova proteína em um determinado organismo. Existe um ortólogo conhecido?
Eu decidi trabalhar com um gene novo. Eu não tenho como obter um clone contendo a sequência deste gene. Eu preciso da sequência do cDNA para fazer uma PCR.
![Page 68: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/68.jpg)
O que envolve uma busca ?
Algoritmos de busca (BLAST, FASTA)
Matrizes de comparação (PAM vs. BLOSUM)
Banco de dados (nr, dbEST)
Parâmetros de busca (filtros on/off, threshold, etc…)
![Page 69: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/69.jpg)
Basic Local Alignment Search Tool
Método heurístico => método empírico, que utiliza a fórmula ´tentativa e erro´ para encontrar as soluções
Significado estatístico => determina se um alinhamento ocorre aleatoriamente ou não
Vantagem => pelo menos 50 vezes mais rápido que os algoritmos de programação dinâmica e mais apropriados para busca em bancos de dados
Desvantagem => não garante uma solução com um alinhamento ótimo como os algoritmos de programação dinâmica
![Page 70: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/70.jpg)
Aplicações
Identificar sequências ortólogas e parálogas
Descobrir novos genes ou proteínas
Descobrir variantes de genes e proteínas
Investigar Expressed Sequence Tags - ESTs
Explorar a estrutura e função de proteínas
![Page 71: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/71.jpg)
BLAST WEB Pages
BLAST (NCBI – National Center for Biotechnology Information): http://www.ncbi.nlm.nih.gov/BLAST/
BLAST2 (Swiss EMBnet server - European Molecular Biology network??): http://www.ebi.ac.uk/blastall/
WU-BLAST (Washington University): http://blast.wustl.edu/
![Page 72: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/72.jpg)
![Page 73: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/73.jpg)
Blast é Heurístico
1) Tabela de busca com todas as ´palavras´ (words) de comprimento W (3 aa ou11 nucleot.) mais as palavras vizinhas semelhantes, que aparecem pelo menos T vezes na sequência query.
2) Busca de sementes (hits, hot spots) na sequência do banco de dados que alinhem com as palavras previamente estabelecidas.
3) Extensão das sementes em ambas as direções, produzindo alinhamentos locais máximos (HSP - high scoring pair) com ou sem lacunas, de acordo com os parâmetros estabelecidos.
4) Registro da informação em um arquivo SeqAlign (ASN.1).
5) A informação é utilizada para buscar sequências similares. Os resultados podem ser reformatados sem a necessidade de refazer a busca.
![Page 74: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/74.jpg)
Sensibilidade vs. Seletividade
Sensibilidade
Habilidade de encontrar a maior parte dos membros relacionados à família da sequência query
Seletividade
Habilidade de não identificar sequências de outras famílias como falso-positivos
“Grau de cobertura dos membros da família dado um nível de falso-positivos”
![Page 75: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/75.jpg)
Escores e Estatística
Bit Score
Indica quão bom é o alinhamento. Quanto maior o escore, melhor o alinhamento
Considera o número de resíduos idênticos ou similares e a quantidade de gaps
Influenciado pela Matriz de Substituição (padrão: BLOSUM 62 )
Exceção: blastn and MegaBLAST
Normalização: bit scores de diferentes alinhamentos podem ser comparados
![Page 76: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/76.jpg)
Escores e Estatística
E-value
Significado estatístico do alinhamento
Quanto menor o escore, mais significativo é o alinhamento
E-value = 0.05. Significa que existem 5 chances em 100 (1 em 20) da similaridade entre as sequências ocorrer aleatoriamente
Influenciado pelo tamanho do banco de dados e o sistema de escore utilizado
![Page 77: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/77.jpg)
Etapas de Busca
1) Selecionar a sequência (query)
2) Selecionar o banco de dados
3) Selecionar o programa
4) Definir os parâmetros
![Page 78: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/78.jpg)
Passo 1: Escolha da sequência
Natureza
Tamanho
Formatos : Identificadores (ID), FASTA (>seq name), sequências puras (txt?)
![Page 79: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/79.jpg)
![Page 80: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/80.jpg)
![Page 81: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/81.jpg)
Passo 2: Seleção do Banco de Dados
ProteínasGenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP
NucleotídeosGenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69, STS70, vetores,
sequências de mitocôndrias, GSS71, sequências HTGS72
Conteúdo não-redundância, periodicidade de atualização organismos ou espécies sequências patenteadas interesse imunológico elementos repetitivos, etc.
![Page 82: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/82.jpg)
http://www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
![Page 83: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/83.jpg)
![Page 84: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/84.jpg)
Passo 3: Seleção do Programa
Natureza da sequência
Finalidade da busca
Banco de dados
![Page 85: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/85.jpg)
5’ CAT CAA 5’ ATC AAC 5’ TCA ACT
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’
DNA codifica 6 proteínas potenciais
![Page 86: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/86.jpg)
programa entrada banco de dados
1blastn DNA DNA
1blastp protein protein
6blastx DNA protein
6tblastn protein DNA
36tblastx DNA DNA
Tipos de Programas
![Page 87: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/87.jpg)
Passo 4: Seleção dos parâmetros
Tamanho da palavra (w-er) Filtros E value Matriz de substituição & penalidades para gap
Sensibilidade e velocidade => W, T e XSeletividade => cutoff score
![Page 88: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/88.jpg)
Entrez
Filter
Scoring matrix
Word size
Expectorganism
![Page 89: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/89.jpg)
Filtro
![Page 90: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/90.jpg)
Report Header
Tipo de programa (BLASTP), versão (2.2.1) e data da versão Artigo que descreve o BLAST, request ID (issued by QBLAST), a definição
da sequência e resumo do banco de dados Taxonomy reports: mostra o resultado deste BLAST na base de informação
do banco de dados Taxonomy
![Page 91: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/91.jpg)
Taxonomy Report
![Page 92: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/92.jpg)
Graphical Overview
Quanto mais próximas da query, mais semelhantes Barras em rosa: lower-scoring matches que alinham em 2 regiões (resíduos
3-60 e 220-500) Segmento rachurado: as duas regiões de similaridade estão na mesma
proteína mas esta região não alinha Outras barras: lower-scoring matches
query
database hits
![Page 93: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/93.jpg)
One-line Descriptions
(a) gi number, designação do banco de dados, número de acesso e o nome do locus para as sequências encontradas, separados por barras verticais
(b) Definição da sequência(c) Escore de alinhamento ( bits) (d) E-value
![Page 94: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/94.jpg)
Pairwise Sequence Alignment
![Page 95: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/95.jpg)
![Page 96: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/96.jpg)
Famílias de Elementos Repetitivos
Alu L1 L2 Tais sequências podem gerar
alinhamentos espúrios.
![Page 97: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/97.jpg)
Alu
Constitutes about 5% of the human genome.
Short interspersed repeats. Found in primate genomes. ALU elements often found in 3’ regions or
introns.
![Page 98: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/98.jpg)
Blast usando uma sequência de Alu
![Page 99: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/99.jpg)
![Page 100: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/100.jpg)
Como identificar e remover elementos repetitivos
Filter para elementos repetitivos no servidor de Blast do NCBI
Repeat Masker: http://ftp.genome.washington.edu/cgi-bin/RepeatMasker
![Page 101: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/101.jpg)
Nair & Rost, 2002
![Page 102: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/102.jpg)
Way out!
- psi-Blast
- pattern (phi-Blast)
- Hidden Markov Models (HMMs)
![Page 103: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/103.jpg)
Position Specific Interactive (PSI)-BLAST
Detecta proteínas fracamente relacionadas ou novos membros de uma família protéica (mais sensível)
Utilizado quando o BLAST padrão falha em encontrar hits significativos ou retorna hits com decrições do tipo "hypothetical protein" ou "similar to... "
Busca iterativa => comparam-se as sequências de alto escore com a sequência de busca para determinar quais delas são altamente conservadas
Sequências resultantes => construção de um modelo de escore específico por posição (consenso) => Position-Specific Scoring Matrix (PSSM ou profile)
![Page 104: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/104.jpg)
PSI-BLAST - Algoritmo
Busca com BLASTp normal
Construção de um consenso a partir das regiões alinhadas com E values menores que o limite estabelecido (padrão = 0.005)
Utilizando este consenso, procede a uma nova pesquisa sobre a base de dados
Quaisquer novos hits abaixo do limite são incluídos em um novo PSSM
Fim do processo (convergência) : nenhuma nova sequência é
adicionada ao consenso em iterações subsequentes
![Page 105: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/105.jpg)
Pattern-Hit Initiated (PHI)-BLAST
Busca proteínas que contém padrão especificado pelo usuário E é similar à sequência query em relação in the vicinity ao padrão
Reduz o número de hits que contém o padrão no banco de dados mas pode também apresentar nenhuma homologia ao query
Exemplo de sequência query e um padrão no formato ProSite:
>gi|4758958|ref|NP_004148.1| Human cAMP-dependent protein kinaseMSHIQIPPGLTELLQGYTVEVLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDRVADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVIHPKTDEQRCRLQEACKDILLFKNLDQEQLSQVLDAMFERIVKADEHVIDQGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELALMYNTPRAATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEVSERMKIVDVIGEKIYKDGERIITQGEKADSFYIIESGEVSILIRSRTKSNKDGGNQEVEIARCHKGQYFGELALVTNKPRAASAYAVGDVKCLVMDVQAFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ
Padrão encontrado: [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV]
![Page 106: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/106.jpg)
Hidden Markov Models
An approach based on statistical sampling theory
Previously used with success for natural language processing
Model sequence as a Markov model that is not known (hidden)
Observed sequence is a noisy representation of the hidden “true” model
![Page 107: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/107.jpg)
A HMM for a DNA sequence
CA CT
T (prob 0.8) or A (prob 0.2)
A (prob 0.7) or T (prob 0.3)
G (prob 0.1) or C (prob 0.9)
G (prob 0.1) or C (prob 0.9)
![Page 108: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/108.jpg)
Idea of HMM
Since multiple alignment of k sequences take O(Nk) time, instead estimate a statistical model of the sequences
Align the multiple sequences to this model This is equivalent to aligning the
sequences to one another
![Page 109: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/109.jpg)
Protein Family Classification
Pfam large collection of multiple sequence
alignments and hidden Markov models covers many common protein domains
and familiesOver 73% of all known protein sequences
have at least one match5,193 different protein families
![Page 110: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/110.jpg)
Pfam
Initial multiple alignment of seeds using a program such as Clustal
Alignment hand scrutinized and adjusted
![Page 111: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/111.jpg)
Pfam
Links to the Pfam software: http://pfam.wustl.edu/ http://www.sanger.ac.uk/Software/Pfam/index.shtml
View some examples:
http://pfam.wustl.edu/
![Page 112: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/112.jpg)
Locating ORFs
Simplest method of predicting coding regions is to search for open reading frames (ORFs)
open reading frames begin with a start (AUG) codon, and ends with one of three stop codons
Six total reading frames
![Page 113: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/113.jpg)
Locating ORFs
Prokaryotes: DNA sequences coding for proteins generally transcribed into mRNA which is translated into protein with very little modification
Locating an open reading frame from a start codon to a stop codon can give a strong suggestion into protein coding regions
Longer ORFs are more likely to predict protein-coding regions than shorter ORFs.
![Page 114: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/114.jpg)
Locating ORFs
Eukaryotes: mRNA undergoes processing to remove introns before the protein is translated
ORF corresponding to a gene may contain regions with stop codons found within intronic regions
Posttranscriptional modification makes gene prediction more difficult
![Page 115: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/115.jpg)
Filogenia
Problema de determinação de árvores filogenéticasEncontrar a árvore que melhor descreve a
relação entre um conjunto de objetos (espécies ou táxons)
Cenoura Baleia Chimpanzé Humano
![Page 116: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/116.jpg)
Filogenia
Táxons e Complexidade3 árvores possíveis para 4 táxons Para 5 táxons?
![Page 117: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/117.jpg)
Filogenia
Táxons e Explosão Combinatorial
![Page 118: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/118.jpg)
Métodos para reconstrução filogenética
03 métodos principais: :ParsimôniaMétodos baseados em distânciaVerossimilhança máxima
![Page 119: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/119.jpg)
Parsimônia
Dá preferência à topologia que requer o menor número de mudanças .
![Page 120: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/120.jpg)
Filogenia
Métodos de DistânciaA distância evolutiva é calculada para todos
os pares de táxonsMatriz de DistânciasA árvore filogenética é construída
considerando a relação entre esses valores de distâncias
![Page 121: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/121.jpg)
O método de evolução mínima
Para todas as topologias possíveis : Calcula o comprimento de todos os ramos, S
Mantém a árvore com menos S.
Problema: computacionalmente intenso. Não é usado com mais de 25 sequências.
![Page 122: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/122.jpg)
Filogenia Métodos com Critério de Ótimo
Máxima Verossimilhança Determina-se a probabilidade de um modelo evolutivo
gerar um certo dado Considera todos os sítios e todas as possibilidades
de mutações em todos os nós internos da árvore proposta
Multiplica-se a probabilidade de cada sítio Probabilidade da árvore
Pode ser utilizado para análises de características e de valores
Mais consistente e com estimativas com menor variância Não é simples e intuitivo Computacionalmente intenso
![Page 123: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/123.jpg)
Bootstrap procedure
O suporte para cada ramo interno é expresso em
termos the % de réplicas.
1 N acgtacatagtatagcgtctagtggtaccgtatg aggtacatagtatgg-gtatactggtaccgtatg acgtaaat-gtatagagtctaatggtac-gtatg acgtacatggtatagcgactactggtaccgtatg
real alignment
random sampling, with replacement, of N sites
1 N gatcagtcatgtataggtctagtggtacgtatat tgagagtcatgtatggtgtatactggtacgtaat tgac-gtaatgtataggtctaatggtactgtaat tgacggtcatgtataggactactggtacgtatat
“artificial” alignments
} 1000 times
tree-building method
same tree-building method
tree = series of internal branches
“artificial” trees
for each internal branch, compute
fraction of “artificial” trees containing this
internal branch
![Page 124: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/124.jpg)
"bootstrapped” tree
Xenopus
Homo
Bos
Mus
Rattus
Gallus0.02
97
91
46
![Page 125: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/125.jpg)
Bootstrap
Ramos internos suportados por ≥ 90% das réplicas são considerados estatisticamente significativos.
O procedimento de bootstrap não define se um programa é bom. Uma árvore errada pode ter 100% de suporte de bootstrap em seus ramos internos.
![Page 126: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/126.jpg)
distance < parsimony ~ PHYML << Bayesian < classical MLdistance < parsimony ~ PHYML << Bayesian < classical ML NJ DNAPARS PHYML MrBayes fastDNAml,PAUPNJ DNAPARS PHYML MrBayes fastDNAml,PAUP
Tempo de processamento para vários programasTempo de processamento para vários programas
![Page 127: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/127.jpg)
Compilações Uma lista de web sites
http://www.ucmp.berkeley.edu/subway/phylogen.html
Uma lista grande de programashttp://evolution.genetics.washington.edu/
phylip/software.html
Recursos de Web para filogenia
![Page 128: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/128.jpg)
Editor de alinhamento SEAVIEW : para windows e unix
http://pbil.univ-lyon1.fr/software/seaview.html
Programas para filogenia molecular PHYLIP :
http://evolution.genetics.washington.edu/phylip.html PAUP :
http://paup.csit.fsu.edu/index.html PHYLO_WIN :
http://pbil.univ-lyon1.fr/software/phylowin.html MrBayes : http://morphbank.ebc.uu.se/mrbayes/ PHYML : http://www.lirmm.fr/~guindon/phyml.htm
Recursos de Web para filogenia
![Page 129: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/129.jpg)
Recursos de Web para filogenia
Desenho de árvoresNJPLOT (para todas as plataformas)http://pbil.univ-lyon1.fr/software/njplot.html
Aulas de filogeniahttp://www.bioinf.org/molsys/lectures.html
![Page 131: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/131.jpg)
Ontologia
Fornecer um vocabulário estruturadoe controlado para representar
o conhecimento biológico nos bancos de dados.for the
![Page 132: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/132.jpg)
Gene Onthology (GO)
Biological Process
Objetivo dentro da célula, tecido…
Molecular Function
Função básica ou tarefa
Cellular Component
Compartimento ou complexo
![Page 133: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/133.jpg)
![Page 134: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/134.jpg)
Busca com a palavra “collagenase”
![Page 135: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/135.jpg)
•molecular function 7422 termos•biological process 8972 termos•cellular component 1472 termos
•all 17,866 terms
Conteúdo do GO
![Page 136: BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática](https://reader035.vdocuments.mx/reader035/viewer/2022062623/552fc10b497959413d8c302e/html5/thumbnails/136.jpg)