análise computacional de seqüências nucleotídicas e protéicas bancos de dados biológicos...

47
Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Upload: internet

Post on 22-Apr-2015

105 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Bancos de dados biológicosAntonio Basílio de Miranda

23/11/2004

Page 2: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Agenda: I – Introdução II – Bancos de dados de seqüências nucleotídicas III – Bancos de dados de seqüências protéicas IV – Bancos de dados de estruturas V – Bancos de dados de metabolismo VI – Bancos de dados de mutações e

polimorfismo VII – Bancos de dados de genomas VIII – Bancos de dados de microarranjos de DNA IX – Bancos de dados de proteomas X – Bancos de dados bibliográficos XI – Principais centros de pesquisa

Page 3: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

I - Introdução: Bancos de Dados Biológicos

Primários: GenBank, EMBL, DDBJ, GSDB.

Especializados: PIR, Swiss-Prot, REBASE, PROSITE, PDB, Pfam, BLOCKS, etc.

Page 4: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

International Nucleotide Sequence Database

União do GenBank, EMBL e DDBJ, que já trocam informações diariamente.

Page 5: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Busca e Recuperação

Por similaridade: BLAST BioSCAN GenQuest

Por palavras-chave, atributos, etc. SRS (http://srs.ebi.ac.uk) AcNuc

Page 6: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Problemas:

Redundância Contaminação Erros nas anotações Distintas formatações Distintos conceitos

Page 7: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Diferentes formatações dificultam a livre troca de dados entre os bancos

Page 8: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

II - Bancos de dados de seqüências nucleotídicas

São fontes de dados heterogêneas, i.e., fontes distintas (DNA genômico X cDNA), diferentes qualidades (seqüências finalizadas ou single-pass), diferentes anotações, etc.

Page 9: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Bancos de dados de seqüências nucleotídicas

GenBank/EMBL/DDBJ (http://www.ncbi.nlm.nih.gov) (http://www.ebi.ac.uk/embl/index.html) (http://www.ddbj.nig.ac.jp/)

Ribosomal Database Project (http://rdp8.cme.msu.edu/)

Comparative RNA Web Site (http://www.rna.icmb.utexas.edu/)

Page 10: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

GenBank

Page 11: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

O crescimento do GenBank

Aproximadamente 28,507,990,166 bases em 22,318,883 de seqüências

(Janeiro 2003)

Page 12: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Subdivisões do GenBank Primatas Roedores Outros mamíferos Outros vertebrados Invertebrados Plantas Bactérias Vírus Fagos Sintéticas Não-anotadas Patentes EST STS GSS HTG HTC

Page 13: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

EMBL Nucleotide Sequence Database

Page 14: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Subdivisões do EMBL Invertebrates Other Mammals Mus musculus Organelles Bacteriophage Plants Prokaryotes Rodents Unclassified Viruses Other Vertebrates patents htg htc gss wgs est

ID CTU83196 standard; genomic DNA; PRO; 1763 BP.XXAC U83196;XXDE Chlamydia trachomatis pyruvate kinase (pk) gene, complete cds.XXSQ Sequence 1763 BP; 504 A; 380 C; 360 G; 519 T; 0 other; cactcaacga atcctttctc attttaaatt ctccacaccc attcctatcg aacgcttttt 60 taaagcgtag cattgcggtt gctaaatatt ttgtatagtt gaaggcttct ttcatttcgg 120 atattctaga agatattcta ctcactaata ccggtatccc gatttatgat cgctagaacg 180 aaaattattt gtacgatagg ccctgcaacc aatacccctg agatgctgga aaagcttctc 240 gatgcaggga tgaatgtagc tcgccttaat tttagccacg ggacccatga aagccatggc 300 cggaccatcg ctattcttaa agaactacga gagaagcgcc aagttccttt agctattatg 360 ctagatacaa aaggtcccga aattcgttta ggccaagtag aatctcctat aaaagtacag 420 cctggggatc gtcttactct cgttagcaaa gaaattttag gatccaaaga aagcgcgtta 480 ctctttatcc aagttgtgta ttccccttat gttagagaac gagctcctgt tctcattgat 540 gatgggtata tccaagcagt ggtggtcaat gctcaagagc atatggtgga aatagagttt 600 caaaattcag gagaaataaa atccaacaaa tctcttagca tcaaagatat cgatgttgct 660 cttcctttca tgacagagaa ggatattgca gacttaaaat ttggggtaga acaagaactc 720 gatcttatcg ctgcttcgtt cgtcagatgt aatgaagata ttgacagcat gcgtaaagtt 780 ttggaaagct ttggtcgtcc taatatgccc atcattgcca aaatagaaaa tcatttagga 840 gtacaaaatt tccaagagat cgctagagct gctgatggta tcatgattgc acgcggggat 900 cttggtattg aattgtctat tgttgaagtt cctggactac aaaaatttat ggcccgagca 960 tcgagggaaa cgggtcggtt ttgtatcact gcaacgcaaa tgctcgagtc aatgattcgc 1020 aacccccttc ctacacgagc cgaagtctct gacgttgcca acgccattta cgatggaacc 1080 tctgcagtca tgttgtctgg agaaactgcc tcaggagccc atcctgtaca tgcagtaaaa 1140 acaatgcgtt ccattatcca agagactgag aagactttcg attaccacgc ttttttccag 1200 ctgaacgaca aaaacagcgc tctcaaagtt tctccttatc ttgaagccaa ttgggttttc 1260 tggatccaaa ttgcagaaaa agcatctgcc aaagccatta ttgtgtatac ccagacggga 1320 gggtctccga tgtttttatc caaatatcga ccttatctcc ctattattgc tgttacccct 1380 aaccgcaatg tgtactatcg tttagctgta gaatggggag tatatcctat gctaaccctg 1440 gaatcgaacc gtacagtctg gcgtcaccaa gcttgtgtat atggagtaga aaaaggaatt 1500 ctttctaact atgataaaat tcttgtcttc agccgcggag ctgggatgca agataccaac 1560 aatctcacct tgacaactgt gcatgatgcg ctatccccct ctcttgacga gatagttcca 1620 taatcattga aaccatatag caggtatgtc ttctatcgtt agactttctg gtattactgt 1680 aaggaattta aaaacattac agtagagttt tgtctcgaga gatcgttttg ttcaccgggg 1740 tttctggatc gaagtcttct ctt 1763//

Page 15: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

III - Bancos de dados de seqüências protéicas Primários Secundários Especializados Estruturas

Page 16: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Bancos de dados de seqüências protéicas

Primários: Swiss-Prot (http://pir.georgetown.edu/) TrEMBL (http://www.ebi.ac.uk/trembl/) PIR (http://pir.georgetown.edu/)

Page 17: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Swiss-Prot

Mantido em conjunto pelo EBI e SIB

Mais de 6000 espécies representadas

Cada seqüência nova é examinada para assegurar uma boa qualidade nas anotações

Page 18: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

TrEMBL

“Translation of EMBL Nucleotide Sequence Database”

Os registros são derivados da tradução conceitual das seqüências codificantes presentes no EMBL, com exceção daquelas já presentes no Swiss-Prot.

SP-TrEMBL, REM-TrEMBL.

Page 19: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

PIR – Protein Information Resource Colaboração entre a National

Biomedical Research Foundation (NBRF), Munich Information Center for Protein Sequences (MIPS), e o Japan International Protein Information Database (JIPID).

Possui quatro subdivisões (PIR1, PIR2, PIR3 e PIR4), de acordo como nível de anotação da seqüência.

Page 20: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Bancos de dados de seqüências protéicas Especializados:

GO – Gene Ontology – disponibiliza um vocabulário dinâmico controlado de termos biológicos.

MEROPS – classificação baseada em estrutura das peptidases.

GPCRDb – G-protein coupled receptors YPD – Yeast Protein Database ENZYME – Enzyme Nomenclature Database 2D gel electrophoresis Mass spectrometry

Page 21: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

GO – Gene Ontology

$Gene_Ontology ; GO:0003673

<cellular_component ; GO:0005575

%cell ; GO:0005623

<axon ; GO:0030424

<axolemma ; GO:0030673 % membrane ; GO:0016020

%giant axon ; GO:0042757

<bud ; GO:0005933

<bud neck ; GO:0005935 % site of polarized growth (sensu Saccharomyces) ; GO:0000134

<contractile ring (sensu Saccharomyces) ; GO:0000142 ; synonym:cytokinetic ring (sensu Saccharomyces) ; synonym:neck ring % contractile ring (sensu Fungi) ; GO:0030480

http://www.ebi.ac.uk/GOA/index.html

Page 22: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

MEROPS

BD sobre peptidases (AKAS proteases, proteinases ou enzimas proteolíticas).

Classificação hierárquica, baseada na estrutura da proteína.

Page 23: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

GPCRDb

BD de seqüências e outros dados relacionados aos G-protein coupled receptors, família de proteínas envolvida em sistemas de sinalização.

Page 24: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

YPD

BD das proteínas de Saccharomyces cereviseae.

Mais de 6000 proteínas. Uma extensa revisão da literatura

levou a uma anotação detalhada das proteínas presentes no BD.

Page 25: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

ENZYME

Extensão anotada da publicação da “Enzyme´s Comission”.

Existem diversos outros BD relacionados como o BRENDA (propriedades enzimáticas) e o LIGAND (ligantes).

Page 26: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Bancos de dados de seqüências protéicas Secundários:

PROSITE – sítios funcionais PRINTS – famílias Pfam – domínios divergentes BLOCKS – regiões conservadas

Page 27: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

PROSITE

Extensa documentação sobre famílias protéicas, definidas por domínios ou motivos protéicos.

Proporciona identificação rápida e confiável (com ferramentas computacionais adequadas) de uma nova seqüência protéica.

Page 28: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

PRINTS Identificação por “fingerprinting”. Utiliza regiões conservadas e/ou

motivos, determinados a partir de alinhamentos múltiplos, que definem e caracterizam aquele grupo de seqüências (família).

Possibilita a identificação de “parentes” distantes.

Page 29: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Pfam Utiliza HMM´s (Hidden Markov Models)

como metodologia para a criação de famílias protéicas e assinaturas de domínios.

As informações sobre uma determinada proteína são cuidadosamente checadas contra a literatura disponível a respeito da mesma, na busca de evidências bioquímicas que corroborem dados obtidos a partir de predições computacionais .

Page 30: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

BLOCKS

Constituído pelas regiões mais conservadas, determinadas a partir de alinhamentos múltiplos das proteínas documentadas no InterPro.

Page 31: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Sequence Retrieval System – SRS

Page 32: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Perguntas:

Quais são as fontes de dados e onde posso encontrá-las?

Quais as diferenças entre elas? Posso usar apenas uma delas em

minhas análises? InterPro: uma integração do PROSITE,

PRINTS, Pfam e PRODOM.

Page 33: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

IV - Bancos de dados de Estruturas

Protein Data Bank (PDB). http://www.rcsb.org/pdb/

Nucleic Acid Database (NDB) http://ndbserver.rutgers.edu/

Page 34: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

PDB

Protein Data Bank Armazena estruturas tri-

dimensionais de diversas proteínas, e dados relacionados.

A visualização das estruturas pode ser feita de diversas formas.

Page 35: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

NDB

Nucleic Acid Database Armazena informações sobre a

estrutura tri-dimensional de ácidos nucléicos.

Page 36: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

V - Bancos de dados de metabolismo

KEGG: Kyoto Encyclopedia of Genes and Genomes - http://www.genome.ad.jp/kegg/

EcoCyc – Encyclopedia of Escherichia coli K12 genes and metabolism – http://ecocyc.org

Page 37: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

VI - Bancos de dados de mutações e polimorfismos

Human SNP Database - http://www.broad.mit.edu/snp/human/index.html

Human Genome Variation Society - http://www.hgvs.org/

Oniline Mendelian Inheritance in Man (OMIM) - http://www.ncbi.nlm.nih.gov/omim/

Page 38: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

VII - Bancos de dados de genomas

GOLD – Genomes On-Line Database (http://ergo.integratedgenomics.com/GOLD)

Aproximadamente 940 projetos genoma em andamento ao redor do mundo!

Page 39: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Bancos de dados de genomas

Ensembl – proporciona acesso a vários genomas (www.ebi.ac.uk/ensembl/index.html)

WormBase (www.wormbase.org) FlyBase (flybase.bio.indiana.edu) Saccharomyces Genome Database

(www.yeastgenome.org)

Page 40: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

VIII - Bancos de dados de microarranjos de DNA (DNA microarrays)

ArrayExpress AMAD

Page 41: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Microarray

Page 42: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

ArrayExpress

Repositório público para dados obtidos a partir de experimentos com microarranjos de DNA

http://www.ebi.ac.uk/arrayexpress/index.html

Page 43: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

AMAD

Another Microarray Database Flatfile Necessita de PERL Gratuito http://www.microarrays.org/software.html

Page 44: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

IX - Bancos de dados de proteomas

SWISS-2DPAGE - http://us.expasy.org/ch2d/

Danish Centre for Human Genome research - http://proteomics.cancer.dk/

Parasite Proteome - http://www.ebi.ac.uk/parasites/proteomes.html

Page 45: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

Proteoma

Page 46: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

X - Bancos de dados bibliográficos

MEDLINE – acesso via SRS PUBMED – acesso via Entrez

Page 47: Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

XI - Principais Centros de Pesquisa

NCBI (http://www.ncbi.nlm.nih.gov) TIGR (http://www.tigr.org) EMBL (http://www.embl.de/) EBI (http://www.ebi.ac.uk) Sanger Institute

(http://www.sanger.ac.uk)