cursos em biologia, bioquÍmica, biotecnologia e...
TRANSCRIPT
C U R S O S E M B I O L O G I A , B I O Q U Í M I C A , B I O T E C N O L O G I A E E N G E N H A R I A B I O L Ó G I C A
Bioinformática
João [email protected]
Aula T11-T12
Esquema de anotação Annothaton
1. ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)
2. Existem proteínas homólogas? (BLASTp, BLASTx)3. Existem domínios funcionais? Onde? (InterProScan)4. Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa?5. A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report)6. Relações filogenéticas (MSA; Prof. Rita Castilho)7. Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
AVALIAÇÃO)
BLAST Taxonomy Reports
Lineage Report
A importância do Organism Report
Valor EScore
Critérios de decisão de taxonomia da fontebiológica de sequências metagenómicas
� Escolher o táxon que tenha valores E e scores com diferenças significativas com os restantes taxa
� Caso haja apenas taxa com valores E e scores muitopróximos (não significativos) essa sequência não édiagnosticante para esse táxon; por isso escolher um táxon mais abrangente
Esquema de anotação Annothaton
1. ORFs? Coordenadas? Quadro de leitura? Cadeia + ou -? (SMS ORF Finder)
2. Existem proteínas homólogas? (BLASTp, BLASTx)3. Existem domínios funcionais? Onde? (InterProScan)4. Qual o tamanho / massa molecular da proteína codificada
pela ORF em aa / kDa?5. A que organismo ou táxon pertencerá a sequência
metagenómica? (BLAST Taxonomy Report)6. Relações filogenéticas (MSA; Prof. Rita Castilho)7. Conclusões e Análise de Resultados (PONTO PRINCIPAL DA
AVALIAÇÃO)
Temas da Aula T7
� Taxonomia (Annotathon)� Ontologia Génica (GO)� Conclusões (Annotathon)
Taxonomia
� Uma das funções das anotações (meta)genómicas é a definição do táxon da fonte de material genético
Tipos de Classificações
� Classificação hierárquica (de Lineu)� Classificação cladística
Classificação Hierárquica de Sistemas Biológicos
� Domínio� Superreino, Reino, Subreino� Superfilo, Filo (≈ divisão), Subfilo� (Superclasse,) Classe, Subclasse� Superordem, Ordem, Subordem (, Infraordem)� (Superfamília, Epifamília,) Família, Subfamília (, Tribo,
Subtribo, Infratribo)� Género, Subgénero� Espécie, Subespécie� Estirpe (≈ variedade)
Clades
Clades – ramos monofiléticos de uma árvore filogenética
Monofilia, Parafilia e Polifilia
� Grupo monofilético – grupo taxonómico que provém de um ancestral comum cujos descendentes se encontram incluídos neste grupo (≈ grupo holofilético)
� Grupo parafilético – grupo taxonómico que provém de um ascendente comum cujos descendentes se encontram parcialmente incluídos neste grupo
� Grupo polifilético – grupo taxonómico que provém de mais que um ascendente
Monofilia, Parafilia e Polifilia
Clades
NCBI Taxonomy Database
� Cada táxon tem um nº de identificação - NCBI numerical identifier ou Taxonomy ID
Taxonomia: Annotathon
� http://www.ncbi.nlm.nih.gov/Taxonomy/
� Pesquisa por táxon ou identificador numérico
� Colocar o identificador numérico no campo Taxonomy para o táxon menos abrangente ao qual a sequênciadeverá pertencer com uma elevada probabilidade (analisarvalores E do BLAST e o nó imediatamente superior do ramo à qualpertence a sequência em estudo das árvores filogenéticas obtidas)
� Raramente se consegue identificar até à espécie a fontebiológica de sequências metagenómicas
Temas da Aula T11
� Taxonomia (Annotathon)� Ontologia Génica (GO)� Conclusões (Annotathon)
Ontologia Génica (GO)
� Componente celular (biologia celular)
� Função molecular / bioquímica (biologia molecular)
� Processo Biológico (biologia de sistemas)
Iniciativa bioinformática (geneontology.org) para definir termos GO em três domínios diferentes:
Componente Celular
� Localização do produto génico dentro e / ou fora da célula
� A localização é uma pista onde a proteína / RNA actua na célula, que por sua vez é uma pista para a sua função
Bioinformática da previsão do tráfico intracelular
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303
Tráfego Biossintético
Tráfego Retentivo
Tráfego Endocítico
Vias de tráfego biossintético, endocítico e retentivo
A via biossintético-secretora inicia-se no RER
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2215
Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2227
Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303
Tráfego Biossintético-Secretor
Existência de um sinal de retenção ou domínios transmembranaresnuma sequência é indicadora de que a proteína é membranar
Tráfico intracelular para mitocôndrias e cloroplastos
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?highlight=Transport,Proteins,Mitochondria,Chloroplasts&rid=mboc4.section.2176
Proteínas com assinaturas de importação para mitocôndrias deverão ter localização mitocondrial
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2183
Proteínas com assinaturas de importação para cloroplastosdeverão ter localização plastidial
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2192
Ferramentas bioinformáticas para prever a localização intracelular de proteínas
�PSORThttp://psort.nibb.ac.jp/
�SignalP Web Serverhttp://www.cbs.dtu.dk/services/SignalP/
�TargetDBhttp://targetdb.pdb.org/
Ontologia Génica
� Componente celular (biologia celular)
� Função molecular / bioquímica (biologia molecular)
� Processo Biológico (biologia de sistemas)
Iniciativa bioinformática (geneontology.org) para definir termos em trêsdomínios diferentes:
Biologia molecular de um gene
� Função bioquímica / molecular de um gene e respectivo produto (RNA e / ou proteína) (por ex., catálise enzimática)
� Ligação a outras moléculas
Exs: lactase, acetil-CoA carboxilase, ligação a DNA
Ontologia Génica
� Componente celular (biologia celular)
� Função molecular / bioquímica (biologia molecular)
� Processo Biológico (biologia de sistemas)
Iniciativa bioinformática (geneontology.org) para definir termos em trêsdomínios diferentes:
Processos biológicos
� Metabolismo das purinas� Metabolismo de glícidos� Locomoção� Fototactismo / Fototaxia� Fotossíntese� Respiração� Etc.
Conjunto de eventos moleculares com princípio e fim bem definidos:
Exemplo de termo GO
� Gene product: Actin, alpha cardiac muscle 1, UniProtKB:P68032
� GO term: heart contraction ; GO:0060047
Utilização de termos GO no Annotathon
� Escolher a função molecular e / ou o processo biológico em que a proteína / RNA participa
� Para realizar esta anotação verificar quais os termos obtidos no BLAST e InterPro
� Caso não existem termos GO nas anotações do GenBank, analisar os valores E de sequências homólogas ou domínios funcionais homólogos e atribuir termos GO à sequência e explicar a vossa decisão em RESULT ANALYSIS
Annotathon: Análise de ResultadosCritérios de Avaliação
� ORFs� Massa Molecular� Domínios� BLAST e Lineage Report� MSA� Filogenia e Taxonomia� Ontologia� Conclusões
Critérios de Avaliação: ORFs e Análise de Resultados respectiva
� Codão START existe? Está correcto?� Codão STOP existe? Está correcto?� ORF contém codões STOP internos?� Discute qual o quadro de leitura e cadeia em que ela se
encontra?� Existem ORFs maiores? Se sim, discute porque não escolheu
essa para ser analisada?� Existem ORFs adicionais com significado biológico?� Determinou se a sequência é codificante ou não?� Disse que era não codificante quando o tamanho da sequência
não aponta para isso?� Discute quantas ORFs encontrou nas duas cadeias?� O protocolo está correcto e completo?
Annotathon: Análise de ResultadosCritérios de Avaliação
� ORFs� Massa Molecular� Domínios� BLAST e Lineage Report� MSA� Filogenia e Taxonomia� Ontologia� Conclusões
Critérios de Avaliação: Massa Molecular
� Não calculou a massa molecular da proteína quando a proteína está claramente completa?
� Calculou a massa molecular da proteína quando a proteína está claramente incompleta?
Annotathon: Análise de ResultadosCritérios de Avaliação
� ORFs� Massa Molecular� Domínios� BLAST e Lineage Report� MSA� Filogenia e Taxonomia� Ontologia� Conclusões
Domínios Proteicos e Análise de Resultados
� Discute a lista de domínios presente em RAW resultse respectivas funções?
� Discute os valores E respectivos?� Discute quais os domínios correctos e os domínios
redundantes (sobrepostos)?� Discute a função da proteína à luz dos domínios
encontrados?� Os domínios estão correctamente apresentados no
esquema gráfico?� Colocou os resultados todos em RAW RESULTS?
Annotathon: Análise de ResultadosCritérios de Avaliação
� ORFs� Massa Molecular� Domínios� BLAST e Lineage Report� MSA� Filogenia e Taxonomia� Ontologia� Conclusões
BLAST: Análise de Resultados
� A lista de resultados (hits) está completa?� A lista dos 12 melhores alinhamentos está completa? Tem
sequências a mais?� Analisa os valores E, o nº de hits e a localização das homologias nos
alinhamentos?� Analisa a função possível da proteína?� Analisa se a proteína tem proteínas homólogas conhecidas?� O protocolo está correcto?� Desistiu logo com resultados do BLASTp sem ter tentado análises
alternativas (por ex., BLASTx)?� Discute os resultados do Lineage Report?� Discute a escolha dos ingroups e outgroups?� Discute a escolha das sequências para fazer os alinhamentos
múltiplos?� Escolheu o nº máximo de hits correcto?
Annotathon: Análise de ResultadosCritérios de Avaliação
� ORFs� Massa Molecular� Domínios� BLAST e Lineage Report� MSA� Filogenia e Taxonomia� Ontologia� Conclusões
MSA: Análise de Resultados
� Determinou o início da ORF olhando para os resultados do MSA?
� Discutiu se as sequências no MSA têm o mesmo tamanho?
� Os resultados do MSA batem certo com os resultados dos domínios? Isso é discutido?
� O alinhamento MSA está correcto e bem apresentado (contém nomes fáceis de identificar, por ex.)?
� O alinhamento MSA contém sequências repetidas?� Adicionou a ORF desconhecida ao MSA? (erro
frequente!)
Annotathon: Análise de ResultadosCritérios de Avaliação
� ORFs� Massa Molecular� Domínios� BLAST e Lineage Report� MSA� Filogenia e Taxonomia� Ontologia� Conclusões
Filogenia e Taxonomia: Análise de Resultados
� O protocolo está correcto?� Apresentação da árvore está correcta? Colocaram os
nomes dos taxa (género, classe, por ex.) nas folhas da árvore?
� Discutiu a topologia das árvores?� Realizou a construção de árvores com os 2 métodos
(NJ e ML)?� Discutiu se as árvores são concordantes?� Seleccionou qual o grupo taxonómico mais provável?
Annotathon: Análise de ResultadosCritérios de Avaliação
� ORFs� Massa Molecular� Domínios� BLAST e Lineage Report� MSA� Filogenia e Taxonomia� Ontologia� Conclusões
Ontologia Génica
� Escolheu o processo biológico correcto?� Escolheu a função molecular correcta?
Annotathon: Análise de ResultadosCritérios de Avaliação
� ORFs� Massa Molecular� Domínios� BLAST e Lineage Report� MSA� Filogenia e Taxonomia� Ontologia� Conclusões
Conclusões
� Discutir argumentos a favor / contra a hipótese da sequência ser codificante ou não (usar números)
� Discutir a sua função bioquímica e a sua participação num dado processo biológico
� Discutir a classificação taxonómica
O que se deve EVITAR nas Conclusões
� A descrição em que botões se clicou� A descrição do método utilizado� Escrever conclusões mal estruturadas (escrita
telegráfica)� Pôr “palha” na esperança de obter melhor nota� Fazer plágio, copiando e colando descrições de funções
de páginas da Internet (implica anulação da anotação!)� Não relacionar conclusões dos vários campos da
anotação (por ex. Não relacionar os resultados do MSA com os resultados do InterPro)
� Pôr hipóteses sem as fundamentar (referências bibliográficas e / ou números)