introdução à bioinformática luciano c. da maia engenheiro agrônomo professor dep. de fitotecnia...

59
Introdução à Bioinformática Luciano C. da Maia Engenheiro Agrônomo Professor Dep. de Fitotecnia FAEM/UFPel Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO

Upload: agata-jardim-bentes

Post on 07-Apr-2016

224 views

Category:

Documents


4 download

TRANSCRIPT

Introdução à Bioinformática

Luciano C. da MaiaEngenheiro AgrônomoProfessor Dep. de FitotecniaFAEM/UFPel

Universidade Federal de PelotasFaculdade de Agronomia Eliseu MacielPrograma de Pós-Graduação em AgronomiaCENTRO DE GENOMICA E FITOMELHORAMENTO

AULA 2:

BANCOS DE DADOS PUBLICOS

PARA BIOINFORMÁTICA

A informação...

=

ANIMAIS

CIVILIZAÇÕES

A informação...

DOMESTICAÇÃO

PLANTAS

DOMESTICAÇÃO

A informação...

CIVILIZAÇÕES

HOMEM MODERNO

A informação...

SELEÇÃO

TÉCNICAS

DOMESTICAÇÃO/CIVILIZAÇÕES

CIVILIZAÇÃO/TECNOLOGIA

A informação...

HOMEM MODERNO/GRANDES CIDADES

SAÚDE

??!!

Demandas atuais...ALIMENTAÇÃO....HOJE

15.000 ac

2.000 ac 1.900

Períodos

PLANTASmelhoramentopesticidasnutriçãoAUMENTO PRODUÇÃO

ANIMAISmelhoramentovacinasfármacos AUMENTO PRODUÇÃO

2.000

Melhoramento convencionalBiotecnologia

NÚM. CLASSES CLASSES

NÚM. NÚM. CLASSES DE TAM. MIN. FENOT. FENOT.

GENES GAMETAS GENOTIPOS POP. PERF. C/ DOM. S/D, S/EP F1 F2 F2 F2 F2

1

2

3 4

2

3

2

4

9 16

4

9

3

8

27 64

8

27

4

16

81 256

16

81

10

1.024

59.049 1.048.576

1.024

59.049

21

2.097.152

10.460.353.203 4.398.046.511.104

2.097.152

10.460.353.203

... ... ... ... ... ...n 2n 3n 4n 2n 3n

INTRODUÇÃO

DIPLÓIDE - NÚMERO DE GENES

DIFICULDADES DE ACOMPANHAR SEGREGAÇÕES GENÉTICAS

Agricultura + Saúde = Genética

DESAFIO PARA FUTURO

PRODUÇÃO VEGETALIMPOSSÍVEL EXPANSAO DE AREAS AGRICOLAS

necessário aumento da qualidade/produtividadeestresse abiótico/bióticoimpedir expansão em regiões de florestas

PRODUÇÃO ANIMALTENDENCIA DE AUMENTO NA PRODUÇÃO INTENSIVA necessário aumento da qualidade/produtividade

aumento no aparecimento de novos problemas sanitários ??!!

SAÚDEMELHORIA NA QUALIDADE DE VIDA

patologias complexas

SAÚDE AGRICULTURAMETODOLOGIAS CONVENCIONAIS DEFICIENTES PARA RESOLVER ALGUMAS

DESTAS DEMANDAS !!??

NECESSIDADE DE UM NOVO MODELO CIENTIFICO??

Agricultura + Saúde = Genética + Biotecnologia

DESAFIO PARA FUTURO

SAÚDE

BIOTECNOLOGIA

GENÔMICAPROTEÔMICA...ÔMICAs...

AGRICULTURA

Agricultura, Saúde e a Genética ........BIOTECNOLOGIA

O que muda?!

=

passado Hoje e amanhã...

Buscar uma agulha num palheiro! Buscar muitas agulhas em muitos palheiros!

Agricultura, Saúde e a Genética ........BIOTECNOLOGIA

PROBLEMASAÚDE

AGRICULTURA

SOLUÇÃO

BIOINFORMÁTICA

BIOTECNOLOGIA

Mas se este modelo de pesquisa é tão promissor, qual é a razão da bioinformática ser uma aparente novidade?

Parte 2

UMA BREVE RETROSPECTIVA

...ciências convergentes...

DarwinMendel

Hollerith10 anos para calcular o senso dos USA

duas ciências emergem! 1850-1900

Histórico - Ciências convergentes...

Histórico - Ciências convergentes...

ENIAC30 toneladas160 m2

150.000 Watts 5.000 adição/subtracao seg

NAO TINHA MEMÓRIA

…grandes descobertas!

DNA- invisível

Frederick Sanger - Nobel Prize (1958)Sequenciou os amidoácidos Insulina em 1955

Histórico - Ciências convergentes...

Anos 70…

Intel 4004 (1971)740 kHz.320 bits de RAM

15 x mais rapido que o ENIACSouthern Blotting – DNA (1975)

Histórico - Ciências convergentes...

76…

ALTAIR – 40 x mais rapido que o ENIAC256 bytes de RAM

Apple II 4 KB de memória RAM12 KB de memória ROM podia armazenar o BASIC

Frederick Sanger - 1976Método Dideoxy, seqüenciamento DNA

Histórico - Ciências convergentes...

76…

IBM 7040 MAINFRAME4-6 mega RAM

Custo: 4 MILHÕES U$

Histórico - Ciências convergentes...

Apple4 KB RAM12 kb ROM1 MHz

3,4 GB/ 4 KB = 850 APPLE para ler o genoma humano

Intel 8086 IBM PC - 1981

16 KB de RAM4,7 MHz

3,4 GB / 16 KB = 212 PCs para ler o genoma humano

Anos 80…

Gate

s e A

llen

1985Mullis and Faloona

Saiki et ali (Science)Primer-Directed Enzymatic Amplification of DNA

with a Thermostable DNA Polymerase

Burke and Carle, develop YACs for cloning

1987DuPont scientists develop a system for rapid DNA sequencingwith fluorescent chain-terminating dideoxynucleotides

Applied Biosystems first automated sequencing machinebased on Hood's technology

Histórico - Ciências convergentes...

Anos 80/90…

Enfim...a informação disponível...

Pentium II

64 Mb RAM233 MHz

3,4 Gb / 64 Mb = 53 Pentium II para ler o genoma humano

1995

Intel 8086 IBM PC - 1981

16 KB de RAM4,7 MHz

3,4 Gb / 64 Mb = 212.500 PC para ler o genoma humano

SOMENTE LER!...nao calcular mais nada………

ENTÃO, NESTE PERIODO JÁ FICOU POSSIVÉL A JUNÇÃO DA BIOTECNOLOGIA E COMPUTAÇÃO....

PARTE 3O GENOMA HUMANO E A MONTAGEM DE GENOMAS

Histórico - Ciências convergentes...

Anos 80…

1980 David Botstein - Massachusetts Institute of Technology, Ronald Davis of Stanford UniversityMark Skolnick and Ray White of the University of Utah method to map the entire human genome based on RFLPs

1987 Mullis and Faloona Saiki et ali (Science)Primer-Directed Enzymatic Amplification of DNA

with a Thermostable DNA Polymerase

Burke and Carle, develop YACs for cloning

1987 DuPont scientists develop a system for rapid DNA sequencingwith fluorescent chain-terminating dideoxynucleotides

Applied Biosystems first automated sequencing machinebased on Hood's technology

Histórico - Ciências convergentes...

1988 establishes the Office of Human Genome Research, (Watson head group)

1991 1) Venter strategy to find expressed genes, using ESTs (Science )

2) Uberbacher develops GRAIL- first of many gene-finding programmes

3) David Lipman – NCBI BLAST algorithm for aligning sequences

1992 4) Simon et al. develop BACs for cloning.

enfim...toda estrutura arrumada!!!!!

Inicia o SEQUENCIAMENTO DO GENOMA HUMANO

Seqüenciando....A MATÉRIA PRIMA PARA A BIOINFORMÁTICA

Sequenciando....Organizando as letrinhas...EMPREGANDO A BIOINFORMÁTICA

IN VITRO IN SILICO

MAS ANTES DA CONCLUSÃO DO GENOMA HUMANO OUTROS GENOMAS

ENQUANTO ISSO TÉCNICAS E CONHECIMENTOS FORAM SENDOADQUIRIDOS E VALIDADOS

Genomas...

Organismo tamanho genes ano---------------------------------------------------------------------------------------------------------Escherichia coli 4,600,000 bp 4,390 1997Saccharomyces cerevisiae 12,100,000 bp 6,000 1996Caenorhabditis elegans 97,000,000 bp 19,099 1998Drosophila melanogaster 180,000,000 bp 25,000 2000

--------------------------------------------------------------------------------------------------------

1996...GENOMAS ON-LINE

Enfim...o genoma

Colins et al.Venter et al.

CELERA NIH/HGPTÉRMINO ABRIL 2000 85% ABRIL 2000MONTAGEM JUNHO 2000 24% JUNHO 2000VARIANTES (SNP) 6.000.000 300.000

PARTE 4)

ALINHAMENTO DE PROTEÍNAS

Final dos anos 50...

NASA coleta informações sobre a atmosfera de Venus (radio)

Origem e história da bioinformática

Final dos anos 50...

Com dados da NASA, Carl Sagan (Havard) e Lippincot (Maryland) orientama tese de doutorado em Fisico-Quimica de Margaret Dayhoff, onde ela Desenvolve sistemas de computador para cálculos de bioquímica.

Origem e história da bioinformática

Origem e história da bioinformática

University of Cambridge

Sangerthe first complete sequence of a protein –insulin also examined insulin from other species:pig, sheep, horse, etc..

In Vienna, Hans Tuppy (a student of Sanger),cytochrome c proteinin horse, ox, pig, salmon, and chicken

University of Maryland - National Biomedical Research Foundation (NBRF)

Atlas of Protein Sequence and Structure in 1965

Origem e história da bioinformática

PARTE 5)

ALINHAMENTO “GLOBAL” DE NUCLEOTÍDEOS

The PDP-11 was a series of 16-bit minicomputers sold by Digital Equipment Corp. from 1970

Origem e história da bioinformática

Origem e história da bioinformática

PARTE 6)

DADOS COMPARTILHADOS NA ARPANET

Origem e história da bioinformática

Protein Information Resource (PIR)

Atlas of Protein Sequence and Structure in 1965

National Biomedical Research Foundation (NBRF)(dados de Margaret Dayhoff)

Theoretical Biology and Biophysics Los Alamos – 1974

“acesso a dados pelo telefone”

Primeira versão do GenBank 1979Tradução

Proteínas > nucleotídeosNucleotídeos > proteínas

NCBI 1984

Conexão entre Laboratorios

As bases técnicas da Bioinformática...

As bases técnicas da Bioinformática...

1992 – 1996

BANCOS DE DADOSON-LINE

chegada dainternet

PARTE 7)

ALINHAMENTO “LOCAL” DE NUCLEOTIDOS

e o E-VALUE

Origem e história da bioinformática

EM 1990…ainda nao sabiamos como alinhar sequencias quebradas (contendo GAPs)…

QUERIDA, CHEGUEI! CADE MINHA CERVEJA E CADE MINHA CEREJA?

CHEGUEI! CADE MINHA CER-EJA?

Só era possível fazer este tipo de alinhamento (global)...

Origem e história da bioinformática

1988

1990

PARTE 8)

Finalmente…

Tudo pronto…

Origem e história da bioinformática

Atlas of Protein Sequence and Structure in 1965

National Biomedical Research Foundation (NBRF)

Protein Information Resource (PIR)

Theoretical Biology and Biophysics Los Alamos

1974

Primeira versão do GenBank 1979

NCBI 1984

Primeiro programade alinhamento

1991 DISPONIBILIDADE

VIA WEB

O ESTADO DA ARTE

Bioinformatics: Sequence and Genome AnalysisDavid Mount - Cold Spring Harbor Laboratory, EUA

BIOINFORMÁTICA...

A Bioinformática é uma sub-área da biologia computacional, na qual é necessário o conhecimento de varias áreas do saber; envolvem a ciência da computação, a matemática, a estatística, a física e principalmente entendimento dos processos químicos biológicos e genéticos dos organismos.

Algumas curiodidades…

Histórico - Ciências convergentes...

1 kb 1.024 byte 1 mb 1.024.000 bytes 1 gb 1.024.000.000 bytes

2 gb 2.048.000.000 bytes

MEDIDAS DE MEMÓRIA COMPUTADORES

hojeAnos 60

≠ 327.680.000 x

16.384.000.000 bits 50 bits

Leptospira = 4.600.000 pares de base= 4.6 megabase= 4.6 mb

Arroz = 0.380 Gb= 380.000.000 pb= 380 megabase = 380 mb

Homem = 2,9 Gyga Bases= 2,9 bilhões de nucleotídeos= 2.900.000.000 pares de base= 2.900.000.000 pb

Trigo = 17 Gyga Bases= 17 bilhões de nucleotídeos= 17.000.000.000 pares de base= 17.000.000.000 pb

Histórico - Ciências convergentes...

MEDIDAS DE UM GENOMA

As bases técnicas da Bioinformática...

NECESSIDADE DE SISTEMA OPERACIONAL ESTAVÉL / NETWORK

SC UNIX–(DÉCADA 70)–BANCOS/ARPANET/UNIVERSIDADESMAINFRAMES MAC APPLEARPANET>>INTERNET

DIFICIL DE SER UTILIZADO

MAIS SEGURO EXISTENTE

Essa é a origem do grande numero de usuários UNIX/LINUX

em bioinformática

Etimologia

COMPUTADOR - COMPUTAÇÃO

COMPUTARE latim

= CONTAR, FAZER CONTA

INFORMÁTICA

INFORMATIONfrancês

AUTOMATIQUE francês

+ = INFORMATIQUE Philippe Dreyfus (1962)

BIOINFORMÁTICA

BIOLOGIA INFORMÁTICA+ = BIOINFORMÁTICAVIDA+ESTUDO INFORMAÇÃO+AUTOMATICA INFORMAÇÃO+AUTOMATICA

paraESTUDO+VIDA

As bases técnicas da Bioinformática...

ATUALMENTE

2005

10 tera bytes64 Giga RAM

3,4 Gb / 64 Gb = 0,05 maquinas/genoma

hojeCGF/FAEM/UFPel