pos usp ngs big data parte 2

Post on 22-May-2015

487 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

PresentationCurso de Pos-graduacao IBUSP -2012

TRANSCRIPT

New Generation Sequencing

The Big Data Era

Roberta A. Campos

EM 2010

1 ZettaByte (ZB) = 1 Trilhão

1,000,000,000,000 GigaBytes (GB)

Roberta A. Campos PhD, MSc, PD

“Big Data Era” na Ciência

1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB)

Researchers need to adapt their institutions and

practices in response to torrents of new data —

and need to complement smart science with smart

searching.

Setembro 2008

Editorial

Roberta A. Campos PhD, MSc, PD

Ciclo do Conhecimento

hypothesis-driven science

data-driven science

(Kell DB et al., 2004)

Gene Knock-outs

Protein Assays

Point mutations

Microarrays

Genomics

Meta-genomics

HT proteomics

Roberta A. Campos PhD, MSc, PD

Inundação de Dados na Área

de Ciências Biológicas

genomas completos sequenciados;

dados de variações genômicas;

projetos de Meta-Genômica;

dados de transcritomas;

dados de proteínas;

dados de interações entre proteínas;

ION Torrent…

Roberta A. Campos PhD, MSc, PD

E agora, quais são os desafios?

Pontos urgentes que devem ser enfrentados:

◦ Transferência de dados, controle de acesso e gerenciamento.

◦ Padronização dos formatos de dados.

◦ Integração dos dados oriundos de múltiplas fontes.

Dados com características Multi-dimensionais e em um volume

imenso;

Exemplo: Análise funcional de variações no DNA em múltiplas

amostras em diferentes tipos de tumores utilizando dados de

sequenciamento de nova geração...

◦ Modelos preditivos para fenótipos complexos demandam computação

intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede

Bayesiana para representar um modelo de regulação gênica)

Roberta A. Campos PhD, MSc, PD

Integração dos Bancos de

Dados Biológicos

Características

◦ Grande volume de dados;

Desenvolvimento de novos mecanismos e técnicas para o

armazenamento e recuperação (e.g. Google BigTable );

◦ Não há padrão para os nomes dos objetos;

Ontologias (e.g. Gene Ontology) e organizações que regulam a

nomenclatura (e.g. HUGO)

◦ Não há padrão para acesso aos dados, cuja natureza é distribuída;

Utilização de formatação padrão para troca de informações (e.g. GFF) e

web services;

◦ Definição variável para alguns conceitos;

e.g. gene

◦ Dados altamente heterogêneos mas inter-relacionados;

◦ Informação dinâmica e em constante atualização;

Roberta A. Campos PhD, MSc, PD

Soluções computacionais

Cloud-based computing;

Ambientes computacionais heterogêneos; ◦ Integração de aceleradores especializados (GPUs);

Aumento do número de computadores;

Otimização de algoritmos;

Roberta A. Campos PhD, MSc, PD

Primeiros passos...

Compreensão da natureza dos dados, ou seja, da sua

magnitude e complexidade, e dos recursos disponíveis

(memória, espaço, tenho um servidor?)...

Compreensão dos algoritmos.

Compreensão das vantagens e desvantagens das

arquiteturas disponíveis.

◦ A decisão não é sempre óbvia e muitas vezes consiste

em uma combinação delas

Roberta A. Campos PhD, MSc, PD

Soluções no Brasil

O EMU (Equipamento MultiUsuário)

é uma plataforma de alta-

performance para análises

computacionais aplicadas à genômica

e à transcriptômica.

Financiamento: Programa

Multiusuário da FAPESP de 2010,

com uma contra-partida do Instituto

Ludwig de Pesquisa sobre o Câncer. Roberta A. Campos PhD, MSc, PD

Sequenciamento - NGS

Por quê sequenciar ?

Roberta A. Campos PhD, MSc, PD

Por quê sequenciar ?

Motivação Aplicações diversas:

• identificar sequencias funcionais e caracterizar

genomas ou transcriptomas;

• Da Genômica Comparativa à Expressão gênica...

• Propósitos gerais...

“NOVA ONDA NGS”...

Roberta A. Campos PhD, MSc, PD

Bioinformática

• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas

computacionais e abordagens para expandir a utilização de dados biológicos,

médicos, comportamentais e de saúde, incluindo a aquisição, o

armazenamento, a organização, o arquivamento a análise ou visualização

desses dados.

• Computational Biology: O desenvolvimento e aplicação de métodos teóricos

e analíticos, incluindo modelagem matemática e aplicação de técnicas de

simulações computacionais para o estudo de sistemas biológicos, sociais ou

comportamentais.

Biomedical Information Science and Technology

Initiative Consortium (BISTI - NIH)

Roberta A. Campos PhD, MSc, PD

Repositórios de Dados Biológicos

1965 – Atlas of Protein Sequences and Structure

(Dayhoff et al.) - ~1Mb

1982 – GenBank – 1988 – NCBI – National

Center for Biotechnology Information

1997 – EMBL – European Molecular Biology

Laboratory

1986 – DDBJ – DNA Data Bank of Japan

Roberta A. Campos PhD, MSc, PD

International Nucleotide Sequence Database

Colaboration

2008

98.868.465 seqüências

99.116.431.942 bases

1982

606 seqüências

2.427 bases

Roberta A. Campos PhD, MSc, PD

Era “Pós-Genoma”

"O PGH aumentou a capacidade de compreensão da complexidade que é a transmissão dos caracteres genéticos” (José Roberto Goldim, UFRGS)

Genômica Estrutural

◦ Construção de mapas genéticos, físicos e de transcrição de um organismo.

Genômica Funcional

◦ Caracterização das propriedades funcionais dos genes e determinação de Assinaturas Moleculares de Expressão Gênica.

Roberta A. Campos PhD, MSc, PD

Projetos “omas”

x

Pesquisa Clássica em Genética e

Bioquímica

Science 291:1221. 2001

Genômica

Transcritômica

Proteômica

Epigenômica

Metabolômica

Nova Onda NGS

Roberta A. Campos PhD, MSc, PD

Genômica Funcional: Análise de Expressão

Gênica

Genômica Funcional = Métodos de obtenção de dados em larga escala

+

Métodos de Bioinformática

(Genome-wide expression “profiling”) Revolução dos projetos “-omas”

Mayo Clin Proc. 2004 May;79(5):651-8

Roberta A. Campos PhD, MSc, PD

Últimos anos – NGS Era

2006

...

Next-Generation Sequencing Revollution

2003

Conclusão do

Projeto Genoma

Humano

2008

1000 Genomes

Project

2005 2007

Sequenciamento do Genoma

Diplóide de um único indivíduo

(Craig Venter)

The diploid genome sequence of

an individual human.

(Levy, S. et al. 2007)

Legião de Sequenciadores

ABI 3730 no JCVI

Genoma James D. Watson

Sequenciamento com 454

Roberta A. Campos PhD, MSc, PD

NEW GENERATION SEQUENCING AND APPLICATIONS

Roberta A. Campos PhD, MSc, PD

Nova Geração de Sequenciadores

ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD

Método Sanger Pirosequenciamento Sequenciamento por Síntese

Sequenciamento por Ligação

Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl

• Aumento na quantidade de Dados

• IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp)

• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x)

em questão de poucos dias);

• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);

• Redução do custo por base sequenciada.

PLATÔ

TECNOLOGIA

Roberta A. Campos PhD, MSc, PD

Resumo das plataformas

http://www.illumina.com/

http://www.my454.com/

http://www.appliedbiosystems.com.br/ Roberta A. Campos PhD, MSc, PD

Trade-offs in Next Generation

Sequencing technologies

NHGRI Current Topics in Genome Analysis 2010

Elliott Margulies, Ph.D Roberta A. Campos PhD, MSc, PD

NGS no mundo

http://pathogenomics.bham.ac.uk/hts/ Roberta A. Campos PhD, MSc, PD

Novas promessas

HeliScope

◦ Helicos BioSciences

ION Torrent

◦ Applied Biosystems

PacBio RS

◦ Pacific Biosciences

2008

2010

2010

Roberta A. Campos PhD, MSc, PD

Produtividade

[Stratton MR, et al. 2009]

Roberta A. Campos PhD, MSc, PD

Aplicacao Biotecnologica

i5K

◦ 5000 genomas de insetos

importância especialmente para a agricultura.

Genome10K

◦ 10000 genomas de vertebrados

diversidade genética entre vertebrados;

1001 Genomes

◦ 1001 genotipos de Arabdopsis thaliana

planta modelo, base de estudos outras plantas;

1KP

◦ 1000 genomas de plantas

desenvolvimentos de produtos biotecnológicos.

Roberta A. Campos PhD, MSc, PD

“Counting Experiments”

Roberta A. Campos PhD, MSc, PD

Análise RNA-Seq RNA-Seq

RNA-Seq – Quantificação da expresão dos genes no transcriptoma

Roberta A. Campos PhD, MSc, PD

Análise ChIP-Seq ChIP-Seq

ChIP – Chromatin ImunoPreciptation

High-Throughput sequencing

ChIP-Seq – Estudo da estrutura da cromatina

Padrão de metilação de histonas no genoma

humano

Uma das primeiras publicações utilizando

Illumina 1G Genome Analyzer

Reproducibilidade

r = 0.906 (p-value < 2.2e-16).

ChIP

-Seq X

GM

AT

(G

enom

e-w

ide

Mappin

g Te

chniq

ue)

Roberta A. Campos PhD, MSc, PD

Análise Methyl-Seq Methyl-Seq

DNA treatment with methyl-sensitive restriction enzymes

(HpaII - não metilada, MspI - indiferente)

High-Throughput sequencing

Methyl-Seq – Estudo de padrões de metilação do

DNA em hESCs, células derivadas de hESCs e fígado

fetal humano

methylation status:

presence or absence of HpaII tags:

average tag count > 1 unmethylated

AUC = 0.94

Methyl-Seq x Illumina Infinium

Roberta A. Campos PhD, MSc, PD

Análise microRNA-Seq microRNA-Seq

small RNA library (mirVana miRNA Isolation Kit)

High-Throughput sequencing

microRNA-Seq – Caracterização dos miRNAs

expressos em tecido gástrico humano (cardia -

estômago)

Plataforma SOLiD

qRT-PCR

2 -∆Ct

Pearson correlation (SOLiDxqRTPCR)

r2 = 83.9 (p-value < 0.05)

Roberta A. Campos PhD, MSc, PD

Análise de Vias Biológicas

Vias metabólicas/regulatórias

relacionadas JASMONATO

em plantas em diferentes

contextos ecologicos

Roberta A. Campos PhD, MSc, PD

Interações entre Proteínas

Cobertura

Ontologia - Paralogia

Regioes Conservadas

Problemas de ANOTACAO!!!

Estima-se que 20% de anotacoes erradas!!!

Roberta A. Campos PhD, MSc, PD

Análise de Interações entre

Proteínas – Redes Baysianas

Protein–protein interactions networks

for mutated genes in HCC1954 (A)

and HCC1954BL (B).

Roberta A. Campos PhD, MSc, PD

Biologia Sistêmica – “New hit”

Estudo das interações entre as componentes de um

sistema biológico, e como essas interações fazem

emergir função e comportamento no sistema;

"Systems Biology is the science of discovering, modeling,

understanding and ultimately engineering at the

molecular level the dynamic relationships between the

biological molecules that define living organisms “

Leroy Hood

Roberta A. Campos PhD, MSc, PD

CONCLUSÃO

Roberta A. Campos PhD, MSc, PD

Perguntas?

Roberta Alvares Campos

OBRIGADA !!!

Roberta A. Campos PhD, MSc, PD

ABORDAGENS EM GRUPOS

Brain storm

Roberta A. Campos PhD, MSc, PD

Resumo de Aplicações

Category - NGS Examples of applications

Complete genome resequencing Comprehensive polymorphism and mutation discovery in

individual human genomes

Reduced representation sequencing - Draft Large-scale polymorphism discovery

Targeted genomic resequencing Targeted polymorphism and mutation discovery

RNA-seq = Pairend or single end sequencing Discovery of inherited and acquired structural variation

Metagenomic sequencing Discovery of infectious and flora

Transcriptome sequencing

Quantification of gene expression and alternative splicing;

transcript annotation; discovery of transcribed SNPs or

somatic mutations.

Small RNA sequencing microRNA profiling

Sequencing of bisulfite-treated DNA Determining patterns of cytosine methylation in genomic

DNA

Chromatin immunoprecipitation– sequencing

(ChIP-Seq) Genome-wide mapping of protein-DNA interactions

Nuclease fragmentation and sequencing Nucleosome positioning

Molecular barcoding - NGS Multiplex sequencing of samples from multiple individuals

[Shendure, J & Ji, H, 2008]

Roberta A. Campos PhD, MSc, PD

top related