introduÇÃo À tecnologia de microarray · 1 1. expressão gênica a expressão gênica...

UNIVERSIDADE DE SÃO PAULO ESCOLA SUPERIOR DE AGRICULTURA “LUIZ DE QUEIROZ”

SEMINÁRIO

CURSO DE PÓS-GRADUAÇÃO EM: Estatística e Experimentação Agronômica NÍVEL: Mestrado ALUNO: Diógenes Ferreira Filho ORIENTADORA: Profa. Dra. Roseli Aparecida Leandro TÍTULO: INTRODUÇÃO À TECNOLOGIA DE MICROARRAY

PIRACICABA Estado de São Paulo - Brasil

Outubro de 2008

1

1. Expressão Gênica

A expressão gênica corresponde vários eventos, a começar pela transcrição do gene no

núcleo até a tradução do mRNA no citoplasma (Marques, 2003).

Assim, expressão gênica corresponde ao processo em que a informação codificada por

um determinado gene é decodificada em uma proteína.

Com raras exceções todas as células que constituem um organismo vivo contêm a

mesma carga genética, ou seja, o mesmo DNA.

O que diferencia dois grupos celulares morfologicamente distintos (células de folha e

tronco, por exemplo) são os genes expressos nesses dois tipos de células e os níveis de

expressão desses genes.

A comparação dos níveis de expressão dos genes de diferentes tecidos pode levar ao

entendimento dos diversos fenômenos encontrados em um organismo.

Experimentos para a detecção de genes com expressão diferencial entre tecidos e

órgãos podem ser realizados com microarrays (microarranjos) de DNA.

2. Experimento de Microarray

Esse tipo de experimento permite mensurar os níveis de expressão de milhares de

genes simultaneamente, possibilitando comparações entre amostras de tecidos pelos

perfis de expressão.

São realizados milhares de testes simultâneos para diferentes variáveis-respostas na

mesma estrutura de unidades experimentais.

Figura 2.1: Imagem de um microarray.

2.1. Algumas aplicações de Microarray

• Análise de expressão gênica;

• Detecção de polimorfismos;

2

• Re-seqüenciação genética;

• Genotipagem;

• Escalagem genômica.

2.2. Algumas técnicas de Microarray

• Ilumina bead array (www.illumina.com);

• Nylon Membrane (www.schleicher-schuell.com);

• Agilent: Long oligo Ink Jet (www.home.agilent.com);

• GeneChip Affymetrix (www.affymetrix.com);

• cDNA microarrays;

• Microarrays de proteínas e Oligo Microarrays;

2.3. Fabricação de Microarrays

A construção dos microarrays pode ser feita por diferentes técnicas. A figura abaixo

ilustra três técnicas de fabricação de microarrays: (a) Photolithography, (b) Mechanical

microspotting e (c) Ink jetting.

Veremos apenas a técnica (b) Mechanical microspotting.

Figura 2.2: Técnicas de fabricação de microarray. (a) Photolithography, (b) Mechanical

microspotting, (c) Ink jetting. Fonte: Schena et al. (1998).

3

Segundo Lopes e Pais (2006) apesar da existência de microarrays de expressão gênica

em vários formatos, são usados com mais regularidade duas categorias:

• Microarrays de cDNA compostos por cDNA ou oligonucleotídeos;

• Arrays de grande densidade produzidos comercialmente que contêm

oligonucleotídeos sintetizados.

O princípio pelo qual todos os microarrays se regem é o da capacidade de uma

seqüência presa de nucleotídeos se “colar” ou hibridar com sua seqüência

complementar e formar uma seqüência dupla de DNA (Lopes e Pais, 2006).

3. cDNA Microarray

Segundo Esteves (2002) um experimento de microarray consiste de duas etapas:

I. Etapa bioquímica;

II. Etapa computacional estatística.

3.1. Etapa Bioquímica

Consiste de duas fases que podem ser consideradas independentes, são elas:

i. Fixação de cDNAs nas lâminas de vidro;

ii. Extração de RNA e hibridização.

3.1.1. Fixação dos cDNAs nas lâminas de vidro

• Seleção de clones:

A fase inicial de um experimento consiste na seleção de clones de cDNA vindos

de algum banco de clones que geralmente estão relacionados com algum

projeto genoma específico.

• Amplificação dos fragmentos por PCR:

Como em experimentos de microarray podem ser utilizados vários microarrays

a quantidade inicial de cDNAs pode não ser suficiente, e deve então ser

amplificada por PCR (Reação em cadeia por Polimerase).

4

Figura 3.1: Termociclador. Aparelho utilizado para realização de PCR.

• Fixação das cDNAs:

Os fragmentos selecionados são fixados nas lâminas de vidro por um robô

chamado arrayer em posições específicas conhecidas como “spots”.

Os cDNAs fixados na lâmina são chamados cDNAs “sonda”, os quais contém,

cada um, as seqüências de um único gene. Por exemplo, em um experimento

de microarray com ratos os cDNAs sonda podem ser cDNAs com as seqüências

de todos os genes do DNA do rato.

Figura 3.2: Arrayer depositando os cDNAs nas lâminas de vidro.

3.1.2. Extração de RNA e hibridização

• Extração do mRNA ou RNA total das populações celulares de interesse;

São extraídos o RNA mensageiro (mRNA) ou RNA total das duas populações

celulares de interesse (Tratamento e Controle, por exemplo: células

cancerígenas e células normais).

• Produção de cDNA alvo por transcrição reversa incorporados com Cy3 e Cy5;

5

A partir de cada amostra de RNA é produzido cDNA (DNA complemetar) por

transcrição reversa. Os cDNAs de cada amostra são “tingidos” com os corantes

fluorescentes Cy3 e Cy5 os quais serão excitados com comprimentos de onda

diferentes. Os cDNAs da população controle serão “tingidos” com Cy3 e os

cDNAs da população tratamento serão “tingidos” com Cy5.

• Os cDNAs alvo de duas amostras distintas (uma com Cy3 e outra com Cy5) são

misturados e hibridizados contra a lâmina de vidro;

Nesse processo as seqüências de cDNAs das duas amostras, em contato com a

lâmina de vidro, irão se anelar com suas seqüências complementares dos

cDNAs sonda. Haverá competição entre as duas amostras.

Figura 3.3: As duas amostras de cDNAs marcados são misturadas e colocadas

na lâmina para hibridização. Fonte: Souto (2008).

3.2. Etapa computacional estatística

Consiste das seguintes fases:

i. Aquisição de imagens,

ii. Análise de imagens,

iii. Normalização de dados,

iv. Análise de dados.

3.2.1. Aquisição de Imagens

Depois que a lâmina foi hibridizada ela passa por uma etapa de lavagens para remover

o excesso de material genético que não hibridizou com os as sondas e é feita a leitura

do microarray pelo scanner para digitalização da imagem;

Existem dois tipos de scanners:

• Scanner CCD;

6

Na tecnologia CCD as lâminas são excitadas com uma luz branca em toda sua

extensão e uma câmera fotografa a imagem decorrente da emissão de

intensidade proveniente dos fluorocromos (Cy3 e Cy5) presentes nos alvos

(populações celulares de interesse) que foram utilizados para a hibridização

(Esteves, 2002).

• Scanner a laser;

Os scanners a laser fazem uma varredura na lâmina com um raio laser nos

comprimentos de onda específicos digitalizando a imagem gerada.

Os dados brutos resultantes de um experimento de microarray de duas cores são

imagens monocromáticas, uma para cada corante, usualmente um arquivo .TIF.

12130c1G 12130c1R

Figura 3.4: Imagens de um experimento de microarray. A figura 12130c1G

corresponde à leitura do scanner no comprimento de onda que excita o Cy3 e a figura

12130c1R corresponde à leitura do scanner no comprimento de onda que excita o Cy5.

Estas figuras fazem parte do experimento Apo AI o qual é tratado por Dudoit et al.

(2000). O banco de dados desse experimento, incluindo as imagens, está disponível em

http://www.stat.berkeley.edu/users/terry/zarray/Html/apodata.html.

7

Posteriormente um software de análise de imagens atribui cores a cada uma das

imagens e mescla essas imagens dando origem a uma única imagem. O ScanAlyse é um

programa para análise de imagem de microarrays de DNA, Eisen (1998) .

Figura 3.5: Software de análise de imagens de microarray ScanAlyse gerando uma nova

imagem pela composição das imagens 12130c1G e 12130c1R atribuídas das cores

verde para 12130c1G e vermelha para 12130c1R.

Figura 3.6: Diagrama ilustrativo da técnica de cDNA microarray. Fonte: Fujita (2007).

8

3.2.2. Análise das imagens

As imagens constituem os dados da análise de expressão gênica;

Vejamos primeiramente segundo Esteves (2002) alguns termos usados na linguagem

de processamento de imagens de microarray:

• Foreground ou região de sinal: Região ocupada pelo spot;

• Background: Imagem de fundo da lâmina (região onde não se encontram os

spots);

• Ruído: Falta de contribuição de sinal devido a moléculas que não se anelam

com nenhuma molécula fluorescente;

• Artefato: Sinais inespecíficos decorrentes de sujeira na lâmina ou hibridização

inespecífica que contaminam o background;

Figura 3.7: Termos usados na linguagem de processamento de imagens de microarray.

O processamento de imagens de microarray pode ser dividido em três partes:

I. Endereçamento ou gradeamento;

II. Segmentação do sinal (ou dos spots);

III. Quantificação da intensidade;

3.2.2.1. Endereçamento ou gradeamento;

• Blocos;

• Região de influência do spot;

9

Figura 3.8: Gradeamento dos blocos no software Bioinfo. Fonte: Esteves (2002).

Figura 3.9: Gradeamento e segmentação dos spots. Fonte: Esteves (2002).

3.2.2.2. Segmentação do sinal (ou dos spots);

Verifica se o pixel pertencente ao foreground ou ao background;

Métodos de segmentação:

• Segmentação de círculo fixo;

• Segmentação de círculo adaptativo;

• Segmentação por histograma;

• Segmentação por variação de intensidade;

10

Figura 3.10: Imagens de segmentação por círculo fixo e segmentação por variação de

intensidade respectivamente. Fonte: Esteves (2002).

3.2.2.3. Quantificação da intensidade

São feitos os cálculos das intensidades background e do foreground. Observe na figura

15, Target Median é a mediana da intensidade de luz (vermelha ou verde) dentro do

círculo, e Bkgd Median é a mediana da intensidade de luz do background (região fora

do círculo mas dentro do quadrado). A Área é calculada como sendo o número de

pixels dentro do círculo cuja intensidade seja maior que todos os pixels fora do círculo

mas dentro do quadrado. Assim a intensidade do spot é calculada por:

Intensidade = (Target median – Bkgd median)*Area.

Figura 3.11: Cálculo da intensidade do spot. Fonte: Carazzolle (2008).

Na figura acima temos:

11

Area Cy3 = 80

Area Cy5 = 83

Target (Cy3) median = 65520

Target (Cy5) median = 65520

Bckg (Cy3) = 23904

Bckg (Cy5) = 38392

Figura 3.12: Parte de uma tabela de dados de microarrays com o background corrigido.

Esses dados são parte do experimento Apo AI o qual é tratado por Dudoit et al. (2000).

Banco de dados disponível em

http://www.stat.berkeley.edu/users/terry/zarray/Html/apodata.html.

Cy3 = (65520 - 23904) * 80 = 3329280

Cy5 = (65520 - 38392) * 83 = 2251624

12

3.2.2.4. Qualidade do spot

Figura 3.13: Spot bom, apresenta boa correlação entre os dois canais. Os pontos em

vermelho representam os pixels do foreground e os azuis os pixels do background.

Fonte: Esteves (2002).

Figura 3.14: Spot ruim, nota-se uma pior correlação entre os dois canais. Os pontos em

vermelho representam os pixels do foreground e os azuis os pixels do background.

Fonte: Esteves (2002).

13

3.3. Fatores potencialmente prejudiciais para experimentos de microarray:

• 1 a 5% dos clones não contêm a seqüência que deveria;

• Imprecisão de equipamentos;

• Procedimentos de localização e quantificação adotados pelos softwares;

• Segmentação por círculo fixo;

Figura 3.15: Possível problema em uma imagem de microarray. A mancha na figura

aparenta ser uma marca de dedo. Fonte: Esteves (2007).

4. Experimento Apo AI

O experimento Apo AI foi parte de um estudo sobre metabolismo de lipídio e

suscetibilidade à arteriosclerose em ratos Dudoit (2000).

Apolipoprotein AI (Apo AI) é um gene importante no metabolismo do colesterol HDL.

Ratos com o gene Apo AI knocked-out tem níveis muito baixos de colesterol HDL.

4.1. Objetivo

Comparar genes com nível de expressão alterada no fígado de ratos knock-out com

ratos controle.

4.2. Estrutura do Experimento

Foram utilizados 16 ratos:

8 ratos com o gene Apo AI knock-out;

8 ratos normais C57B1/6 (controle).

14

Foi obtido cDNA por transcrição reversa a partir do mRNA extraído dos 16 ratos. Os

cDNAs foram marcados com Cy3 e Cy5.

Figura 4.1: Para cada um dos 16 ratos cDNA marcado foi obtido do mRNA por

transcrição reversa e tingido usando o corante fluorescente vermelho Cy5. A amostra

referência usada em todas as hibridizações foram preparadas misturando cDNA dos 8

ratos controle e foram tingidos com o corante fluorescente verde Cy3, Dudoit (2001).

Temos então 16 microarrays:

c1, c2, c3, c4, c5, c6, c7, c8,

ko1, ko2, ko3, ko4, ko5, ko6, ko7, ko8.

Cada microarray tem 6.384 sondas de cDNA impressas em arranjos 4x4.

Cada bloco do microarray tem 19 linhas e 21 colunas.

Figura 4.2: Imagem de microarray do Experimento Apo AI e a direita a mesma imagem

com os blocos destacados.

Os dados de intensidade de

se gráficos de dispersão. Os

APO AI.

Os gráficos mais comuns são

Cy3 x Cy5;

MA-plot;

onde M = log2(R) - log2(G)

Figura 5.1: Gráf

Figura 5.2: MA-pl

5. Visualização dos dados

de fluorescência são tradicionalmente visualiza

Os gráficos a seguir foram feitos com dados d

são:

(G) e A = ½·[log2(R) + log2(G)].

ráfico de dispersão de Cy3 x Cy5 para o microar

plot para o microarray c1.

15

alizados utilizando-

os do experimento

roarray c1

16

Sobre a transformação M = log2(R) - log2(G), A = ½·[log2(R) + log2(G)] são aplicadas

então as técnicas de normalização, que buscam reduzir a variação da técnica e tornar

as intensidades comparáveis entre hibridizações diferentes.

6. Normalização dos dados

Experimentos de microarray têm muitas fontes de variação sistemática as quais

podem afetar as medições dos níveis de expressão gênica.

Para comparar microarrays devem ser removidas as fontes de variação de cada um

deles.

6.1. Causas de variação

• Diferenças na eficiência da incorporação dos corantes;

• Diferenças na quantidade de RNA inicial utilizado para marcação e hibridização;

• Diferenças de ajuste de parâmetros do scanner de leitura das lâminas;

• Falhas na impressão das sondas, etc.

6.2. Escolha dos genes

• Todos os genes do microarray;

• Subconjunto de genes com nível de expressão constante quando expostos a

condições distintas (“Housekeeping genes”);

• Elementos de controle (“spiked controls”).

6.3. Normalização Global

Sua suposição básica é que as intensidades totais para cada canal são equivalentes, de

forma que para cada spot o par (r, g) está relacionado por uma constate k, de forma

que R = kG. Estima-se k, onde k = Σ Ri / Σ Gi e aplica-se a transformação

onde .

Esse tipo de normalização não se comporta bem com o viés devido ao corante

fluorescente nem a localização espacial.

2 2 log ( /( )) log ( / ) - M R kG R G c→ =

2logc k=

17

Figura 6.1: MA-plot antes da normalização e MA-plot depois da normalização global.

6.4. Normalização ANN

Figura 6.2: MA-plot antes da normalização e Imagem do slide (microarray) destacados

os blocos.

São considerados os níveis de intensidade em cada bloco. Cada curva na figura a

esquerda acima representa a variação do nível de intensidade para um bloco.

18

Figura 6.3: MA-plot antes da normalização e MA-plot depois da normalização ANN.

Maiores detalhes sobre a normalização ANN podem ser encontrados em Tarca (2006).

7. Análise de dados de Microarrays

Nesta etapa, é possível seguir diferentes abordagens matemáticas e estatísticas,

dependendo das questões biológicas envolvidas com o experimento.

7.1. Dificuldades na análise de dados

O processo de obtenção dos dados de expressão gênica é repleto de etapas

experimentais de natureza distinta;

Os dados obtidos são freqüentemente observacionais, o que dificulta bastante o

processo de modelagem desses dados;

O planejamento experimental é geralmente negligenciado.

7.2. Análises mais comuns

Segundo Esteves (2007) os tipos mais comuns de análise de microarrays são:

• Construção de agrupamentos (tanto para genes como para amostras);

• Busca de genes diferencialmente expressos (DE);

• Busca de grupos de genes capazes de discriminar tipos biológicos diferentes

(análise de discriminação).

19

7.2.1. Agrupamentos

No contexto de análise de dados de microarray, a análise de agrupamentos pode ser

entendida como o processo de reunir, ou agrupar, entidades similares entre si. Aqui,

essas entidades podem ser os genes ou amostras biológicas estudadas no trabalho.

7.2.2. Busca de genes DE

Identificação de genes com diferenças significativas de expressão entre os tecidos

biológicos estudados;

Métodos para a análise de apenas dois tipos biológicos;

Métodos para a análise de mais de dois tipos biológicos – ANOVA.

7.2.3. Análise de discriminação

Do ponto de vista biológico, o principal objetivo deste tipo de análise é encontrar

grupos de poucos genes (pares, trios ou quadras, por exemplo) que sejam capazes de

distinguir diferentes tipos de tecidos, como amostras normais e tumorais, a partir dos

seus valores de expressão.

8. Microarray de uma cor

Segundo Pereira (2008) no caso de microarrays de uma só cor, uma população de

cDNA é hibridizada às sondas de um slide.

Nos arrays de uma cor, um procedimento de transcrição reversa é usado para produzir

cDNA de fita dupla, que é transcrito e amplificado in vitro para cRNA marcado com

biotina. O cRNA biotinizado é, então, fragmentado e hibridizado no chip. Após a

hibridização, o cRNA não hibridizado é removido do array e o chip é submetido a uma

série de lavagens e etapas de coloração, em que o corante fluorescente streptavidin-

phycoerythrin (SAPE) liga com a biotina do cRNA marcado.

Finalmente, o array é digitalizado usando-se um laser que excita o corante

fluorescente. O processo de leitura da imagem é o mesmo que o de arrays de duas

cores.

20

Figura 8.1: Esquema da técnica de microarrays para arrays de duas cores e uma cor.

Fonte: Pereira (2008).

9. Próximas etapas

• Métodos de Normalização;

• Análise de dados de microarrays por:

• Construção de agrupamentos;

• Busca de genes diferencialmente expressos (DE);

• Análise de discriminação;

• Análise de dados de microarrays utilizando o bioconductor;

• Verificar em quais casos de análise de microarray é possível utilizar o diagrama

de Hasse e, quando possível, verificar se este pode auxiliar no processo de

análise.

21

REFERÊNCIAS

CARAZZOLLE, M. F., (2008) Análises de microarranjos de DNA. Disponível em

http://www.lge.ibi.unicamp.br/lgeextensao2008/extsup/microarray.pdf. Acesso em:

25 de Setembro de 2008.

DUDOIT, S. et al. Statistical methods for identifying dierentially expressed genes in

replicated cDNA microarray experiments. 2000.

DUDOIT, S. et al. Normalization for cDNA Microarray Data. 2001.

EISEN, M. ScanAlyze User Manual. Stanford University; 1998. Disponível em:

http://rana.lbl.gov/EisenSoftware.htm. Acesso em 09 de Setembro de 2008.

ESTEVES, G.H. Validação de procedimentos para medida de expressão gênica a partir

de imagens de cDNA Microarray. São Paulo; 2002. [Dissertação de Mestrado –

Fundação Antônio Prudente].

ESTEVES, G.H. Métodos estatísticos para a análise de dados de cDNA microarray em

um ambiente computacional integrado. São Paulo; 2007. [Tese de Doutorado –

Universidade de São Paulo].

FUJITA, A. Análise de dados de expressão gênica: normalização de microarrays e

modelagem de redes regulatórias. São Paulo; 2007. [Tese de Doutorado –

Universidade de São Paulo].

PEREIRA, R.N. Controle do erro do tipo I em um experimento de Microarrays com

eucalipto. Lavras; 2008. [Dissertação de mestrado – Universidade Federal de Lavras].

LOPES, F. C.; PAIS, H. L. M., (Jul. 2006) Relatório de Projecto de Final de Curso.

Universidade de Aveiro, Aveiro, Portugal.

MARQUES, E. K. Diagnóstico Genético Molecular. 1. ed. Canoas: Ed. ULBRA, 2003. 372

p.

SCHENA, M. et al., (Jul. 1998) “Microarrays: biotechnology's discovery platform for

functional genomics” TIBTECH 16:301-306.

22

SOUTO, M. C. P., Expressão Gênica. Disponível em

http://www.dimap.ufrn.br/~marcilio/BIOINFORMATICA/BIO2004.1/BIO-aula-11-

expressao-genica.ppt. Acesso em 09 de Setembro de 2008.

TARCA, A. L. Bioconductor's nnNorm package. Detroit, Michigan; 2006. Wayne State

University.

introduÇÃo À tecnologia de microarray · 1 1. expressão gênica a expressão gênica...

Documents