introduÇÃo À tecnologia de microarray · 1 1. expressão gênica a expressão gênica...
TRANSCRIPT
UNIVERSIDADE DE SÃO PAULO ESCOLA SUPERIOR DE AGRICULTURA “LUIZ DE QUEIROZ”
SEMINÁRIO
CURSO DE PÓS-GRADUAÇÃO EM: Estatística e Experimentação Agronômica NÍVEL: Mestrado ALUNO: Diógenes Ferreira Filho ORIENTADORA: Profa. Dra. Roseli Aparecida Leandro TÍTULO: INTRODUÇÃO À TECNOLOGIA DE MICROARRAY
PIRACICABA Estado de São Paulo - Brasil
Outubro de 2008
1
1. Expressão Gênica
A expressão gênica corresponde vários eventos, a começar pela transcrição do gene no
núcleo até a tradução do mRNA no citoplasma (Marques, 2003).
Assim, expressão gênica corresponde ao processo em que a informação codificada por
um determinado gene é decodificada em uma proteína.
Com raras exceções todas as células que constituem um organismo vivo contêm a
mesma carga genética, ou seja, o mesmo DNA.
O que diferencia dois grupos celulares morfologicamente distintos (células de folha e
tronco, por exemplo) são os genes expressos nesses dois tipos de células e os níveis de
expressão desses genes.
A comparação dos níveis de expressão dos genes de diferentes tecidos pode levar ao
entendimento dos diversos fenômenos encontrados em um organismo.
Experimentos para a detecção de genes com expressão diferencial entre tecidos e
órgãos podem ser realizados com microarrays (microarranjos) de DNA.
2. Experimento de Microarray
Esse tipo de experimento permite mensurar os níveis de expressão de milhares de
genes simultaneamente, possibilitando comparações entre amostras de tecidos pelos
perfis de expressão.
São realizados milhares de testes simultâneos para diferentes variáveis-respostas na
mesma estrutura de unidades experimentais.
Figura 2.1: Imagem de um microarray.
2.1. Algumas aplicações de Microarray
• Análise de expressão gênica;
• Detecção de polimorfismos;
2
• Re-seqüenciação genética;
• Genotipagem;
• Escalagem genômica.
2.2. Algumas técnicas de Microarray
• Ilumina bead array (www.illumina.com);
• Nylon Membrane (www.schleicher-schuell.com);
• Agilent: Long oligo Ink Jet (www.home.agilent.com);
• GeneChip Affymetrix (www.affymetrix.com);
• cDNA microarrays;
• Microarrays de proteínas e Oligo Microarrays;
2.3. Fabricação de Microarrays
A construção dos microarrays pode ser feita por diferentes técnicas. A figura abaixo
ilustra três técnicas de fabricação de microarrays: (a) Photolithography, (b) Mechanical
microspotting e (c) Ink jetting.
Veremos apenas a técnica (b) Mechanical microspotting.
Figura 2.2: Técnicas de fabricação de microarray. (a) Photolithography, (b) Mechanical
microspotting, (c) Ink jetting. Fonte: Schena et al. (1998).
3
Segundo Lopes e Pais (2006) apesar da existência de microarrays de expressão gênica
em vários formatos, são usados com mais regularidade duas categorias:
• Microarrays de cDNA compostos por cDNA ou oligonucleotídeos;
• Arrays de grande densidade produzidos comercialmente que contêm
oligonucleotídeos sintetizados.
O princípio pelo qual todos os microarrays se regem é o da capacidade de uma
seqüência presa de nucleotídeos se “colar” ou hibridar com sua seqüência
complementar e formar uma seqüência dupla de DNA (Lopes e Pais, 2006).
3. cDNA Microarray
Segundo Esteves (2002) um experimento de microarray consiste de duas etapas:
I. Etapa bioquímica;
II. Etapa computacional estatística.
3.1. Etapa Bioquímica
Consiste de duas fases que podem ser consideradas independentes, são elas:
i. Fixação de cDNAs nas lâminas de vidro;
ii. Extração de RNA e hibridização.
3.1.1. Fixação dos cDNAs nas lâminas de vidro
• Seleção de clones:
A fase inicial de um experimento consiste na seleção de clones de cDNA vindos
de algum banco de clones que geralmente estão relacionados com algum
projeto genoma específico.
• Amplificação dos fragmentos por PCR:
Como em experimentos de microarray podem ser utilizados vários microarrays
a quantidade inicial de cDNAs pode não ser suficiente, e deve então ser
amplificada por PCR (Reação em cadeia por Polimerase).
4
Figura 3.1: Termociclador. Aparelho utilizado para realização de PCR.
• Fixação das cDNAs:
Os fragmentos selecionados são fixados nas lâminas de vidro por um robô
chamado arrayer em posições específicas conhecidas como “spots”.
Os cDNAs fixados na lâmina são chamados cDNAs “sonda”, os quais contém,
cada um, as seqüências de um único gene. Por exemplo, em um experimento
de microarray com ratos os cDNAs sonda podem ser cDNAs com as seqüências
de todos os genes do DNA do rato.
Figura 3.2: Arrayer depositando os cDNAs nas lâminas de vidro.
3.1.2. Extração de RNA e hibridização
• Extração do mRNA ou RNA total das populações celulares de interesse;
São extraídos o RNA mensageiro (mRNA) ou RNA total das duas populações
celulares de interesse (Tratamento e Controle, por exemplo: células
cancerígenas e células normais).
• Produção de cDNA alvo por transcrição reversa incorporados com Cy3 e Cy5;
5
A partir de cada amostra de RNA é produzido cDNA (DNA complemetar) por
transcrição reversa. Os cDNAs de cada amostra são “tingidos” com os corantes
fluorescentes Cy3 e Cy5 os quais serão excitados com comprimentos de onda
diferentes. Os cDNAs da população controle serão “tingidos” com Cy3 e os
cDNAs da população tratamento serão “tingidos” com Cy5.
• Os cDNAs alvo de duas amostras distintas (uma com Cy3 e outra com Cy5) são
misturados e hibridizados contra a lâmina de vidro;
Nesse processo as seqüências de cDNAs das duas amostras, em contato com a
lâmina de vidro, irão se anelar com suas seqüências complementares dos
cDNAs sonda. Haverá competição entre as duas amostras.
Figura 3.3: As duas amostras de cDNAs marcados são misturadas e colocadas
na lâmina para hibridização. Fonte: Souto (2008).
3.2. Etapa computacional estatística
Consiste das seguintes fases:
i. Aquisição de imagens,
ii. Análise de imagens,
iii. Normalização de dados,
iv. Análise de dados.
3.2.1. Aquisição de Imagens
Depois que a lâmina foi hibridizada ela passa por uma etapa de lavagens para remover
o excesso de material genético que não hibridizou com os as sondas e é feita a leitura
do microarray pelo scanner para digitalização da imagem;
Existem dois tipos de scanners:
• Scanner CCD;
6
Na tecnologia CCD as lâminas são excitadas com uma luz branca em toda sua
extensão e uma câmera fotografa a imagem decorrente da emissão de
intensidade proveniente dos fluorocromos (Cy3 e Cy5) presentes nos alvos
(populações celulares de interesse) que foram utilizados para a hibridização
(Esteves, 2002).
• Scanner a laser;
Os scanners a laser fazem uma varredura na lâmina com um raio laser nos
comprimentos de onda específicos digitalizando a imagem gerada.
Os dados brutos resultantes de um experimento de microarray de duas cores são
imagens monocromáticas, uma para cada corante, usualmente um arquivo .TIF.
12130c1G 12130c1R
Figura 3.4: Imagens de um experimento de microarray. A figura 12130c1G
corresponde à leitura do scanner no comprimento de onda que excita o Cy3 e a figura
12130c1R corresponde à leitura do scanner no comprimento de onda que excita o Cy5.
Estas figuras fazem parte do experimento Apo AI o qual é tratado por Dudoit et al.
(2000). O banco de dados desse experimento, incluindo as imagens, está disponível em
http://www.stat.berkeley.edu/users/terry/zarray/Html/apodata.html.
7
Posteriormente um software de análise de imagens atribui cores a cada uma das
imagens e mescla essas imagens dando origem a uma única imagem. O ScanAlyse é um
programa para análise de imagem de microarrays de DNA, Eisen (1998) .
Figura 3.5: Software de análise de imagens de microarray ScanAlyse gerando uma nova
imagem pela composição das imagens 12130c1G e 12130c1R atribuídas das cores
verde para 12130c1G e vermelha para 12130c1R.
Figura 3.6: Diagrama ilustrativo da técnica de cDNA microarray. Fonte: Fujita (2007).
8
3.2.2. Análise das imagens
As imagens constituem os dados da análise de expressão gênica;
Vejamos primeiramente segundo Esteves (2002) alguns termos usados na linguagem
de processamento de imagens de microarray:
• Foreground ou região de sinal: Região ocupada pelo spot;
• Background: Imagem de fundo da lâmina (região onde não se encontram os
spots);
• Ruído: Falta de contribuição de sinal devido a moléculas que não se anelam
com nenhuma molécula fluorescente;
• Artefato: Sinais inespecíficos decorrentes de sujeira na lâmina ou hibridização
inespecífica que contaminam o background;
Figura 3.7: Termos usados na linguagem de processamento de imagens de microarray.
O processamento de imagens de microarray pode ser dividido em três partes:
I. Endereçamento ou gradeamento;
II. Segmentação do sinal (ou dos spots);
III. Quantificação da intensidade;
3.2.2.1. Endereçamento ou gradeamento;
• Blocos;
• Região de influência do spot;
9
Figura 3.8: Gradeamento dos blocos no software Bioinfo. Fonte: Esteves (2002).
Figura 3.9: Gradeamento e segmentação dos spots. Fonte: Esteves (2002).
3.2.2.2. Segmentação do sinal (ou dos spots);
Verifica se o pixel pertencente ao foreground ou ao background;
Métodos de segmentação:
• Segmentação de círculo fixo;
• Segmentação de círculo adaptativo;
• Segmentação por histograma;
• Segmentação por variação de intensidade;
10
Figura 3.10: Imagens de segmentação por círculo fixo e segmentação por variação de
intensidade respectivamente. Fonte: Esteves (2002).
3.2.2.3. Quantificação da intensidade
São feitos os cálculos das intensidades background e do foreground. Observe na figura
15, Target Median é a mediana da intensidade de luz (vermelha ou verde) dentro do
círculo, e Bkgd Median é a mediana da intensidade de luz do background (região fora
do círculo mas dentro do quadrado). A Área é calculada como sendo o número de
pixels dentro do círculo cuja intensidade seja maior que todos os pixels fora do círculo
mas dentro do quadrado. Assim a intensidade do spot é calculada por:
Intensidade = (Target median – Bkgd median)*Area.
Figura 3.11: Cálculo da intensidade do spot. Fonte: Carazzolle (2008).
Na figura acima temos:
11
Area Cy3 = 80
Area Cy5 = 83
Target (Cy3) median = 65520
Target (Cy5) median = 65520
Bckg (Cy3) = 23904
Bckg (Cy5) = 38392
Figura 3.12: Parte de uma tabela de dados de microarrays com o background corrigido.
Esses dados são parte do experimento Apo AI o qual é tratado por Dudoit et al. (2000).
Banco de dados disponível em
http://www.stat.berkeley.edu/users/terry/zarray/Html/apodata.html.
Cy3 = (65520 - 23904) * 80 = 3329280
Cy5 = (65520 - 38392) * 83 = 2251624
12
3.2.2.4. Qualidade do spot
Figura 3.13: Spot bom, apresenta boa correlação entre os dois canais. Os pontos em
vermelho representam os pixels do foreground e os azuis os pixels do background.
Fonte: Esteves (2002).
Figura 3.14: Spot ruim, nota-se uma pior correlação entre os dois canais. Os pontos em
vermelho representam os pixels do foreground e os azuis os pixels do background.
Fonte: Esteves (2002).
13
3.3. Fatores potencialmente prejudiciais para experimentos de microarray:
• 1 a 5% dos clones não contêm a seqüência que deveria;
• Imprecisão de equipamentos;
• Procedimentos de localização e quantificação adotados pelos softwares;
• Segmentação por círculo fixo;
Figura 3.15: Possível problema em uma imagem de microarray. A mancha na figura
aparenta ser uma marca de dedo. Fonte: Esteves (2007).
4. Experimento Apo AI
O experimento Apo AI foi parte de um estudo sobre metabolismo de lipídio e
suscetibilidade à arteriosclerose em ratos Dudoit (2000).
Apolipoprotein AI (Apo AI) é um gene importante no metabolismo do colesterol HDL.
Ratos com o gene Apo AI knocked-out tem níveis muito baixos de colesterol HDL.
4.1. Objetivo
Comparar genes com nível de expressão alterada no fígado de ratos knock-out com
ratos controle.
4.2. Estrutura do Experimento
Foram utilizados 16 ratos:
8 ratos com o gene Apo AI knock-out;
8 ratos normais C57B1/6 (controle).
14
Foi obtido cDNA por transcrição reversa a partir do mRNA extraído dos 16 ratos. Os
cDNAs foram marcados com Cy3 e Cy5.
Figura 4.1: Para cada um dos 16 ratos cDNA marcado foi obtido do mRNA por
transcrição reversa e tingido usando o corante fluorescente vermelho Cy5. A amostra
referência usada em todas as hibridizações foram preparadas misturando cDNA dos 8
ratos controle e foram tingidos com o corante fluorescente verde Cy3, Dudoit (2001).
Temos então 16 microarrays:
c1, c2, c3, c4, c5, c6, c7, c8,
ko1, ko2, ko3, ko4, ko5, ko6, ko7, ko8.
Cada microarray tem 6.384 sondas de cDNA impressas em arranjos 4x4.
Cada bloco do microarray tem 19 linhas e 21 colunas.
Figura 4.2: Imagem de microarray do Experimento Apo AI e a direita a mesma imagem
com os blocos destacados.
Os dados de intensidade de
se gráficos de dispersão. Os
APO AI.
Os gráficos mais comuns são
Cy3 x Cy5;
MA-plot;
onde M = log2(R) - log2(G)
Figura 5.1: Gráf
Figura 5.2: MA-pl
5. Visualização dos dados
de fluorescência são tradicionalmente visualiza
Os gráficos a seguir foram feitos com dados d
são:
(G) e A = ½·[log2(R) + log2(G)].
ráfico de dispersão de Cy3 x Cy5 para o microar
plot para o microarray c1.
15
alizados utilizando-
os do experimento
roarray c1
16
Sobre a transformação M = log2(R) - log2(G), A = ½·[log2(R) + log2(G)] são aplicadas
então as técnicas de normalização, que buscam reduzir a variação da técnica e tornar
as intensidades comparáveis entre hibridizações diferentes.
6. Normalização dos dados
Experimentos de microarray têm muitas fontes de variação sistemática as quais
podem afetar as medições dos níveis de expressão gênica.
Para comparar microarrays devem ser removidas as fontes de variação de cada um
deles.
6.1. Causas de variação
• Diferenças na eficiência da incorporação dos corantes;
• Diferenças na quantidade de RNA inicial utilizado para marcação e hibridização;
• Diferenças de ajuste de parâmetros do scanner de leitura das lâminas;
• Falhas na impressão das sondas, etc.
6.2. Escolha dos genes
• Todos os genes do microarray;
• Subconjunto de genes com nível de expressão constante quando expostos a
condições distintas (“Housekeeping genes”);
• Elementos de controle (“spiked controls”).
6.3. Normalização Global
Sua suposição básica é que as intensidades totais para cada canal são equivalentes, de
forma que para cada spot o par (r, g) está relacionado por uma constate k, de forma
que R = kG. Estima-se k, onde k = Σ Ri / Σ Gi e aplica-se a transformação
onde .
Esse tipo de normalização não se comporta bem com o viés devido ao corante
fluorescente nem a localização espacial.
2 2 log ( /( )) log ( / ) - M R kG R G c→ =
2logc k=
17
Figura 6.1: MA-plot antes da normalização e MA-plot depois da normalização global.
6.4. Normalização ANN
Figura 6.2: MA-plot antes da normalização e Imagem do slide (microarray) destacados
os blocos.
São considerados os níveis de intensidade em cada bloco. Cada curva na figura a
esquerda acima representa a variação do nível de intensidade para um bloco.
18
Figura 6.3: MA-plot antes da normalização e MA-plot depois da normalização ANN.
Maiores detalhes sobre a normalização ANN podem ser encontrados em Tarca (2006).
7. Análise de dados de Microarrays
Nesta etapa, é possível seguir diferentes abordagens matemáticas e estatísticas,
dependendo das questões biológicas envolvidas com o experimento.
7.1. Dificuldades na análise de dados
O processo de obtenção dos dados de expressão gênica é repleto de etapas
experimentais de natureza distinta;
Os dados obtidos são freqüentemente observacionais, o que dificulta bastante o
processo de modelagem desses dados;
O planejamento experimental é geralmente negligenciado.
7.2. Análises mais comuns
Segundo Esteves (2007) os tipos mais comuns de análise de microarrays são:
• Construção de agrupamentos (tanto para genes como para amostras);
• Busca de genes diferencialmente expressos (DE);
• Busca de grupos de genes capazes de discriminar tipos biológicos diferentes
(análise de discriminação).
19
7.2.1. Agrupamentos
No contexto de análise de dados de microarray, a análise de agrupamentos pode ser
entendida como o processo de reunir, ou agrupar, entidades similares entre si. Aqui,
essas entidades podem ser os genes ou amostras biológicas estudadas no trabalho.
7.2.2. Busca de genes DE
Identificação de genes com diferenças significativas de expressão entre os tecidos
biológicos estudados;
Métodos para a análise de apenas dois tipos biológicos;
Métodos para a análise de mais de dois tipos biológicos – ANOVA.
7.2.3. Análise de discriminação
Do ponto de vista biológico, o principal objetivo deste tipo de análise é encontrar
grupos de poucos genes (pares, trios ou quadras, por exemplo) que sejam capazes de
distinguir diferentes tipos de tecidos, como amostras normais e tumorais, a partir dos
seus valores de expressão.
8. Microarray de uma cor
Segundo Pereira (2008) no caso de microarrays de uma só cor, uma população de
cDNA é hibridizada às sondas de um slide.
Nos arrays de uma cor, um procedimento de transcrição reversa é usado para produzir
cDNA de fita dupla, que é transcrito e amplificado in vitro para cRNA marcado com
biotina. O cRNA biotinizado é, então, fragmentado e hibridizado no chip. Após a
hibridização, o cRNA não hibridizado é removido do array e o chip é submetido a uma
série de lavagens e etapas de coloração, em que o corante fluorescente streptavidin-
phycoerythrin (SAPE) liga com a biotina do cRNA marcado.
Finalmente, o array é digitalizado usando-se um laser que excita o corante
fluorescente. O processo de leitura da imagem é o mesmo que o de arrays de duas
cores.
20
Figura 8.1: Esquema da técnica de microarrays para arrays de duas cores e uma cor.
Fonte: Pereira (2008).
9. Próximas etapas
• Métodos de Normalização;
• Análise de dados de microarrays por:
• Construção de agrupamentos;
• Busca de genes diferencialmente expressos (DE);
• Análise de discriminação;
• Análise de dados de microarrays utilizando o bioconductor;
• Verificar em quais casos de análise de microarray é possível utilizar o diagrama
de Hasse e, quando possível, verificar se este pode auxiliar no processo de
análise.
21
REFERÊNCIAS
CARAZZOLLE, M. F., (2008) Análises de microarranjos de DNA. Disponível em
http://www.lge.ibi.unicamp.br/lgeextensao2008/extsup/microarray.pdf. Acesso em:
25 de Setembro de 2008.
DUDOIT, S. et al. Statistical methods for identifying dierentially expressed genes in
replicated cDNA microarray experiments. 2000.
DUDOIT, S. et al. Normalization for cDNA Microarray Data. 2001.
EISEN, M. ScanAlyze User Manual. Stanford University; 1998. Disponível em:
http://rana.lbl.gov/EisenSoftware.htm. Acesso em 09 de Setembro de 2008.
ESTEVES, G.H. Validação de procedimentos para medida de expressão gênica a partir
de imagens de cDNA Microarray. São Paulo; 2002. [Dissertação de Mestrado –
Fundação Antônio Prudente].
ESTEVES, G.H. Métodos estatísticos para a análise de dados de cDNA microarray em
um ambiente computacional integrado. São Paulo; 2007. [Tese de Doutorado –
Universidade de São Paulo].
FUJITA, A. Análise de dados de expressão gênica: normalização de microarrays e
modelagem de redes regulatórias. São Paulo; 2007. [Tese de Doutorado –
Universidade de São Paulo].
PEREIRA, R.N. Controle do erro do tipo I em um experimento de Microarrays com
eucalipto. Lavras; 2008. [Dissertação de mestrado – Universidade Federal de Lavras].
LOPES, F. C.; PAIS, H. L. M., (Jul. 2006) Relatório de Projecto de Final de Curso.
Universidade de Aveiro, Aveiro, Portugal.
MARQUES, E. K. Diagnóstico Genético Molecular. 1. ed. Canoas: Ed. ULBRA, 2003. 372
p.
SCHENA, M. et al., (Jul. 1998) “Microarrays: biotechnology's discovery platform for
functional genomics” TIBTECH 16:301-306.