análises agrupamento e dissimilaridade no genes
Post on 19-Jun-2015
4.452 Views
Preview:
TRANSCRIPT
ANÁLISES DE ANÁLISES DE AGRUPAMENTO E AGRUPAMENTO E DISSIMILARIDADEDISSIMILARIDADE
Mestrando: Cristiano Lemes
Prof: Giovani Benin
Teoria da Seleção - 2012
ANÁLISES QUE SERÃO ANÁLISES QUE SERÃO ABORDADASABORDADAS
Métodos de Agrupamento: Variáveis Canônicas Componentes Principais Transformar matriz de similaridade em dissimilaridade
Dissimilaridade: Distância Euclidiana (baseada no arquivo de médias) Distância Mahalabonis (considera as repetições) Correlação cofenética e Ponto de corte
Bootstrap e ponto de corte em dendogramas
Dissimilaridade através de marcadores: morfológicos Moleculares
TÉCNICAS DE AGRUPAMENTO
Os métodos de agrupamento têm por finalidade separar um grupo original de observações em vários subgrupos, de forma a obter homogeneidade dentro e heterogeneidade entre os subgrupos.
Dentre estes métodos, os hierárquicos e os de otimização são empregados em grande escala pelos melhoristas de plantas.
Principais análises
1 - Estimativa de uma medida de distância1 - Estimativa de uma medida de distância
Distancia generalizada de Mahalanobis
Distancia Euclidiana
2 - Adoção de uma técnica de agrupamento2 - Adoção de uma técnica de agrupamento
Variáveis canônicas
Componentes principais
Agrupamento de Tocher
Agrupamento (Vizinho mais próximo, mais distante e distância média)
Dispersão gráfica
FINALIDADE:
Reunir os genitores em grupos
Homogeneidade dentro de grupos
Heterogeneidade entre grupos
Segundo critérios de similaridade ou dissimilaridade
Etapas: 1 – Estimativa das distâncias
2 – Adoção de uma técnica de agrupamento
OBJETIVOS:
Identificação do par de genitores mais similares
Avalia a possibilidade de inclusão de novos genitores
VARIÁVEIS CANÔNICASVARIÁVEIS CANÔNICAS- Técnica de Dispersão Gráfica- exige experimento com delineamento experimental (repetições)- Para serem representativos as 2 primeiras variáveis devem
explicar pelo menos 80% da variação original dos dados;
- Abrir arquivo de médias
- Em “Dispersão” completar com o “cre”
- Declarar o número de variáveis
- Nomear variáveis
Nesse caso as 2 Nesse caso as 2 primeiras primeiras variáveis variáveis explicam explicam
mais de 80% da mais de 80% da variação original variação original
dos dadosdos dados
COMPONENTES PRINCIPAIS - Técnica de Dispersão Gráfica- Permitem a identificação da divergência genética- Não exige experimentos com delineamento experimental (usa-se
apenas o arquivo de médias)- Para ser representativo os 2 primeiros componentes devem
explicar pelo menos 80% da variação original dos dados.
Nesse caso os 2 Nesse caso os 2 primeiros primeiros
componentes componentes explicam explicam
mais de 80% da mais de 80% da variação original variação original
dos dadosdos dados
C. PRINCIPAIS VS V. CANÔNICAS
SEMELHANÇAS: Permitem a identificação da divergência genética;
Possibilidade de resumir o conjunto de variáveis originais em poucos componentes, o que significará ter uma boa aproximação do comportamento dos indivíduos de um espaço dimensional em um espaço bi ou tri dimensional;
Para serem representativos os 2 primeiros
componentes devem explicar pelo menos 80% da variação original dos dados;
Os componentes são independentes entre si;
Ambas utilizam dados padronizados.
TOCHER- Método de Agrupamento
- A média das medidas de distância dentro de cada grupo deve ser menor do que as distâncias médias entre quaisquer grupo
- Não permite comparar acessos dentro do mesmo do mesmo grupo
DISSIMILARIDADE - DISTÂNCIA DE EUCLIDIANA
Observações individuais
Experimentos que não contemplam delineamento
Experimentos com delineamento - Médias das repetiçõesDeve ser evitado
Menor precisão em relação a distancia generalizada de Mahalanobis
- Saída do Dendograma
- Desvantagem do Genes:
- Pouca possibilidade para editar e formatar as figuras
Dissimilaridade - Distância de MahalanobisDissimilaridade - Distância de Mahalanobis- Leva em conta as variâncias e covariâncias e correlações residuais - Leva em conta as variâncias e covariâncias e correlações residuais
entre os caracteres aferidos.entre os caracteres aferidos.
-Considera as repetições experimentaisConsidera as repetições experimentais
-é possível destacar a distância generalizada de Mahalanobis Dé possível destacar a distância generalizada de Mahalanobis D22
- Leva em consideração a existência de correlações entre os caracteres Leva em consideração a existência de correlações entre os caracteres analisados, analisados,
Necessita de ensaios experimentais com repetiçõesNecessita de ensaios experimentais com repetições
-Nomear as VariáveisNomear as Variáveis
- Gerar MatrizGerar Matriz
-Processar AgrupamentoProcessar Agrupamento
-BootstrapBootstrap
-Testa a consistência das bifurcações em porcentagem a partir de um Testa a consistência das bifurcações em porcentagem a partir de um número determinado de simulaçõesnúmero determinado de simulações
CONTRIBUIÇÃO RELATIVA DOS CARACTERES – SINGH 1981
Identificação dos caracteres que mais contribuíram para a
dissimilaridade genética entre os genótipos avaliados
Dendograma gerado a partir da matriz de distância de Mahalanobis
CORRELAÇÃO COFENÉTICA (CCC) Mede a correlação (ajuste) entre a matriz de distância original e as distâncias Mede a correlação (ajuste) entre a matriz de distância original e as distâncias apresentadas no dendrograma.apresentadas no dendrograma.
Muito importante quando são realizadas inferências com base no Muito importante quando são realizadas inferências com base no dendrogramadendrograma
Valores de CCC acima de 0,70 indicam uma representação confiável entre a Valores de CCC acima de 0,70 indicam uma representação confiável entre a matriz de distância original e as distâncias gráficasmatriz de distância original e as distâncias gráficas
Abrir a “matriz de distância genética” que se deseja analisar
CONSTRUINDO DENDOGRAMAS NO NTSYS
- Abrir a “matriz de distância genética” no Genes
- Exportá-lo para o Excel
- Formatá-lo conforme o modelo ao lado
- No NTSYS, em clustering, clicar em SAHN, e no Imput file abrir a matriz de dissimilaridade
(Excel)-
No No output tree fileoutput tree file, digitar , digitar um nome de saída um nome de saída
(exemplo DE = (exemplo DE = dendrograma) dendrograma)
Em Em Clustering methodsClustering methods deixar UPGMAdeixar UPGMA; aí ; aí pedir para rodar (Compute), Com isso vai pedir para rodar (Compute), Com isso vai abrir uma janela de escritas que pode ser abrir uma janela de escritas que pode ser
fechada, e após deves buscar no canto fechada, e após deves buscar no canto inferior esquerdo da janela uma figura inferior esquerdo da janela uma figura pequena em forma de dendrograma: pequena em forma de dendrograma:
Clicando nela aparece a FIGURA que pode Clicando nela aparece a FIGURA que pode ser formatada conforme interesse, sendo ser formatada conforme interesse, sendo
salva formato salva formato metafilemetafile..
Conforme exposto acima, o programa Ntsys possui vários Conforme exposto acima, o programa Ntsys possui vários mecanismos que podem ser ajustados para formatar os mecanismos que podem ser ajustados para formatar os
dendogramas da mais adequada a cada situaçãodendogramas da mais adequada a cada situação
Dendograma feito no Ntsys
MATRIZ MAHALANOBIS - NTSYS
Idem passos anteriores para Idem passos anteriores para construção do dendograma a partir construção do dendograma a partir da matriz de Distância Euclidianada matriz de Distância Euclidiana
CCC NO NTSYS
Lembrar do arquivo de saída
que foi salvo anteriormente
- Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys, substituindo o nome dos genótipos por letras.
- Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é feito no mesmo local clustering, clicar em Cophenetic values, e em Imput tree file abrir o DE e na Output Coph file, colocar um nome de saída (CCC).
- Após isso clicar em “Compute”.
-Depois, clicar em Graphics, em seguida em Matrix comprison plot, e no Input file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e no Input file 2 (X), abrir a matriz cofenética de nome salvo (CCC).
- No Input file 3 (X) não vai nada. No Number of permutations, digitar 1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado aparece uma janela de escritas, e em uma delas aparece o valor da correlação entre as matrizes e que é o valor cofenético.
CÁLCULO DE SIMILARIDADE GENÉTICA A PARTIR DE MARCADORES MOLECULARES
- Juntar todos os marcadores polimórficos em única planilha do Excel
- Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo da similaridade; 10=número de genótipos; 182=número de marcadores utilizados)
- No NTSYS: entrar em Similarity, depois em quantitative date e no Input file one buscar a planilha de dados do Excel com os códigos, genótipos e marcadores.
- Deixar clicado X em By rows, Coefficient clicar em DICE, e em Output file escrever qualquer nome de saída do arquivo de similaridade (só escrever o nome que ele salva no mesmo lugar que foi buscada a planilha de dados anterior.
- Rodar a análise (compute) e depois editar o dendograma
Transformá-la em dissimilaridade
genética (1 menos os valores de
similaridade que abrirem
Após, sem números em Após, sem números em formato de fórmula, inserir uma formato de fórmula, inserir uma coluna e duas linhas, colocando coluna e duas linhas, colocando o nome dos genótipos em forma o nome dos genótipos em forma de matriz, porém, nas primeiras de matriz, porém, nas primeiras
três células da linha digitar os três células da linha digitar os códigos: 2=indica cálculo de códigos: 2=indica cálculo de
dissimilaridade, 10 e 10= dissimilaridade, 10 e 10= indicam a dimensão da matriz.indicam a dimensão da matriz.
OBRIGADO
cristianolemes.utfpr@gmail.com
top related