integração de dados genômicos e estatísticos no rstudio

26
Integra¸ ao de dados genˆ omicos e estat´ ısticos no RStudio Leandro Nascimento Lemos Doutorando em Biologia na Agricultura e no Ambiente Orientadora: Profa. Tsai Novembro/2016 Leandro Nascimento Lemos Integra¸ ao de dados genˆ omicos e estat´ ısticos no RStudio

Upload: leandro-lemos

Post on 11-Apr-2017

211 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Integração de dados genômicos e estatísticos no RStudio

Integracao de dados genomicos e estatısticosno RStudio

Leandro Nascimento Lemos

Doutorando em Biologia na Agricultura e no AmbienteOrientadora: Profa. Tsai

Novembro/2016

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 2: Integração de dados genômicos e estatísticos no RStudio

Feedback de ontem

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 3: Integração de dados genômicos e estatísticos no RStudio

Feedback de ontem

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 4: Integração de dados genômicos e estatísticos no RStudio

R: Introducao

R: Linguagem de Programacao (Open).Ambiente de desenvolvimento integrado para calculosestatısticos e graficos (Wikipedia).

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 5: Integração de dados genômicos e estatísticos no RStudio

R: Introducao

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 6: Integração de dados genômicos e estatísticos no RStudio

R: Leitura e manipulacao de dados - Usando Funcoes (10minutos)

VetorProteobacteria.pasto.A <- 20ProteobacteriaAbund <- c(10,20,50)ph.pasto <- c(4,5,6)?mean ((ajuda!))mean(ProteobacteriaAbund)sd (ProteobacteriaAbund)plot(ph, ProteobacteriaAbund)?plot (Procurar os parametros para modificar o grafico. (Porexemplo, modificar ProteobacteriaAbund por Proteobacteriarelative abundance).

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 7: Integração de dados genômicos e estatísticos no RStudio

R: Leitura e manipulacao de dados (10 minutos)

VetorProteobacteriaAbund <- c(10,20,22,25,28,30)ph <- c(4,4.5,5,5.5,6,7)plot(ph, ProteobacteriaAbund, xlab=”pH”,ylab=”Proteobacteria relative abundance (%)”,col=”blue”)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 8: Integração de dados genômicos e estatísticos no RStudio

R: Leitura e manipulacao de dados - Data frame (15minutos)

Data frame: Armazenamento de tabelas (linhas e colunas).tabela <- data.frame(ProteobacteriaAbund, ph)Leitura de arquivos (Inumeras funcoes...)Session, Set Working Directory, Choose Directory.

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 9: Integração de dados genômicos e estatísticos no RStudio

R: Leitura e manipulacao de dados - Data frame (15minutos)

abund <- read.csv(”analysis.tvs”, sep=”\t”, header=TRUE,row.names=1)?applyapply(abund, 2, sum) - Abundancia total

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 10: Integração de dados genômicos e estatísticos no RStudio

R: Indices de Diversidade

Instalar e carregar o pacote vegan.install.packages(”vegan”)library(”vegan”)diversity(abund, index=”shannon”, MARGIN=2)shannonValues <- diversity(abund, index=”shannon”,MARGIN=2)barplot(shannonValues)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 11: Integração de dados genômicos e estatísticos no RStudio

R: Diversidade Beta

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 12: Integração de dados genômicos e estatísticos no RStudio

R: Estatıstica Multivariada

Padroes de similaridadeIdentificacao de quais variaveis estao influenciando nospadroes de similaridade.Matriz de distribuicao de especies vs. Matriz de variaveisambientais (metadados).Grande variedade de tecnicas estatısticas...Analise de Coordenadas Principais (PCoA).Analise de Correspondencia Canonica (CCA).

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 13: Integração de dados genômicos e estatísticos no RStudio

R: Estatıstica Multivariada

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 14: Integração de dados genômicos e estatísticos no RStudio

R: Analise de Coordenadas Principais (PCoA)

Conceito de distancia: Quanto mais similaridade entre asamostras, mais proximas elas estao entre si.

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 15: Integração de dados genômicos e estatísticos no RStudio

R: Metrica de distancia - Bray-Curtis

Conceito de distancia: Quanto mais similaridade entre asamostras, mais proximas elas estao entre si.Bray-Curtis: proporcao de similaridade ou dissimilaridade(distancia) na abundancia das especies.Valores entre 0 e 1.0 (iguais).Quanto mais proximo de 1, mais dissimilar!

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 16: Integração de dados genômicos e estatísticos no RStudio

R: Analise de Coordenadas Principais (PCoA)

Ideia principal: Reduzir dimensoes pra resumir os dados!

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 17: Integração de dados genômicos e estatísticos no RStudio

R: PCoA - Matriz de distancia - 20 minutos

1 Abrir o RStudio.2 Carregar o pacote vegan.3 Carregar o arquivo de abundancia de filos e o arquivo de

abundancia de funcoes em objetivos separados no R.4 Pesquisa sobre a funcao vegdist (dica: ?vegdist) e calcule as

similaridade entre cada amostra pelo Metodo Bray-Curtis.

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 18: Integração de dados genômicos e estatísticos no RStudio

R: Reducao de Dimensoes - PCoA - 10 minutos

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 19: Integração de dados genômicos e estatísticos no RStudio

R: PCoA - Matriz de distancia - 20 minutos

1 Abrir o RStudio.2 Carregar o pacote vegan.3 ?cmdscale

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 20: Integração de dados genômicos e estatísticos no RStudio

R: PCoA - Matriz de distancia - 20 minutos

AbundPhyla <- read.csv(”analysis.tvs”, header=TRUE,sep=”\t”, row .names = 1)

AbundPhyla.d <- vegdist(t(AbundPhyla), method=”bray”)AbundPhyla.ord <- cmdscale(AbundPhyla.d, eig=TRUE)x <- AbundPhyla.ord$points[,1]y <- AbundPhyla.ord$points[,2]plot(x, y, xlab=”Coordinate 1”, ylab=”Coordinate 2”,type=”n”)text(x, y, labels = row.names(t(AbundPhyla)), cex=.7)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 21: Integração de dados genômicos e estatísticos no RStudio

R: ggplot2 (pacote de geracao de graficos publicaveis)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 22: Integração de dados genômicos e estatísticos no RStudio

R: Analise de Correspondencia Canonica (CCA)Encontrar relacoes entre dois conjuntos de variaveis X e Y.Distribuicao de taxons e parametros ambientais (metadados, por exemplo: pH,temperatura, umidade, etc).O conjunto das variaveis resposta (Y) e contrastado com o conjunto dasvariaveis explicatorias (X).Triplot: variaveis resposta sao representadas por flechas e variaveis explicatoriassao representadas por pontos.

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 23: Integração de dados genômicos e estatísticos no RStudio

R: Analise de Correspondencia Canonica (CCA)

library(”vegan”)AbundPhyla ¡- read.csv(”TaxonomyOrder.tvs”, sep=”t”, header=TRUE, row.names=1)quimicos ¡- read.csv(”Metadados.csv”, sep=”t”, header=TRUE, row.names=1)cca.calc ¡- cca(t(AbundPhyla), t(scale(quimicos)))plot(cca.calc, choices = c(1, 2), display = c(”cn”, ”sites”),scaling = ”species”)

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 24: Integração de dados genômicos e estatísticos no RStudio

R: Analise de Correspondencia Canonica (CCA) - 10minutos

?cca

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 25: Integração de dados genômicos e estatísticos no RStudio

Discussao

Quais analises computacionais e metodos estatısticos eu devoaplicar no meu estudo?

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio

Page 26: Integração de dados genômicos e estatísticos no RStudio

Obrigado pela atencao!

Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio