analise ´ estatistica multivariada - im.ufrj.br · analise estat´ ´ıstica multivariada programa...
TRANSCRIPT
ANALISE ESTATISTICA MULTIVARIADA
Ralph S. Silvahttp://www.im.ufrj.br/ralph/multivariada.html
Departamento de Metodos EstatısticosInstituto de Matematica
Universidade Federal do Rio de Janeiro
Agradecimentos a professora Flavia Landim.
Analise Estatıstica Multivariada
Sumario
Programa da Disciplina
Referencias
Aspectos Gerais da Analise Multivariada
Organizacao de Dados
Estatısticas Descritivas
Representacao Grafica
Analise Estatıstica Multivariada
Programa da Disciplina
Programa da Disciplina
1. Introducao:I Aspectos gerais;I Organizacao de dados;I Vetor de media amostral;I Matrizes de variancias e covariancias, e correlacoes; eI Nocoes de distancia.
2. Ferramentas de algebra linear:I Matrizes positivas definidas;I Decomposicao espectral;I Vetores e matrizes aleatorios;I Media e variancia;I Variancia generalizada;I Variancia e correlacao via operacoes matriciais; eI Combinacoes lineares das componentes de um vetor aleatorio.
Analise Estatıstica Multivariada
Programa da Disciplina
Programa da Disciplina
3. As distribuicoes (vetorial) normal multivariada e (matricial) Wishart:I Definicao;I Propriedades;I Estimadores de maxima verossimilhanca;I Distribuicao amostral de X e S2; eI Avaliacao da suposicao de normalidade.
4. Inferencia sobre o vetor de medias:I Teste de hipoteses;I Estatıstica T 2 de Hotelling;I Regioes de confianca; eI Comparacoes simultaneas das componentes do vetor de medias.
Analise Estatıstica Multivariada
Programa da Disciplina
Programa da Disciplina
5. Inferencia sobre a matriz de variancias e covariancias.
6. Analise de variancia multivariada.
7. Regressao linear multivariada.
8. Discriminacao e classificacao.
9. Analise de componentes principais.
10. Analise fatorial.
11. Analise de conglomerados.
12. Escalonamento multidimensional.
Neste curso utilizaremos o programa de computador R e o OpenBUGS.
Analise Estatıstica Multivariada
Referencias
Referencias
I Johnson e Wichern (2007). Applied Multivariate Statistical Analysis, 6th
Edition. Prentice-Hall.I Chatfield e Collins (1980). Introduction to Multivariate Statistical
Analysis. Chapman and Hall.I Anderson (1958). An Introduction to Statistical Analysis. John Wiley and
Sons.
Analise Estatıstica Multivariada
Aspectos Gerais da Analise Multivariada
Aspectos gerais da analise multivariada
A pesquisa cientıfica e um processo de aprendizado iterativo.I Objetivos relacionados a explicacao de um fenomeno devem ser
especificados e, entao, testados coletando-se e analisando-se dados.I Ao longo de todo procedimento iterativo de aprendizagem, variaveis
podem ser incluıdas ou excluıdas do estudo.I As complexidades da maioria dos fenomenos exigem que o investigador
obtenha observacoes de diversas variaveis.I Como os dados incluem diversas variaveis simultaneamente,
chamamos a metodologia a ser estuda neste curso de analiseestatıstica multivariada.
I Compreender relacoes entre varias variaveis pode nao ser uma tarefasimples. As ferramentas matematicas exigidas para construir tecnicasestatısticas multivariadas para fazer inferencia envolvem maiorcomplexidade.
I Muitos metodos multivariados sao baseados em um modeloprobabilıstico conhecido como normal multivariado.
Analise Estatıstica Multivariada
Aspectos Gerais da Analise Multivariada
Alguns objetivos de investigacoes cientıficas nas quais metodosmultivariados de analise aplicam-se:
1. Reducao de dados e simplificacao estrutural:I Busca-se representar o fenomeno em estudo na forma mais simples
possıvel, sem perder muita informacao. Espera-se com isto facilitar ainterpretacao dos resultados.
2. Ordenacao e agrupamento:I Grupos de objetos “similares” ou variaveis sao criados segundo algum
criterio. Alternativamente, regras para a classificacao de objetos em gruposbem definidos podem ser construıdas.
3. Investigacao da dependencia entre as variaveis:I A natureza das relacoes entre as diversas variaveis envolvidas na
investigacao e de interesse. As variaveis sao mutuamente independentesou uma ou mais sao dependentes das outras? Se ha dependencia, comoexplica-la?
4. Previsao:I Relacoes entre variaveis devem ser determinadas com o objetivo de prever
valores de uma ou mais variaveis com base nas observacoes de outrasvariaveis.
5. Testes de hipoteses:I Hipoteses estatısticas especıficas, sobre os parametros de populacoes
multivariadas, sao testadas. Isto pode ser feito para validar suposicoes oureforcar conviccoes previas.
Analise Estatıstica Multivariada
Organizacao de Dados
Organizacao de dadosI A materia prima a ser trabalhada aqui e um conjunto de dados
multivariados, isto e, varias variaveis sao observadas sobre diversosindivıduos ou objetos. Nosso objetivo sera apresentar uma formaconveniente de organizar estes dados e de representa-los graficamente.
I Suponha que estejamos diante de um problema em que p variaveisforam observadas para uma amostra de n elementos. Assim, aobservacao para o i-esimo elemento da amostra sera um vetorp-variado denotador por x .i ou x .i tal que
x ′.i = (x1i , x2i , . . . , xpi ), i = 1, 2, . . . , n,
em que xji representa a observacao da j-esima variavel do i-esimoelemento da amostra, j = 1, 2, . . . , p.
I A colecao de dados observados pode ser representada por meio deuma matriz X de dimensao p × n como segue
X =
x11 x12 . . . x1n
x21 x22 . . . x2n...
.... . .
...xp1 xp2 . . . xpn
.
Analise Estatıstica Multivariada
Organizacao de Dados
I Assim, as linhas da matriz X representam as p variaveis medidas e, ascolunas, as n unidades amostrais.
I Podemos representar a matriz X atraves de suas linhas
X =
x ′1.x ′2....
x ′p.
,sendo x ′j. = (xj1, xj2, . . . , xjn) as n observacoes da j-esima variavel,j = 1, 2, . . . , p.
I Tambem podemos representar a matriz X atraves de suas colunas.Adotando aqui a notacao x .i , i = 1, 2, . . . , n, para designar a i-esimacoluna de X , temos
X =[x .1 x .2 . . . x .n
],
em que cada x .i e um vetor p × 1, i = 1, 2, . . . , n.
Analise Estatıstica Multivariada
Organizacao de Dados
Exemplo 1:
I Uma selecao de 4 notas ficais de uma livraria universitaria foi obtida demodo a investigar a natureza das vendas. Cada nota forneceu o numerode livros vendidos e o valor total da venda (em dolares). Obteve-se aseguinte matriz de dados, na qual a primeira linha indica o numero delivros vendidos e, a segunda, o valor da venda.
X =
[4 5 4 342 52 48 58
].
I A representacao dos dados desta forma permite o calculo dequantidades numericas de interesse de forma eficiente e facil.
Analise Estatıstica Multivariada
Estatısticas Descritivas
Estatısticas descritivas
1. A media amostral para a j-esima variavel observada pode serrepresentada como
x j. =1n
∑n
i=1xji , j = 1, 2, . . . , p.
Assim, podemos definir o vetor de medias amostral x como
x =
x1.
x2....
xp.
.Algebricamente,
x =1n
X1,
sendo 1 um vetor n × 1 com todos os elementos iguais a 1.
Analise Estatıstica Multivariada
Estatısticas Descritivas
2. Uma medida de dispersao para a j-esima variavel e dada pela varianciaamostral
sjj =1
n − 1
∑n
i=1(xji − x j.)
2, j = 1, 2, . . . , p.
3. A covariancia amostral entre a j-esima e a k -esima variaveis e dada por
sjk =1
n − 1
∑n
i=1(xji − x j.)(xki − xk.), j , k = 1, 2, . . . , p e j 6= k .
I Podemos entao representar de forma organizada as informacoes sobrevariabilidade atraves da matriz de (variancias e) covariancias amostraldada por
S =
s11 s12 . . . s1p
s21 s22 . . . s2p...
.... . .
...sp1 sp2 . . . spp
.Observe que a matriz de covariancias e uma matriz simetrica: S = S′.
Analise Estatıstica Multivariada
Estatısticas Descritivas
I Algebricamente, podemos escrever a matriz de dados menos o vetor demedias na forma
X − x1′,
e a matriz de covariancias na forma
S =1
n − 1(X − x1′)(X − x1′)′.
4. Podemos tambem definir a matriz de correlacoes amostral R, com
elementos rjk =sjk√sjjskk
,
R =
r11 r12 . . . r1p
r21 r22 . . . r2p...
.... . .
...rp1 rp2 . . . rpp
.Observe que a matriz de correlacoes e uma matriz simetrica: R = R′.
Analise Estatıstica Multivariada
Estatısticas Descritivas
I Algebricamente, a matriz de correlacoes pode ser escrita na forma
S =1
n − 1
[∆−1/2(X − x1′)
] [∆−1/2(X − x1′)
]′com
∆1/2 = diag(s1/211 , s
1/222 , . . . , s
1/2pp )
uma matriz diagonal p × p, e ∆−1/2 =[∆1/2
]−1.
I Observe que podemos relacionar algebricamente as matrizes S e R talque
S = ∆1/2R∆1/2 e R = ∆−1/2S∆−1/2.
Analise Estatıstica Multivariada
Estatısticas Descritivas
I Em muitas aplicacoes as somas dos desvios quadrados da media e dosprodutos cruzados de tais desvios sao utilizadas. Adotaremos aqui anotacao:
Wjj =∑n
i=1(xji − x j.)
2, j = 1, 2, . . . , p, e
Wjk =∑n
i=1(xji − x j.)(xki − xk.), j , k = 1, 2, . . . , p e j 6= k .
Assim, definimos a matriz W de somas dos desvios quadrados damedia e produtos cruzados dos desvios da media por
W =
w11 w12 . . . w1p
w21 w22 . . . w2p...
.... . .
...wp1 wp2 . . . wpp
= (X − x1′)(X − x1′)′.
Analise Estatıstica Multivariada
Estatısticas Descritivas
Exemplo 1: (continuacao)Para os dados do Exemplo 1 e utilizando o programa R, faca os calculos:
I do vetor de medias; e das matrizes S e R. (Ver Exemplo 01.r)
p <- 2 # numero de variaveisn <- 4 # tamanho da amostraX <- matrix(0,p,n) # definindo XX[1, ] <- c( 4, 5, 4, 3) # valores de X_{1i}X[2, ] <- c(42, 52, 48, 58) # valores de X_{1i}ones <- matrix(1,n,1) # vetor de unsxbar <- (X%*%ones) / n # vetor de mediassdX <- apply(X,1,"sd") # d. padrao das variaveisD.half <- diag(sdX,p,p) # matriz Deltaˆ{1/2}X.xbar <- X-xbar%*%t(ones) # matriz (X - xbarra*ones’)W <- X.xbar%*%t(X.xbar) # somas dos desvios ao
# quadrados e cruzadosS <- W/(n-1) # matriz de covarianciasID.half <- solve(D.half) # matriz Deltaˆ{-1/2}R <- ID.half%*%S%*%ID.half # matriz de correlacoes
Analise Estatıstica Multivariada
Estatısticas Descritivas
> xbar # vetor de medias[,1]
[1,] 4[2,] 50> S # matriz de covariancias
[,1] [,2][1,] 0.6666667 -2.00000[2,] -2.0000000 45.33333> R # matriz de correlacoes
[,1] [,2][1,] 1.0000000 -0.3638034[2,] -0.3638034 1.0000000
Usando as funcoes do R, podemos calcular:
apply(X,1,"mean") # vetor (linha) de mediasvar(t(X)) # matriz de covarianciascor(t(X)) # matriz de correlacoes# IMPORTANTE: note a transposicao da matriz X.
Analise Estatıstica Multivariada
Representacao Grafica
Representacao grafica
I Podemos utilizar graficos de dispersao para variaveis duas a duas.(Ver Exemplo 02.r)
# Note que o R entende variaveis por colunas e# as amostras por linha. Entao eh necessario# transpor a matriz de dadosp <- 3 # numero de variaveisn <- 10000 # tamanho da amostraX <- matrix(rnorm(p*n),p,n) # definindo X#pdf(file="dispersao_pairs.pdf")#par(mfrow=c(1,1),lwd=2.0,cex.lab=1.5,cex.axis=1.5,
lab=c(10,5,5),mar=c(0,1,0,2.5),xpd=T,cex.main=2.0)pairs(t(X),pch=15)#dev.off()
apply(X,1,"mean") # vetor (linhas) de mediasvar(t(X)) # matriz de covarianciascor(t(X)) # matriz de correlacoes
Analise Estatıstica Multivariada
Representacao Grafica
var 1
−4 −2 0 2 4
−4
−2
02
4
−4
−2
02
4
var 2
−4 −2 0 2 4 −4 −2 0 2 4
−4
−2
02
4
var 3
Figura: Exemplo de grafico de dispersao de variaveis duas a duas.
Analise Estatıstica Multivariada
Representacao Grafica
Distancias
I A maior parte das tecnicas multivariadas baseia-se no simples conceitode distancia.
I Estamos habituados a distancia usual chamada distancia euclideana, talque se P(x1, x2, . . . , xp) e Q(µ1, µ2, . . . , µp) sao dois pontos em Rp, adistancia entre P e Q e dada por
de(P,Q) =√
(x1 − µ1)2 + (x2 − µ2)2 + · · ·+ (xp − µp)2.
I Porem, a distancia euclideana pode nao ser adequada em muitosproblemas, dependendo da natureza das variaveis envolvidas.
I Isto ocorre devido ao fato de que na distancia euclideana cadacoordenada contribui igualmente para o calculo da mesma.
I Quando as coordenadas representam medicoes que sao sujeitas aflutuacoes aleatorias de magnitudes diferentes, e frequentementedesejavel ponderar coordenadas sujeitas a maior variabilidade com umpeso menor do que aquelas sujeitas a uma menor variabilidade.
Analise Estatıstica Multivariada
Representacao Grafica
I Deseja-se uma nova medida de distancia que leve em conta asdiferencas em variabilidade entre as diversas variaveis incluıdas naanalise e a presenca de correlacao entre os pares de variaveis.
I Suponha primeiro um conjunto de p variaveis nao correlacionadas, comvariancias distintas. Assim, de forma a equilibrar a contribuicao dasdiversas variaveis ao calculo da distancia, podemos pondera-las deforma inversamente proporcional aos seus desvios padrao (
√sjj ) e
calculando a distancia euclideana
de(P,Q) =
√(x − µ)′D−1(x − µ),
sendo D uma matriz diagonal com elementos s11, s22, . . . , spp,x = (x1, x2, . . . , xp)′ e µ = (µ1, µ2, . . . , µp)′.
I Uma medida de distancia que leva em conta as covariancias entre asvariaveis e dada por
de(P,Q) =
√(x − µ)′S−1(x − µ),
sendo S a matriz de covariancias.