analise ´ estatistica multivariada - im.ufrj.br · analise estat´ ´ıstica multivariada programa...

ANALISE ESTATISTICA MULTIVARIADA

Ralph S. Silvahttp://www.im.ufrj.br/ralph/multivariada.html

Departamento de Metodos EstatısticosInstituto de Matematica

Universidade Federal do Rio de Janeiro

Agradecimentos a professora Flavia Landim.

Analise Estatıstica Multivariada

Sumario

Programa da Disciplina

Referencias

Aspectos Gerais da Analise Multivariada

Organizacao de Dados

Estatısticas Descritivas

Representacao Grafica




1. Introducao:I Aspectos gerais;I Organizacao de dados;I Vetor de media amostral;I Matrizes de variancias e covariancias, e correlacoes; eI Nocoes de distancia.

2. Ferramentas de algebra linear:I Matrizes positivas definidas;I Decomposicao espectral;I Vetores e matrizes aleatorios;I Media e variancia;I Variancia generalizada;I Variancia e correlacao via operacoes matriciais; eI Combinacoes lineares das componentes de um vetor aleatorio.




3. As distribuicoes (vetorial) normal multivariada e (matricial) Wishart:I Definicao;I Propriedades;I Estimadores de maxima verossimilhanca;I Distribuicao amostral de X e S2; eI Avaliacao da suposicao de normalidade.

4. Inferencia sobre o vetor de medias:I Teste de hipoteses;I Estatıstica T 2 de Hotelling;I Regioes de confianca; eI Comparacoes simultaneas das componentes do vetor de medias.




5. Inferencia sobre a matriz de variancias e covariancias.

6. Analise de variancia multivariada.

7. Regressao linear multivariada.

8. Discriminacao e classificacao.

9. Analise de componentes principais.

10. Analise fatorial.

11. Analise de conglomerados.

12. Escalonamento multidimensional.

Neste curso utilizaremos o programa de computador R e o OpenBUGS.


Referencias

Referencias

I Johnson e Wichern (2007). Applied Multivariate Statistical Analysis, 6th

Edition. Prentice-Hall.I Chatfield e Collins (1980). Introduction to Multivariate Statistical

Analysis. Chapman and Hall.I Anderson (1958). An Introduction to Statistical Analysis. John Wiley and

Sons.



Aspectos gerais da analise multivariada

A pesquisa cientıfica e um processo de aprendizado iterativo.I Objetivos relacionados a explicacao de um fenomeno devem ser

especificados e, entao, testados coletando-se e analisando-se dados.I Ao longo de todo procedimento iterativo de aprendizagem, variaveis

podem ser incluıdas ou excluıdas do estudo.I As complexidades da maioria dos fenomenos exigem que o investigador

obtenha observacoes de diversas variaveis.I Como os dados incluem diversas variaveis simultaneamente,

chamamos a metodologia a ser estuda neste curso de analiseestatıstica multivariada.

I Compreender relacoes entre varias variaveis pode nao ser uma tarefasimples. As ferramentas matematicas exigidas para construir tecnicasestatısticas multivariadas para fazer inferencia envolvem maiorcomplexidade.

I Muitos metodos multivariados sao baseados em um modeloprobabilıstico conhecido como normal multivariado.



Alguns objetivos de investigacoes cientıficas nas quais metodosmultivariados de analise aplicam-se:

1. Reducao de dados e simplificacao estrutural:I Busca-se representar o fenomeno em estudo na forma mais simples

possıvel, sem perder muita informacao. Espera-se com isto facilitar ainterpretacao dos resultados.

2. Ordenacao e agrupamento:I Grupos de objetos “similares” ou variaveis sao criados segundo algum

criterio. Alternativamente, regras para a classificacao de objetos em gruposbem definidos podem ser construıdas.

3. Investigacao da dependencia entre as variaveis:I A natureza das relacoes entre as diversas variaveis envolvidas na

investigacao e de interesse. As variaveis sao mutuamente independentesou uma ou mais sao dependentes das outras? Se ha dependencia, comoexplica-la?

4. Previsao:I Relacoes entre variaveis devem ser determinadas com o objetivo de prever

valores de uma ou mais variaveis com base nas observacoes de outrasvariaveis.

5. Testes de hipoteses:I Hipoteses estatısticas especıficas, sobre os parametros de populacoes

multivariadas, sao testadas. Isto pode ser feito para validar suposicoes oureforcar conviccoes previas.



Organizacao de dadosI A materia prima a ser trabalhada aqui e um conjunto de dados

multivariados, isto e, varias variaveis sao observadas sobre diversosindivıduos ou objetos. Nosso objetivo sera apresentar uma formaconveniente de organizar estes dados e de representa-los graficamente.

I Suponha que estejamos diante de um problema em que p variaveisforam observadas para uma amostra de n elementos. Assim, aobservacao para o i-esimo elemento da amostra sera um vetorp-variado denotador por x .i ou x .i tal que

x ′.i = (x1i , x2i , . . . , xpi ), i = 1, 2, . . . , n,

em que xji representa a observacao da j-esima variavel do i-esimoelemento da amostra, j = 1, 2, . . . , p.

I A colecao de dados observados pode ser representada por meio deuma matriz X de dimensao p × n como segue

X =

x11 x12 . . . x1n

x21 x22 . . . x2n...

.... . .

...xp1 xp2 . . . xpn

.



I Assim, as linhas da matriz X representam as p variaveis medidas e, ascolunas, as n unidades amostrais.

I Podemos representar a matriz X atraves de suas linhas

X =

x ′1.x ′2....

x ′p.

,sendo x ′j. = (xj1, xj2, . . . , xjn) as n observacoes da j-esima variavel,j = 1, 2, . . . , p.

I Tambem podemos representar a matriz X atraves de suas colunas.Adotando aqui a notacao x .i , i = 1, 2, . . . , n, para designar a i-esimacoluna de X , temos

X =[x .1 x .2 . . . x .n

],

em que cada x .i e um vetor p × 1, i = 1, 2, . . . , n.



Exemplo 1:

I Uma selecao de 4 notas ficais de uma livraria universitaria foi obtida demodo a investigar a natureza das vendas. Cada nota forneceu o numerode livros vendidos e o valor total da venda (em dolares). Obteve-se aseguinte matriz de dados, na qual a primeira linha indica o numero delivros vendidos e, a segunda, o valor da venda.

X =

[4 5 4 342 52 48 58

].

I A representacao dos dados desta forma permite o calculo dequantidades numericas de interesse de forma eficiente e facil.



Estatısticas descritivas

1. A media amostral para a j-esima variavel observada pode serrepresentada como

x j. =1n

∑n

i=1xji , j = 1, 2, . . . , p.

Assim, podemos definir o vetor de medias amostral x como

x =

x1.

x2....

xp.

.Algebricamente,

x =1n

X1,

sendo 1 um vetor n × 1 com todos os elementos iguais a 1.



2. Uma medida de dispersao para a j-esima variavel e dada pela varianciaamostral

sjj =1

n − 1

∑n

i=1(xji − x j.)

2, j = 1, 2, . . . , p.

3. A covariancia amostral entre a j-esima e a k -esima variaveis e dada por

sjk =1

n − 1

∑n

i=1(xji − x j.)(xki − xk.), j , k = 1, 2, . . . , p e j 6= k .

I Podemos entao representar de forma organizada as informacoes sobrevariabilidade atraves da matriz de (variancias e) covariancias amostraldada por

S =

s11 s12 . . . s1p

s21 s22 . . . s2p...

.... . .

...sp1 sp2 . . . spp

.Observe que a matriz de covariancias e uma matriz simetrica: S = S′.



I Algebricamente, podemos escrever a matriz de dados menos o vetor demedias na forma

X − x1′,

e a matriz de covariancias na forma

S =1

n − 1(X − x1′)(X − x1′)′.

4. Podemos tambem definir a matriz de correlacoes amostral R, com

elementos rjk =sjk√sjjskk

,

R =

r11 r12 . . . r1p

r21 r22 . . . r2p...

.... . .

...rp1 rp2 . . . rpp

.Observe que a matriz de correlacoes e uma matriz simetrica: R = R′.



I Algebricamente, a matriz de correlacoes pode ser escrita na forma

S =1

n − 1

[∆−1/2(X − x1′)

] [∆−1/2(X − x1′)

]′com

∆1/2 = diag(s1/211 , s

1/222 , . . . , s

1/2pp )

uma matriz diagonal p × p, e ∆−1/2 =[∆1/2

]−1.

I Observe que podemos relacionar algebricamente as matrizes S e R talque

S = ∆1/2R∆1/2 e R = ∆−1/2S∆−1/2.



I Em muitas aplicacoes as somas dos desvios quadrados da media e dosprodutos cruzados de tais desvios sao utilizadas. Adotaremos aqui anotacao:

Wjj =∑n

i=1(xji − x j.)

2, j = 1, 2, . . . , p, e

Wjk =∑n

i=1(xji − x j.)(xki − xk.), j , k = 1, 2, . . . , p e j 6= k .

Assim, definimos a matriz W de somas dos desvios quadrados damedia e produtos cruzados dos desvios da media por

W =

w11 w12 . . . w1p

w21 w22 . . . w2p...

.... . .

...wp1 wp2 . . . wpp

= (X − x1′)(X − x1′)′.



Exemplo 1: (continuacao)Para os dados do Exemplo 1 e utilizando o programa R, faca os calculos:

I do vetor de medias; e das matrizes S e R. (Ver Exemplo 01.r)

p <- 2 # numero de variaveisn <- 4 # tamanho da amostraX <- matrix(0,p,n) # definindo XX[1, ] <- c( 4, 5, 4, 3) # valores de X_{1i}X[2, ] <- c(42, 52, 48, 58) # valores de X_{1i}ones <- matrix(1,n,1) # vetor de unsxbar <- (X%*%ones) / n # vetor de mediassdX <- apply(X,1,"sd") # d. padrao das variaveisD.half <- diag(sdX,p,p) # matriz Deltaˆ{1/2}X.xbar <- X-xbar%*%t(ones) # matriz (X - xbarra*ones’)W <- X.xbar%*%t(X.xbar) # somas dos desvios ao

# quadrados e cruzadosS <- W/(n-1) # matriz de covarianciasID.half <- solve(D.half) # matriz Deltaˆ{-1/2}R <- ID.half%*%S%*%ID.half # matriz de correlacoes



> xbar # vetor de medias[,1]

[1,] 4[2,] 50> S # matriz de covariancias

[,1] [,2][1,] 0.6666667 -2.00000[2,] -2.0000000 45.33333> R # matriz de correlacoes

[,1] [,2][1,] 1.0000000 -0.3638034[2,] -0.3638034 1.0000000

Usando as funcoes do R, podemos calcular:

apply(X,1,"mean") # vetor (linha) de mediasvar(t(X)) # matriz de covarianciascor(t(X)) # matriz de correlacoes# IMPORTANTE: note a transposicao da matriz X.



Representacao grafica

I Podemos utilizar graficos de dispersao para variaveis duas a duas.(Ver Exemplo 02.r)

# Note que o R entende variaveis por colunas e# as amostras por linha. Entao eh necessario# transpor a matriz de dadosp <- 3 # numero de variaveisn <- 10000 # tamanho da amostraX <- matrix(rnorm(p*n),p,n) # definindo X#pdf(file="dispersao_pairs.pdf")#par(mfrow=c(1,1),lwd=2.0,cex.lab=1.5,cex.axis=1.5,

lab=c(10,5,5),mar=c(0,1,0,2.5),xpd=T,cex.main=2.0)pairs(t(X),pch=15)#dev.off()

apply(X,1,"mean") # vetor (linhas) de mediasvar(t(X)) # matriz de covarianciascor(t(X)) # matriz de correlacoes



var 1

−4 −2 0 2 4

−4

−2

02

4

−4

−2

02

4

var 2

−4 −2 0 2 4 −4 −2 0 2 4

−4

−2

02

4

var 3

Figura: Exemplo de grafico de dispersao de variaveis duas a duas.



Distancias

I A maior parte das tecnicas multivariadas baseia-se no simples conceitode distancia.

I Estamos habituados a distancia usual chamada distancia euclideana, talque se P(x1, x2, . . . , xp) e Q(µ1, µ2, . . . , µp) sao dois pontos em Rp, adistancia entre P e Q e dada por

de(P,Q) =√

(x1 − µ1)2 + (x2 − µ2)2 + · · ·+ (xp − µp)2.

I Porem, a distancia euclideana pode nao ser adequada em muitosproblemas, dependendo da natureza das variaveis envolvidas.

I Isto ocorre devido ao fato de que na distancia euclideana cadacoordenada contribui igualmente para o calculo da mesma.

I Quando as coordenadas representam medicoes que sao sujeitas aflutuacoes aleatorias de magnitudes diferentes, e frequentementedesejavel ponderar coordenadas sujeitas a maior variabilidade com umpeso menor do que aquelas sujeitas a uma menor variabilidade.



I Deseja-se uma nova medida de distancia que leve em conta asdiferencas em variabilidade entre as diversas variaveis incluıdas naanalise e a presenca de correlacao entre os pares de variaveis.

I Suponha primeiro um conjunto de p variaveis nao correlacionadas, comvariancias distintas. Assim, de forma a equilibrar a contribuicao dasdiversas variaveis ao calculo da distancia, podemos pondera-las deforma inversamente proporcional aos seus desvios padrao (

√sjj ) e

calculando a distancia euclideana

de(P,Q) =

√(x − µ)′D−1(x − µ),

sendo D uma matriz diagonal com elementos s11, s22, . . . , spp,x = (x1, x2, . . . , xp)′ e µ = (µ1, µ2, . . . , µp)′.

I Uma medida de distancia que leva em conta as covariancias entre asvariaveis e dada por

de(P,Q) =

√(x − µ)′S−1(x − µ),

sendo S a matriz de covariancias.



Exercıcios do capıtulo 1 para entregar: 1 a 7, 14 a 18.

FACAM!

analise ´ estatistica multivariada - im.ufrj.br · analise estat´ ´ıstica multivariada programa...

Documents