analise ´ estatistica multivariada - im.ufrj.br · analise estat´ ´ıstica multivariada programa...

23
AN ´ ALISE E STAT´ ISTICA MULTIVARIADA Ralph S. Silva http://www.im.ufrj.br/ralph/multivariada.html Departamento de M ´ etodos Estat´ ısticos Instituto de Matem ´ atica Universidade Federal do Rio de Janeiro Agradecimentos a professora Fl´ avia Landim.

Upload: trinhnga

Post on 11-May-2018

220 views

Category:

Documents


2 download

TRANSCRIPT

ANALISE ESTATISTICA MULTIVARIADA

Ralph S. Silvahttp://www.im.ufrj.br/ralph/multivariada.html

Departamento de Metodos EstatısticosInstituto de Matematica

Universidade Federal do Rio de Janeiro

Agradecimentos a professora Flavia Landim.

Analise Estatıstica Multivariada

Sumario

Programa da Disciplina

Referencias

Aspectos Gerais da Analise Multivariada

Organizacao de Dados

Estatısticas Descritivas

Representacao Grafica

Analise Estatıstica Multivariada

Programa da Disciplina

Programa da Disciplina

1. Introducao:I Aspectos gerais;I Organizacao de dados;I Vetor de media amostral;I Matrizes de variancias e covariancias, e correlacoes; eI Nocoes de distancia.

2. Ferramentas de algebra linear:I Matrizes positivas definidas;I Decomposicao espectral;I Vetores e matrizes aleatorios;I Media e variancia;I Variancia generalizada;I Variancia e correlacao via operacoes matriciais; eI Combinacoes lineares das componentes de um vetor aleatorio.

Analise Estatıstica Multivariada

Programa da Disciplina

Programa da Disciplina

3. As distribuicoes (vetorial) normal multivariada e (matricial) Wishart:I Definicao;I Propriedades;I Estimadores de maxima verossimilhanca;I Distribuicao amostral de X e S2; eI Avaliacao da suposicao de normalidade.

4. Inferencia sobre o vetor de medias:I Teste de hipoteses;I Estatıstica T 2 de Hotelling;I Regioes de confianca; eI Comparacoes simultaneas das componentes do vetor de medias.

Analise Estatıstica Multivariada

Programa da Disciplina

Programa da Disciplina

5. Inferencia sobre a matriz de variancias e covariancias.

6. Analise de variancia multivariada.

7. Regressao linear multivariada.

8. Discriminacao e classificacao.

9. Analise de componentes principais.

10. Analise fatorial.

11. Analise de conglomerados.

12. Escalonamento multidimensional.

Neste curso utilizaremos o programa de computador R e o OpenBUGS.

Analise Estatıstica Multivariada

Referencias

Referencias

I Johnson e Wichern (2007). Applied Multivariate Statistical Analysis, 6th

Edition. Prentice-Hall.I Chatfield e Collins (1980). Introduction to Multivariate Statistical

Analysis. Chapman and Hall.I Anderson (1958). An Introduction to Statistical Analysis. John Wiley and

Sons.

Analise Estatıstica Multivariada

Aspectos Gerais da Analise Multivariada

Aspectos gerais da analise multivariada

A pesquisa cientıfica e um processo de aprendizado iterativo.I Objetivos relacionados a explicacao de um fenomeno devem ser

especificados e, entao, testados coletando-se e analisando-se dados.I Ao longo de todo procedimento iterativo de aprendizagem, variaveis

podem ser incluıdas ou excluıdas do estudo.I As complexidades da maioria dos fenomenos exigem que o investigador

obtenha observacoes de diversas variaveis.I Como os dados incluem diversas variaveis simultaneamente,

chamamos a metodologia a ser estuda neste curso de analiseestatıstica multivariada.

I Compreender relacoes entre varias variaveis pode nao ser uma tarefasimples. As ferramentas matematicas exigidas para construir tecnicasestatısticas multivariadas para fazer inferencia envolvem maiorcomplexidade.

I Muitos metodos multivariados sao baseados em um modeloprobabilıstico conhecido como normal multivariado.

Analise Estatıstica Multivariada

Aspectos Gerais da Analise Multivariada

Alguns objetivos de investigacoes cientıficas nas quais metodosmultivariados de analise aplicam-se:

1. Reducao de dados e simplificacao estrutural:I Busca-se representar o fenomeno em estudo na forma mais simples

possıvel, sem perder muita informacao. Espera-se com isto facilitar ainterpretacao dos resultados.

2. Ordenacao e agrupamento:I Grupos de objetos “similares” ou variaveis sao criados segundo algum

criterio. Alternativamente, regras para a classificacao de objetos em gruposbem definidos podem ser construıdas.

3. Investigacao da dependencia entre as variaveis:I A natureza das relacoes entre as diversas variaveis envolvidas na

investigacao e de interesse. As variaveis sao mutuamente independentesou uma ou mais sao dependentes das outras? Se ha dependencia, comoexplica-la?

4. Previsao:I Relacoes entre variaveis devem ser determinadas com o objetivo de prever

valores de uma ou mais variaveis com base nas observacoes de outrasvariaveis.

5. Testes de hipoteses:I Hipoteses estatısticas especıficas, sobre os parametros de populacoes

multivariadas, sao testadas. Isto pode ser feito para validar suposicoes oureforcar conviccoes previas.

Analise Estatıstica Multivariada

Organizacao de Dados

Organizacao de dadosI A materia prima a ser trabalhada aqui e um conjunto de dados

multivariados, isto e, varias variaveis sao observadas sobre diversosindivıduos ou objetos. Nosso objetivo sera apresentar uma formaconveniente de organizar estes dados e de representa-los graficamente.

I Suponha que estejamos diante de um problema em que p variaveisforam observadas para uma amostra de n elementos. Assim, aobservacao para o i-esimo elemento da amostra sera um vetorp-variado denotador por x .i ou x .i tal que

x ′.i = (x1i , x2i , . . . , xpi ), i = 1, 2, . . . , n,

em que xji representa a observacao da j-esima variavel do i-esimoelemento da amostra, j = 1, 2, . . . , p.

I A colecao de dados observados pode ser representada por meio deuma matriz X de dimensao p × n como segue

X =

x11 x12 . . . x1n

x21 x22 . . . x2n...

.... . .

...xp1 xp2 . . . xpn

.

Analise Estatıstica Multivariada

Organizacao de Dados

I Assim, as linhas da matriz X representam as p variaveis medidas e, ascolunas, as n unidades amostrais.

I Podemos representar a matriz X atraves de suas linhas

X =

x ′1.x ′2....

x ′p.

,sendo x ′j. = (xj1, xj2, . . . , xjn) as n observacoes da j-esima variavel,j = 1, 2, . . . , p.

I Tambem podemos representar a matriz X atraves de suas colunas.Adotando aqui a notacao x .i , i = 1, 2, . . . , n, para designar a i-esimacoluna de X , temos

X =[x .1 x .2 . . . x .n

],

em que cada x .i e um vetor p × 1, i = 1, 2, . . . , n.

Analise Estatıstica Multivariada

Organizacao de Dados

Exemplo 1:

I Uma selecao de 4 notas ficais de uma livraria universitaria foi obtida demodo a investigar a natureza das vendas. Cada nota forneceu o numerode livros vendidos e o valor total da venda (em dolares). Obteve-se aseguinte matriz de dados, na qual a primeira linha indica o numero delivros vendidos e, a segunda, o valor da venda.

X =

[4 5 4 342 52 48 58

].

I A representacao dos dados desta forma permite o calculo dequantidades numericas de interesse de forma eficiente e facil.

Analise Estatıstica Multivariada

Estatısticas Descritivas

Estatısticas descritivas

1. A media amostral para a j-esima variavel observada pode serrepresentada como

x j. =1n

∑n

i=1xji , j = 1, 2, . . . , p.

Assim, podemos definir o vetor de medias amostral x como

x =

x1.

x2....

xp.

.Algebricamente,

x =1n

X1,

sendo 1 um vetor n × 1 com todos os elementos iguais a 1.

Analise Estatıstica Multivariada

Estatısticas Descritivas

2. Uma medida de dispersao para a j-esima variavel e dada pela varianciaamostral

sjj =1

n − 1

∑n

i=1(xji − x j.)

2, j = 1, 2, . . . , p.

3. A covariancia amostral entre a j-esima e a k -esima variaveis e dada por

sjk =1

n − 1

∑n

i=1(xji − x j.)(xki − xk.), j , k = 1, 2, . . . , p e j 6= k .

I Podemos entao representar de forma organizada as informacoes sobrevariabilidade atraves da matriz de (variancias e) covariancias amostraldada por

S =

s11 s12 . . . s1p

s21 s22 . . . s2p...

.... . .

...sp1 sp2 . . . spp

.Observe que a matriz de covariancias e uma matriz simetrica: S = S′.

Analise Estatıstica Multivariada

Estatısticas Descritivas

I Algebricamente, podemos escrever a matriz de dados menos o vetor demedias na forma

X − x1′,

e a matriz de covariancias na forma

S =1

n − 1(X − x1′)(X − x1′)′.

4. Podemos tambem definir a matriz de correlacoes amostral R, com

elementos rjk =sjk√sjjskk

,

R =

r11 r12 . . . r1p

r21 r22 . . . r2p...

.... . .

...rp1 rp2 . . . rpp

.Observe que a matriz de correlacoes e uma matriz simetrica: R = R′.

Analise Estatıstica Multivariada

Estatısticas Descritivas

I Algebricamente, a matriz de correlacoes pode ser escrita na forma

S =1

n − 1

[∆−1/2(X − x1′)

] [∆−1/2(X − x1′)

]′com

∆1/2 = diag(s1/211 , s

1/222 , . . . , s

1/2pp )

uma matriz diagonal p × p, e ∆−1/2 =[∆1/2

]−1.

I Observe que podemos relacionar algebricamente as matrizes S e R talque

S = ∆1/2R∆1/2 e R = ∆−1/2S∆−1/2.

Analise Estatıstica Multivariada

Estatısticas Descritivas

I Em muitas aplicacoes as somas dos desvios quadrados da media e dosprodutos cruzados de tais desvios sao utilizadas. Adotaremos aqui anotacao:

Wjj =∑n

i=1(xji − x j.)

2, j = 1, 2, . . . , p, e

Wjk =∑n

i=1(xji − x j.)(xki − xk.), j , k = 1, 2, . . . , p e j 6= k .

Assim, definimos a matriz W de somas dos desvios quadrados damedia e produtos cruzados dos desvios da media por

W =

w11 w12 . . . w1p

w21 w22 . . . w2p...

.... . .

...wp1 wp2 . . . wpp

= (X − x1′)(X − x1′)′.

Analise Estatıstica Multivariada

Estatısticas Descritivas

Exemplo 1: (continuacao)Para os dados do Exemplo 1 e utilizando o programa R, faca os calculos:

I do vetor de medias; e das matrizes S e R. (Ver Exemplo 01.r)

p <- 2 # numero de variaveisn <- 4 # tamanho da amostraX <- matrix(0,p,n) # definindo XX[1, ] <- c( 4, 5, 4, 3) # valores de X_{1i}X[2, ] <- c(42, 52, 48, 58) # valores de X_{1i}ones <- matrix(1,n,1) # vetor de unsxbar <- (X%*%ones) / n # vetor de mediassdX <- apply(X,1,"sd") # d. padrao das variaveisD.half <- diag(sdX,p,p) # matriz Deltaˆ{1/2}X.xbar <- X-xbar%*%t(ones) # matriz (X - xbarra*ones’)W <- X.xbar%*%t(X.xbar) # somas dos desvios ao

# quadrados e cruzadosS <- W/(n-1) # matriz de covarianciasID.half <- solve(D.half) # matriz Deltaˆ{-1/2}R <- ID.half%*%S%*%ID.half # matriz de correlacoes

Analise Estatıstica Multivariada

Estatısticas Descritivas

> xbar # vetor de medias[,1]

[1,] 4[2,] 50> S # matriz de covariancias

[,1] [,2][1,] 0.6666667 -2.00000[2,] -2.0000000 45.33333> R # matriz de correlacoes

[,1] [,2][1,] 1.0000000 -0.3638034[2,] -0.3638034 1.0000000

Usando as funcoes do R, podemos calcular:

apply(X,1,"mean") # vetor (linha) de mediasvar(t(X)) # matriz de covarianciascor(t(X)) # matriz de correlacoes# IMPORTANTE: note a transposicao da matriz X.

Analise Estatıstica Multivariada

Representacao Grafica

Representacao grafica

I Podemos utilizar graficos de dispersao para variaveis duas a duas.(Ver Exemplo 02.r)

# Note que o R entende variaveis por colunas e# as amostras por linha. Entao eh necessario# transpor a matriz de dadosp <- 3 # numero de variaveisn <- 10000 # tamanho da amostraX <- matrix(rnorm(p*n),p,n) # definindo X#pdf(file="dispersao_pairs.pdf")#par(mfrow=c(1,1),lwd=2.0,cex.lab=1.5,cex.axis=1.5,

lab=c(10,5,5),mar=c(0,1,0,2.5),xpd=T,cex.main=2.0)pairs(t(X),pch=15)#dev.off()

apply(X,1,"mean") # vetor (linhas) de mediasvar(t(X)) # matriz de covarianciascor(t(X)) # matriz de correlacoes

Analise Estatıstica Multivariada

Representacao Grafica

var 1

−4 −2 0 2 4

−4

−2

02

4

−4

−2

02

4

var 2

−4 −2 0 2 4 −4 −2 0 2 4

−4

−2

02

4

var 3

Figura: Exemplo de grafico de dispersao de variaveis duas a duas.

Analise Estatıstica Multivariada

Representacao Grafica

Distancias

I A maior parte das tecnicas multivariadas baseia-se no simples conceitode distancia.

I Estamos habituados a distancia usual chamada distancia euclideana, talque se P(x1, x2, . . . , xp) e Q(µ1, µ2, . . . , µp) sao dois pontos em Rp, adistancia entre P e Q e dada por

de(P,Q) =√

(x1 − µ1)2 + (x2 − µ2)2 + · · ·+ (xp − µp)2.

I Porem, a distancia euclideana pode nao ser adequada em muitosproblemas, dependendo da natureza das variaveis envolvidas.

I Isto ocorre devido ao fato de que na distancia euclideana cadacoordenada contribui igualmente para o calculo da mesma.

I Quando as coordenadas representam medicoes que sao sujeitas aflutuacoes aleatorias de magnitudes diferentes, e frequentementedesejavel ponderar coordenadas sujeitas a maior variabilidade com umpeso menor do que aquelas sujeitas a uma menor variabilidade.

Analise Estatıstica Multivariada

Representacao Grafica

I Deseja-se uma nova medida de distancia que leve em conta asdiferencas em variabilidade entre as diversas variaveis incluıdas naanalise e a presenca de correlacao entre os pares de variaveis.

I Suponha primeiro um conjunto de p variaveis nao correlacionadas, comvariancias distintas. Assim, de forma a equilibrar a contribuicao dasdiversas variaveis ao calculo da distancia, podemos pondera-las deforma inversamente proporcional aos seus desvios padrao (

√sjj ) e

calculando a distancia euclideana

de(P,Q) =

√(x − µ)′D−1(x − µ),

sendo D uma matriz diagonal com elementos s11, s22, . . . , spp,x = (x1, x2, . . . , xp)′ e µ = (µ1, µ2, . . . , µp)′.

I Uma medida de distancia que leva em conta as covariancias entre asvariaveis e dada por

de(P,Q) =

√(x − µ)′S−1(x − µ),

sendo S a matriz de covariancias.

Analise Estatıstica Multivariada

Representacao Grafica

Exercıcios do capıtulo 1 para entregar: 1 a 7, 14 a 18.

FACAM!