mestrado profissional em administraçãohedibert.org/.../2015/02/analisemultivariada-aula3.pdf · 3...
TRANSCRIPT
Mestrado Profissional em Administração
Disciplina: Análise Multivariada
Professor: Hedibert Freitas Lopes
1º trimestre de 2015
2
Decomposição Espectral
Autovalores e autovetores
MANLY, Cap. 2
3
Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou correlação em Multivariada). Os autovalores de A são os escalares que satisfazem a seguinte equação
| A - λ Ip| = 0 (função característica). Propriedade: para todo autovalor li, existe um vetor gi (diferente de zero) tal que
A gi = λi gi .
O vetor gi é denominado autovetor de A, associado ao autovalor λi.
4
Decomposição Espectral Qualquer matriz simétrica A (pxp) pode ser escrita como
A = EΛET , onde Λ (pxp) é a matriz diagonal dos autovalores de A e E (pxp) é uma matriz ortogonal cujas colunas são os autovetores padronizados de A. Autovetores padronizados de A:
ei = gi / |gi|
λ1 ... 0Λ = : : :
: : :0 ... λp
5
Exemplo: Encontrar os auto-valores e auto-vetores da matriz de correlações
⎥⎦
⎤⎢⎣
⎡=
18,08,01
R> R = matrix(c(1,0.8,0.8,1),2,2) > R [,1] [,2] [1,] 1.0 0.8 [2,] 0.8 1.0 > eigen(R) $values [1] 1.8 0.2 $vectors [,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068
6
Análise de Componentes Principais
MANLY, Cap. 6
HAIR et al., Cap. 3
7
Análise de Componentes Principais
Objetivos: ! Facilitar a análise de um grande conjunto de
variáveis: reduzindo a dimensionalidade do problema (número de variáveis), com um controle da perda de informação;
! Criação de índices.
8
Análise de Componentes Principais Interpretação: " Algebricamente: transformação ou combinação
linear de p variáveis aleatórias X1, X2, ..., Xp.
" Geometricamente: seleção de um novo conjunto de eixos obtido pela rotação do sistema original que tem X1, X2, ..., Xp como coordenadas. Esse novo sistema tem direção com variabilidade máxima.
9
Análise de Componentes Principais
Método: A partir de um banco de dados, no qual foram medidas p variáveis, criar outras p variáveis (componentes principais) que contenham toda a informação da amostra original. As componentes são combinações lineares das variáveis originais e são formadas uma a uma de tal modo que as primeiras resumam o maior grau de explicação possível do conjunto de variáveis originais.
10
Variáveis originais
X1
X2
:
Xp
Componentes principais
CP1
CP2
:
CPq
: CPp
As q primeiras componentes resumem, por
exemplo, 80% do comportamento
geral das p variáveis originais
Situação hipotética
ACP
11
Obtenção das CP
Decomposição espectral da matriz de covariâncias ou correlações:
# autovalores: λ1, λ2, ... , λp
# autovetores padronizados: e1 , e2, ..., ep
ei = (ei1, ei2, …, eip)T X = (X1, X2, …, Xp)T
CPi = eiT X
12
Esquema
CP1 = e11 X1 + e12 X2+ … + e1p Xp
CP2 = e21 X1 + e22 X2+ … + e2p Xp
…
CPp = ep1 X1 + ep2 X2+ … + epp Xp
13
Propriedade - Matriz de covariâncias
Variável Variância Comp. Variância X1 σ1
2 CP1 λ1
X2 σ22 CP2 λ2
... ... ... ... Xp σp
2 CPp λp
σT2 ∑
=
σp
i 1
2i σT
2 ∑∑==
==p
i
p
iiT
11
2iσλλ
T2T λσ =
14
Características das componentes
Componentes Variância % de explicação CP1 1λ 100 1λ / 2
Tσ CP2 2λ 100 2λ / 2
Tσ
... ... ...
CPp pλ 100 pλ / 2Tσ
Total T2T λσ =
As componentes são não-correlacionadas
15
Propriedade - Matriz de correlações
Variável Variância Comp. Variância X1 1 CP1 λ1
X2 1 CP2 λ2
... ... ... ... Xp 1 CPp λp
σT2 p σT
2 pp
i
p
ii ==∑∑
== 1
2i
1
σλ
16
Escolha do número de componentes principais
Se o nº de CP usado foi muito pequeno, pode haver uma redução exagerada da dimensionalidade e muita informação pode ser perdida.
Se o nº de CP usado foi muito grande, pode-se não atender aos objetivos de redução de dimensionalidade.
Na literatura existem vários critérios que auxiliam na escolha do nº de CP e basicamente 3 deles serão citados:
17
$ Reter o nº de CP que acumulem pelo menos certa porcentagem da variabilidade total dos dados, na prática 70%;
$ Reter as CP que acumulem pelo menos uma certa porcentagem da variabilidade de cada uma das variáveis originais, na prática 50%;
$ Critério de Kaiser: manter na análise as CP correspondentes aos autovalores maiores do que a média dos autovalores, no caso da matriz de covariâncias; ou as CP correspondentes aos autovalores maiores do que 1, no caso da matriz de correlação.
Escolha do número de componentes principais
18
Correlação entre as componentes e variáveis aleatórias originais
As componentes principais são não correlacionadas, ou seja,
Corr (CPi , CPj) = 0
pois os autovetores são ortogonais.
A correlação entre as componentes e cada uma das variáveis aleatórias originais é dada por
Corr (CPi , Xk) = eik (λi)0.5 / sk
19
Interpretação das componentes principais
A interpretação da CP é feita com base nas correlações entre as variáveis originais e as CP e nos coeficientes dados pelas combinações lineares das CP.
As correlações medem as contribuições individuais de cada variável e não consideram a contribuição multivariada das demais. Já os coeficientes são medidas das contribuições multivariadas. Desta forma, a interpretação deve ser feita baseando-se tanto nas correlações como nos coeficientes das CP.
20
Exemplo: Bebidas - Atributos 1. A marca tem um sabor refrescante. 2. A prefiro essa marca por ter menos calorias. 3. A marca elimina minha sede imediatamente. 4. Gosto do sabor adocicado da marca. 5. Prefiro consumir a marca após atividade física, pois me dá
energia. 6. Prefiro a marca pois vem numa embalagem que não agride o
meio ambiente. 7. A marca tem minerais e vitaminas que mantêm baixa a
necessidade de água de meu corpo. 8. A marca tem um sabor único. 9. A marca possui uma mistura de minerais e vitaminas que é
saudável para o meu corpo. 10. Eu prefiro a marca quando realmente estou com sede.
Matriz de Correlações
ACP a partir das matrize de covariancia e correlações
23
Comp.1 Comp.3 Comp.5 Comp.7 Comp.9
pca.cov
Variances
02
46
8
Comp.1 Comp.3 Comp.5 Comp.7 Comp.9
pca.cor
Variances
01
23
4
Scree plot
Loadings
-0.2 -0.1 0.0 0.1 0.2
-0.2
-0.1
0.0
0.1
0.2
Comp.1
Comp.2
1
2
34
5
6
7
8
9
10
11
12
13
14
15
16
17
18 19
20
21
22
23
24
25
2627
28
29
30
31
32
3334
35
36
37
38
39
40
41
42
43
44
4546
47
48
49
50
51
52 53 54
55
5657
58
59
6061
62
63
6465
66 6768
69
70
71
72
73
74
75
76
7778
7980
81
82
83
84
85
86
87
8889
90
91
92
93
94
95
-5 0 5 10
-50
510
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
Biplot
26
Correlações entre X e componentes principais
X2: A prefiro essa marca por ter menos calorias. X3: A marca elimina minha sede imediatamente. X5: Prefiro consumir a marca após atividade física, pois me dá energia X7: A marca tem minerais e vitaminas que mantêm baixa a necessidade de água de meu corpo. X9: A marca possui uma mistura de minerais e vitaminas que é saudável para o meu corpo. X10: Eu prefiro a marca quando realmente estou com sede. X1: A marca tem um sabor refrescante. X4: Gosto do sabor adocicado da marca. X8: A marca tem um sabor único. X6: Prefiro a marca pois vem numa embalagem que não agride o meio ambiente. CP1: Elimina a sede e é saudável para o corpo CP2: Não preocupação com sabor da bebida CP3: Não agressão ao meio-ambiente
Composicao das CP
28
Caso: Construção de índice Deseja-se construir um índice de desenvolvimento de países.
Conta-se com uma amostra de 85 países, para os quais levantou-se uma série de indicadores socioeconômicos. (arquivo mundo.xls).
Como utilizar ACP para construir tal índice? Como devem ser os indicadores?
29
Índice de desenvolvimento X1: população em milhares de habitantes X2: densidade populacional X3: % de população urbana X4: expectativa de vida feminina X5: expectativa de vida masculina X6: crescimento populacional X7: mortalidade infantil X8: PIB per capita X9: % de homens alfabetizados X10: % de mulheres alfabetizadas Arquivo: mundo.xls
30
Construção de Índices Utilizando a matriz de correlação, construa um índice de
desenvolvimento dos países, usando todas as variáveis do arquivo de dados (X1 a X10).
Explique os resultados.
Qual a porcentagem de explicação do índice?
Dê um nome para o índice criado.
Quais são as variáveis mais importantes e menos importantes no índice?
O sinal do peso de cada uma das variáveis do índice era esperado? Justifique com base no problema.