análise de componentes principais (pca)

Upload: tiago-henrique

Post on 01-Nov-2015

234 views

Category:

Documents


0 download

DESCRIPTION

Análise de Componentes Principais (PCA)

TRANSCRIPT

  • Anlise de componentes principais (PCA)

  • Reduo de dados Sumarizar os dados que contm muitas variveis (p) por um conjunto menor de (k) variveis compostas derivadas a partir do conjunto original.

    n

    p

    A n

    k

    X

  • Data Reduction Variao residual so informaes contidas em A que no esto presentes em X.

    Compromisso entre: reduo do tamanho, representao mais compacta

    supersimplificao: perda de informao relevante.

  • Anlise de componentes principais (PCA)

    Provavelmente o mtodo multivariado mais usado e conhecido de reduo de dados

    Inventado por Pearson (1901) e Hotelling (1933)

  • Principal Component Analysis (PCA)

    usa uma conjunto de dados representado por uma matriz de n registros por p atributos, que podem estar correlacionados, e sumariza esse conjunto por eixos no correlacionados (componentes principais) que so uma combinao linear das p variveis originais

    as primeiras k componentes contm a maior quantidade de variao dos dados

  • Raciocnio geomtrico da PCA Objetos so representados por uma nuvem de

    n pontos em um espao multidimensional, com um eixo para cada uma dos p atributos

    o centroide dos pontos definido pela mdia de cada atributo

    a varincia de cada atributo mdia dos quadrados da diferena dos n pontos com relao a mdia de cada atributo

    Vi =1

    n 1 Xim X i( )2

    m =1

    n

  • Raciocnio geomtrico da PCA Grau com que cada varivel linearmente correlacionado representado pela sua covarincia.

    Sum over all n objects

    Value of variable j

    in object m

    Mean of variable j

    Value of variable i

    in object m

    Mean of variable i

    Covariance of variables i and j

  • Interpretao geomtrica da PCA O objetivo da PCA rotacionar rigidamente os eixos desse espao p-dimensional para nova posies (eixos principais) que tem a seguinte propriedade: Ordenado de tal maneira que o eixo principal 1 tem a maior varincia, o eixo 2 tem a prxima maior varincia, .... , e o ltimo eixo tem a menor varincia

    Covarincia entre cada par de eixos zero (os eixos principais no so correlacionados).

  • 2D Example of PCA variveis X1 and X2 tem covarincia positiva e cada

    uma delas tm varincia similar.

  • Os dados so centralizados Cada varivel ajustada para ter mdia zero (subtraindo a mdia para cada valor).

  • Componentes principais so calculadas PC 1 tem a maior varincia possvel (9.88) PC 2 tem varincia de 3.03 PC 1 e PC 2 tem covarincia zero.

  • A medida dedissimilaridade usada na PCA a distncia euclidiana

    PCA usa a distncia euclidiana calculada a partir dos p atributos como uma medida de dissimilaridade entre os n objetos

    PCA calcula as k melhores possveis dimenses (k < p) representandos a distncia euclidiana entre os objetos

  • Generalizao para p-dimenses Na prtica, PCA no usada com somente 2 variables

    A algebra para encontrar os eixos pode ser facilmente extendida para p variveis

    PC 1 a direo de maior variao na nuvem p-dimensional de pontos

    PC 2 est na direo da prxima maior varincia, condiciodicionada a zero covarinciancia com PC 1.

  • Generalizao para p-dimenses PC 3 est na direo da prxima maior covarincia, condidionada com zero covarincia entre PC 1 e PC 2

    e assim por diante... at PC p

  • PC 1

    PC 2

    cada eixo principal uma combinao linear das variveis originais

    PCj = ai1Y1 + ai2Y2 + ainYn aijs so os coeficiente para o fator i, multiplicado pela

    dimenso da varivel j

  • PC 1

    PC 2

    os PC eixos so rotaes rgidas das variveis originais PC 1 simultaneamente a direo de maior varicia e

    simultaneamente melhor reta ajustada que minimiza a distncia mdia entre os pontos e PC1

  • Generalizao para p-dimenses se tomarmos as primeiras k components, eles

    definem um hiperplano k-dimensional que melhor se ajusta nuvem de pontos

    Da varincia total dos p atributos: PCs 1 at k representam a proporo mximo possivel

    de varincia que pode ser mostrada em k dimenses

  • Covariancia vs Correlao usar covarincia entre variveis somente faz sentido se elas esto representadas na mesma unidade

    Mesmo assim, variveis com alta varincia vo dominar as componentes principais

    Esses problemas so geralmente contornados normalizando os atributos

    Mdia de i

    Desvio padro de i

  • Covariance vs Correlation covariancias entre variveis normalizadas so correlaes correlaes

    Depois da normalizao, cada varivel tem varincia 1

    Correlaes tambm podem ser calculadas a paritr de varincias e covarincias:

    Covariance of variables i and j

    Variance of variable j Variance

    of variable i

    Correlation between variables i and j

  • Algebra do PCA O primeiro passo calcular a matriz de produto vetorial de varincias e covarincias (ou correlaes) entre cada par dos p atributos

    Matriz quadrada e assimtrica Diagonais so covarincias, fora, covarincias.

    X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384

    X1 X2 X1 1.0000 0.5297 X2 0.5297 1.0000

    Variance-covariance Matrix Correlation Matrix

  • Algebra da PCA Em notao matricial:

    onde X a matriz n x p de dados, com cada varivel centralizada

    X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384

    X1 X2 X1 1.0000 0.5297 X2 0.5297 1.0000

    Variance-covariance Matrix Correlation Matrix

  • Manipulao de Matrizes Transposio: inverte linhas e colunas

    Multiplica as matrizes

    X = 10 0 4 7 1 2

    X = 10 7 0 1 4 2

  • Algebra do PCA Soma dos elementos diagonais da matriz de varincia-covarincia chamado trao

    Ele representaa varincia total dos dados a distncia mdia quadrada entre cada ponto e o centro no espao p-dimensional.

    X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384

    X1 X2 X1 1.0000 0.5297 X2 0.5297 1.0000

    Trace = 12.9091 Trace = 2.0000

  • Algebra do PCA Encontrar os eixos principais envolve encontrar os auto-vetores da matriz de produto vetorial (S)

    The auto-valores de S so solues () da equao caracterstica

  • Algebra do PCA os auto-valores, 1, 2, ... p correspondem varincia representada em cada componete principal

    A soma de todos os p auto-valores igual ao trao de S.

    X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384

    1 = 9.8783 2 = 3.0308

    Note: 1+2 =12.9091 Trace = 12.9091

  • Algebra do PCA Cada auto-vetor consiste nos p valores que representam a contribuio de cada atributo para a componente principal

    Autovetores so no correlacionaods (ortogonal) Seus produtos-internos so zero.

    u1 u2 X1 0.7291 -0.6844 X2 0.6844 0.7291

    Auto-vetores

    0.7291*(-0.6844) + 0.6844*0.7291 = 0

  • Algebra do PCA As coordenadas de cada objeto i na kesimo eixo principal, chamada de escores na PC k, so computadas como

    one Z a matriz n x k de PC escores, X a n x p matriz centralizada de daos e U a p x k matriz de autovetores.

  • Algebra da PCA variancia dos scores em cada PC proporcional ao auto-valor correspondente para aquele eixo

    O autovalor representa a varincia mostrada (explicada or extraida) pelo eixo k

    A soma dos primeiros k autovalores proporcional ao total de varincia explicada pelas primeiras k-dimenses da transformao

  • 1 = 9.8783 2 = 3.0308 Trace = 12.9091

    PC 1 mostra (explica) 9.8783/12.9091 = 76.5% of the total variance

  • Algebra da PCA A matriz do produto vetorial calculada usando as p componentes principais tem uma forma simples: Todos os elementos for a da diagonal tem valores zero

    A diagonal contm os auto-valores. PC1 PC2

    PC1 9.8783 0.0000 PC2 0.0000 3.0308 Variance-covariance Matrix

    of the PC axes