analiza glavnih komponent ter eksploratorna in konfirmatorna faktorska analiza

Analiza glavnih komponent tereksploratorna in konfirmatorna

faktorska analiza

Psihologija - magistrski študijMetodologija psihološkega raziskovanja

2003/04

Gregor SočanKatedra za psihološko metodologijo

[email protected]

• Opredelitev EFA in PCA:

podobnosti in razlike.

• Nekateri specifični problemi pri

uporabi EFA.

• Posebni primeri PCA in EFA.

• Konfirmatorna FA.

• Primerjava in evalvacija treh metod.

O čem bomo govorili?

Analiza glavnih komponent (Principal Component Analysis, PCA; Pearson, 1901):

Komponente so natanko določene z izmerjenimi

spremenljivkami:

Komponentai = bi1 X1 + bi2 X2 + … + bin Xn in

obratno:

Xi ai1 K1 + ai2 K2 + … + aik Kk (=, če k=n)

“informacijo, vsebovano v n spremenljivkah, optimalno povzamemo s k nekoreliranimi obteženimi vsotami (komponentami)”

Prvih p komponent pojasni največji možni delež variance n spremenljivk.

Grafična ponazoritev:

Komponente kot glavne dimenzije prostora spremenljivk.

-2,00

-1,00

0,00

1,00

2,00

-2 -1 0 1 2

izpit

vaje

M

K2

K1

a d

(Eksploratorna) faktorska analiza (EFA):

Iščemo “neopazljive”, “latentne” spremenljivke, s katerimi lahko pojasnimo korelacije med opazovanimi spremenljivkami.

B P RBesedni 1Prostorski 0,72 1Računski 0,48 0,54 1

Korelacije med 3 testi sposobnosti:

B P R

g

0,60,9

0,8

0,36 0,19 0,64

Varianca h2(B) = 0,64skupnih faktorjev h2(P) = 0,81(komunaliteta) h2(R) = 0,36

Podobnost:Kot komponente so tudi faktorji spremenljivke oz. dimenzije.

Razliki:

EFA analizira le skupno varianco (komunaliteto).

Faktorji so latentni: niso enaki obteženim vsotam spremenljivk.

Ali je PCA vrsta EFA?

Proti: rezultati lahko precej različni; različni cilji; različen empirični status komponent/faktorjev; nerealna predpostavka o popolni komunaliteti.

Za: z EFA in PCA pogosto dobimo zelo podobne rezultate; vsak algoritem EFA vsebuje tudi PCA.

Algoritmi EFA:

1. FA največjega verjetja (Maximum Likelihood FA, MLFA)

“maksimizira funkcijo verjetja za korelacije med spremenljivkami”

Matematično elegantna:• analitične standardne napake parametrov;• inferenčni testi;• asimptotično učinkovite ocene.

2. Metoda najmanjših kvadratov

(Minres, Iterated principal factors, Principal-axis, ULS... )

“minimizira vsoto kvadriranih razlik med dejanskimi in ocenjenimi korelacijami med spremenljivkami”

Empirično uspešnejša od MLFA, zlasti v neugodnih pogojih (Briggs & MacCallum, 2003; Sočan, 2003).

3. Metoda najmanjšega ranga

(Minimum Rank FA, MRFA)

• minimizira varianco “ignoriranih” faktorjev;• ne producira kakršnihkoli negativnih varianc;• “pravilna” reducirana korelacijska matrika;• omogoča izračun % nepojasnjene komunalitete!

Po glavnih empiričnih lastnostih primerljiva z metodo najmanjših kvadratov.

Izbira algoritma odvisna tudi od preferenc uporabnika:

• uporaba inferenčnih testov (MLFA)

• stabilnost v neugodnih pogojih (Minres)

• ocena nepojasnjene skupne variance (MRFA)• ...

Primer: Pearsonovi korelacijski koeficienti med rezultati 9 lestvic impulzivnosti (Zadravec, 2003)

Imp1 Pustol. Funkc. Disfunk. Imp2 Thrill Exper. Disinh.Pustol. 0,15Funkc. 0,11 0,48Disfunk. 0,67 0,19 0,24Imp2 0,55 0,10 0,05 0,61Thrill 0,11 0,77 0,50 0,15 0,01Exper. 0,22 0,29 0,26 0,19 0,25 0,35Disinh. 0,29 0,39 0,20 0,24 0,34 0,37 0,36Boredom 0,34 0,32 0,21 0,31 0,29 0,28 0,28 0,36

Imp1: Eysenckova lestvica imp., Pustol: Eysenckova lestvica pustolovskosti; Funkc.: funkcionalna imp.; Disfunk.: disfunkcionala i.; Imp2: Barrattova lestvica i.; Thrill: Zuckermanova lestvica pustolovskosti; Exper.: Zuckermanova lestvica iskanja izkušenj; Disinh.: Zuckermanova lestvica disinhibicije

krepko: |r|>0,3

Koliko faktorjev / komponent izločiti?

Morda najpogosteje upo/zlorabljen:Kaiserjev kriterij: obržimo faktorje z lastno vrednostjo > 1;smiseln le pri PCA, vendar tudi tam vprašljiv.

V praksi nikoli ne izločimo “pravilnega” števila faktorjev!

Interpretabilnost oz. uporabnost.

2 preizkus pri metodi največjega verjetja:

H0: vzorčni k = populacijski k

(k: število izločenih faktorjev)

k 2 df p

1 337,0 27 .0002 46,7 19 .0003 10,5 12 .576

Cattellov scree-test

0

1

2

3

4

0 1 2 3 4 5 6 7 8 9 10

Faktor

La

stn

a v

red

no

st

Težavi scree-testa: neobjektivnost v SPSS le za PCA (neprimerljiv z EFA!)

0

1

2

3

4

0 1 2 3 4 5 6 7 8 9 10

Faktor

La

stn

a v

red

no

st

PCA

EFA

% pojasnjene skupne variance (komunalitete) pri metodi najmanjšega ranga

0

20

40

60

80

100

0 1 2 3 4 5 6 7

Št.faktorjev

PS

V%

r PSV%2 28,73 8,44 4,05 2,76 1,2

Vzporedna analiza

0

0,5

1

1,5

2

2,5

3

3,5

0 2 4 6 8 10

Faktor

Last

na v

redn

ost

dejanski

naključni

Pravokotne rotacije ohranjajo nekorelirane faktorje / komponente (“standard”: Varimax)

Poševnokotne rotacije dopuščajo korelacije med faktorji.

Nekoreliranost faktorjev vs. natančnost opisa.

Rotacija: izboljšanje interpretabilnosti

nerotirana Varimax ObliminTest F1 F2 F1 F2 F1 F2Imp1 0,59 0,51 0,11 0,77 0,24 0,78Pustol. 0,68 -0,50 0,84 0,08 0,84 0,21Funkc. 0,47 -0,30 0,55 0,09 0,56 0,18Disfunk. 0,62 0,48 0,15 0,77 0,28 0,78Imp2 0,53 0,56 0,03 0,77 0,17 0,76Thrill 0,67 -0,60 0,90 -0,01 0,89 0,14Exper. 0,47 -0,06 0,40 0,26 0,44 0,33Disinh, 0,55 -0,02 0,43 0,35 0,48 0,42Boredom 0,52 0,06 0,35 0,39 0,41 0,44

ULS rešitve z dvema faktorjema brez rotacije ter s pravokotno in poševno rotacijo

(krepko: a>0,40)

Factor Plot

Factor 1

1.0.50.0-.5-1.0

Fa

cto

r 2

1.0

.5

0.0

-.5

-1.0

boredom susceptdisinhibitionexperience

thrill

imp2disfunkc

funkc

pustol

imp1

Factor Plot in Rotated Factor Space

Factor 1

1.0.50.0-.5-1.0

Fa

cto

r 2

1.0

.5

0.0

-.5

-1.0

boredom susceptdisinhibitionexperience

thrill

imp2disfunkc

funkc pustol

imp1

Dvofaktorska ULS rešitev pred in po rotaciji (Varimax)

Dvofaktorska vs. trifaktorska rešitev:s tremi faktorji bolje zajamemo lestvice iskanja dražljajev.(Oblimin, krepko>0,5)

Test F1 F2 F1 F2 F3Imp1 0,24 0,78 0,48 0,72 0,11Pustol. 0,84 0,21 0,49 0,14 0,83Funkc. 0,56 0,18 0,28 0,16 0,58Disfunk. 0,28 0,78 0,36 0,96 0,22Imp2 0,17 0,76 0,53 0,69 0,00Thrill 0,89 0,14 0,47 0,06 0,90Exper. 0,44 0,33 0,51 0,22 0,34Disinh. 0,48 0,42 0,68 0,28 0,35Boredom 0,41 0,44 0,52 0,34 0,30

Kvantifikacija faktorjev / komponent(faktorske točke/dosežki; factor scores):

• natančne vrednosti le pri PCA

• EFA: “nedoločenost” faktorjev - faktorske vrednosti lahko le ocenimo

Podatki za EFA / PCA:

• dvosmerna matrika osebe spremenljivke

• intervalni podatki (ekvivalentne razlike med

vrednostmi)

• linearne povezave so smiselne

Koliko oseb potrebujemo?

Najpomembnejši dejavnik natančnosti rešitve: kombinacija števila oseb in povprečne komunalitete

0

0,02

0,04

0,06

0,08

0,1

0,12

0 200 400 600

Sample size

Mea

n M

AD

for

MR

FA

CV%=40

CV%=70

Vir variabilnosti 2

Št. faktorjev (r) .02Komun.(CV%) .14Št.oseb (N) .70r CV% .00r N .01CV% N .04r CV% N .00Napaka .09

Dihotomne (binarne) spremenljivke:

Linearni model ne velja več!

Včasih smiselno predpostaviti, da vrednosti temeljijo na zvezni latentni spremenljivki:analiza tetrahoričnih koeficientov.

NOHARM ipd. modeli latentnih potez: povezava s teorijo odgovora na postavko (item-response theory)

Za stabilne rezultate verjetno potreben velik vzorec!

Kvalitativne (nominalne) spremenljivke z več kot 2 vrednostima:

Analiza homogenosti (alternativa PCA)

1. pretvorba v indikatorske spremenljivke2. kvantifikacijska matrika: obtežitev indikatorskih spremenljivk, tako da maksimiziramo korelacijo s “komponento”

Trismerni podatkinpr. osebe spremenljivke časovne točke

Trismerna komponentna analiza:

P

p

Q

q

R

rpqrkrjqipijk gcbax

1 1 1¸

P

ppipij Kax

1Namesto imamo:

A, B, C: komponente oseb, spremenljivk in časovnih točkG: 3-D jedrna matrika: skrčena matrika podatkov

realnost obstoja faktorjev latentne spremenljivke tudi v “eksaktnih” vedah

nedoločljivost faktorjev faktorji so razlagalne spremenljivke

arbitrarnost rotacij faktorji so referenčni okvir, ne nujno realno obstoječe entitete

domnevna neuspešnost pri odkrivanju znane strukture napačna uporaba metode privede do napačnih rezultatov

Kritike faktorske analize

ustreznost podatkov (merski nivo, linearnost

odnosov); dovolj veliko število spremenljivk; smiselna izbira spremenljivk; velikost vzorca (odvisna od komunalitete); izbira PCA / EFA / CFA kaj drugega; odločitev o številu faktorjev; izbira rotacije; previdnost pri interpretaciji: faktorji lahko ustrezajo

specifičnim strukturam, vendar to ni nujno!

Kako se izogniti zmotnim rezultatom?

KONFIRMATORNAFAKTORSKA ANALIZA:

V praksi določimo, katere uteži so enake 0 in katere so “proste”.

Izhajamo iz vnaprejšnjih hipotez o faktorski strukturi:

• število faktorjev in

• faktorske uteži.

= +

= kovariančna matrika = matrika faktorskih uteži = simet. matrika korelacij med faktorji = diag. matrika unikvitet

EFA: vsi elementi in diag. elementi so prosti(pri poševni rotaciji tudi izvendiag. elementi KFA: nekatere elemente fiksiramo

Izhodišče: osnovni model faktorske analize:

Ocenjevanje parametrov:

reševanje sistema strukturnih enačb, dobljenih s primerjavo empirične in

inplicirane kovariančne matrike.

Metode:največje verjetje (ML)

najmanjši kvadrati (ULS),obteženi najmanjši kvadrati (WLS)

...

Npr. 1 latentna spremenljivka, 2 opazovani spremenljivki:

222221

211121

22

1121

2

1

2212

1221

0

01

Implicirana (ocenjena) kovariančna matrika:

Strukturne enačbe:1

2 = 12 + 11

12 = 12

22 = 2

2 + 22

Identifikacija:

Parametre modela je možno enoznačno določiti le, če število prostih parametrov ni preveliko.

t - pravilo:

št. prostih parametrov < p(p+1)/2

(p = št. spremenljivk)

Ocenjevanje ustreznosti modela:

2 test, glede na pojasnjeno varianco: GFI, AGFI… glede na razliko med ocenjevanim in

ničelnim modelom: NFI, NNFI… glede na razlike med dejanskimi in

reproduciranimi kovariancami: RMSEA, RMR...

imp10.37

pustol0.24

funk0.69

disfun0.31

imp20.47

thrill0.21

exper0.72

disinh0.59

boredom0.67

impulz 1.00

ss 1.00

pustol 1.00

Chi-Square=43.80, df=24, P-value=0.00805, RMSEA=0.060

0.79

0.87

0.56

0.83

0.73

0.89

0.53

0.64

0.57

0.59

0.19

0.65

Diagram poti (path diagram)

EFA KFATest F1 F2 F3 F1 F2 F3Imp1 0,48 0,72 0,11 0 0,79 0Pustol. 0,49 0,14 0,83 0 0 0,87Funkc. 0,28 0,16 0,58 0 0 0,56Disfunk. 0,36 0,96 0,22 0 0,83 0Imp2 0,53 0,69 0,00 0 0,73 0Thrill 0,47 0,06 0,90 0 0 0,89Exper. 0,51 0,22 0,34 0,53 0 0Disinh. 0,68 0,28 0,35 0,64 0 0Boredom 0,52 0,34 0,30 0,57 0 0

Primerjava rešitev:

EFA: iskanje strukture v novih, neraziskanih problemihKFA: preverjanje strukturnih hipotez v situacijah z dobro teoretično osnovo

Literatura:

• Bollen, K.A. (1989). Structural equations with latent variables. New York: Wiley. /KFA• Gorsuch, R.L. (1983). Factor analysis. Hillsdale: Lawrence Erlbaum. /EFA• Kaplan, D. (2000). Structural equation modeling: Foundations and extensions. Thousand Oaks: Sage. /KFA• Nunnally, J.C. in Bernstein, I.H. (1994). Psychometric theory. New York: McGraw-Hill. /PCA, EFA, KFA• Stevens, J. (1996, 2001). Applied multivariate statistics for the social sciences. Mahwah, NJ: Laurence Erlbaum. /PCA, KFA

analiza glavnih komponent ter eksploratorna in konfirmatorna faktorska analiza

Documents