analiza glavnih komponent ter eksploratorna in konfirmatorna faktorska analiza
DESCRIPTION
Analiza glavnih komponent ter eksploratorna in konfirmatorna faktorska analiza Psihologija - magistrski študij Metodologija psihološkega raziskovanja 2003/04 Gregor Sočan Katedra za psihološko metodologijo. [email protected]. O čem bomo govorili?. - PowerPoint PPT PresentationTRANSCRIPT
Analiza glavnih komponent tereksploratorna in konfirmatorna
faktorska analiza
Psihologija - magistrski študijMetodologija psihološkega raziskovanja
2003/04
Gregor SočanKatedra za psihološko metodologijo
• Opredelitev EFA in PCA:
podobnosti in razlike.
• Nekateri specifični problemi pri
uporabi EFA.
• Posebni primeri PCA in EFA.
• Konfirmatorna FA.
• Primerjava in evalvacija treh metod.
O čem bomo govorili?
Analiza glavnih komponent (Principal Component Analysis, PCA; Pearson, 1901):
Komponente so natanko določene z izmerjenimi
spremenljivkami:
Komponentai = bi1 X1 + bi2 X2 + … + bin Xn in
obratno:
Xi ai1 K1 + ai2 K2 + … + aik Kk (=, če k=n)
“informacijo, vsebovano v n spremenljivkah, optimalno povzamemo s k nekoreliranimi obteženimi vsotami (komponentami)”
Prvih p komponent pojasni največji možni delež variance n spremenljivk.
Grafična ponazoritev:
Komponente kot glavne dimenzije prostora spremenljivk.
-2,00
-1,00
0,00
1,00
2,00
-2 -1 0 1 2
izpit
vaje
M
K2
K1
a d
(Eksploratorna) faktorska analiza (EFA):
Iščemo “neopazljive”, “latentne” spremenljivke, s katerimi lahko pojasnimo korelacije med opazovanimi spremenljivkami.
B P RBesedni 1Prostorski 0,72 1Računski 0,48 0,54 1
Korelacije med 3 testi sposobnosti:
B P R
g
0,60,9
0,8
0,36 0,19 0,64
Varianca h2(B) = 0,64skupnih faktorjev h2(P) = 0,81(komunaliteta) h2(R) = 0,36
Podobnost:Kot komponente so tudi faktorji spremenljivke oz. dimenzije.
Razliki:
EFA analizira le skupno varianco (komunaliteto).
Faktorji so latentni: niso enaki obteženim vsotam spremenljivk.
Ali je PCA vrsta EFA?
Proti: rezultati lahko precej različni; različni cilji; različen empirični status komponent/faktorjev; nerealna predpostavka o popolni komunaliteti.
Za: z EFA in PCA pogosto dobimo zelo podobne rezultate; vsak algoritem EFA vsebuje tudi PCA.
Algoritmi EFA:
1. FA največjega verjetja (Maximum Likelihood FA, MLFA)
“maksimizira funkcijo verjetja za korelacije med spremenljivkami”
Matematično elegantna:• analitične standardne napake parametrov;• inferenčni testi;• asimptotično učinkovite ocene.
2. Metoda najmanjših kvadratov
(Minres, Iterated principal factors, Principal-axis, ULS... )
“minimizira vsoto kvadriranih razlik med dejanskimi in ocenjenimi korelacijami med spremenljivkami”
Empirično uspešnejša od MLFA, zlasti v neugodnih pogojih (Briggs & MacCallum, 2003; Sočan, 2003).
3. Metoda najmanjšega ranga
(Minimum Rank FA, MRFA)
• minimizira varianco “ignoriranih” faktorjev;• ne producira kakršnihkoli negativnih varianc;• “pravilna” reducirana korelacijska matrika;• omogoča izračun % nepojasnjene komunalitete!
Po glavnih empiričnih lastnostih primerljiva z metodo najmanjših kvadratov.
Izbira algoritma odvisna tudi od preferenc uporabnika:
• uporaba inferenčnih testov (MLFA)
• stabilnost v neugodnih pogojih (Minres)
• ocena nepojasnjene skupne variance (MRFA)• ...
Primer: Pearsonovi korelacijski koeficienti med rezultati 9 lestvic impulzivnosti (Zadravec, 2003)
Imp1 Pustol. Funkc. Disfunk. Imp2 Thrill Exper. Disinh.Pustol. 0,15Funkc. 0,11 0,48Disfunk. 0,67 0,19 0,24Imp2 0,55 0,10 0,05 0,61Thrill 0,11 0,77 0,50 0,15 0,01Exper. 0,22 0,29 0,26 0,19 0,25 0,35Disinh. 0,29 0,39 0,20 0,24 0,34 0,37 0,36Boredom 0,34 0,32 0,21 0,31 0,29 0,28 0,28 0,36
Imp1: Eysenckova lestvica imp., Pustol: Eysenckova lestvica pustolovskosti; Funkc.: funkcionalna imp.; Disfunk.: disfunkcionala i.; Imp2: Barrattova lestvica i.; Thrill: Zuckermanova lestvica pustolovskosti; Exper.: Zuckermanova lestvica iskanja izkušenj; Disinh.: Zuckermanova lestvica disinhibicije
krepko: |r|>0,3
Koliko faktorjev / komponent izločiti?
Morda najpogosteje upo/zlorabljen:Kaiserjev kriterij: obržimo faktorje z lastno vrednostjo > 1;smiseln le pri PCA, vendar tudi tam vprašljiv.
V praksi nikoli ne izločimo “pravilnega” števila faktorjev!
Interpretabilnost oz. uporabnost.
2 preizkus pri metodi največjega verjetja:
H0: vzorčni k = populacijski k
(k: število izločenih faktorjev)
k 2 df p
1 337,0 27 .0002 46,7 19 .0003 10,5 12 .576
Cattellov scree-test
0
1
2
3
4
0 1 2 3 4 5 6 7 8 9 10
Faktor
La
stn
a v
red
no
st
Težavi scree-testa: neobjektivnost v SPSS le za PCA (neprimerljiv z EFA!)
0
1
2
3
4
0 1 2 3 4 5 6 7 8 9 10
Faktor
La
stn
a v
red
no
st
PCA
EFA
% pojasnjene skupne variance (komunalitete) pri metodi najmanjšega ranga
0
20
40
60
80
100
0 1 2 3 4 5 6 7
Št.faktorjev
PS
V%
r PSV%2 28,73 8,44 4,05 2,76 1,2
Vzporedna analiza
0
0,5
1
1,5
2
2,5
3
3,5
0 2 4 6 8 10
Faktor
Last
na v
redn
ost
dejanski
naključni
Pravokotne rotacije ohranjajo nekorelirane faktorje / komponente (“standard”: Varimax)
Poševnokotne rotacije dopuščajo korelacije med faktorji.
Nekoreliranost faktorjev vs. natančnost opisa.
Rotacija: izboljšanje interpretabilnosti
nerotirana Varimax ObliminTest F1 F2 F1 F2 F1 F2Imp1 0,59 0,51 0,11 0,77 0,24 0,78Pustol. 0,68 -0,50 0,84 0,08 0,84 0,21Funkc. 0,47 -0,30 0,55 0,09 0,56 0,18Disfunk. 0,62 0,48 0,15 0,77 0,28 0,78Imp2 0,53 0,56 0,03 0,77 0,17 0,76Thrill 0,67 -0,60 0,90 -0,01 0,89 0,14Exper. 0,47 -0,06 0,40 0,26 0,44 0,33Disinh, 0,55 -0,02 0,43 0,35 0,48 0,42Boredom 0,52 0,06 0,35 0,39 0,41 0,44
ULS rešitve z dvema faktorjema brez rotacije ter s pravokotno in poševno rotacijo
(krepko: a>0,40)
Factor Plot
Factor 1
1.0.50.0-.5-1.0
Fa
cto
r 2
1.0
.5
0.0
-.5
-1.0
boredom susceptdisinhibitionexperience
thrill
imp2disfunkc
funkc
pustol
imp1
Factor Plot in Rotated Factor Space
Factor 1
1.0.50.0-.5-1.0
Fa
cto
r 2
1.0
.5
0.0
-.5
-1.0
boredom susceptdisinhibitionexperience
thrill
imp2disfunkc
funkc pustol
imp1
Dvofaktorska ULS rešitev pred in po rotaciji (Varimax)
Dvofaktorska vs. trifaktorska rešitev:s tremi faktorji bolje zajamemo lestvice iskanja dražljajev.(Oblimin, krepko>0,5)
Test F1 F2 F1 F2 F3Imp1 0,24 0,78 0,48 0,72 0,11Pustol. 0,84 0,21 0,49 0,14 0,83Funkc. 0,56 0,18 0,28 0,16 0,58Disfunk. 0,28 0,78 0,36 0,96 0,22Imp2 0,17 0,76 0,53 0,69 0,00Thrill 0,89 0,14 0,47 0,06 0,90Exper. 0,44 0,33 0,51 0,22 0,34Disinh. 0,48 0,42 0,68 0,28 0,35Boredom 0,41 0,44 0,52 0,34 0,30
Kvantifikacija faktorjev / komponent(faktorske točke/dosežki; factor scores):
• natančne vrednosti le pri PCA
• EFA: “nedoločenost” faktorjev - faktorske vrednosti lahko le ocenimo
Podatki za EFA / PCA:
• dvosmerna matrika osebe spremenljivke
• intervalni podatki (ekvivalentne razlike med
vrednostmi)
• linearne povezave so smiselne
Koliko oseb potrebujemo?
Najpomembnejši dejavnik natančnosti rešitve: kombinacija števila oseb in povprečne komunalitete
0
0,02
0,04
0,06
0,08
0,1
0,12
0 200 400 600
Sample size
Mea
n M
AD
for
MR
FA
CV%=40
CV%=70
Vir variabilnosti 2
Št. faktorjev (r) .02Komun.(CV%) .14Št.oseb (N) .70r CV% .00r N .01CV% N .04r CV% N .00Napaka .09
Dihotomne (binarne) spremenljivke:
Linearni model ne velja več!
Včasih smiselno predpostaviti, da vrednosti temeljijo na zvezni latentni spremenljivki:analiza tetrahoričnih koeficientov.
NOHARM ipd. modeli latentnih potez: povezava s teorijo odgovora na postavko (item-response theory)
Za stabilne rezultate verjetno potreben velik vzorec!
Kvalitativne (nominalne) spremenljivke z več kot 2 vrednostima:
Analiza homogenosti (alternativa PCA)
1. pretvorba v indikatorske spremenljivke2. kvantifikacijska matrika: obtežitev indikatorskih spremenljivk, tako da maksimiziramo korelacijo s “komponento”
Trismerni podatkinpr. osebe spremenljivke časovne točke
Trismerna komponentna analiza:
P
p
Q
q
R
rpqrkrjqipijk gcbax
1 1 1¸
P
ppipij Kax
1Namesto imamo:
A, B, C: komponente oseb, spremenljivk in časovnih točkG: 3-D jedrna matrika: skrčena matrika podatkov
realnost obstoja faktorjev latentne spremenljivke tudi v “eksaktnih” vedah
nedoločljivost faktorjev faktorji so razlagalne spremenljivke
arbitrarnost rotacij faktorji so referenčni okvir, ne nujno realno obstoječe entitete
domnevna neuspešnost pri odkrivanju znane strukture napačna uporaba metode privede do napačnih rezultatov
Kritike faktorske analize
ustreznost podatkov (merski nivo, linearnost
odnosov); dovolj veliko število spremenljivk; smiselna izbira spremenljivk; velikost vzorca (odvisna od komunalitete); izbira PCA / EFA / CFA kaj drugega; odločitev o številu faktorjev; izbira rotacije; previdnost pri interpretaciji: faktorji lahko ustrezajo
specifičnim strukturam, vendar to ni nujno!
Kako se izogniti zmotnim rezultatom?
KONFIRMATORNAFAKTORSKA ANALIZA:
V praksi določimo, katere uteži so enake 0 in katere so “proste”.
Izhajamo iz vnaprejšnjih hipotez o faktorski strukturi:
• število faktorjev in
• faktorske uteži.
= +
= kovariančna matrika = matrika faktorskih uteži = simet. matrika korelacij med faktorji = diag. matrika unikvitet
EFA: vsi elementi in diag. elementi so prosti(pri poševni rotaciji tudi izvendiag. elementi KFA: nekatere elemente fiksiramo
Izhodišče: osnovni model faktorske analize:
Ocenjevanje parametrov:
reševanje sistema strukturnih enačb, dobljenih s primerjavo empirične in
inplicirane kovariančne matrike.
Metode:največje verjetje (ML)
najmanjši kvadrati (ULS),obteženi najmanjši kvadrati (WLS)
...
Npr. 1 latentna spremenljivka, 2 opazovani spremenljivki:
222221
211121
22
1121
2
1
2212
1221
0
01
Implicirana (ocenjena) kovariančna matrika:
Strukturne enačbe:1
2 = 12 + 11
12 = 12
22 = 2
2 + 22
Identifikacija:
Parametre modela je možno enoznačno določiti le, če število prostih parametrov ni preveliko.
t - pravilo:
št. prostih parametrov < p(p+1)/2
(p = št. spremenljivk)
Ocenjevanje ustreznosti modela:
2 test, glede na pojasnjeno varianco: GFI, AGFI… glede na razliko med ocenjevanim in
ničelnim modelom: NFI, NNFI… glede na razlike med dejanskimi in
reproduciranimi kovariancami: RMSEA, RMR...
imp10.37
pustol0.24
funk0.69
disfun0.31
imp20.47
thrill0.21
exper0.72
disinh0.59
boredom0.67
impulz 1.00
ss 1.00
pustol 1.00
Chi-Square=43.80, df=24, P-value=0.00805, RMSEA=0.060
0.79
0.87
0.56
0.83
0.73
0.89
0.53
0.64
0.57
0.59
0.19
0.65
Diagram poti (path diagram)
EFA KFATest F1 F2 F3 F1 F2 F3Imp1 0,48 0,72 0,11 0 0,79 0Pustol. 0,49 0,14 0,83 0 0 0,87Funkc. 0,28 0,16 0,58 0 0 0,56Disfunk. 0,36 0,96 0,22 0 0,83 0Imp2 0,53 0,69 0,00 0 0,73 0Thrill 0,47 0,06 0,90 0 0 0,89Exper. 0,51 0,22 0,34 0,53 0 0Disinh. 0,68 0,28 0,35 0,64 0 0Boredom 0,52 0,34 0,30 0,57 0 0
Primerjava rešitev:
EFA: iskanje strukture v novih, neraziskanih problemihKFA: preverjanje strukturnih hipotez v situacijah z dobro teoretično osnovo
Literatura:
• Bollen, K.A. (1989). Structural equations with latent variables. New York: Wiley. /KFA• Gorsuch, R.L. (1983). Factor analysis. Hillsdale: Lawrence Erlbaum. /EFA• Kaplan, D. (2000). Structural equation modeling: Foundations and extensions. Thousand Oaks: Sage. /KFA• Nunnally, J.C. in Bernstein, I.H. (1994). Psychometric theory. New York: McGraw-Hill. /PCA, EFA, KFA• Stevens, J. (1996, 2001). Applied multivariate statistics for the social sciences. Mahwah, NJ: Laurence Erlbaum. /PCA, KFA