primjena faktorske analize
TRANSCRIPT
PRIMJENA FAKTORSKE ANALIZE
Primjer: Upotreba socioekonomskih
pokazatelja u određivanju razvijenosti
lokalnih zajednica
I. UVOD
Zavod za programiranje razvoja vrši istraživačke, stručno analitičke i
druge poslove koji se odnose na: programiranje razvoja, analizu faktora i
mogućnosti gospodarskog razvoja i njihovu prezentaciju na domaćem i
stranom tržištu; izradu makro-ekonomskih računa, proporcija i globalnih
agregata rasta; regionalni i lokalni razvoj i sustav njegovog poticanja.
U tom smislu Zavod prati socioekonomske pokazatelje po općinama kako
bi se definirala razvijenost lokalne zajednice. Socioekonomski pokazatelji
koji se za ove potrebe koriste su:
1. Broj zaposlenih,
2. Broj nezaposlenih,
3. Prosječna neto plaća,
4. GDP po stanovniku,
5. Broj učenika u osnovnim školama,
6. Broj učenika u srednjim školama,
7. Broj nastavnika,
8. Broj liječnika,
9. Broj poduzeća.
Koristeći ovu informaciju, u radu će se pokušati testirati pretpostavka da
ovih devet varijabli može biti objašnjeno jednom varijablom (faktorom)
koju bismo nazvali „razvijenost lokalne zajednice“ i koja bi obuhvatila
gore pobrojane varijable. Nadalje, postoji prikladna analiza čiji je osnovni
cilj sažimanje informacija velikog broja izvornih varijabli u manji broj
zajedničkih faktora uz minimalan gubitak informacija – FAKTORSKA
ANALIZA. Pod faktorskom analizom razumijevamo istraživačku metodu
koju primjenjujemo na skup opaženih (emirijskih) varijabli kojom tražimo
skrivene ili latentne faktore, koji predstavljaju podskup opaženih varijabli.
Faktorska analiza izvodi se iz korelacijske matrice opaženih varijabli.
Faktor je vagana sredina opaženih varijabli. Cilj faktorske analize je
redukcija broja varijabli na svega nekoliko (par) faktora iz kojih se može
generirati originalna korelacijska matrica.
Iz osnovnog cilja faktorske analize proizlaze različiti zadatci faktorske
analize, kao što su određivanje faktora i faktorskih bodova sa svrhom
njihova korištenja u daljnjim analizama, identificiranje dimenzija koje se
ne mogu odmah uočiti, istraživanje novog područja – eksploratorna
faktorska analiza, testiranje definiranih hipoteza – konfirmativna
faktorska analiza, te zahtjev parsimonije ili štednje, odnosno
objašnjavanje većeg broja varijabli na osnovi manjeg broja faktora što
dovodi do smanjenja troškova istraživanja.
Iz svega navedenog učinilo mi se zanimljivim ispitati pretpostavku,
postoji li faktor povezan sa specifičnim podskupom navedenih
indikatorskih varijabli, odnosno mogu li se navedene varijable zamijeniti
jednom varijablom, koju bismo nazvali „razvijenost općine“.
Kako bismo ispitali ovu pretpostavku, koristit se se faktorska analiza i to
konfirmativna faktorska analiza, budući da imamo ideju kako varijable
grupirati.
II. RAZRADA
Za ukupno 78 lokalnih zajednica (općina) preuzeti su podacio o
socioekonomskim pokazateljima. Ovi podaci preuzeti su u obliku tablice u
Excelovoj datoteci Socioekonomski pokazatelji po općinama.xls koja se
nalazi u prilogu ovog rada. Ovi podaci unešeni su u datoteku
Socioekonomski pokazatelji.sav u programskom paketu SPSS 17.0 koji je
korišten za obradu podataka, a prikaz varijabli dan je na Slici 1.
Slika 1. Prikaz varijabli socioekonomskih pokazatelja unsenih u SPSS
Za pokretanje faktorske analize, sljedeći su koraci:
Analyze → Data Reduction → Factor.
Otvara se dijaloški okvir Factor analyses.
Nakon toga prebacimo sve varijable s lijeve strane na desnu, i na dostupnim komandama biramo mogućnosti kao što je prikazano na Slici 2.
Slika 2. Koraci u provođenju naredbi u faktorskoj analizi
Sada konačno dobivamo rezultate faktorske analize: u Tablici 1. prikazani
su rezultati deskriptivne statistike, u Tablici 2. dana je matrica korelacija
između varijabli.
Tablica 1. Descriptive Statistics
Mean Std. Deviation Analysis N
broj_zaposlenih 5459,85 7452,675 78
broj_nezaposlenih 4286,34 4091,887 78
prosječna_neto_plaća 624,0312 166,89820 78
GDP_po_stanovniku 4517,03 3348,920 78
broj_učenika_osnovne_škole 3055,14 2698,540 78
broj_učenika_srednje_škole 1269,73 1598,821 78
broj_nastavnika 104,51 138,731 78
broj_liječnika 38,12 82,952 78
broj_poduzeća 1509,85 1631,993 78
Faktorska analiza glavnih komponenti provodi se na nereduciranoj
korelacijskoj matrici, odnosno na glavnoj dijagonali se nalaze jedinice
(Tablica 2.), čime se uključuje ukupna varijanca. Prema tome, u faktorskoj
analizi glavnih komponenti model ne diferencira zajedničku i specifičnu
varijancu, te se faktori zasnivaju na ukupnoj varijanci, a izlučeni faktori
sadrže i specifičnu varijancu.
Tablica 2: Correlation Matrixa
broj_zaposlenih broj_nezaposlenih
prosječna_
neto_plaća
GDP_po_sta
novniku
broj_učenika_os
novne_škole
broj_učenika
_srednje_šk
ole
broj_nas
tavnika broj_liječnika broj_poduzeća
Correlation broj_zaposlenih 1,000 ,784 ,703 ,803 ,810 ,908 ,933 ,745 ,938
broj_nezaposlenih ,784 1,000 ,523 ,663 ,963 ,789 ,759 ,750 ,843
prosječna_neto_plaća ,703 ,523 1,000 ,566 ,540 ,622 ,652 ,479 ,663
GDP_po_stanovniku ,803 ,663 ,566 1,000 ,720 ,618 ,661 ,500 ,775
broj_učenika_osnovne_š
kole
,810 ,963 ,540 ,720 1,000 ,810 ,789 ,742 ,856
broj_učenika_srednje_šk
ole
,908 ,789 ,622 ,618 ,810 1,000 ,975 ,885 ,886
broj_nastavnika ,933 ,759 ,652 ,661 ,789 ,975 1,000 ,857 ,901
broj_liječnika ,745 ,750 ,479 ,500 ,742 ,885 ,857 1,000 ,760
broj_poduzeća ,938 ,843 ,663 ,775 ,856 ,886 ,901 ,760 1,000
a. Determinant = 2,13E-007
Za ispitivanje prikladnosti podataka za primjenu faktorske analize primjenjuje
se Kaiser-Meyer-Olkinova mjera, za sve varijable zajedno, ali i za svaku
varijablu pojedinačno. Budući da vrijednost Kaiser-Meyer-Olkinove mjere, kao
što je prikazano u Tablici 3, iznosi 0,883, može se reći da su podaci odabranih
varijabli prikladni za provođenje faktorske analize. Kaiser-Meyer-Olkin
statistika mjeri adekvatnost uzorka, odnosno da li se podaci dobro uklapaju u
faktor. Mala vrijednost KMO mjere znači da faktorska analiza nije baš dobra
jer korelacije između parova varijabli ne može biti objašnjena drugim
varijablama. Ta statistika trebala bi biti veća od 0,5 da bi faktorska analiza
bila odgovarajuća. Ova statistika zasnovana je na korelaciji i parcijalnoj
korelaciji. Bartlettov test sferičnost je statistički značajan. To znači da
korelacijska matrica nije jedinična.
Tablica 3: KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,883
Bartlett's Test of Sphericity Approx. Chi-Square 1123,929
df 36
Sig. ,000
U Tablici 4. prikazani su pripadajući komunaliteti za svaku pojedinu varijablu.
što pokazuje koliki dio varijance u varijablama je ušlo u izvučeni faktor.1 Budući
da se faktorska analiza glavnih komponenti provodi na nereduciranoj
korelacijskoj matrici gdje se na glavnoj dijagonali nalaze jedinice i inicijalni
komunaliteti su jednaki jedinicama te je njihov zbroj jednak broju izvornih
varijabli.
Ako su niske vrijednosti komunaliteta, to ukazuje na varijable koje bi se mogle
izostaviti iz analize. Iz Tablice 4. je vidljivo da su za sve varijable vrijednosti
komunaliteta visoke. To je 91.8% varijance u broju zaposlenih pa sve do 50,3%
u prosječnoj neto plaći.
1 Komunalitet varijable je zbroj kvadrata faktorskih opterećenja, a tumači se kao doprinos varijanci varijable od zajedničkih faktora, odnosno kao proporcija varijance varijable objašnjene izlučenim faktorima.
Tablica 4:Communalities
Initial Extraction
broj_zaposlenih 1,000 ,918
broj_nezaposlenih 1,000 ,794
prosječna_neto_plaća 1,000 ,503
GDP_po_stanovniku 1,000 ,619
broj_učenika_osnovne_škole 1,000 ,828
broj_učenika_srednje_škole 1,000 ,894
broj_nastavnika 1,000 ,901
broj_liječnika 1,000 ,719
broj_poduzeća 1,000 ,920
Extraction Method: Principal Component Analysis.
Jedna od najvažnijih tablica odnosi se na izlučene faktore i objašnjenje
varijance za pojedine faktore u odnosu na ukupnu varijancu, Tablica 5. Pri
izlučivanju faktora polazi se od svojstvenih vrijednosti (eigenvalues). Za
faktorsku analizu glavnih komponenti karakteristično je da se faktori izlučuju
na osnovu Kaiserova kriterija, odnosno izlučuju se oni faktori čija je svojstvena
vrijednost (eigenvalue) veća od jedan. Svojstvena vrijednost prvog faktora
iznosi 7,076, drugog faktora 0,676, trećeg faktora 0,561, a četvrtog faktora
0,342. Prema Kaiserovom kriteriju, izlučen je jedan faktor jer je svojstvena
vrijednost drugog i svakog narodnog faktora manja od jedan.
Pri određivanju broja faktora može se primijeniti i kriterij postotka objašnjene
varijance prema kojem se faktori izlučuju sve dok se više ne mogu odrediti
faktori koji značajno smanjuju neobjašnjenu varijancu. U Tablici 5. su, između
ostalog, prikazane svojstvene vrijednosti i postotak objašnjene varijance.
Vidljivo je da postotak varijance objašnjene prvim faktorom iznosi 78,84%.
Zbroj eigenvalues iznosi 9, upravo koliko ima i varijabli dok ukupan postotak
objašnjene varijance iznosi 100%. U prirodnim znanostima izlučivanje faktora
ne bi trebalo prestati sve dok izlučeni faktori ne objašnjavaju najmanje 95%
ukupne varijance. Međutim, u društvenim znanostima istraživači se nerijetko
odlučuju za rješenje kojim se objašnjava 60% od ukupne varijance. S obzirom
na visok postotak objašnjene varijance, jedan izlučen faktor zadovoljava i
Kaiserov kriterij i kriterij postotka objašnjene varijance.
Tablica 5: Total Variance Explained
Compo
nent
Initial Eigenvalues Extraction Sums of Squared Loadings
Total % of Variance Cumulative % Total % of Variance Cumulative %
1 7,096 78,841 78,841 7,096 78,841 78,841
2 ,676 7,513 86,354
3 ,561 6,234 92,588
4 ,342 3,796 96,384
5 ,166 1,840 98,224
6 ,077 ,852 99,076
7 ,040 ,441 99,517
8 ,025 ,280 99,798
9 ,018 ,202 100,000
Extraction Method: Principal Component Analysis.
Uobičajen je grafički prikaz faktora u odnosu na eigenvalues. Karakteristični
korijen ili eigenvalue za pojedini faktor mjeri varijancu u svim varijablama koje
su prisutne u tome faktoru. Omjer karakterističnih korijena predstavlja omjer
objašnjavajuće važnosti faktora u odnosu na varijable.
Broj faktora može se odrediti i grafički primjenom Cattellijeva dijagrama (scree
plot) gdje oblik dijagrama određuje broj faktora, odnosno vidljiv je prekid
između faktora s visokim svojstvenim vrijednostima i faktora s niskim
svojstvenim vrijednostima. Na Slici 3. je prikazan Cattellijev dijagram gdje
grafički prikaz potvrđuje izbor jednog izlučenog faktora. Grafikon se koristi kao
korisno sredstvo da bi se vidjelo koliko faktora zadržati u analizi.
Najzanimljivija je točka od koje krivulja teži k izravnanju.
Slika 3: Cattellijev dijagram (scree plot)
Tablica 6: Component Matrixa
Component
1
broj_zaposlenih ,958
broj_nezaposlenih ,891
prosječna_neto_plaća ,709
GDP_po_stanovniku ,787
broj_učenika_osnovne_škole ,910
broj_učenika_srednje_škole ,945
broj_nastavnika ,949
broj_liječnika ,848
broj_poduzeća ,959
Extraction Method: Principal Component
Analysis.
a. 1 components extracted.
Iz Tablice 6. vide se loadings devet varijabli na jedan izlučen faktor. Faktor
loadings predstavlja koeficijent korelacije izumeđu varijabli (redaka) i faktora
(stupca). Kvadrat od faktor loadings predstavlja postotak varijance u toj varijabli
objašnjen faktorom. Što je veći loading to više taj faktor doprinosi varijabli.
Prekidi u tablici predstavljali bi loadings koji su manji od 0.5 kako smo i zatražili
na početku faktorske analize, što kod nas nije slučaj. To nam olakšava čitanje
tablice.
Tablica 7. predstavlja korelacijsku matricu dobivenu iz rješenja faktorske
analize (konačnoga odabira faktora).
Tablica 7: Reproduced Correlations
broj_zaposlenih
broj_nezaposl
enih
prosječna_neto_
plaća
GDP_po_stan
ovniku
broj_učenika_osno
vne_škole
broj_učenika
_srednje_šk
ole
broj_nastav
nika
broj_liječni
ka broj_poduzeća
Reproduced
Correlation
broj_zaposlenih ,918a ,854 ,680 ,754 ,872 ,906 ,909 ,812 ,919
broj_nezaposlenih ,854 ,794a ,632 ,701 ,811 ,842 ,845 ,755 ,854
prosječna_neto_plaća ,680 ,632 ,503a ,558 ,646 ,671 ,673 ,602 ,680
GDP_po_stanovniku ,754 ,701 ,558 ,619a ,716 ,744 ,747 ,667 ,755
broj_učenika_osnovne_škole ,872 ,811 ,646 ,716 ,828a ,860 ,864 ,772 ,873
broj_učenika_srednje_škole ,906 ,842 ,671 ,744 ,860 ,894a ,897 ,802 ,907
broj_nastavnika ,909 ,845 ,673 ,747 ,864 ,897 ,901a ,805 ,910
broj_liječnika ,812 ,755 ,602 ,667 ,772 ,802 ,805 ,719a ,813
broj_poduzeća ,919 ,854 ,680 ,755 ,873 ,907 ,910 ,813 ,920a
Residualb broj_zaposlenih -,070 ,023 ,049 -,062 ,002 ,024 -,068 ,019
broj_nezaposlenih -,070 -,109 -,038 ,152 -,053 -,087 -,006 -,012
prosječna_neto_plaća ,023 -,109 ,008 -,106 -,049 -,021 -,123 -,017
GDP_po_stanovniku ,049 -,038 ,008 ,004 -,126 -,085 -,168 ,021
broj_učenika_osnovne_škole -,062 ,152 -,106 ,004 -,051 -,074 -,029 -,017
broj_učenika_srednje_škole ,002 -,053 -,049 -,126 -,051 ,078 ,084 -,021
broj_nastavnika ,024 -,087 -,021 -,085 -,074 ,078 ,052 -,009
broj_liječnika -,068 -,006 -,123 -,168 -,029 ,084 ,052 -,054
broj_poduzeća ,019 -,012 -,017 ,021 -,017 -,021 -,009 -,054
Extraction Method: Principal Component Analysis.
a. Reproduced communalities
b. Residuals are computed between observed and reproduced correlations. There are 18 (50,0%) nonredundant residuals with absolute values greater than 0.05.
U slučaju da se faktorskom analizom izluči više faktora, rotacija
pojednostavljuje interpretaciju rezultata analize. Rotacija se radi metodom
Varimax s Kaiser normalizacijom.
S obzirom da je za konkretan slučaj izlučen samo jedan faktor (component)
rješenje se u ovom slučaju ne može rotirati, kao što prikazuje Tablica 8.
Tablica 8: Rotated
Component Matrixa
a. Only one component
was extracted. The
solution cannot be
rotated.
Izračunavanje faktorskih skorova
Faktorski skorovi mogu se upotrijebiti umjesto originalnih varijabli za razne
svrhe, npr. testiranje hipoteza, za cluster analizu i slično.
Faktorski skorovi izračunavaju se prema niže navedenoj formuli, a naredbe u SPSS-u su prikazane na Slici 3.
Odgovarajući ponderi dobivaju se iz matrice Component score coefficients matrix gdje su sve varijable standardizirane.
Slika 3. Naredbe za faktorske skorove
Tablica 9:Component Score Coefficient
Matrix
Component
1
broj_zaposlenih ,135
broj_nezaposlenih ,126
prosječna_neto_plaća ,100
GDP_po_stanovniku ,111
broj_učenika_osnovne_škole ,128
broj_učenika_srednje_škole ,133
broj_nastavnika ,134
broj_liječnika ,119
broj_poduzeća ,135
Extraction Method: Principal Component
Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
Component Scores.
Za faktor se dobiju posebni skorovi prikazani u Tablici 9.
Standardizirane vrijednosti svih varijabli dobiju se u deskriptivnoj statistici
gdje se traži da se snime u odgovarajuće stupce standardizirane vrijednosti
svih varijabli (Slika 4).
Slika 4: Standardizirane vrijednosti varijabli
Prema iznijetoj proceduru za prvu lokalnu zajednicu faktor skor jednak je:
Na kraju, potrebno je ispitati unutarnju konzistenciju odnosno pouzdanost
faktora. Ona se ispituje pomoću Cronbach-alpha koeficijenta. Ovime se
provjerava, da li je skupina odabranih varijabli konzistentna među sobom te da
li jednu varijablu možda treba izaciti. Koeficijent predstavlja veličinu koja mjeri
konzistentnost, odnosno korelaciju između seta varijabli unutar određene
dimenzije. Poželjna je vrijednost ovog koeficijenta 0,7 i više. Ispitivanje se
provodi kroz sljedeće korake prikazane na Slici 5:
Nakon ovih naredbi, dobiju se sljedeći izlazi (Tablica 10, 11. i 12.) , iz kojih je
vidljivo da Cronbach-alpha za konkretan slučaj iznosi 0,841, što je vrlo dobar
indikator pouzdanosti mjerenja, date su statistike za svaku varijablu te koliki bi
iznosi koeficijent Cronbach-alpha ukoliko bi se izbrisala varijabla (item).
Tablica 10: Reliability
Statistics
Cronbach's
Alpha N of Items
,841 9
Tablica 11: Item Statistics
Mean Std. Deviation N
broj_zaposlenih 5459,8462 7452,67486 78
broj_nezaposlenih 4286,3356 4091,88668 78
prosječna_neto_plaća 624,0312 166,89820 78
GDP_po_stanovniku 4517,0256 3348,92002 78
broj_učenika_osnovne_škole 3055,1410 2698,54010 78
broj_učenika_srednje_škole 1269,7308 1598,82117 78
broj_nastavnika 104,5128 138,73087 78
broj_liječnika 38,1154 82,95249 78
broj_poduzeća 1509,8462 1631,99258 78
Tablica 12: Item-Total Statistics
Scale Mean if
Item Deleted
Scale Variance if
Item Deleted
Corrected Item-
Total Correlation
Cronbach's
Alpha if Item
Deleted
broj_zaposlenih 15404,7386 1,559E8 ,911 ,846
broj_nezaposlenih 16578,2491 2,532E8 ,852 ,785
prosječna_neto_plaća 20240,5536 3,766E8 ,667 ,851
GDP_po_stanovniku 16347,5591 2,818E8 ,782 ,799
broj_učenika_osnovne_škole 17809,4437 2,908E8 ,900 ,794
broj_učenika_srednje_škole 19594,8539 3,272E8 ,885 ,816
broj_nastavnika 20760,0719 3,760E8 ,908 ,851
broj_liječnika 20826,4693 3,784E8 ,779 ,853
broj_poduzeća 19354,7386 3,226E8 ,950 ,812
III. ZAKLJUČAK
U ovome radu se pošlo od ideje da se ispita da li devet manifestnih
socioekonomskih pokazatelja o stanju u lokalnim zajednicama koji se koriste za
definiranje razvijenosti lokalnih zajednica generiraju jednu latentnu varijablu
(faktor) koja sadržava svih devet navedenih varijabli. Devet manifestnih
varijabli su: broj zaposlenih, broj nezaposlenih, prosječna neto plaća, GDP po
stanovniku, broj učenika u osnovnim školama, broj učenika u srednjim školama,
broj nastavnika, broj liječnika, broj poduzeća, a nova latentna varijabla jest:
razvijenost lokalne zajednice.
Kako bi se ovo testiralo, korištena je faktorska analiza gdje su u programskom
paketu za statističku obradu podataka SPSS za 78 lokalnih zajedica unešeni
podaci za devet ulaznih varijabli. Nakona provedene faktorske analize, došlo se
do sljedećih nalaza:
- prikladnosti podataka za primjenu faktorske analize Kaiser-Meyer-
Olkinova mjera, iznosi 0,883, može se reći da su podaci odabranih
varijabli prikladni za provođenje faktorske analize;
- prema Kaiserovom kriteriju, izlučen je jedan faktor jer je svojstvena
vrijednost drugog i svakog narodnog faktora manja od jedan; pokazalo se
da je izlučen jedan faktor – latentna varijabla čija je eigenvalue
(svojstvena vrijednost) veća od 1; ovaj faktor objašnjava 78,84% ukupne
varijance , čime ispunjava i kriterij postotka objašnjene varijance,
- jedan izlučen faktor određen je i grafički primjenom Cattellijeva
dijagrama (scree plot) gdje oblik dijagrama određuje broj faktora,
odnosno vidljiv je prekid između faktora s visokim svojstvenim
vrijednostima i faktora s niskim svojstvenim vrijednostima (krivulja teži
izravnanju poslije 1. faktora),
- unutarnju konzistenciju odnosno provjeru, je li skupina odabranih
varijabli konzistentna među sobom, ispitana je pomoću Cronbach-alpha
koeficijenta; za konkretan slučaj iznosi 0,841, što je vrlo dobar indikator
pouzdanosti mjerenja.