primjer faktorske analize

29
PRIMJENA FAKTORSKE ANALIZE I. UVOD U Federaciji Bosne i Hercegovine uspostavljen je Federalni zavod za programiranje razvoja kao državna institucija najodgovornija za cjelokupan proces strateškog planiranja u Federaciji BiH. Federalni zavod za programiranje razvoja vrši istraživačke, stručno analitičke i druge poslove iz nadležnosti Federacije koji se odnose na: programiranje razvoja, analizu faktora i mogućnosti gospodarskog razvoja i njihovu prezentaciju na domaćem i stranom tržištu; izradu makro- ekonomskih računa, proporcija i globalnih agregata rasta; regionalni i lokalni razvoj i sustav njegovog poticanja. U tom smislu Zavod prati socioekonomske pokazatelje po općinama u Federaciji BiH kako bi se definirala razvijenost lokalne zajednice. Socioekonomski pokazatelji koji se za ove potrebe koriste su: 1. Broj zaposlenih, 2. Broj nezaposlenih, 3. Prosječna neto plaća, 4. GDP po stanovniku, 5. Broj učenika u osnovnim školama, 6. Broj učenika u srednjim školama,

Upload: miravujeva

Post on 07-Nov-2015

72 views

Category:

Documents


9 download

DESCRIPTION

Primjer primjene faktorske analize

TRANSCRIPT

PRIMJENA FAKTORSKE ANALIZEI. UVODU Federaciji Bosne i Hercegovine uspostavljen je Federalni zavod za programiranje razvoja kao dravna institucija najodgovornija za cjelokupan proces stratekog planiranja u Federaciji BiH. Federalni zavod za programiranje razvoja vri istraivake, struno analitike i druge poslove iz nadlenosti Federacije koji se odnose na: programiranje razvoja, analizu faktora i mogunosti gospodarskog razvoja i njihovu prezentaciju na domaem i stranom tritu; izradu makro-ekonomskih rauna, proporcija i globalnih agregata rasta; regionalni i lokalni razvoj i sustav njegovog poticanja.U tom smislu Zavod prati socioekonomske pokazatelje po opinama u Federaciji BiH kako bi se definirala razvijenost lokalne zajednice. Socioekonomski pokazatelji koji se za ove potrebe koriste su:1. Broj zaposlenih,

2. Broj nezaposlenih,

3. Prosjena neto plaa,

4. GDP po stanovniku,

5. Broj uenika u osnovnim kolama,

6. Broj uenika u srednjim kolama,

7. Broj nastavnika,

8. Broj lijenika,

9. Broj poduzea.Koristei ovu informaciju, u radu e se pokuati testirati pretpostavka da ovih devet varijabli moe biti objanjeno jednom varijablom (faktorom) koju bismo nazvali razvijenost lokalne zajednice i koja bi obuhvatila gore pobrojane varijable. Nadalje, postoji prikladna analiza iji je osnovni cilj saimanje informacija velikog broja izvornih varijabli u manji broj zajednikih faktora uz minimalan gubitak informacija FAKTORSKA ANALIZA. Pod faktorskom analizom razumijevamo istraivaku metodu koju primjenjujemo na skup opaenih (emirijskih) varijabli kojom traimo skrivene ili latentne faktore, koji predstavljaju podskup opaenih varijabli. Faktorska analiza izvodi se iz korelacijske matrice opaenih varijabli. Faktor je vagana sredina opaenih varijabli. Cilj faktorske analize je redukcija broja varijabli na svega nekoliko (par) faktora iz kojih se moe generirati originalna korelacijska matrica. Iz osnovnog cilja faktorske analize proizlaze razliiti zadatci faktorske analize, kao to su odreivanje faktora i faktorskih bodova sa svrhom njihova koritenja u daljnjim analizama, identificiranje dimenzija koje se ne mogu odmah uoiti, istraivanje novog podruja eksploratorna faktorska analiza, testiranje definiranih hipoteza konfirmativna faktorska analiza, te zahtjev parsimonije ili tednje, odnosno objanjavanje veeg broja varijabli na osnovi manjeg broja faktora to dovodi do smanjenja trokova istraivanja.Iz svega navedenog uinilo mi se zanimljivim ispitati pretpostavku, postoji li faktor povezan sa specifinim podskupom navedenih indikatorskih varijabli, odnosno mogu li se navedene varijable zamijeniti jednom varijablom, koju bismo nazvali razvijenost opine.Kako bismo ispitali ovu pretpostavku, koristit se se faktorska analiza i to konfirmativna faktorska analiza, budui da imamo ideju kako varijable grupirati.II. RAZRADAZa ukupno 78 lokalnih zajednica (opina) preuzeti su podacio o socioekonomskim pokazateljima za 2008. godinu, dostupni u Federlanom zavodu za programiranje razvoja. Ovi podaci preuzeti su u obliku tablice u Excelovoj datoteci Socioekonomski pokazatelji po opinama.xls koja se nalazi u prilogu ovog rada. Ovi podaci uneeni su u datoteku Socioekonomski pokazatelji.sav u programskom paketu SPSS 17.0 koji je koriten za obradu podataka, a prikaz varijabli dan je na Slici 1.Slika 1. Prikaz varijabli socioekonomskih pokazatelja unsenih u SPSS

Za pokretanje faktorske analize, sljedei su koraci:Analyze Data Reduction Factor.Otvara se dijaloki okvir Factor analyses.Nakon toga prebacimo sve varijable s lijeve strane na desnu, i na dostupnim komandama biramo mogunosti kao to je prikazano na Slici 2.

Slika 2. Koraci u provoenju naredbi u faktorskoj analizi

Sada konano dobivamo rezultate faktorske analize: u Tablici 1. prikazani su rezultati deskriptivne statistike, u Tablici 2. dana je matrica korelacija izmeu varijabli.Tablica 1. Descriptive Statistics

MeanStd. DeviationAnalysis N

broj_zaposlenih5459,857452,67578

broj_nezaposlenih4286,344091,88778

prosjena_neto_plaa624,0312166,8982078

GDP_po_stanovniku4517,033348,92078

broj_uenika_osnovne_kole3055,142698,54078

broj_uenika_srednje_kole1269,731598,82178

broj_nastavnika104,51138,73178

broj_lijenika38,1282,95278

broj_poduzea1509,851631,99378

Faktorska analiza glavnih komponenti provodi se na nereduciranoj korelacijskoj matrici, odnosno na glavnoj dijagonali se nalaze jedinice (Tablica 2.), ime se ukljuuje ukupna varijanca. Prema tome, u faktorskoj analizi glavnih komponenti model ne diferencira zajedniku i specifinu varijancu, te se faktori zasnivaju na ukupnoj varijanci, a izlueni faktori sadre i specifinu varijancu.

Tablica 2: Correlation Matrixa

broj_zaposlenihbroj_nezaposlenihprosjena_neto_plaaGDP_po_stanovnikubroj_uenika_osnovne_kolebroj_uenika_srednje_kolebroj_nastavnikabroj_lijenikabroj_poduzea

Correlationbroj_zaposlenih1,000,784,703,803,810,908,933,745,938

broj_nezaposlenih,7841,000,523,663,963,789,759,750,843

prosjena_neto_plaa,703,5231,000,566,540,622,652,479,663

GDP_po_stanovniku,803,663,5661,000,720,618,661,500,775

broj_uenika_osnovne_kole,810,963,540,7201,000,810,789,742,856

broj_uenika_srednje_kole,908,789,622,618,8101,000,975,885,886

broj_nastavnika,933,759,652,661,789,9751,000,857,901

broj_lijenika,745,750,479,500,742,885,8571,000,760

broj_poduzea,938,843,663,775,856,886,901,7601,000

Za ispitivanje prikladnosti podataka za primjenu faktorske analize primjenjuje se Kaiser-Meyer-Olkinova mjera, za sve varijable zajedno, ali i za svaku varijablu pojedinano. Budui da vrijednost Kaiser-Meyer-Olkinove mjere, kao to je prikazano u Tablici 3, iznosi 0,883, moe se rei da su podaci odabranih varijabli prikladni za provoenje faktorske analize. Kaiser-Meyer-Olkin statistika mjeri adekvatnost uzorka, odnosno da li se podaci dobro uklapaju u faktor. Mala vrijednost KMO mjere znai da faktorska analiza nije ba dobra jer korelacije izmeu parova varijabli ne moe biti objanjena drugim varijablama. Ta statistika trebala bi biti vea od 0,5 da bi faktorska analiza bila odgovarajua. Ova statistika zasnovana je na korelaciji i parcijalnoj korelaciji. Bartlettov test sferinost je statistiki znaajan. To znai da korelacijska matrica nije jedinina. Tablica 3: KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy.,883

Bartlett's Test of SphericityApprox. Chi-Square1123,929

df36

Sig.,000

U Tablici 4. prikazani su pripadajui komunaliteti za svaku pojedinu varijablu. to pokazuje koliki dio varijance u varijablama je ulo u izvueni faktor. Budui da se faktorska analiza glavnih komponenti provodi na nereduciranoj korelacijskoj matrici gdje se na glavnoj dijagonali nalaze jedinice i inicijalni komunaliteti su jednaki jedinicama te je njihov zbroj jednak broju izvornih varijabli.Ako su niske vrijednosti komunaliteta, to ukazuje na varijable koje bi se mogle izostaviti iz analize. Iz Tablice 4. je vidljivo da su za sve varijable vrijednosti komunaliteta visoke. To je 91.8% varijance u broju zaposlenih pa sve do 50,3% u prosjenoj neto plai. Tablica 4:Communalities

InitialExtraction

broj_zaposlenih1,000,918

broj_nezaposlenih1,000,794

prosjena_neto_plaa1,000,503

GDP_po_stanovniku1,000,619

broj_uenika_osnovne_kole1,000,828

broj_uenika_srednje_kole1,000,894

broj_nastavnika1,000,901

broj_lijenika1,000,719

broj_poduzea1,000,920

Extraction Method: Principal Component Analysis.

Jedna od najvanijih tablica odnosi se na izluene faktore i objanjenje varijance za pojedine faktore u odnosu na ukupnu varijancu, Tablica 5. Pri izluivanju faktora polazi se od svojstvenih vrijednosti (eigenvalues). Za faktorsku analizu glavnih komponenti karakteristino je da se faktori izluuju na osnovu Kaiserova kriterija, odnosno izluuju se oni faktori ija je svojstvena vrijednost (eigenvalue) vea od jedan. Svojstvena vrijednost prvog faktora iznosi 7,076, drugog faktora 0,676, treeg faktora 0,561, a etvrtog faktora 0,342. Prema Kaiserovom kriteriju, izluen je jedan faktor jer je svojstvena vrijednost drugog i svakog narodnog faktora manja od jedan.Pri odreivanju broja faktora moe se primijeniti i kriterij postotka objanjene varijance prema kojem se faktori izluuju sve dok se vie ne mogu odrediti faktori koji znaajno smanjuju neobjanjenu varijancu. U Tablici 5. su, izmeu ostalog, prikazane svojstvene vrijednosti i postotak objanjene varijance. Vidljivo je da postotak varijance objanjene prvim faktorom iznosi 78,84%. Zbroj eigenvalues iznosi 9, upravo koliko ima i varijabli dok ukupan postotak objanjene varijance iznosi 100%. U prirodnim znanostima izluivanje faktora ne bi trebalo prestati sve dok izlueni faktori ne objanjavaju najmanje 95% ukupne varijance. Meutim, u drutvenim znanostima istraivai se nerijetko odluuju za rjeenje kojim se objanjava 60% od ukupne varijance. S obzirom na visok postotak objanjene varijance, jedan izluen faktor zadovoljava i Kaiserov kriterij i kriterij postotka objanjene varijance.

Tablica 5: Total Variance Explained

ComponentInitial EigenvaluesExtraction Sums of Squared Loadings

Total% of VarianceCumulative %Total% of VarianceCumulative %

17,09678,84178,8417,09678,84178,841

2,6767,51386,354

3,5616,23492,588

4,3423,79696,384

5,1661,84098,224

6,077,85299,076

7,040,44199,517

8,025,28099,798

9,018,202100,000

Extraction Method: Principal Component Analysis.

Uobiajen je grafiki prikaz faktora u odnosu na eigenvalues. Karakteristini korijen ili eigenvalue za pojedini faktor mjeri varijancu u svim varijablama koje su prisutne u tome faktoru. Omjer karakteristinih korijena predstavlja omjer objanjavajue vanosti faktora u odnosu na varijable.

Broj faktora moe se odrediti i grafiki primjenom Cattellijeva dijagrama (scree plot) gdje oblik dijagrama odreuje broj faktora, odnosno vidljiv je prekid izmeu faktora s visokim svojstvenim vrijednostima i faktora s niskim svojstvenim vrijednostima. Na Slici 3. je prikazan Cattellijev dijagram gdje grafiki prikaz potvruje izbor jednog izluenog faktora. Grafikon se koristi kao korisno sredstvo da bi se vidjelo koliko faktora zadrati u analizi. Najzanimljivija je toka od koje krivulja tei k izravnanju.Slika 3: Cattellijev dijagram (scree plot)

Tablica 6: Component Matrixa

Component

1

broj_zaposlenih,958

broj_nezaposlenih,891

prosjena_neto_plaa,709

GDP_po_stanovniku,787

broj_uenika_osnovne_kole,910

broj_uenika_srednje_kole,945

broj_nastavnika,949

broj_lijenika,848

broj_poduzea,959

Extraction Method: Principal Component Analysis.

a. 1 components extracted.

Iz Tablice 6. vide se loadings devet varijabli na jedan izluen faktor. Faktor loadings predstavlja koeficijent korelacije izumeu varijabli (redaka) i faktora (stupca). Kvadrat od faktor loadings predstavlja postotak varijance u toj varijabli objanjen faktorom. to je vei loading to vie taj faktor doprinosi varijabli. Prekidi u tablici predstavljali bi loadings koji su manji od 0.5 kako smo i zatraili na poetku faktorske analize, to kod nas nije sluaj. To nam olakava itanje tablice.Tablica 7. predstavlja korelacijsku matricu dobivenu iz rjeenja faktorske analize (konanoga odabira faktora).

Tablica 7: Reproduced Correlations

broj_zaposlenihbroj_nezaposlenihprosjena_neto_plaaGDP_po_stanovnikubroj_uenika_osnovne_kolebroj_uenika_srednje_kolebroj_nastavnikabroj_lijenikabroj_poduzea

Reproduced Correlationbroj_zaposlenih,918a,854,680,754,872,906,909,812,919

broj_nezaposlenih,854,794a,632,701,811,842,845,755,854

prosjena_neto_plaa,680,632,503a,558,646,671,673,602,680

GDP_po_stanovniku,754,701,558,619a,716,744,747,667,755

broj_uenika_osnovne_kole,872,811,646,716,828a,860,864,772,873

broj_uenika_srednje_kole,906,842,671,744,860,894a,897,802,907

broj_nastavnika,909,845,673,747,864,897,901a,805,910

broj_lijenika,812,755,602,667,772,802,805,719a,813

broj_poduzea,919,854,680,755,873,907,910,813,920a

Residualbbroj_zaposlenih-,070,023,049-,062,002,024-,068,019

broj_nezaposlenih-,070-,109-,038,152-,053-,087-,006-,012

prosjena_neto_plaa,023-,109,008-,106-,049-,021-,123-,017

GDP_po_stanovniku,049-,038,008,004-,126-,085-,168,021

broj_uenika_osnovne_kole-,062,152-,106,004-,051-,074-,029-,017

broj_uenika_srednje_kole,002-,053-,049-,126-,051,078,084-,021

broj_nastavnika,024-,087-,021-,085-,074,078,052-,009

broj_lijenika-,068-,006-,123-,168-,029,084,052-,054

broj_poduzea,019-,012-,017,021-,017-,021-,009-,054

Extraction Method: Principal Component Analysis.

a. Reproduced communalities

b. Residuals are computed between observed and reproduced correlations. There are 18 (50,0%) nonredundant residuals with absolute values greater than 0.05.

U sluaju da se faktorskom analizom izlui vie faktora, rotacija pojednostavljuje interpretaciju rezultata analize. Rotacija se radi metodom Varimax s Kaiser normalizacijom. S obzirom da je za konkretan sluaj izluen samo jedan faktor (component) rjeenje se u ovom sluaju ne moe rotirati, kao to prikazuje Tablica 8.Tablica 8: Rotated Component Matrixa

a. Only one component was extracted. The solution cannot be rotated.

Izraunavanje faktorskih skorovaFaktorski skorovi mogu se upotrijebiti umjesto originalnih varijabli za razne svrhe, npr. testiranje hipoteza, za cluster analizu i slino.

Faktorski skorovi izraunavaju se prema nie navedenoj formuli, a naredbe u SPSS-u su prikazane na Slici 3.

Odgovarajui ponderi dobivaju se iz matrice Component score coefficients matrix gdje su sve varijable standardizirane. Slika 3. Naredbe za faktorske skorove

Tablica 9:Component Score Coefficient Matrix

Component

1

broj_zaposlenih,135

broj_nezaposlenih,126

prosjena_neto_plaa,100

GDP_po_stanovniku,111

broj_uenika_osnovne_kole,128

broj_uenika_srednje_kole,133

broj_nastavnika,134

broj_lijenika,119

broj_poduzea,135

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

Component Scores.

Za faktor se dobiju posebni skorovi prikazani u Tablici 9. Standardizirane vrijednosti svih varijabli dobiju se u deskriptivnoj statistici gdje se trai da se snime u odgovarajue stupce standardizirane vrijednosti svih varijabli (Slika 4).Slika 4: Standardizirane vrijednosti varijabli

Prema iznijetoj proceduru za prvu lokalnu zajednicu faktor skor jednak je:

Na kraju, potrebno je ispitati unutarnju konzistenciju odnosno pouzdanost faktora. Ona se ispituje pomou Cronbach-alpha koeficijenta. Ovime se provjerava, da li je skupina odabranih varijabli konzistentna meu sobom te da li jednu varijablu moda treba izaciti. Koeficijent predstavlja veliinu koja mjeri konzistentnost, odnosno korelaciju izmeu seta varijabli unutar odreene dimenzije. Poeljna je vrijednost ovog koeficijenta 0,7 i vie. Ispitivanje se provodi kroz sljedee korake prikazane na Slici 5:AnalyzeScaleReliability AnalysisSlika 5: Analiza pouzdanosti

Nakon ovih naredbi, dobiju se sljedei izlazi (Tablica 10, 11. i 12.) , iz kojih je vidljivo da Cronbach-alpha za konkretan sluaj iznosi 0,841, to je vrlo dobar indikator pouzdanosti mjerenja, date su statistike za svaku varijablu te koliki bi iznosi koeficijent Cronbach-alpha ukoliko bi se izbrisala varijabla (item).Tablica 10: Reliability Statistics

Cronbach's AlphaN of Items

,8419

Tablica 11: Item Statistics

MeanStd. DeviationN

broj_zaposlenih5459,84627452,6748678

broj_nezaposlenih4286,33564091,8866878

prosjena_neto_plaa624,0312166,8982078

GDP_po_stanovniku4517,02563348,9200278

broj_uenika_osnovne_kole3055,14102698,5401078

broj_uenika_srednje_kole1269,73081598,8211778

broj_nastavnika104,5128138,7308778

broj_lijenika38,115482,9524978

broj_poduzea1509,84621631,9925878

Tablica 12: Item-Total Statistics

Scale Mean if Item DeletedScale Variance if Item DeletedCorrected Item-Total CorrelationCronbach's Alpha if Item Deleted

broj_zaposlenih15404,73861,559E8,911,846

broj_nezaposlenih16578,24912,532E8,852,785

prosjena_neto_plaa20240,55363,766E8,667,851

GDP_po_stanovniku16347,55912,818E8,782,799

broj_uenika_osnovne_kole17809,44372,908E8,900,794

broj_uenika_srednje_kole19594,85393,272E8,885,816

broj_nastavnika20760,07193,760E8,908,851

broj_lijenika20826,46933,784E8,779,853

broj_poduzea19354,73863,226E8,950,812

III. ZAKLJUAK

U ovome radu se polo od ideje da se ispita da li devet manifestnih socioekonomskih pokazatelja o stanju u lokalnim zajednicama koji se koriste za definiranje razvijenosti lokalnih zajednica generiraju jednu latentnu varijablu (faktor) koja sadrava svih devet navedenih varijabli. Devet manifestnih varijabli su: broj zaposlenih, broj nezaposlenih, prosjena neto plaa, GDP po stanovniku, broj uenika u osnovnim kolama, broj uenika u srednjim kolama, broj nastavnika, broj lijenika, broj poduzea, a nova latentna varijabla jest: razvijenost lokalne zajednice.

Kako bi se ovo testiralo, koritena je faktorska analiza gdje su u programskom paketu za statistiku obradu podataka SPSS za 78 lokalnih zajedica uneeni podaci za devet ulaznih varijabli. Nakona provedene faktorske analize, dolo se do sljedeih nalaza:

prikladnosti podataka za primjenu faktorske analize Kaiser-Meyer-Olkinova mjera, iznosi 0,883, moe se rei da su podaci odabranih varijabli prikladni za provoenje faktorske analize;

prema Kaiserovom kriteriju, izluen je jedan faktor jer je svojstvena vrijednost drugog i svakog narodnog faktora manja od jedan; pokazalo se da je izluen jedan faktor latentna varijabla ija je eigenvalue (svojstvena vrijednost) vea od 1; ovaj faktor objanjava 78,84% ukupne varijance , ime ispunjava i kriterij postotka objanjene varijance,

jedan izluen faktor odreen je i grafiki primjenom Cattellijeva dijagrama (scree plot) gdje oblik dijagrama odreuje broj faktora, odnosno vidljiv je prekid izmeu faktora s visokim svojstvenim vrijednostima i faktora s niskim svojstvenim vrijednostima (krivulja tei izravnanju poslije 1. faktora), unutarnju konzistenciju odnosno provjeru, je li skupina odabranih varijabli konzistentna meu sobom, ispitana je pomou Cronbach-alpha koeficijenta; za konkretan sluaj iznosi 0,841, to je vrlo dobar indikator pouzdanosti mjerenja.

Ovime je u radu pokazano da se skupina od devet varijabli socioekonomskih pokazatelja lokalnih zajednica, moe izraziti kroz jedan faktor razvijenost lokalne zajednice.

Komunalitet varijable je zbroj kvadrata faktorskih optereenja, a tumai se kao doprinos varijanci varijable od zajednikih faktora, odnosno kao proporcija varijance varijable objanjene izluenim faktorima.

_1275406666.unknown

_1391454311.unknown

_1275384733.unknown