christina gustafsson tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/spss versio 20...

19
Christina Gustafsson Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 20 for Windows Osa 3 Kevät 2013

Upload: others

Post on 06-Jun-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

Christina Gustafsson

Tilastollinen tietojenkäsittely STAT2100

IBM SPSS Statistics 20 for Windows Osa 3

Kevät 2013

Page 2: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

SISÄLLYSLUETTELO 9. REGRESSIOSTA .................................................................................................. 2 10. EPÄPARAMETRISIA TESTEJÄ ........................................................................ 7

10.1. Kahden riippumattoman otoksen vertailu ................................................ 7 10.2. Usean riippumattoman otoksen vertailu ................................................... 8 10.3. Muita epäparametrisia testejä ................................................................ 10

11. AINEISTON TIIVISTAMINEN ........................................................................ 11 11.1. Keskiarvomuuttuja ................................................................................ 11 11.2. Eksploratiivisestä faktorianalyysistä ...................................................... 13

Page 3: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

2 9. REGRESSIOSTA Regressioanalyysiä käytetään pääasiassa silloin, kun yhden muuttujan (selitettävä eli riippuva muuttuja eli vastemuuttuja) vaihtelua halutaan selittää yhden tai useamman muuttujan (selittävä(t) muuttuja(t), selittäjä(t)) vaihtelun avulla. Regressioanalyysityyppejä on useita. Analyze-valikon Regression-valinnan proseduurilla Linear (kuvio 68) voidaan muodostaa lineaarinen regressiomalli. Selitettävä määrällinen muuttuja valitaan kohtaan Dependent (esimerkissä Ansiotyönmäärä…) ja selittävät (yleensä määrällisiä) muuttujat kohtaan Independents (esimerkissä Ikä ja Osallistuminen…). Jos selittäjä on laadullinen, on se esitettävä dummy–muuttujien avulla. Dummy-muuttuja on apumuuttuja, jonka arvot ovat luvut 0 ja 1. Lineaarisessa regressiossa oletuksena on, että selitettävän ja selittäjien välinen riippuvuus on lineaarista. Jos selittäjiä on useita, ne eivät saisi korreloida keskenään (ainakaan voimakkaasti). Lisäksi selitettävän muuttujan jakauman pitäisi olla normaalijakauma jokaisella selittävän muuttujan arvolla siten, että varianssi on vakio. Näitä jälkimmäisiä oletuksia tutkitaan kuitenkin jäännösten eli residuaalien avulla vasta sen jälkeen, kun malli on muodostettu: jäännösten jakauman tulisi olla sellainen normaalijakauma, jonka keskiarvo on 0 ja lisäksi jäännösten varianssin tulisi olla vakio (jolloin jäännökset ovat homoskedastiset) Kohdassa Method voidaan valita, miten usean selittäjän mallissa selittäjät valitaan, mm. Enter kaikki Independents-listan muuttujat pakotetaan samaan malliin Forward etenevä regressio, jolloin muodostuu useita malleja: ensin yhden selittäjän malli, sitten kahden selittäjän malli jne. Stepwise askeltava regressio, jolloin muodostuu useita malleja: ensin yhden selittäjän malli, sen jälkeen malliin lisätään uusi muuttuja, mutta mallista voidaan myös poistaa siinä ollut muuttuja jne. Remove ensin muodostuu malli, jossa on mukana kaikki selittäjät, sitten muodostuu malli, jossa kaikki selittäjät on pudotettu pois Backward muodostuu useita malleja: ensin malli, jossa on mukana kaikki selittäjät, sen jälkeen pudotetaan selittäjiä yksi kerrallaan mallista pois. Selection Variable -kohdassa voidaan valita tutkittava osajoukko. Statistics-lisävalinnan avulla valitaan mallista tulostettavat tunnusluvut. Regressiokertoimien (Regression Coeffiecients) estimaatit saadaan valinnalla Estimates, luottamusvälit valinnalla Confidence Intervals ja kovarianssimatriisi valinnalla Covariance Matrix. Model Fit -valinnalla muodostuu mm. selitysaste ja ANOVA-taulukko. R squared change -valinnalla saadaan mallin selitysasteen muutos, kun malliin lisätään tai mallista poistetaan muuttujia. Descriptives-valinnalla saadaan kuvailevia tunnuslukuja ja korrelaatiomatriisi. Part and partial correlations -valinnalla saadaan mm. osittaiskorrelaatiot. Collinearity diagnostics -valinnalla saadaan usean selittäjän regressionallin multikollineaarisuustarkastelut. Jäännösten (Residuals) autokorreloituneisuutta voidaan selvittää Durbin-Watson –testillä ja yksittäisten tilastoyksiköiden residuaaleja voidaan tutkia valinnalla Casewise Diagnostics. Plots-lisävalinnalla voidaan muodostaa pisteparvikuvioita (Scatter) mm. seuraaville arvoille: DEPENDNT selitettävän muuttujan arvot *ZPRED standardoidut ennustearvot *ZRESID standardoidut jäännökset eli residuaalit *DRESID muunnetut residuaalit, jotka esittävät jäännöksiä silloin, kun ko. tilastoyksikköä ei ole otettu mukaan regressiokertoimien estimointiin

Page 4: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

3 *ADJPRED ennustearvot, jotka muodostuvat, kun ko. tilastoyksikköä ei ole otettu mukaan regressiokertoimien estimointiin *SRESID studentisoidut residuaalit Standardized Residual Plots -valinnoilla voidaan muodostaa residuaaleista frekvenssihistogrammi (Histogram) tai kuvio, jolla voidaan tutkia residuaalien normaalisuutta (Normal probability plot).

Kuvio 68. Linear Regression –määrittelyikkunoita Save-lisävalinnalla voidaan havaintoaineistoon lisätä muuttujiksi erilaisia versioita mallin ennustearvoista (Predicted), residuaaleista (Residuals) ja etäisyystunnusluvut (Distances). Influence

Page 5: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät mm. yksittäisten tilastoyksiköiden vaikutusta regressiokertoimiin. Prediction Intervals -valinnoilla voidaan muodostaa ennustearvojen keskiarvolle (Mean) tai yksittäisille havainnoille (Individuals) luottamusväli (Confidence Interval). Kuviossa 69 on lineaarisen regression perustuloksia. Selitettävä muuttuja (Dependent Variable) on Ansiotyön määrä viikossa tunteina ja selittävät muuttujat ovat Osallistuminen opetukseen ja Ikä. Model Summary -taulukosta nähdään mallin selitysaste (R Square), joka on 0.288, joten muodostuneella mallilla voidaan selittää Ansiotyön määrän vaihtelusta n. 29 %. ANOVA-taulukon F- testin hypoteesit ovat H0: populaatiossa mallin selitysaste on 0 eli mallin kaikki regressiokertoimet i ovat nollia H1: populaatiossa mallin selitysaste on suurempi kuin 0 eli mallissa ainakin yksi regressiokerroin on nollasta eroava F-testin arvo on 13.736 ja sen havaittu merkitsevyystaso (Sig.) on nyt 0.000, joten ainakin jompikumpi selittävistä muuttujista selittää Ansiotyön määrän vaihtelua. Coefficients-taulukossa näkyvät regressiokertoimet (Unstardardized Coefficients B), joten estimoitu malli on nyt ö ää ä = 0.102 + 0.953 Ikä – 0.468 Osallistuminen opetukseen. Malli tulkintaa: jos Ikä kasvaa yhdellä vuodella, kasvaa Ansiotyön määrä keskimäärin 0.953 tuntia/vko, kun Osallistuminen opetukseen –muuttujan arvo ei muutu. Jos Osallistuminen opetukseen kasvaa yhden tunnin/vko, pienenee Ansiotyön määrä keskimäärin 0.468 tuntia/vko, kun Ikä-muuttujan arvo ei muutu. Stanrdardoidut regressiokertoimet (Stardardized Coefficients Beta) ovat käyttökelpoisia selittäjien keskinäiseen vertailuun erityisesti silloin, kun selittäjillä on erilaiset mittayksiköt. Koska Ikä-muuttujalla on itseisarvoltaan suurempi stardardoitu regressiokerroin (0.458) kuin Osallistuminen opetukseen -muuttujalla (-0.229), on Ikä-muuttuja merkittävämpi selittäjä Ansiotyön määrälle. Coefficients-taulukossa näkyvät myös regressiokertoimien merkitsevyystestit (t) ja niiden havaitut merkitsevyystasot (Sig.). Ko. testeissä hypoteesit ovat H0: populaatiossa selittäjän xi regressiokerroin i = 0 H1: populaatiossa ko. muuttujan regressiokerroin i 0 Vakion (Constant) havaittu merkitsevyystaso on 0.988, joten vakio voidaan tulkita nollaksi. Ikä ja Osallistuminen opetukseen –muuttujien p-arvot ovat vastaavasti 0.000 ja 0.029, joten Ikä on tilastollisesti erittäin merkitsevä selittäjä ja Osallistuminen opetukseen tilastollisesti melkein merkitsevä selittäjä tässä lineaarisessa regressiomallissa. Kuviossa 70 on jäännösten histogrammikuvio sekä pisteparvikuvio standardoiduista ennusteista ja jäännöksistä. Ensimmäisen kuvion perusteella jäännösten jakauma vaikuttaa lähes normaalijakaumalta, jonka keskiarvo on nolla. Toisen kuvion perusteella jäännösten varianssi on lähes samanlainen eri ennustearvoilla, joten jäännökset ovat homoskedastiset. Näiden kuvioiden perusteella lineaarisen regression jäännöksiin liittyvät oletukset näyttävät siis toteutuvan.

Page 6: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

5

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 2022,118 2 1011,059 13,736 ,000a

Residual 5005,065 68 73,604 Total 7027,183 70

a. Predictors: (Constant), Osallistuminen opetukseen (tuntia viikossa), Ikä vuosina

b. Dependent Variable: Ansiotyön määrä viikossa tunteina

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig. B Std. Error Beta

1 (Constant) ,102 6,614 ,015 ,988

Ikä vuosina ,953 ,215 ,458 4,438 ,000

Osallistuminen opetukseen

(tuntia viikossa)

-,468 ,210 -,229 -2,225 ,029

a. Dependent Variable: Ansiotyön määrä viikossa tunteina Kuvio 69. Linear Regression -proseduurin perustulostusta

Kuvio 70. Linear Regression -proseduurin kuvioita

Model Summary

,536a ,288 ,267 8,58Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Osallistuminen opetukseen(tuntia viikossa), Ikä vuosina

a.

Page 7: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

6 Lineaarisen regression lisäksi regressioproseduurina on mm. Curve Estimation. Curve Estimation -proseduurilla voidaan yhden selittäjän lineaarisen regressionmallin lisäksi/sijasta muodostaa epälineaarisia yhden selittäjän regressiomalleja. Mallissa on aina yksi määrällinen selitettävä muuttuja ja yksi määrällinen selittävä muuttuja tai selittävänä muuttujana on aika (= havainnon järjestysnumero). Malliksi voidaan valita esim. toisen asteen polynomimalli (Quadratic), kolmannen asteen polynomimalli (Qubic) ja eksponentiaalinen malli (Exponential). Tämän proseduurin tulokset esitetään oletusarvoisesti sellaisena pisteparvikuviona, jonka päälle piirtyy valitun mallin estimoitu. Lisäksi saadaan tulostukseen taulukkoesitys mallin selitysasteesta ja mallin regressiokertoimista.

Page 8: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

7

10. EPÄPARAMETRISIA TESTEJÄ Luvussa 8 käsitellyt keskiarvotestit ovat tyypillisiä parametrisia testejä, joissa tehdään oletuksia muuttujien jakaumien muodosta (esim. että tarkasteltavan muuttujan jakauma on normaalijakauma) ja muuttujien mitta-asteikoista (esim. että tarkasteltava muuttuja on määrällinen). Epäparametriselle (eli parametrittomalle) testille on tyypillistä se, että edellä esitetyn tapaisia oletuksia kevennetään, joten epäparametristen testien käyttömahdollisuudet ovat laajemmat kuin parametristen testien Epäparametriset testit ovat kuitenkin testivoimakkuuksiltaan huonompia kuin parametriset testit, joten parametristä testiä kannattaa käyttää, jos sen oletukset ovat voimassa. Aiemmin käsitellyistä testeistä ristiintaulukosta muodostettu

2-riippumattomuustesti on epäparametrinen testi.

Analyze-valikon kohdassa Nonparametric Tests on kokoelma ns. epäparametrisiä testejä. Valinnan Legacy Dialogs avulla päästään tekemään näitä testejä niin, että testitulosten yhteydessä saadaan tarvittaessa myös esille tilastollisten tunnuslukujen arvoja. Jos käytetään suoraan valintoja One Sample, Indepedent Samples tai Related Samples, voi testejä tehdä puolittain ohjatusti/automaattisesti, mutta tällöin saadaan esille vain testien tulokset: hyväksytäänkö vai hylätäänkö testin nollahypoteesi.

10.1. Kahden riippumattoman otoksen vertailu 2 Independent-Samples -proseduurilla voidaan vertailla kahden ryhmän eroa sellaisen muuttujan suhteen, joka on vähintään järjestysasteikon mittausta. Määrittelyikkunassa (kuvio 71) ruutuun Test Variable List valitaan testattavat muuttujat (esimerkissä Ikä …) ja kohtaan Grouping Variable se muuttuja, jonka perusteella vertailtavat kaksi ryhmää muodostuvat (esimerkissä tdk). Define Groups -valinnalla määritetään ryhmittelevän muuttujan arvoista ne kaksi arvoa, joiden perusteella ryhmät muodostuvat.

Kuvio 71. 2 Independent-Samples -proseduurin päämäärittelyikkuna

Testiksi voidaan valita (Test Type): Mann-Whitney U, joka on ns. epäparametrinen versio kahden riippumattoman otoksen

keskiarvotestistä. Testillä tutkitaan, onko kahden otosta samasta populaatiosta erityisesti sijainnin suhteen. Testiä voi käyttää korvaamaan kahden riippumattoman otoksen keskiarvotesti silloin,

Page 9: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

8

kun keskiarvotestin normaalijakaumaoletus ei toteudu tai jos otoskoot ovat pieniä. Testin hypoteesit ovat

H0: populaatioissa ko. muuttujan jakaumasijainnit ovat samanlaiset H1: populaatioissa ko. muuttujan jakaumasijainnit ovat erilaiset Moses extreme reactions, jolla voidaan testata, onko koemuuttujan ja kontrollimuuttujan arvojen

vaihteluvälit samat. Kolmogorov-Smirnov Z, jolla voidaan tutkia, onko kaksi otosta (ryhmää) samasta populaatiosta. Testi

reagoi millaiseen eroon tahansa. Wald-Wolfowitz runs, jolla voidaan tutkia, onko kaksi otosta samasta populaatiosta Testi reagoi millaiseen eroon tahansa. Kuviossa 72 on em. proseduurin tulostusta silloin, kun testityypiksi on valittu Mann-Whitney U. Tulostuksesta Ranks-taulukosta nähdään mm. että humanistisen tiedekunnan opiskelijoiden otoskoko on 219 ja keskimääräinen ikäsijaluku on 162.36 sekä yhteiskuntatieteellisen tiedekunnan opiskelijoiden otoskoko on 103 ja keskimääräinen ikäsijaluku on 159.67. Test Statistics -taulukossa on esitetty Mann-Whitney U-testin arvo 11090 ja sen havaittu merkitsevyystaso 0.807. Eri tiedekuntien opiskelijoiden ikäjakaumien sijainneilla ei siis ole tilastollisesti merkitsevää eroa.

Ranks

Tiedekunta N Mean Rank Sum of Ranks

Ikä vuosina humanistinen 219 162,36 35557,00

yhteiskuntatieteellinen 103 159,67 16446,00

Total 322

Test Statisticsa

Ikä vuosina

Mann-Whitney U 11090,000

Wilcoxon W 16446,000

Z -,245

Asymp. Sig. (2-tailed) ,807

a. Grouping Variable: Tiedekunta

Kuvio 72. 2 Independent-Samples -proseduurin tulostusta 10.2. Usean riippumattoman otoksen vertailu K Independent –Samples -proseduurilla voidaan vertailla kolmen tai useamman ryhmän eroja sellaisen muuttujan suhteen, joka on vähintään järjestysasteikon mittausta. Määrittelyikkunassa (kuvio 73) ruutuun Test Variable List valitaan testattavat muuttujat (esimerkissä Opintojen …) ja kohtaan Grouping Variable se muuttuja, jonka perusteella vertailtavat kaksi ryhmää muodostuvat (esimerkissä paaaine). Define Range -valinnalla määritetään ryhmittelevän muuttujan arvoista ne arvot, joiden perusteella ryhmät muodostuvat.

Page 10: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

9

Kuvio 73. K Independent-Samples -proseduurin päämäärittelyikkuna

Testiksi voidaan valita (Test Type): Kruskal-Wallis H, joka on epäparametrinen versio yksisuuntaisesta varianssianalyysistä. Testillä

voidaan tutkia, ovatko otokset peräisin samasta populaatiosta erityisesti sijainnin suhteen. Testi on yleistys Mann-Whitneyn U-testistä. Testiä voi käyttää yksisuuntainen varianssianalyysi silloin, kun varianssianalyysin normaalijakaumaoletus ei toteudu tai jos otoskoot ovat pieniä. Testin hypoteesit ovat

H0: populaatioissa ko. muuttujan jakaumasijainnit ovat samanlaiset H1: populaatioissa ko. muuttujan jakaumasijainnit ovat erilaiset Median, joka on mediaanitesti, joka perustuu ristiintaulukkoon, jossa jokaisesta otoksesta esitetään mediaania suurempien havaintoarvojen frekvenssi sekä niiden havaintojen määrä, jotka ovat pienempiä tai yhtäsuuria kuin mediaani. Testi on voimakkuudeltaan heikompi kuin Kruskal- Wallisin H-testi. Testin hypoteesit ovat H0: populaatioissa ko. muuttujan mediaanit ovat yhtä suuret H1: populaatioissa ko. muuttujan mediaanit eivät ole yhtä suuret Kuviossa 74 on em. proseduurin tulostusta silloin, kun testityypiksi on valittu Kruskal-Wallis H. Tulostuksesta Ranks-taulukosta nähdään mm. että eri pääaineiden opiskelijoiden otoskoot (14, 33, 66, 48 ja 54) sekä opintojen edistymisen keskimääräiset sijaluvut (129.71, 115.77 jne). Keskimääräisten sijalukujen perusteella ruotsin opiskelijat näyttävät edistyvän opinnoissaan muita hitaammin (pienin sijalukukeskiarvo). Test Statistics -taulukossa on esitetty Kruskl-Wallisin H-testin arvo on 8.680 sen havaittu merkitsevyystaso 0.070. Eri pääaineopiskelijoiden edistymisjakaumien sijainneilla ei siis ole tilastollisesti merkitsevää eroa.

Ranks

Page 11: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

10

Pääaine N Mean Rank

Opintojen edistyminen

englanti 14 129,71 nykysuomi 33 115,77 ruotsi 66 94,57 saksa 48 106,35 viestintätieteet 54 115,50 Total 215

Test Statisticsa,b

Opintojen edistyminen

Chi-Square 8,680

df 4

Asymp. Sig. ,070

a. Kruskal Wallis Test

b. Grouping Variable: Pääaine

Kuvio 74. K Independent-Samples -proseduurin tulostusta

10.3. Muita epäparametrisia testejä Proseduurilla Chi-Square Test voidaan tehdä

2-yhteensopivuustesti, jolla vertaillaan Test Variable

List -kohtaan valitun muuttujan luokkien havaittuja frekvenssejä haluttuihin teoreettisiin frekvensseihin. Expected Range -kohdassa valitaan muodostuvien luokkien määrä: Get from data-vaihtoehdolla luokkia muodostuu niin paljon kuin muuttujalla on erilaisia arvoja, ja Use specified range -valinnalla Lower- ja Upper-kokonaislukujen suljettuun väliin jäävät arvot muodostavat luokat. Luokkien frekvenssejä vertaillaan teoreettisiin frekvensseihin, jotka muodostetaan valinnan Expected Values avulla: All categories equal -vaihtoehdolla luokkien teoreettiset frekvenssit asetetaan yhtäsuuriksi (tasajakaumavertailu), kun taas Values-kohdassa voidaan ilmoittaa luokkien teoreettiset frekvenssit tai prosentuaaliset osuudet yksitellen luokkia vastaavassa järjestyksessä. Proseduurilla Runs voidaan testata, onko muuttujan kahden arvon esiintymisjärjestys satunnainen. Cut Point -kohdassa valintaan tunnusluku (Mean, Median, Mode) tai luku (Custom), jonka perusteella muuttujan arvot jaetaan kahteen luokkaan. Ensimmäiseen luokkaan kuuluvat valittua lukua pienemmät havaintoarvot ja toiseen luokkaan valittua lukua suuremmat tai yhtäsuuret havaintoarvot. 2 Related Samples-proseduurilla voidaan vertailla kahden riippuvan muuttujan jakaumia. Testiksi voidaan valita (Test Type): Wilcoxon, jolla voidaan tutkia, onko kahdella riippuvalla muuttujalla sama jakauma. Muuttujien jakaumien muodosta ei tehdä mitään alkuoletuksia. Sign, jolla voidaan tutkia, onko kahdella riippuvalla muuttujalla sama jakauma. McNemar, jolla voidaan tutkia kahta riippuvaa dikotomista muuttujaa. Sopii erityisesti silloin, kun tarkastellaan ennen-jälkeen-kokeiden muutossuuntia. K Related Samples-proseduurilla voidaan vertailla kahden tai useamman riippuvan muuttujan jakaumia. Testiksi voidaan valita (Test Type): Friedman, jolla testataan nollahypoteesia: k riippuvaa muuttujaa ovat samasta populaatiosta. Kendall’s W, jolla testataan nollahypoteesia: k otosta on samasta populaatiosta. Testi sopii erityisesti silloin, kun halutaan mitata arvostelijoiden tai tuomareiden samankaltaisuutta annettujen sijalukujen tai -pisteiden suhteen. Cochran’s Q, jolla testataan nollahypoteesia: k:lla riippuvalla dikotomisella muuttujalla on jakauman keskikohta sama. Testi on McNemarin testin yleistys.

Page 12: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

11 11. AINEISTON TIIVISTAMINEN Erityisesti kyselytutkimuksissa on muuttujien lukumäärä niin suuri, että yksittäisen muuttujien käsittely on vaivalloista ja aikaa vievää. Samaan asiaan liittyvien muuttujien sisältämää informaatiota voidaan tiivistää yhdeksi muuttujaksi, jota voidaan analysoida tilastomenetelmillä.

11.1. Keskiarvomuuttuja Keskiarvomuuttujalla (joskus käytetään myös nimitystä summamuuttuja) tarkoitetaan sellaista muuttujaa, jonka arvot saadaan laskemalla kahden tai useamman vähintään järjestysasteikollisen muuttujan keskiarvo. Tällaista keskiarvomuuttujaa käytetään paljon kyselytutkimuksissa, jossa tietty kysymysjoukko liittyy samaan asiaan. Keskiarvomuuttujan laatiminen kannattaa aloittaa niin, että käy läpi samaan asiaan liittyvät kysymykset/väitteet ja tarkistaa, että väitteet ovat samansuuntaisia. Jos näin ei ole, täytyy esimerkiksi kielteisesti esitettyjen väitteiden vastaukset muuntaa myönteisiksi. Esim. väite: ”Tilastotiede on hauskaa” on myönteinen, mutta väite ”Tilastotiede on turhaa” on kielteinen. Jos muuttujien arvokoodeina on ollut esim. alun perin 1 = täysin eri mieltä, … 5 = täysin samaa mieltä, vaihdetaan kielteisten väittämien muuttuja-arvot (käyttäen esim. Transform-valikon Recode into Different Variables -proseduuria) niin, että luvun 1 tilalle laitetaan 5, luvun 2 paikalle 4, luku 3 säilyy ennallaan, luvun 4 tilalle 2 ja luvun 5 tilalle 1 ja samalla vaihdetaan myös väitteen nimi (esim. ”Tilastotiede EI ole turhaa”). Seuraavaksi tarkistetaan, ovatko ko. muuttujat yhteismitallisia esim. Cronbachin –tunnusluvun avulla. Cronbachin :n arvo riippuu muuttujien korrelaatioista ja lukumäärästä Mitä suurempi on (maksimiarvo 1), sitä enemmän muuttujat ovat yhteismitallisia. Cronbachin saadaan laskettua Analyze-valikon Scale-valinnan proseduurilla Reliablity Analysis. Ko. proseduurin päämärittelyikkunassa (kuvio 75) valitaan mahdollisesti yhdistettävät muuttujat kohtaan Items (esimerkissä k4501, k4502, jne). Model-valinta Alpha tuottaa tulokseksi Cronbachin -tunnusluvun. Statistics-lisävalinnalla Scale if item deleted saadaan tuloksiin Cronbachin -tunnusluvun arvo silloinkin, kun joku tietty valittu muuttuja jätettäisiin yhdistämisestä pois.

Kuvio 75. Reliability Analysis -proseduurin määrittelyikkunoita

Page 13: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

12 Kuviossa 76 on em. proseduurin tuloksia. Reliability Statistics –taulukosta Cronbachin :n arvo 0.888, joten valittujen kuuden muuttujan yhteismitallisuus on hyvä. Item-Total Statistics –taulukon viimeisessä sarakkeessa olevat Cronbachin :n arvot ovat lukua 0.888 pienempiä, joten minkään muuttujan poistaminen ei parantaisi jäljelle jäävien 5 muuttujan yhteismitallisuutta.

Reliability Statistics

Cronbach's

Alpha

N of Items

,888 6

Item-Total Statistics

Scale Mean if

Item Deleted

Scale Variance

if Item Deleted

Corrected Item-

Total

Correlation

Cronbach's

Alpha if Item

Deleted [k4501] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Moottoriajoneuvo varastetaan

10,01 7,978 ,720 ,865

[k4502] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Moottoriajoneuvoa vahingoitetaan

9,90 7,948 ,735 ,863

[k4503] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Kotiin murtaudutaan

10,10 8,505 ,602 ,884

[k4504] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Polkupyörä varastetaan

9,68 8,267 ,606 ,884

[k4505] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Muuta henkilökohtaista omaisuutta varastetaan

10,00 7,768 ,777 ,856

[k4506] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Henkilökohtaista omaisuutta vahingoitetaan

10,00 7,756 ,784 ,855

Kuvio 76. Reliability Analysis -proseduurin tulostusta

Nyt on siis vahvat perusteet laskea ko. muuttujista keskiarvomuuttuja, jonka arvot kuvaavat sitä, kuinka huolissaan vastaajat ovat mahdollisuudesta joutua omaisuusrikoksen uhriksi. Keskiarvomuuttuja muodostetaan käyttäen esim. Transform-valikon Compute Variable –proseduuria niin, että Target Variable –ruutuun tulee keskiarvomuuttujan nimi (esim. huoli_omaisuusrikoksista) ja Numeric Expression -ruutuun kaavaksi (k4501 + k4502 + k4503 + k4504 + k4505 + k4506)/6. Näin saadun keskiarvomuuttujan pieni arvo tarkoittaa, että vastaaja ei ole huolestunut ja suuri arvo, että

Page 14: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

13 vastaaja on huolestunut, koska alkuperäisilläkin muuttujilla pieni arvo tarkoitti sitä, ettei ole huolestunut ja suuri arvo sitä, että on huolestunut. Keskiarvomuuttujaa voidaan analysoida kuten muitakin määrällisiä muuttujia (yksittäisten muuttujien sijasta), kun esim. vertaillaan, ovatko miehet ja naiset yhtä huolissaan siitä, että joutuvat jonkinlaisen omaisuusrikoksen uhriksi.

11.2. Eksploratiivisestä faktorianalyysistä Faktorianalyysistä voidaan erottaa kaksi lähestymistapaa, joista eksploratiivinen faktorianalyysi pyrkii löytämään muuttujajoukosta faktoreita (eli latentteja muuttujia), jotka pystyvät selittämään havaittujen muuttujien vaihtelua ilman, että ennalta on vahvoja odotuksia löydettävien määrästä tai tulkinnasta, kun taas konfirmatorisessa faktorianalyysissä on jo ennalta olemassa käsitys aineiston faktorirakenteesta ja analyysin tehtävänä on joko vahvistaa tai kumota tämä käsitys. Eksploratiivinen faktorianalyysi on siis aineistolähtöinen tutkimusmenetelmä. Analyysin tuloksena voidaan löytää yksi tai useampia faktoreita, joita käytetään hyväksi tulosten tulkinnassa. Analyze-valikon Dimension Reduction -valinnan proseduurilla Factor (kuvio 77) voidaan muodostaa faktorimalli. Faktoroitavat muuttujat valitaan kohtaan Variables (esimerkissä k1601, k1602, jne). Faktoroitavien muuttujien tulisi korreloida keskenään (muttei liikaa), muuttujien tulisi olla määrällisiä (”hyvä” järjestysasteikkokin käy, nyt kyseessä Likertin asteikko: kaikilla valituilla muuttujilla muuttuja-arvokoodit 1 = erittäin tyytymätön,…, 5 = erittäin tyytyväinen), muuttujien olisi hyvä olla yhteismitallisia sekä normaalijakautuneita. Selection Variable -kohdassa voidaan valita tutkittava osajoukko, jos sen muodostaminen perustuu vain yhteen aineiston muuttujaan. Descriptives-lisävalinnan avulla valitaan tulostukseen tunnuslukuja ja testejä. Statistics–kohdan Univariate descriptives –valinnalla saadaan muuttujien keskiarvot ja –hajonnat sekä Initial solution -valinnalla saadaan kommunaliteetit ja ominaisarvot. Correlation Matrix -kohdan Coefficients-valinnalla saadaan korrelaatiomatriisi, valinnalla Reproduced saadaan faktoriratkaisun perusteella estimoidut korrelaatiot, valinnalla Significance levels korrelaatioiden merkitsevyystestauksen p-arvot ja esim. KMO and Bartlett’s test of Sphericity –valinnalla saadaan Kaiser-Meyer-Olkin -indeksin sekä Bartlettin testin tulokset. Extraction-lisävalinnalla voidaan valita faktorilatausten estimointimenetelmä (Method): Principal components valinnalla tehdään pääkomponenttianalyysi (joka ei ole sama asia kuin faktorianalyysi), useimmiten käytetään joko Principal axis factoring (pääakseli-) tai Maximum Likelihood –menetelmää. Display-kohdassa valitaan tulostetaanko rotatoimaton faktorilatausmatriisi (Unrotated factor solution) ja Scree Plot kuvio. Faktoreiden määrä voi perustua joko faktoreiden ominaisarvoon (Based on Eigenvalue, oletusrajana 1) tai itse valittuun lukumäärään (Fixed number of factors). Rotation-lisävalinnalla valitaan rotatointimenetelmä (Method). Jos halutaan suorakulmainen rotaatio (korreloimattomat faktorit), valitaan Varimax (tai Quartimax). Jos halutaan vinorotaatio, valitaan esim. Direct Oblimin. Display-kohdassa valitaan tulostetaanko rotatoitu faktorilatausmatriisi (Rotated solution) ja faktoreista muuttujien latausten pisteparvet (Loading plots). Scores-lisävalinnalla voidaan laskea faktoripistemäärät ja tallettaa ne havaintoaineistoon Save as variables –valinnalla. Options-lisävalinnalla voidaan mm. estää itseisarvoltaan pienten latausten esittäminen latausmatriisissa valinnalla Suppress small coefficients (usein rajana käytetään lukua 0.3)

Page 15: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

14

Kuvio 77. Factor-proseduurin määrittelyikkunoita

Page 16: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

15

Kuviossa 78 on faktorianalyysituloksia. Correlation Matrix –taulukko on korrelaatiomatriisi. Muutamien muuttujien välillä on korrelaatiota, joten on luultavaa, että muuttujien korrelaatioiden taustalla on faktoreita. KMO and Bartlett’s Test –taulukon Kaiser-Meyer-Olkin (=KMO) –indeksin arvo on ”kohtalainen” 0.789 (pitäisi olla ehdottomasti yli 0.5), joten sen perusteella voidaan todeta muuttujajoukon olevan sen verran homogeenisen, että faktorointi on järkevää. Bartlett’s Test –testin p-arvo 0.000, joka osoittaa, että korrelaatiomatriisi ei ole yksikkömatriisi, joten senkin perusteella faktorointi on järkevää.

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,789

Bartlett's Test of Sphericity Approx. Chi-Square 1012,773

df 78

Sig. ,000

Kuvio 78. Factor-proseduurin tulostusta: korrelaatioita, testituloksia ja kommunaliteetteja

Page 17: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

16 Kuviossa 78 on esillä osa faktoroitujen muuttujien kommunaliteeteista (Communalities). Alkuperäinen kommunaliteetti muuttujalle k1601 on 0.224, eli kaikki faktorit selittävät vain 22.4 % ko. muuttujan vaihtelusta. Faktoroinnin jälkeen (kun mukana on 4 faktoria, tämä tulos myöhemmin) ko. muuttujan kommunaliteetti on 0.269. Jos muuttujan kommunaliteetti on hyvin alhainen (esim. pienempi kuin 0.2), voidaan harkita sen pudottamista analyysistä pois. Analyysiä on nyt kuitenkin jatkettu niin, että kaikki alun perin mukana olleet muuttujat pidetään analyysissä mukana.

Kuvio 79. Factor-proseduurin tulostusta: ominaisarvot ja Scree Plot

Kuviossa 79 on esillä faktoreiden ominaisarvot (Eigenvalues) ja Scree Plot –kuvio, joiden avulla päätellään faktoreiden määrää. Ominaisarvot kuvaavat, kuinka hyvin faktorit pystyvät selittämään

Page 18: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

17 analysoitavien muuttujien vaihtelua. Jatkoanalyysiin otetaan (oletusarvoisesti) mukaan ne faktorit, joiden ominaisarvo on suurempi kuin 1. Nämä 4 faktoria selittävät lähes 50 % analysoitavien muuttujien yhteisvaihtelusta. Faktoreiden määrää voi harkita Cattelin scree plot –kuvion avulla: sovitetaan silmämääräisesti suora pienten ominaisarvojen faktoreille (itse piirretty kuvion päälle jälkikäteen) ja katsotaan montako alkupään faktoria jää suoran yläpuolelle (nyt myös 4). Seuraavaksi tulostuu Factor Matrix, joka on rotatoimaton faktorimatriisi. Se koostuu faktorilatauksista. Rotatointi kuitenkin tekee faktorirakenteesta yleensä selvemmän, joten kannattaa tulkita rotatoitua faktorimatriisia (Rotated Factor Matrix), joka on esitetty kuviossa 80. Faktorilataus on muuttujan ja faktorin välinen korrelaatio. Ensimmäisellä faktorilla erityisen vahvat lataukset ovat muuttujilla k1610, k1611 ja k1613, joten ko. faktori kuvannee tyytyväisyyttä palveluihin. Toisella faktorilla latautuvat vahvasti muuttujat k1607 ja k1608, joten faktori kuvaa tyytyväisyyttä ympäristöön. Kolmannella faktorilla vahvat lataukset osuvat muuttujiin k1603-k1605, joten faktori kuvaa tyytyväisyyttä liikennejärjestelyihin. Viimeisellä faktorilla isoimmat lataukset ovat muuttujilla k1601 ja k1602, joten faktori kuvannee tyytyväisyyttä asuntoon. Tämän faktorianalyysin tuloksena saatiin 13 muuttujan sisältämä tieto tiivistettyä 4 faktoriin.

Rotated Factor Matrixa

Factor

1 2 3 4 [k1601] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asunnon koko ja varusteet

,472

[k1602] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asumisen kustannukset

,762

[k1603] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Työmatkakustannukset

,466

[k1604] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Liikenneyhteydet

,345 ,658

[k1605] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Liikenneturvallisuus

,412 ,581

[k1606] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Puistojen ja viheralueiden laatu

,484

[k1607] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Rauhallisuus ja yleinen järjestys alueella

,826

[k1608] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Melutaso ja ilmanlaatu

,704

[k1609] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asuinalueen katujen ja teiden hoito

,429

[k1610] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Kaupallisten palvelujen sijainti

,824

[k16011] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Kaupungin/ kunnan palvelujen sijainti

,673

[k16012] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asuinalueen arvostus

,390 ,360

[k16013] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asuinalueen palvelutason kokonaisuus

,794

Extraction Method: Principal Axis Factoring.

Rotation Method: Varimax with Kaiser Normalization.

a. Rotation converged in 7 iterations. Kuvio 80. Factor-proseduurin tulostusta: rotatoitu faktorimatriisi Jos faktoripistemäärät muodostetaan Scores-lisävalinnalla, tulevat ne aineistoikkunaan (kuvio 81) esille uusina muuttujina (nyt siis 4 faktoria eli 4 uutta muuttujaa: FAC1_1 – FAC4_1). Esimerkiksi vastaaja

Page 19: Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20 osa3.pdf · 4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät

18 numero 7 on tyytymättömämpi asuinalueensa palveluihin kuin vastaaja numero 2, koska vastaajan numero 7 faktoripistemäärä -2.17189 on selvästi pienempi kuin vastaajan numero 2 faktoripistemäärä 0.37096. Faktoripistemääriä voi käyttää tilastoanalyyseissä määrällisten muuttujien tapaan, esim. voitaisiin tutkia, ovatko nais- ja miesvastaajat keskimäärin yhtä tyytyväisiä asuinalueensa palveluihin.

Kuvio 81. Factor-proseduurin muodostamat faktorit aineistoikkunassa