ath-aineisto ja tilastolliset analyysit
TRANSCRIPT
23. 4. 2015 ATH-koulutus / Tommi Härkänen 1
ATH-koulutus THL 23.4.2015
23. 4. 2015 ATH-koulutus / Tommi Härkänen 2
Sisältö
Tommi Härkänen, Risto Kaikkonen, Esa Virtala and Seppo Koskinen (2014). Inverse probability weighting and doubly robust methods in correcting the effects of non-response in the reimbursed medication and self-reported turnout estimates in the ATH survey. BMC Public Health, 14:1150.
• Otanta-asetelma
– Alueositus
– 75 vuotta täyttäneiden ylipoiminta
• Kato
• Painokertoimet
23. 4. 2015 ATH-koulutus / Tommi Härkänen 3
Ositus ja otoskoot • Tutkimusalueet
– Koko Manner-Suomi, otoskoko 5 000
– Alueet (Turku, Kainuu ja osia Pohjois-Pohjanmaasta) Alueet jaettiin vielä pienempiin ositteisiin:
• Turku 9 ositetta, otoskoot 1 000
• Kainuu 3 ositetta, otoskoot 3 000
• Pohjois-Pohjanmaa 2 ositetta, otoskoot 4 000
– HUOMIO! Jos analysoidaan koko aineisto, eli em. 4 tutkimusaluetta, niin tulokset eivät edusta koko maata, koska alueositteet painottuvat liikaa: Koko maan tulokset saadaan käyttämällä pelkästään koko maan otosta!
• Jokaisessa alueositteessa ikä ja sukupuoliositus:
– Ikäluokat 20-74 ja 75-99, jälkimmäisestä ylipoiminta
– Sukupuoli
Otokset Turun palvelualueilla 2010
23. 4. 2015 ATH-koulutus / Tommi Härkänen 4
Alue 20-74 75-99 Yhteensä Otos Poimintasuhde
Keskusta 38 083 5 307 43 390 1000 2.3 %
Hirvensalo-Kakskerta 4 817 191 5 008 1000 20.0 %
Skanssi-Uittamo 15 882 2 458 18 340 1000 5.5 %
Varissuo-Lauste 12 707 1 004 13 711 1000 7.3 %
Nummi-Halinen 14 723 1 006 15 729 1000 6.4 %
Runosmäki-Raunistula 11 112 1 336 12 448 1000 8.0 %
Länsikeskus 13 673 1 752 15 425 1000 6.5 %
Pansio-Jyrkkälä 6 786 461 7 247 1000 13.8 %
Maaria-Paattinen 4 367 193 4 560 1000 21.9 %
Yhteensä 122 150 13 708 0 135 858 9 000 6.6 %
23. 4. 2015 ATH-koulutus / Tommi Härkänen 5
Osituksen vaikutuksia
• Alueiden vertailu on helpompaa, koska eri alueilla perusjoukon koko vaihtelee
• Otos on joissakin ositteissa huomattavan suuri suhteessa perusjoukon kokoon
– Esim. Ylä-Kainuussa 75-vuotta täyttäneistä miehistä otokseen poimittiin n. 48 % perusjoukosta
– Manner-Suomen otoksessa poimittiin vain n. 0,1 %
• Suorat keskiarvot ovat virheellisiä yhdistettäessä ositteita Painokertoimet
• Vaikutuksia varianssiestimaattiin p-arvot pienempiä ja luottamusvälit kapeampia Äärellisen populaation korjaus
23. 4. 2015 ATH-koulutus / Tommi Härkänen 6
Äärellisen populaation korjaus (FPC)
• Miksi populaation rajallisuus vaikuttaa tulosten tarkkuuteen?
– Jos koko perusjoukko tutkittaisiin, niin saisimme “tarkan” tiedon väestön senhetkisestä tilasta, koska otannasta johtuvaa vaihtelua ei olisi esim. keskiarvon luottamusvälin leveys olisi nolla
– Jos otoksen osuus perusjoukosta olisi suuri, niin tutkimatta jääneiden vaikutus väestökeskiarvoon olisi pieni
– Jos otos on vain pieni osa perusjoukosta, niin kyseessä on likimain tavallinen yksinkertainen satunnaisotanta (SRS), eikä FPC:ta tarvita
23. 4. 2015 ATH-koulutus / Tommi Härkänen 7
Painokertoimien taustaa: otos
• Yksilöillä erilaiset poimintatodennäköisyydet
– 75-vuotta täyttäneillä suurempi poimintatodennäköisyys
• Esim. suora keskiarvo havainnoista antaa liian suuren painoarvon 75 vuotta täyttäneille
– Poimintatodennäköisyydet vaihtelevat alueittain
• Alueita yhdistettäessä alueositteet, joista on poimittu otokseen suurempi osuus, saisivat liian suuren painoarvon
23. 4. 2015 ATH-koulutus / Tommi Härkänen 8
Painokertoimien taustaa: kato
• Yksilöiden osallistumisaktiivisuus vaihtelee
• Jos aktiivisuuteen vaikuttavat tekijät havaitaan
– … sekä osallistuneista että katotapauksista, erot voidaan korjata hyvin (rekisteritiedot esim. ikä, sukupuoli ja koulutus) oletus havaittujen ja katotapausten samankaltaisuudesta
– … vain osallistuneista, erojen huomioiminen on vaikeaa (usein esim. elintapoihin, terveyteen ja toimintakykyyn liittyvät tekijät) vahvoja oletuksia kadon luonteesta
23. 4. 2015 ATH-koulutus / Tommi Härkänen 9
Osallistumisasteita (%)
Ikäryhmä Miehet Naiset
20-24
25-34
35-44
45-54
22
27
31
40
40
44
45
54
55-64
65-74
52
60
62
67
75-84
85-99
61
44
57
43
23. 4. 2015 ATH-koulutus / Tommi Härkänen 10
Osallistumisasteita (%)
Koulutus Osallistuneita
Keskiaste 44
Alin korkea-aste
Alempi korkeakouluaste
Ylempi korkeakouluaste
Tutkijakoulutusaste
60
53
56
55
Koulutusaste alin tai tuntematon 45
23. 4. 2015 ATH-koulutus / Tommi Härkänen 11
Osallistumisasteita (%)
Avioliitossa Osallistuneita
Kyllä 54
Ei 42
Kieli Osallistuneita
Suomi 48
Ruotsi 47
Englanti 40
Venäjä 40
23. 4. 2015 ATH-koulutus / Tommi Härkänen 12
Osallistumisasteita (%)
Alue Osall. Alue Osall
Suomi 46 Turun keskusta
Hirvensalo-Kakskerta
Skanssi-Uittamo
Varissuo-Lauste
Nummi-Halinen
Runosmäki-Raunistula
Länsikeskus
Pansio-Jyrkkälä
Maaria-Paattinen
48
41
52
45
44
49
52
39
44
Kajaanin seutu
Kuhmo, Sotkamo
Ylä-Kainuu
51
51
54
Oulun Eteläinen
Oulun seutu
47
45
23. 4. 2015 ATH-koulutus / Tommi Härkänen 13
Painokertoimien taustaa: menetelmä
• Painokertoimet on muodostettu käyttämällä logistiseen regressiomalliin perustuvaa käänteistodennäköisyyspainotusta (IPW)
• ATH–painokertoimissa huomioitu
– Otanta
• Alkuperäinen poimintatodennäköisyys (otoskoko / perusjoukon koko)
– Kato
• Tutkimusalue
• Ikäluokka ja sukupuoli
• Avioliitto (kyllä/ei)
• Tutkinto
• Kieliryhmä
23. 4. 2015 ATH-koulutus / Tommi Härkänen 14
Painokertoimien tulkinta • Painokertoimen arvo voi olla erilainen jokaiselle
tutkimukseen osallistuneelle yksilölle
• Mitä suurempi painokertoimen arvo, sitä suurempi havainnon vaikutus lopputuloksiin
• Kadon huomioimisessa esim.
– 25% osallistumisasteella painokertoimen arvoksi tulisi 4 tarkoittaen, että yksi tutkimukseen osallistunut edustaa neljää otokseen poimittua
– 100% osallistumisasteella 1 tarkoittaen, että jokainen tutkimukseen osallistunut edustaa vain itseään
• Analyyseissä painokertoimet skaalataan siten, että painokertoimien summa vastaa osallistuneiden lukumäärää käytettäessä survey-ohjelmistoja skaalaus tapahtuu automaattisesti
23. 4. 2015 ATH-koulutus / Tommi Härkänen 15
Otanta-asetelman kuvaavat muuttujat
• Osite rg_stratum (alue-) ositteille
• Analyysipaino w_analysis huomioi erilaiset poimintatodennäköisyydet
• Väkiluku ositteessa rg_n äärellisen populaation korjausta varten
23. 4. 2015 ATH-koulutus / Tommi Härkänen 16
Painotuksen ja osituksen vaikutuksia
• Tarkastellaan esimerkkejä, joissa keskiarvoja estimoidaan
– … painotuksella tai ilman, ja
– … huomioimalla ositus ja äärellinen populaatio, tai ei
• Keskiarvoesimerkkien tuloksia voidaan nähdä myös monimutkaisemmissa analyyseissä
23. 4. 2015 ATH-koulutus / Tommi Härkänen 18
Otanta-asetelman vaikutus: erilaiset poimintatodennäköisyydet
• Analyysimuuttujana ikä (vuosina) rg_age_2
• Ero johtuu erityisesti 75 vuotta täyttäneiden ylipoiminnasta
• Lisäksi alueittaiset poimintatodennäköisyydet vaihtelevat
--------------------------------------------------------------
| Mean
-------------+------------------------------------------------
rg_age_2 | 57.03926 Koko otoksen keskiarvo
rg_age_2 | 47.97872 Painotettu, väestöä edustava keskiarvo
--------------------------------------------------------------
23. 4. 2015 ATH-koulutus / Tommi Härkänen 19
Painotuksen vaikutus: kato
• Vasteena BMI
• Painottaminen laskee BMI-keskiarvoja
• Osallistumisaktiivisuus on pienin nuorilla (erityisesti miehillä), joilla on myös vähemmän ylipainoa
--------------------------------------------------------------
| Mean
-------------+------------------------------------------------
ath_bmi | 26.34463 Ei painoja
ath_bmi | 25.99508 Painotus
--------------------------------------------------------------
23. 4. 2015 ATH-koulutus / Tommi Härkänen 20
Painotuksen vaikutus: kato Osajoukko: Turku 20-59 vuotiaat, koulutusryhmittäin
• Vasteena BMI
• Painottaminen laskee BMI-keskiarvoja, myös palvelualueittain ja sukupuolittain
• Painotus pienentää – Keski-ikäisten,
– avioliitossa olevien ja
– suomen- ja ruotsinkielisten painoarvoa
---------------------------------------
Over | Ei painoja Painot Ero
-------------+-------------------------
ath_bmi |
basic | 27.26992 26.69918 -0.57
middle | 25.8803 25.3783 -0.52
high | 25.17389 24.93658 -0.24
---------------------------------------
23. 4. 2015 ATH-koulutus / Tommi Härkänen 29
Lopuksi
• Painokertoimien käyttäminen on välttämätöntä otannan (ja kadon) huomioimiseksi
• Äärellisen populaation korjaus (FPC) huomioi suuren poimintasuhteen vaikutuksen ja tuottaa tarkemmat tulokset
• Mallivakioinnilla voi kuvata ryhmien välisiä eroja, kun sekoittavien tekijöiden (kuten iän) erilaisten ryhmäkohtaisten jakaumien vaikutus on vakioitu