ath-aineisto ja tilastolliset analyysit

20
23. 4. 2015 ATH-koulutus / Tommi Härkänen 1 ATH-koulutus THL 23.4.2015

Upload: thl

Post on 13-Aug-2015

163 views

Category:

Health & Medicine


4 download

TRANSCRIPT

Page 1: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 1

ATH-koulutus THL 23.4.2015

Page 2: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 2

Sisältö

Tommi Härkänen, Risto Kaikkonen, Esa Virtala and Seppo Koskinen (2014). Inverse probability weighting and doubly robust methods in correcting the effects of non-response in the reimbursed medication and self-reported turnout estimates in the ATH survey. BMC Public Health, 14:1150.

• Otanta-asetelma

– Alueositus

– 75 vuotta täyttäneiden ylipoiminta

• Kato

• Painokertoimet

Page 3: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 3

Ositus ja otoskoot • Tutkimusalueet

– Koko Manner-Suomi, otoskoko 5 000

– Alueet (Turku, Kainuu ja osia Pohjois-Pohjanmaasta) Alueet jaettiin vielä pienempiin ositteisiin:

• Turku 9 ositetta, otoskoot 1 000

• Kainuu 3 ositetta, otoskoot 3 000

• Pohjois-Pohjanmaa 2 ositetta, otoskoot 4 000

– HUOMIO! Jos analysoidaan koko aineisto, eli em. 4 tutkimusaluetta, niin tulokset eivät edusta koko maata, koska alueositteet painottuvat liikaa: Koko maan tulokset saadaan käyttämällä pelkästään koko maan otosta!

• Jokaisessa alueositteessa ikä ja sukupuoliositus:

– Ikäluokat 20-74 ja 75-99, jälkimmäisestä ylipoiminta

– Sukupuoli

Page 4: ATH-aineisto ja tilastolliset analyysit

Otokset Turun palvelualueilla 2010

23. 4. 2015 ATH-koulutus / Tommi Härkänen 4

Alue 20-74 75-99 Yhteensä Otos Poimintasuhde

Keskusta 38 083 5 307 43 390 1000 2.3 %

Hirvensalo-Kakskerta 4 817 191 5 008 1000 20.0 %

Skanssi-Uittamo 15 882 2 458 18 340 1000 5.5 %

Varissuo-Lauste 12 707 1 004 13 711 1000 7.3 %

Nummi-Halinen 14 723 1 006 15 729 1000 6.4 %

Runosmäki-Raunistula 11 112 1 336 12 448 1000 8.0 %

Länsikeskus 13 673 1 752 15 425 1000 6.5 %

Pansio-Jyrkkälä 6 786 461 7 247 1000 13.8 %

Maaria-Paattinen 4 367 193 4 560 1000 21.9 %

Yhteensä 122 150 13 708 0 135 858 9 000 6.6 %

Page 5: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 5

Osituksen vaikutuksia

• Alueiden vertailu on helpompaa, koska eri alueilla perusjoukon koko vaihtelee

• Otos on joissakin ositteissa huomattavan suuri suhteessa perusjoukon kokoon

– Esim. Ylä-Kainuussa 75-vuotta täyttäneistä miehistä otokseen poimittiin n. 48 % perusjoukosta

– Manner-Suomen otoksessa poimittiin vain n. 0,1 %

• Suorat keskiarvot ovat virheellisiä yhdistettäessä ositteita Painokertoimet

• Vaikutuksia varianssiestimaattiin p-arvot pienempiä ja luottamusvälit kapeampia Äärellisen populaation korjaus

Page 6: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 6

Äärellisen populaation korjaus (FPC)

• Miksi populaation rajallisuus vaikuttaa tulosten tarkkuuteen?

– Jos koko perusjoukko tutkittaisiin, niin saisimme “tarkan” tiedon väestön senhetkisestä tilasta, koska otannasta johtuvaa vaihtelua ei olisi esim. keskiarvon luottamusvälin leveys olisi nolla

– Jos otoksen osuus perusjoukosta olisi suuri, niin tutkimatta jääneiden vaikutus väestökeskiarvoon olisi pieni

– Jos otos on vain pieni osa perusjoukosta, niin kyseessä on likimain tavallinen yksinkertainen satunnaisotanta (SRS), eikä FPC:ta tarvita

Page 7: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 7

Painokertoimien taustaa: otos

• Yksilöillä erilaiset poimintatodennäköisyydet

– 75-vuotta täyttäneillä suurempi poimintatodennäköisyys

• Esim. suora keskiarvo havainnoista antaa liian suuren painoarvon 75 vuotta täyttäneille

– Poimintatodennäköisyydet vaihtelevat alueittain

• Alueita yhdistettäessä alueositteet, joista on poimittu otokseen suurempi osuus, saisivat liian suuren painoarvon

Page 8: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 8

Painokertoimien taustaa: kato

• Yksilöiden osallistumisaktiivisuus vaihtelee

• Jos aktiivisuuteen vaikuttavat tekijät havaitaan

– … sekä osallistuneista että katotapauksista, erot voidaan korjata hyvin (rekisteritiedot esim. ikä, sukupuoli ja koulutus) oletus havaittujen ja katotapausten samankaltaisuudesta

– … vain osallistuneista, erojen huomioiminen on vaikeaa (usein esim. elintapoihin, terveyteen ja toimintakykyyn liittyvät tekijät) vahvoja oletuksia kadon luonteesta

Page 9: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 9

Osallistumisasteita (%)

Ikäryhmä Miehet Naiset

20-24

25-34

35-44

45-54

22

27

31

40

40

44

45

54

55-64

65-74

52

60

62

67

75-84

85-99

61

44

57

43

Page 10: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 10

Osallistumisasteita (%)

Koulutus Osallistuneita

Keskiaste 44

Alin korkea-aste

Alempi korkeakouluaste

Ylempi korkeakouluaste

Tutkijakoulutusaste

60

53

56

55

Koulutusaste alin tai tuntematon 45

Page 11: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 11

Osallistumisasteita (%)

Avioliitossa Osallistuneita

Kyllä 54

Ei 42

Kieli Osallistuneita

Suomi 48

Ruotsi 47

Englanti 40

Venäjä 40

Page 12: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 12

Osallistumisasteita (%)

Alue Osall. Alue Osall

Suomi 46 Turun keskusta

Hirvensalo-Kakskerta

Skanssi-Uittamo

Varissuo-Lauste

Nummi-Halinen

Runosmäki-Raunistula

Länsikeskus

Pansio-Jyrkkälä

Maaria-Paattinen

48

41

52

45

44

49

52

39

44

Kajaanin seutu

Kuhmo, Sotkamo

Ylä-Kainuu

51

51

54

Oulun Eteläinen

Oulun seutu

47

45

Page 13: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 13

Painokertoimien taustaa: menetelmä

• Painokertoimet on muodostettu käyttämällä logistiseen regressiomalliin perustuvaa käänteistodennäköisyyspainotusta (IPW)

• ATH–painokertoimissa huomioitu

– Otanta

• Alkuperäinen poimintatodennäköisyys (otoskoko / perusjoukon koko)

– Kato

• Tutkimusalue

• Ikäluokka ja sukupuoli

• Avioliitto (kyllä/ei)

• Tutkinto

• Kieliryhmä

Page 14: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 14

Painokertoimien tulkinta • Painokertoimen arvo voi olla erilainen jokaiselle

tutkimukseen osallistuneelle yksilölle

• Mitä suurempi painokertoimen arvo, sitä suurempi havainnon vaikutus lopputuloksiin

• Kadon huomioimisessa esim.

– 25% osallistumisasteella painokertoimen arvoksi tulisi 4 tarkoittaen, että yksi tutkimukseen osallistunut edustaa neljää otokseen poimittua

– 100% osallistumisasteella 1 tarkoittaen, että jokainen tutkimukseen osallistunut edustaa vain itseään

• Analyyseissä painokertoimet skaalataan siten, että painokertoimien summa vastaa osallistuneiden lukumäärää käytettäessä survey-ohjelmistoja skaalaus tapahtuu automaattisesti

Page 15: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 15

Otanta-asetelman kuvaavat muuttujat

• Osite rg_stratum (alue-) ositteille

• Analyysipaino w_analysis huomioi erilaiset poimintatodennäköisyydet

• Väkiluku ositteessa rg_n äärellisen populaation korjausta varten

Page 16: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 16

Painotuksen ja osituksen vaikutuksia

• Tarkastellaan esimerkkejä, joissa keskiarvoja estimoidaan

– … painotuksella tai ilman, ja

– … huomioimalla ositus ja äärellinen populaatio, tai ei

• Keskiarvoesimerkkien tuloksia voidaan nähdä myös monimutkaisemmissa analyyseissä

Page 17: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 18

Otanta-asetelman vaikutus: erilaiset poimintatodennäköisyydet

• Analyysimuuttujana ikä (vuosina) rg_age_2

• Ero johtuu erityisesti 75 vuotta täyttäneiden ylipoiminnasta

• Lisäksi alueittaiset poimintatodennäköisyydet vaihtelevat

--------------------------------------------------------------

| Mean

-------------+------------------------------------------------

rg_age_2 | 57.03926 Koko otoksen keskiarvo

rg_age_2 | 47.97872 Painotettu, väestöä edustava keskiarvo

--------------------------------------------------------------

Page 18: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 19

Painotuksen vaikutus: kato

• Vasteena BMI

• Painottaminen laskee BMI-keskiarvoja

• Osallistumisaktiivisuus on pienin nuorilla (erityisesti miehillä), joilla on myös vähemmän ylipainoa

--------------------------------------------------------------

| Mean

-------------+------------------------------------------------

ath_bmi | 26.34463 Ei painoja

ath_bmi | 25.99508 Painotus

--------------------------------------------------------------

Page 19: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 20

Painotuksen vaikutus: kato Osajoukko: Turku 20-59 vuotiaat, koulutusryhmittäin

• Vasteena BMI

• Painottaminen laskee BMI-keskiarvoja, myös palvelualueittain ja sukupuolittain

• Painotus pienentää – Keski-ikäisten,

– avioliitossa olevien ja

– suomen- ja ruotsinkielisten painoarvoa

---------------------------------------

Over | Ei painoja Painot Ero

-------------+-------------------------

ath_bmi |

basic | 27.26992 26.69918 -0.57

middle | 25.8803 25.3783 -0.52

high | 25.17389 24.93658 -0.24

---------------------------------------

Page 20: ATH-aineisto ja tilastolliset analyysit

23. 4. 2015 ATH-koulutus / Tommi Härkänen 29

Lopuksi

• Painokertoimien käyttäminen on välttämätöntä otannan (ja kadon) huomioimiseksi

• Äärellisen populaation korjaus (FPC) huomioi suuren poimintasuhteen vaikutuksen ja tuottaa tarkemmat tulokset

• Mallivakioinnilla voi kuvata ryhmien välisiä eroja, kun sekoittavien tekijöiden (kuten iän) erilaisten ryhmäkohtaisten jakaumien vaikutus on vakioitu