populaatio - tunimath.tut.fi/~ruohonen/tpm.pdf · 2018. 11. 16. · à...

KASITTEITA

POPULAATIO

à Joukko, jota tutkitaan (aarellinen, aareton).

à Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numee-

riset suureet, luokittelut).

à Naiden valilla ei aina tehda eroa, kun puhutaan populaatioal-

kioista.

1

POPULAATIOJAKAUMA

à Jakauma, jonka populaation kiinnostavat arvot muodostavat.

à Jos populaatiosta valitaan satunnainen alkio eli siis arvo, ky-

seessa on ko. arvon todennakoisyysjakauma.

à Populaatiojakauman kautta paastaan kasiksi otossuureiden ja-

kaumiin ja siihen, mitka otossuureiden arvot ovat ”harvinaisia”

ja mitka taas eivat.

2

à Jakauma maaraytyy numeeristen arvojen osalta kertymana

P(X ≤ x) =merk. F (x),

missa X on satunnaisesti valittu arvo ja x kiintea lukuarvo.

à Usein jakauma voidaan erinaisten matemaattisten approksi-

maatiotulosten nojalla olettaa normaalijakaumaksi N(µ, σ2),

ts.

F (x) ∼=1

√2π σ

x∫−∞

e− 1

2σ2(z−µ)2

dz.

3

à Nain on esimerkiksi, jos kyseessa on samoin jakautuneiden

osien summa (Keskeinen raja-arvolause):

n = 3

n = 10n = 7

n = 2

n = 5

xx

xx

xx

.5

.4

.3

.2

.1

0. 10.8.6.4.2.0.

.6

.5

.4

.3

.2.10. 7.6.5.4.3.2.1.0.

.7

.6

.5

.4

.3

.2.10. 5.4.3.2.1.0.

.8

.6

.4

.2

0. 3.02.52.01.51.0.50.

1.0.8.6.4.20. 2.01.51.0.50.

1.81.61.41.21.0

.8

.6

.4

.20. 1.0.8.6.4.20.

n = 1

n = 5n = 3

n = 20

.20

.15

.10

.5e–1

0. 20.15.10.5.0.

.35

.30

.25

.20

.15

.10.5e–1

0. 10.8.6.4.2.0.

.5

.4

.3

.2.10. 5.4.3.2.1.0.

.8

.6

.4

.2

0. 3.02.52.01.51.0.50.

1.61.41.21.0

.8

.6

.4

.20. 2.01.51.0.50.

3.02.52.01.51.0

.5

1.0.8.6.4.20.

xx

xx

xx

n = 10

n = 1 n = 2

4

à Kaanteiskertyma antaa populaatiokvantiilin

qf = F−1(f) eli f = P(X ≤ qf) = F (qf).

à Esimerkiksi q0.5 = F−1(0.5) on populaatiomediaani, joka ja-

kaa populaatiojakauman kahtia.

à Alakvartiili q0.25 seka ylakvartiili q0.75 ovat myos usein esiin-

tyvia populaatiokvantiileja.

à Tilasto-ohjelmistot tulostavat nama estimoituina otoksesta:

5

Nicotinedata: Distribution Page 1 of 1

.5 1 1.5 2 2.5

100.0%

99.5%

97.5%

90.0%

75.0%

50.0%

25.0%

10.0%

2.5%

0.5%

0.0%

maximum

quartile

median

quartile

minimum

2.5500

2.5500

2.5478

2.3070

2.0150

1.7700

1.6325

1.2530

0.7232

0.7200

0.7200

Quantiles

Mean

Std Dev

Std Err Mean

upper 95% Mean

lower 95% Mean

N

1.77425

0.3904559

0.0617365

1.8991239

1.6493761

40

Moments

Content

Distributions

6

REALISOITUNUT OTOS

à Populaatiosta satunnaisesti valittu n alkion nayte x1, . . . , xn.

à Jalleen ollaan kiinnostuneita arvoista.

à Otoksesta lasketaan yksi tai useampia otossuureita (keskiarvo,

varianssi, hajonta, mediaani jne.). Tilasto-ohjelmistot antavat

naita hyvan kokoelman.

à Periaatteessa yleensa palauttaen (toisin kuin lotossa!).

7

ESTIMOINTI

à Tarkoitus on otokseen tulleista arvoista laskien saada hyva app-

roksimaatio jollekin populaatiota koskevalle numeeriselle suu-

reelle (odotusarvo, varianssi, mediaani tai jokin muu todenna-

koisyys jne.).

à Esimerkiksi populaation odotusarvon (keskiarvon) ja varianssin

tavallisia estimaatteja ovat otoskeskiarvo ja otosvarianssi

x =1

n(x1 + · · ·+ xn) ja s2 =

1

n− 1

n∑i=1

(xi − x)2.

8

à Populaation mediaanin, kvartiilien ja muiden kvantiilien esti-

maatteina ovat vastaavat otoksesta tavalla tai toisella lasketut

luvut (tapoja on useita).

9

LUOTTAMUSVALIT

SATUNNAINEN OTOS

à Ajatellaan otosta riippumattomien satunnaisten arvojen (sa-

tunnaismuuttujien) X1, . . . , Xn kokoelmana, joista kullakin

on sama jakauma kuin populaatiolla, ikaankuin abstraktisti ot-

tamatta varsinaisia naytteita. (Kaytetaan isoja kirjaimia satun-

naismuuttujille.)

à Kukin otossuure muuttuu nain myos satunnaismuuttujaksi.

10

à Esimerkiksi otoskeskiarvo ja otosvarianssi ovat silloin satun-

naismuuttujia:

X =1

n(X1 + · · ·+Xn) ja S2 =

1

n− 1

n∑i=1

(Xi −X)2.

à Otossuureilla on kullakin nain oma jakaumansa, joka periaat-

teessa saadaan populaatiojakaumasta.

à Jos populaatiojakauma on normaalijakauma, tullaan tata kaut-

ta moniin muihin tavallisiin tilastollisiin jakaumiin (χ2-jakau-

ma, t-jakauma, F-jakauma jne.).

11

LUOTTAMUSVALIT

à Luottamusvali muodostetaan jollekin populaatiota koskevalle

kiinnostavalle (mutta tuntemattomalle) lukuarvoiselle suureel-

le.

à Kyseessa voi olla esimerkiksi populaatiojakauman jokin para-

metri (odotusarvo, varianssi jne.) tai todennakoisyys (mediaa-

ni, kvartiilit jne.).

à Luottamusvali voi olla kaksipuolinen tai toispuolinen.

12

à Luottamusvali muodostetaan kayttaen saatua realisoitunutta

otosta. Otoksen satunnaisuudesta johtuen se voi olla ko. luot-

tamusvalin laskua ajatellen ”hyva” tai ”huono”.

à Asian kvantisoimiseksi kiinnitetaan valin haluttu luottamusas-

te muodossa 100(1− α) % ja vaaditaan, etta todennakoisyys

sille, etta saatu luottamusvali pitaa sisallaan kyseisen kiinnos-

tavan suureen oikean arvon, on ainakin 1− α.

à Ts. todennakoisyys sille, etta saadaan luottamusvalia ajatellen

”huono” otos, on enintaan α.

13

à Varsinainen luottamusvali saadaan, kun valitaan sopiva otos-

suure ja etsitaan sille arvot, joiden valissa se (satunnaismuuttu-

jana) on ainakin todennakoisyydella 1− α (toispuoliselle luot-

tamusvalille riittaa vain toinen arvo).

à Naista saadaan sitten luottamusvalin paatepisteet manipuloi-

malla vahan saatua (kaksois)epayhtaloa.

à Esimerkiksi normaalijakautuneen populaation tapauksessa saa-

daan luottamusvali sen odotusarvolle µ kayttaen otoskeskiar-

voa x ja -varianssia s2 seka t-jakaumaa, ja varianssille σ2 kayt-

taen otosvarianssia s2 seka χ2-jakaumaa.14

à Katsotaan esimerkiksi 100 simuloitua luottamusvalia N(0, 1)-

jakaumalle, ensin luottamusasteille 90 % ja 95 %

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 10

10

20

30

40

50

60

70

80

90

100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (90%)

−1 −0.5 0 0.5 1 1.50

10

20

30

40

50

60

70

80

90


15

ja sitten luottamusasteelle 99 %

−1.5 −1 −0.5 0 0.5 1 1.50

10

20

30

40

50

60

70

80

90


16

à Toinen tavallinen esimerkki on binomijakauman parametrin p

luottamusvali. Talloin N riippumattomassa kokeessa kirjataan

ylos niiden kokeiden lukumaara x, joissa tapahtui tietty asia

(esimerkiksi lantinheitto ja klaava).

à Parametrin p estimaatti on luonnollisesti x/N .

à Luottamusvali sille onkin sitten hankalampi. Tarkka menetel-

ma (ns. Clopper–Pearson-vali) on mutkikas, normaaliapprok-

simaatioon perustuvat menetelmat (esimerkiksi ns. Wilsonin

vali ja ns. Waldin vali) taas epatarkkoja.

17

à Clopper–Pearson-vali ja Wilsonin valikin menettelee,

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10.9

0.91

0.92

0.93

0.94

0.95

0.96

0.97

0.98

0.99

1

p

Oik

ea lu

otta

mus

aste

Bin(20,p)−jakauman oikea luottamusaste vs. 0.95: 100000 toistoa, Clopper−Pearson

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10.9

0.91

0.92

0.93

0.94

0.95

0.96

0.97

0.98

0.99

1

pO

ikea

luot

tam

usas

te

Bin(20,p)−jakauman oikea luottamusväli vs. 0.95: 1000000 toistoa, Wilson

18

mutta Waldin vali on jo toivottoman huono

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

p

Oik

ea lu

otta

mus

aste

Bin(20,p)−jakauman oikea luottamusaste vs. 0.95: 1000000 toistoa, Wald

19

à Muita tavallisia suureita, joille lasketaan luottamusvaleja, ovat

mm.

– populaatioiden odotusarvojen erotus

– populaatioiden varianssien suhde

– regressiomallien kertoimet

à Tilasto-ohjelmistot laskevat osin automaattisesti monia luot-

tamusvaleja.

à Muita luottamusvalin tapaisia valeja ovat ennustevali ja tole-

ranssivali.20

HYPOTEESIEN TESTAUS

à Tilastollinen hypoteesi koskee jotain populaatio(ide)n ominai-

suutta, joka joko on voimassa tai sitten ei. Usein tallainen

hypoteesi koskee jotain numeerista suuretta, esimerkiksi po-

pulaatiojakauman parametria.

à Testattaessa asetetaan nollahypoteesi H0 (”on voimassa”) ja

sille vaihtoehtoinen hypoteesi H1 (”ei ole voimassa”). Itse testi

tehdaan olettaen nollahypoteesin olevan voimassa ja yrittaen

etsia otoks(i)en perusteella todistetta sita vastaan.

21

à Todiste nollahypoteesia vastaan on otoksesta (otoksista) las-

ketun testisuureen osuminen epatodennakoiselle alueelle.

à ”Halutaanko” nollahypoteesi hylata vai ei riippuu tilanteesta.

à Jos esimerkiksi halutaan nayttaa parannusta tapahtuneen edel-

liseen verrattuna ja nollahypoteesin mukaan nain ei ole, halut-

taneen nollahypoteesi nimenomaan hylata. Samoin regressio-

mallin F-testissa, jossa nollahypoteesin mukaan malli on mer-

kitykseton.

22

à Regressiomallin epasopivuustestissa (”lack-of-fit”) taas nolla-

hypoteesin mukaan malli on sopiva. Samoin jakauman sopi-

vuustestissa (Kolmogorov–Smirnov, Lilliefors, χ2 jne.) popu-

laatiojakauma on nollahypoteesin mukaisesti haluttu. Nollahy-

poteesia ei talloin erityisesti haluttane hylata.

23

TESTIVIRHEET

à Testissa voi syntya kahdenlainen vaara paatos:

– Tyypin 1 virhe: Nollahypoteesi hylataan turhaan (”vaara ha-

lytys”).

– Tyypin 2 virhe: Nollahypoteesia ei hylata, vaikka pitaisi.

à Koska testaus tapahtuu satunnaisista otoksista saatua testi-

suuretta kayttaen, tyypin 1 virheella on oma todennakoisyy-

tensa, jota merkitaan usein α:lla ja kutsutaan riski(taso)ksi.

24

à Tyypin 2 virheen todennakoisyytta voidaan usein vain arvioida,

sita merkitaan yleisesti β:lla. 1− β on testin voimakkuus.

à Ideaalisesti riski α asetetaan etukateen ja H0 hylataan vain jos

vaaran hylkaamisen riski on enintaan α. Tama ehto maarittaa

otoksesta saadulle testisuureen arvolle kriittisen alueen, jolle

osuttaessa H0 voidaan hylata ilman liian suurta riskia.

à Toinen tapa on laskea realisoitunutta testisuureen arvoa vas-

taava pienin riski P , jolla nollahypoteesi voidaan hylata, ns.

P-arvo. H0 hylataan, jos P ≤ α. Usein esitetaan vain P-arvo.

25

PARAMETRIEN TESTAUS

à Populaatiojakauman parametrin θ testaus on tavallinen. Sil-

loin nollahypoteesi on H0: θ = θ0 ja vaihtoehtoinen hypoteesi

jokin seuraavista:H1: θ > θ0 (toispuolinen testi)H1: θ < θ0 (toispuolinen testi)H1: θ 6= θ0 (kaksipuolinen testi)

à Myos kahden populaation parametrien θ1 ja θ2 vertailu on

tavallinen testin aihe. Talloin nollahypoteesi on usein muotoa

H0: θ1 − θ2 = d0 tai H0: θ1/θ2 = r0, missa d0 ja r0 ovat

annettuja lukuja, ja vaihtoehtoiset hypoteesit kuten ylla.

26

à Periaatteessa parametria koskeva hypoteesi voidaan testata

riskitasolla α muodostamalla 100(1− α) % luottamusvali ko.

parametrille ja tarkistamalla kuuluuko nollahypoteesin mukai-

nen arvo luottamusvalille vai ei (jolloin H0 hylataan). Toispuo-

liselle testille tarvitaan toispuolinen luottamusvali.

à Talloin voidaan tyytya pelkkaan luottamusvaliinkiin, sehan an-

taa enemman informaatiota tilanteesta.

27

t-TESTIT

à Normaalijakautuneen populaation odotusarvon µ vertaaminen

annettuun arvoon µ0 tehdaan ns. t-testilla kayttaen t-jakau-

maa. Otoskoko on silloin pieni tai pienehko. Ohjelmistot teke-

vat osan t-testeista automaattisesti.

à Jos populaatiovarianssi on tunnettu, testi voidaan tehda nor-

maalijakaumaa kayttaen ns. z-testina. Ja vaikka populaatio-

jakauma ei olisikaan normaali, mikali otoskoko on suurehko.

t-testikaan ei ole kovin herkka epanormaalisuudelle.

28

à t-testilla voidaan myos verrata kahden eri normaalijakautu-

neen populaation odotusarvoja µ1 ja µ1 nollahypoteesin H0:

µ1 − µ2 = d0 muodossa, olettaen, etta populaatioiden va-

rianssit ovat samat (vaikkakin tuntemattomat).

à Usein kaksi populaatiota voidaan asettaa alkioittain pareittain

vastaamaan toisiaan (tyypillisesti: ”ennen kasittelya – kasitte-

lyn jalkeen”), jolloin myos otokset vastaavat alkioittain toisi-

aan. Talloin voidaan t-testilla testata alkioiden erotuksen odo-

tusarvoa, olettaen sille normaalijakauma. Itse populaatiojakau-

mat voivat olla silloin mita vaan.

29

BEHRENS–FISHER-PROBLEEMA

à Entas tapaus, jossa populaatiojakaumat ovat normaalit, mut-

ta varianssit eivat (ehka) ole samat? Silloin otoksista saadut

otossuureet eivat riitakaan populaatioiden odotusarvojen tes-

taamiseen.

à Asian jonkinlaiseksi selvittamiseksi on kehitetty useita approk-

simatiivisia menetelmia, mm. ns. Welch–Satterthwaite-approk-

simaatio, joiden kaytosta ollaan monta mielta. Ohjelmistot

kayttavat niita kuitenkin yleisesti.

30

MUITA

à Normaalijakautuneiden populaatioiden muita tavallisia testeja

ovat mm. populaatiovarianssin vertaaminen annettuun varians-

siin ja eri populaatioiden varianssien vertaaminen keskenaan.

31

PARAMETRITTOMAT TESTIT

à Testeja, joissa ei oleteta populaatiojakaumien muodosta juuri-

kaan mitaan (esimerkiksi normaalisuutta), kutsutaan paramet-

rittomiksi.

à Talloin testataan lahinna todennakoisyyksiin liittyvia asioita

kuten kvantiileja (erityisesti mediaaneja), riippumattomuutta

ja jakaumien samuutta.

32

χ2-TESTIT

à χ2-testeilla voidaan testata (yleensa aarellisille jakaumille)

– jakauman samuutta annetun jakauman kanssa (sopivuustes-

ti).

– usean jakauman keskinaista samuutta (homogeenisuustes-

ti).

– kahden jakauman riippumattomuutta (riippumattomuustes-

ti).

33

à Testidata esitetaan usein ns. kontingenssitaulun muodossa:

S1 S2 · · · Sl ΣT1 f1,1 f1,2 · · · f1,l f1T2 f2,1 f2,2 · · · f2,l f2... ... ... . . . ... ...Tk fk,1 fk,2 · · · fk,l fkΣ g1 g2 · · · gl n

Talloin mahdolliset tapahtumat ovat S1, . . . , Sl (1. jakauma)

ja T1, . . . , Tk (2. jakauma). Vaihtoehtoisesti T1, . . . , Tk maa-

rittelevat k jakaumaa, joissa kaikissa mahdolliset tapahtumat

ovat S1, . . . , Sl.

34

MEDIAANITESTEJA

à Jakauman kvantiileja voidaan testata useilla erilaisilla testeil-

la, jotka eivat vaadi populaatiojakaumilta juuri mitaan (mutta

ovat sitten heikompia kuin parametriset testit). Tallaisia ovat

– merkkitesti (kvantiilien ja erityisesti mediaanin testaukseen,

oleellisesti binomijakaumatesti).

– merkityn jarjestyksen testi (symmetrisille jakaumille ja vain

mediaanille).

35

– jarjestyssummatesti (kahden eri populaation mediaanien tes-

taukseen, nollahypoteesin mukaisesti jakaumat ovat samat!).

– Kruskal–Wallis-testi (usean eri jakauman mediaanien sa-

muuden testaukseen, nollahypoteesin mukaisesti jakaumat

ovat samat!).

à Huolimatta siita, etta kahdessa jalkimmaisessa testissa nolla-

hypoteesin mukaisesti jakaumat ovat samat, testeja ei oikein

voi kayttaa koko jakaumien samuustestiin, silla ne ovat siihen

tarkoitukseen heikkoja. Lahinna testit testaavat mediaaneja.

36

à Ratkaisua Behrens–Fisher-probleemaan ei tatakaan kautta tu-

le, silla jos jakaumat oletetaan samoiksi, niiden (mahdolliset)

varianssitkin ovat samat!

à Yhdessa t-testit ja eo. parametrittomat testit muodostavat ko-

koelman keskeissuuretesteja (odotusarvoille tai mediaaneille),

joiden valinta menee seuraavan kaavion mukaisesti ylhaalta

alas (ohjelmistot esittavat nama valinnat kayttajalle).

37

Havainnot pareittain?

Erotuksen jakauma normaali? Jakaumat samanmuotoiset?

Erotuksen jakauma symmetrinen?

t-testi erotuksille

Merkityn j rjestyksen testi erotuksille

Mediaanin merkkitesti erotuksille J rjestyssummatesti

Jakaumat normaalit?

Jakaumat normaalit?

t-testi Welch Satterthwaite-testi (?)

J rjestyssummatesti (?)

Kyll

Ei

38

populaatio - tunimath.tut.fi/~ruohonen/tpm.pdf · 2018. 11. 16. · à...

Documents