populaatio - tunimath.tut.fi/~ruohonen/tpm.pdf · 2018. 11. 16. · à...
TRANSCRIPT
KASITTEITA
POPULAATIO
à Joukko, jota tutkitaan (aarellinen, aareton).
à Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numee-
riset suureet, luokittelut).
à Naiden valilla ei aina tehda eroa, kun puhutaan populaatioal-
kioista.
1
POPULAATIOJAKAUMA
à Jakauma, jonka populaation kiinnostavat arvot muodostavat.
à Jos populaatiosta valitaan satunnainen alkio eli siis arvo, ky-
seessa on ko. arvon todennakoisyysjakauma.
à Populaatiojakauman kautta paastaan kasiksi otossuureiden ja-
kaumiin ja siihen, mitka otossuureiden arvot ovat ”harvinaisia”
ja mitka taas eivat.
2
à Jakauma maaraytyy numeeristen arvojen osalta kertymana
P(X ≤ x) =merk. F (x),
missa X on satunnaisesti valittu arvo ja x kiintea lukuarvo.
à Usein jakauma voidaan erinaisten matemaattisten approksi-
maatiotulosten nojalla olettaa normaalijakaumaksi N(µ, σ2),
ts.
F (x) ∼=1
√2π σ
x∫−∞
e− 1
2σ2(z−µ)2
dz.
3
à Nain on esimerkiksi, jos kyseessa on samoin jakautuneiden
osien summa (Keskeinen raja-arvolause):
n = 3
n = 10n = 7
n = 2
n = 5
xx
xx
xx
.5
.4
.3
.2
.1
0. 10.8.6.4.2.0.
.6
.5
.4
.3
.2.10. 7.6.5.4.3.2.1.0.
.7
.6
.5
.4
.3
.2.10. 5.4.3.2.1.0.
.8
.6
.4
.2
0. 3.02.52.01.51.0.50.
1.0.8.6.4.20. 2.01.51.0.50.
1.81.61.41.21.0
.8
.6
.4
.20. 1.0.8.6.4.20.
n = 1
n = 5n = 3
n = 20
.20
.15
.10
.5e–1
0. 20.15.10.5.0.
.35
.30
.25
.20
.15
.10.5e–1
0. 10.8.6.4.2.0.
.5
.4
.3
.2.10. 5.4.3.2.1.0.
.8
.6
.4
.2
0. 3.02.52.01.51.0.50.
1.61.41.21.0
.8
.6
.4
.20. 2.01.51.0.50.
3.02.52.01.51.0
.5
1.0.8.6.4.20.
xx
xx
xx
n = 10
n = 1 n = 2
4
à Kaanteiskertyma antaa populaatiokvantiilin
qf = F−1(f) eli f = P(X ≤ qf) = F (qf).
à Esimerkiksi q0.5 = F−1(0.5) on populaatiomediaani, joka ja-
kaa populaatiojakauman kahtia.
à Alakvartiili q0.25 seka ylakvartiili q0.75 ovat myos usein esiin-
tyvia populaatiokvantiileja.
à Tilasto-ohjelmistot tulostavat nama estimoituina otoksesta:
5
Nicotinedata: Distribution Page 1 of 1
.5 1 1.5 2 2.5
100.0%
99.5%
97.5%
90.0%
75.0%
50.0%
25.0%
10.0%
2.5%
0.5%
0.0%
maximum
quartile
median
quartile
minimum
2.5500
2.5500
2.5478
2.3070
2.0150
1.7700
1.6325
1.2530
0.7232
0.7200
0.7200
Quantiles
Mean
Std Dev
Std Err Mean
upper 95% Mean
lower 95% Mean
N
1.77425
0.3904559
0.0617365
1.8991239
1.6493761
40
Moments
Content
Distributions
6
REALISOITUNUT OTOS
à Populaatiosta satunnaisesti valittu n alkion nayte x1, . . . , xn.
à Jalleen ollaan kiinnostuneita arvoista.
à Otoksesta lasketaan yksi tai useampia otossuureita (keskiarvo,
varianssi, hajonta, mediaani jne.). Tilasto-ohjelmistot antavat
naita hyvan kokoelman.
à Periaatteessa yleensa palauttaen (toisin kuin lotossa!).
7
ESTIMOINTI
à Tarkoitus on otokseen tulleista arvoista laskien saada hyva app-
roksimaatio jollekin populaatiota koskevalle numeeriselle suu-
reelle (odotusarvo, varianssi, mediaani tai jokin muu todenna-
koisyys jne.).
à Esimerkiksi populaation odotusarvon (keskiarvon) ja varianssin
tavallisia estimaatteja ovat otoskeskiarvo ja otosvarianssi
x =1
n(x1 + · · ·+ xn) ja s2 =
1
n− 1
n∑i=1
(xi − x)2.
8
à Populaation mediaanin, kvartiilien ja muiden kvantiilien esti-
maatteina ovat vastaavat otoksesta tavalla tai toisella lasketut
luvut (tapoja on useita).
9
LUOTTAMUSVALIT
SATUNNAINEN OTOS
à Ajatellaan otosta riippumattomien satunnaisten arvojen (sa-
tunnaismuuttujien) X1, . . . , Xn kokoelmana, joista kullakin
on sama jakauma kuin populaatiolla, ikaankuin abstraktisti ot-
tamatta varsinaisia naytteita. (Kaytetaan isoja kirjaimia satun-
naismuuttujille.)
à Kukin otossuure muuttuu nain myos satunnaismuuttujaksi.
10
à Esimerkiksi otoskeskiarvo ja otosvarianssi ovat silloin satun-
naismuuttujia:
X =1
n(X1 + · · ·+Xn) ja S2 =
1
n− 1
n∑i=1
(Xi −X)2.
à Otossuureilla on kullakin nain oma jakaumansa, joka periaat-
teessa saadaan populaatiojakaumasta.
à Jos populaatiojakauma on normaalijakauma, tullaan tata kaut-
ta moniin muihin tavallisiin tilastollisiin jakaumiin (χ2-jakau-
ma, t-jakauma, F-jakauma jne.).
11
LUOTTAMUSVALIT
à Luottamusvali muodostetaan jollekin populaatiota koskevalle
kiinnostavalle (mutta tuntemattomalle) lukuarvoiselle suureel-
le.
à Kyseessa voi olla esimerkiksi populaatiojakauman jokin para-
metri (odotusarvo, varianssi jne.) tai todennakoisyys (mediaa-
ni, kvartiilit jne.).
à Luottamusvali voi olla kaksipuolinen tai toispuolinen.
12
à Luottamusvali muodostetaan kayttaen saatua realisoitunutta
otosta. Otoksen satunnaisuudesta johtuen se voi olla ko. luot-
tamusvalin laskua ajatellen ”hyva” tai ”huono”.
à Asian kvantisoimiseksi kiinnitetaan valin haluttu luottamusas-
te muodossa 100(1− α) % ja vaaditaan, etta todennakoisyys
sille, etta saatu luottamusvali pitaa sisallaan kyseisen kiinnos-
tavan suureen oikean arvon, on ainakin 1− α.
à Ts. todennakoisyys sille, etta saadaan luottamusvalia ajatellen
”huono” otos, on enintaan α.
13
à Varsinainen luottamusvali saadaan, kun valitaan sopiva otos-
suure ja etsitaan sille arvot, joiden valissa se (satunnaismuuttu-
jana) on ainakin todennakoisyydella 1− α (toispuoliselle luot-
tamusvalille riittaa vain toinen arvo).
à Naista saadaan sitten luottamusvalin paatepisteet manipuloi-
malla vahan saatua (kaksois)epayhtaloa.
à Esimerkiksi normaalijakautuneen populaation tapauksessa saa-
daan luottamusvali sen odotusarvolle µ kayttaen otoskeskiar-
voa x ja -varianssia s2 seka t-jakaumaa, ja varianssille σ2 kayt-
taen otosvarianssia s2 seka χ2-jakaumaa.14
à Katsotaan esimerkiksi 100 simuloitua luottamusvalia N(0, 1)-
jakaumalle, ensin luottamusasteille 90 % ja 95 %
−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 10
10
20
30
40
50
60
70
80
90
100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (90%)
−1 −0.5 0 0.5 1 1.50
10
20
30
40
50
60
70
80
90
100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (95%)
15
ja sitten luottamusasteelle 99 %
−1.5 −1 −0.5 0 0.5 1 1.50
10
20
30
40
50
60
70
80
90
100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (99%)
16
à Toinen tavallinen esimerkki on binomijakauman parametrin p
luottamusvali. Talloin N riippumattomassa kokeessa kirjataan
ylos niiden kokeiden lukumaara x, joissa tapahtui tietty asia
(esimerkiksi lantinheitto ja klaava).
à Parametrin p estimaatti on luonnollisesti x/N .
à Luottamusvali sille onkin sitten hankalampi. Tarkka menetel-
ma (ns. Clopper–Pearson-vali) on mutkikas, normaaliapprok-
simaatioon perustuvat menetelmat (esimerkiksi ns. Wilsonin
vali ja ns. Waldin vali) taas epatarkkoja.
17
à Clopper–Pearson-vali ja Wilsonin valikin menettelee,
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10.9
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1
p
Oik
ea lu
otta
mus
aste
Bin(20,p)−jakauman oikea luottamusaste vs. 0.95: 100000 toistoa, Clopper−Pearson
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10.9
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1
pO
ikea
luot
tam
usas
te
Bin(20,p)−jakauman oikea luottamusväli vs. 0.95: 1000000 toistoa, Wilson
18
mutta Waldin vali on jo toivottoman huono
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
p
Oik
ea lu
otta
mus
aste
Bin(20,p)−jakauman oikea luottamusaste vs. 0.95: 1000000 toistoa, Wald
19
à Muita tavallisia suureita, joille lasketaan luottamusvaleja, ovat
mm.
– populaatioiden odotusarvojen erotus
– populaatioiden varianssien suhde
– regressiomallien kertoimet
à Tilasto-ohjelmistot laskevat osin automaattisesti monia luot-
tamusvaleja.
à Muita luottamusvalin tapaisia valeja ovat ennustevali ja tole-
ranssivali.20
HYPOTEESIEN TESTAUS
à Tilastollinen hypoteesi koskee jotain populaatio(ide)n ominai-
suutta, joka joko on voimassa tai sitten ei. Usein tallainen
hypoteesi koskee jotain numeerista suuretta, esimerkiksi po-
pulaatiojakauman parametria.
à Testattaessa asetetaan nollahypoteesi H0 (”on voimassa”) ja
sille vaihtoehtoinen hypoteesi H1 (”ei ole voimassa”). Itse testi
tehdaan olettaen nollahypoteesin olevan voimassa ja yrittaen
etsia otoks(i)en perusteella todistetta sita vastaan.
21
à Todiste nollahypoteesia vastaan on otoksesta (otoksista) las-
ketun testisuureen osuminen epatodennakoiselle alueelle.
à ”Halutaanko” nollahypoteesi hylata vai ei riippuu tilanteesta.
à Jos esimerkiksi halutaan nayttaa parannusta tapahtuneen edel-
liseen verrattuna ja nollahypoteesin mukaan nain ei ole, halut-
taneen nollahypoteesi nimenomaan hylata. Samoin regressio-
mallin F-testissa, jossa nollahypoteesin mukaan malli on mer-
kitykseton.
22
à Regressiomallin epasopivuustestissa (”lack-of-fit”) taas nolla-
hypoteesin mukaan malli on sopiva. Samoin jakauman sopi-
vuustestissa (Kolmogorov–Smirnov, Lilliefors, χ2 jne.) popu-
laatiojakauma on nollahypoteesin mukaisesti haluttu. Nollahy-
poteesia ei talloin erityisesti haluttane hylata.
23
TESTIVIRHEET
à Testissa voi syntya kahdenlainen vaara paatos:
– Tyypin 1 virhe: Nollahypoteesi hylataan turhaan (”vaara ha-
lytys”).
– Tyypin 2 virhe: Nollahypoteesia ei hylata, vaikka pitaisi.
à Koska testaus tapahtuu satunnaisista otoksista saatua testi-
suuretta kayttaen, tyypin 1 virheella on oma todennakoisyy-
tensa, jota merkitaan usein α:lla ja kutsutaan riski(taso)ksi.
24
à Tyypin 2 virheen todennakoisyytta voidaan usein vain arvioida,
sita merkitaan yleisesti β:lla. 1− β on testin voimakkuus.
à Ideaalisesti riski α asetetaan etukateen ja H0 hylataan vain jos
vaaran hylkaamisen riski on enintaan α. Tama ehto maarittaa
otoksesta saadulle testisuureen arvolle kriittisen alueen, jolle
osuttaessa H0 voidaan hylata ilman liian suurta riskia.
à Toinen tapa on laskea realisoitunutta testisuureen arvoa vas-
taava pienin riski P , jolla nollahypoteesi voidaan hylata, ns.
P-arvo. H0 hylataan, jos P ≤ α. Usein esitetaan vain P-arvo.
25
PARAMETRIEN TESTAUS
à Populaatiojakauman parametrin θ testaus on tavallinen. Sil-
loin nollahypoteesi on H0: θ = θ0 ja vaihtoehtoinen hypoteesi
jokin seuraavista:H1: θ > θ0 (toispuolinen testi)H1: θ < θ0 (toispuolinen testi)H1: θ 6= θ0 (kaksipuolinen testi)
à Myos kahden populaation parametrien θ1 ja θ2 vertailu on
tavallinen testin aihe. Talloin nollahypoteesi on usein muotoa
H0: θ1 − θ2 = d0 tai H0: θ1/θ2 = r0, missa d0 ja r0 ovat
annettuja lukuja, ja vaihtoehtoiset hypoteesit kuten ylla.
26
à Periaatteessa parametria koskeva hypoteesi voidaan testata
riskitasolla α muodostamalla 100(1− α) % luottamusvali ko.
parametrille ja tarkistamalla kuuluuko nollahypoteesin mukai-
nen arvo luottamusvalille vai ei (jolloin H0 hylataan). Toispuo-
liselle testille tarvitaan toispuolinen luottamusvali.
à Talloin voidaan tyytya pelkkaan luottamusvaliinkiin, sehan an-
taa enemman informaatiota tilanteesta.
27
t-TESTIT
à Normaalijakautuneen populaation odotusarvon µ vertaaminen
annettuun arvoon µ0 tehdaan ns. t-testilla kayttaen t-jakau-
maa. Otoskoko on silloin pieni tai pienehko. Ohjelmistot teke-
vat osan t-testeista automaattisesti.
à Jos populaatiovarianssi on tunnettu, testi voidaan tehda nor-
maalijakaumaa kayttaen ns. z-testina. Ja vaikka populaatio-
jakauma ei olisikaan normaali, mikali otoskoko on suurehko.
t-testikaan ei ole kovin herkka epanormaalisuudelle.
28
à t-testilla voidaan myos verrata kahden eri normaalijakautu-
neen populaation odotusarvoja µ1 ja µ1 nollahypoteesin H0:
µ1 − µ2 = d0 muodossa, olettaen, etta populaatioiden va-
rianssit ovat samat (vaikkakin tuntemattomat).
à Usein kaksi populaatiota voidaan asettaa alkioittain pareittain
vastaamaan toisiaan (tyypillisesti: ”ennen kasittelya – kasitte-
lyn jalkeen”), jolloin myos otokset vastaavat alkioittain toisi-
aan. Talloin voidaan t-testilla testata alkioiden erotuksen odo-
tusarvoa, olettaen sille normaalijakauma. Itse populaatiojakau-
mat voivat olla silloin mita vaan.
29
BEHRENS–FISHER-PROBLEEMA
à Entas tapaus, jossa populaatiojakaumat ovat normaalit, mut-
ta varianssit eivat (ehka) ole samat? Silloin otoksista saadut
otossuureet eivat riitakaan populaatioiden odotusarvojen tes-
taamiseen.
à Asian jonkinlaiseksi selvittamiseksi on kehitetty useita approk-
simatiivisia menetelmia, mm. ns. Welch–Satterthwaite-approk-
simaatio, joiden kaytosta ollaan monta mielta. Ohjelmistot
kayttavat niita kuitenkin yleisesti.
30
MUITA
à Normaalijakautuneiden populaatioiden muita tavallisia testeja
ovat mm. populaatiovarianssin vertaaminen annettuun varians-
siin ja eri populaatioiden varianssien vertaaminen keskenaan.
31
PARAMETRITTOMAT TESTIT
à Testeja, joissa ei oleteta populaatiojakaumien muodosta juuri-
kaan mitaan (esimerkiksi normaalisuutta), kutsutaan paramet-
rittomiksi.
à Talloin testataan lahinna todennakoisyyksiin liittyvia asioita
kuten kvantiileja (erityisesti mediaaneja), riippumattomuutta
ja jakaumien samuutta.
32
χ2-TESTIT
à χ2-testeilla voidaan testata (yleensa aarellisille jakaumille)
– jakauman samuutta annetun jakauman kanssa (sopivuustes-
ti).
– usean jakauman keskinaista samuutta (homogeenisuustes-
ti).
– kahden jakauman riippumattomuutta (riippumattomuustes-
ti).
33
à Testidata esitetaan usein ns. kontingenssitaulun muodossa:
S1 S2 · · · Sl ΣT1 f1,1 f1,2 · · · f1,l f1T2 f2,1 f2,2 · · · f2,l f2... ... ... . . . ... ...Tk fk,1 fk,2 · · · fk,l fkΣ g1 g2 · · · gl n
Talloin mahdolliset tapahtumat ovat S1, . . . , Sl (1. jakauma)
ja T1, . . . , Tk (2. jakauma). Vaihtoehtoisesti T1, . . . , Tk maa-
rittelevat k jakaumaa, joissa kaikissa mahdolliset tapahtumat
ovat S1, . . . , Sl.
34
MEDIAANITESTEJA
à Jakauman kvantiileja voidaan testata useilla erilaisilla testeil-
la, jotka eivat vaadi populaatiojakaumilta juuri mitaan (mutta
ovat sitten heikompia kuin parametriset testit). Tallaisia ovat
– merkkitesti (kvantiilien ja erityisesti mediaanin testaukseen,
oleellisesti binomijakaumatesti).
– merkityn jarjestyksen testi (symmetrisille jakaumille ja vain
mediaanille).
35
– jarjestyssummatesti (kahden eri populaation mediaanien tes-
taukseen, nollahypoteesin mukaisesti jakaumat ovat samat!).
– Kruskal–Wallis-testi (usean eri jakauman mediaanien sa-
muuden testaukseen, nollahypoteesin mukaisesti jakaumat
ovat samat!).
à Huolimatta siita, etta kahdessa jalkimmaisessa testissa nolla-
hypoteesin mukaisesti jakaumat ovat samat, testeja ei oikein
voi kayttaa koko jakaumien samuustestiin, silla ne ovat siihen
tarkoitukseen heikkoja. Lahinna testit testaavat mediaaneja.
36
à Ratkaisua Behrens–Fisher-probleemaan ei tatakaan kautta tu-
le, silla jos jakaumat oletetaan samoiksi, niiden (mahdolliset)
varianssitkin ovat samat!
à Yhdessa t-testit ja eo. parametrittomat testit muodostavat ko-
koelman keskeissuuretesteja (odotusarvoille tai mediaaneille),
joiden valinta menee seuraavan kaavion mukaisesti ylhaalta
alas (ohjelmistot esittavat nama valinnat kayttajalle).
37
Havainnot pareittain?
Erotuksen jakauma normaali? Jakaumat samanmuotoiset?
Erotuksen jakauma symmetrinen?
t-testi erotuksille
Merkityn j rjestyksen testi erotuksille
Mediaanin merkkitesti erotuksille J rjestyssummatesti
Jakaumat normaalit?
Jakaumat normaalit?
t-testi Welch Satterthwaite-testi (?)
J rjestyssummatesti (?)
Kyll
Ei
38