kursus02402 introduktiontilstatistik forelæsning7 ... · pdf fileoversigt 1...

Post on 01-Mar-2018

215 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Kursus 02402Introduktion til Statistik

Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit,(7.7-7.8,8.1-8.5)

Per Bruun Brockhoff

DTU Compute, Statistik og DataanalyseBygning 324, Rum 220Danmarks Tekniske Universitet2800 Lyngby – Danmarke-mail: perbb@dtu.dk

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 1 / 40

Oversigt1 Hypotesetest - en repetition

Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit

Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat

4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2

5 Parret t-testEksempel 2 - fortsat

6 R (R note 7)Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 2 / 40

Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5)

Hypotesetest (7.7-7.8,8.1-8.5)Test og konfidensintervallerHypotesetest for to gennemsnitRandomisering og ’parring’R

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 3 / 40

Hypotesetest - en repetition

Oversigt1 Hypotesetest - en repetition

Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit

Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat

4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2

5 Parret t-testEksempel 2 - fortsat

6 R (R note 7)Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 4 / 40

Hypotesetest - en repetition

Hypoteser

nul hypotese testes mod en alternativ hypotese

H0 : µ = µ0

H1 : µ 6= µ0

Bemærk: ’bevisbyrden’ er lagt på H0. Man vælger enten atacceptere H0 eller at forkaste H0

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 5 / 40

Hypotesetest - en repetition

Hypoteser

Et par tommelfingerregler ved formulering af hypoteser:I nulhypotesen anvendes så vidt muligt lighedstegn ’=’I den alternative hypotese placeres det udsagn som mangerne vil vise

Den alternative hypotese kan enten være ensidet ellertosidet, afhængig af hvad man gerne vil vise

tosidet: ’ 6=’ensidet: ’<’ eller ’>’

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 6 / 40

Hypotesetest - en repetition

Hypoteser

Når man tester statistiske hypoteser, kan man i princippetbegå to typer af fejl:

Type I: Fejlagtig forkaste H0 når H0 er sandType II: Fejlagtig acceptere H0 når H1 er sand

Vi definerer:

P (fejl af type I) = α

P (fejl af type II) = β

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 7 / 40

Hypotesetest - en repetition

Eksempel: formulering af hypoteser

Et ambulancefirma påstår at det i gennemsnit tager 20minutter fra et opkald til centralen modtages indtil enambulance er på stedet.Eksempelvis kan vi have målt tiderne:21.1 22.3 19.6 24.2...Hvis vi f.eks. ønsker at påvise, at det i gennemsnit tagerlængere tid end 20 minutter, bliver nul- og alternativhypotese:H0 : µ = 20 minutterH1 : µ > 20 minutter

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 8 / 40

Hypotesetest - en repetition

Eksempel

Hvilke fejl kan begås?Type I: Fejlagtig forkaster H0 når H0 er sanddvs. man fejlagtig konkluderer at det tager længere tid forambulancen at nå frem end 20 minutterType II: Fejlagtig accepterer H0 når H1 er sanddvs. man fejlagtig konkluderer at det tager 20 minutter forambulancen at nå frem

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 9 / 40

Hypotesetest - en repetition

Valg af signifikansniveau α

Man vælger signifikansniveau α ud fra hvor stor type Ifejl man kan acceptereTypisk vælges α = 5%

Såfremt man vil reducere fejlen for en type I fejl må αvælges mindre, f.eks. α = 1%

Et mindre signifikansniveau betyder at det bliversværere at påvise H1

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 10 / 40

Hypotesetest - en repetition

Trin ved Hypotesetest

1 Opstil hypoteser og vælg signifikansniveau α (vælg"risiko-niveau")

2 Beregn teststørrelse (se på data)

3 Beregn p-værdi vha. teststørrelse(mål forskellen på dataog hypotesen)

4 Samenlign p-værdi med signifikansniveau og drag enkonklusion

∗ alternativt til (3)-(4) kan testet udføres ved atsammenligneteststørrelse med kritisk værdi

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 11 / 40

Hypotesetest - en repetition Hypotesetest og konfidensintervaller

Sammenhæng mellem hypoteseprøvning ogkonfidensintervaller

Vi betragter (1− α)100% konfidensinterval for µ(eksempel for lille n og ukendt σ):

x̄− tα/2 ·s√n< µ < x̄+ tα/2 ·

s√n

Konfidensintervallet svarer til acceptområdet (af H0), nårman tester hypotesen (med to-sidet alternativ):

H0 : µ = µ0

H1 : µ 6= µ0

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 12 / 40

Styrke og stikprøvestørrelse

Oversigt1 Hypotesetest - en repetition

Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit

Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat

4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2

5 Parret t-testEksempel 2 - fortsat

6 R (R note 7)Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 13 / 40

Styrke og stikprøvestørrelse

Styrke og stikprøvestørrelse

Hvordan kan sandsynligheden for fejl påvirkes?Ændre signifikansniveau αØge stikprøvestørrelsen, nTestets styrke defineres ved 1− β → Afsnit 7.7Krævet stikprøvestørrelse givet en ønsket styrke:

n =

(σzβ + zα

(µ0 − µ1)

)2

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 14 / 40

Hypotesetest for to gennemsnit

Oversigt1 Hypotesetest - en repetition

Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit

Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat

4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2

5 Parret t-testEksempel 2 - fortsat

6 R (R note 7)Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 15 / 40

Hypotesetest for to gennemsnit Eksempel 1

Eksempel 1

I et ernæringsstudie ønsker man at undersøge om der er enforskel i energiforbrug for forskellige typer (moderat fysiskkrævende) arbejde. I studiet har man målt energiforbrugetfor 9 sekretærer, som forventes at have et stillesiddendearbejde, og 9 sygeplejersker, som forventes at have et lidtmere fysisk betonet arbejde. Målingerne, angivet i MJ, ergivet i nedenstående tabel:

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 16 / 40

Hypotesetest for to gennemsnit Eksempel 1

Eksempel 1

A (sekretærer) B (sygeplejersker)7.53 9.217.48 11.518.08 12.798.09 11.8510.15 9.978.40 8.7910.88 9.696.13 9.687.90 9.19

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 17 / 40

Hypotesetest for to gennemsnit Generel formulering

Hypotesetest for to gennemsnit

Vi sammenligner gennemsnit (middelværdier) af 2stikprøverStikprøve 1: n1, x̄1 og s21Stikprøve 2: n2, x̄2 og s22

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 18 / 40

Hypotesetest for to gennemsnit Generel formulering

Formulering af Hypoteser

nul hypotese testes mod en alternativ hypotese (her vist foret to-sidet alternativ)

H0 : µ1 − µ2 = δ

H1 : µ1 − µ2 6= δ

Man vælger enten at acceptere H0 eller at forkaste H0

(Typisk er man interesseret i at teste med δ = 0)

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 19 / 40

Hypotesetest for to gennemsnit Med kendt varians

2. Beregning af teststørrelse

Ved hypoteseprøvning af 2 middelværdier (µ1 og µ2) fordata, der antages normalfordelt og varianser σ21 og σ22 erkendte, fås teststørrelsen

Z =(X̄1 − X̄2)− δ√σ21/n1 + σ22/n2

Det følger under nul hypotesen at Z ∼ N(0, 12). Herfrakan testets p-værdi beregnes

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 20 / 40

Hypotesetest for to gennemsnit Med kendt varians

Sammenligning med kritisk værdi

Ved hypoteseprøvning af to middelværdier (µ1 og µ2) fordata, der antages normalfordelt og σ21 og σ22 er kendte, fås

Alternativ Afvishypotese nul-hypotese hvis

µ1 − µ2 < δ Z < −zαµ1 − µ2 > δ Z > zαµ1 − µ2 6= δ Z < −zα/2

eller Z > zα/2

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 21 / 40

Hypotesetest for to gennemsnit Med "ukendt" varians - store stikprøver

Beregning af teststørrelse

Ved hypoteseprøvning af to middelværdier (µ1 og µ2) fordata hvor σ21 og σ22 er ukendte, men for store stikprøver, fåsteststørrelsen

Z =(X̄1 − X̄2)− δ√s21/n1 + s22/n2

Det følger under nul hypotesen at Z ∼ N(0, 12). Herfrakan testets p-værdi beregnes.

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 22 / 40

Hypotesetest for to gennemsnit Med "ukendt" varians - store stikprøver

Sammenligning med kritisk værdi

Ved hypoteseprøvning af to middelværdi for data hvor σ21og σ22 er ukendte, men vi har store stikprøver, fås

Alternativ Afvishypotese nul-hypotese hvis

µ1 − µ2 < δ Z < −zαµ1 − µ2 > δ Z > zαµ1 − µ2 6= δ Z < −zα/2

eller Z > zα/2

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 23 / 40

Hypotesetest for to gennemsnit Med "ukendt" varians - små stikprøver, normalfordelinger

Beregning af teststørrelse

Ved hypoteseprøvning af to middelværdier for data derantages normalfordelt hvor σ21 og σ22 er ukendte (men medσ21 = σ22), og stikprøverne er små, fås teststørrelsen

t =(X̄1 − X̄2)− δ√s2p/n1 + s2p/n2

hvor

s2p =(n1 − 1)s21 + (n2 − 1)s22

n1 + n2 − 2

Idet t ∼ t(n1 + n2 − 2) kan testets p-værdi beregnes

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 24 / 40

Hypotesetest for to gennemsnit Med "ukendt" varians - små stikprøver, normalfordelinger

Sammenligning med kritisk værdi

Ved hypoteseprøvning af to middelværdi for data derantages normalfordelt og σ21 og σ22 er ukendte, og for småstikprøver:

Alternativ Afvishypotese nul-hypotese hvis

µ1 − µ2 < δ t < −tαµ1 − µ2 > δ t > tαµ1 − µ2 6= δ t < −tα/2

eller t > tα/2Ved opslag i tab. 4 vælges v = n1 + n2 − 2

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 25 / 40

Hypotesetest for to gennemsnit Eksempel 1 - fortsat

Eksempel 1

A (sekretærer) B (sygeplejersker)7.53 9.217.48 11.518.08 12.798.09 11.8510.15 9.978.40 8.7910.88 9.696.13 9.687.90 9.19

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 26 / 40

Hypotesetest for to gennemsnit Eksempel 1 - fortsat

Eksempel 1 - fortsat

Udfør et hypotesetest om energiforbruget (i middel) ved deto typer arbejde er ens. Anvend signifikansniveau α = 5%

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 27 / 40

Konfidensinterval for forskel i middelværdi

Oversigt1 Hypotesetest - en repetition

Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit

Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat

4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2

5 Parret t-testEksempel 2 - fortsat

6 R (R note 7)Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 28 / 40

Konfidensinterval for forskel i middelværdi

Beregning af konfidensinterval for forskel i middelværdi

For store stikprøver beregnes et (1− α)% konfidensintervalved:

x̄1 − x̄2 ± zα/2

√s21n1

+s22n2

(kendes σ21 og σ22 anvendes disse i stedet for s21 og s22)

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 29 / 40

Konfidensinterval for forskel i middelværdi

Beregning af konfidensinterval for forskel i middelværdi

For små stikprøver (ukendte σ21 og σ22) (men med σ21 = σ22)beregnes et (1− α)% konfidensinterval ved:

x̄1 − x̄2 ± tα/2

√(n1 − 1)s21 + (n2 − 1)s22

n1 + n2 − 2

√1

n1+

1

n2

Ved opslag i tabellen over t-fordelingen (tab. 4) vælgesantal frihedsgrader v = n1 + n2 − 2

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 30 / 40

Konfidensinterval for forskel i middelværdi Eksempel 1 - fortsat

Eksempel 1 - fortsat, konfidensinterval

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 31 / 40

Konfidensinterval for forskel i middelværdi Eksempel 2

Eksempel 2

I et studie er man interesseret i at sammenligne 2sovemidler A og B. For 10 testpersoner har man fåetfølgende resultater, der er givet i forlænget søvntid (i timer)

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 32 / 40

Konfidensinterval for forskel i middelværdi Eksempel 2

Eksempel 2 - fortsat

person A B

1 +0.7 +1.92 -1.6 +0.83 -0.2 +1.14 -1.2 +0.15 -1.0 -0.16 +3.4 +4.47 +3.7 +5.58 +0.8 +1.69 0 +4.610 +2.0 +3.4

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 33 / 40

Parret t-test

Oversigt1 Hypotesetest - en repetition

Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit

Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat

4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2

5 Parret t-testEksempel 2 - fortsat

6 R (R note 7)Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 34 / 40

Parret t-test

Parret t-test

Vi betragter nu en situation hvor vi vil sammenligne 2middelværdier, men hvor data er parretHypotesetestet foregår derfor ved at undersøgeforskellen, Di, mellem de parrede observationer:

Di = Xi − Yi for i = 1, 2, ..., n

Vi kan herefter beregne middelværdi D̄ og varians S2D for

D. Test af D̄ gøres nu som de sædvanlige test for énmiddelværdi

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 35 / 40

Parret t-test Eksempel 2 - fortsat

Eksempel 2 - fortsat

person A B D = B − A1 +0.7 +1.9 +1.22 -1.6 +0.8 +2.43 -0.2 +1.1 +1.34 -1.2 +0.1 +1.35 -1.0 -0.1 +0.96 +3.4 +4.4 +1.07 +3.7 +5.5 +1.88 +0.8 +1.6 +0.89 0 +4.6 +4.610 +2.0 +3.4 +1.4

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 36 / 40

Parret t-test Eksempel 2 - fortsat

Eksempel 2 - fortsat

Udfør et hypotesetest sovemidlerne er lige effektive.Anvend signifikansniveau α = 5%

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 37 / 40

R (R note 7)

Oversigt1 Hypotesetest - en repetition

Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit

Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat

4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2

5 Parret t-testEksempel 2 - fortsat

6 R (R note 7)Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 38 / 40

R (R note 7)

R (R note 7)

> x1=c(10,13,16,19,17,15,20,23,15,16)> x2=c(13,16,20,25,18,16,27,30,17,19)> t.test(x1,x2,alt="less",conf.level=0.95,var.equal=TRUE)

Pooled-Variance Two-Sample t-Test

data: x1 and x2t = -1.779, df = 18, p-value = 0.04606alternative hypothesis: difference in means is less than 095 percent confidence interval:

-Inf -0.09349972sample estimates:mean of x mean of y

16.4 20.1

Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 39 / 40

R (R note 7)

Oversigt1 Hypotesetest - en repetition

Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit

Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat

4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2

5 Parret t-testEksempel 2 - fortsat

6 R (R note 7)Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 7 Foråret 2014 40 / 40

top related