kursus02402 introduktiontilstatistik forelæsning7 ... · pdf fileoversigt 1...
TRANSCRIPT
Kursus 02402Introduktion til Statistik
Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit,(7.7-7.8,8.1-8.5)
Per Bruun Brockhoff
DTU Compute, Statistik og DataanalyseBygning 324, Rum 220Danmarks Tekniske Universitet2800 Lyngby – Danmarke-mail: [email protected]
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 1 / 40
Oversigt1 Hypotesetest - en repetition
Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit
Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat
4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2
5 Parret t-testEksempel 2 - fortsat
6 R (R note 7)Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 2 / 40
Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5)
Hypotesetest (7.7-7.8,8.1-8.5)Test og konfidensintervallerHypotesetest for to gennemsnitRandomisering og ’parring’R
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 3 / 40
Hypotesetest - en repetition
Oversigt1 Hypotesetest - en repetition
Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit
Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat
4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2
5 Parret t-testEksempel 2 - fortsat
6 R (R note 7)Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 4 / 40
Hypotesetest - en repetition
Hypoteser
nul hypotese testes mod en alternativ hypotese
H0 : µ = µ0
H1 : µ 6= µ0
Bemærk: ’bevisbyrden’ er lagt på H0. Man vælger enten atacceptere H0 eller at forkaste H0
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 5 / 40
Hypotesetest - en repetition
Hypoteser
Et par tommelfingerregler ved formulering af hypoteser:I nulhypotesen anvendes så vidt muligt lighedstegn ’=’I den alternative hypotese placeres det udsagn som mangerne vil vise
Den alternative hypotese kan enten være ensidet ellertosidet, afhængig af hvad man gerne vil vise
tosidet: ’ 6=’ensidet: ’<’ eller ’>’
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 6 / 40
Hypotesetest - en repetition
Hypoteser
Når man tester statistiske hypoteser, kan man i princippetbegå to typer af fejl:
Type I: Fejlagtig forkaste H0 når H0 er sandType II: Fejlagtig acceptere H0 når H1 er sand
Vi definerer:
P (fejl af type I) = α
P (fejl af type II) = β
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 7 / 40
Hypotesetest - en repetition
Eksempel: formulering af hypoteser
Et ambulancefirma påstår at det i gennemsnit tager 20minutter fra et opkald til centralen modtages indtil enambulance er på stedet.Eksempelvis kan vi have målt tiderne:21.1 22.3 19.6 24.2...Hvis vi f.eks. ønsker at påvise, at det i gennemsnit tagerlængere tid end 20 minutter, bliver nul- og alternativhypotese:H0 : µ = 20 minutterH1 : µ > 20 minutter
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 8 / 40
Hypotesetest - en repetition
Eksempel
Hvilke fejl kan begås?Type I: Fejlagtig forkaster H0 når H0 er sanddvs. man fejlagtig konkluderer at det tager længere tid forambulancen at nå frem end 20 minutterType II: Fejlagtig accepterer H0 når H1 er sanddvs. man fejlagtig konkluderer at det tager 20 minutter forambulancen at nå frem
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 9 / 40
Hypotesetest - en repetition
Valg af signifikansniveau α
Man vælger signifikansniveau α ud fra hvor stor type Ifejl man kan acceptereTypisk vælges α = 5%
Såfremt man vil reducere fejlen for en type I fejl må αvælges mindre, f.eks. α = 1%
Et mindre signifikansniveau betyder at det bliversværere at påvise H1
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 10 / 40
Hypotesetest - en repetition
Trin ved Hypotesetest
1 Opstil hypoteser og vælg signifikansniveau α (vælg"risiko-niveau")
2 Beregn teststørrelse (se på data)
3 Beregn p-værdi vha. teststørrelse(mål forskellen på dataog hypotesen)
4 Samenlign p-værdi med signifikansniveau og drag enkonklusion
∗ alternativt til (3)-(4) kan testet udføres ved atsammenligneteststørrelse med kritisk værdi
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 11 / 40
Hypotesetest - en repetition Hypotesetest og konfidensintervaller
Sammenhæng mellem hypoteseprøvning ogkonfidensintervaller
Vi betragter (1− α)100% konfidensinterval for µ(eksempel for lille n og ukendt σ):
x̄− tα/2 ·s√n< µ < x̄+ tα/2 ·
s√n
Konfidensintervallet svarer til acceptområdet (af H0), nårman tester hypotesen (med to-sidet alternativ):
H0 : µ = µ0
H1 : µ 6= µ0
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 12 / 40
Styrke og stikprøvestørrelse
Oversigt1 Hypotesetest - en repetition
Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit
Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat
4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2
5 Parret t-testEksempel 2 - fortsat
6 R (R note 7)Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 13 / 40
Styrke og stikprøvestørrelse
Styrke og stikprøvestørrelse
Hvordan kan sandsynligheden for fejl påvirkes?Ændre signifikansniveau αØge stikprøvestørrelsen, nTestets styrke defineres ved 1− β → Afsnit 7.7Krævet stikprøvestørrelse givet en ønsket styrke:
n =
(σzβ + zα
(µ0 − µ1)
)2
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 14 / 40
Hypotesetest for to gennemsnit
Oversigt1 Hypotesetest - en repetition
Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit
Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat
4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2
5 Parret t-testEksempel 2 - fortsat
6 R (R note 7)Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 15 / 40
Hypotesetest for to gennemsnit Eksempel 1
Eksempel 1
I et ernæringsstudie ønsker man at undersøge om der er enforskel i energiforbrug for forskellige typer (moderat fysiskkrævende) arbejde. I studiet har man målt energiforbrugetfor 9 sekretærer, som forventes at have et stillesiddendearbejde, og 9 sygeplejersker, som forventes at have et lidtmere fysisk betonet arbejde. Målingerne, angivet i MJ, ergivet i nedenstående tabel:
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 16 / 40
Hypotesetest for to gennemsnit Eksempel 1
Eksempel 1
A (sekretærer) B (sygeplejersker)7.53 9.217.48 11.518.08 12.798.09 11.8510.15 9.978.40 8.7910.88 9.696.13 9.687.90 9.19
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 17 / 40
Hypotesetest for to gennemsnit Generel formulering
Hypotesetest for to gennemsnit
Vi sammenligner gennemsnit (middelværdier) af 2stikprøverStikprøve 1: n1, x̄1 og s21Stikprøve 2: n2, x̄2 og s22
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 18 / 40
Hypotesetest for to gennemsnit Generel formulering
Formulering af Hypoteser
nul hypotese testes mod en alternativ hypotese (her vist foret to-sidet alternativ)
H0 : µ1 − µ2 = δ
H1 : µ1 − µ2 6= δ
Man vælger enten at acceptere H0 eller at forkaste H0
(Typisk er man interesseret i at teste med δ = 0)
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 19 / 40
Hypotesetest for to gennemsnit Med kendt varians
2. Beregning af teststørrelse
Ved hypoteseprøvning af 2 middelværdier (µ1 og µ2) fordata, der antages normalfordelt og varianser σ21 og σ22 erkendte, fås teststørrelsen
Z =(X̄1 − X̄2)− δ√σ21/n1 + σ22/n2
Det følger under nul hypotesen at Z ∼ N(0, 12). Herfrakan testets p-værdi beregnes
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 20 / 40
Hypotesetest for to gennemsnit Med kendt varians
Sammenligning med kritisk værdi
Ved hypoteseprøvning af to middelværdier (µ1 og µ2) fordata, der antages normalfordelt og σ21 og σ22 er kendte, fås
Alternativ Afvishypotese nul-hypotese hvis
µ1 − µ2 < δ Z < −zαµ1 − µ2 > δ Z > zαµ1 − µ2 6= δ Z < −zα/2
eller Z > zα/2
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 21 / 40
Hypotesetest for to gennemsnit Med "ukendt" varians - store stikprøver
Beregning af teststørrelse
Ved hypoteseprøvning af to middelværdier (µ1 og µ2) fordata hvor σ21 og σ22 er ukendte, men for store stikprøver, fåsteststørrelsen
Z =(X̄1 − X̄2)− δ√s21/n1 + s22/n2
Det følger under nul hypotesen at Z ∼ N(0, 12). Herfrakan testets p-værdi beregnes.
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 22 / 40
Hypotesetest for to gennemsnit Med "ukendt" varians - store stikprøver
Sammenligning med kritisk værdi
Ved hypoteseprøvning af to middelværdi for data hvor σ21og σ22 er ukendte, men vi har store stikprøver, fås
Alternativ Afvishypotese nul-hypotese hvis
µ1 − µ2 < δ Z < −zαµ1 − µ2 > δ Z > zαµ1 − µ2 6= δ Z < −zα/2
eller Z > zα/2
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 23 / 40
Hypotesetest for to gennemsnit Med "ukendt" varians - små stikprøver, normalfordelinger
Beregning af teststørrelse
Ved hypoteseprøvning af to middelværdier for data derantages normalfordelt hvor σ21 og σ22 er ukendte (men medσ21 = σ22), og stikprøverne er små, fås teststørrelsen
t =(X̄1 − X̄2)− δ√s2p/n1 + s2p/n2
hvor
s2p =(n1 − 1)s21 + (n2 − 1)s22
n1 + n2 − 2
Idet t ∼ t(n1 + n2 − 2) kan testets p-værdi beregnes
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 24 / 40
Hypotesetest for to gennemsnit Med "ukendt" varians - små stikprøver, normalfordelinger
Sammenligning med kritisk værdi
Ved hypoteseprøvning af to middelværdi for data derantages normalfordelt og σ21 og σ22 er ukendte, og for småstikprøver:
Alternativ Afvishypotese nul-hypotese hvis
µ1 − µ2 < δ t < −tαµ1 − µ2 > δ t > tαµ1 − µ2 6= δ t < −tα/2
eller t > tα/2Ved opslag i tab. 4 vælges v = n1 + n2 − 2
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 25 / 40
Hypotesetest for to gennemsnit Eksempel 1 - fortsat
Eksempel 1
A (sekretærer) B (sygeplejersker)7.53 9.217.48 11.518.08 12.798.09 11.8510.15 9.978.40 8.7910.88 9.696.13 9.687.90 9.19
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 26 / 40
Hypotesetest for to gennemsnit Eksempel 1 - fortsat
Eksempel 1 - fortsat
Udfør et hypotesetest om energiforbruget (i middel) ved deto typer arbejde er ens. Anvend signifikansniveau α = 5%
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 27 / 40
Konfidensinterval for forskel i middelværdi
Oversigt1 Hypotesetest - en repetition
Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit
Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat
4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2
5 Parret t-testEksempel 2 - fortsat
6 R (R note 7)Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 28 / 40
Konfidensinterval for forskel i middelværdi
Beregning af konfidensinterval for forskel i middelværdi
For store stikprøver beregnes et (1− α)% konfidensintervalved:
x̄1 − x̄2 ± zα/2
√s21n1
+s22n2
(kendes σ21 og σ22 anvendes disse i stedet for s21 og s22)
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 29 / 40
Konfidensinterval for forskel i middelværdi
Beregning af konfidensinterval for forskel i middelværdi
For små stikprøver (ukendte σ21 og σ22) (men med σ21 = σ22)beregnes et (1− α)% konfidensinterval ved:
x̄1 − x̄2 ± tα/2
√(n1 − 1)s21 + (n2 − 1)s22
n1 + n2 − 2
√1
n1+
1
n2
Ved opslag i tabellen over t-fordelingen (tab. 4) vælgesantal frihedsgrader v = n1 + n2 − 2
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 30 / 40
Konfidensinterval for forskel i middelværdi Eksempel 1 - fortsat
Eksempel 1 - fortsat, konfidensinterval
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 31 / 40
Konfidensinterval for forskel i middelværdi Eksempel 2
Eksempel 2
I et studie er man interesseret i at sammenligne 2sovemidler A og B. For 10 testpersoner har man fåetfølgende resultater, der er givet i forlænget søvntid (i timer)
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 32 / 40
Konfidensinterval for forskel i middelværdi Eksempel 2
Eksempel 2 - fortsat
person A B
1 +0.7 +1.92 -1.6 +0.83 -0.2 +1.14 -1.2 +0.15 -1.0 -0.16 +3.4 +4.47 +3.7 +5.58 +0.8 +1.69 0 +4.610 +2.0 +3.4
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 33 / 40
Parret t-test
Oversigt1 Hypotesetest - en repetition
Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit
Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat
4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2
5 Parret t-testEksempel 2 - fortsat
6 R (R note 7)Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 34 / 40
Parret t-test
Parret t-test
Vi betragter nu en situation hvor vi vil sammenligne 2middelværdier, men hvor data er parretHypotesetestet foregår derfor ved at undersøgeforskellen, Di, mellem de parrede observationer:
Di = Xi − Yi for i = 1, 2, ..., n
Vi kan herefter beregne middelværdi D̄ og varians S2D for
D. Test af D̄ gøres nu som de sædvanlige test for énmiddelværdi
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 35 / 40
Parret t-test Eksempel 2 - fortsat
Eksempel 2 - fortsat
person A B D = B − A1 +0.7 +1.9 +1.22 -1.6 +0.8 +2.43 -0.2 +1.1 +1.34 -1.2 +0.1 +1.35 -1.0 -0.1 +0.96 +3.4 +4.4 +1.07 +3.7 +5.5 +1.88 +0.8 +1.6 +0.89 0 +4.6 +4.610 +2.0 +3.4 +1.4
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 36 / 40
Parret t-test Eksempel 2 - fortsat
Eksempel 2 - fortsat
Udfør et hypotesetest sovemidlerne er lige effektive.Anvend signifikansniveau α = 5%
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 37 / 40
R (R note 7)
Oversigt1 Hypotesetest - en repetition
Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit
Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat
4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2
5 Parret t-testEksempel 2 - fortsat
6 R (R note 7)Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 38 / 40
R (R note 7)
R (R note 7)
> x1=c(10,13,16,19,17,15,20,23,15,16)> x2=c(13,16,20,25,18,16,27,30,17,19)> t.test(x1,x2,alt="less",conf.level=0.95,var.equal=TRUE)
Pooled-Variance Two-Sample t-Test
data: x1 and x2t = -1.779, df = 18, p-value = 0.04606alternative hypothesis: difference in means is less than 095 percent confidence interval:
-Inf -0.09349972sample estimates:mean of x mean of y
16.4 20.1
Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 39 / 40
R (R note 7)
Oversigt1 Hypotesetest - en repetition
Hypotesetest og konfidensintervaller2 Styrke og stikprøvestørrelse3 Hypotesetest for to gennemsnit
Eksempel 1Generel formuleringMed kendt variansMed "ukendt" varians - store stikprøverMed "ukendt" varians - små stikprøver, normalfordelingerEksempel 1 - fortsat
4 Konfidensinterval for forskel i middelværdiEksempel 1 - fortsatEksempel 2
5 Parret t-testEksempel 2 - fortsat
6 R (R note 7)Per Bruun Brockhoff ([email protected]) Introduktion til Statistik, Forelæsning 7 Foråret 2014 40 / 40