medisinsk statistikk del i, høst 2009 (klmed 8004 /...

29
1 1 Eirik Skogvoll Overlege/ 1.amanuensis dr.med. Det medisinske fakultet, NTNU Klinikk for anestesi og akuttmedisin, St. Olavs Hospital Trondheim Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004) 2 Innføring i medisinsk statistikk Del I (KLMED8004/ KLH3004) en variabel Deskriptiv statistikk Grafisk fremstilling Sannsynlighet Tilfeldig variabel Sannsynlighetsfordeling Hypotesetesting Konfidensintervall Ett- og to-utvalgsproblem Ikke-parametriske metoder Del II (KLMED8005) “flervariabel” Tabellanalyse Korrelasjonsanalyse Regresjon ANOVA Epidemiologiske metoder Overlevelsesanalyse Logistisk regresjon

Upload: phamnga

Post on 14-Mar-2019

222 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

1

1

Eirik SkogvollOverlege/ 1.amanuensis dr.med.Det medisinske fakultet, NTNUKlinikk for anestesi og akuttmedisin, St. Olavs HospitalTrondheim

Medisinsk statistikk del I, høst2009 (KLMED 8004 / KLH3004)

2

Innføring i medisinsk statistikk

Del I (KLMED8004/ KLH3004)en variabel

• Deskriptiv statistikk• Grafisk fremstilling• Sannsynlighet• Tilfeldig variabel• Sannsynlighetsfordeling• Hypotesetesting• Konfidensintervall• Ett- og to-utvalgsproblem• Ikke-parametriske metoder

Del II (KLMED8005) “flervariabel”• Tabellanalyse• Korrelasjonsanalyse• Regresjon• ANOVA• Epidemiologiske metoder• Overlevelsesanalyse• Logistisk regresjon

Page 2: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

2

3

Statistikk-kurs ved DMF

• KLMED8004 Medisinsk statistikk del I. Høst- Dr. grads studenter

• KLH3004 Medisinsk statistikk. Høst.- Master klinisk helsevitenskap

• KLMED8005 Medisinsk statistikk del II. Vår- Dr. grads studenter

• KLMED8006 Anvendt medisinsk statistikk. VårSeminarserie. - Dr. grads studenter. Enkeltforelesninger kan følges med utbytte.

4

Hva kursene ikke handler om...

• Registrering, håndtering og manipulering av ”data” generelt• Oppbygging av databaser, kobling mot diagnoseregistre• Utforming og tolkning av spørreskjema• Epidemiologi

Page 3: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

3

5

Dag 1

• Praktisk om kurset• Hva er statistikk?• Statistisk terminologi og notasjon• Deskriptiv statistikk• Grafisk fremstilling

6

Praktisk...• Kursets hjemmeside:

http://folk.ntnu.no/slyderse/medstat/medstatI_h09.html• Forelesning onsdager kl. 1215-1400, + i blokkuke (KLH3004)

Sted: Sjekk hjemmesiden!• Tillegg:

Intro til R (24.08), Stata (19.08), SPSS (25.08 og 31.08). Ikke veldig viktig for dette kurset.Se hjemmesiden for detaljer og litteraturforslag.

• Kursleder: Professor Stian Lydersen ([email protected]), AKF, tlf. 725 75428

• Kurssekretær: Mariann Hansen ([email protected]), IKM, tlf. 725 98660

Page 4: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

4

7

Praktisk...• 3 obligatoriske øvinger, hver med 8 deloppgaver

– anvendelse av teori (referanse for senere bruk).– sikrer jevnt arbeid underveis– gruppevis samarbeid og innlevering

• Grupper á max. 8 personer:– Gruppen arbeider selvstendig med oppgaven før veiledning (min. 2 samlinger

anbefales)• Veiledning ca. hver 3. uke (KLMED8004: uke 39, 44 og 47, KLH3004: uke 38,

41 og 46). Felles veiledning for to og to grupper:– 1,2: Mandag 1415 -1600– 3,4: Onsdag 1215 -1400 (In English)– 5,6: Onsdag 1415 -1600– 7,8: Onsdag 1515 -1700– 9+10: Onsdag 1315 -1500– 11,12,13,14: Torsdag 0815-1000– Obligatorisk oppmøte!– Skal avklare problemer som ennå ikke er løst…

8

Praktisk...

• Veileder vil ...notere oppmøte, motta gruppens øvinger, rette, godkjenne ogreturnere til gruppekontakt.

• Hver deltaker skal sikre seg en (godkjent) kopi.

Page 5: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

5

9

Evaluering

• Øvingene danner grunnlag for godkjent kurs!• Eksamen = framlegg av oppgaver (15-20 min, faglærer og sensor):

– Komplett øvingssett skal legges fram– Én oppgave (blant 24) trekkes ut og presenteres ...– Supplerende teoretiske spørsmål knyttet til oppgaven

10

Hva er statistikk?

“Statistics” (eng.) betyr:• Statistikk i vanlig forstand

(tabeller, tellinger, “statistisk årbok”)

• En gren av matematikken med egen terminologi og metode• Tallstørrelser beregnet fra et utvalg

(middelverdi, median, empirisk varians, rekkevidde etc. – ikke noe helt godt norsk ord for dette: ”observator”)

Page 6: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

6

11

Hva er statistikk?

«Generelt er statistikk det vitenskapelige verktøy som brukes for å trekke slutninger (…) basert på data som er beheftet med usikkerhet.»

Årsberetning, Institutt for matematikk og statistikk,Universitetet i Trondheim, 1994

12

Hva er statistikk?

«Data have no meaning in themselves; they aremeaningful only in relation to a conceptual model of the phenomenon studied.»

Box, Hunter & Hunter: Statistics for experimenters,Wiley 1978

Page 7: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

7

13

«I am dismayed by how often my clients ask whether a particular approach would be "legal" or "against the rules" rather than "accurate" or "misleading." This misunderstanding of statistics as a body of seemingly arbitrary dogma leads many (…) to perceive violations even when the research has not actually been harmed.»

Professor Peter Bacchetti, Dept. of Epidemiology and Biostatistics, University of California (BMJ, 2002)

Hva er statistikk?

14

Statistisk terminologi

• Populasjon• Utvalg• Variabel• Sannsynlighetsfordeling• Parameter

Page 8: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

8

15

Populasjon og utvalg (sample)

Måling

Observasjoner(datainnsamling)

Modellstatistisk analyse

PopulasjonFenomen

Utvalg

Tolkning(inferens)

16

Variabel

Definisjon:En observasjon (en størrelse) som ikke er konstant, men kan taforskjellige verdier

Numerisk variabel– Kontinuerlig: kan anta alle verdier på tallinjen

Eksempler:• Vekt (g)• Høyde (cm)• inntekt (kr)

– Diskret: en tellbar mengde (kan nummereres)Eksempler:• Celler pr. synsfelt• Antall døde• Resultat av terningkast

Page 9: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

9

17

Numerisk variabelAndre aspekter.– Naturlig nullpunkt?

Eksempel: 200 K er dobbelt av 100 K, mens 30 °C ikke er “dobbelt såvarmt” som 15 °C

– Sensurert observasjon?Vet bare om den er over eller under en viss grenseverdi.Eksempler:

• CRP < 5 mg/l (deteksjonsgrense)• Overlevelsestid > 120 dager (siste kontroll)

Variabel

18

Variabel

Kategorisk variabel– Ordinal: rangorden, men ikke definert avstand

(“3 er mer enn 2, men hvor mye mer?”)Eksempler:• APGAR score (0-10),• NYHA-klassifisering (I-IV)

– Nominal: ingen ordningEksempler:• livssyn (jøde, muslim, kristen, ateist, buddhist)• kjønn (gutt, jente)• bosted (by, tettsted, landsbygd)

Page 10: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

10

19

Variabel

Stokastisk (tilfeldig) variabel– kan anta forskjellige verdier. Beskrives matematisk med

sannsynlighetsfordeling (normal-, χ2, etc.)Avhengig variabel, utfallsvariabel

– stokastisk, “den vi måler og er interessert i”Uavhengig variabel

– kjent, determinert, vanligvis ikke stokastisk, evt. grupperingsvariabel.

20

Sannsynlighetsfordeling• En beskrivelse av hvilke verdier

den tilfeldige variabel kan ta, ogsannsynligheten for hver enkeltverdi teoretisk →

• Et histogram beskriver empirisk(observert) hyppighet →

40003500300025002000

Z

-4 -3 -2 -1 0 1 2 3 40,0

0,1

0,2

0,3

0,4

0,5

Page 11: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

11

21

Parameter

• En fast tallstørrelse, en konstant• Definerer egenskapene til en sannsynlighetsfordeling

Eksempel: variabelen “høyde” er normalfordelt med to parametre: forventningsverdi (μ) og varians (σ2)

• Estimeres (beregnes) som regel fra data

Parameter ≠ variabel !

22

Variabel vs. parameter

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

0.5

1

1.5

2

2.5

X

Y

Likning for en rett linje:

Y = α + βX

• Avhengig og uavhengigvariabel?

• Parameter(e)?

12

Y X=

Page 12: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

12

23

Deskriptivstatistikk

Oppsummere datamaterialetv.hj.a. noen få, meningsfyltestørrelser (tall):

– Sentraltendens(ofte middelverdi)

– Spredningsmål(ofte standard avvik)

Sentraltendens(gjennomsnitt, tyngdepunkt,

posisjon, “location”)

Spredningsmål(variasjon, form, “shape”)

Fødselsvekt (g)

Ant

all

2000 2500 3000 3500 4000 4500

02

46

810

24

Mål på sentral-tendens

• Aritmetisk middelverdi• Justert (trimmet) middelverdi• Median• Mode• (Midrange)• (Geometrisk middelverdi)

Sentraltendens(gjennomsnitt, tyngde-punkt, “location”)

Fødselsvekt (g)

Ant

all

2000 2500 3000 3500 4000 4500

02

46

810

Page 13: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

13

25

Aritmetisk middelverdi

Synonymer– Gjennomsnitt– Middelverdi– Mean value– Sample mean– Utvalgsmiddelverdi– Empirisk middelverdi

1 2

1

Definisjon (Rosner def. 2.1, s. 9)

... 1 nn

ii

x x xx xn n =

+ + += = ∑

26

Aritmetisk middelverdi

Egenskaper– Alle observasjoner må være kjent– Observasjonene trenger ikke

ordnes etter størrelse– Matematisk gunstig– Følsom for “outliers”: ekstreme,

utypiske observasjoner

1 2

1

Definisjon (Rosner def. 2.1, s. 9)

... 1 nn

ii

x x xx xn n =

+ + += = ∑

Page 14: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

14

27

nobservasjoenkelt en avgrunn på endringstor rel.en ...

g 7,302820

g 2834...g 3260g 005... g 3265for istedet g 500 Hvis

g 9,316620

g 2834...g 3260g 326510) s. 2.1, leRosner tab (fra

11) s. 2.4, expl.(Rosner Eksempel

1

=+++

=

=

=+++

=

x

x

x

28

Egenskaper– Ikke definert for sensurerte

observasjoner

– Middelverdi fra flere utvalg kankombineres:→

– “I det lange løp” vilmiddelverdien konvergere mot forventningsverdien til den tilfeldige variabel

Aritmetisk middelverdi

⎟⎠⎞

⎜⎝⎛

∑===∞→

n

ii

n

xn

XE1

1 lim)( μ

k

nknnk

jj

k

jnj

nnnxnxnxn

n

xnx k

j

+++

+++==

=

=

......

21

21

1

1 21

Page 15: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

15

29

36,1554

2,82954

5,751529,1968,4045161122

1,1555,9169,17114,1822

......

)4 (dvs. 5 1,1516 5,911 9,1722 4,18

:iermiddelverd flere avn Kombinasjo Eksempel.

21

21

1

1

44

33

22

11

21

==+++

=

+++⋅+⋅+⋅+⋅

=

+++

+++==

=========

=

=

k

nknnk

jj

k

jn

nnnxnxnxn

n

xx

knxnxnxnx

kj

30

Justert (trimmet) middelverdi

• Aritmetisk middelverdi basert på de sentrale 90 - 95 % av observasjonene; “halene” (5 - 10 %) er trimmetbort

• Mindre følsom for ekstreme observasjoner

Page 16: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

16

31

Median

Synonym– 50 percentil– empirisk median

Egenskaper– Observasjonene ordnes i stigende

rekkefølge– “Median = den verdien som deler

materialet i to”– Ufølsom for ekstreme

observasjoner

)(

:sjonTransforma

iordnesi xx ⎯⎯ →⎯

32

1

2

3

4

Eksempel (Rosner expl. 2.5, s. 11)

(fra Rosner table 2.1, s. 10) 3265

3260 3245

3484...

xxxx

===

=

(1)

(2)

(3)

(4)

Ordnet i stigende rekkefølge:2069

2581

2759

x 2834

...

x

x

x

=

=

=

=

Page 17: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

17

33

Median

Egenskaper– Inntil halvparten av

observasjonene kanvære sensurerte

– Ugunstig matematisk!– Median fra flere utvalg

kan ikke kombineres

12

22 2

Definisjon (Rosner def. 2.2, s. 11)

(1) Hvis ulike antall observasjoner ( 3,5,7...)

(2) Hvis like antall observasjoner ( 2, 4,6 ...)

2

(andre definisjoner kan fore

n

n n

nx x

nx x

x

+⎛ ⎞⎜ ⎟⎝ ⎠

+⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

==

=+

=

komme)

34

Median

( )1 9 1 10 52 2 2

Eksempel (Rosner expl. 2.6, s.11)

(fra Rosner table 2.2, s. 12)9, så definisjon (1) benyttes:

8n

nx x x x x+ +⎛ ⎞ ⎛ ⎞ ⎛ ⎞

⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠

== = = = =

Page 18: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

18

35

Median

( ) ( )2 20 20 2

10 112 2 2 2

Eksempel (Rosner expl. 2.5, s.11)

(fra Rosner table 2.1, s. 10)20, så definisjon (2) benyttes:

3245 g 3248 g 3246,5 g2 2 2 2

n n

nx x x x

x xx

+ +⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠

=+ +

+ += = = = =

36

ModeRosner def. 2.3Den observasjon som forekommer hyppigst.

Rosnereks. 2.7,

s. 13Mode =

28

Page 19: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

19

37

Mode

Eksempel påbimodal sannsynlighets-fordeling

(Zar 1999,fig. 3.2 b)

• Lite i bruk. Ugunstig matematisk.• Mer abstrakt: unimodal fordeling (en “topp”), bimodal (to topper) osv.

38

Mål på sentral tendens -sammenstilling

Unimodal, symmetrisk

Bimodal, symmetrisk

Unimodal, høyre (pos.)- skjev

Unimodal, venstre (neg.)- skjev

Page 20: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

20

39

Fødselsvekt (g)

Ant

all

2000 2500 3000 3500 4000 4500

02

46

810

Spredningsmål

• Rekkevidde (range)• Kvantiler, percentiler:

interkvartil avstand• Varians• Standard avvik• Variasjonskoeffisient

Spredningsmål(variasjon, form, “shape”)

40

Rekkevidde

Synonym– Range– Variasjonsbredde

Egenskaper– Samme enhet som

observasjonene– Benytter bare to av dem– Følsom for ekstreme

observasjoner– Øker med utvalgs-

størrelsen n

( ) (1)

(20) (1)

Definisjon (BR def. 2.5, s. 18)

Eksempel (BR expl. 2.14, s. 18)

(fra BR table 2.1, s. 10)4146 g 2069 g

2077 g

nRange X X

Range x x

= −

= − = −

=

Page 21: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

21

41

Rekke-vidde(range)

(5) (1)

(5) (1)

Eksempel (BR expl. 2.15, s. 18)

(fra BR Fig 2.4, s. 18)Range (auto-) 226 mg/dl 177 mg/dl 49 mg/dl

Range (micro-) 209 mg/dl 192 mg/dl 17 mg/dl

x x

x x

= − = − =

= − = − =

42

Kvantiler og percentilerDefinisjon (Rosner def 2.6)

“Den tallverdi Vp som har en viss andel (p) av (de ordnede) observasjonene under seg”, 0 < p < 1

(En observasjon teller omtrent 1/n -del. Hvis n = 100 teller hverobservasjon 1 %. Observasjon nr. 20 svarer da til 20-percentilen.)

heltallet er når 2

)2(

1 ),integer"(" heltallet er ikke når )1(

, ... ,,, ... ,,, :nerobservasjo ordnede Formelt

)1()(

1

)()1()()3()2()1(

npXX

V

k np k np X V

XXXXXXn

npnpp

)(kp

nkk

+

+

+

+=

+<<=

Page 22: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

22

43

Kvantiler og percentilerEksempel (Rosner, expl. 2.16)Finn V0,1 og V0,9 (10- og 90 percentilene) basert på fødselsvekt-data i table 2.1.

p = 0,1 og np = 2 (et heltall) så vi bruker (2) og får

p = 0,9 og np = 18 (et heltall fortsatt), vi bruker (2) og får

De sentrale 80 % av barna veide altså mellom 2670 gog 3629 g, dvs. en spredning på ca 1000 g.

gxx

V , 26702

275925812

)3()2(10 =

+=

+=

g36292

364936092

)19()18(90 =

+=

+=

xxV ,

44

Kvantiler og percentiler

V0,5 = median = 50-percentil. Definisjonene måstemme overens.

( ) ( ) g 3246,5 2

g 3248 g 32452

~

:benyttes (2) 2.6 definisjon så ,10

10) s. 2.1, leRosner tab (fra Eksempel

11105,0 =

+=

+==

=xx

xV

np

Page 23: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

23

45

Interkvartil-avstand

Synonym– Interquartile range - IQR

Egenskaper– Samme enhet som observasjonene– Omfatter de sentrale 50 %– Mindre følsomt for ekstreme

observasjoner– Definerer “boksen” i et box plott kvartil (1.) nedre -

kvartil (3.) øvre - IQR

Definisjon

25,0

75,0

25,075,0

VV

VV −=

46

Interkvartil-avstand

( ) ( )

( ) ( )

0,75 0,25

15 160,75

5 60,25

Eksempel (fra Rosner table 2.1, s. 9)

Finn IQR for fødselsvekt.

IQR ( 15 og 5, respektive)

3323 g 3484 g 3403,5 g2 2

2838 g 2841 g 2839,5 g2 2

IQR 3403,5

V V npx x

V

x xV

= − =

+ += = =

+ += = =

= − 2839,5 564 g=

Page 24: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

24

47

Andremuligesprednings-mål...

1

-Gjennomsnittlig avvik?1

Umulig! Summerer seg til 0 (null).

n

ii

x xn =

−∑

Observasjoner:

x1, x2, … ,xn

1

-Gjennomsnittlig, absolutt avvik?1

OK, men matematisk ugunstig.

n

ii

x xn =

−∑

2

1

-Gjennomsnittlig, avvik?1 ( )

Best!

n

ii

kvadrert

x xn =

−∑

48

Empirisk (utvalgs-) varians

∑=

−−

=n

ii xx

nS

1

22 )(1

1

Def.2.7)(Rosner Definsjon

KommentarBruk av (n -1) i stedet for n i nevneren skyldes at vi gjør bruk av utregnet middelverdi i beregningen.Dermed har vi «brukt opp» noe av informasjonen (nemlig 1 ”frihetsgrad”) som lå i utvalget.

Resultatet er en noe større verdi for S2. For stor n er forskjellen ubetydelig.

Page 25: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

25

49

Empirisk (utvalgs-) varians

[ ]

[ ]

5,394

158)8140964(41

)200209()200202()200200()200197()200192(41

) (samme enzymaticMicro

3404

1360)676812549529(41

)200226()200209()200195()200193()200177(41

)(1

1mg/dl 200 analyzer,-Auto

22)-21 s 2.19, Expl.(Rosner Eksempel

222222

22222

1

22

==++++⋅=

−+−+−+−+−⋅=

==++++⋅=

−+−+−+−+−⋅=

−−

=

=

∑=

S

x

xxn

S

xn

ii

50

Empirisk (utvalgs-) varians

Egenskaper• Alltid positiv• Sterkt avvikende observasjoner bidrar mest (kvadrering)• Gunstige matematiske egenskaper• Resultatet kan ikke tolkes på original skala

(kg → kg2, mg/dl → mg2/dl2, cm → cm2 osv.)

∑=

−−

=n

ii xx

nS

1

22 )(1

1

Page 26: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

26

51

Empirisk (utvalgs-) standardavvik

3,65,39 :enzMicro

4,18340 :analyzer-Auto

21) s. 2.19, Expl.(Rosner Eksempel

)(1

1

Def.2.8)(Rosner Definisjon

2

2

2

1

2

===−

===

=−−

= ∑=

SS

SS

Sxxn

Sn

ii

52

Empirisk (utvalgs-) standardavvik

Egenskaper• Synonym: Standard Deviation (SD)• Alltid positiv• Sterkt avvikende observasjoner bidrar mest (kvadrering)• Gunstige matematiske egenskaper• Resultatet kan tolkes på opprinnelig skala!

∑=

−−

=n

ii xx

nS

1

2)(1

1

Page 27: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

27

53

• Omtrent 95 % av populasjonen befinner seg innenfor:

… som altså omtrent tilsvarer 2,5 og 97,5 percentilene– Følger av normalfordelingens egenskaper– Forutsetter noenlunde symmetri og unimodalitet

• “quick & dirty”:

– Nyttig f.eks. Hvis man må gjette på SD ved beregning avutvalgsstørrelse

Empirisk (utvalgs-) standardavvik

SDx 2±

4RangeSD ≈

54

Grafisk framstilling

• Søylediagram• Histogram• Stem-and-leaf• Box-plot

“En god figur sier merenn 1000 T-tester!”

Page 28: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

28

55

1500

2000

2500

3000

3500

4000

4500

Box-plottEgenskaper• Raskt overblikk over

materialets tyngdepunkt ogspredning

• Ekstreme observasjoner(outliers) kan identifiseres

75-percentil

25-percentil

Median

Største“ikke-ekstreme”

observasjon

56

Box-plottLett å sammenliknegrupper!

1 2

05

1015

20

Page 29: Medisinsk statistikk del I, høst 2009 (KLMED 8004 / KLH3004)folk.ntnu.no/slyderse/medstat/KLMED8004/Pres20090826.pdf · arbitrary dogma leads many ... Mål på sentral tendens -

29

57

Histogram

Egenskaper• Empirisk “sannsynlighets-

fordeling”• Viser generell form

og tyngdepunkt• Vanskelig å

sammenlikne grupper• Enkeltobservasjoner er

usynlige

Fødselsvekt (g)

Anta

ll

2000 2500 3000 3500 4000 4500

02

46

810