introduktion til biostatistik 2008 biostatistics kap 1 , 2 og 3 uge 46 inge henningsen

Post on 22-Jan-2016

35 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Introduktion til biostatistik 2008 Biostatistics kap 1 , 2 og 3 Uge 46 Inge Henningsen. Introduktion til (bio)statistik. Hvad er (bio)statistik Data Planlægning af forsøg (Design) Gentagelser/Den videnskabelige metode Brug af statistiske metoder. Hvad er (bio)statistik?. - PowerPoint PPT Presentation

TRANSCRIPT

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Introduktion til biostatistik 2008Biostatistics kap 1 , 2 og 3

Uge 46Inge Henningsen

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Introduktion til (bio)statistik

• Hvad er (bio)statistik• Data• Planlægning af forsøg (Design)• Gentagelser/Den videnskabelige metode• Brug af statistiske metoder

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Hvad er (bio)statistik?

Statistiske Metoder omfatter procedurer for

• At planlægge undersøgelser• Indsamle data • Præsentere og opsummere data• Slutte fra en stikprøve (et udvalg af data) til en

bagvedliggende population

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Data – Grundlaget for undersøgelser

Observationer med variabilitet/usikkerhed

Biologisk variation

“Målefejl”

“Crap in – crap out”

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Planlægning af forsøg

•Afgrænsning af undersøgelsespopulation/referenceramme

•Valg af undersøgelsesenheder (randomisering)

•Målemetoder

•Repræsentativitet/Generalisering

•Stikprøvestørrelse

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Planlægning af forsøg

• Afgrænsning af undersøgelsespopulation/referenceramme

• Valg af undersøgelsesenheder (randomisering)

• Målemetoder

• Repræsentativitet/Generalisering

• Stikprøvestørrelse

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Gentagelse/den videnskabelige metode

• Sammenhæng er ikke kausalitet

• Metaanalyser

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Brug af statistiske metoder

Det vigtigste er at forstå den sammenhæng i hvilken de statistiske procedurer bruges

Denne sammenhæng omfatter

• Formålet med undersøgelsen• Data• Hvordan data er indsamlet og målt• Grundlaget for at bruge de forskellige statistiske

procedurer

Mere end at kunne bruge en statistikpakke!!!!

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Data og tal

2.1 Data: Numerisk Repræsentation2.2 Observationer og Variable2.3 Skalaer 2.4 Reliabilitet and Validitet2.6 Almindelige Problemer med Data

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Data og tal

2.1 Data: Numerisk Repræsentation2.2 Observationer og Variable

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Data dig40 (udsnit)

id trtmt age race sex bmi creat sysbp

2289 0 76 1 1 30.586 1.700 130

6745 0 45 1 1 22.850 1.398 130

1322 1 45 1 2 43.269 0.900 115

538 1 31 1 1 27.025 1.159 120

999 1 47 1 2 30.506 1.386 120

3103 0 60 1 1 29.867 1.091 140

1954 1 77 1 1 26.545 1.307 140

5750 1 76 1 1 39.837 1.455 140

1109 0 68 1 2 27.532 1.534 144

.........

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

2.3 Skalaer

Skala Eksempel Meningsfuldt Gennemsnit Ratio Nominal Køn Nej Nej Ordinal Smertefølelse Nej Nej Interval Temperatur J a Nej Ratio Vægt J a J a

Nominal/kategoriskOrdinal/ordnetInterval/afstand giver meningRatio/interval + nulpunkt

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Måling af pH.

Apparatur 1 Apparatur 2 Dag Patient

Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6

1 7.369 7.364 7.363 7.351 7.371 7.355

2 7.367 7.367 7.359 7.341 7.380 7.355

3 7.359 7.350 7.360 7.332 7.365 7.345

1

4 7.355 7.350 7.337 7.332 7.362 7.339

5 7.421 7.440 7.441 7.452 7.448 7.432

6 7.411 7.398 7.405 7.415 7.418 7.404

2

7 7.407 7.395 7.395 7.398 7.407 7.390

8 7.472 7.7.482 7.487 7.482 7.474 7.469

9 7.476 7.465 7.488 7.477 7.452 7.477

10 7.378 7.388 7.385 7.390 7.384 7.373

11 7.364 7.371 7.374 7.360 7.348 7.359

3

12 7.419 7.427 7.420 7.420 7.412 7.417

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

2.4 Reliabilitet (pålidelighed) og Validitet

Reliabilitet - gentagen brug af metoden vil give (omtrent) de samme resultater

Validitet - måler metoden det man tror at den måler

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Almindelige dataproblemer

• Manglende værdier• Outliers • Koder som 99 eller 999 for manglende observationer

behandles som datra• Ændringer i målemetode/ i kodning/ niveauskift for proces

etc.• Data er for “pæne”• Falsifikation

agl@lysgaard.com

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Introduktion til biostatistik 2008Biostatistics kap 3

Inge Henningsen

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Hvad er (bio)statistik?

Statistiske Metoder omfatter procedurer for

• At planlægge undersøgelser• Indsamle data • Præsentere og opsummere data• Slutte fra en stikprøve (et udvalg af data) til en

bagvedliggende population

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Data – Grundlaget for undersøgelser

Data er “Numerisk Repræsentation”• Observationer og Variable• Målinger og skalaer

Observationer med variabilitet/usikkerhed• Biologisk variation• “Målefejl”

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Data dig40 (udsnit)

id trtmt age race sex bmi creat sysbp

2289 0 76 1 1 30.586 1.700 130

6745 0 45 1 1 22.850 1.398 130

1322 1 45 1 2 43.269 0.900 115

538 1 31 1 1 27.025 1.159 120

999 1 47 1 2 30.506 1.386 120

3103 0 60 1 1 29.867 1.091 140

1954 1 77 1 1 26.545 1.307 140

5750 1 76 1 1 39.837 1.455 140

1109 0 68 1 2 27.532 1.534 144

.........

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Skalaer

Skala Eksempel Meningsfuldt Gennemsnit Ratio Nominal Køn Nej Nej Ordinal Smertefølelse Nej Nej Interval Temperatur J a Nej Ratio Vægt J a J a

Nominal/kategoriskOrdinal/ordnetInterval/afstand giver meningRatio/interval + nulpunkt

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Beskrivelse af datasæt

Summariske mål

Niveau• Gennemsnit• Median• Modus

Variabilitet• Range• Interquartile range• Varians• Spredning

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Middelværdi og varians

Spredning = standardafvigelse

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Quartiler

25%-quartil= 25% af observationerne ligger til venstre for punktet

50%-quartil = 50% af observationerne ligger til venstre for punktet (median)

75%-quartil= 75% af observationerne ligger til venstre for punktet

Interquartil-afstand = 75%-quartil – 25%-quartil

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Nogle noter om SAS systemet

PC-SAS. Version 9.1 for WindowsSAS (= Strategic Analysis system) er Statistik-system/”Statistik-pakke”

Andre systemer

Generelle Specialiserede

RBMDPSPSSSTATA

StatExactRATSDIGRAM

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

SAS Program

• SAS er et selvstændigt sprog.• Kræver (formelt) ikke kendskab til programmering

Særheder: • Variable deklareres ikke• Linieskift betyder ikke noget. I stedet bruges ’;’

SAS-program

Data-trin Her tilrettelægges data

Procedure-trin

Forprogrammerede procedurer til præsentation og statistisk analyse af data

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Data dig40 (udsnit)

id trtmt age race sex bmi creat sysbp

2289 0 76 1 1 30.586 1.700 130

6745 0 45 1 1 22.850 1.398 130

1322 1 45 1 2 43.269 0.900 115

538 1 31 1 1 27.025 1.159 120

999 1 47 1 2 30.506 1.386 120

3103 0 60 1 1 29.867 1.091 140

1954 1 77 1 1 26.545 1.307 140

5750 1 76 1 1 39.837 1.455 140

1109 0 68 1 2 27.532 1.534 144

.........

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Co-transfections assay

Undersøgelse af effekten af v-H-ras på to geners promotorer, MARC og UPase. Data stammer fra co-transfektions assays af et reporter konstrukt indeholdene enten promotoren for MARC eller for UPase. Den respektive promotor er klonet ind i et plasmid der indeholder genet for Luciferase, sådan at genet kommer under promotorens kontrol. Luciferase omdanner luciferin til et flourescerende stof. Jo mere promotor aktivitet, jo større mængder Luciferase og jo større lysintensitet fås. For hver af 6 promotorer, MARC740, UPase-n, MARC184, MARC208, MARC740c og MARC740i, foretoges 3 målinger af mængden af Luciferase efter tilsættelse af 1.5 $\mu$g Ras plasmid. Målingerne, der er korrigeret for udsving i transmissions- effektivitet og for aktivitet ved 0 $\mu$g Ras plasmid, er i det følgende betegnet foldinduktionen. Logaritmen til foldinduktionen er angivet i tabellen nedenfor.

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Day 1: 2,2 x 105 cells are seeded in each of 8 dishes

Grow overnight in 10% medium supplemented with tetracycline

Day 2: Cells are incubated with transfectionmix for 6 hrs

1µg rep.plasmid 1µg rep. plasmid 0,5µg Cmv-luc 2µg plasmid 1µg lac-Z plasmid 1µg lac-Z plasmid 1µg lac-Z plasmid 0,5µg plasmid

Dish 1: +Tet Dish 2-4: +Tet Dish 5-7: -Tet Dish 8: +Tet Positive control Negative control

Change medium

Day 3: Medium is changed to 05% medium

Grow overnight

Day 4: Cells are harvested and extracts are analysed

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

MARC740 UPase-n MARC184 MARC208 MARC740c MARC740i 2.47591 2.51629 2.63107

-0.02778 -0.25944 0.02508

-0.42481 0.42857 0.20779

0.41111 1.06776 0.81277

2.17903 2.28239 3.58600

-2.04620 -2.47058 -2.38402

Logaritme til foldinduktion efter tilsættelse af Plasmid i 6 forsøg

Datasæt

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Datasæt

Id Promotor Log-FI

1 MARC740 2.47591

2 MARC740 2.51629

3 MARC740 2.63107

4 Upase-n -0.02778

. . .

. . .

15 MARC740c 3.58600

16 MARC740i -2.04620

17 MARC740i 2.47058

18 MARC740i 2.38402

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Datatrin

Datasættet har 37 observationer og 4 variable

• type, h, l, u,

der for hver observation angiver hhv• type • andel højmokylær M • andel lav molekylær M • andel uglykosyleret M

Kilde: Collinge et al, Nature vol 383, 24. oktober 1996.

DATA cjd_4; INPUT type h l u; CARDS; 1 18 47 35 1 20 49 31 1 25 38 37 1 31 37 32 1 32 36 32 1 29 48 23 2 21 49 30 2 22 46 32 2 22 47 31 2 23 48 29 2 24 51 25 2 24 44 32 2 24 42 34 2 25 46 29 2 25 45 30 2 25 43 32 2 25 42 33 2 26 40 34 2 26 47 27 2 28 42 30 2 29 42 29 2 33 50 17 2 29 45 26 2 29 46 25 3 25 40 35 3 28 46 26 3 30 44 26 3 32 46 22 4 43 45 12 4 44 47 9 4 47 44 9 4 47 46 7 4 48 43 9 4 49 33 18 4 50 35 15 4 51 37 12 4 53 43 4

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Datatrin

Datasættet har 43 observationer og 3 variable

•type, genotype, art

der for hver observation angiver hhv•type •genotype•genese

Kilde: Collinge et al, Nature vol 383, 24. oktober 1996.

DATA cjd-1; INPUT type genotype $ art $ ; CARDS; 1 mm s 1 mm s 1 mm s 1 mm s 1 mm s 1 mm i 2 mm s 2 mm s 2 mm s 2 mm s . . 2 vv s 2 vv s 2 mm i 3 mv i 3 vv i . . . 4 mm n 4 mm n 4 mm n ;

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Data dig40 (udsnit)

id trtmt age race sex bmi creat sysbp

2289 0 76 1 1 30.586 1.700 130

6745 0 45 1 1 22.850 1.398 130

1322 1 45 1 2 43.269 0.900 115

538 1 31 1 1 27.025 1.159 120

999 1 47 1 2 30.506 1.386 120

3103 0 60 1 1 29.867 1.091 140

1954 1 77 1 1 26.545 1.307 140

5750 1 76 1 1 39.837 1.455 140

1109 0 68 1 2 27.532 1.534 144

.........

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Skalaer

Skala Eksempel Meningsfuldt Gennemsnit Ratio Nominal Køn Nej Nej Ordinal Smertefølelse Nej Nej Interval Temperatur J a Nej Ratio Vægt J a J a

Nominal/kategoriskOrdinal/ordnetInterval/afstand giver meningRatio/interval + nulpunkt

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Beskrivelse af datasæt

Summariske mål

Niveau• Gennemsnit• Median• Modus

Variabilitet• Range• Interquartile range• Varians• Spredning

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Middelværdi og varians

Spredning = standardafvigelse

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Quartiler

25%-quartil= 25% af observationerne ligger til venstre for punktet

50%-quartil = 50% af observationerne ligger til venstre for punktet (median)

75%-quartil= 75% af observationerne ligger til venstre for punktet

Interquartil-afstand = 75%-quartil – 25%-quartil

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Nogle noter om SAS systemet

PC-SAS. Version 9.1 for WindowsSAS (= Strategic Analysis system) er Statistik-system/”Statistik-pakke”

Andre systemer

Generelle Specialiserede

RBMDPSPSSSTATA

StatExactRATSDIGRAM

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

SAS Program

• SAS er et selvstændigt sprog.• Kræver (formelt) ikke kendskab til programmering

Særheder: • Variable deklareres ikke• Linieskift betyder ikke noget. I stedet bruges ’;’

SAS-program

Data-trin Her tilrettelægges data

Procedure-trin

Forprogrammerede procedurer til præsentation og statistisk analyse af data

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Datatrin

Datamatrix

Var1 Var2 Var3 Var4 Var5

Obs 1

Obs2

Obs3

Obs4

Obs5

Obs6

Obs7

Obs8

Obs9

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Datatrin

Datamatrix

Id Prom Beh M1 FI

Obs 1 56 U Ja 22.3 2.18

Obs2 9 M Ja 31.2 0.38

Obs3 3 M Nej 18.6 1.12

Obs4 32 M Ja 22.8 0.22

Obs5 4 U Ja 25.3 0.15

Obs6 33 U Nej 11.5 0.71

Obs7 2 M Nej 83.3 1.38

Obs8 5 U Ja 19.7 0.66

Obs9 18 U Nej 22.2 0.58

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Data dig40 (udsnit)

id trtmt age race sex bmi creat sysbp

2289 0 76 1 1 30.586 1.700 130

6745 0 45 1 1 22.850 1.398 130

1322 1 45 1 2 43.269 0.900 115

538 1 31 1 1 27.025 1.159 120

999 1 47 1 2 30.506 1.386 120

3103 0 60 1 1 29.867 1.091 140

1954 1 77 1 1 26.545 1.307 140

5750 1 76 1 1 39.837 1.455 140

1109 0 68 1 2 27.532 1.534 144

.........

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Co-transfections assay

Undersøgelse af effekten af v-H-ras på to geners promotorer, MARC og UPase. Data stammer fra co-transfektions assays af et reporter konstrukt indeholdene enten promotoren for MARC eller for UPase. Den respektive promotor er klonet ind i et plasmid der indeholder genet for Luciferase, sådan at genet kommer under promotorens kontrol. Luciferase omdanner luciferin til et flourescerende stof. Jo mere promotor aktivitet, jo større mængder Luciferase og jo større lysintensitet fås. For hver af 6 promotorer, MARC740, UPase-n, MARC184, MARC208, MARC740c og MARC740i, foretoges 3 målinger af mængden af Luciferase efter tilsættelse af 1.5 $\mu$g Ras plasmid. Målingerne, der er korrigeret for udsving i transmissions- effektivitet og for aktivitet ved 0 $\mu$g Ras plasmid, er i det følgende betegnet foldinduktionen. Logaritmen til foldinduktionen er angivet i tabellen nedenfor.

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Day 1: 2,2 x 105 cells are seeded in each of 8 dishes

Grow overnight in 10% medium supplemented with tetracycline

Day 2: Cells are incubated with transfectionmix for 6 hrs

1µg rep.plasmid 1µg rep. plasmid 0,5µg Cmv-luc 2µg plasmid 1µg lac-Z plasmid 1µg lac-Z plasmid 1µg lac-Z plasmid 0,5µg plasmid

Dish 1: +Tet Dish 2-4: +Tet Dish 5-7: -Tet Dish 8: +Tet Positive control Negative control

Change medium

Day 3: Medium is changed to 05% medium

Grow overnight

Day 4: Cells are harvested and extracts are analysed

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

MARC740 UPase-n MARC184 MARC208 MARC740c MARC740i 2.47591 2.51629 2.63107

-0.02778 -0.25944 0.02508

-0.42481 0.42857 0.20779

0.41111 1.06776 0.81277

2.17903 2.28239 3.58600

-2.04620 -2.47058 -2.38402

Logaritme til foldinduktion efter tilsættelse af Plasmid i 6 forsøg

Datasæt

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Datasæt

Id Promotor Log-FI

1 MARC740 2.47591

2 MARC740 2.51629

3 MARC740 2.63107

4 Upase-n -0.02778

. . .

. . .

15 MARC740c 3.58600

16 MARC740i -2.04620

17 MARC740i 2.47058

18 MARC740i 2.38402

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Datatrin

Datasættet har 37 observationer og 4 variable

• type, h, l, u,

der for hver observation angiver hhv• type • andel højmokylær M • andel lav molekylær M • andel uglykosyleret M

Kilde: Collinge et al, Nature vol 383, 24. oktober 1996.

DATA cjd_4; INPUT type h l u; CARDS; 1 18 47 35 1 20 49 31 1 25 38 37 1 31 37 32 1 32 36 32 1 29 48 23 2 21 49 30 2 22 46 32 2 22 47 31 2 23 48 29 2 24 51 25 2 24 44 32 2 24 42 34 2 25 46 29 2 25 45 30 2 25 43 32 2 25 42 33 2 26 40 34 2 26 47 27 2 28 42 30 2 29 42 29 2 33 50 17 2 29 45 26 2 29 46 25 3 25 40 35 3 28 46 26 3 30 44 26 3 32 46 22 4 43 45 12 4 44 47 9 4 47 44 9 4 47 46 7 4 48 43 9 4 49 33 18 4 50 35 15 4 51 37 12 4 53 43 4

Inge Henningsen, University of Copenhagen, inge@math.ku.dk

Datatrin

Datasættet har 43 observationer og 3 variable

•type, genotype, art

der for hver observation angiver hhv•type •genotype•genese

Kilde: Collinge et al, Nature vol 383, 24. oktober 1996.

DATA cjd-1; INPUT type genotype $ art $ ; CARDS; 1 mm s 1 mm s 1 mm s 1 mm s 1 mm s 1 mm i 2 mm s 2 mm s 2 mm s 2 mm s . . 2 vv s 2 vv s 2 mm i 3 mv i 3 vv i . . . 4 mm n 4 mm n 4 mm n ;

top related