noter til anvendt statistik - cs.au.dkadc/files/noter-anvstat.pdf · noter til anvendt statistik...

22
Noter til Anvendt Statistik Anders Damsgaard Christensen - 20062213 [email protected] 8. juni 2009 Indhold Appendix - s. 317-334 4 R1.1 - Population og prøver ................................ 4 R1.2 - Variabilitet ..................................... 5 Prøvens variabilitet .................................. 5 Populationens variabilitet .............................. 5 Estimatets variabilitet ................................ 5 R1.4 - Nulhypotesen, H 0 .................................. 6 Kapitel 1 - Introduktion til ’Analysis of Variance’ - ANOVA 6 Basale principper af ANOVA ............................... 6 Opdeling af variabiliteten .............................. 6 Middel kvadratafvigelse (mean squares) ...................... 7 F-ratio ......................................... 7 Præsentation af ANOVA-resultater ......................... 7 1

Upload: trinhthuy

Post on 17-Apr-2018

228 views

Category:

Documents


1 download

TRANSCRIPT

Noter til Anvendt Statistik

Anders Damsgaard Christensen - [email protected]

8. juni 2009

Indhold

Appendix - s. 317-334 4

R1.1 - Population og prøver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

R1.2 - Variabilitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Prøvens variabilitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Populationens variabilitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Estimatets variabilitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

R1.4 - Nulhypotesen, H0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Kapitel 1 - Introduktion til ’Analysis of Variance’ - ANOVA 6

Basale principper af ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Opdeling af variabiliteten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Middel kvadratafvigelse (mean squares) . . . . . . . . . . . . . . . . . . . . . . 7

F-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Præsentation af ANOVA-resultater . . . . . . . . . . . . . . . . . . . . . . . . . 7

1

Kapitel 2 - Regression 7

Valg af bedste linie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Regressionsresultater . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

ANOVA-tabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Koefficient-tabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Konfidensintervaller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Kapitel 3 - Modeller, parametre og GLM’ere 9

Populationer og parametre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Kapitel 4 - Mere end én forklarende variabel 10

Statistisk eliminering - ved at overveje residualer . . . . . . . . . . . . . . . . . . . . 10

Kapitel 5 - Design af eksperimenter 11

Replikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Blanding (randomisation) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Blocking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Orthogonalitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Kapitel 6 - Kombinering af kontinuerte og kategoriske variable 12

GLM output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Kombinering af kontinuerte- og kategoriske variable . . . . . . . . . . . . . . . . . . . 13

Orthogonalitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Behandling af variable som kategoriske eller kontinuerte . . . . . . . . . . . . . 13

GLM metoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2

Kapitel 7 - Interaktioner 14

Det faktorialske princip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

Præsentation af resultater . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Faktorialske eksperimenter uden signifikante interaktioner, s. 117-120 . . . . . . 15

Faktorialske eksperimenter med signifikante interaktioner, s. 120-123 . . . . . . 15

Interaktioner med kontinuerte variable . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Interaktioner mellem kontinuerte variable . . . . . . . . . . . . . . . . . . . . . 16

Kapitel 8 - Modeltjek: Uafhængighed 16

Heterogene data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Kapitel 9 - Modeltjek II: De andre tre antagelser 16

Homogenitet af varianser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Normalfordeling af error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Linearitet/additivitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Modelkritik og løsnigner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Normal probability plots (normalplots eller fraktildiagrammer) . . . . . . . . . 18

Plot af residualerne mod de fittede værdier . . . . . . . . . . . . . . . . . . . . . 18

Løsninger til non-linearitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Kapitel 10 - Model selection I 19

Tre principper om modelvalg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Variablers økonomi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

P-værdiers multiplicitet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Overvejelser om marginalitet (variablers hieraki) . . . . . . . . . . . . . . . . . 19

Relativ vigtighed af de tre principper, s. 195-200 . . . . . . . . . . . . . . . . . . . . 20

3

Kapitel 11: Datasæt med flere forklarende variabler 20

Variablers økonomi i konteksten multiple regression . . . . . . . . . . . . . . . . . . . 20

R2ogadjustedR2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Prediction intervals: s. 213 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Multiplicitet af p-værdier i konteksten; multiple regression . . . . . . . . . . . . . . . 21

Kapitel 13 - Kategoriske data 21

G-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

JMP output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Kontinuert BIVARIATE ONEWAYkorrelation ANOVAregression t-testANCOVA ANCOVA

Kategorisk LOGISTISK CONTIGENCYlogistisk regression chi-2log-linear models G

Y/X Kontinuert kategorisk

Appendix - s. 317-334

R1.1 - Population og prøver

Prøven skal være en tilfældig udvalgt mængde af hele populationen. Gennemsnit (mean):

y =∑yin

Dette er et estimat af den sande middelværdi for populationen (µ).

4

R1.2 - Variabilitet

Prøvens variabilitet

Afvigelse fra gennemsnit: afvigelse = datapunkt−gennemsnit. Summen af afvigelserne sum-merer til 0. Hvis man tager kvadrerer afvigelserne, giver den resulerende værdi spredningen.Jo større datasættet er, jo større kvadrat(afvigelses)sum (Sum of squares, SS). Variansenudregnes ved at dividere sum of squares med antallet af frihedsgrader (f = n − 1) Varians(variance):

s2 =∑

(yi − y)2

n− 1Standard afvigelse (standard deviation):

s =√s2 =

∑(yi − y)√n− 1

Populationens variabilitet

Som den sande middelværdi µ, kendes den sande værdi for variansen ikke. Variansen betegnesmed σ2, og estimatet betegnes s2.

Estimatets variabilitet

Standard normalfordeling (middelværdi 0 og standardafvigelse 1), kaldes ogsŇ z-fordeling(z-distribution). Enhver normalfordeling kan konverteres til standard normalfordeling (stan-dardizing). Fordelingens middelværdi subtraheres fra alle dataværdier (Y), og dataværdiernedivideres med standardafvigelsen:

z =Y − µσ

Standard normalfordelingen har den egenskab, at 96% af alle dens værdier ligger indenfor 2standardafvigelser fra middelværdien, og 68% ligger inden for 1 standardafvigelse (varians?).

Kilde Middelværdi VariansPopulation µ σ2

Prøve y s2

Estimat af populationens gennemsnit (y) µ σ2

n

Ved en ny prøveudtagning fra populationen, fŇes sandsynligvis en ny middelværdi y. Jo fleregange dette gøres, jo tættere nærmer gennemsnittet af y’erne den sande middelværdi µ. y’erneer normalfordelte om den sande middelværdi µ. Fordelingens varians er σ2

n . Standardafvigelsefor gennemsnittet (standard error of the mean): σ√

n. Denne værdi viser hvor præcist estimatet

er.

Estimatet y kommer fra en fordeling af alle mulige y’ere, der er normalfordelte omkring µ,med en varians pŇ σ

n .

5

R1.4 - Nulhypotesen, H0

Denne pŇstŇr, at ingen effekt skal forventes. H0 : µ = 0Nulhypotesen forkastes ikke, medmindre der er overbevisende evidens for, at den ikke er sand.Nulhypotesen antages at være sand, og sŇ udregnes sandsynligheden for at have det datasætman stŇr med. Sandsynligheden skal være pŇ 0.05 eller mindre, før nulhypotese forkastes.

Type 1 fejl: NŇr nulhypotesen er sand, men forkastes pga udregningen (sker 5% af tilfældene)

NŇr p-værdien er < 0.05, er der evidens for at forkaste nulhypotesen.

Kapitel 1 - Introduktion til ’Analysis of Variance’ - ANOVA

Eksempel, modelformel: WEIGHT = SEXWEIGHT: Data-variabel, den variabel der skal forklaresSEX: Forklarende variabel (explanatory), den variabel der forventes at være vigtig under be-stemmelsen af data-variablen.

Basale principper af ANOVA

Eks: Sammenligning af tre middelværdier. Der regnes ikke pŇ forskellene mellem gruppernesgennemsnit. Til gengæld fokuseres der påŇ variabiliteten af data. Variabiliteten i et datasæt.

Opdeling af variabiliteten

SSY = Total kvadrat(afvigelses)sum (Total sum of squares)SS af datapunkternes afvigelserne fra gennemsnittet for alle data.

SSE = Error sum of squaresSS af datapunkternes afvigelse omkring hver gruppes gennemsnit.

SSF = Fertiliser sum of squaresSS af gruppernes gennemsnit omkring gennemsnittet for alle data.

SSY = SSF + SSE

Størrelsen af en SS er altid relateret til antallet af datapunkter, der er anvendt til udregnin-gen.

6

Middel kvadratafvigelse (mean squares)

Oftest en s2-værdi. Kombinering af SS og df => Variabilitet per df; Mean Square (MS) Tilforskel for SS er MS ikke additive.

AdjMS(Error) = EMS = s2

F-ratio

Hvis ’fertiliser’ ikke havde nogen effekt på Yield, var variationerne af data der blev givet densamme fertiliser den samme som variationen mellem data givet forskellige fertilisers, altså:

FMS

EMS= 1

F-fordelingen repræsenterer variationsbredden og sandsynligheden for alle mulige F-ratios un-der nulhypotesen. Hvis de tre fertilisere var meget forskellige, var FMS større end EMS, ogF-ratio ville være større end 1. F-ratio kan dog være meget stor, selv om der ikke er forskel påfertiliserne. Det accepteres at F-ratio er større end 1 under nulhypotesen, bare 5% af gangene.

p-værdien er et mål af evidensernes styrke mod nulhypotesen. Kun når p-værdien er mindreend 0.05, regnes evidensen for stærk nok.

Præsentation af ANOVA-resultater

Resultaterne af en ANOVA kan præsenteres som et konfidensinterval. Dette er et udtryk forestimaternes sikkerhed (i fertiliser-eksemplet; de tre middelværdier). For hvert konfidensinter-val, forventes det at den sande middelværdi ligger inden for intervallet 95% af tilfældende.Konfidensintervallet for populationens gennemsnit (eks. s. 15):

y ± tcrits√n

Kapitel 2 - Regression

Det lineære forhold mellem to variable. Den forklarende variabel (X) må være kontinuert ellerordinal kategorisk, responsvariablen (Y) skal være kategorisk.

På første niveau spørges der, om der er nogen association mellem Y og X, fx, ændrer Y signår X ændres?

7

Valg af bedste linie

Mindste kvadraters metode; minimering af summen af de kvadrerede vertikale variationer afpunkterne.

Trin 1: Gennemsnittet for alle data udregnes. Linien går igennem dette punkt (x, y). Afvi-gelsen til punkterne: SSY.Trin 2: Linien drejes omkring gennemsnitskoordinatet (x, y), indtil afvigelserne er minimeret.Variationen der er tilbage er Error Sum of Squares (SSE).SS der forklares af regressionen: SSR.

SSE < SSYSSY = SSR + SSE

Regressionsresultater

ANOVA-tabel

Denne tabel sammenligner variationen (per df) forklaret ved at fitte linien med den tilbage-værende, uforklarede variation. Dette gøres ved at konstruere et F-ratio.

Koefficient-tabel

Her kan konstanten og liniens hældning aflæses.Der testes, om hældningen er væsentligt forskellig fra nul (0). Hvis linien har hældning 0, kanX ikke bruges til at forudsige Y.

Anden kolonne af tabellen (SECoef) er standard-error for koefficienten, dvs estimatets nøj-agtighed.T = Coef/SECoef

Når P er < 0.05, forkastes nulhypotesen om hældningen 0.

R2

(Procent)andelen af variabilitet der er forklaret af den fittede linie.

R2 =Regression SS

Total SS=SSY − SSE

SSY

8

Konfidensintervaller

estimat± tcrit × standard error of the estimate

Et forudsigelses-interval (prediction interval, s. 33) er to stiplede linier omkring regressions-linien.Y kan bedre forudsiges for værdier tæt på gennemsnittet af x-værdierne (x-bar).

Høj t- og F-ratio-værdi giver anledning til at forkaste nulhypotesen om ’intetforhold’ mellem X og Y, og at konkludere at de to variabler er beslægtede. HøjeR2-værdier indikerer at en stor del af variansen er forklaret.

Kapitel 3 - Modeller, parametre og GLM’ere

ANOVA og regression anvender ens metoder (opdeling af variation). De er begge del af engenerel lineær model.

Population parametre Sædvanlig nulhypotese Estimater fra prøvenµ, σ2 µ = 0 y, s2

µA, µB, µC , σ2 µA = µB = µC yA, yB, yC , s

2

α, β, σ2 β = 0 a, b, s2

9

Populationer og parametre

Eksemplet med yield og fertiliser, tre middelværdier og uforklaret varians:

YIELD =

µAµBµC

+ ε

Variansen, epsilon, stammer fra en Normalfordeling med middelværdi 0 og varians σ2. Modelmed lineær sammenhæng:

VOLUME = α+ β.HEIGHT + ε

Se mere i bogen, s. 50.

Kapitel 4 - Mere end én forklarende variabel

Årsager til brug af mere end én X:1) Hvis der derved kan forudsiges en bedre værdi for Y.2) Hvis der derved kan forklares mere variation.3) Information om X’ernes indbyrdes relationer.

Det ønskes at en model er effektiv:1) Der forklares meget variation i Y.2) En simpel, sparsommelig model.

Hvis en vigtig variabel unlades, kan der ske det at:1) Man når til den forkerte konklusion.2) Man overser vigtige forhold mellem variabler. 3) Man har for stor error-variation i modellen.

En variabel har signifikant indflydelse, når dens p-værdi i ANOVA tabellen er < 0.05.

Statistisk eliminering - ved at overveje residualer

SeqSS: Sequential Sum of Squares - Type I SSDen mængde variation der forklares af en variabel, når de foregående termer i modellen erblevet statistisk fjernet (Afhænger af variablernes rækkefølge).

AdjSS: Adjusted Sum of Squares - Type III SSDen mængde variation der forklares af en variabel, når alle andre forklarende variabler imodellen er blevet statistisk fjernet (under Effect-test i JMP).ă

Hvis der er et stort fald i værdi fra SeqSS til AdjSS, tyder det på, at hvis én af variablernefjernedes fra modellen, kunne en anden blive signifikant.SeqSS og AdjSS er altid de samme for sidste led i modellen.

10

Kapitel 5 - Design af eksperimenter

Replikation

Mere data giver sikrere konklusioner. Gentagelser (replicates) er målinger af samme ting,fx. et antal marker der har fået samme behandling. I gødningseksemplet var hver af de tregødninger brugt på 10 marker, så replikations-niveauet er 10.Pseudoreplikation sker, når målingerne ikke er uafhængige, fx der måles på samme plan-te/mark flere gange, etc.

Når et eksperiment designes, målet er at maksimere antallet af sande replikater, og dervedat maksimere antallet af uafhængige stykker af information der kan svare på spørgsmålet.

Replikation reflekteres i GLM-outputtet:1) ANOVA-tabellen opdeler variationen i den der er forklaret af modellen, og det som forbliveruforklaret. Niveauet af replikation afspejles i ’error degrees of freedom’. Jo større denne er, jobedre er estimatet af den uforklarede varians (s er tættere på σ).2) Den uforklarede varians bidrager så til udregningen af standardafvigelserne (standard er-rors) i koefficient-tabellen. Antallet af replicater for hver behandlings-kombination bidragerogså til denne udregning. (Standard error of a mean: s√

n. Her er n antallet af replikater, der

bidrager til udregningen af behandlingens gennemsnit. Så jo lavere niveau af replikation, johøjere standard-error af gennemsnittet, fordi man bliver mindre sikker på estimatet.)

Når et eksperiment designes, skal niveauet for replikation bestemmes. Som tommelfingerregeler det målet at have mindst 10 frihedsgrader til error, når den fulde model er fittet.

Blanding (randomisation)

For et statistisk analyseret forsøg, skal behandlinger fordeles tilfældigt over prøvefelter ellerenheder.

Blocking

I analysen af et eksperiment, opdeles variationen af data imellem de forklarende variablerder blev manipuleret i eksperimentet, og error-variation. Jo mindre error-variation, jo merekraftfuld er eksperimentet.Blocking er et design-værktøj, der minimerer error-variation, og bruger princippet om statistiskelimination.

Indenfor hver block, udføres eksperimentet i lille format. Imellem eksperimenterne kan dervære generelle, forskellige omstændigheder (s. 81). Fordelen ved blocking er at analysens præ-cision forøges, og chancerne for at finde et signifikant resultat forøges. Når en block-variabel

11

indsættes, kan F-værdien for en forklarende variabel forøges, og EMS (error mean square)aftager.Blocking er derfor en måde til at eliminere variation som ellers ville kategoriseres under ER-ROR.

To regler for oprettelse af blocks:1) Blocks skal bruges til at repræsentere en faktor, som menes at påvirke responsvariabel. (Fxgrundvandsniveau, hvor dette ikke er målt i forsøget, eller fx dag/anden tidsenhed)2) Blocks skal være internt så homogene som mulige, og derfor så forskellige fra hinanden sommuligt.

Latin square design: Blocking i rækker og kolonner (s. 83).

Orthogonalitet

To variable siges at være orthogonale, når kendskabet til én af dem ikke giver nogen informationom den anden variabel.Ved orthogonale eksperimenter er AdjSS = SeqSS

Kapitel 6 - Kombinering af kontinuerte og kategoriske variable

GLM output

ANOVA-tabellenDenne tabel opsummerer evidens, om hvorvidt de forklarende variabler er relateret til data-variablen (respons-var.). Svaret ligger i p-værdierne (lave p-værdier indikerer at nulhypotesenskal forkastes). P-værdierne kan være baseret på SeqSS eller AdjSS. Når de er baseret på densidste, svares på spørgsmålet: ’Viser variablen nogen forudsigende magt når alle de andre for-klarende variabler allerede kendes?’

Koefficient-tabellenDenne fortæller, hvordan variablerne er relaterede. Ud fra denne tabel kan en formel opstilles,som gør det muligt at forudsige data-variable ud fra de forklarende variable.De forskellige niveauer af kategoriske variable er repræsenteret som afvigelser, og kontinuertevariable er relateret til data via en hældning.Afvigelserne og hældningerne er de bedste gæt der kan opstilles ud fra datasættet. Standard-afvigelserne af disse parametre (eller standard-errors) oplyses også i denne tabel, og viser hvorsikkert forholdet er opstillet af dataerne.

12

Kombinering af kontinuerte- og kategoriske variable

Når disse kombineres, hvilket også kaldes Analysis of Covariance (ANCOVA).

Resultatet kan være tre grafer med hver deres skæring med y-aksen, men samme hældning(tre parallelle linier).

Forskriften for formlen bliver (s. 98):Data-variabel = Constant.Coef(aflæst værdi) + Kont-var.Coef(aflæst værdi) x Kont-var +(Kat-var.Coef.1/2/3)

Orthogonalitet

F-ratio skal være lig 0, for at en kontinuert og kategorisk variabel er orthogonal. Gennemsnittetfor hver værdi af den kontinuerte variabel skal være nøjagtigt den samme for hvert niveau afden kategoriske.

Behandling af variable som kategoriske eller kontinuerte

Nogle variable kan legitimt behandles som enten kontinuerte eller kategoriske, fx dag.Når en variabel behandles som kategorisk i stedet for kontinuert, falder F-ratio, og AdjSS er enbrøkdel mindre. Dette sker pga en ændring i antallet af frihedsgrader. En kontinuert variabel(linie) har 1 frihedsgrad, og en kategorisk har antallet af niveauer minus 1 frihedsgrader.

Så hvis en variabel analyseres som kontinuert, er F-ratio sandsynligvis større, og derfor meresignifikant. Den kontinuerte databehandling er derfor mere kraftfuldt end det kategoriske(bedre til at forkaste nulhypotesen) (s. 104-105).

13

GLM metoder

Kapitel 7 - Interaktioner

Interaktioner skal kontrolleres før hovedfaktorer.En interaktion mellem faktor A og B betyder, at effekten af hvert niveau af faktor A afhængeraf hvilket niveau af faktor B der inspiceres.Når interaktioner eksistere, kan individuelle faktorer ikke tolkes seperat, uden at inkludereinteraktionen

Det faktorialske princip

s. 110-115Alle mulige behandlingskombinationer inkluderes, for at teste for interaktioner mellem deforklarende variable.

Det faktorialske design har to fordele over to en-vejs (one-factor) eksperimenter:1) Det gør det muligt at teste for interaktioner.2) Hvis der ikke er signifikante interaktioner tilstede, giver det en grad af skjult replikation(flere data).

Eksempler på interaktions-diagrammer: s. 115

14

Præsentation af resultater

Faktorialske eksperimenter uden signifikante interaktioner, s. 117-120

Tolkning skal begynde fra bunden af ANOVA tabellen, og opad. Der skal startes med inter-aktionen.

Resultatet kan opskrives som en ligning med de fittede værdier. Først konstanten (gen-nemsnittet for alle data). Alle andre termer er afvigelser fra det overordnede gennemsnit, ogværdierne inden for hver parantes skal summere til 0.Værdierne med kursiv er dem der er udregnede (tabel 3.2, s. 51). Det sidste led er interak-tionsleddet, der undlades, hvis interaktionen ikke er signifikant.

Resultaterne kan præsenteres, ved at middelværdierne for hver af de kategoriske variablesniveauer udregnes, og opstilles i en tabel (box 7.4, s. 119), eller som histogrammer.Standardafvigelserne (St Error) udregnes via formlen s√

n. Værdien for fejl-variansen (error

variance, s2) tages fra ANOVA tabellen, (Error(Adj MS) = EMS). Værdien for n er antalletaf målinger på niveauet af den kategoriske variabel, der er.Hvis der i et faktorialt eksperiment måles 24 målinger (df(Total) = 23), fordelt over 4 så-rater(df(Sowrate) = 3), er der altså n=6 målinger for hver så-rate.

Faktorialske eksperimenter med signifikante interaktioner, s. 120-123

Et interaktionsled er i modelformen angivet med multiplikationstegn, eks: ’WATER*SHADE’. In-teraktionsleddets p-værdi i ANOVA tabellen viser, om interaktionen er signifikant(signifikant hvis p < 0.05). Hvis leddet ikke er signifikant, køres beregningen igen, udeninteraktionsleddet.

Når interaktioner er tilstede, kan én variabel ikke tolkes seperat uden at inkludere den anden.Når der er mange X-variable, nøjes man ofte med bare at se på 2-vejs interaktioner, eller heltundlade dem.

I koefficient-tabellen, skal afvigelserne inden for hver gruppe summere til 0. Hvis man opstilleralle muligheder skal rækkesummer og kolonnesummer give 0.

Interaktioner med kontinuerte variable

En interaktion betyder, at effekten af én variabel afhænger af værdien af en anden variabel. Idette tilfælde, afhænger hældningen af den kontinuerte variabel af niveauet af den kategoriskevariabel.

Ligningen med de fittede værdier får til sidst tilføjet et led, der tillader hældningen at variere,afhængig af niveauet af den kategoriske variabel. Hvert niveau af den kategoriske variabel kanderfor have sin egen hældning og skæringskonstant.

Konfidensintervaller for interaktioner: s. 130

15

Interaktioner mellem kontinuerte variable

Y = X|Z = X + Z +X ∗ Z

Nu betyder * faktisk multiplikation. Hvis hældningen af X*Z er signifikant forskellig fra 0, erder en signifikant interaktion.

Kapitel 8 - Modeltjek: Uafhængighed

Generelle lineære modeller er en gruppe parametriske tests, der bygger på følgende fire anta-gelser:1) Uafhængighed2) Homogenitet af varianser3) Normalfordeling af error4) Linearitet/Additivitet

Definition af uafhængighed: ’Datapunkter er uafhængige, hvis man ved at kende afvigelsen(error) af 1 eller en delmængde datapunkter, ikke får nogen viden om afvigelsen (error) fornogen af de andre.’

Heterogene data

Hvis der er en naturlig gruppering i datapunkterne, og denne ignoreres, er data heterogene,og bestrider antagelsen om uafhængighed.

Ligeledes skal målinger ikke gentages (s. 142).

Kapitel 9 - Modeltjek II: De andre tre antagelser

Homogenitet af varianser

Residualer: Forskellen mellem den observerede og forudsagte værdi.ăPrincippet for GLM er at variansen opdeles mellem det der forklares af modellen, og det derforbliver uforklaret. Den ufroklarede varians indeholdes i en variabel; EMS (error mean squa-re).Ved at se på residualplottet, skal spredningen af punkter gerne være konstant, ellers er vari-ansen ikke homogen. Dette kan afhjælpes med transformation af Y variablen.

16

Normalfordeling af error

Formen af residualerne. Se figur 9.2

Residualerne skal være normalfordelte (uden skewness), med lige stor varians over hele data-området.

Linearitet/additivitet

GLM estimerer et lineært forhold mellem responsvariablerne og de forklarende variable, altsåeks: ’Y = X1 +X2’. Følgende er ikke en lineær sammenhæng: ’Y = X12.54 +X20.54’.

Modelkritik og løsnigner

Der er to måder man kan se efter model-problemer. 1) residualerne og 2) Informal graphicmethods (uformelle grafiske metoder).

Der kigges på de fittede værdier (opnåede fra koefficient-tabellen), og residualerne, som erforskellene mellem datapunkter og fittede værdier.Gennemsnittet for alle residualer vil være 0. De rå residualer kan standardiseres ved at divi-deres med deres standardafvigelse, så denne bliver 1.

17

Ved at plotte residualerne i et hostogram, kan man se om der tilnærmelsesvist er tale om ennormalfordeling (s. 158). Hvis formen er skæv og assymetrisk, er der tre almindeligt anvendemetoder til transformation: kvadratrod, logaritmer og invers. Disse er nyttige, når residualerneer for store (right-scewed). Kvadratroden har en proportionalt større komprimerende effekt påstørre numre.

Generel regel:Kvadratrod svagest, log mellem og invers kraftigst.

Normal probability plots (normalplots eller fraktildiagrammer)

Residualerne sorteres, og plottes mod normal score (værdier fra en normalfordeling). Hvisresidualerne er normalfordelte, skal plottet producere en ret linie.Ligheden af linien kan måles ved dens korrelationskofficient. Har histogrammet eksempelvisen højreforskydning, bliver plottet konvekst. Har histogrammet en venstreforskydning, bliverplottet konkavt. Outliers ligger aller yderst i forlængelse af linien.

Plot af residualerne mod de fittede værdier

Denne grafiske måde indikerer, hvis der er problemer med heterogenitet af variansen og linea-ritet. De fleste residualer ligger mellem -2 og +2, hvilket forventes fra normalfordelte variable.

Under dataindsamling kan man have problemer med stigende varians, som målingerne bliverstørre. Dette giver en ’<’-form på residualplottet, og modsiger ens varians over alle fittedeværdier. Mindre almindelig er det, når variansen aftager med stigende værdier (’>’-form). Detre metoder til transformation (kvadratrod, logaritmen og inverse værdier) er muligheder forat løse problemer med stigende varians. Y-variablen kan kvadreres, hvis variansen aftagersom værdierne bliver større.

Løsninger til non-linearitet

Der er følgende muligheder for at løse problemer med non-linearitet: Interaktioner, transfor-mationer og polynomialer.Heterogenitet af variansen kræver transformation af Y-variablen, non-linearitet kan løses vedat transformere X og/eller Y-variabler (s. 168-173).

Eks (s. 169-172): Interaktion mellem to kategoriske variabler løser problemer med ikke-linearitet. I eksemplet løste dette ikke alle problemer med residualplottet, så Y-varibalenlog-transformeredes, hvorefter interations-leddet blev unødvendigt.

Når nonlinearitet involverer kontinuerte varibale, kan det være mere passende at log-transformerebåde Y og X variablerne.

18

Kapitel 10 - Model selection I

Når residualplottet laver et U, kan det gøres ved at anvende en kvadratisk (x2) eller kubisk(x3) model. Hvis den kubiske er tilstrækkelig, er det denne der anvendes (princippet omsimpelhed).

Der skal indføres nogle udtryk (p-værdier) der bestemmer, hvornår den kubiske model er sågod, at det kan betale sig at have de ekstra variable med.

Tre principper om modelvalg

Variablers økonomi

Jo simplere modelvalg - jo bedre.1) Modeller bør have så få parametre som muligt.2) Modeller bør have simple typer af forhold (sædvanligvis lineært)Altså den minimale fyldestgørende model hvor alle termer er signifikante. Model simplifica-tion: Processen, hvor unødvendige variabler fjernes.

P-værdiers multiplicitet

Hvis et faktorialt eksperiment har tre variabler, producerer ANOVA-tabellen 7 p-værdier:(tre hovedeffekter, tre tovejs-interaktioner og en tre-vejsinteraktion). Som antallet af variablerstiger, stiger antallet af interaktioner og p-værdier drastisk. Det ses ofte højest på 2-vejsinteraktioner.

Overvejelser om marginalitet (variablers hieraki)

Hierakier skal respekteres i modelformlen. Termer af den simpleste og nederste orden kommerførst i formlen. Eksempel:

Y ield = A+B + C +A ∗B +A ∗ C +B ∗ C +A ∗B ∗ C = A|B|C

Hvis et polynomie er signifikant fxX2, skal X også medtages. Hvis en interaktion er signifikant,er de lavere liggende komponenter også vigtige, uanset værdien for signifikans.

19

Relativ vigtighed af de tre principper, s. 195-200

Eksperimenter opdeles i to grupper:1) Orthogonale, eller næsten orthogonale designs (hvor SeqSS ≈ AdjSS)2) Eksperimenter hvor der er store forskelle mellem SeqSS og AdjSS.

For orthogonale (og næsten orthogonale) eksperimenter, er marginalitet (hiraki) det vigtigsteprincip. Modelvalget for orthogonale eksperimenter foretages ud fra ANOVA-tabellen.

Kapitel 11: Datasæt med flere forklarende variabler

I et typisk multiple regressionsproblem er der én Y variabel, og et større antal X variable.Målet for analysen er at udvælge nogle X-variable som bedst beskriver eller forudsiger Y.De samme principper for modeludvælgelse anvendes (variablers økonomi, multiplicitet af p-værdier og marginalitet), men problemet er større, da der er mange modeller at vælge imellem,hvis der er mange X variable.

Det andet problem med at arbejde med datasæt med flere kontinuerte variable er, at vari-ablerne ikke vil være orthogonale.

Når to variabler deler information betyder det, at når første variabel er medtaget i modellen,tilføjer den anden kun lidt. Hvis AdjSS for første variabel er lavere end dens SeqSS, så delerden inforation med variabel nummer to. I modsætning hertil, hvis dens AdjSS var højere,forøger anden variabel dens informationsgrad.

Variablers økonomi i konteksten multiple regression

R2 og adjusted R2

R2 er et mål for andelen af varians der er forklaret af en model:

R2 =Total SS− Residual SS

Total SS

hvor SS = Sum of Squares. Værdien af R2 ligger mellem 0 og 1, og jo højere R2 er, jo størreandel af varians er forklaret af modellen.

En ulempe ved R2 er, at jo flere variabler der tilføjes til modellen, jo større bliver R2, uansetom de tilføjede variabler er signifikante eller ej.

En løsning til problemet er udregning af den justerede (adjusted) R2:

R2adj =

Total MS− Residual MSTotal MS

20

hvorTotal MS =

Total SSTotal DF

Residual MS er et estimat af error-varians, og repræsenterer scatter omkring regressionslinie.Jo lavere scatter, jo højere R2

adj , s. 211.

Hvis uvigtige termer tilføjes til modellen, stiger R2, men R2adj falder.

Prediction intervals: s. 213

Når Y forudsiges fra én X-variabel, er der to kilder for unøjagtighed: 1) Scatter omkring linien;2) Fejl i estimeringen af den sande linie.

Hvis flere forklarende variable inkluderes, bliver prediction intervallet mindre, hvis den nyeparameter bidrager til at forklare usikkerheden.

Multiplicitet af p-værdier i konteksten; multiple regression

Jo flere X variabler der undersøges, jo mere sandsynligt er det at mindst én af dem ud fratilfældigheder er signifikant uden at være det (Type 1 fejl). Se summary, s. 228.

Kapitel 13 - Kategoriske data

Chi-2 og G-test. Én og kun én kategori fra hver kat. variabel skal passe på hvert objekt.

To hovedtyper af data: 1) Ordinale (med naturlig rækkefølge), 2) Nominal (ingen rækkefølge).Metoder for ordinale data kan ikke bruges på nominale data.Metoder for nominale data kan bruges på ordinale data, med et tab af kraft.

De forventede værdier af en celle kan udregnes:

Exp =rowtotal × columntotal

grandtotal

Tætheden evalueres ved at udregne en chi-i-anden-værdi:

X2 =∑ (O − E)2

E

hvor E = forventede, O = observerede.df = (no. of rows -1) x (no. of columns - 1)

De forventede værdier bør mindst have værdien 5, et mindre stringent krav er dog at alleskal være større end 1, og 80% skal være større eller lig 5.

21

G-test

G = 2∑

ln(O

E)

G tager en lille værdi når de observerede værdier er tæt på de forventede. En stor G betyderstærk evidens mod nulhypotesen. G kan approksimeres af en chi-i-anden fordeling når prøvensantal er stort. Chi-i-anden er bedre når n er lille.

JMP output

Ud fra dette udregnes en p-værdi. I JMP vælges to kategoriske variable, og ’Fit Y by X’.Teststørrelserne ser således ud i JMP:

Testmetode Testnavn i JMP ChiSquare Prob>ChiSq (p-værdi)G2 Likelihood ratio 3.348 0.673X2 Pearson 3.344 0.675

22