deskriptiv teori: momenter - math.ku.dkerhansen/stat2a_04/doku/noter/kap13.pdf · kapitel 13...

32
Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det følgende kapitel indføre en række begreber der bruges til at beskrive sandsynlighedsmål på (R, B). Samtlige begreber udspringer i en eller anden forstand af at man regner integraler ud af visse funktioner. Man skal have tre slags sandsynlighedsmål på R i tankerne: Dels mål med tæthed med hensyn til Lebesguemålet m. Dels mål der er koncentreret på Z, men som altså tænkes indlejret i R. Og dels empiriske mål, altså mål af formen x 1 ,..., x n (A) = 1 n n X i=1 1 A ( x i ) hvor x 1 ,..., x n er givne tal i R. Vi vil altid tænke på et sandsynlighedsmål ν på (R, B) som fordelingen af en stoka- stisk variabel X, defineret på et baggrundsrum (Ω, F, P). Denne synsvinkel forekom- mer naturlig, hvis ν har tæthed med hensyn til m eller lever på Z. Men tankegangen kan faktisk også give god mening i forbindelse med empiriske mål: hvis et oprindeligt eksperiment, beskrevet ved reelle stokastiske variable X 1 ,..., X n , har givet værdier x 1 ,..., x n , konstruerer man i visse situationer bootstrapvariable X * 1 , X * 2 ,... der netop har fordelingen x 1 ,..., x n . Man bruger også ordet resampling, fordi X * n netop er en genudtrækning af en tilfældig af de oprindelige målinger. Det er vigtigt at forstå at resampling er noget man selv laver (på sin computer). Men alligevel kan resampling i høj grad bruges til at vinde indsigt i det oprindelige eksperiment. 232

Upload: ngokhanh

Post on 03-Feb-2018

225 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

Kapitel 13

Deskriptiv teori: momenter

Vi vil i dette og det følgende kapitel indføre en række begreber der bruges til atbeskrive sandsynlighedsmål på (R,B). Samtlige begreber udspringer i en eller andenforstand af at man regner integraler ud af visse funktioner.

Man skal have tre slags sandsynlighedsmål på R i tankerne: Dels mål med tæthedmed hensyn til Lebesguemålet m. Dels mål der er koncentreret på Z, men som altsåtænkes indlejret i R. Og dels empiriske mål, altså mål af formen

εx1,...,xn(A) =1n

n∑

i=1

1A(xi)

hvor x1, . . . , xn er givne tal i R.

Vi vil altid tænke på et sandsynlighedsmål ν på (R,B) som fordelingen af en stoka-stisk variabel X, defineret på et baggrundsrum (Ω,F, P). Denne synsvinkel forekom-mer naturlig, hvis ν har tæthed med hensyn til m eller lever på Z.

Men tankegangen kan faktisk også give god mening i forbindelse med empiriske mål:hvis et oprindeligt eksperiment, beskrevet ved reelle stokastiske variable X1, . . . , Xn,har givet værdier x1, . . . , xn, konstruerer man i visse situationer bootstrapvariableX∗1, X

∗2 , . . . der netop har fordelingen εx1,...,xn . Man bruger også ordet resampling, fordi

X∗n netop er en genudtrækning af en tilfældig af de oprindelige målinger. Det er vigtigtat forstå at resampling er noget man selv laver (på sin computer). Men alligevel kanresampling i høj grad bruges til at vinde indsigt i det oprindelige eksperiment.

232

Page 2: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.1. Momenter 233

13.1 Momenter

Definition 13.1 Lad ν være et sandsynlighedsmål på (R,B), og lad k ∈ N. Vi siger atν har k’te moment hvis funktionen x 7→ xk er ν-integrabel. I bekræftende fald kaldes

∫ ∞

−∞xk dν(x)

for det k’te moment af ν, mens∫ ∞

−∞|x|k dν(x)

kaldes det k’te absolutte moment af ν.

I almindelighed vil vi hellere tale om stokastiske variable end om sandsynligheds-mål. For en reel stokastisk variabel, X, defineret på et baggrundsrum (Ω,F, P), er vitilbøjelige til at identificere egenskaberne for X med egenskaberne for fordelingen afX, altså billedmålet X(P) på (R,B). Vi vil således sige at X har k’te moment, når vi ivirkeligheden mener at X(P) har k’te moment. Det sker når

∫ ∞

−∞|x|k dX(P)(x) < ∞ .

Bemærk at integraltransformationsformlen sikrer at∫

|X|k dP =∫ ∞

−∞|x|k dX(P)(x) .

Der gælder altså at X har k’te moment netop hvis den transformerede stokastiskevariabel Xk er P-integrabel. I bekræftende fald taler vi lige så gerne - eller hellere -om k’te moment af X som om det k’te moment af X(P), skønt den sidste formuleringer den formelt korrekte.

For stokastiske variable er der tradition for at skrive 1. momentet

EX =∫

X dP

hvor E er en forkortelse af det engelske expectation. På dansk bruges ofte ordetmiddelværdi for 1. momentet. Tilsvarende skrives EXk for det k’te moment og E|X|k

Page 3: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

234 Kapitel 13. Deskriptiv teori: momenter

for det k’te absolutte moment. Integraltransformationsformlen fortæller os at hvis detk’te moment for X eksisterer, kan det findes som

EXk =

∫ ∞

−∞xk dX(P)(x) =

Xk dP

altså ved at integrere den stokastiske variabel Xk med hensyn til P.

Eksempel 13.2 Lad X være en reel stokastisk variabel, defineret på et baggrundsrum(Ω,F, P). Hvis X er næsten sikkert begrænset, det vil sige hvis

P(|X| ≤ N) = 1

for et passende N, så har X k’te moment for alle k. For∫

|X|k dP ≤∫

Nk dP = Nk.

Eksempel 13.3 Lad X være en reel stokastisk variabel, defineret på et baggrundsrum(Ω,F, P), og antag at fordelingen af X har tæthed f med hensyn til Lebesguemåletm. Lad t : (R,B) → (R,B) være en målelig transformation. Integraltransformations-formlen giver at

|t X| dP =∫ ∞

−∞|t(x)| dX(P)(x) =

∫ ∞

∞|t(x)| f (x) dx .

Den stokastiske variabel t(X) har derfor middelværdi hvis og kun hvis∫ ∞

−∞|t(x)| f (x) dx < ∞ . (13.1)

I bekræftende fald får man - ligeledes ud fra integraltransformationsformlen - at

E(t(X)

)=

∫ ∞

−∞t(x) f (x) dx. (13.2)

Eksempel 13.4 Lad X være en reel stokastisk variabel, defineret på et baggrundsrum(Ω,F, P). Antag at P(X ∈ Z) = 1, og lad fordelingen af X have sandsynlighedsfunk-tion p. Lad t : (R,B) → (R,B) være en målelig transformation. Den stokastiske

Page 4: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.1. Momenter 235

variabel t(X) har middelværdi hvis og kun hvis

∞∑

n=−∞|t(n)| p(n) < ∞ (13.3)

og i bekræftende fald er

E(

t(X))

=

∞∑

n=−∞t(n) p(n) . (13.4)

Eksempel 13.5 Lad X være en reel stokastisk variabel, defineret på et baggrundsrum(Ω,F, P), og antag at X(P) = εx1 ,...,xn . Lad t : (R,B) → (R,B) være en måleligtransformation. Den stokastiske variabel t(X) har altid middelværdi, og

E(

t(X))

=1n

n∑

i=1

xt(i) . (13.5)

Eksempel 13.6 En række studerendes højde er blevet målt, resultaterne er angivet itabel 13.1.

Kvinder Mænd159.8 166.8 170.1 169.9 181.1 185.0159.8 167.2 170.2 172.4 181.8 187.1159.9 168.7 172.0 176.7 181.8 188.0162.0 168.8 175.0 176.7 182.0 189.9163.9 169.0 175.8 176.8 183.0 190.3164.9 169.0 176.9 177.1 183.1 192.7165.0 169.1 178.1 178.0 183.9 196.7165.0 169.7 178.7 178.9 184.0165.2 170.0 180.1 180.0 185.0165.9 170.0 183.0 180.2 185.0

Tabel 13.1: Højdemålinger for 57 studerende, fordelt på køn. Resultaterne er angivet i cm.Et dotplot over disse data er optegnet i figur 13.1.

Ser man på dotplottet over disse data i figur 13.1 får man en tydelig fornemmelseaf at mændene er højere end kvinderne (hvilket vist ikke kommer bag på nogen).

Page 5: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

236 Kapitel 13. Deskriptiv teori: momenter

Højde

150 160 170 180 190 200

Mænd

Kvinder

Figur 13.1: Et dotplot for data fra tabel 13.1.

Det er ikke sådan at alle mændende er højere end alle kvinderne, men den “typiskemand” er højere end den “typiske kvinde”. Denne løse betragtning kan til en vis gradpræciseres gennem brug af empiriske momenter:

EX EX2 EX3 EX4

Kvinder 169.32 28 704.596 4 872 318.5804 828 069 444.5778

Mænd 182.49 33 335.431 6 095 891.7873 1 115 894 089.7778

De empiriske momenter for mændene er større end for kvinderne - for de højeremomenter endda voldsomt meget større. Middelværdierne svarer nogenlunde til hvorøjet finder sit centrum i de to dotplot. Så at mændenes middelværdi er højere endkvindernes, svarer til den visuelle konklusion om at mændene er størst. Fortolkningenaf de højere momenter er mere usikker, men vil blive taget op igen i eksempel 13.15.

Momenterne af en fordeling giver en forholdsvis grov beskrivelse, men et sted skalman jo starte. Vi skal se at visse modifikationer af momenterne er at foretrække: deer nemmere at forholde sig til, fordi de ikke generes af de numeriske problemer, derer tydelige i eksempel 13.6. Vi skal også i afsnit 13.7 se at skønt momenterne kunudgør en simpel opsummering af fordelingens egenskaber, så er det dog under visseomstændigheder nok til at identificere fordelingen entydigt.

Page 6: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.2. Egenskaber ved middelværdien 237

13.2 Egenskaber ved middelværdien

Lemma 13.7 Lad X være en reel stokastisk variabel, defineret på et baggrundsrum(Ω,F, P), og antag at X har 1. moment. For alle α, β ∈ R gælder at α + βX har1. moment, og

E(α + βX

)= α + βEX. (13.6)

B: Først konstaterer vi at∫

|α + βX| dP ≤∫

|α| + |β||X| dP = |α| + |β|∫

|X| dP < ∞,

så α + βX har vitterligt 1. moment. Formlen for E(α + βX

)følger nu af integralets

linearitet:

E(

α + βX)

=

α + βX dP = α + β∫

X dP = α + β EX.

Lemma 13.8 Lad X være en reel stokastisk variabel, defineret på et baggrundsrum(Ω,F, P), og antag at X har 1. moment. Lad I være et reelt interval. Hvis P(X ∈ I) =1, så vil EX ∈ I.

B: Antag først at P(X ≥ a) = 1. Da er

EX =∫

X dP ≥∫

a dP = a.

Vi kan endda se at der gælder skarp ulighed, medmindre P(X = a) = 1. Hvis vi vedat P(X > a) = 1, kan vi derfor slutte at EX > a.

Helt tilsvarende kan vi vise at hvis P(X ≤ b) = 1 så er EX ≤ b, og hvis P(X < b) = 1så er EX < b.

Argumentationen i lemma 13.8 kan strammes op til at sige at EX er et indre punkt iI, medmindre X er udartet i det ene endepunkt.

Page 7: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

238 Kapitel 13. Deskriptiv teori: momenter

Lemma 13.9 Lad X være en reel stokastisk variabel, defineret på et baggrundsrum(Ω,F, P), og antag at X har k’te moment. For ethvert m = 1, . . . , k gælder at X harm’te moment.

B: For alle x ∈ R har vi at|x|m ≤ 1 + |x|k,

hvor 1-tallet skal sikre at uligheden også holder for |x| < 1. Der gælder dermed

|X(ω)|m ≤ 1 + |X(ω)|k for alle ω ∈ Ω.

Denne ulighed skrives sædvanligvis blot

|X|m ≤ 1 + |X|k (13.7)

hvor argumentet ω ikke skrives ud eksplicit. Integreres på begge sider af (13.7) fås∫

|X|m dP ≤ 1 +∫

|X|k dP < ∞

som ønsket.

En konsekvens af lemma 13.9 er at hvis X har k’te moment, så har ethvert polyno-mium i X af grad k eller mindre middelværdi. Hvis X har k’te moment, definerer videt k’te nedstigende faktorielle moment EX (k) som

EX(k) = EX(X − 1) . . . (X − k + 1) .

For stokastiske variable med værdier i Z er det ofte nemmere at udregne det k’tenedstigende faktorielle moment end det er at udregne det k’te moment. Se eksem-pel 13.17 og 13.18.

Lemma 13.10 Lad X og Y være to reelle stokastiske variable, defineret på et bag-grundsrum (Ω,F, P). Hvis både X og Y har k’te moment, så har X + Y også k’temoment.

B: For alle x, y ∈ R har vi at

|x + y| ≤ |x| + |y| ≤ 2 max|x|, |y|.

Page 8: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.2. Egenskaber ved middelværdien 239

Da x 7→ xk er voksende på [0,∞), er

|x + y|k ≤ 2k max|x|, |y|k = 2k max|x|k , |y|k ≤ 2k(|x|k + |y|k).

Dermed er

|X + Y |k ≤ 2k(|X|k + |Y |k),

og integreres på begge sider af denne ulighed, opnås at

|X + Y |k dP ≤ 2k(∫

|X|k dP +∫

|Y |k dP)

< ∞ .

Lemma 13.11 (Markovs ulighed) Lad X være en reel stokastisk variabel, defineretpå et baggrundsrum (Ω,F, P). Antag at P(X ≥ 0) = 1 og at X har 1. moment. Foralle c > 0 gælder da at

P(X > c) ≤ EXc. (13.8)

B: For alle x ≥ 0 har vi at

c 1(c,∞)(x) ≤ x.

Dermed vil

c 1(c,∞)(X) ≤ X P − n.s.

Integreres i denne ulighed fås som ønsket at

c P(X > c) ≤ EX.

Det fremgår af Markovs ulighed, at for en reel variabel X er E|X| et udtryk for hvorhurtigt halesandsynlighederne P(|X| > c) går mod nul for c→ ∞.

Page 9: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

240 Kapitel 13. Deskriptiv teori: momenter

13.3 Standardiserede momenter

Hvis X har k’te moment, indfører vi det k’te moment om c som

E(X − c)k

Ganges (X − c)k ud, fås et polynomium i X af grad k, og da alle ledene er integrable,giver definitionen mening.

Det k’te centrale moment af X er det k’te moment om c = EX. Altså

E(X − EX)k.

De centrale momenter er som oftest meget nemmere at fortolke end de “rå” momen-ter. Det centrale 2. moment kaldes variansen af X, og skrives VX. Altså

VX = E(X − EX)2. (13.9)

Lemma 13.12 Lad X være en reel stokastisk variabel, defineret på et baggrundsrum(Ω,F, P). Antag at X har 2. moment. Da gælder at

VX = EX2 − (EX)2. (13.10)

Endvidere gælder der atVX = EX(2) − (EX)(2), (13.11)

og for alle c ∈ R gælder at

E(X − c)2 = VX + (EX − c)2 . (13.12)

B: Ifølge (13.12) kan EX karakteriseres som det punkt hvorom X har det mind-ste 2. moment. Det giver substans til følelsen af at EX er en slags centrum for forde-lingen af X.

B: Ved udregning af kvadratet i (13.9) fås:

VX = E(X − EX)2 = E(X2 − 2XEX + (EX)2)

= EX2 − 2EXEX + (EX)2 = EX2 − (EX)2,

Page 10: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.3. Standardiserede momenter 241

og dermed er (13.10) bevist. Beviset for (13.11) er stort set det samme, og overladestil læseren. Endelig ser vi at

E(X − c)2 = E((X − EX) + (EX − c))2

= E(X − EX)2 + (EX − c)2 + 2E((X − EX)(EX − c))

= E(X − EX)2 + (EX − c)2 + 0.

En anden nyttig regneregel er at

V(α + βX) = β2VX. (13.13)

Den følger igen ved simple regninger:

V(α + βX) = E(α + βX − E(α + βX))2 = E(α + βX − (α + βEX))2

= E(β(X − EX))2 = β2E(X − EX)2 = β2VX.

Lemma 13.13 Lad X være en reel stokastisk variabel, defineret på et baggrundsrum(Ω,F, P), og antag at X har 2. moment. Da er VX ≥ 0. Og VX = 0 hvis og kun hvisX = EX P-næsten sikkert.

B: Det fremgår af (13.9) at VX er integralet af den ikke-negative funktion (X −EX)2. Derfor er VX ≥ 0. Og værdien kan kun være nul, hvis variablen (X − EX)2 ernul næsten sikkert, altså hvis X = EX næsten sikkert.

Lemma 13.14 (Chebyshevs ulighed) Lad X være en reel stokastisk variabel, defi-neret på et baggrundsrum (Ω,F, P), og antag at X har 2. moment. For ethvert ε > 0gælder at

P(|X − EX| > ε) ≤ VXε2 . (13.14)

B: Lad Y = (X − EX)2. Markovs ulighed, brugt på Y og c = ε2, giver at

P(Y > ε2) ≤ EYε2 .

Page 11: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

242 Kapitel 13. Deskriptiv teori: momenter

Men dette er faktisk det ønskede udsagn, da

P(Y > ε2) = P(|X − EX| > ε)

og daEY = E(X − EX)2 = VX.

Chebyshevs ulighed er - på trods af resultatets simpelhed - meget vigtig i teoretiskesammenhænge. Men båndet er ikke optimalt. I praksis vil halesandsynlighederne gåmod nul langt hurtigere end funktionen ε−2.

Når man betragter højere ordens momenter, vil man ofte standardisere variablenførst. Det betyder at man danner den nye stokastiske variabel

Y =X − EX√

VX.

Nævneren√

VX kaldes spredningen eller standardafvigelsen og betegnes gernemed bogstavet σ. Spredningen er et relativt intuitivt mål for hvor meget X variereromkring sin middelværdi, fordi spredningen (i modsætning til variansen) er målt påsamme skala som X. Den konstruerede Y-variabel er en affin transformation af Xsådan at

EY = 0, VY = 1.

De højere ordens momenter af Y er en slags geometriske karakteristika for fordelin-gen af X, karakteristika der ikke afhænger af den skala man har målt X på.

Hvis X har 3. moment, definerer vi skævheden af X, skrevet γ(X), som

γ(X) = EY3.

Og hvis X har 4. moment, definerer vi kurtosis af X, skrevet κ(X), som

κ(X) = EY4 − 3.

Hvis X er normalfordelt, så er γ(X) = κ(X) = 0. Den primære brug af skævhed ogkurtosis for en given fordeling, er netop at udtrykke i hvilken forstand fordelingenafviger fra en normalfordeling. Hvis X har en positiv kurtosis, taler man om lepto-kurtosis. Det betyder at fordelingen har en tungere hale end normalfordelingen, ogdet er noget man er meget på vagt over for.

Eksempel 13.15 Vi kan udregne de standardiserede empiriske momenter for højde-målingerne fra eksempel 13.6.

Page 12: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.4. Eksempler 243

Middelværdi Spredning Skævhed Kurtosis

Kvinder 169.3 5.9 0.43 -0.38

Mænd 182.5 5.9 0.22 0.10

Med to betydende cifre er de standardiserede momenter ganske ens for de to køn,bortset fra at middelværdierne er forskellige. Det er i god overensstemmelse med detvisuelle udtryk fra figur 13.1, hvor observationerne for de to køn ligger spredt pånogenlunde samme måde omkring de to midtpunkter. Både skævhed og kurtosis erstort set nul for begge køn. Vi ser altså at de store forskelle i de rå momenter, som vikonstaterede i eksempel 13.6 primært skyldes forskellen i middelværdi.

Man skal være opmærksom på at der er numeriske fælder ved at arbejde med empi-riske momenter. De højere momenter er ofte meget store, og bruger man (13.10) tilat regne variansen ud, kommer man til at trække to store tal fra hinanden. Eftersomde to tal gerne er af samme størrelsesorden, kommer resultatet til at afhænge af denederste cifre - som måske primært er udtryk for kumulerede regnefejl! Derfor stårman sig ofte ved at bruge selve definitionen (13.9) fremfor (13.10), for den er knapså følsom over for numeriske fejl. Disse betragtninger gælder i endnu højere grad forskævhed og kurtosis, som bør regnes ud direkte fra definitionen, og ikke via de rå 3.og 4. momenter.

13.4 Eksempler

Eksempel 13.16 Da∫

|x|k 1√2π

e−x22 dx < ∞ for alle k ∈ N0 har normalfordelingen

momenter af k’te orden for ethvert k ∈ N0. Når k er ulige, er det k’te moment 0, ognår k er lige, får man

xk 1√

2πe−

x22 dx =

2k−1

2

√2π

∫ (

x2

2

) k+12 −1

e−x22 xdx =

2k2

√π

∫ ∞

0y

k+12 −1e−ydy

=2

k2

√πΓ

(

k + 12

)

= (k − 1)(k − 3) · · · 3 · 1.

Specielt er middelværdien 0 og variansen 1. Det følger da af (13.6) og (13.13),at den normale fordeling med parametre (ξ, σ2) har middelværdi ξ og varians σ2.

Page 13: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

244 Kapitel 13. Deskriptiv teori: momenter

Eksempel 13.17 Binomialfordelingen med parametre (n, p) har k’te moment forethvert k ∈ N0, og det k’te nedstigende faktorielle moment udregnes ved

n∑

x=0

x(k)(

nx

)

px(1 − p)n−x =

n∑

x=k

n!(x − k)! (n − x)!

px(1 − p)n−x

=

n−k∑

x=0

n!x! (n − k − x)!

px+k(1 − p)n−x−k

= n(k) pkn−k∑

x=0

(

n − kx

)

px(1 − p)n−x−k

= n(k) pk.

Middelværdien er således np, og ifølge (13.11) er variansen

n(2) p2 − (np)(2) = np(1 − p).

Eksempel 13.18 Den negative binomialfordeling med parametre (r, p) har k’te mo-ment for ethvert k ∈ N0, og det k’te nedstigende faktorielle moment udregnes ved

∞∑

x=0

x(k)(

−rx

)

pr(p − 1)x =

∞∑

x=k

(−r)(x)

(x − k)!pr(p − 1)x

=

∞∑

x=0

(−r)(x+k)

x!pr(p − 1)x+k

= (−r)(k)(

p − 1p

)k ∞∑

x=0

(

−r − kx

)

pr+k(p − 1)x

= (−r)(k)(

p − 1p

)k

.

Middelværdien er altså r 1−pp , og ifølge (13.11) er variansen

(−r)(2)(

1 − pp

)2

−(

r1 − p

p

)(2)

= r1 − p

p2 . (13.15)

Page 14: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.4. Eksempler 245

Eksempel 13.19 Poissonfordelingen med parameter λ har k’te moment for ethvertk ∈ N0, og det k’te nedstigende faktorielle moment udregnes ved

∞∑

x=0

x(k) λx

x!e−λ =

∞∑

x=k

λx

(x − k)!e−λ = λk

∞∑

x=0

λx

x!e−λ = λk.

Middelværdien er således λ og ifølge 13.11 er variansen λ2 − λ(2) = λ.

Eksempel 13.20 Γ-fordelingen med formparameter λ har k’te moment for ethvertk ∈ N0, og det k’te moment udregnes ved

∫ ∞

0xk 1Γ(λ)

xλ−1e−xdx =Γ(λ + k)Γ(λ)

= (λ + k − 1)(k).

Middelværdien er således λ, og variansen er ifølge (13.10)

(λ + 1)(2) − λ2 = λ.

Specielt har eksponentialfordelingen k! som k’te moment og 1 som middelværdi ogvarians. Γ-fordelingen med formparameter λ og skalaparameter β > 0 har k’te mo-ment βk(λ + k − 1)(k) og således middelværdi βλ og varians β2λ. χ2-fordelingen medf frihedsgrader har altså middelværdi f og varians 2 f .

Eksempel 13.21 B-fordelingen med formparameter (λ1, λ2) har k’te moment forethvert k ∈ N0, og det k’te moment udregnes ved

∫ 1

0xk 1

B(λ1, λ2)xλ1−1(1 − x)λ2−1dx =

B(λ1 + k, λ2)B(λ1, λ2)

=(λ1 + k − 1)(k)

(λ1 + λ2 + k − 1)(k) .

Middelværdien er således λ1λ1+λ2

og ifølge (13.10) er variansen

(λ1 + 1)(2)

(λ1 + λ2 + 1)(2) −(

λ1

λ1 + λ2

)2

=λ1λ2

(λ1 + λ2)2(λ1 + λ2 + 1).

Når λ1 = λ2 = λ er middelværdien 12 og variansen 1

4(2λ+1) . Ligefordelingen på (0,1)(λ = 1) har derfor middelværdi 1

2 og varians 112 . Det følger af (13.6) og (13.13), at

ligefordelingen på [α, α + β] har middelværdi α + β

2 og varians β2

12 .

Page 15: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

246 Kapitel 13. Deskriptiv teori: momenter

Eksempel 13.22 F-fordelingen med formparametre (λ1, λ2) har k’te moment for

k < λ2, thi∫ ∞

0 xk λλ11 λ

λ22

B(λ1,λ2)xλ1−1

(λ1 x+λ2)λ1+λ2dx er endeligt, hvis og kun hvis k < λ2. Det k’te

moment for k < λ2 udregnes ved

∫ ∞

0xk λ

λ11 λ

λ22

B(λ1, λ2)xλ1−1

(λ1x + λ2)λ1+λ2dx

=λk

2

λk1

1B(λ1, λ2)

∫ ∞

0

(

λ1 xλ1 x + λ2

)λ1+k−1 (

λ2

λ1x + λ2

)λ2−k−1λ1λ2

(λ1 x + λ2)2 dx

=λk

2

λk1

1B(λ1, λ2)

∫ 1

0yλ1+k−1(1 − y)λ2−k−1dy

=λk

2

λk1

B(λ1 + k, λ2 − k)B(λ1, λ2)

=

(

λ2

λ1

)k (λ1 + k − 1)(k)

(λ2 − 1)(k) .

Når λ2 > 1 eksisterer middelværdien således og er lig med λ2λ2−1 . For λ2 > 2 eksisterer

variansen, og ifølge (13.10) er variansen

(

λ2

λ1

)2 (λ1 + k − 1)(2)

(λ2 − 1)(2) −(

λ2

λ2 − 1

)2

=λ2

2(λ2 + λ1 − 1)

λ1(λ2 − 1)2(λ2 − 2). (13.16)

Eksempel 13.23 t-fordelingen med formparameter λ har k’te moment for k < 2λ, thiintegralet

∫ ∞

−∞|x|k 1√

2λB(λ, 1/2)

1

(1 + x2

2λ )λ+12

dx

er endeligt hvis og kun hvis k < 2λ. Specielt har Cauchyfordelingen ikke middel-værdi. Det k’te moment for k < 2λ er 0, når k er ulige, og når k er lige, er det k’temoment ifølge eksempel 12.11 lig det k/2 moment i F-fordelingen med formpara-metre (2, λ). Det vil sige at det k’te moment i t-fordelingen for k lige er

(2λ)k2

( k−12 )( k

2 )

(λ − 1)( k2 ).

Når λ > 12 eksisterer middelværdien således og er 0. For λ > 1 eksisterer variansen,

og er lig med λλ−1 .

Page 16: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.4. Eksempler 247

Eksempel 13.24 Den logaritmiske normalfordeling med parametre (0, σ2) har k’temoment for ethvert k ∈ N0, og det k’te moment udregnes ved

∫ ∞

0

1√

2πσyk−1e−

(log y)2

2σ2 dy =1√

2πσ

∫ ∞

−∞ekze−

z2

2σ2 dz

=1√

2πσeσ

2 k22

∫ ∞

−∞e−

12σ2 (z−kσ2)2

dz = eσ2 k2

2 .

Den logaritmiske normalfordeling med parametre (ξ, σ2) har k’te moment

exp(

σ2 k2

2+ kξ

)

og således middelværdi og varians henholdsvis

exp(

σ2

2+ ξ

)

og(exp(σ2) − 1

)exp(σ2 + 2ξ) .

Eksempel 13.25 Den hypergeometriske fordeling med parametre (n,N1,N) har k’temoment for ethvert k ∈ N0, og det k’te nedstigende faktorielle moment udregnes ved

n∑

x=0

x(k)(

nx

)

N1(x)(N − N1)(n−x)

N(n) =

n∑

x=k

n(x)

(x − k)!N1

(x)(N − N1)(n−x)

N(n)

=

n−k∑

x=0

n(x+k)

x!N1

(x+k)(N − N1)(n−(x+k))

N(n)

=n(k)N1

(k)

N(k)

n−k∑

x=0

(n − k)(x)

x!(N1 − k)(x)(N − k − (N1 − k))(n−k−x)

(N − k)(n−k)

=n(k)N1

(k)

N(k) .

Middelværdien er således nN1N og variansen er ifølge (13.11)

1N − 1

nN

(

1 − nN

)

N1(N − N1) = nN1

N

(

1 − N1

N

) (

1 − n − 1N − 1

)

= N1nN

(

1 − nN

) (

1 − N1 − 1N − 1

)

.

Page 17: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

248 Kapitel 13. Deskriptiv teori: momenter

13.5 Jensens ulighed

Der gælder en lang række uligheder mellem integraler. Forbavsende mange af disse- ofte klassiske - uligheder kan fås frem som specialtilfælde af følgende sætning:

Sætning 13.26 (Jensens ulighed) Lad X være en reel stokastisk variabel, defineretpå et baggrundsrum (Ω,F, P), og lad f : R → R være en målelig funktion. Hvisf er konveks på et interval I, hvis P(X ∈ I) = 1, og hvis såvel X som f (X) harmiddelværdi, så gælder at

f (EX) ≤ E(

f (X)). (13.17)

Hvis f er strengt konveks på I, er der lighedstegn netop hvis fordelingen af X erudartet i punktet EX.

B: Ifølge korollar C.13 fra Appendix C er målelighedsantagelsen på f stort setoverflødig. Restriktionen af f til det indre af I vil på grund af konveksitet automatiskvære kontinuert. Hvis f ikke er kontinuert på hele I, så kan den i værste fald skrivessom en tuborgfunktion, der deler op i det indre af I og et eller to af I’s endepunk-ter. Det fremgår at f ’s restriktion til I er B |I-målelig under alle omstændigheder.Hvordan f ser ud uden for I er irrelevant for (13.17).

B: Vi ved at EX ∈ I, og det følger af beviset for lemma 13.8 at EX er et indrepunkt i I, medmindre fordelingen af X er udartet i et af endepunkterne. Hvis X erkonstant næsten sikkert, gælder (13.17) oplagt - endda med lighedstegn.

Vi antager derfor at EX er et indre punkt i I. Ifølge sætning C.14 fra Appendix Cfindes et a, således at

f (EX) + (X − EX)a ≤ f (X), (13.18)

og (13.17) følger af denne ulighed ved at tage middelværdi på begge sider.

Hvis der er lighedstegn i (13.17), er der lighedstegn i (13.18) med sandsynlighed 1,og hvis f er strengt konveks, er dette ensbetydende med, at P(X = EX) = 1.

Eksempel 13.27 Bruges Jensens ulighed på den konvekse funktion f (x) = x2, får viat

EX2 ≥ (EX)2

Page 18: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.5. Jensens ulighed 249

for enhver reel stokastisk variabel X med 2. moment. Der gælder endda skarp ulig-hed, medmindre X er udartet. Det vidste vi udmærket i forvejen, sammenholdes med(13.10) har vi blot gjort rede for at VX ≥ 0. Skønt dette eksempel ikke er dybsindigt,kan det tjene som en huskeregel for hvordan Jensens ulighed vender.

Eksempel 13.28 Bruges Jensens ulighed på den konvekse funktion f (x) = 1x , ser vi

at for en ikke-udartet stokastisk variabel med værdier i (0,∞) er

E(

1X

)

>1

EX

hvis begge momenter eksisterer.

Eksempel 13.29 Bruges Jensens ulighed på en stokastisk variabel X med fordelingεx1,...,xn , hvor x1, . . . , xn > 0, og på funktionen f (x) = − log x, der er veldefineret ogkonveks på (0,∞), fås at

− log

1n

n∑

i=1

xi

≤1n

n∑

i=1

− log(xi) = −1n

log

n∏

i=1

xi

.

Tages eksponentialfunktionen på begge sider af denne ulighed, fås at

1n

n∑

i=1

xi ≥

n∏

i=1

xi

1/n

,

og vi har således bevist at den aritmetiske middelværdi af x1, . . . , xn er større endden geometriske middelværdi.

Korollar 13.30 Hvis X har k’te moment og 0 < m < k er

(

E(|Xm|))1m ≤ (

E(|Xk |))1k .

B: Eftersom km > 1 er funktionen x→ x

km konveks på [0,∞). Derfor er

(E(|X|m)

) km ≤ E

((|X|m)

km)= E(|X|k).

Page 19: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

250 Kapitel 13. Deskriptiv teori: momenter

13.6 Weierstrass’ approksimationssætning

Mange sætninger om målelige funktioner vises efter et firetrinsskema, hvor manførst viser sætningen for indikatorfunktioner, dernæst for simple funktioner, dernæstfor M+-funktioner, og endelig for M-funktioner. Udvidelsen fra indikatorfunktio-ner til simple funktioner er som regel triviel, ligesom det ikke volder vanskelighederat komme fra M+ til M. Vanskelighederne ligger i overhovedet at komme i gang- altså at vise resultatet for indikatorfunktioner - og i at udnytte den approksima-tionsteknik, der ligger gemt i korollar 4.33, hvorM+-funktioner approksimeres medS+-funktioner.

I andre områder af den reelle analyse er det naturlige startpunkt for at vise sætningerom funktioner R → R ikke simple funktioner, men polynomier. Og spørgsmålet erofte hvor langt man kan udvide resultater, der er mere eller mindre oplagte for poly-nomier. Men andre ord: hvilke funktioner f : R → R kan approksimeres godt medpolynomier? En kendt og elsket form for approksimation foregår med Taylorpolyno-mier. Her vælger man polynomier, der er meget, meget gode approksimationer lokaltomkring et udviklingspunkt. Ideen med at erstatte en funktion med et passende Tay-lorpolynomium har fejret spektakulære triumfer siden Newton demonstrerede densrækkevidde.

Men dels virker metoden kun for glatte funktioner. Og dels betyder fokuseringen påfunktionens helt lokale opførsel, at approksimationens kvalitet over større stræk må-ske daler. Weierstrass valgte en helt anden indgangsvinkel, hvor han fokuserede påapproksimationens kvalitet over et på forhånd valgt område. Hans approksimations-sætning er et hovedresultat i den reelle analyse. Skønt sætningen ikke har et sandsyn-lighedsteoretisk indhold, kan man overraskende nok give et bevis hvor Chebyshevsulighed er den centrale ingrediens

Sætning 13.31 (Weierstrass) Lad f : [a, b] → R være en kontinuert reel funktion,defineret på et kompakt interval. Der findes en følge af reelle polynomier, (pn(x))n∈N,sådan at

supx∈[a,b]

| f (x) − pn(x)| → 0 for n→ ∞ .

B: Lad os i første omgang antage at [a, b] = [0, 1]. Vi vil simpelthen angive enfølge af eksplicitte polynomier, de såkaldte Bernsteinpolynomier, og vise at disse

Page 20: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.6. Weierstrass’ approksimationssætning 251

polynomier har den ønskede egenskab. Når vi ikke anfører Bernsteinpolynomiernei sætningens formulering, er det fordi der er mange andre polynomiumsfølger medtilsvarende egenskaber - og Bernsteinpolynomierne approksimerer faktisk ikke særliggodt i praksis.

For hvert n ∈ N indfører vi Bernsteinpolynomiet pn relateret til f som

pn(x) =n∑

k=0

f(

kn

) (

nk

)

xk (1 − x)n−k . (13.19)

For at bevise at disse polynomier approksimerer f uniformt, lader vi ε > 0 være givet.Idet f er uniformt kontinuert på [0, 1], findes et δ > 0 sådan at

| f (x) − f (y)| < ε for alle x, y ∈ [0, 1] , |x − y| < δ .

Sæt‖ f ‖ = sup

x∈[0,1]| f (x)| ,

og tag et n så stort at‖ f ‖

2 n δ2 < ε . (13.20)

Vi påstår at for et n, der opfylder (13.20), vil der gælde at

| f (x) − pn(x)| < 2ε for alle x ∈ [0, 1] .

Vi iklæder beviset for denne påstand sandsynlighedsteoretiske fjer. Lad os betragte etfast x ∈ [0, 1]. Lad S n være en stokastisk variabel, der er binomialfordelt med længden og successandsynlighed x. Vi ser at

E f(S n

n

)

=

n∑

k=0

f(

kn

)

P(S n = k) = pn(x) .

Dermed er

| f (x) − pn(x)| =∣∣∣∣∣f (x) −

f(S n

n

)

dP∣∣∣∣∣=

∣∣∣∣∣

f (x) − f(S n

n

)

dP∣∣∣∣∣

=

∣∣∣∣∣∣

(|S n/n−x|<δ)f (x) − f

(S n

n

)

dP +∫

(|S n/n−x|≥δ)f (x) − f

(S n

n

)

dP

∣∣∣∣∣∣

hvor vi i sidste trin blot har splittet integralet op i to, hvor der integreres over kom-plementære hændelser. Bemærk at

∣∣∣∣∣f (x) − f

(S n

n

)∣∣∣∣∣< ε på hændelsen

(∣∣∣∣∣

S n

n− x

∣∣∣∣∣< δ

)

.

Page 21: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

252 Kapitel 13. Deskriptiv teori: momenter

Kobler vi dette med den trivielle ulighed∣∣∣∣∣f (x) − f

(S n

n

)∣∣∣∣∣≤ 2 ‖ f ‖ ,

der gælder overalt, og derfor specielt på (|S n/n − x| ≥ δ), ser vi at

| f (x) − pn(x)| ≤ ε P(|S n/n − x| < δ) + 2 ‖ f ‖ P(|S n/n − x| ≥ δ) .

Den første sandsynlighed er mindre end 1, den anden sandsynlighed kan vurderesved hjælp af Chebyshevs ulighed. Herved får vi at

| f (x) − pn(x)| ≤ ε + 2 ‖ f ‖V(S n/n)δ2

Det ønskede resultat følger, når man erindrer variansen for en binomialfordeling:

V(S n/n) =VS n

n2 =nx(1 − x)

n2 ≤ 14 n

.

Lad os nu fjerne antagelsen om at [a, b] er det lukkede enhedsinterval. Udvidelsen tilandre intervaller baseres på to simple observationer: For det første gælder der at hvisφ : [a, b] → [c, d] er en bijektiv funktion mellem to intervaller, så er

supx∈[a,b]

|g φ(x) − h φ(x)| = supy∈ [c,d]

|g(y) − h(y)| ,

for alle funktioner g og h defineret på [c, d]. For det andet gælder der at sammensæt-ningen af to polynomier igen er et polynomium. Lad φ være den affine funktion

φ(x) = a + (b − a) x for x ∈ R .

Vi ser at φ afbilder [0, 1] bijektivt på [a, b]. Funktionen f = f φ er kontinuert på[0, 1], og kan derfor approksimeres uniformt med en følge af polynomier, p1, p2, . . ..Vi sætter pn = pn φ−1. Da φ−1 er affin er pn et polynomium. Og der gælder at

supx∈[a,b]

| f (x)−pn(x)| = supy∈[0,1]

| f φ(y)−pnφ(y)| = supy∈[0,1]

| f (y)− pn(y)| → 0 for n→ ∞ .

Eksempel 13.32 Lad os prøve at se på en konkret anvendelse af den approksima-tionsmetode, der angives i beviset for sætning 13.31. Som testfunktion bruger vif (x) = sin 2πx, som vi ønsker approksimeret over intervallet [0, 1]. På figur 13.2er Bernsteinpolynomierne fra (13.19) tegnet op for fire forskelle værdier af n.

Page 22: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.6. Weierstrass’ approksimationssætning 253

Bernsteinpolynomiets grad: 15

−1 0 1 2

−2−1

01

2

Bernsteinpolynomiets grad: 30

−1 0 1 2

−2−1

01

2

Bernsteinpolynomiets grad: 45

−1 0 1 2

−2−1

01

2

Bernsteinpolynomiets grad: 60

−1 0 1 2

−2−1

01

2

Figur 13.2: Fire approksimerende Bernsteinpolynomier til f (x) = sin 2πx, udregnet ef-ter (13.19). Disse polynomier approksimerer f uniformt over intervallet [0, 1] - til gengældapproksimerer de ikke særlig godt uden for enhedsintervallet.

Det ser vitterligt ud som om disse polynomier approksimerer f ganske godt i inter-vallet [0, 1]. Til gengæld kan man få det indtryk at jo bedre f bliver approksimeretinden for [0, 1], jo værre er approksimationen udenfor. . . Der er i hvert fald grænserfor hvor langt ud polynomierne kan approksimere, for ethvert polynomium går mod±∞ for x→ ±∞, mens vores testfunktion er begrænset.

At der kan være forskel på hvornår approksimationer er gode lokalt, og hvornår de ergode globalt er i nogen grad i modstrid med en tankefigur, der ofte anvendes i forbin-delse med Taylorpolynomier: Hvis en Taylorapproksimation er dårlig i det områdeman skal bruge den, tilføjer man gerne nogle højere ordens led til approksimationen.Det får approksimationen til at blive endnu bedre helt inde omkring udviklingspunk-tet - og så håber man at denne forøgede kvalitet følger med ud til det område, hvorman skulle bruge approksimationen. Figur 13.2 illustrerer at denne måde at tænke påhar sine begrænsninger.

Page 23: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

254 Kapitel 13. Deskriptiv teori: momenter

Taylorpolynomiets grad: 5

−1 0 1 2

−2−1

01

2Taylorpolynomiets grad: 10

−1 0 1 2

−2−1

01

2

Taylorpolynomiets grad: 15

−1 0 1 2

−2−1

01

2

Taylorpolynomiets grad: 20

−1 0 1 2

−2−1

01

2

Figur 13.3: Fire approksimerende Taylorpolynomier til f (x) = sin 2πx, udregnet ef-ter (13.21). Bemærk at graden af de anvendte polynomier er langt mindre end graden afde Bernsteinpolynomier, der indgår i figur 13.2. Alligevel ser vi at Taylorpolynomierne ap-proksimerer godt over et langt større område end Bernsteinpolynomierne.

Nu vi alligevel taler om Taylorpolynomier, kan vi prøve at se hvad der sker ved atanvende den sædvanlige Taylorudvikling om 0 for sin x. Vi bruger altså polynomierne

qn(x) =[(n+1)/2]∑

k=1

(−1)k−1 (2πx)2k−1

(2k − 1)!. (13.21)

Den øvre grænse i summen betyder at højestegradsleddet i qn har en grad, der er detstørste ulige tal mindre end eller lig med n. Så q10 er i virkeligheden et polynomiumaf grad 9 - faktisk er q10 = q9. Nogle af disse Taylorpolynomier er optegnet på fi-gur 13.3. Bemærk at man tilsyneladende kan få enddog meget gode approksimationerfrem med polynomier af forholdsvis lav grad.

Page 24: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.6. Weierstrass’ approksimationssætning 255

Sammenligningen i eksempel 13.32 mellem Taylorpolynomierne og Bernsteinpoly-nomierne for sin 2πx falder ubetinget ud til Taylorpolynomiernes fordel. Den pointegeneraliserer nu ikke særlig langt - fænomenet skyldes at sin x er så pæn, som den er.Man ved at Taylorpolynomierne for sin x (med et vilkårligt udviklingspunkt) konver-gerer punktvist mod sin x, og at konvergensen er uniform på ethvert kompakt interval.Funktionerne behøver ikke at være ret grimme før den slags falder fra hinanden: hvisvi havde forsøgt at approksimere x 7→ 1

1+x2 over [−1, 1], ville Taylorpolynomiernehave klaret sig ynkeligt - de divergerer i x = ±1. Og går man til de mere eksotiskefunktioner, f.eks. funktioner der er kontinuerte men intetsteds differentiable, så harman slet ikke nogen Taylorpolynomier at forsøge sig med.

Sammenligningen mellem de forskellige polynomiumsapproksimationer i eksem-pel 13.32 rejser spørgsmålet om hvordan man finder den bedste approksimation. Visøger det n’te grads polynomium der minimerer kriteriet

p 7→ supx∈[0,1]

| f (x) − p(x)| .

Det er et uhyre vanskeligt problem, som der ikke findes gode algoritmer til at løse,medmindre man kan udnytte en eller anden speciel egenskab ved f . Hvad man tilgengæld kan gøre eksplicit, er at minimere kriteriet

p 7→∫ 1

0( f (x) − p(x))2 dx

over alle n’te grads polynomier. Denne størrelse kaldes den kvadrerede L2-afstandmellem f og p. Sagen er at de kontinuerte funktioner på [0, 1], udstyret med detindre produkt

〈 f , g〉 =∫ 1

0f (x) g(x) dx ,

er et Hilbertrum - i hvert fald næsten, rummet er ikke fuldstændigt, men den po-inte lader vi ligge - og L2-afstanden mellem to funktioner er netop normafstandeni dette Hilbertrum. Man kan for hvert n finde et n’te grad polynomium rn sådan atdisse polynomier udgør et ortonormalsystem. Man kan f.eks. starte med monomierne1, x, x2, . . . og lade dem gennemgå en Gram-Schmidt ortonormaliseringsproces - denødvendige regninger er lidt biksede, men essentielt handler det om at løse nogle line-ære ligningssystemer. Og det n’te grads polynomium der har mindst mulig L2-afstandtil f , kan nu fås eksplicit frem som

pn =

n∑

k=1

〈 f , rk〉 rk .

Page 25: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

256 Kapitel 13. Deskriptiv teori: momenter

Man taler om at opløse f efter en følge af ortogonale polynomier. Bemærk at sekven-sen r0, r1, . . . er udvalgt omhyggeligt ud fra det interval (in casu [0, 1]) vi prøver atapproksimere på. Skulle vi approksimere over et andet interval, skulle vi have fat i etandet indre produkt, og dermed ville de første rn’er ikke længere være ortogonale.

Det er klart at L2-afstand og uniform afstand er beslægtede. I hvert fald gælder der athvis den uniforme afstand er lille, så vil L2-afstanden også være lille. Og som regelgælder der også det modsatte. Men man kan lave eksempler hvor lille L2-afstand ikkefører til lille uniform afstand. Det typiske eksempel er en funktion med en ekstremtspids top. Arealet under toppen kan være meget lille, og derfor kan det måske ikkebetale sig i L2-forstand at approksimere funktionens opførsel i toppen - de gode L2-approksimationer kan se helt bort fra toppen, og det koster selvfølgelig i uniformafstand.

Hvis man har en funktion f med mange meget spidse toppe, kan man komme ud forat den følge af polynomier, der fremkommer ved at opløse f efter ortogonale polyno-mier, ikke konvergerer punktvist mod f - og desmindre konvergerer uniformt. Fæno-menet er temmelig degenereret - men det kan altså ske. Der er ikke nogen tvingendegrund til at tro at det n’te grads polynomium, der minimerer L2-afstanden til f ogsåhar den allermindste uniforme afstand. Men sædvanligvis er det dog et kvalificeretbud.

Teknikken bag Weierstrass’ approksimationssætning kan uden det store principiellebesvær overføres til flere dimensioner. Et polynomium i k variable er en endelig line-arkombination af monomier, altså af funktioner af typen

(x1, . . . , xk) 7→k∏

i=1

xmii

hvor (m1, . . . ,mk) er ikke-negative hele tal.

Sætning 13.33 Lad f : [0, 1]k → R være kontinuert. Der findes en følge af reellepolynomier, (pn(x1, . . . , xk))n∈N, sådan at

supx∈[0,1]k

| f (x) − pn(x)| → 0 for n→ ∞ .

Page 26: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.6. Weierstrass’ approksimationssætning 257

B: Vi nøjes med at se på tilfældet k = 2 for at de notationsmæssige problemerikke skal eskalere. For hvert n ∈ N lader vi pn(x, y) være Bernsteinpolynomiet

pn(x, y) =n∑

m,`=0

f(

mn,`

n

) (

nm

)

xm(1 − x)n−m(

n`

)

y`(1 − y)n−`

Lad ε > 0 være givet. Idet f er uniformt kontinuert på [0, 1]2, findes et δ > 0, sådanat

| f (z) − f (z′)| < ε for alle z, z′ ∈ [0, 1]2 , ‖z − z′‖∞ < δ .Her har vi brugt maksimumsnormen på R2 til at udpege en lille omegn for os.

Lad os betragte et fast (x, y) ∈ [0, 1]2. Lad S n og Tn være stokastiske variable, bino-mialfordelte med længde n og successandsynlighed henholdsvis x og y. Vi ser analogtmed det etdimensionale tilfælde at

E f(S n

n,

Tn

n

)

= pn(x, y) .

Dermed er| f (x, y) − pn(x, y)| =

∣∣∣∣∣

f (x, y) − f(S n

n,

Tn

n

)

dP∣∣∣∣∣. (13.22)

Vi splitter integralet op i to, ved dels at integrere over(∣∣∣∣∣

S n

n− x

∣∣∣∣∣< δ ,

∣∣∣∣∣

Tn

n− y

∣∣∣∣∣< δ

)

hvorpå integranden er numerisk mindre end ε, og dels komplementærmængden, hvorintegranden højst er 2‖ f ‖. Idet sandsynligheden for komplementærmængden kan vur-deres ved

P(∣∣∣∣∣

S n

n− x

∣∣∣∣∣≥ δ eller

∣∣∣∣∣

Tn

n− y

∣∣∣∣∣≥ δ

)

≤ P(∣∣∣∣∣

S n

n− x

∣∣∣∣∣≥ δ

)

+ P(∣∣∣∣∣

Tn

n− y

∣∣∣∣∣≥ δ

)

får vi ved at bruge Chebyshevs ulighed på begge sandsynligheder en øvre grænsefor (13.22) på

ε +2 ‖ f ‖V(S n/n)

δ2 +2 ‖ f ‖V(Tn/n)

δ2 ≤ ε + ‖ f ‖n δ2 .

Og det er mindre end 2ε, blot n er stor nok.

Man kan let formulere versioner af Weierstrass’ approksimationssætning for andreterninger end [0, 1]k - tingene kan bikses på plads ved hjælp af affine transformationer.

Page 27: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

258 Kapitel 13. Deskriptiv teori: momenter

Det er lidt mere speget at approksimere over andre kompakte mængder end terninger,men det kan godt lade sig gøre. Lad i det følgende S 1 betegne enhedscirklen i R2,

S 1 = (x, y) ∈ R2 | x2 + y2 = 1 .

Sætning 13.34 Lad f : S 1 → R være en kontinuert funktion. Der findes da en følgeaf polynomier p1(x, y), p2(x, y), . . . på R2 så

sup(x,y)∈S 1

| f (x, y) − pm(x, y)| → 0 for m→∞ .

B: Vi kan udvide f til en kontinuert funktion på hele R2 ved at sætte

f (x, y) = r f( x

r,

yr

)

hvor r =√

x2 + y2 for alle (x, y) , (0, 0) ,

med den naturlige plombering f (0, 0) = 0. Vi bemærker at

S 1 ⊂ [−1, 1] × [−1, 1] .

Weierstrass’ approksimationssætning sikrer at der findes en følge af polynomier pmder approksimerer f uniformt på [−1, 1] × [−1, 1]. Des mere må disse polynomierapproksimere f uniformt over den mindre mængde S 1. Men på S 1 er f jo blot f .

Man kan faktisk få dette argument til at fungere for enhver kompakt mængde K ⊂ Rn,for en klassisk abstrakt sætning, kendt som Tietzes udvidelsessætning, sikrer at en-hver kontinuert reel funktion, defineret på en kompakt delmængde af Rn, kan udvidestil en kontinuert funktion defineret på hele Rn. For de kompakte mængder man vilinteressere sig for i praksis, er det dog sjældent noget problem at foretage den nød-vendige udvidelse ved håndkraft. Vi får i afsnit 17.7 brug for at kunne approksimerekontinuerte funktioner, defineret på

S 1 × . . . × S 1︸ ︷︷ ︸

n kopier⊂ R2n ,

uniformt med polynomier. For sådanne funktioner kan udvidelsen forløbe analogtmed hvad der sker i beviset for sætning 13.34.

Page 28: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.7. Sandsynlighedsmål givet ved momenter 259

13.7 Sandsynlighedsmål givet ved momenter

En fordeling er til en vis grad karakteriseret ved sine momenter. Der findes ikke nogengod algoritme til at rekonstruere fordelingen ud fra momenterne, men alligevel kanman ofte sige at hvis man kender alle momenter, så kender man også fordelingen.Forbindelsen mellem momenter (der jo er integraler af monomier) og mål af kon-krete mængder (der jo er integraler af indikatorfunktioner) knyttes via kontinuerte,begrænsede funktioner.

Lad Cb(R) betegne systemet af kontinuerte, begrænsede reelle funktioner defineret påR. Det er klart at Cb(R)-funktioner er Borelmålelige, og de er integrable med hensyntil et vilkårligt sandsynlighedsmål på R.

En speciel type Cb(R)-funktioner, der spiller en stor rolle i integrationssammenhæng,er de såkaldte bumpfunktioner. Det er funktioner, der kun antager værdier i [0, 1].Som regel bruges ordet kun hvis funktionens værdier er 0 eller 1 på store områder -det ’bump’ der er tale om, er det område hvor funktionen rejser sig fra at være 0 til atvære 1, se figur 13.4. Man tænker på en bumpfunktion som en slags kontinuert fættertil en indikatorfunktion.

Hvis K er en kompakt mængde indeholdt i en åben mængde V , og hvis f er enbumpfunktion der opfylder at

f (x) = 1 for alle x ∈ K , f (x) = 0 for alle x ∈ V c ,

så skriver man gerne at K ≺ f ≺ V . Hvis [a, b] ⊂ (c, d) kan vi f.eks. konstruere enstykkevis affin bumpfunktion f der opfylder at [a, b] ≺ f ≺ (c, d) ved den eksplicittefunktionsforskrift

f (x) =

0 for x ≤ cx − ca − c

for x ∈ [c, a]

1 for x ∈ [a, b]

x − db − d

for x ∈ [b, d]

0 for x ≥ d .

(13.23)

En stykkevis affin bumpfunktion af denne type er illustreret i figur 13.4.

Page 29: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

260 Kapitel 13. Deskriptiv teori: momenter

PSfrag replacements

a bc d

1

0

Figur 13.4: Grafen for den stykkevist affine bumpfunktion givet ved (13.23). Bumpfunktio-nen er konstrueret så den er 0 uden for (c, d) og konstant 1 på det lidt mindre interval [a, b].

Sætning 13.35 Lad ν og λ være to sandsynlighedsmål på (R,B). Hvis∫

f (x) dν(x) =∫

f (x) dλ(x) for alle f ∈ Cb(R) , (13.24)

så er ν = λ.

B: Lad (a, b) være et givet begrænset åbent interval. For hvert n > 2/(b − a)vælges en bumpfunktion fn, der opfylder at

[

a +1n, b − 1

n

]

≺ fn ≺ (a, b)

Man kan f.eks. bruge de stykkevist affine bumpfunktioner fra (13.23), men det præ-cise valg spiller i virkeligheden ingen rolle. Under alle omstændigheder gælder derat fn → 1(a,b), majoriseret af konstanten 1. Så majorantsætningen giver at

fn(x) dν(x) →∫

1(a,b)(x) dν(x) = ν(

(a, b))

for n→ ∞ .

Samme type grænseresultat gælder naturligvis for λ-integraler, og da fn-funktionernealle er kontinuerte og begrænsede, ser vi at

ν(

(a, b))

= limn→∞

fn(x) dν(x) = limn→∞

fn(x) dλ(x) = λ(

(a, b))

.

Eftersom de begrænsede åbne intervaller udgør et fællesmængdestabilt frembringer-system for Borelalgebraen på R, følger det af entydighedssætningen for sandsynlig-hedsmål at ν = λ.

Page 30: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.7. Sandsynlighedsmål givet ved momenter 261

Sætning 13.36 Lad ν og λ være to sandsynlighedsmål på (R,B), og lad I være etbegrænset interval. Hvis

ν(I) = λ(I) = 1,

og hvis∫

xk dν(x) =∫

xk dλ(x) for alle k ∈ N . (13.25)

så er ν = λ.

B: Antagelsen om at ν lægger hele sin sandsynlighedsmasse i intervallet I,gør at alle ν-integraler over R uden videre kan erstattes af ν-integraler over I. DaI er begrænset, er |x|k begrænset på I, og der er således ingen problemer med ommomenterne eksisterer.

B: Hvis p(x) =∑n

k=0 ak xk er et polynomium, ser vi at p er integrabel med hensyntil såvel ν som λ, og det følger af (13.25) at

p(x) dν(x) =n∑

k=0

ak

xk dν(x) =n∑

k=0

ak

xk dλ(x) =∫

p(x) dλ(x) (13.26)

Betragt en vilkårlig funktion f ∈ Cb(R). Vælg et ε > 0. Ifølge Weierstrass’ approksi-mationssætning findes et polynomium p(x), så

| f (x) − p(x)| ≤ ε for alle x ∈ I

Vi ser at∣∣∣∣∣

f (x) dν(x) −∫

p(x) dν(x)∣∣∣∣∣≤

I| f (x) − p(x)| dν(x) ≤ ε .

En tilsvarende vurdering gælder naturligvis for λ-integralerne, og kombineres de tovurderinger med (13.26), får vi at

∣∣∣∣∣

f (x) dν(x) −∫

f (x) dλ(x)∣∣∣∣∣≤ 2 ε .

Argumentet kan gennemføres for alle ε > 0, og derfor slutter vi at∫

f (x) dν(x) =∫

f (x) dλ(x).

Men f var en vilkårlig Cb(R)-funktion, og det følger derfor af sætning 13.35 at ν = λ.

Page 31: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

262 Kapitel 13. Deskriptiv teori: momenter

Forudsætningen om at de to sandsynlighedsmål giver fuld sandsynlighed til et be-grænset interval er nødvendig: der kendes eksempler på overtælleligt mange forskel-lige sandsynlighedsmål på den positive halvakse, der alle har samme momenter, seopgave 13.8.

13.8 Noter

Et godt sted at lede efter momenter, er i de encyklopædiske fordelingsgennemgangeJohnson et al. (1992)og Johnson et al. (1994). Integraler, der ikke findes i disse vær-ker, vil man som regel kunne slå op i Abramowitz og Stegun (1992). En mere tids-svarende form for opslag er at bruge en computerpakke til symbolsk matematik: bådeMathematica og Maple har implementeret store dele af integraletabellerne fra Abra-mowitz og Stegun (1992).

Inden for den teoretiske statistik, støder man ofte på de såkaldte kumulanter for enfordeling. Det er specielle funktioner af momenterne, se Severini (2000).

13.9 Opgaver

O 13.1. Lad X være ligefordelt på mængden 1, . . . , n. Find middelværdi ogvarians for X.

O 13.2. Lad den stokastiske variabel X have tæthed givet ved (n ∈ N)

f (x) =n − 1

(1 + x)n , x ≥ 0.

Find de k for hvilke X har k’te moment og beregn EX og VX.

O 13.3. Lad den stokastiske variabel X have tæthed

f (x) = 2x, x ∈ (0, 1).

Sæt Y = X3 og find EX, EY og E(XY).

O 13.4. Lad X være en reel stokastisk variabel, ligefordelt på (0, 1), og ladY = −2 log X. Find EY . Find endvidere tætheden for Y , og kontroller ved hjælp afden fundne tæthed din udregning af EY .

Page 32: Deskriptiv teori: momenter - math.ku.dkerhansen/stat2A_04/doku/noter/kap13.pdf · Kapitel 13 Deskriptiv teori: momenter Vi vil i dette og det fłlgende kapitel indfłre en række

13.9. Opgaver 263

O 13.5. Lad den stokastiske variabel X have en fordeling med tæthed

f (x) = 2xe−x2, x > 0.

Find fordelingen af Y = X2 og EYn, n ∈ N.

O 13.6. Eftervis at skævhed og kurtosis for normalfordelingen vitterligt er nul.

O 13.7. Vis at det tredie og fjerde centrale moment for Γ-fordelingen med form-parameter λ er 2λ hhv. 3λ2 + 6λ. Find skævhed og kurtosis.

O 13.8. Lad f0(x) være tætheden for den logaritmiske normalfordeling medparametre (0, 1), dvs.

f0(x) =1√

2πx−1 e−(log x)2/2, x > 0.

S 13.8(a). Vis at∫ ∞

0f0(x) sin(2π log x) dx = 0.

S 13.8(b). Gør rede for at

fa(x) = f0(x)(1 + a sin(2π log x)

), x > 0, (13.27)

er en sandsynlighedstæthed for a ∈ [−1, 1].

S 13.8(c). Vis at∫ ∞

0xk f0(x) sin(2π log x) dx = 0 for k = 1, 2, . . . .

S 13.8(d). Vis at alle sandsynlighedsmål med tæthed af formen (13.27), her-under den logaritmiske normalfordeling, har samme momenter.