5 linearni regresijski model - pmf · linearni regresijski model: pretpostavljamo da su varijable x...

36
5 Linearni regresijski model 1

Upload: others

Post on 06-Sep-2019

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

5 Linearni regresijski model

1

Page 2: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

5.1. Uvod i definicije

U tocki 2.11 razmatrali smo problem prilagodbe pravcatockama:

(xi, yi), i = 1,2, . . . , n

← podaci dobiveni mjerenjem ili opazanjem nekog2-dimenzionalnog vektora (X, Y ) gdje su:X = varijabla poticaja (neslucajna!)Y = varijabla odziva (slucajna)

Jer je X neslucajna varijabla, od sada pa nadaljeoznacavamo je sa x. x se (najcesce) zadaje, a Y seopaza (mjeri).

2

Page 3: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Linearni regresijski model:

Pretpostavljamo da su varijable x i Y u srednjem

linearno povezane, tj.:

E[Y |x] = θ0 + θ1x.

Preciznije:

Y = θ0 + θ1x + ε,

gdje su:

- θ0, θ1 parametri modela

- ε je s.v. t.d. je E[ε] = 0 (ne opaza se!)

(ε se interpretira kao slucajna greska ili sum.)

3

Page 4: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Neka je

(x1, Y1), (x2, Y2), . . . , (xn, Yn)

slucajni uzorak iz linearnog regresijskog modela.

Pretpostavka: parametri θ0, θ1 su nepoznati

→ procjena metodom najmanjih kvadrata

→ uz iste oznake kao u 2.11 procjenitelji od θ0, θ1su

θ1 =SxY

Sxx, θ0 = Y − θ1x.

4

Page 5: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Opci linearni regresijski model:

Y = θ0 + θ1x1 + θ2x2 + · · ·+ θkxk + ε,

gdje su:

- θ0, θ1, θ2,...,θk parametri modela

- x1, x2,..., xk su varijable poticaja

- ε je slucajna greska ili sum

5

Page 6: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Neka je

(xi1, xi2, . . . , xik, Yi), i = 1,2, . . . , n

slucajni uzorak iz linearnog regresijskog modela.

Vektorski zapis:

Y = Xθ + ε

gdje su:

Y = (Y1, Y2, . . . , Yn)τ

ε = (ε1, ε2, . . . , εn)τ

θ = (θ0, θ1, θ2, . . . , θk)τ ∈ Rk+1

vektori stupci i X je matrica:

6

Page 7: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

X = (1,x1,x2, . . . ,xk) ∈ Mn,k+1(R)

kojoj su stupci:

1 = (1,1, . . . ,1)τ ∈ Rn

xj = (x1j, x2j, . . . , xnj)τ , j = 1,2, . . . , k

Pretpostavlja se da je n ≥ k + 1.

7

Page 8: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

5.2. Procjena parametara modela

Procjenitelj vektora parametara θ metodom najma-

njih kvadrata je:

θ = (XτX)−1XτY

(ako je X matrica punog ranga: r(X) = k + 1)

(Izvod)

8

Page 9: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Projekcija Y vektora Y na potprostor razapet stupcima

od X:

Y = HY, gdje je H := X(XτX)−1Xτ

Vektor reziduala:

e := Y − Y = MY, gdje je M := I −H

H i M su ortogonalni projektori u Rn t.d.

I = H + M, r(H) = k + 1, r(M) = n− k − 1.

9

Page 10: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Prema tome:

Y ⊥ e

i

e ⊥ 1,x1, . . . ,xk

Specijalno slijedi:

eτ1 = e1 + e2 + · · ·+ en = 0.

10

Page 11: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Za slucajne greske εi, i = 1,2, . . . , n, pretpostavimo

da vrijede Gauss-Markovljevi uvjeti:

(i) E[εi] = 0 za sve i = 1,2, . . . , n,

(ii) Var[εi] = σ2 za sve i = 1,2, . . . , n,

(iii) cov(εi, εj) = 0 za sve i 6= j.

Tada su procjenitelji najmanjih kvadrata nepristrani:

Eθ[θ] = θ, ∀θ ∈ Rk+1.

Vrijedi i vise.

11

Page 12: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Neka je L : Rk+1 → R linearni funkcional param-

etara:

L(θ) = `τθ.

Definicija. Neka je Y vektor opazenih vrijednosti

varijable odziva.

Statistika T = t(Y) je:

(1) linearni procjenitelj za L(θ) ako je oblika

T = cτY za neki neslucajni vektor c ∈ Rn.

12

Page 13: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

(2) nepristrani procjenitelj za L(θ) ako je

Eθ[T ] = L(θ), ∀θ ∈ Rk+1.

(3) najbolji linearni nepristrani procjenitelj (BLUE)

za L(θ) ako je za L(θ):

– linearan procjenitelj

– nepristran procjenitelj

– u klasi svih nepristranih linearnih procjenitelja za

L(θ) ima najmanju varijancu.

13

Page 14: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Teorem 5.1. (Gauss-Markov)

Neka je θ procjenitelj metodom najmanjih kvadrata

za parametre linearnog regresijskog modela i neka

je L(θ) = `τθ. Ako vrijede Gauss-Markovljevi uvjeti,

tada je statistika

T = `τ θ

najbolji linearni nepristrani procjenitelj za L(θ).

(Dokaz.)

14

Page 15: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Primjenom tma. o projekciji, minimalna vrijednostkriterijske funkcije je:

Φ(θ) = |Y−Xθ|2 = |Y−Y|2 = |e|2 = |MY|2 = YτMY

Propozicija 5.2. Ukoliko vrijede Gauss-Markovljeviuvjeti, statistika

σ2 :=1

n− k − 1YτMY

je nepristrani procjenitelj parametra zajednicke vari-jance σ2.

(Dokaz.)

15

Page 16: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

5.3. Rastav varijance i ANOVA tablica

SS :=n∑

i=1

(Yi − Y )2 = |Y − Y 1|2

SSR :=n∑

i=1

(Yi − Y )2 = |Y − Y 1|2

SSE :=n∑

i=1

(Yi − Yi)2 = YτMY = ετMε

16

Page 17: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Teorem 5.3. Vrijedi:

SS = SSR + SSE.

(Dokaz.)

17

Page 18: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Nadalje, neka su:

MSR :=1

kSSR

MSE :=1

n− k − 1SSE

18

Page 19: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Cjelokupni racun se prikazuje u ANOVA-tablici:

broj zbroj srednjeizvor stupnjeva kvadrata kvadratno

varijabilnosti slobode odstupanja odstupanje F -stat.

zbog regresije k SSR MSR Fsl. pogreska n− k − 1 SSE MSE —

ukupno n− 1 SS — —

Statistika F := MSR/MSE je testna statistika za

testiranje nul-hipoteze:

H0 : θ1 = θ2 = · · · = θk = 0.

19

Page 20: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

5.4. Statisticko zakljucivanje o modelu

Od sada pa nadalje pretpostavimo da vrijede Gauss-

Markovljevi uvjeti i dodatno:

(iv) εi ∼ N(0, σ2), i = 1,2, . . . , n.

20

Page 21: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Propozicija 5.4. Uz prethodnu pretpostavku,

θ ∼ Nk+1(θ, σ2(XτX)−1)

i

(n− k − 1)σ2

σ2∼ χ2(n− k − 1).

Nadalje, θ i σ2 su nezavisne s.v.

21

Page 22: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Zadatak 1. Dokazite propoziciju 5.4.

22

Page 23: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Zadatak 2. Dokazite da za jednostavni linearni re-

gresijski model (pravac y = α + βx) vrijedi:

(n− 2) · σ2

σ2∼ χ2(n− 2)

α− α

σ ·√

1n + x2

Sxx

∼ t(n− 2)

β − β

σ ·√

1Sxx

∼ t(n− 2)

Pomocu druge dvije statistike konstruirajte pouz-

dane intervale za α i β, te opisite test hipoteze

H0 : β = 0.

23

Page 24: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Primjer 5.1.

Na slucajan nacin odabrano je 10 novih automobila

istoga tipa. Za razne vrijednosti od

x = kolicina dodatka benzinu

mjeri se

y = redukcija dusikovog oksida u ispustu.

x 1 1 2 3 4 4 5 6 6 7y 2.1 2.5 3.1 3.0 3.8 3.2 4.3 3.9 4.4 4.8

24

Page 25: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

0 2 4 6 80

1

2

3

4

5

6

x

y

25

Page 26: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

xi yi x2i xiyi y2

i1. 2.1 1. 2.1 4.411. 2.5 1. 2.5 6.252. 3.1 4. 6.2 9.613. 3.0 9. 9.0 9.004. 3.8 16. 15.2 14.444. 3.2 16. 12.8 10.245. 4.3 25. 21.5 18.496. 3.9 36. 23.4 15.216. 4.4 36. 26.4 19.367. 4.8 49. 33.6 23.04

39. 35.1 193. 152.7 130.05

26

Page 27: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Iz prethodne tablice se izracuna

α = 2.0, β = 0.4, SSE = 0.74, Sxx = 40.9

Odavde je:

σ2 =SSE

10− 2=

0.74

8= 16.3 ⇒ σ =

√0.09 = 0.3

27

Page 28: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

95% p.i. za β:

[β ± t0.025(8) · σ√

1

sxx] = [0.3, 0.5]

Odavde slijedi da nul-hipotezu

H0 : β = 0

u odnosu na dvostranu alternativu odbacujemo na

razini znacajnosti od 5%.

(Test znacajnosti linearnog regresijskog modela).

28

Page 29: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Teorem 5.5. Ako vrijedi

H0 : θ1 = θ2 = · · · = θk = 0

i ε ∼ Nn(0, σ2I), tada su sljedece statistike nezavisne

i1

σ2SSR ∼ χ2(k),

1

σ2SSE ∼ χ2(n− k − 1).

Nadalje,

F =MSR

MSE

H0∼ F (k, n− k − 1).

29

Page 30: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Zadatak 3. Dokazite teorem 5.5.

30

Page 31: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Zadatak 4. Neka je C matrica reda (m, k+1) punog

ranga m (m ≤ k+1) i neka je γ= (γ1, . . . , γm)τ vektor

dimenzije m. Ako je Cθ =γ, tada

1

mσ2·(Cθ−γ)τ [C(XτX)−1Cτ ]−1(Cθ−γ) ∼ F (m, n−k−1).

31

Page 32: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

5.5. Predvidanje

Neka je x0 neka konkretna vrijednost vektora vari-

jabli poticaja x.

Zelimo procijeniti:

(a) ocekivanu ili srednju vrijednost od Y , tj.:

E[Y |x = x0],

(b) iznos mjerenja Y za dani x = x0, tj.:

Y.

32

Page 33: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

U oba slucaja je tockovni procjenitelj:

E[Y |x = x0] = Y := [1 xτ0] · θ = θ0+ θ1x01+ · · · θkx0k.

Intervalni procjenitelji su razliciti.

33

Page 34: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Propozicija 5.6.

• (1− α) · 100% p.i. za Y u x = x0 je

Y ± tα/2(n− k− 1) · σ ·√√√√1 + [1 xτ

0] · (XτX)−1 ·[

1x0

]

• (1− α) · 100% p.i. za E[Y |x = x0]:

E[Y |x = x0]±tα/2(n−k−1)·σ·√√√√[1 xτ

0] · (XτX)−1 ·[

1x0

].

(Dokaz.)

34

Page 35: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Zadatak 5. Pokazite da su u slucaju pravca (jed-

nostavne linearne regresije):

• (1− γ) · 100% p.i. za Y u x = x0:

Y ± tγ/2(n− 2) · σ ·√√√√1 +

1

n+

(x0 − x)2

Sxx

• (1− γ) · 100% p.i. za E[Y |x = x0]:

E[Y |x = x0]± tγ/2(n− 2) · σ ·√√√√1

n+

(x0 − x)2

Sxx

35

Page 36: 5 Linearni regresijski model - PMF · Linearni regresijski model: Pretpostavljamo da su varijable x i Y u srednjem linearno povezane, tj.: E[Y jx] = µ0 + µ1x: Preciznije: Y = µ0

Primjer 5.1. (nastavak) Graficki prikaz granica

pouzdanih intervala za Y i E[Y |x]:

0 2 4 6 80

1

2

3

4

5

6

x

y

36