o regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

29
1 O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti Regresija je enostavna kadar nastopata v medsebojni odvisnosti samo dva pojava (veličini), kadar pa nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji Naloga regresije je, poiskati tako funkcijo y f x ki najbolje podaja medsebojno odvisnost pojavov.

Upload: wesley-stout

Post on 03-Jan-2016

34 views

Category:

Documents


0 download

DESCRIPTION

REGRESIJA IN KORELACIJA. Enostavna linearna regresija. O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

1

O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

Regresija je enostavna kadar nastopata v medsebojni odvisnosti samo dva pojava (veličini), kadar pa nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji

Naloga regresije je, poiskati tako funkcijo y f xki najbolje podaja medsebojno odvisnost pojavov.

Page 2: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

2

Odvisnost je enostranska , kadar je veličinaX vzrok, veličina Y pa posledica.

Odvisnost je dvostranska X Y, kadar ni možno določiti, kaj je vzrok in kaj posledica.

Količini X in Y slučajni spremenljivki, zato njunih vrednosti vnaprej natanko ne moremo predvideti Lahko zapišemo le zvezo: /Y x f x

Predpostavljamo, da je normalna slučajnaspremenljivka 0,N

Page 3: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

3

Velja / ( )M Y x f x Slučajno spremenljivko imenujemo napaka modela

Model /Y x f x je regresijski model.

Če iščemo odvisnost v obliki linearne funkcije

/M Y x y a b x govorimo o linearni regresiji

 Parametra in imenujemo regresijska koeficienta

Pri realnih problemih regresije je seveda vprašanje, kako oceniti parametra a in b

Page 4: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

4

1 2, ,... nx x x

1 2, ,... ny y y

Na ta dva vzorca lahko gledamo tudi kot na množico urejenih parov 1 1 2 2, , , ,..., ,n nx y x y x y

Kako poiskati premico, ki se tem točkam najbolje prilega.

Nalogo največkrat rešujemo z metodo najmanjših kvadratov

S to metodo poiščemo oceni za regresijska parametra, ki ju bomo označili z ina b

Naj bodo vrednosti statističnega znaka zaradi učinkov pojava X na enote slučajno izbranega vzorca velikosti n in vrednosti statisičnega znaka istih enot zaradi učinkov pojava Y.

Page 5: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

5

Metoda najmanjših kvadratov izbere parametrada je vsota kvadratov napak modela najmanjša

2

1

minn

ii

To zahtevo lahko zapišemo

2

1

ˆ ˆˆ ˆ, - minn

i ii

F a b y a b x

Page 6: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

6

Rešitev tega ekstrema nas pripelje do ocen a in b

n n n n2i i i i i

i=1 i=1 i=1 i=12n n

2i i

i=1 i=1

x y x x y

n

ˆ=

x x

a

n n n

i i i ii=1 i=1 i=1

2n n2i i

i=1 i=1

bn x

=y x y

n x x

Page 7: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

7

Vpeljimo naslednje oznake

2

2 2

1 1 1

1n n n

xx i i ii i i

S x x x xn

2

2 2

1 1 1

1n n n

yy i i ii i i

S y y y yn

1 1 1 1

1n n n n

xy i i i i i ii i i i

S x x y y x y x yn

Page 8: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

8

S temi oznakami lahko zapišemo oceno b

ˆ xy

xx

Sb

S

Zaradi enakosti ˆˆ .a b x y velja

ˆˆ .a y b x

Page 9: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

9

Nepristransko oceno napake regresijskega modela imenujemo tudi standardna ocena napake modela in jo bomo označevali z s

2

1

1 ˆˆ ,2

n

i ii

s y a b xn

ali v skrajšani obliki

2

.1 ˆ. .yy xys S b Sn

Page 10: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

10

Vrednost

2

ˆ xx

xx

a a n Sts S n x

je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti

Vrednost ˆ

xx

b bt S

s

je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti.

Na statistiki t je zasnovan tudi test hipoteze o regresijskih koeficientih a in b

Page 11: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

11

Pri dani stopnji zaupanja je interval zaupanja za regresijska koeficienta a in b

2

, 22

2

, 22

1ˆ . . ,

.1

ˆ . .

nxx

nxx

xa t s

n S

xa t s

n S

a

, 2 , 22 2

1 1ˆ ˆ , . n n

xx xx

b t s b sb tS S

Page 12: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

12

1 100% interval zaupanja za vrednost 0/Y x

ki jo ocenjujemo z regresijsko premico ˆˆ ˆy a b x pri dani vrednosti 0x x je

2

00

, 22

2

00

, 22

0

1ˆˆ ,

.1ˆ

/

ˆ

nxx

nxx

x xna b x t s

n S

x xna b x t s

n

Y x

S

Page 13: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

13

Varianco V Y količine Y imenujemo skupna alizačetna varianca

Njena točkasta ocena, izračunana je pri izbranem vzorcu 1 2 ny , y ,...y

n

22Y i

i=1

1y y

n-1s

krajše zapisano

2

1yy

Y

Ss

n

Page 14: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

14

Varianco napake regresijskega modela ocenimo z izrazom

2n

i ii=1

22

1

1 1ˆ--

ˆ2

ˆ2

n

i ii

s y xn

yn

b ya

kar lahko zapišemo tudi takole

2 1. .

2 yy xys S b Sn

Varianci napake modela pravimo tudi nepojasnjena varianca, njen kvadratni koren pa smo imenovali standardna ocena napake modela

Page 15: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

15

Razliko med začetno in nepojasnjeno varianco imenujemo pojasnjena varianca.

2 2 2XY Ys s s

Page 16: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

16

Analiza linearne korelacije proučuje, kako dobro izbrana regresijska premica povezuje količini (pojava) X in Y.

Koeficient določenosti (determinacijski koeficient) D, ki meri linearno povezavo med vzrokom X in posledico Y, določeno z regresijsko premico, je

2 2

2

2

2= 1Y

Y Y

s

s

s sD

s

Page 17: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

17

1. D = 1: med količino X in količino Y obstaja popolna matematična povezava v obliki linearne funkcije (napaka v modelu je 0)

2. D = 0: med količinama X in Y ni nobene linearne odvisnosti

3. 0 < D <1: med X in Y obstaja verjetna linearna povezava.

Page 18: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

18

Proučujemo dvostransko odvisna pojava X Y

Zanima nas, kako močno sta linearno odvisna

Koeficient korelacije , pravimo mu tudi Pearsonov koeficient korelacije, meri linearno odvisnost med dvostransko odvisnima pojavoma

Točkovno oceno r zapišemo tudi na naslednji način

1

2 2

1 1

n

i ii

n n

i ii i

x x y yr

x x y y

ali

.xy

xx yy

Sr

S S

Page 19: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

19

Za cenilko R koeficienta korelacije, velja, da je statistika

1 1ln

2 1

R

R

približno normalna slučajna spremenljivka

Njeno matematično upanje je 1 1

ln2 1

in varianca 1

3n

Page 20: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

20

Tako je 1 13

ln2 1 1

rnz

r

vrednost standardizirane normalne slučajne spremenljivke Z.

Na tej statistiki lahko zgradimo tudi 1 100%

interval zaupanja za parametr

2 2

2 2

2. 2.

3 3

2. 2.

3 3

1 1 1 1 ,

1 1 1 1

z z

n n

z z

n n

r r e r r e

r r e r r e

Page 21: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

21

Statistiko Z uporabimo za test hipoteze

00 :H pri ustrezni nasprotni hipotezi

Page 22: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

22

Kadar nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji.

Uporabljamo model v obliki linearne funkcije

0 1 1 2 2 ... k kY b b x b x b x

je napaka modela in je normalna slučajna spremenljivka z 0M 2V

Zaradi tega velja

1 2 0 1 1 2 2( / , ,..., ) ...k k kM Y x x x b b x b x b x

Page 23: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

23

Vzemimo, da imamo za vsako od neodvisnih spremenljivk in odvisno spremenljivko podanih n vzorčnih podatkov

11 12 1

21 22 2

1

2

1 2

, ,..., ,

, ,..., ,

, ,..., , n

k

k

n n nk

x x x

x x x

x x x

y

y

y

Page 24: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

24

Ocene 0 1

ˆ ˆ ˆ, ,..., kb b b parametrov 0 1, ,..., kb b b

lahko dobimo z metodo najmanjših kvadratov

Bolj enostavno pa jih dobimo, če uporabimo matrični račun.

Vpeljimo oznake:

11 12 1

21 22 2

1 2

1 ...

1 ...

......................

1 ...

k

k

n n nk

x x x

x x xX

x x x

1

2

...

n

y

yY

y

0

1

ˆ

ˆˆ

...

k

b

bB

b

Page 25: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

25

Matrika Bocen koeficientov večkratne regresije je

1ˆ . . .T TB X X X Y

Nepristransko oceno napake modela, pravimo ji tudi standardna ocena napake modela, v matrični obliki izrazimo takole:

ˆ . .

1

T T TY Y B X Ys

n k

n je velikost vzorca, k pa število ocenjenih

parametrov

Page 26: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

26

Če je napaka regresijskega modela normalna slučajna spremenljivka, potem je

ˆ

.1

i i

ii

b bt

n cs

n k

za i = 0,1,2,…,k

vrednost t slučajne spremenljivke z n-k-1 stopnjami prostosti

Pri tem je iic element v i-ti vrstici in i-tem stolpcuinverzne matrike 1

.TX X

S to statistiko testiramo tudi koeficiente linearne regresije, kjer se ničelna hipoteza nanaša na njihove predpostavljene vrednosti

Page 27: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

27

1 100% interval zaupanja za koeficienteregresijske hiperravnine je

, 1 , 12 2

,ˆ ˆ .1

. . .1

ii iii i

n ki

n k

n c n cb t s b

n n kb t s

k

za i = 0,1,2,…,k

Page 28: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

28

Če je 01

0 02

0

1

...

k

x

X x

x

izbrana vrednost neodvisnih spremenljivk ,

napovedano vrednost dobimo0Y 00ˆ.TX BY

Meji intervala zaupanja za napovedano vrednost odvisne spremenljivke sta

1

0 0

0, 1

2

1. .

1

T

ks

T

n

n X X X Xy Y t s

n k

1

0 0

0, 1

2

1. .

1

T

kz

T

n

n X X X Xy Y t s

n k

Page 29: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

29

Začetna varianca je

2 1

1

T

Ys Y Y Y Yn

Nepojasnjena varianca je

2 1 ˆ ˆ. .1

T

s Y X B Y X Bn k

Koeficient določenosti pa je

2

21

y

sD

s