o regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti
DESCRIPTION
REGRESIJA IN KORELACIJA. Enostavna linearna regresija. O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti. - PowerPoint PPT PresentationTRANSCRIPT
1
O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti
Regresija je enostavna kadar nastopata v medsebojni odvisnosti samo dva pojava (veličini), kadar pa nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji
Naloga regresije je, poiskati tako funkcijo y f xki najbolje podaja medsebojno odvisnost pojavov.
2
Odvisnost je enostranska , kadar je veličinaX vzrok, veličina Y pa posledica.
Odvisnost je dvostranska X Y, kadar ni možno določiti, kaj je vzrok in kaj posledica.
Količini X in Y slučajni spremenljivki, zato njunih vrednosti vnaprej natanko ne moremo predvideti Lahko zapišemo le zvezo: /Y x f x
Predpostavljamo, da je normalna slučajnaspremenljivka 0,N
3
Velja / ( )M Y x f x Slučajno spremenljivko imenujemo napaka modela
Model /Y x f x je regresijski model.
Če iščemo odvisnost v obliki linearne funkcije
/M Y x y a b x govorimo o linearni regresiji
Parametra in imenujemo regresijska koeficienta
Pri realnih problemih regresije je seveda vprašanje, kako oceniti parametra a in b
4
1 2, ,... nx x x
1 2, ,... ny y y
Na ta dva vzorca lahko gledamo tudi kot na množico urejenih parov 1 1 2 2, , , ,..., ,n nx y x y x y
Kako poiskati premico, ki se tem točkam najbolje prilega.
Nalogo največkrat rešujemo z metodo najmanjših kvadratov
S to metodo poiščemo oceni za regresijska parametra, ki ju bomo označili z ina b
Naj bodo vrednosti statističnega znaka zaradi učinkov pojava X na enote slučajno izbranega vzorca velikosti n in vrednosti statisičnega znaka istih enot zaradi učinkov pojava Y.
5
Metoda najmanjših kvadratov izbere parametrada je vsota kvadratov napak modela najmanjša
2
1
minn
ii
To zahtevo lahko zapišemo
2
1
ˆ ˆˆ ˆ, - minn
i ii
F a b y a b x
6
Rešitev tega ekstrema nas pripelje do ocen a in b
n n n n2i i i i i
i=1 i=1 i=1 i=12n n
2i i
i=1 i=1
x y x x y
n
ˆ=
x x
a
n n n
i i i ii=1 i=1 i=1
2n n2i i
i=1 i=1
bn x
=y x y
n x x
7
Vpeljimo naslednje oznake
2
2 2
1 1 1
1n n n
xx i i ii i i
S x x x xn
2
2 2
1 1 1
1n n n
yy i i ii i i
S y y y yn
1 1 1 1
1n n n n
xy i i i i i ii i i i
S x x y y x y x yn
8
S temi oznakami lahko zapišemo oceno b
ˆ xy
xx
Sb
S
Zaradi enakosti ˆˆ .a b x y velja
ˆˆ .a y b x
9
Nepristransko oceno napake regresijskega modela imenujemo tudi standardna ocena napake modela in jo bomo označevali z s
2
1
1 ˆˆ ,2
n
i ii
s y a b xn
ali v skrajšani obliki
2
.1 ˆ. .yy xys S b Sn
10
Vrednost
2
ˆ xx
xx
a a n Sts S n x
je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti
Vrednost ˆ
xx
b bt S
s
je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti.
Na statistiki t je zasnovan tudi test hipoteze o regresijskih koeficientih a in b
11
Pri dani stopnji zaupanja je interval zaupanja za regresijska koeficienta a in b
2
, 22
2
, 22
1ˆ . . ,
.1
ˆ . .
nxx
nxx
xa t s
n S
xa t s
n S
a
, 2 , 22 2
1 1ˆ ˆ , . n n
xx xx
b t s b sb tS S
12
1 100% interval zaupanja za vrednost 0/Y x
ki jo ocenjujemo z regresijsko premico ˆˆ ˆy a b x pri dani vrednosti 0x x je
2
00
, 22
2
00
, 22
0
1ˆˆ ,
.1ˆ
/
ˆ
nxx
nxx
x xna b x t s
n S
x xna b x t s
n
Y x
S
13
Varianco V Y količine Y imenujemo skupna alizačetna varianca
Njena točkasta ocena, izračunana je pri izbranem vzorcu 1 2 ny , y ,...y
n
22Y i
i=1
1y y
n-1s
krajše zapisano
2
1yy
Y
Ss
n
14
Varianco napake regresijskega modela ocenimo z izrazom
2n
i ii=1
22
1
1 1ˆ--
ˆ2
ˆ2
n
i ii
s y xn
yn
b ya
kar lahko zapišemo tudi takole
2 1. .
2 yy xys S b Sn
Varianci napake modela pravimo tudi nepojasnjena varianca, njen kvadratni koren pa smo imenovali standardna ocena napake modela
15
Razliko med začetno in nepojasnjeno varianco imenujemo pojasnjena varianca.
2 2 2XY Ys s s
16
Analiza linearne korelacije proučuje, kako dobro izbrana regresijska premica povezuje količini (pojava) X in Y.
Koeficient določenosti (determinacijski koeficient) D, ki meri linearno povezavo med vzrokom X in posledico Y, določeno z regresijsko premico, je
2 2
2
2
2= 1Y
Y Y
s
s
s sD
s
17
1. D = 1: med količino X in količino Y obstaja popolna matematična povezava v obliki linearne funkcije (napaka v modelu je 0)
2. D = 0: med količinama X in Y ni nobene linearne odvisnosti
3. 0 < D <1: med X in Y obstaja verjetna linearna povezava.
18
Proučujemo dvostransko odvisna pojava X Y
Zanima nas, kako močno sta linearno odvisna
Koeficient korelacije , pravimo mu tudi Pearsonov koeficient korelacije, meri linearno odvisnost med dvostransko odvisnima pojavoma
Točkovno oceno r zapišemo tudi na naslednji način
1
2 2
1 1
n
i ii
n n
i ii i
x x y yr
x x y y
ali
.xy
xx yy
Sr
S S
19
Za cenilko R koeficienta korelacije, velja, da je statistika
1 1ln
2 1
R
R
približno normalna slučajna spremenljivka
Njeno matematično upanje je 1 1
ln2 1
in varianca 1
3n
20
Tako je 1 13
ln2 1 1
rnz
r
vrednost standardizirane normalne slučajne spremenljivke Z.
Na tej statistiki lahko zgradimo tudi 1 100%
interval zaupanja za parametr
2 2
2 2
2. 2.
3 3
2. 2.
3 3
1 1 1 1 ,
1 1 1 1
z z
n n
z z
n n
r r e r r e
r r e r r e
21
Statistiko Z uporabimo za test hipoteze
00 :H pri ustrezni nasprotni hipotezi
22
Kadar nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji.
Uporabljamo model v obliki linearne funkcije
0 1 1 2 2 ... k kY b b x b x b x
je napaka modela in je normalna slučajna spremenljivka z 0M 2V
Zaradi tega velja
1 2 0 1 1 2 2( / , ,..., ) ...k k kM Y x x x b b x b x b x
23
Vzemimo, da imamo za vsako od neodvisnih spremenljivk in odvisno spremenljivko podanih n vzorčnih podatkov
11 12 1
21 22 2
1
2
1 2
, ,..., ,
, ,..., ,
, ,..., , n
k
k
n n nk
x x x
x x x
x x x
y
y
y
24
Ocene 0 1
ˆ ˆ ˆ, ,..., kb b b parametrov 0 1, ,..., kb b b
lahko dobimo z metodo najmanjših kvadratov
Bolj enostavno pa jih dobimo, če uporabimo matrični račun.
Vpeljimo oznake:
11 12 1
21 22 2
1 2
1 ...
1 ...
......................
1 ...
k
k
n n nk
x x x
x x xX
x x x
1
2
...
n
y
yY
y
0
1
ˆ
ˆˆ
...
k
b
bB
b
25
Matrika Bocen koeficientov večkratne regresije je
1ˆ . . .T TB X X X Y
Nepristransko oceno napake modela, pravimo ji tudi standardna ocena napake modela, v matrični obliki izrazimo takole:
ˆ . .
1
T T TY Y B X Ys
n k
n je velikost vzorca, k pa število ocenjenih
parametrov
26
Če je napaka regresijskega modela normalna slučajna spremenljivka, potem je
ˆ
.1
i i
ii
b bt
n cs
n k
za i = 0,1,2,…,k
vrednost t slučajne spremenljivke z n-k-1 stopnjami prostosti
Pri tem je iic element v i-ti vrstici in i-tem stolpcuinverzne matrike 1
.TX X
S to statistiko testiramo tudi koeficiente linearne regresije, kjer se ničelna hipoteza nanaša na njihove predpostavljene vrednosti
27
1 100% interval zaupanja za koeficienteregresijske hiperravnine je
, 1 , 12 2
,ˆ ˆ .1
. . .1
ii iii i
n ki
n k
n c n cb t s b
n n kb t s
k
za i = 0,1,2,…,k
28
Če je 01
0 02
0
1
...
k
x
X x
x
izbrana vrednost neodvisnih spremenljivk ,
napovedano vrednost dobimo0Y 00ˆ.TX BY
Meji intervala zaupanja za napovedano vrednost odvisne spremenljivke sta
1
0 0
0, 1
2
1. .
1
T
ks
T
n
n X X X Xy Y t s
n k
1
0 0
0, 1
2
1. .
1
T
kz
T
n
n X X X Xy Y t s
n k
29
Začetna varianca je
2 1
1
T
Ys Y Y Y Yn
Nepojasnjena varianca je
2 1 ˆ ˆ. .1
T
s Y X B Y X Bn k
Koeficient določenosti pa je
2
21
y
sD
s