6_predavanje_anova&testovi u modelu jednostavne linearne regresije

20
1 3.3 Analiza varijance u modelu jednostavne linearne regresije Rezidualna odstupanja i i i x y 1 0 ˆ ˆ ˆ koriste se za mjerenje prilagođenosti regresije opaţanjima iz uzorka. Naime, nakon što se odredi procijenjeni regresijski pravac postavlja se pitanje je li izračunata regresija dobra. Općenito se smatra da je regresija dobro prilagođena opaţanjima iz uzorka ako je velik dio proporcije varijance varijable y (procijenjene na osnovi uzorka) protumačen modelom. Na slici 3.4 prikazan je procijenjeni regresijski pravac i i x y 1 0 ˆ ˆ ˆ , te pravci y i x čije je sjecište na regresijskom pravcu. Istaknuta je točka ) , ( i i i y x T . Odstupanje empirijske vrijednosti i y od prosjeka moţe se raščlaniti na odstupanje protumačeno regresijom, (odstupanje odgovarajuće procijenjene ili regresijske vrijednosti od prosjeka) i neprotumačeno ili rezidualno odstupanje: ) ˆ ( ) ˆ ( ) ( i i i i y y y y y y . (3.110) Ova jednadţba vrijedi za svako opaţanje iz uzorka. Da bi se izvela mjera disperzije, jednadţba (3.110) se kvadrira, te se zbroje dobivene jednadţbe za sva opaţanja i=1,2,...,n. Slika 3.4: Jednadžba analize varijance

Upload: andrew-berry

Post on 17-Jan-2016

28 views

Category:

Documents


5 download

DESCRIPTION

pdf predavnje dtsidtiks

TRANSCRIPT

Page 1: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

1

3.3 Analiza varijance u modelu jednostavne linearne regresije

Rezidualna odstupanja iii xy 10ˆˆˆ koriste se za mjerenje prilagođenosti regresije

opaţanjima iz uzorka. Naime, nakon što se odredi procijenjeni regresijski pravac postavlja se

pitanje je li izračunata regresija dobra. Općenito se smatra da je regresija dobro prilagođena

opaţanjima iz uzorka ako je velik dio proporcije varijance varijable y (procijenjene na osnovi

uzorka) protumačen modelom.

Na slici 3.4 prikazan je procijenjeni regresijski pravac ii xy 10ˆˆˆ , te pravci y i x čije je

sjecište na regresijskom pravcu. Istaknuta je točka ),( iii yxT .

Odstupanje empirijske vrijednosti iy od prosjeka moţe se raščlaniti na odstupanje

protumačeno regresijom, (odstupanje odgovarajuće procijenjene ili regresijske vrijednosti od

prosjeka) i neprotumačeno ili rezidualno odstupanje:

)ˆ()ˆ()( iiii yyyyyy . (3.110)

Ova jednadţba vrijedi za svako opaţanje iz uzorka. Da bi se izvela mjera disperzije,

jednadţba (3.110) se kvadrira, te se zbroje dobivene jednadţbe za sva opaţanja i=1,2,...,n.

Slika 3.4: Jednadžba analize varijance

Page 2: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

2

Rezultirajuća jednadţba:

SR

i

n

i

i

SP

n

i

i

ST

n

i

i yyyyyy 2

1

2

1

2

1

)ˆ()ˆ()(

ST = SP + SR

(3.111)

zove se jednadžba analize varijance.

ST je oznaka za ukupnu sumu kvadrata, tj. za zbroj kvadrata odstupanja vrijednosti varijable y

od prosjeka:

n

i

i yyST1

2.

(3.112)

SP je oznaka za sumu kvadrata protumačenu modelom, tj. sumu kvadrata odstupanja

regresijskih vrijednosti od prosjeka:

Page 3: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

3

2

1

)ˆ( yySPn

i

i

(3.113)

SR je oznaka za rezidualnu ili neprotumačenu sumu kvadrata. To je zbroj kvadrata

odstupanja opaţenih od regresijskih vrijednosti.

2

1

)ˆ( i

n

i

i yySR

(3.114)

Jednadţba (3.111) pokazuje da se zbroj kvadrata odstupanja vrijednosti varijable y od

prosjeka (ST) rastavlja na zbroj kvadrata odstupanja regresijskih vrijednosti od prosjeka, tj.

protumačenu sumu kvadrata SP i zbroj kvadrata odstupanja regresijskih od opaţenih

vrijednosti, tj. rezidualnu sumu kvadrata SR.

Ako su uvedu oznake:

ynyyySn

i

i

n

i

iyy

1

2

1

2

n

i

ii

n

i

iixy yxnyxyyxxS11

))((

xnxxxSn

i

i

n

i

ixx

1

2

1

2

(3.115)

tada je:

yySST , xySSP 1ˆ i xyyy SSSR 1

ˆ . (3.116)

Naime, s obzirom da je prema formuli (3.42) procjena regresijskog koeficijenta 1ˆ jednaka:

xx

xy

n

i

i

n

i

ii

S

S

xx

yyxx

1

2

11

)(

))((ˆ . (3.117)

protumačena se suma kvadrata SP moţe izraziti:

Page 4: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

4

xyxx

xx

xy

xx

xxS

n

i

i

n

i

i

i

n

i

n

i

i

SSS

SS

xxyxxy

yxyySP

1

1

2

1

2

1

2

1

2

1

11

2

1

1

0

2

1

ˆˆˆ

)(ˆ)ˆˆ(

)ˆˆ()ˆ(

(3.118)

Jednadţba analize varijance (3.111) se u matričnoj notaciji moţe izraziti:

)ˆ()ˆ( 22 yXyyynyXynyy , (3.119)

Naime prema (3.60) hyy , a prema (3.63) je yhI )(ˆ , pa vrijedi:

ˆˆ)ˆ(ˆˆ))(ˆ(

ˆˆ)()()ˆˆ(

ˆˆˆˆˆˆ)ˆˆ(

ˆˆˆˆˆˆˆˆ)ˆˆ()ˆˆ(

221

00

2

)ˆ)(ˆ(

2

222

ynyXynyXXXXX

yhIhyyhhIyynyy

yyynyy

ynyyyyynyyynyy

I

XX

odnosno:

xyyyxyyy SSSS

SRSPST

11ˆˆ

(3.120)

Ako se zbrojevi kvadrata podijele s odgovarajućim stupnjevima slobode dolazi se do sredina

kvadrata koje su nezavisne procjene komponenti varijance. Zbrojevi kvadrata, stupnjevi

slobode, sredine kvadrata i druge informacije predočuju se u tabeli analize varijance

(ANOVA), tabela 3.4.

Tabela 3.4: Tabela analize varijance za model jednostavne regresije je oblika:

Izvor varijacije Stupnjevi

slobode

DF

Sume

kvadrata

SS

Sredine

kvadrata

MS

F-omjer PROB>F

Protumačen

modelom

1

SP

1/SP )2/(

1/

nSR

SP

Neprotumačena

odstupanja

n-2 SR )2/(nSR

Page 5: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

5

Ukupno n-1 ST

Rezidualna suma kvadrata podijeljena s (n-2) stupnjeva slobode:

2ˆ 2

n

SR,

(3.121)

je procijenjena varijanca regresije.

Pozitivni drugi korijen iz procijenjene varijance regresije je procjena standardne devijacije

regresije:

22

)ˆ(ˆ 1

2

n

SR

n

yyn

ii

,

(3.122)

koja se interpretira kao prosječno odstupanje empirijskih od regresijskih vrijednosti.

Procijenjena standardna devijacija je apsolutna mjera disperzije, jer je izraţena u mjernim

jedinicama varijable. Odgovarajuća relativna mjera disperzije je procjena koeficijenta

varijacije definiranog izrazom:

100ˆˆy

V .

(3.123)

Omjer:

ST

SR

ST

SPR 12 .

(3.124)

je proporcija protumačenih odstupanja u ukupnoj sumi kvadrata odstupanja i zove se

koeficijent determinacije1. Pokazatelj poprima vrijednosti na intervalu [0,1], a promatrani je

model to reprezentativniji što je koeficijent determinacije bliţi jedinici.

Kako iz procjene varijance (3.121) proizlazi da je 2ˆ2nSR , to se koeficijent

determinacije moţe se izraziti i na način:

1 Koeficijent determinacije se za model jednostavne linearne regresije u literaturi često označava s r2, pa će ta

oznaka biti korištena kasnije u formulama za LR, Waldov i ML testove u modelu jednostavne linearne regresije.

Page 6: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

6

n

i

i yy

n

ST

SR

ST

SPR

1

2

22

)(

ˆ)2(11 .

(3.125)

Nepristrana procjena varijance zavisne varijable y (zbog normalnosti od y) je:

11

)(ˆ 1

2

2

n

ST

n

yyn

ii

y .

(3.126)

Dobivena procjena ovisi samo o vrijednostima varijable y i veličini uzorka (n).

Pored 2R promatra se korigirani koeficijent determinacije definiran izrazom:

)1(2

11 22 R

n

nR .

(3.127)

Dobiveni procjenitelj je nepristran, ali mu je loša strana što u slučajevima slabe

reprezentativnosti odabranog modela moţe poprimiti i negativnu vrijednost. Ako se u (3.127)

umjesto )1( 2R uvrsti (3.124) dolazi se do izraza:

2

2

2

222

ˆ

ˆ1

ˆ)1(

ˆ)2(

2

11

2

11)1(

2

11

yyn

n

n

n

ST

SR

n

nR

n

nR .

(3.128)

S obzirom da je procjena varijance varijable y (3.126) neovisna o odabranom modelu, iz

(3.128) je vidljivo da je korigirani koeficijent determinacije funkcija procijenjene varijance

modela. Što je manja procjena varijance, to je korigirani koeficijent determinacije veći.

Vaţnost korigiranog koeficijenta determinacije dolazi do izraţaja u modelu višestruke

linearne regresije.

Pokazatelj usko povezan s koeficijentom determinacije je koeficijent jednostavne linearne

korelacije r kojim se mjeri smjer i jakost linearne povezanosti među varijablama x i y.

Koeficijent jednostavne linearne korelacije, ako se računa polazeći od koeficijenta

determinacije dan je izrazom2:

2 Ovim se načinom izračunavanja predznak koeficijenta r ne dobiva automatski, nego se određuje prema

predznaku regresijskog koeficijenta.

Page 7: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

7

1r1- )()( 1

2 signrsignrr (3.129)

Napomena 3.4:

Koeficijent linearne korelacije r, definiran u (3.3.16) je procjena na bazi uzorka koeficijenta

linearne korelacije , definiranog u (2.4.22).

Prema definicionoj formuli (2.4.22) koeficijent linearne korelacije je standardizirana mjera

kovarijance, te se za vrijednosti iz uzorka izračunava kao omjer procjene kovarijance i

umnoška procjena standardnih devijacija varijabli x i y:

yyxx

xy

n

i

n

i

ii

n

i

ii

SS

S

yyxx

yyxx

ySVarxSVar

yxSCovr

1 1

22

1

)()(

))((

)()(

),( .

(3.130)

S obzirom da je prema (3.129) regresijski koeficijent definiran s:

xx

xy

S

S

xSVar

yxSCov

)(

),(ˆ1

.

(3.131)

Iz (3.130) slijedi :

yy

xx

S

Sr 1

ˆ .

(3.132)

Relacija (3.132) pokazuje da je predznak koeficijenta jednostavne linearne korelacije jednak

predznaku regresijskog koeficijenta, odnosno koeficijentu smjera regresijskog pravca. Što je

r bliţe 1, korelacija je jača, i obratno, što je r bliţe nuli korelacija je slabija. Ako su

varijable x i y nezavisne, tada su i nekorelirane, no obrat ne vrijedi. Varijable koje su

nekorelirane (r = 0) nisu nuţno nezavisne, slika 3.5.

Page 8: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

8

Slika 3.5: Dijagrami rasipanja i pripadne vrijednosti koeficijenta linearne korelacija r

1r

1r

1r

1r

0r

0r

Primjer 3.2:

Analizom prihoda od prodaje proizvoda (varijabla y u tisućama HRK) u ovisnosti o izdacima

za promidţbene aktivnosti u trgovinama na malo (varijabla x u tisućama HRK), za

maloprodajno poslovanje odabranog poduzeća Slavonsko-Baranjske ţupanije (primjer 3.1),

dobivena je regresijska jednadţba:

Page 9: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

9

xy 14819.1699930.968ˆ .

Rezultati analize varijance prezentirani su u tabeli 3.5.

Tabela 3.5 Tabela analize varijance (ispis SAS 9.1) 3

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 1 44804136 44804136 420.50 <.0001

Error 10 1065509 106551

Corrected Total 11 45869645

Root MSE 326.42132 R-Square 0.9768

Dependent Mean 5872.66667 Adj R-Sq 0.9744

Coeff Var 5.55832

Rezultati kompjutorskog ispisa (tabela 3.5) za navedeni primjer interpretiraju se na slijedeći

način:

Protumačena suma kvadrata SP = 44804136 je zbroj kvadrata odstupanja procijenjenih ili

regresijskih vrijednosti od prosjeka. Neprotumačena suma kvadrata SR = 1065509 je zbroj

kvadrata rezidualnih odstupanja (zbroj kvadrata odstupanja opaţenih od regresijskih

vrijednosti), a ukupna suma kvadrata ST= 45869645 je zbroj kvadrata odstupanja

empirijskih vrijednosti zavisne varijable od prosjeka.

Nadalje, sredina kvadrata neprotumačenih odstupanja 2n

SR jednaka je

10

1065509/10. To

je procijenjena varijanca regresije 106551ˆ 2 . Drugi korijen iz procijenjene varijance je

procjena standardne devijacije regresije .42132326106551ˆ .

Procjena standardne devijacije regresije je apsolutna mjera disperzije i tumači se kao

prosječno odstupanje empirijskih od regresijskih vrijednosti zavisne varijable izraţeno u

mjernim jedinicama varijable. Odgovarajuća relativna mjera disperzije je koeficijent

varijacije 558325ˆ .V . U analiziranom modelu prosječno odstupanje empirijskih od

3 Analysis of Variance = analiza varijance; Source = izvor (varijacija); Model= odstupanja protumačena

modelom; Error = neprotumačena odstupanja; Corrected Total= suma kvadrata ukupnih odstupanja; DF=broj

stupnjeva slobode; Sum of Squares = sume kvadrata; Mean Square = sredina kvadrata; F Value = F-omjer; Pr >

F = empirijska razina signifikantnosti (p-vrijednost); Root MSE= procijenjena standardna devijacija regresije;

Dependent Mean= aritmetička sredina zavisne varijable; Coeff Var = koeficijent varijacije regresije; R-Square=

koeficijent determinacije; Adj R-Sq =korigirani koeficijent determinacije;

Page 10: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

10

regresijskih vrijednosti prihoda iznosi 326.42 tisuća kuna, odnosno izraženo relativno

5.56%.

Koeficijent determinacije 0.97682R , tumači se kao proporcija odstupanja protumačenih

regresijskim modelom. Korigirani koeficijent determinacije je 0.97442R .

Koeficijent korelacije r je u konkretnom slučaju (3.129):

9883319.09768.0r

i pokazuje na jaku linearnu povezanost pozitivnog smjera varijabli u modelu.

Analogno, koristeći međurezultate iz primjera 3.1. koeficijent se mogao izračunati na temelju

izraza (3.130):

9883319.0

)()(

))((

1

22

1

22

1

1 1

22

1

n

i

i

n

i

i

n

i

ii

yyxx

xy

n

i

n

i

ii

n

i

ii

ynyxnx

yxnyx

SS

S

yyxx

yyxx

r .

3.4 Testiranje hipoteza u modelu jednostavne linearne regresije

Test hipoteze o pretpostavljenoj vrijednosti regresijskog parametra 1 u modelu jednostavne

linearne regresije, moguće je provesti na temelju t- testa ili F- testa.

t-test

Testiranje hipoteza o parametru 1 moguće je provesti pomoću dvosmjernog testa ili pomoću

jednosmjernih testova. S obzirom da je model odabran s namjerom da bude prihvaćen, to se

nulta hipoteza oH formulira tako da je se nastoji odbaciti, dok je hipoteza 1H u skladu s

pretpostavkom istraţivača. Cilj testiranja je da se utvrdi je li odabrana regresorska varijabla

značajna za objašnjavanje varijacija zavisne varijable, te treba biti uključena u model (kao što

je to pretpostavio istraţivač) ili je suvišna u modelu. Kod dvosmjernog se testa nultom ili

osnovnom hipotezom pretpostavlja da ne postoji veza između regresand varijable i

regresorske varijable x, što je ekvivalentno tvrdnji da je varijabla x suvišna u modelu

xy 10 , odnosno tvrdnji da je vrijednost parametra 1 jednaka nuli. Stoga se za

dvosmjerni test hipoteze formuliraju:

Page 11: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

11

xyH

yH

101

00

:

:, odnosno:

0:

0:

11

10

H

H (3.133)

Međutim, u regresijskoj se analizi t-test najčešće formulira kao jednosmjerni test, jer se na

osnovi kvalitativne statističke analize moţe ustanoviti smjer povezanosti između zavisne i

regresorske varijable.

Ispituje li se primjerice tvrdnja da je veza između x i y pozitivnog smjera, provest će se test na

gornju granicu, a ako se pretpostavlja veza negativnog smjera provest će se test na donju

granicu, tabela 3.6.

Tabela 3.6: Hipoteze jednosmjernih testova o značajnosti regresijskog parametra

Jednosmjerni test na gornju granicu Jednosmjerni test na donju granicu

0:

0:

11

10

H

H

0:

0:

11

10

H

H

Postupak testiranja počinje promatranjem standardizirane sampling distribucije procjenitelja

1ˆ uz uvjet da je nulta hipoteza istinita. Za razliku od dvosmjernog testa kod kojeg se

hipotezom oH obuhvaća samo vrijednost 01 , kod jednosmjernih testova je nul-hipotezom

obuhvaćen skup sampling distribucija s očekivanom vrijednosti 0)ˆ( 1E (kod testa na

gornju granicu), odnosno s 0)ˆ( 1E (kod testa na donju granicu). Kod jednosmjernih se

testova promatra samo granična sampling distribucija obuhvaćena nultom hipotezom

(distribucija za koju je 0)ˆ( 1E ). Stoga se često hipoteze formuliraju na način dan u tabeli

3.7.

Tabela 3.7: Hipoteze jednosmjernih testova o značajnosti regresijskog parametra

Jednosmjerni test na gornju granicu Jednosmjerni test na donju granicu

0:

0:

11

10

H

H

0:

0:

11

10

H

H

Page 12: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

12

Test veličina za navedene testove je4:

)ˆ(

ˆ

)ˆ(

1

1

1

11

SESEt . (3.134)

Uz razinu signifikantnosti (tj. uz zadanu vjerojatnost pogreške da se odbaci istinita nulta

hipoteza) hipoteza oH se odbacuje ako je )2(2/1 ntt kod dvosmjernog testa, ako je

)2(1 ntt kod testa na gornju granicu, odnosno ako je )2(1 ntt kod testa na donju

granicu, slika 3.6, pri čemu su )2(2/ nt i )2(nt odgovarajući percentili t-distribucije s

(n-2) stupnja slobode (n je broj opservacija).

Slika 3.6 Jednosmjerni t-testovi hipoteze o značajnosti regresijskog parametra

Jednosmjerni test na donju granicu Jednosmjerni test na gornju granicu

Ekvivalentno, hipoteza 0H se odbacuje ako je vjerojatnost da slučajna varijabla poprimi

vrijednost veću od testovne veličine manja od teorijske razine signifikantnosti :

1)2( HvrijednostptntPvrijednostp emp . (3.135)

p-vrijednost iz (3.135) naziva se empirijska razina značajnosti i označava vjerojatnost da

testovna veličina uz pretpostavku da je nulta hipoteza istinita, po apsolutnoj vrijednosti bude

4 Ako su greške relacije normalno distribuirane slučajne varijable, tj. ako je ),0(~ 2IN , tada je LS

procjenitelj ˆ nezavisan o vektoru reziduala ˆ , te i o svakoj funkciji od ˆ , dakle i o ˆ . Stoga je

)ˆ(

ˆ

1

11

SEomjer normalno distribuirane varijable )ˆ( 11 i korijena iz Hi-kvadrat varijable podijeljene s

brojem pripadajućih stupnjeva slobode (df=n-2), te ima t-distribuciju s (n-2) stupnja slobode.

Page 13: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

13

jednaka ili veća od vrijednosti testovne veličine izračunate na osnovi podataka iz uzorka. Ako

je ta vjerojatnost mala, nulta se hipoteza odbacuje kao laţna. U ispisima Eviews-a i SAS-a su

p-vrijenosti za dvosmjerni test, koje se računaju po formuli

)2(2 emptntPvrijednostp . Pri donošenju zaključaka kod jednosmjernih testova

treba navedenu vrijednost podijeliti s 2.

Napomena 3.5:

Prethodna razmatranja mogu se poopćiti tako da se testira je li vrijednost parametra 1

jednaka nekoj pretpostavljenoj vrijednosti 1

~, tj., hipoteze testa su:

111

110

~:

~:

H

H. (3.136)

Odnosno u slučaju jednosmjernih testova:

Jednosmjerni test na gornju granicu Jednosmjerni test na donju granicu

111

110

~:

~:

H

H

111

110

~:

~:

H

H

(3.137)

Test veličina za navedene testove tada je:

)ˆ(

1

111

SEt , (3.138)

a postupak testiranja provodi se na običajan način.

Primjer 3.3:

U primjeru 3.1, analize odnosa između prihoda i izdataka za promidţbene aktivnosti, varijable

u modelu su:

zavisna varijabla y = prodaja proizvoda (u tisućama HRK) i

nezavisna varijabla x = izdaci za promidţbene aktivnosti u trgovinama na malo (u

tisućama HRK)

Rezultati procjene parametara varijabli iz primjera 3.1, dani su u tabeli 3.8.

Page 14: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

14

Tabela 3.8: Rezultati regresijske analize (ispis SAS 9.1) 5

Dependent Variable: PRIHOD

Number of Observations Read 12

Number of Observations Used 12

Parameter Estimates

Parameter Standard Standardized

Variable DF Estimate Error t Value Pr > |t| Estimate

Intercept 1 968.99930 257.02934 3.77 0.0037 0

IZDACI 1 16.14819 0.78749 20.51 <.0001 0.98832

Iz ispisa proizlazi da je procijenjena regresijska jednadţba:

xy78749.002934.25714819.1699930.968ˆ ,

a vrijednosti u zagradama ispod procijenjenih parametara (Parameter Estimate) su standardne

pogreške procjena (Standard Error).

Ţeli se ispitati je li varijabla x suvišna u modelu.

S obzirom da je veza između x i y pozitivnog smjera, provodi se jednosmjerni test na gornju

granicu:

0:

0:

11

10

H

H

Test veličina (t Value) u konkretnom slučaju je, (3.4.2):

51.2078749.0

14819.16

)ˆ(

ˆ

1

11

SEt

Ako se na primjer test provodi uz razinu signifikantnosti = 5%, tada je za n = 12,

812.1)10()2( 05,0tnt . Budući da je )2(1 ntt proizlazi zaključak, da se uz razinu

signifikantnosti 5%, nulta hipoteza odbacuje, tj. ne prihvaća se pretpostavka da su izdaci za

promidţbene aktivnosti suvišna varijabla u modelu.

5 Dependent Variable=zavisna ili regresand varijabla; Number of Observations Read= broj učitanih opaţanja;

Number of Observations Used= broj korištenih opaţanja; DF=broj stupnjeva slobode; Parameter Estimates =

procjene parametara; Standard Error = standardna pogreška ; t Value= t-vrijednost; Pr > |t|= empirijska razina

signifikantnosti (p-vrijednost); Standardized Estimate=standardizirana procjena; Intercept=konstantni član.

Page 15: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

15

Odluka o ishodu testa mogla se donijeti i na temelju p-vrijednosti (Pr > |t|) iz (3.135).

S obzirom da je:

Pr{t > |t=20.51|} <.0001 1H ,

tj. nulta hipoteza se odbacuje uz bilo koju uobičajenu razinu signifikantnosti (jer je

vrijednostp ).

F-test

Polazeći od elemenata tabele ANOVA moguće je provesti test o značajnosti regresorske

varijable x u modelu jednostavne linearne regresije ekvivalentan t-testu.

Uz polazne pretpostavke o modelu vrijedi:

)2(2

2n

SR. (3.139)

Naime,

ˆˆˆ)ˆ(1

22

1

n

i

ii

n

i

i yySR ,

(3.140)

gdje je ˆ vektor rezidualnih odstupanja: nˆˆˆ'ˆ 21 .

S obzirom da je vektorska slučajna varijabla normalno distribuirana ))(ˆ hI2N(0,~ , to i

pojedinačne komponente od ˆ imaju jednodimenzionalne normalne distribucije:

))1(N(0,~ˆ 2

iii h , za svaki ni ,,2,1 , vidjeti (3.65) i (3.66)).

2/SR kao zbroj kvadrata normalno distribuiranih varijabli s očekivanjem jednakim nuli i

jediničnom varijancom ima hi-kvadrat distribuciju s (n-2) stupnja slobode, (3.67). Očekivana

vrijednost od SR dana je izrazom (3.68), naime:

22 2)ˆ2()( nnESRE . (3.141)

Pretpostavi li se da je varijabla x suvišna u modelu, tj. da je 01 , tada iz (3.118) vrijedi:

Page 16: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

16

2

0

2

1

22

11

2

1

2

11

2

111

2

1

ˆ)ˆ(

)ˆ()ˆ()(

xxxx

xx

xxxxxxxx

xxxx

SSS

SSVarSSE

SESESPE

(3.142)

Slučajna varijabla 2/SP uz pretpostavku da je 01 , tj. da ne postoji povezanost varijabli

x i y, ima hi kvadrat distribuciju s jednim stupnjem slobode:

)1(2

2

SP. (3.143)

2 - distribucije slučajnih varijabli (3.139) i (3.143) su nezavisne, pa je njihov omjer

))2/(/()1/( nSRSP slučajna varijabla koja ima F- distribuciju s jednim stupnjem slobode u

brojniku i (n-2) stupnja slobode u nazivniku, odnosno:

))2(,1(

2

1 nF~

n

SR

SP

F .

(3.144)

Očekivana vrijednost od (3.144) je uz pretpostavku da je 01 jednaka 1, a u protivnom je

veća od jedan.

Test veličina (3.144) koristi se za testiranje pretpostavke o parametru uz regresorsku

varijablu. Ako je pretpostavka da je 01 istinita empirijski F-omjer pripada ))2(;1( nF

distribuciji.

Postupak testiranja provodi se na uobičajen način. Uz zadanu razinu signifikantnosti

odbacuje se 0H ako je empirijski F-omjer )2;1( nFF , slika 3.7, gdje je )2;1( nF vrijednost F-

distribucije za ))2(;1( n stupnjeva slobode.

Ekvivalentno, hipoteza 0H se odbacuje ako je vjerojatnost da slučajna varijabla poprimi

vrijednost veću od testovne veličine (empirijskog F-omjera) manja od teorijske razine

signifikantnosti :

Page 17: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

17

1 )2;1( HvrijednostpFnFPvrijednostp emp . (3.145)

Slika 3.7: F-test o značajnosti regresijskog parametra

Primjer 3.4:

Za primjer 4.1, analize odnosa između prihoda (varijabla y u tisućama HRK) i izdataka za

promidţbene aktivnosti (varijabla x u tisućama HRK), dobivena je tabela ANOVA (tabela

3.9).

Tabela 3.9 Tabela analize varijance (ispis SAS 9.1) 6

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 1 44804136 44804136 420.50 <.0001

Error 10 1065509 106551

Corrected Total 11 45869645

Testira li se značajnost regresorske varijable u modelu, hipoteze testa su:

6 Analysis of Variance = analiza varijance; Source = izvor (varijacija); Model= odstupanja protumačena

modelom; Error = neprotumačena odstupanja; Corrected Total= suma kvadrata ukupnih odstupanja; DF=broj

stupnjeva slobode; Sum of Squares = sume kvadrata; Mean Square = sredina kvadrata; F Value = F-omjer; Pr >

F = empirijska razina signifikantnosti (p-vrijednost).

Page 18: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

18

0:

0:

11

10

H

H.

Empirijska vrijednost testovne veličine (F Value) na temelju tabele ANOVA je:

420.501065509/10

44804136/1

nSR

SPF

)2/(

1/.

Ako se test provodi uz razinu signifikantnosti = 5%, tada je u konkretnom slučaju (n = 12)

teorijska vrijednost F-distribucije za 10;1))2(;1( n stupnjeva slobode: 96.405,0)10;1(F .

Kako je empirijski F-omjer )2;1( nFF nulta hipoteza se odbacuje uz danu razinu

značajnosti.

Alternativno, ako se odluka donosi na temelju p-vrijednosti (Pr > F) iz (3.145), tada je:

Pr {F> |F=420.50|}<.0001 1H

tj. nulta hipoteza se odbacuje uz bilo koju uobičajenu razinu signifikantnosti (jer je

vrijednostp ).

3.6 Intervalne procjene parametara u modelu jednostavne linearne regresije

Kao što je pokazano u (3.75), zamijeni li se nepoznata varijanca 2 s nepristranom

procjenom na bazi uzorka 2ˆ , standardizirane varijable pridruţene procjeniteljima 0ˆ i 1

ˆ

imaju Studentovu t-distribuciju s (n-2) stupnja slobode:

)2()ˆ(

ˆ

0

000 nt

SEt i )2(

)ˆ(

ˆ

1

111 nt

SEt .

(3.171)

Intervalna procjena regresijskog parametra 1 je interval koji će uz zadanu pouzdanost

(vjerojatnost) uključivati stvarnu vrijednost tog parametra. Označi li se pouzdanost procjene s

(1 ), koja je u praktičnim primjenama najčešće 0.90, 0.95 ili 0.99, tada je interval procjene

za 1t :

Page 19: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

19

12/12/ tttP ,

(3.172)

pri čemu je 2/t koeficijent pouzdanosti (odgovarajuća vrijednost t-distribucije s (n-2) stupnja

slobode), slika 3.8.

Slika 3.8: Studentova distribucija s granicama intervala procjene za pouzdanost (1- )

Do intervalne procjene parametra 1 dolazi se tako da se umjesto 1t uvrsti odgovarajući izraz

iz (3.171):

1)ˆ(ˆ)ˆ(ˆ12/1112/1 SEtSEtP . (3.173)

Analognim zaključivanjem, dobiva se da je intervalna procjena konstantnog člana 0 za

pouzdanost procjene 1 :

1)ˆ(ˆ)ˆ(ˆ02/0002/0 SEtSEtP . (3.174)

Primjer 3.6:

U primjeru 3.1 analizira se prihod od prodaje proizvoda (varijabla y u tisućama HRK) u

ovisnosti o izdacima za promidţbene aktivnosti u trgovinama na malo (varijabla x u tisućama

HRK). Procijenjena je regresijska jednadţba:

(0.78749) )(257.02934

14819.1699930.968ˆ xy,

gdje su vrijednosti u zagradama ispod procijenjenih parametara standardne pogreške procjena

parametara).

Uz pouzdanost 95% ( 95.01 ), intervalna procjene parametra 1 dobiva se iz (3.173).

Page 20: 6_predavanje_anova&Testovi u Modelu Jednostavne Linearne Regresije

20

U konkretnom slučaju: 14819.16ˆ1

, 78749.0)ˆ( 1SE , a koeficijent pouzdanosti za

95.01 i n = 12 je 228.210025,02/ tt .

Tada je:

1)ˆ(ˆ)ˆ(ˆ12/1112/1 SEtSEtP

95.078746.0228.214819.1678746.0228.214819.16 1P

95.0903.17394.14 1P

Intervalna procjena parametra 1 uz pouzdanost 95% tumači se na slijedeći način:

Povećaju li se troškovi za reklamu (x) za tisuću kuna prihod od prodaje (y) će se uz

vjerojatnost 0.95 u prosjeku povećati između 14.394 i 17.903 tisuća kuna.

Analogno se za konstantan član 0 za koji je u konkretnom slučaju: 99930,968ˆ0 i

02934,257)ˆ( 0SE iz izraza (3.174) dobiva 95%-tni interval pouzdanosti:

95.069636.154130224.396 0P .

Dobivene granice intervala mogu se iščitati i s kompjutorskog ispisa danog u tabeli 3.11.

Tabela 3.11 Dio ispisa rezultata regresijske analize (ispis SAS 9.1)7

Parameter Estimates

Variable DF 95% Confidence Limits

Intercept 1 396.30224 1541.69636

IZDACI 1 14.39356 17.90282

7 Confidence Limits = granice intervala pouzdanosti