6_predavanje_anova&testovi u modelu jednostavne linearne regresije
DESCRIPTION
pdf predavnje dtsidtiksTRANSCRIPT
1
3.3 Analiza varijance u modelu jednostavne linearne regresije
Rezidualna odstupanja iii xy 10ˆˆˆ koriste se za mjerenje prilagođenosti regresije
opaţanjima iz uzorka. Naime, nakon što se odredi procijenjeni regresijski pravac postavlja se
pitanje je li izračunata regresija dobra. Općenito se smatra da je regresija dobro prilagođena
opaţanjima iz uzorka ako je velik dio proporcije varijance varijable y (procijenjene na osnovi
uzorka) protumačen modelom.
Na slici 3.4 prikazan je procijenjeni regresijski pravac ii xy 10ˆˆˆ , te pravci y i x čije je
sjecište na regresijskom pravcu. Istaknuta je točka ),( iii yxT .
Odstupanje empirijske vrijednosti iy od prosjeka moţe se raščlaniti na odstupanje
protumačeno regresijom, (odstupanje odgovarajuće procijenjene ili regresijske vrijednosti od
prosjeka) i neprotumačeno ili rezidualno odstupanje:
)ˆ()ˆ()( iiii yyyyyy . (3.110)
Ova jednadţba vrijedi za svako opaţanje iz uzorka. Da bi se izvela mjera disperzije,
jednadţba (3.110) se kvadrira, te se zbroje dobivene jednadţbe za sva opaţanja i=1,2,...,n.
Slika 3.4: Jednadžba analize varijance
2
Rezultirajuća jednadţba:
SR
i
n
i
i
SP
n
i
i
ST
n
i
i yyyyyy 2
1
2
1
2
1
)ˆ()ˆ()(
ST = SP + SR
(3.111)
zove se jednadžba analize varijance.
ST je oznaka za ukupnu sumu kvadrata, tj. za zbroj kvadrata odstupanja vrijednosti varijable y
od prosjeka:
n
i
i yyST1
2.
(3.112)
SP je oznaka za sumu kvadrata protumačenu modelom, tj. sumu kvadrata odstupanja
regresijskih vrijednosti od prosjeka:
3
2
1
)ˆ( yySPn
i
i
(3.113)
SR je oznaka za rezidualnu ili neprotumačenu sumu kvadrata. To je zbroj kvadrata
odstupanja opaţenih od regresijskih vrijednosti.
2
1
)ˆ( i
n
i
i yySR
(3.114)
Jednadţba (3.111) pokazuje da se zbroj kvadrata odstupanja vrijednosti varijable y od
prosjeka (ST) rastavlja na zbroj kvadrata odstupanja regresijskih vrijednosti od prosjeka, tj.
protumačenu sumu kvadrata SP i zbroj kvadrata odstupanja regresijskih od opaţenih
vrijednosti, tj. rezidualnu sumu kvadrata SR.
Ako su uvedu oznake:
ynyyySn
i
i
n
i
iyy
1
2
1
2
n
i
ii
n
i
iixy yxnyxyyxxS11
))((
xnxxxSn
i
i
n
i
ixx
1
2
1
2
(3.115)
tada je:
yySST , xySSP 1ˆ i xyyy SSSR 1
ˆ . (3.116)
Naime, s obzirom da je prema formuli (3.42) procjena regresijskog koeficijenta 1ˆ jednaka:
xx
xy
n
i
i
n
i
ii
S
S
xx
yyxx
1
2
11
)(
))((ˆ . (3.117)
protumačena se suma kvadrata SP moţe izraziti:
4
xyxx
xx
xy
xx
xxS
n
i
i
n
i
i
i
n
i
n
i
i
SSS
SS
xxyxxy
yxyySP
1
1ˆ
1
2
1
2
1
2
1
2
1
11
2
1
1
0
2
1
ˆˆˆ
)(ˆ)ˆˆ(
)ˆˆ()ˆ(
(3.118)
Jednadţba analize varijance (3.111) se u matričnoj notaciji moţe izraziti:
)ˆ()ˆ( 22 yXyyynyXynyy , (3.119)
Naime prema (3.60) hyy , a prema (3.63) je yhI )(ˆ , pa vrijedi:
ˆˆ)ˆ(ˆˆ))(ˆ(
ˆˆ)()()ˆˆ(
ˆˆˆˆˆˆ)ˆˆ(
ˆˆˆˆˆˆˆˆ)ˆˆ()ˆˆ(
221
00
2
)ˆ)(ˆ(
2
222
ynyXynyXXXXX
yhIhyyhhIyynyy
yyynyy
ynyyyyynyyynyy
I
XX
odnosno:
xyyyxyyy SSSS
SRSPST
11ˆˆ
(3.120)
Ako se zbrojevi kvadrata podijele s odgovarajućim stupnjevima slobode dolazi se do sredina
kvadrata koje su nezavisne procjene komponenti varijance. Zbrojevi kvadrata, stupnjevi
slobode, sredine kvadrata i druge informacije predočuju se u tabeli analize varijance
(ANOVA), tabela 3.4.
Tabela 3.4: Tabela analize varijance za model jednostavne regresije je oblika:
Izvor varijacije Stupnjevi
slobode
DF
Sume
kvadrata
SS
Sredine
kvadrata
MS
F-omjer PROB>F
Protumačen
modelom
1
SP
1/SP )2/(
1/
nSR
SP
Neprotumačena
odstupanja
n-2 SR )2/(nSR
5
Ukupno n-1 ST
Rezidualna suma kvadrata podijeljena s (n-2) stupnjeva slobode:
2ˆ 2
n
SR,
(3.121)
je procijenjena varijanca regresije.
Pozitivni drugi korijen iz procijenjene varijance regresije je procjena standardne devijacije
regresije:
22
)ˆ(ˆ 1
2
n
SR
n
yyn
ii
,
(3.122)
koja se interpretira kao prosječno odstupanje empirijskih od regresijskih vrijednosti.
Procijenjena standardna devijacija je apsolutna mjera disperzije, jer je izraţena u mjernim
jedinicama varijable. Odgovarajuća relativna mjera disperzije je procjena koeficijenta
varijacije definiranog izrazom:
100ˆˆy
V .
(3.123)
Omjer:
ST
SR
ST
SPR 12 .
(3.124)
je proporcija protumačenih odstupanja u ukupnoj sumi kvadrata odstupanja i zove se
koeficijent determinacije1. Pokazatelj poprima vrijednosti na intervalu [0,1], a promatrani je
model to reprezentativniji što je koeficijent determinacije bliţi jedinici.
Kako iz procjene varijance (3.121) proizlazi da je 2ˆ2nSR , to se koeficijent
determinacije moţe se izraziti i na način:
1 Koeficijent determinacije se za model jednostavne linearne regresije u literaturi često označava s r2, pa će ta
oznaka biti korištena kasnije u formulama za LR, Waldov i ML testove u modelu jednostavne linearne regresije.
6
n
i
i yy
n
ST
SR
ST
SPR
1
2
22
)(
ˆ)2(11 .
(3.125)
Nepristrana procjena varijance zavisne varijable y (zbog normalnosti od y) je:
11
)(ˆ 1
2
2
n
ST
n
yyn
ii
y .
(3.126)
Dobivena procjena ovisi samo o vrijednostima varijable y i veličini uzorka (n).
Pored 2R promatra se korigirani koeficijent determinacije definiran izrazom:
)1(2
11 22 R
n
nR .
(3.127)
Dobiveni procjenitelj je nepristran, ali mu je loša strana što u slučajevima slabe
reprezentativnosti odabranog modela moţe poprimiti i negativnu vrijednost. Ako se u (3.127)
umjesto )1( 2R uvrsti (3.124) dolazi se do izraza:
2
2
2
222
ˆ
ˆ1
ˆ)1(
ˆ)2(
2
11
2
11)1(
2
11
yyn
n
n
n
ST
SR
n
nR
n
nR .
(3.128)
S obzirom da je procjena varijance varijable y (3.126) neovisna o odabranom modelu, iz
(3.128) je vidljivo da je korigirani koeficijent determinacije funkcija procijenjene varijance
modela. Što je manja procjena varijance, to je korigirani koeficijent determinacije veći.
Vaţnost korigiranog koeficijenta determinacije dolazi do izraţaja u modelu višestruke
linearne regresije.
Pokazatelj usko povezan s koeficijentom determinacije je koeficijent jednostavne linearne
korelacije r kojim se mjeri smjer i jakost linearne povezanosti među varijablama x i y.
Koeficijent jednostavne linearne korelacije, ako se računa polazeći od koeficijenta
determinacije dan je izrazom2:
2 Ovim se načinom izračunavanja predznak koeficijenta r ne dobiva automatski, nego se određuje prema
predznaku regresijskog koeficijenta.
7
1r1- )()( 1
2 signrsignrr (3.129)
Napomena 3.4:
Koeficijent linearne korelacije r, definiran u (3.3.16) je procjena na bazi uzorka koeficijenta
linearne korelacije , definiranog u (2.4.22).
Prema definicionoj formuli (2.4.22) koeficijent linearne korelacije je standardizirana mjera
kovarijance, te se za vrijednosti iz uzorka izračunava kao omjer procjene kovarijance i
umnoška procjena standardnih devijacija varijabli x i y:
yyxx
xy
n
i
n
i
ii
n
i
ii
SS
S
yyxx
yyxx
ySVarxSVar
yxSCovr
1 1
22
1
)()(
))((
)()(
),( .
(3.130)
S obzirom da je prema (3.129) regresijski koeficijent definiran s:
xx
xy
S
S
xSVar
yxSCov
)(
),(ˆ1
.
(3.131)
Iz (3.130) slijedi :
yy
xx
S
Sr 1
ˆ .
(3.132)
Relacija (3.132) pokazuje da je predznak koeficijenta jednostavne linearne korelacije jednak
predznaku regresijskog koeficijenta, odnosno koeficijentu smjera regresijskog pravca. Što je
r bliţe 1, korelacija je jača, i obratno, što je r bliţe nuli korelacija je slabija. Ako su
varijable x i y nezavisne, tada su i nekorelirane, no obrat ne vrijedi. Varijable koje su
nekorelirane (r = 0) nisu nuţno nezavisne, slika 3.5.
8
Slika 3.5: Dijagrami rasipanja i pripadne vrijednosti koeficijenta linearne korelacija r
1r
1r
1r
1r
0r
0r
Primjer 3.2:
Analizom prihoda od prodaje proizvoda (varijabla y u tisućama HRK) u ovisnosti o izdacima
za promidţbene aktivnosti u trgovinama na malo (varijabla x u tisućama HRK), za
maloprodajno poslovanje odabranog poduzeća Slavonsko-Baranjske ţupanije (primjer 3.1),
dobivena je regresijska jednadţba:
9
xy 14819.1699930.968ˆ .
Rezultati analize varijance prezentirani su u tabeli 3.5.
Tabela 3.5 Tabela analize varijance (ispis SAS 9.1) 3
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 44804136 44804136 420.50 <.0001
Error 10 1065509 106551
Corrected Total 11 45869645
Root MSE 326.42132 R-Square 0.9768
Dependent Mean 5872.66667 Adj R-Sq 0.9744
Coeff Var 5.55832
Rezultati kompjutorskog ispisa (tabela 3.5) za navedeni primjer interpretiraju se na slijedeći
način:
Protumačena suma kvadrata SP = 44804136 je zbroj kvadrata odstupanja procijenjenih ili
regresijskih vrijednosti od prosjeka. Neprotumačena suma kvadrata SR = 1065509 je zbroj
kvadrata rezidualnih odstupanja (zbroj kvadrata odstupanja opaţenih od regresijskih
vrijednosti), a ukupna suma kvadrata ST= 45869645 je zbroj kvadrata odstupanja
empirijskih vrijednosti zavisne varijable od prosjeka.
Nadalje, sredina kvadrata neprotumačenih odstupanja 2n
SR jednaka je
10
1065509/10. To
je procijenjena varijanca regresije 106551ˆ 2 . Drugi korijen iz procijenjene varijance je
procjena standardne devijacije regresije .42132326106551ˆ .
Procjena standardne devijacije regresije je apsolutna mjera disperzije i tumači se kao
prosječno odstupanje empirijskih od regresijskih vrijednosti zavisne varijable izraţeno u
mjernim jedinicama varijable. Odgovarajuća relativna mjera disperzije je koeficijent
varijacije 558325ˆ .V . U analiziranom modelu prosječno odstupanje empirijskih od
3 Analysis of Variance = analiza varijance; Source = izvor (varijacija); Model= odstupanja protumačena
modelom; Error = neprotumačena odstupanja; Corrected Total= suma kvadrata ukupnih odstupanja; DF=broj
stupnjeva slobode; Sum of Squares = sume kvadrata; Mean Square = sredina kvadrata; F Value = F-omjer; Pr >
F = empirijska razina signifikantnosti (p-vrijednost); Root MSE= procijenjena standardna devijacija regresije;
Dependent Mean= aritmetička sredina zavisne varijable; Coeff Var = koeficijent varijacije regresije; R-Square=
koeficijent determinacije; Adj R-Sq =korigirani koeficijent determinacije;
10
regresijskih vrijednosti prihoda iznosi 326.42 tisuća kuna, odnosno izraženo relativno
5.56%.
Koeficijent determinacije 0.97682R , tumači se kao proporcija odstupanja protumačenih
regresijskim modelom. Korigirani koeficijent determinacije je 0.97442R .
Koeficijent korelacije r je u konkretnom slučaju (3.129):
9883319.09768.0r
i pokazuje na jaku linearnu povezanost pozitivnog smjera varijabli u modelu.
Analogno, koristeći međurezultate iz primjera 3.1. koeficijent se mogao izračunati na temelju
izraza (3.130):
9883319.0
)()(
))((
1
22
1
22
1
1 1
22
1
n
i
i
n
i
i
n
i
ii
yyxx
xy
n
i
n
i
ii
n
i
ii
ynyxnx
yxnyx
SS
S
yyxx
yyxx
r .
3.4 Testiranje hipoteza u modelu jednostavne linearne regresije
Test hipoteze o pretpostavljenoj vrijednosti regresijskog parametra 1 u modelu jednostavne
linearne regresije, moguće je provesti na temelju t- testa ili F- testa.
t-test
Testiranje hipoteza o parametru 1 moguće je provesti pomoću dvosmjernog testa ili pomoću
jednosmjernih testova. S obzirom da je model odabran s namjerom da bude prihvaćen, to se
nulta hipoteza oH formulira tako da je se nastoji odbaciti, dok je hipoteza 1H u skladu s
pretpostavkom istraţivača. Cilj testiranja je da se utvrdi je li odabrana regresorska varijabla
značajna za objašnjavanje varijacija zavisne varijable, te treba biti uključena u model (kao što
je to pretpostavio istraţivač) ili je suvišna u modelu. Kod dvosmjernog se testa nultom ili
osnovnom hipotezom pretpostavlja da ne postoji veza između regresand varijable i
regresorske varijable x, što je ekvivalentno tvrdnji da je varijabla x suvišna u modelu
xy 10 , odnosno tvrdnji da je vrijednost parametra 1 jednaka nuli. Stoga se za
dvosmjerni test hipoteze formuliraju:
11
xyH
yH
101
00
:
:, odnosno:
0:
0:
11
10
H
H (3.133)
Međutim, u regresijskoj se analizi t-test najčešće formulira kao jednosmjerni test, jer se na
osnovi kvalitativne statističke analize moţe ustanoviti smjer povezanosti između zavisne i
regresorske varijable.
Ispituje li se primjerice tvrdnja da je veza između x i y pozitivnog smjera, provest će se test na
gornju granicu, a ako se pretpostavlja veza negativnog smjera provest će se test na donju
granicu, tabela 3.6.
Tabela 3.6: Hipoteze jednosmjernih testova o značajnosti regresijskog parametra
Jednosmjerni test na gornju granicu Jednosmjerni test na donju granicu
0:
0:
11
10
H
H
0:
0:
11
10
H
H
Postupak testiranja počinje promatranjem standardizirane sampling distribucije procjenitelja
1ˆ uz uvjet da je nulta hipoteza istinita. Za razliku od dvosmjernog testa kod kojeg se
hipotezom oH obuhvaća samo vrijednost 01 , kod jednosmjernih testova je nul-hipotezom
obuhvaćen skup sampling distribucija s očekivanom vrijednosti 0)ˆ( 1E (kod testa na
gornju granicu), odnosno s 0)ˆ( 1E (kod testa na donju granicu). Kod jednosmjernih se
testova promatra samo granična sampling distribucija obuhvaćena nultom hipotezom
(distribucija za koju je 0)ˆ( 1E ). Stoga se često hipoteze formuliraju na način dan u tabeli
3.7.
Tabela 3.7: Hipoteze jednosmjernih testova o značajnosti regresijskog parametra
Jednosmjerni test na gornju granicu Jednosmjerni test na donju granicu
0:
0:
11
10
H
H
0:
0:
11
10
H
H
12
Test veličina za navedene testove je4:
)ˆ(
ˆ
)ˆ(
0ˆ
1
1
1
11
SESEt . (3.134)
Uz razinu signifikantnosti (tj. uz zadanu vjerojatnost pogreške da se odbaci istinita nulta
hipoteza) hipoteza oH se odbacuje ako je )2(2/1 ntt kod dvosmjernog testa, ako je
)2(1 ntt kod testa na gornju granicu, odnosno ako je )2(1 ntt kod testa na donju
granicu, slika 3.6, pri čemu su )2(2/ nt i )2(nt odgovarajući percentili t-distribucije s
(n-2) stupnja slobode (n je broj opservacija).
Slika 3.6 Jednosmjerni t-testovi hipoteze o značajnosti regresijskog parametra
Jednosmjerni test na donju granicu Jednosmjerni test na gornju granicu
Ekvivalentno, hipoteza 0H se odbacuje ako je vjerojatnost da slučajna varijabla poprimi
vrijednost veću od testovne veličine manja od teorijske razine signifikantnosti :
1)2( HvrijednostptntPvrijednostp emp . (3.135)
p-vrijednost iz (3.135) naziva se empirijska razina značajnosti i označava vjerojatnost da
testovna veličina uz pretpostavku da je nulta hipoteza istinita, po apsolutnoj vrijednosti bude
4 Ako su greške relacije normalno distribuirane slučajne varijable, tj. ako je ),0(~ 2IN , tada je LS
procjenitelj ˆ nezavisan o vektoru reziduala ˆ , te i o svakoj funkciji od ˆ , dakle i o ˆ . Stoga je
)ˆ(
ˆ
1
11
SEomjer normalno distribuirane varijable )ˆ( 11 i korijena iz Hi-kvadrat varijable podijeljene s
brojem pripadajućih stupnjeva slobode (df=n-2), te ima t-distribuciju s (n-2) stupnja slobode.
13
jednaka ili veća od vrijednosti testovne veličine izračunate na osnovi podataka iz uzorka. Ako
je ta vjerojatnost mala, nulta se hipoteza odbacuje kao laţna. U ispisima Eviews-a i SAS-a su
p-vrijenosti za dvosmjerni test, koje se računaju po formuli
)2(2 emptntPvrijednostp . Pri donošenju zaključaka kod jednosmjernih testova
treba navedenu vrijednost podijeliti s 2.
Napomena 3.5:
Prethodna razmatranja mogu se poopćiti tako da se testira je li vrijednost parametra 1
jednaka nekoj pretpostavljenoj vrijednosti 1
~, tj., hipoteze testa su:
111
110
~:
~:
H
H. (3.136)
Odnosno u slučaju jednosmjernih testova:
Jednosmjerni test na gornju granicu Jednosmjerni test na donju granicu
111
110
~:
~:
H
H
111
110
~:
~:
H
H
(3.137)
Test veličina za navedene testove tada je:
)ˆ(
~ˆ
1
111
SEt , (3.138)
a postupak testiranja provodi se na običajan način.
Primjer 3.3:
U primjeru 3.1, analize odnosa između prihoda i izdataka za promidţbene aktivnosti, varijable
u modelu su:
zavisna varijabla y = prodaja proizvoda (u tisućama HRK) i
nezavisna varijabla x = izdaci za promidţbene aktivnosti u trgovinama na malo (u
tisućama HRK)
Rezultati procjene parametara varijabli iz primjera 3.1, dani su u tabeli 3.8.
14
Tabela 3.8: Rezultati regresijske analize (ispis SAS 9.1) 5
Dependent Variable: PRIHOD
Number of Observations Read 12
Number of Observations Used 12
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate
Intercept 1 968.99930 257.02934 3.77 0.0037 0
IZDACI 1 16.14819 0.78749 20.51 <.0001 0.98832
Iz ispisa proizlazi da je procijenjena regresijska jednadţba:
xy78749.002934.25714819.1699930.968ˆ ,
a vrijednosti u zagradama ispod procijenjenih parametara (Parameter Estimate) su standardne
pogreške procjena (Standard Error).
Ţeli se ispitati je li varijabla x suvišna u modelu.
S obzirom da je veza između x i y pozitivnog smjera, provodi se jednosmjerni test na gornju
granicu:
0:
0:
11
10
H
H
Test veličina (t Value) u konkretnom slučaju je, (3.4.2):
51.2078749.0
14819.16
)ˆ(
ˆ
1
11
SEt
Ako se na primjer test provodi uz razinu signifikantnosti = 5%, tada je za n = 12,
812.1)10()2( 05,0tnt . Budući da je )2(1 ntt proizlazi zaključak, da se uz razinu
signifikantnosti 5%, nulta hipoteza odbacuje, tj. ne prihvaća se pretpostavka da su izdaci za
promidţbene aktivnosti suvišna varijabla u modelu.
5 Dependent Variable=zavisna ili regresand varijabla; Number of Observations Read= broj učitanih opaţanja;
Number of Observations Used= broj korištenih opaţanja; DF=broj stupnjeva slobode; Parameter Estimates =
procjene parametara; Standard Error = standardna pogreška ; t Value= t-vrijednost; Pr > |t|= empirijska razina
signifikantnosti (p-vrijednost); Standardized Estimate=standardizirana procjena; Intercept=konstantni član.
15
Odluka o ishodu testa mogla se donijeti i na temelju p-vrijednosti (Pr > |t|) iz (3.135).
S obzirom da je:
Pr{t > |t=20.51|} <.0001 1H ,
tj. nulta hipoteza se odbacuje uz bilo koju uobičajenu razinu signifikantnosti (jer je
vrijednostp ).
F-test
Polazeći od elemenata tabele ANOVA moguće je provesti test o značajnosti regresorske
varijable x u modelu jednostavne linearne regresije ekvivalentan t-testu.
Uz polazne pretpostavke o modelu vrijedi:
)2(2
2n
SR. (3.139)
Naime,
ˆˆˆ)ˆ(1
22
1
n
i
ii
n
i
i yySR ,
(3.140)
gdje je ˆ vektor rezidualnih odstupanja: nˆˆˆ'ˆ 21 .
S obzirom da je vektorska slučajna varijabla normalno distribuirana ))(ˆ hI2N(0,~ , to i
pojedinačne komponente od ˆ imaju jednodimenzionalne normalne distribucije:
))1(N(0,~ˆ 2
iii h , za svaki ni ,,2,1 , vidjeti (3.65) i (3.66)).
2/SR kao zbroj kvadrata normalno distribuiranih varijabli s očekivanjem jednakim nuli i
jediničnom varijancom ima hi-kvadrat distribuciju s (n-2) stupnja slobode, (3.67). Očekivana
vrijednost od SR dana je izrazom (3.68), naime:
22 2)ˆ2()( nnESRE . (3.141)
Pretpostavi li se da je varijabla x suvišna u modelu, tj. da je 01 , tada iz (3.118) vrijedi:
16
2
0
2
1
22
11
2
1
2
11
2
111
2
1
ˆ)ˆ(
)ˆ()ˆ()(
xxxx
xx
xxxxxxxx
xxxx
SSS
SSVarSSE
SESESPE
(3.142)
Slučajna varijabla 2/SP uz pretpostavku da je 01 , tj. da ne postoji povezanost varijabli
x i y, ima hi kvadrat distribuciju s jednim stupnjem slobode:
)1(2
2
SP. (3.143)
2 - distribucije slučajnih varijabli (3.139) i (3.143) su nezavisne, pa je njihov omjer
))2/(/()1/( nSRSP slučajna varijabla koja ima F- distribuciju s jednim stupnjem slobode u
brojniku i (n-2) stupnja slobode u nazivniku, odnosno:
))2(,1(
2
1 nF~
n
SR
SP
F .
(3.144)
Očekivana vrijednost od (3.144) je uz pretpostavku da je 01 jednaka 1, a u protivnom je
veća od jedan.
Test veličina (3.144) koristi se za testiranje pretpostavke o parametru uz regresorsku
varijablu. Ako je pretpostavka da je 01 istinita empirijski F-omjer pripada ))2(;1( nF
distribuciji.
Postupak testiranja provodi se na uobičajen način. Uz zadanu razinu signifikantnosti
odbacuje se 0H ako je empirijski F-omjer )2;1( nFF , slika 3.7, gdje je )2;1( nF vrijednost F-
distribucije za ))2(;1( n stupnjeva slobode.
Ekvivalentno, hipoteza 0H se odbacuje ako je vjerojatnost da slučajna varijabla poprimi
vrijednost veću od testovne veličine (empirijskog F-omjera) manja od teorijske razine
signifikantnosti :
17
1 )2;1( HvrijednostpFnFPvrijednostp emp . (3.145)
Slika 3.7: F-test o značajnosti regresijskog parametra
Primjer 3.4:
Za primjer 4.1, analize odnosa između prihoda (varijabla y u tisućama HRK) i izdataka za
promidţbene aktivnosti (varijabla x u tisućama HRK), dobivena je tabela ANOVA (tabela
3.9).
Tabela 3.9 Tabela analize varijance (ispis SAS 9.1) 6
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 44804136 44804136 420.50 <.0001
Error 10 1065509 106551
Corrected Total 11 45869645
Testira li se značajnost regresorske varijable u modelu, hipoteze testa su:
6 Analysis of Variance = analiza varijance; Source = izvor (varijacija); Model= odstupanja protumačena
modelom; Error = neprotumačena odstupanja; Corrected Total= suma kvadrata ukupnih odstupanja; DF=broj
stupnjeva slobode; Sum of Squares = sume kvadrata; Mean Square = sredina kvadrata; F Value = F-omjer; Pr >
F = empirijska razina signifikantnosti (p-vrijednost).
18
0:
0:
11
10
H
H.
Empirijska vrijednost testovne veličine (F Value) na temelju tabele ANOVA je:
420.501065509/10
44804136/1
nSR
SPF
)2/(
1/.
Ako se test provodi uz razinu signifikantnosti = 5%, tada je u konkretnom slučaju (n = 12)
teorijska vrijednost F-distribucije za 10;1))2(;1( n stupnjeva slobode: 96.405,0)10;1(F .
Kako je empirijski F-omjer )2;1( nFF nulta hipoteza se odbacuje uz danu razinu
značajnosti.
Alternativno, ako se odluka donosi na temelju p-vrijednosti (Pr > F) iz (3.145), tada je:
Pr {F> |F=420.50|}<.0001 1H
tj. nulta hipoteza se odbacuje uz bilo koju uobičajenu razinu signifikantnosti (jer je
vrijednostp ).
3.6 Intervalne procjene parametara u modelu jednostavne linearne regresije
Kao što je pokazano u (3.75), zamijeni li se nepoznata varijanca 2 s nepristranom
procjenom na bazi uzorka 2ˆ , standardizirane varijable pridruţene procjeniteljima 0ˆ i 1
ˆ
imaju Studentovu t-distribuciju s (n-2) stupnja slobode:
)2()ˆ(
ˆ
0
000 nt
SEt i )2(
)ˆ(
ˆ
1
111 nt
SEt .
(3.171)
Intervalna procjena regresijskog parametra 1 je interval koji će uz zadanu pouzdanost
(vjerojatnost) uključivati stvarnu vrijednost tog parametra. Označi li se pouzdanost procjene s
(1 ), koja je u praktičnim primjenama najčešće 0.90, 0.95 ili 0.99, tada je interval procjene
za 1t :
19
12/12/ tttP ,
(3.172)
pri čemu je 2/t koeficijent pouzdanosti (odgovarajuća vrijednost t-distribucije s (n-2) stupnja
slobode), slika 3.8.
Slika 3.8: Studentova distribucija s granicama intervala procjene za pouzdanost (1- )
Do intervalne procjene parametra 1 dolazi se tako da se umjesto 1t uvrsti odgovarajući izraz
iz (3.171):
1)ˆ(ˆ)ˆ(ˆ12/1112/1 SEtSEtP . (3.173)
Analognim zaključivanjem, dobiva se da je intervalna procjena konstantnog člana 0 za
pouzdanost procjene 1 :
1)ˆ(ˆ)ˆ(ˆ02/0002/0 SEtSEtP . (3.174)
Primjer 3.6:
U primjeru 3.1 analizira se prihod od prodaje proizvoda (varijabla y u tisućama HRK) u
ovisnosti o izdacima za promidţbene aktivnosti u trgovinama na malo (varijabla x u tisućama
HRK). Procijenjena je regresijska jednadţba:
(0.78749) )(257.02934
14819.1699930.968ˆ xy,
gdje su vrijednosti u zagradama ispod procijenjenih parametara standardne pogreške procjena
parametara).
Uz pouzdanost 95% ( 95.01 ), intervalna procjene parametra 1 dobiva se iz (3.173).
20
U konkretnom slučaju: 14819.16ˆ1
, 78749.0)ˆ( 1SE , a koeficijent pouzdanosti za
95.01 i n = 12 je 228.210025,02/ tt .
Tada je:
1)ˆ(ˆ)ˆ(ˆ12/1112/1 SEtSEtP
95.078746.0228.214819.1678746.0228.214819.16 1P
95.0903.17394.14 1P
Intervalna procjena parametra 1 uz pouzdanost 95% tumači se na slijedeći način:
Povećaju li se troškovi za reklamu (x) za tisuću kuna prihod od prodaje (y) će se uz
vjerojatnost 0.95 u prosjeku povećati između 14.394 i 17.903 tisuća kuna.
Analogno se za konstantan član 0 za koji je u konkretnom slučaju: 99930,968ˆ0 i
02934,257)ˆ( 0SE iz izraza (3.174) dobiva 95%-tni interval pouzdanosti:
95.069636.154130224.396 0P .
Dobivene granice intervala mogu se iščitati i s kompjutorskog ispisa danog u tabeli 3.11.
Tabela 3.11 Dio ispisa rezultata regresijske analize (ispis SAS 9.1)7
Parameter Estimates
Variable DF 95% Confidence Limits
Intercept 1 396.30224 1541.69636
IZDACI 1 14.39356 17.90282
7 Confidence Limits = granice intervala pouzdanosti