korelaciona i regresiona analiza korelaciona analiza · 5 test značajnosti koeficijenta korelacije...
TRANSCRIPT
29/11/2014
1
KORELACIONA I REGRESIONA ANALIZA
• Novembar 2014
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
2
Korelaciona analiza
• Pirsonov koeficijent korelacije • Test značajnosti koeficijenta korelacije • Koeficijent parcijalne korelacije
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
3
Pirsonov koeficijent korelacije (1)
• Meri stepen linearne povezanosti između dve metričke varijable (date na intervalnoj ili na skali odnosa)
• Populacijska korelacija ρ, uzoračka korelacija r • Ima vrednosti u intervalu (-1,+1)
– Vrednost 1 ukazuje na postojanje savršene pozitivne linearne povezanosti između dve varijable
– Vrednost –1 ukazuje na savršenu negativnu linearnu povezanost
– Vrednost nula pokazuje da ne postoji nikakva linearna povezanost
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
4
• Meru povezanosti dve varijable daje kovarijansa:
• Za uzoračku korelaciju se prvo neutrališe uticaj veličine uzorka:
• Zatim se neutrališe uticaj jedinice mere tako što se deli sa uzoračkom standardnom devijacijom za X i Y:
= PIRSONOV KOEFICIJENT KORELACIJE
€
Cov(X,Y ) =1
n −1(xi∑ − x )⋅ (yi − y )
€
1n −1
⋅ (xi∑ − x )⋅ (yi∑ − y )
€
rxy =1
n −1⋅
(xi − x )sX
∑ ⋅(yi − y )
sY
=CovXY
sX ⋅ sY
Pirsonov koeficijent korelacije (2)
29/11/2014
2
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
5
Test značajnosti koeficijenta korelacije
• Testira se: H0: ρ = 0
Ha: ρ ≠ 0 – Uvek se koristi t-test – t-statistika se računa po obrascu:
– Čita se tablična t-vrednost za (n-2) stepena slobode
– Nulta hipoteza se odbacuje ako je t-statistika veća od tablične t-vrednosti za α/2
€
t = r⋅ n − 21− r2
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
6
Koeficijent parcijalne korelacije
• Pirsonov koeficijent se odnosi samo na dve varijable
• Koeficijent parcijalne korelacije pruža meru povezanosti dve varijable pošto se izoluje uticaj ostalih varijabli:
€
rXY ,Z =rXY − rXZ ⋅ rYZ
1− rXZ2( ) ⋅ 1− rYZ
2( )
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
7
Ograničenja korelacione analize • Meri samo linearnu povezanost • Postojanje korelacione veze, pozitivne i
negativne, ne znači da postoji uzročno-posledična veza
• Koeficijent korelacije može biti samo indikacija za postojanje uzročno-posledične povezanosti
• Govori o odnosu dve varijable, pa se ne stiče ukupna slika ako postoji veći broj varijabli
• Daje samo jačinu povezanosti između dve varijable, ali ne i prirodu te veze.
Poeni sa kolokvijuma
Koji put polaže
Poeni sa kolokvijuma
Pearson Correlation 1 .028 Sig. (2-tailed) .680 N 224 224
Koji put polaže
Pearson Correlation .028 1 Sig. (2-tailed) .680 N 224 224
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
8
Correlations
• P-vrednost je 0,68, što je više od nivoa značajnosti α=0,05, pa nećemo odbaciti nultu hipotezu, odnosno
• Linearna povezanost između varijable poeni sa kolokvijuma i varijable koji put polaže nije statistički značajna
• Ne možemo zaključiti da između posmatranih varijabli ne postoji nikakva veza, već samo da ne postoji linearna veza.
29/11/2014
3
Broj dolazaka na predavanja Poeni sa vežbi
Broj dolazaka na predavanja
Pearson Correlation 1 .241(**) Sig. (2-tailed) .000 N 224 224
Poeni sa vežbi
Pearson Correlation .241(**) 1 Sig. (2-tailed) .000 N 224 224
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
9
Correlations
** Correlation is significant at the 0.01 level (2-tailed).
• P-vrednost je 0, što je manje od nivoa značajnosti α=0,05, pa ćemo odbaciti nultu hipotezu, odnosno
• Linearna povezanost između varijabli broj dolazaka na predavanja i poeni sa vežbi je statistički značajna
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
10
Regresiona analiza
• Model proste linearne regresije • Model višestruke linearne regresije
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
11
Šta je regresiona analiza?
• Statistička tehnika koja se koristi da bi se dve ili više varijabli dovelo u vezu: – zavisna ili rezultujuća varijabla (Y), u odnosu na – jednu ili više nezavisnih ili varijabli prediktora (X).
• Cilj je formulisanje regresionog modela, jednačine predviđanja, koji povezuje zavisnu varijablu sa jednom ili više nezavisnih varijabli
• Model se koristi za opis, predviđanje i kontrolu posmatrane varijable na osnovu nezavisnih varijabli.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
12
Model proste linearne regresije
• Model se zasniva na pretpostavci da postoji linearna povezanost tipa:
yi = β0 + β1xi + εi, Y → zavisna ili rezultujuća varijabla X → nezavisna varijabla (prediktor) β0 → parametar modela koji predstavlja srednju vrednost Y kada je vrednost X jednaka nuli (Y-odsečak) β1 → parametar modela koji predstavlja nagib, i meri promenu vrednosti Y kada se X promeni za 1 εi → greška koja opisuje uticaj na yi svih faktora koji nisu uključeni u model.
29/11/2014
4
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
13
Pretpostavke regresionog modela 1. Greška je normalno raspoređena (tj. za svaku vrednost X,
raspodela Y je normalna) 2. Srednja vrednost greške jednaka je nuli [E(εi) = 0] 3. Varijansa greške je konstantna i nezavisna je od X 4. Greške su međusobno nezavisne (opservacije se dešavaju
nezavisno) 5. Vrednosti nezavisne varijable X su date (na primer, od
strane onoga koji sprovodi eksperiment). • Neispunjenost ovih pretpostavki može da izazove
ozbiljne probleme u primeni i interpretaciji modela.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
14
Ocena parametara modela • Na slučajnom uzorku se ocenjuje vrednost yi:
• Primenom metoda najmanjih kvadrata ocenjuju se parametri ove jednačine na sledeći način
• Vrednost b0 je ocena parametra β0, a vrednost b1 je ocena β1. To su regresioni koeficijenti.
€
ˆ y i = b0 + b1xi,
€
b1 =n xiyi − xi∑( ) yi∑( )∑
n xi2 − xi∑( )
2
∑
€
b0 = y − b1x
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
15
Tačkaste ocene parametara
• Razlika između stvarne i ocenjene vrednosti yi, je rezidual koji je ocena greške modela
• U metodu najmanjih kvadrata tačkaste ocene se dobijaju minimiziranjem sume kvadarata grešaka (t.j. odstupanja ocenjene od realizovane vrednosti):
€
ei = yi − ˆ y i =
= yi − (b0 + b1xi)
€
minSSE = ei2∑ = (yi − ˆ y i)∑
2= yi − (b0 + b1xi)[ ]2∑
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
16
Standardna greška ocene regresionog modela
€
sY / X2 =
SSEn − 2
=ei
2∑n − 2
=yi − ˆ y i( )2∑n − 2
iy
• Ocena varijacija osnovnog skupa u odnosu na regresionu pravu, srednja kvadratna greška, MSE:
• Kvadratni koren ove mere, sY/X, ili samo s, predstavlja standardnu grešku ocene – Za bilo koju datu vrednost nezavisne varijable xi, zavisna
varijabla će težiti da bude raspoređena oko predviđene (ocenjene) vrednosti, , sa standardnom devijacijom koja je jednaka standardnoj grešci ocene.
29/11/2014
5
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
17
Standardna greška ocene
• Što je manja standardna greška ocene, to je model bolje prilagođen podacima
• Standardna greška ocene je ista za bilo koju vrednost nezavisne varijable – kako se vrednost nezavisne varijable xi menja,
predviđena vrednost će se takođe menjati, ali će standardna devijacija koja pokazuje koliko će se yi udaljavati od , biti konstantna. iy
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
18
Interpretacija ocena parametara
β1 (čija je ocena b1) – Pokazuje da, ako se varijabla X promeni za jednu jedinicu,
varijabla Y će se promeniti za β1 jedinica – Standardna greška ocene b1 je data sa:
β0 (sa ocenom b0) – Pokazuje prosečnu vrednost Y kada je X nula – Standardna greška ocene b2 je data sa:
€
sb1=
s(xi − x )2∑
=1
n − 2⋅
yi − ˆ y i( )2∑xi − x ( )2∑
€
sb0= s⋅
1n
+x 2
xi − x ( )2∑
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
19
Testiranje značajnosti nezavisnih varijabli
• Testom statističke hipoteze se proverava da li postoji linearna povezanost između varijabli, odnosno da li je vrednost koeficijenta β1 ≠ 0
H0: β1 = 0
Ha: β1 ≠ 0 – Primenjuje se t-test
t-statistika se računa kao:
i poredi sa tabličnom t-vrednošću za (n-2) stepena slobode (i odgovarajući nivo značajnosti, α)
€
t =b1 − β1sb1
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
20
Koeficijent determinacije (1)
• Osnovni kvalitet modela se meri njegovom sposobnošću da daje dobra predviđanja
• Ako bi se Y ocenjivalo svojom srednjom vrednošću, greška predviđanja bi iznosila • Ako se za predviđanje koristi ocena regresionim
modelom, onda bi se greška predviđanja umanjila za:
• Odnosno toliko bi model, potencijalno, pružao preciznija predviđanja u odnosu na predviđanje ...
nyy i∑= )( yyi −
€
(yi − y ) − (yi − ˆ y i) = ( ˆ y i − y )
29/11/2014
6
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
21
Koeficijent determinacije (2) • Može se pokazati da je: • Odnosno:
• Ukupan varijabilitet (SST) = zbir kvadrata greške predviđanja koja bi se dobila kada ne bismo koristili X za predviđanje Y
• Neobjašnjen varijabilitet (SSE) = zbir kvadrata greške predviđanja koja se dobija kada koristimo X za predviđanje Y.
• Objašnjen varijabilitet (SSM) = smanjenje zbira kvadrata greške predviđanja koja je postignuta korišćenjem modela.
• Objašnjeni varijabilitet meri deo ukupnog varijabiliteta koji je objašnjen prostim linearnim regresionim modelom
∑∑∑ −=−−− 222 )ˆ()ˆ()( yyyyyy iiii
∑∑∑ −+−=− 222 )ˆ()ˆ()( iiii yyyyyy
Ukupan varijabilitet
Objašnjen varijabilitet
Neobjašnjen varijabilitet
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
22
Koeficijent determinacije (3) • Mera mogućnosti regresionog modela da predvidi
(ili oceni) naziva se koeficijent determinacije (r2):
r2 = (SST - SSE )/ SST = SSM / SST • On predstavlja odnos objašnjenog varijabiliteta i
ukupnog varijabiliteta, odnosno: Koeficijent determinacije
pokazuje koji procenat ukupnog varijabiliteta je objašnjen primenom regresionog modela
Višestruka regresiona analiza
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
23 Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
24
Model višestruke linearne regresije
• Kada u regresionom modelu ima više od jedne nezavisne varijable, time se – Povećava prediktivna snaga modela – Smanjuje neobjašnjen varijabilitet – Uključuje uticaj drugih varijabli – Razrađuju i pojašnjavaju povezanosti
• Opšti oblik modela višestruke linearne regresije: Y = β0 + β1X1 + β2X2 + .........+ βkXk + ε
– gde β1, β2, . . . , βk predstavljaju regresione koeficijente pridružene nezavisnim varijablama X1, X2, . . . , Xk, a ε predstavlja grešku ili rezidual.
29/11/2014
7
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
25
• Pretpostavke su iste kao kod prostog linearnog modela:
1. Greška je normalno raspoređena (tj. za svaku vrednost X, raspodela Y je normalna);
2. Srednja vrednost greške jednaka je nuli; 3. Varijansa greške je konstantna i nezavisna je od Xij; 4. Greške su međusobno nezavisne (opservacije se
dešavaju nezavisno); 5. Vrednosti nezavisnih varijabli Xij su poznate za
svako i=1, 2, . . . , n i za svako j=1, 2, . . . , k.
Pretpostavke modela višestruke linearne regresije
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
26
• Isto kao kod proste linearne regresije, traže se vrednosti za konstante (βi , i=0, . . . , k) takve da je zbir kvadrata grešaka predviđanja (∑ε2) minimalna.
• Važno je naglasiti da se normalne jednačine ne mogu rešiti ako je: (1) veličina uzorka, n, manja ili jednaka broju nezavisnih
varijabli, k; ili (2) ako je jedna nezavisna varijabla savršeno korelirana
sa drugom nezavisnom varijablom.
Ocena modela višestruke linearne regresije
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
27
• Jednačina predviđanja u višestrukoj regresionoj analizi glasi:
• Odnosno za dve varijable:
– Koeficijent parcijalne regresije, b1, će biti različit od koeficijenta regresije, b1, koji bi se dobio prostom regresijom Y na X1
– Ovo obično nastaje stoga što su X1 i X2 najčešće korelirani, a kod proste regresije varijabilitet Y koji je zajednički za X1 i X2 bi bio pripisan samo varijabli X1.
Značenje ocena parametara u višestrukoj regresiji
€
ˆ Y = b0 + b1X1 + b2X2 +⋅ ⋅ ⋅ +bk Xk
greškaXbXbbY +++= 22110
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
28
• Ili koeficijent višestruke determinacije
– Pokazuje koliki udeo varijacija zavisne promenljive je objašnjenih regresionim modelom
– Neminovno raste sa porastom broja nezavisnih varijabli u modelu, pa se koristi prilagođeni R2:
Koeficijent determinacije kod višestruke regresije, R2
2
22
)(
)ˆ(
∑∑
−
−==
ii
ii
yy
yySSTSSMR
Objašnjen varijabilitet
Ukupan varijabilitet
1)1(
11)1(1
222
−−−−
=−−
−⋅−−=
knkRn
knnRAdjR
29/11/2014
8
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
29
• Nekoliko testova značajnosti može da se primeni na rezultate višestruke regresione analize, konkretno:
(1) Testiranje značajnosti R2, (2) Testiranje regresionih koeficijenata, i (3) Testiranje povećanja proporcije objašnjene
varijanse koja se odnosi na određenu varijablu ili skup varijabli.
Testiranje značajnosti kod višestrukih regresija
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
30
• Predstavlja test značajnosti regresione jednačine, odnosno testiranje da li je populacijski koeficijent višestruke determinacije značajan:
H0: R2pop = 0
Ha: R2pop ≠ 0
odnosno: H0: β1 = β2 = β3 = . . . = βk = 0 Ha: nisu svi β jednaki nuli
– Za testiranje se koristi F-statistika: sa k i (n – k – 1) stepeni slobode.
Testiranje značajnosti za R2
€
F =R2 k
1− R2( )⋅ n − k −1( )
Sum of Squares df
Mean Square F Sig.
Model 1 Regression 12647.7 3 4215.9 48.652
.000a
Residual 19064.0 220 86.6 Total 31711.8 223
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
31
ANOVAb
a Predictors: (Constant), poeni sa kolokvijuma, broj dolazaka na predavanja, koji put polaže; b Dependent Variable: Ukupan broj poena ostvaren na ispitu.
• Zaključujemo da imamo dovoljno dokaza da odbacimo nultu hipotezu
• Nezavisne varijable (zajedno) pokazuju sistematsku povezanost sa zavisnom varijablom.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
32
Testiranje regresionih koeficijenata
• Ako se prethodnim testom ustanovi da postoji značajnost, treba proveriti koji su od βi značajni:
H0: βi = 0
Ha: βi ≠ 0 – Primenjuje se t-test
t-statistika se računa kao:
i poredi sa tabličnom t-vrednošću za (n-k-1) stepen slobode (i odgovarajući nivo značajnosti, α)
ib
i
sbt =
29/11/2014
9
Unstandardized Coefficients
Standardized Coefficients
t Sig. B Std. Error Beta
Mod
el 1 (Constant) 38.516 3.268 11.787 .000 Poeni sa kolokvijuma
.461 .048 .509 9.656 .000
Broj dolazaka na predavanja
.745 .130 .303 5.723 .000
Koji put polaže -1.907 1.123 -.089 -1.698 .091
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
33
Coefficientsa
a Dependent Variable: Ukupan broj poena ostvaren na ispitu.
• Varijable poeni sa kolokvijuma i broj dolazaka na predavanja statistički značajno utiču na ukupan broja poena na ispitu.
• Međutim, za varijablu koji put polaže p-vrednost iznosi 0,091, što je veće od nivoa značajnosti α=0,05, te zaključujemo da nemamo dovoljno dokaza da odbacimo nultu hipotezu.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
34
Testiranje povećanja objašnjene varijanse dodavanjem varijabli
• Ispituje se značajnost razlike objašnjene varijanse za širi model (sa više varijabli), Rš
2 i uži model, Ru2 i
H0: Rš2 = Ru
2
Ha: Rš2 ≠ Ru
2
– Koristi se F-statistika:
gde su dš i du su stepeni slobode za širi i uži model, respektivno
– Ova vrednost se poredi sa tabličnom F-vrednosti sa dš i du stepeni slobode
šu
š
š
uš
ddd
RRRF
−⋅
−−
= 2
22
1
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
35
Ocenjivanje uticaja nezavisnih varijabli (1)
• Traži se koja nezavisna varijabla ima najveći uticaj na zavisnu varijablu, kako bi se baš ona uključila u regresiju, itd.
• Kriterijum izbora može biti: 1. Ubaciti varijablu čiji koeficijent ima najvišu t-vrednost 2. Ubaciti varijablu koja ima višu vrednost „beta-koeficijenta”:
to su koeficijenti regresije pomnoženi sa odnosom stand. devijacija odgovarajuće nezavisne i zavisne varijable.
⎟⎟⎠
⎞⎜⎜⎝
⎛=
YXb i
i za devijacija standardna za devijacija standardna ovaniStandardiz iβ
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
36
Ocenjivanje uticaja nezavisnih varijabli (2)
• Korisno je upotrebiti tehniku regresije korak-po-korak da bi se od većeg broja nezavisnih varijabli izabrao mali podskup varijabli koje bi objašnjavale najveći deo varijabiliteta zavisne varijable. Postoji nekoliko pristupa: – Dodavanje unapred. Počinje se bez nezavisnih varijabli. Zatim u
jednačinu ulazi varijabla koja najviše doprinosi objašnjenju varijabiliteta nezavisne varijable i to samo ako ispunjava unapred određen kriterijum zasnovan na F-odnosu.
– Eliminacija unazad. Na početku su sve nezavisne varijable uključene u regresionu jednačinu. One se zatim eliminišu jedna po jedna, na osnovu F-odnosa za eliminaciju.
– Puni korak-po-korak. U svakom koraku, dodavanje unapred je kombinovano sa izbacivanjem nezavisnih varijabli koje više ne zadovoljavaju unpared određen kriterijum.
29/11/2014
10
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
37
Interakcije
• Postavlja se pitanje da li postoji interakcija između nezavisnih varijabli
• Ako postoji interakcija dve varijable, npr. X1 i X2, skupu nezavisnih varijabli može da se doda i varijabla X1 ⋅ X2
• Tom varijablom se, onda, ocenjuje interakcija između X1 i X2
• Model bi tada mogao da glasi: Y = b0 + b1 X1 + b2 X2 + b3 X1 ⋅ X2+ greška
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
38
Analiza reziduala • I ako model daje visoke vrednosti koeficijenta
determinacine i regresioni koeficijenti su statistički značajni, ipak se efikasnost modela mora oceniti ispitivanjem reziduala
• Cilj je otkriti da li postoji: – Heteroskedastičnost – reziduali rastu sa porastom vrednosti.
Ovaj problem se može rešiti primenom ponderisanog MNK – Nelinearni obrazac u kretanju reziduala – Autokorelacija - kršenje pretpostavke o nezavisnosti
reziduala. Ovo se rešava primenom procedura kao što je Kohran-Orkatova.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
39
Validnost predviđanja
• Multivarijacione procedure potpuno zavise od pretpostavke slučajnosti varijacija u podacima
• U suprotnom je ocena previše osetljiva na uzorak
• Validnost predviđanja (ocenjivanja) omogućava da se ispita da li je model ocenjen jednim skupom podataka, održiv kad se primeni na drugi skup podataka
• Mogu se koristiti sledeće metode validacije:
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
40
Metode validacije 1. Podaci iz uzorka se dele na dva poduzorka, jedan se koristi za
ocenu parametara modela, a drugi za validaciju. Porede se koeficijenti izračunati na bazi oba uzorka.
2. Koeficijenti ocenjeni na bazi prvog poduzorka se primenjuju na vrednostima nezavisnih varijabli iz drugog poduzorka, kako bi se dobile ocene vrednosti zavisne promenljive. One se porede sa realizovanim vrednostima iz drugog uzorka i ocenjuje prilagođenost modela.
3. Unakrsna validacija. Uzorak se isto podeli na dva poduzorka. Obavi se analiza kao pod 1 i 2, pa se poduzorci zamene i ponovi procedura...
29/11/2014
11
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
41
Regresija sa veštačkim varijablama • Nominalne (nemetričke) varijable mogu da se
koriste kao nezavisne varijable ako se kodiraju kao veštačke varijable
• Npr. Y = b0 + b1X1 + b2X2 + b3V + greška • Opšte pravilo je da ako postoji m nivoa
kvalitativne varijable, koristi se m-1 kategorija veštačke varijable da se oni specifikuju
• Predviđa se referenta kategorija (za koju je V=0) • Kod dihotomnih se koriste 0 i 1, što je čest
slučaj; nazivaju se i binarnim varijablama
Ocenićemo kako na Y=ukupan broj poena osvojen na ispitu utiču 3 nezavisne varijable (prediktori) kroz tri modela uticaja, gde su nezavisne varijable, redom:
Model 1: 1. poeni sa kolokvijuma, X1; Model 2: 1. poeni sa kolokvijuma, X1, i 2. broj dolazaka na predavanja, X2; Model 3: 1. poeni sa kolokvijuma, X1, 2. broj dolazaka na predavanja, X2, i 3. položio iz prve, V, što je veštačka varijabla.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
42
Primer
Značajnost R2
• Prvo proveravamo značajnost regresione jednačine za svaki model, odnosno R2.
• Za svaki od tri modela se testira: H0: R2
pop = 0; Ha: R2
pop≠ 0, • Što je ekvivalentno sa:
H0: β1 = β2 = β3 = . . . = βk = 0; Ha: nisu svi βj, j = 1, . . . , k, jednaki nuli.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
43
Sum of Squares df
Mean Square F Sig.
Mdl 1 Regression 9312.5 1 9312.517 92.296
.000a
Residual 22399.3 222 100.898 Total 31711.8 223
Mdl 2 Regression 12398.0 2 6199.039 70.933
.000b
Residual 19313.7 221 87.393 Total 31711.8 223
Mdl 3 Regression 13101.6 3 4367.212 51.627
.000c
Residual 18610.2 220 84.592 Total 31711.8 223
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
44
ANOVAd
a Predictors: (Constant), poeni sa kolokvijuma; b Predictors: (Constant), poeni sa kolokvijuma, broj dolazaka na predavanja; c Predictors: (Constant), poeni sa kol., broj dol. na predavanja, položio iz prve; d Dependent Variable: Ukupan broj poena ostvaren na ispitu.
29/11/2014
12
Šta zaključujemo ovde o značajnosti?
• Kako su sve p-vrednosti 0, sledi da • Odbacujemo nultu hipotezu u sva tri modela, i • Zaključujemo da sva tri modela statistički
značajno opisuju zavisnu varijablu sa odgovarajućim nezavisnim varijablama
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
45
Značajnost regresionih koeficijenata
• Za svaki model i za svaki regresioni koeficijent (i slobodan član) testira se sledeća hipoteza:
H0: βj = 0; Ha: βj ≠ 0, gde je j = 0, 1, …
• Koristi se t-test.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
46
Unstandardized
Coefficients Standardized Coefficients t Sig.
B Std. Error Beta
Mdl 1 (Constant) 37.897 3.215 11.789 .000
Poeni sa kol. .491 .051 .542 9.607 .000
Mdl 2 (Constant) 36.284 3.004 12.079 .000
Poeni sa kol. .458 .048 .505 9.553 .000 Br. predavanja .771 .130 .314 5.942 .000
Mdl 3
(Constant) 36.555 2.957 12.363 .000 Poeni sa kol. .470 .047 .518 9.929 .000
Br. predavanja .716 .129 .292 5.546 .000 Pol. iz prve -5.007 1.736 -.151 -2.884 .004
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
47
Coefficientsa
a Dependent Variable: Ukupan broj poena ostvaren na ispitu.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
48
• X1 su poeni sa kolokvijuma, Y su poeni na ispitu
• X2 je broj dolazaka na predavanja
• V je veštačka varijabla, dihotomna (binarna) čija je referentna kategorija položio je iz prve ⇒ V=0 ako je student položio ispit iz prvog pokušaja ⇒ V=1 ako student nije položio ispit iz prvog pokušaja
Model 1: Y = 37,897+0,491⋅ X1.
Model 2: Y = 36,284+0,458 ⋅ X1 +0,771⋅ X 2 ,
Model 3: Y = 36,55+0,470 ⋅ X1 +0,716 ⋅ X 2 −5,007 ⋅V .
29/11/2014
13
Rezultat testiranja značajnosti regresionih koeficijenata
• p-vrednosti za sve regresione koeficijente u svim modelima su manje od 0,5 ⇒ Odbacuje se nulta hipoteza i
zaključujemo da su ⇒ Svi regresioni koeficijenti u sva tri
modela statistički značajno različiti od 0.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
49
Testiranje značajnosti razlike R2
• Testira se statistička značajnost razlike između koeficijenata determinacije Modela 2 i Modela 1:
H0: R22pop-R2
1pop = 0; Ha: R2
2pop-R21pop≠ 0.
• Zatim se testira statistička značajnost razlike između koeficijenta determinacije Modela 3 i Modela 2
H0: R23pop-R2
2pop = 0; Ha: R2
3pop-R22pop≠ 0.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
50
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
51
R R
Square
Adjus-ted R
Square
Std. Error of the
Estimate
Change Statistics R Square Change
F Change df1 df2
Sig. F Change
1 .542a .294 .290 10.044 .294 92.296 1 222 .000 2 .625b .391 .385 9.348 .097 35.307 1 221 .000 3 .643c .413 .405 9.197 .022 8.317 1 220 .004
Model Summaryd
a Predictors: (Constant), poeni sa kolokvijuma; b Predictors: (Constant), poeni sa kolokvijuma, broj dolazaka na predavanja; c Predictors: (Constant), poeni sa kolokvijuma, broj dolazaka na predavanja, položio iz prve; d Dependent Variable: Ukupan broj poena ostvaren na ispitu.
Rezultat testiranja značajnosti prirasta vrednosti R2
• Pošto je p<0,05 u oba slučaja • Odbacujemo nultu hipotezu u oba slučaja i ⇒ Zaključujemo da Model 2 statistički
značajno povećava objašnjeni varijabilitet u poređenju sa Modelom 1, i
⇒ Da Model 3 statistički značajno povećava objašnjeni varijabilitet u poređenju sa Modelom 2.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
52
29/11/2014
14
P-vrednosti
• P-vrednost je najveći nivo značajnosti za koji ne bismo odbacili nultu hipotezu odnosno najmanji nivo značajnosti sa kojim se nulta hipoteza može odbaciti na osnovu podataka iz uzorka.
• Pravila koja važe za testiranje svih hipoteza preko p-vrednosti su sledeća: ⇒ Ako je p ≤ α, H0 se odbacuje, odnosno ⇒ Ako je p > α, H0 se ne odbacuje.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
53
P-vrednosti - napomena
• U slučaju da statistički softver prikaže p-vrednost za dvostrani test, a mi želimo da testiramo hipoteze koje ukazuju na jednostrani test, prikazanu p-vrednost treba podeliti sa 2 kako bismo tu vrednost koristili za testiranje.
• Suprotno tome, ako statistički softver prikazuje p-vrednost za jednostrani test, a nama je potrebna p-vrednost za dvostrani test, prikazanu p-vrednost treba pomnožiti sa 2.
Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd
54