korelaciona i regresiona analiza korelaciona analiza · 5 test značajnosti koeficijenta korelacije...

14
29/11/2014 1 KORELACIONA I REGRESIONA ANALIZA Novembar 2014 Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd 2 Korelaciona analiza Pirsonov koeficijent korelacije Test značajnosti koeficijenta korelacije Koeficijent parcijalne korelacije Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd 3 Pirsonov koeficijent korelacije (1) Meri stepen linearne povezanosti između dve metričke varijable (date na intervalnoj ili na skali odnosa) Populacijska korelacija ρ, uzoračka korelacija r Ima vrednosti u intervalu (-1,+1) Vrednost 1 ukazuje na postojanje savršene pozitivne linearne povezanosti između dve varijable Vrednost –1 ukazuje na savršenu negativnu linearnu povezanost Vrednost nula pokazuje da ne postoji nikakva linearna povezanost Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd 4 Meru povezanosti dve varijable daje kovarijansa: Za uzoračku korelaciju se prvo neutrališe uticaj veličine uzorka: Zatim se neutrališe uticaj jedinice mere tako što se deli sa uzoračkom standardnom devijacijom za X i Y: = PIRSONOV KOEFICIJENT KORELACIJE Cov( X,Y ) = 1 n 1 ( x i x )( y i y ) 1 n 1 ( x i x )( y i y ) r xy = 1 n 1 ( x i x ) s X ( y i y ) s Y = Cov XY s X s Y Pirsonov koeficijent korelacije (2)

Upload: others

Post on 08-Sep-2019

9 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

1

KORELACIONA I REGRESIONA ANALIZA

•  Novembar 2014

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

2

Korelaciona analiza

•  Pirsonov koeficijent korelacije •  Test značajnosti koeficijenta korelacije •  Koeficijent parcijalne korelacije

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

3

Pirsonov koeficijent korelacije (1)

•  Meri stepen linearne povezanosti između dve metričke varijable (date na intervalnoj ili na skali odnosa)

•  Populacijska korelacija ρ, uzoračka korelacija r •  Ima vrednosti u intervalu (-1,+1)

–  Vrednost 1 ukazuje na postojanje savršene pozitivne linearne povezanosti između dve varijable

–  Vrednost –1 ukazuje na savršenu negativnu linearnu povezanost

–  Vrednost nula pokazuje da ne postoji nikakva linearna povezanost

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

4

•  Meru povezanosti dve varijable daje kovarijansa:

•  Za uzoračku korelaciju se prvo neutrališe uticaj veličine uzorka:

•  Zatim se neutrališe uticaj jedinice mere tako što se deli sa uzoračkom standardnom devijacijom za X i Y:

= PIRSONOV KOEFICIJENT KORELACIJE

Cov(X,Y ) =1

n −1(xi∑ − x )⋅ (yi − y )

1n −1

⋅ (xi∑ − x )⋅ (yi∑ − y )

rxy =1

n −1⋅

(xi − x )sX

∑ ⋅(yi − y )

sY

=CovXY

sX ⋅ sY

Pirsonov koeficijent korelacije (2)

Page 2: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

2

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

5

Test značajnosti koeficijenta korelacije

•  Testira se: H0: ρ = 0

Ha: ρ ≠ 0 –  Uvek se koristi t-test –  t-statistika se računa po obrascu:

–  Čita se tablična t-vrednost za (n-2) stepena slobode

–  Nulta hipoteza se odbacuje ako je t-statistika veća od tablične t-vrednosti za α/2

t = r⋅ n − 21− r2

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

6

Koeficijent parcijalne korelacije

•  Pirsonov koeficijent se odnosi samo na dve varijable

•  Koeficijent parcijalne korelacije pruža meru povezanosti dve varijable pošto se izoluje uticaj ostalih varijabli:

rXY ,Z =rXY − rXZ ⋅ rYZ

1− rXZ2( ) ⋅ 1− rYZ

2( )

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

7

Ograničenja korelacione analize •  Meri samo linearnu povezanost •  Postojanje korelacione veze, pozitivne i

negativne, ne znači da postoji uzročno-posledična veza

•  Koeficijent korelacije može biti samo indikacija za postojanje uzročno-posledične povezanosti

•  Govori o odnosu dve varijable, pa se ne stiče ukupna slika ako postoji veći broj varijabli

•  Daje samo jačinu povezanosti između dve varijable, ali ne i prirodu te veze.

Poeni sa kolokvijuma

Koji put polaže

Poeni sa kolokvijuma

Pearson Correlation 1 .028 Sig. (2-tailed) .680 N 224 224

Koji put polaže

Pearson Correlation .028 1 Sig. (2-tailed) .680 N 224 224

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

8

Correlations

•  P-vrednost je 0,68, što je više od nivoa značajnosti α=0,05, pa nećemo odbaciti nultu hipotezu, odnosno

•  Linearna povezanost između varijable poeni sa kolokvijuma i varijable koji put polaže nije statistički značajna

•  Ne možemo zaključiti da između posmatranih varijabli ne postoji nikakva veza, već samo da ne postoji linearna veza.

Page 3: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

3

Broj dolazaka na predavanja Poeni sa vežbi

Broj dolazaka na predavanja

Pearson Correlation 1 .241(**) Sig. (2-tailed) .000 N 224 224

Poeni sa vežbi

Pearson Correlation .241(**) 1 Sig. (2-tailed) .000 N 224 224

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

9

Correlations

** Correlation is significant at the 0.01 level (2-tailed).

•  P-vrednost je 0, što je manje od nivoa značajnosti α=0,05, pa ćemo odbaciti nultu hipotezu, odnosno

•  Linearna povezanost između varijabli broj dolazaka na predavanja i poeni sa vežbi je statistički značajna

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

10

Regresiona analiza

•  Model proste linearne regresije •  Model višestruke linearne regresije

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

11

Šta je regresiona analiza?

•  Statistička tehnika koja se koristi da bi se dve ili više varijabli dovelo u vezu: –  zavisna ili rezultujuća varijabla (Y), u odnosu na –  jednu ili više nezavisnih ili varijabli prediktora (X).

•  Cilj je formulisanje regresionog modela, jednačine predviđanja, koji povezuje zavisnu varijablu sa jednom ili više nezavisnih varijabli

•  Model se koristi za opis, predviđanje i kontrolu posmatrane varijable na osnovu nezavisnih varijabli.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

12

Model proste linearne regresije

•  Model se zasniva na pretpostavci da postoji linearna povezanost tipa:

yi = β0 + β1xi + εi, Y → zavisna ili rezultujuća varijabla X → nezavisna varijabla (prediktor) β0 → parametar modela koji predstavlja srednju vrednost Y kada je vrednost X jednaka nuli (Y-odsečak) β1 → parametar modela koji predstavlja nagib, i meri promenu vrednosti Y kada se X promeni za 1 εi → greška koja opisuje uticaj na yi svih faktora koji nisu uključeni u model.

Page 4: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

4

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

13

Pretpostavke regresionog modela 1.  Greška je normalno raspoređena (tj. za svaku vrednost X,

raspodela Y je normalna) 2.  Srednja vrednost greške jednaka je nuli [E(εi) = 0] 3.  Varijansa greške je konstantna i nezavisna je od X 4.  Greške su međusobno nezavisne (opservacije se dešavaju

nezavisno) 5.  Vrednosti nezavisne varijable X su date (na primer, od

strane onoga koji sprovodi eksperiment). •  Neispunjenost ovih pretpostavki može da izazove

ozbiljne probleme u primeni i interpretaciji modela.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

14

Ocena parametara modela •  Na slučajnom uzorku se ocenjuje vrednost yi:

•  Primenom metoda najmanjih kvadrata ocenjuju se parametri ove jednačine na sledeći način

•  Vrednost b0 je ocena parametra β0, a vrednost b1 je ocena β1. To su regresioni koeficijenti.

ˆ y i = b0 + b1xi,

b1 =n xiyi − xi∑( ) yi∑( )∑

n xi2 − xi∑( )

2

b0 = y − b1x

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

15

Tačkaste ocene parametara

•  Razlika između stvarne i ocenjene vrednosti yi, je rezidual koji je ocena greške modela

•  U metodu najmanjih kvadrata tačkaste ocene se dobijaju minimiziranjem sume kvadarata grešaka (t.j. odstupanja ocenjene od realizovane vrednosti):

ei = yi − ˆ y i =

= yi − (b0 + b1xi)

minSSE = ei2∑ = (yi − ˆ y i)∑

2= yi − (b0 + b1xi)[ ]2∑

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

16

Standardna greška ocene regresionog modela

sY / X2 =

SSEn − 2

=ei

2∑n − 2

=yi − ˆ y i( )2∑n − 2

iy

•  Ocena varijacija osnovnog skupa u odnosu na regresionu pravu, srednja kvadratna greška, MSE:

•  Kvadratni koren ove mere, sY/X, ili samo s, predstavlja standardnu grešku ocene –  Za bilo koju datu vrednost nezavisne varijable xi, zavisna

varijabla će težiti da bude raspoređena oko predviđene (ocenjene) vrednosti, , sa standardnom devijacijom koja je jednaka standardnoj grešci ocene.

Page 5: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

5

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

17

Standardna greška ocene

•  Što je manja standardna greška ocene, to je model bolje prilagođen podacima

•  Standardna greška ocene je ista za bilo koju vrednost nezavisne varijable –  kako se vrednost nezavisne varijable xi menja,

predviđena vrednost će se takođe menjati, ali će standardna devijacija koja pokazuje koliko će se yi udaljavati od , biti konstantna. iy

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

18

Interpretacija ocena parametara

β1 (čija je ocena b1) –  Pokazuje da, ako se varijabla X promeni za jednu jedinicu,

varijabla Y će se promeniti za β1 jedinica –  Standardna greška ocene b1 je data sa:

β0 (sa ocenom b0) –  Pokazuje prosečnu vrednost Y kada je X nula –  Standardna greška ocene b2 je data sa:

sb1=

s(xi − x )2∑

=1

n − 2⋅

yi − ˆ y i( )2∑xi − x ( )2∑

sb0= s⋅

1n

+x 2

xi − x ( )2∑

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

19

Testiranje značajnosti nezavisnih varijabli

•  Testom statističke hipoteze se proverava da li postoji linearna povezanost između varijabli, odnosno da li je vrednost koeficijenta β1 ≠ 0

H0: β1 = 0

Ha: β1 ≠ 0 –  Primenjuje se t-test

t-statistika se računa kao:

i poredi sa tabličnom t-vrednošću za (n-2) stepena slobode (i odgovarajući nivo značajnosti, α)

t =b1 − β1sb1

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

20

Koeficijent determinacije (1)

•  Osnovni kvalitet modela se meri njegovom sposobnošću da daje dobra predviđanja

•  Ako bi se Y ocenjivalo svojom srednjom vrednošću, greška predviđanja bi iznosila •  Ako se za predviđanje koristi ocena regresionim

modelom, onda bi se greška predviđanja umanjila za:

•  Odnosno toliko bi model, potencijalno, pružao preciznija predviđanja u odnosu na predviđanje ...

nyy i∑= )( yyi −

(yi − y ) − (yi − ˆ y i) = ( ˆ y i − y )

Page 6: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

6

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

21

Koeficijent determinacije (2) •  Može se pokazati da je: •  Odnosno:

•  Ukupan varijabilitet (SST) = zbir kvadrata greške predviđanja koja bi se dobila kada ne bismo koristili X za predviđanje Y

•  Neobjašnjen varijabilitet (SSE) = zbir kvadrata greške predviđanja koja se dobija kada koristimo X za predviđanje Y.

•  Objašnjen varijabilitet (SSM) = smanjenje zbira kvadrata greške predviđanja koja je postignuta korišćenjem modela.

•  Objašnjeni varijabilitet meri deo ukupnog varijabiliteta koji je objašnjen prostim linearnim regresionim modelom

∑∑∑ −=−−− 222 )ˆ()ˆ()( yyyyyy iiii

∑∑∑ −+−=− 222 )ˆ()ˆ()( iiii yyyyyy

Ukupan varijabilitet

Objašnjen varijabilitet

Neobjašnjen varijabilitet

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

22

Koeficijent determinacije (3) •  Mera mogućnosti regresionog modela da predvidi

(ili oceni) naziva se koeficijent determinacije (r2):

r2 = (SST - SSE )/ SST = SSM / SST •  On predstavlja odnos objašnjenog varijabiliteta i

ukupnog varijabiliteta, odnosno: Koeficijent determinacije

pokazuje koji procenat ukupnog varijabiliteta je objašnjen primenom regresionog modela

Višestruka regresiona analiza

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

23 Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

24

Model višestruke linearne regresije

•  Kada u regresionom modelu ima više od jedne nezavisne varijable, time se –  Povećava prediktivna snaga modela –  Smanjuje neobjašnjen varijabilitet –  Uključuje uticaj drugih varijabli –  Razrađuju i pojašnjavaju povezanosti

•  Opšti oblik modela višestruke linearne regresije: Y = β0 + β1X1 + β2X2 + .........+ βkXk + ε

–  gde β1, β2, . . . , βk predstavljaju regresione koeficijente pridružene nezavisnim varijablama X1, X2, . . . , Xk, a ε predstavlja grešku ili rezidual.

Page 7: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

7

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

25

•  Pretpostavke su iste kao kod prostog linearnog modela:

1.  Greška je normalno raspoređena (tj. za svaku vrednost X, raspodela Y je normalna);

2.  Srednja vrednost greške jednaka je nuli; 3.  Varijansa greške je konstantna i nezavisna je od Xij; 4.  Greške su međusobno nezavisne (opservacije se

dešavaju nezavisno); 5.  Vrednosti nezavisnih varijabli Xij su poznate za

svako i=1, 2, . . . , n i za svako j=1, 2, . . . , k.

Pretpostavke modela višestruke linearne regresije

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

26

•  Isto kao kod proste linearne regresije, traže se vrednosti za konstante (βi , i=0, . . . , k) takve da je zbir kvadrata grešaka predviđanja (∑ε2) minimalna.

•  Važno je naglasiti da se normalne jednačine ne mogu rešiti ako je: (1) veličina uzorka, n, manja ili jednaka broju nezavisnih

varijabli, k; ili (2) ako je jedna nezavisna varijabla savršeno korelirana

sa drugom nezavisnom varijablom.

Ocena modela višestruke linearne regresije

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

27

•  Jednačina predviđanja u višestrukoj regresionoj analizi glasi:

•  Odnosno za dve varijable:

–  Koeficijent parcijalne regresije, b1, će biti različit od koeficijenta regresije, b1, koji bi se dobio prostom regresijom Y na X1

–  Ovo obično nastaje stoga što su X1 i X2 najčešće korelirani, a kod proste regresije varijabilitet Y koji je zajednički za X1 i X2 bi bio pripisan samo varijabli X1.

Značenje ocena parametara u višestrukoj regresiji

ˆ Y = b0 + b1X1 + b2X2 +⋅ ⋅ ⋅ +bk Xk

greškaXbXbbY +++= 22110

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

28

•  Ili koeficijent višestruke determinacije

–  Pokazuje koliki udeo varijacija zavisne promenljive je objašnjenih regresionim modelom

–  Neminovno raste sa porastom broja nezavisnih varijabli u modelu, pa se koristi prilagođeni R2:

Koeficijent determinacije kod višestruke regresije, R2

2

22

)(

)ˆ(

∑∑

−==

ii

ii

yy

yySSTSSMR

Objašnjen varijabilitet

Ukupan varijabilitet

1)1(

11)1(1

222

−−−−

=−−

−⋅−−=

knkRn

knnRAdjR

Page 8: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

8

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

29

•  Nekoliko testova značajnosti može da se primeni na rezultate višestruke regresione analize, konkretno:

(1) Testiranje značajnosti R2, (2) Testiranje regresionih koeficijenata, i (3) Testiranje povećanja proporcije objašnjene

varijanse koja se odnosi na određenu varijablu ili skup varijabli.

Testiranje značajnosti kod višestrukih regresija

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

30

•  Predstavlja test značajnosti regresione jednačine, odnosno testiranje da li je populacijski koeficijent višestruke determinacije značajan:

H0: R2pop = 0

Ha: R2pop ≠ 0

odnosno: H0: β1 = β2 = β3 = . . . = βk = 0 Ha: nisu svi β jednaki nuli

–  Za testiranje se koristi F-statistika: sa k i (n – k – 1) stepeni slobode.

Testiranje značajnosti za R2

F =R2 k

1− R2( )⋅ n − k −1( )

Sum of Squares df

Mean Square F Sig.

Model 1 Regression 12647.7 3 4215.9 48.652

.000a

Residual 19064.0 220 86.6 Total 31711.8 223

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

31

ANOVAb

a Predictors: (Constant), poeni sa kolokvijuma, broj dolazaka na predavanja, koji put polaže; b Dependent Variable: Ukupan broj poena ostvaren na ispitu.

•  Zaključujemo da imamo dovoljno dokaza da odbacimo nultu hipotezu

•  Nezavisne varijable (zajedno) pokazuju sistematsku povezanost sa zavisnom varijablom.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

32

Testiranje regresionih koeficijenata

•  Ako se prethodnim testom ustanovi da postoji značajnost, treba proveriti koji su od βi značajni:

H0: βi = 0

Ha: βi ≠ 0 –  Primenjuje se t-test

t-statistika se računa kao:

i poredi sa tabličnom t-vrednošću za (n-k-1) stepen slobode (i odgovarajući nivo značajnosti, α)

ib

i

sbt =

Page 9: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

9

Unstandardized Coefficients

Standardized Coefficients

t Sig. B Std. Error Beta

Mod

el 1 (Constant) 38.516 3.268 11.787 .000 Poeni sa kolokvijuma

.461 .048 .509 9.656 .000

Broj dolazaka na predavanja

.745 .130 .303 5.723 .000

Koji put polaže -1.907 1.123 -.089 -1.698 .091

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

33

Coefficientsa

a Dependent Variable: Ukupan broj poena ostvaren na ispitu.

•  Varijable poeni sa kolokvijuma i broj dolazaka na predavanja statistički značajno utiču na ukupan broja poena na ispitu.

•  Međutim, za varijablu koji put polaže p-vrednost iznosi 0,091, što je veće od nivoa značajnosti α=0,05, te zaključujemo da nemamo dovoljno dokaza da odbacimo nultu hipotezu.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

34

Testiranje povećanja objašnjene varijanse dodavanjem varijabli

•  Ispituje se značajnost razlike objašnjene varijanse za širi model (sa više varijabli), Rš

2 i uži model, Ru2 i

H0: Rš2 = Ru

2

Ha: Rš2 ≠ Ru

2

–  Koristi se F-statistika:

gde su dš i du su stepeni slobode za širi i uži model, respektivno

–  Ova vrednost se poredi sa tabličnom F-vrednosti sa dš i du stepeni slobode

šu

š

š

ddd

RRRF

−⋅

−−

= 2

22

1

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

35

Ocenjivanje uticaja nezavisnih varijabli (1)

•  Traži se koja nezavisna varijabla ima najveći uticaj na zavisnu varijablu, kako bi se baš ona uključila u regresiju, itd.

•  Kriterijum izbora može biti: 1.  Ubaciti varijablu čiji koeficijent ima najvišu t-vrednost 2.  Ubaciti varijablu koja ima višu vrednost „beta-koeficijenta”:

to su koeficijenti regresije pomnoženi sa odnosom stand. devijacija odgovarajuće nezavisne i zavisne varijable.

⎟⎟⎠

⎞⎜⎜⎝

⎛=

YXb i

i za devijacija standardna za devijacija standardna ovaniStandardiz iβ

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

36

Ocenjivanje uticaja nezavisnih varijabli (2)

•  Korisno je upotrebiti tehniku regresije korak-po-korak da bi se od većeg broja nezavisnih varijabli izabrao mali podskup varijabli koje bi objašnjavale najveći deo varijabiliteta zavisne varijable. Postoji nekoliko pristupa: –  Dodavanje unapred. Počinje se bez nezavisnih varijabli. Zatim u

jednačinu ulazi varijabla koja najviše doprinosi objašnjenju varijabiliteta nezavisne varijable i to samo ako ispunjava unapred određen kriterijum zasnovan na F-odnosu.

–  Eliminacija unazad. Na početku su sve nezavisne varijable uključene u regresionu jednačinu. One se zatim eliminišu jedna po jedna, na osnovu F-odnosa za eliminaciju.

–  Puni korak-po-korak. U svakom koraku, dodavanje unapred je kombinovano sa izbacivanjem nezavisnih varijabli koje više ne zadovoljavaju unpared određen kriterijum.

Page 10: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

10

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

37

Interakcije

•  Postavlja se pitanje da li postoji interakcija između nezavisnih varijabli

•  Ako postoji interakcija dve varijable, npr. X1 i X2, skupu nezavisnih varijabli može da se doda i varijabla X1 ⋅ X2

•  Tom varijablom se, onda, ocenjuje interakcija između X1 i X2

•  Model bi tada mogao da glasi: Y = b0 + b1 X1 + b2 X2 + b3 X1 ⋅ X2+ greška

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

38

Analiza reziduala •  I ako model daje visoke vrednosti koeficijenta

determinacine i regresioni koeficijenti su statistički značajni, ipak se efikasnost modela mora oceniti ispitivanjem reziduala

•  Cilj je otkriti da li postoji: –  Heteroskedastičnost – reziduali rastu sa porastom vrednosti.

Ovaj problem se može rešiti primenom ponderisanog MNK –  Nelinearni obrazac u kretanju reziduala –  Autokorelacija - kršenje pretpostavke o nezavisnosti

reziduala. Ovo se rešava primenom procedura kao što je Kohran-Orkatova.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

39

Validnost predviđanja

•  Multivarijacione procedure potpuno zavise od pretpostavke slučajnosti varijacija u podacima

•  U suprotnom je ocena previše osetljiva na uzorak

•  Validnost predviđanja (ocenjivanja) omogućava da se ispita da li je model ocenjen jednim skupom podataka, održiv kad se primeni na drugi skup podataka

•  Mogu se koristiti sledeće metode validacije:

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

40

Metode validacije 1.  Podaci iz uzorka se dele na dva poduzorka, jedan se koristi za

ocenu parametara modela, a drugi za validaciju. Porede se koeficijenti izračunati na bazi oba uzorka.

2.  Koeficijenti ocenjeni na bazi prvog poduzorka se primenjuju na vrednostima nezavisnih varijabli iz drugog poduzorka, kako bi se dobile ocene vrednosti zavisne promenljive. One se porede sa realizovanim vrednostima iz drugog uzorka i ocenjuje prilagođenost modela.

3.  Unakrsna validacija. Uzorak se isto podeli na dva poduzorka. Obavi se analiza kao pod 1 i 2, pa se poduzorci zamene i ponovi procedura...

Page 11: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

11

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

41

Regresija sa veštačkim varijablama •  Nominalne (nemetričke) varijable mogu da se

koriste kao nezavisne varijable ako se kodiraju kao veštačke varijable

•  Npr. Y = b0 + b1X1 + b2X2 + b3V + greška •  Opšte pravilo je da ako postoji m nivoa

kvalitativne varijable, koristi se m-1 kategorija veštačke varijable da se oni specifikuju

•  Predviđa se referenta kategorija (za koju je V=0) •  Kod dihotomnih se koriste 0 i 1, što je čest

slučaj; nazivaju se i binarnim varijablama

Ocenićemo kako na Y=ukupan broj poena osvojen na ispitu utiču 3 nezavisne varijable (prediktori) kroz tri modela uticaja, gde su nezavisne varijable, redom:

Model 1: 1. poeni sa kolokvijuma, X1; Model 2: 1. poeni sa kolokvijuma, X1, i 2. broj dolazaka na predavanja, X2; Model 3: 1. poeni sa kolokvijuma, X1, 2. broj dolazaka na predavanja, X2, i 3. položio iz prve, V, što je veštačka varijabla.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

42

Primer

Značajnost R2

•  Prvo proveravamo značajnost regresione jednačine za svaki model, odnosno R2.

•  Za svaki od tri modela se testira: H0: R2

pop = 0; Ha: R2

pop≠ 0, •  Što je ekvivalentno sa:

H0: β1 = β2 = β3 = . . . = βk = 0; Ha: nisu svi βj, j = 1, . . . , k, jednaki nuli.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

43

Sum of Squares df

Mean Square F Sig.

Mdl 1 Regression 9312.5 1 9312.517 92.296

.000a

Residual 22399.3 222 100.898 Total 31711.8 223

Mdl 2 Regression 12398.0 2 6199.039 70.933

.000b

Residual 19313.7 221 87.393 Total 31711.8 223

Mdl 3 Regression 13101.6 3 4367.212 51.627

.000c

Residual 18610.2 220 84.592 Total 31711.8 223

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

44

ANOVAd

a Predictors: (Constant), poeni sa kolokvijuma; b Predictors: (Constant), poeni sa kolokvijuma, broj dolazaka na predavanja; c Predictors: (Constant), poeni sa kol., broj dol. na predavanja, položio iz prve; d Dependent Variable: Ukupan broj poena ostvaren na ispitu.

Page 12: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

12

Šta zaključujemo ovde o značajnosti?

•  Kako su sve p-vrednosti 0, sledi da •  Odbacujemo nultu hipotezu u sva tri modela, i •  Zaključujemo da sva tri modela statistički

značajno opisuju zavisnu varijablu sa odgovarajućim nezavisnim varijablama

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

45

Značajnost regresionih koeficijenata

•  Za svaki model i za svaki regresioni koeficijent (i slobodan član) testira se sledeća hipoteza:

H0: βj = 0; Ha: βj ≠ 0, gde je j = 0, 1, …

•  Koristi se t-test.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

46

Unstandardized

Coefficients Standardized Coefficients t Sig.

B Std. Error Beta

Mdl 1 (Constant) 37.897 3.215 11.789 .000

Poeni sa kol. .491 .051 .542 9.607 .000

Mdl 2 (Constant) 36.284 3.004 12.079 .000

Poeni sa kol. .458 .048 .505 9.553 .000 Br. predavanja .771 .130 .314 5.942 .000

Mdl 3

(Constant) 36.555 2.957 12.363 .000 Poeni sa kol. .470 .047 .518 9.929 .000

Br. predavanja .716 .129 .292 5.546 .000 Pol. iz prve -5.007 1.736 -.151 -2.884 .004

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

47

Coefficientsa

a Dependent Variable: Ukupan broj poena ostvaren na ispitu.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

48

•  X1 su poeni sa kolokvijuma, Y su poeni na ispitu

•  X2 je broj dolazaka na predavanja

•  V je veštačka varijabla, dihotomna (binarna) čija je referentna kategorija položio je iz prve ⇒ V=0 ako je student položio ispit iz prvog pokušaja ⇒ V=1 ako student nije položio ispit iz prvog pokušaja

Model 1: Y = 37,897+0,491⋅ X1.

Model 2: Y = 36,284+0,458 ⋅ X1 +0,771⋅ X 2 ,

Model 3: Y = 36,55+0,470 ⋅ X1 +0,716 ⋅ X 2 −5,007 ⋅V .

Page 13: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

13

Rezultat testiranja značajnosti regresionih koeficijenata

•  p-vrednosti za sve regresione koeficijente u svim modelima su manje od 0,5 ⇒  Odbacuje se nulta hipoteza i

zaključujemo da su ⇒  Svi regresioni koeficijenti u sva tri

modela statistički značajno različiti od 0.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

49

Testiranje značajnosti razlike R2

•  Testira se statistička značajnost razlike između koeficijenata determinacije Modela 2 i Modela 1:

H0: R22pop-R2

1pop = 0; Ha: R2

2pop-R21pop≠ 0.

•  Zatim se testira statistička značajnost razlike između koeficijenta determinacije Modela 3 i Modela 2

H0: R23pop-R2

2pop = 0; Ha: R2

3pop-R22pop≠ 0.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

50

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

51

R R

Square

Adjus-ted R

Square

Std. Error of the

Estimate

Change Statistics R Square Change

F Change df1 df2

Sig. F Change

1 .542a .294 .290 10.044 .294 92.296 1 222 .000 2 .625b .391 .385 9.348 .097 35.307 1 221 .000 3 .643c .413 .405 9.197 .022 8.317 1 220 .004

Model Summaryd

a Predictors: (Constant), poeni sa kolokvijuma; b Predictors: (Constant), poeni sa kolokvijuma, broj dolazaka na predavanja; c Predictors: (Constant), poeni sa kolokvijuma, broj dolazaka na predavanja, položio iz prve; d Dependent Variable: Ukupan broj poena ostvaren na ispitu.

Rezultat testiranja značajnosti prirasta vrednosti R2

•  Pošto je p<0,05 u oba slučaja •  Odbacujemo nultu hipotezu u oba slučaja i ⇒  Zaključujemo da Model 2 statistički

značajno povećava objašnjeni varijabilitet u poređenju sa Modelom 1, i

⇒  Da Model 3 statistički značajno povećava objašnjeni varijabilitet u poređenju sa Modelom 2.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

52

Page 14: KORELACIONA I REGRESIONA ANALIZA Korelaciona analiza · 5 Test značajnosti koeficijenta korelacije • Testira se: H 0: ρ = 0 H ... Varijansa greške je konstantna i nezavisna je

29/11/2014

14

P-vrednosti

•  P-vrednost je najveći nivo značajnosti za koji ne bismo odbacili nultu hipotezu odnosno najmanji nivo značajnosti sa kojim se nulta hipoteza može odbaciti na osnovu podataka iz uzorka.

•  Pravila koja važe za testiranje svih hipoteza preko p-vrednosti su sledeća: ⇒ Ako je p ≤ α, H0 se odbacuje, odnosno ⇒ Ako je p > α, H0 se ne odbacuje.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

53

P-vrednosti - napomena

•  U slučaju da statistički softver prikaže p-vrednost za dvostrani test, a mi želimo da testiramo hipoteze koje ukazuju na jednostrani test, prikazanu p-vrednost treba podeliti sa 2 kako bismo tu vrednost koristili za testiranje.

•  Suprotno tome, ako statistički softver prikazuje p-vrednost za jednostrani test, a nama je potrebna p-vrednost za dvostrani test, prikazanu p-vrednost treba pomnožiti sa 2.

Novembar 2014 Istraživanje tržišta Ekonomski fakultet, Beograd

54