statistika predavanje 12 prosta linearna regresija

33
17. 5. 2010. Beograd Predavanje 12 Doc. Dr Slađana Spasić E-mail: [email protected] Ass. Ana Simićević E-mail: [email protected] STATISTIKA Prosta linearna regresija

Upload: laky88

Post on 27-Oct-2015

102 views

Category:

Documents


3 download

DESCRIPTION

regresija

TRANSCRIPT

Page 1: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12

Doc. Dr Slađana SpasićE-mail:[email protected]

Ass. Ana SimićevićE-mail:[email protected]

STATISTIKA

Prosta linearna regresija

Page 2: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 1

Regresiona i korelaciona analiza

Na ovom predavanju razmatraćemo međusobnu vezu dvepromenljive i to na osnovu:

1. regresione analize2. korelacione analize.

Upotrebom regresionih modela može se oceniti kako semenja jedna promenljiva pod uticajem promene drugepromenljive.Koeficijent korelacije u korelacionoj analizi pokazuje da liizmeđu varijacija dve promenljive postoji kvantitativnoslaganje, ali on ne daje informaciju o stepenu promene jednepromenljive kojanastaje kao rezultat promene drugepromenljive.

Page 3: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 2

Naše interesovanje ćemo usmeriti na istraživanjemeđusobnih veza i uticaja između dve ili više pojava. Pojavena osnovu veza između promenljivih možemo podeliti nadeterminističke i stohastičke.

Deterministička veza se javlja kada jednoj vrednostinezavisno promenljive X odgovara tačno jedna vrednostzavisno promenljive Y. Ova veza se još naziva egzaktna ilifunkcionalna.

Stohastičke veze su slabije i kod njih jednoj vrednostinezavisno promenljive X odgovara više mogućih vrednostizavisno promenljive Y. Svaku od tih vrednosti zavisnopromenljiva može uzeti sa određenom verovatnoćom, pa jezavisno promenljiva Y slučajna promenljiva.

Deterministička istohastička veza

Page 4: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 3

Suština stohastičke veze je sledeća:Prosek Y = f (X)

Veze kod kojih porastu (opadanju) nezavisnepromenljive X odgovara porast (opadanje) zavisnopromenljive Y nazivaju se direktne veze.

Ako porastu X odgovara opadanje Y takve veze sezovu inverzne (obrnute).

Osim ovoga, veze mogu biti linearne ili nelinearne.

Deterministička istohastička veza

Page 5: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 4

Ciljevi regresione i korelacione analize

Regresiona i korelaciona analiza primenjuju se u istraživanjukvantitativnog slaganja varijacija između dve ili više pojava.

Kod regresione analize neophodno je unapred odrediti kojapojava će imati ulogu nezavisne, a koja zavisne promenljive.Ovo je određeno prirodom analiziranih pojava.

Kod korelacione analize je svejedno koja je pojavaokarakterisana kao nezavisno, a koja kao zavisno promenljiva.Rezultat korelacione analize je isti u oba slučaja.U slučaju korelacione analize više pojava potrebno je fiksiratijednu zavisnu promenljivu, a ostale će biti nezavisne.

Page 6: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 5

Ciljevi regresione i korelacione analize

Cilj regresije je da se utvrdi priroda veze, tj. oblik zavisnostimeđu posmatranim pojavama. Ovo se postiže odgovarajućimregresionim modelima.Regresioni model je statistički model koji matematičkimformulama, uz određene pretpostavke najbolje opisujekvantitativnu zavisnost između varijacija posmatranih pojava urealnosti. Kako je reč o stohastičkim vezama, regresioni modelpokazuje prosečno slaganje varijacija ispitivanih pojava.

Korelaciona analiza ispituje da li između varijacijaposmatranih pojava postoji slaganje i, ako postoji, u komstepenu.

Page 7: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 6

Vrste regresionih modela

Prilikom istraživanja međusobnih veza dvejupromenljivih primenjuju se metode proste (linearnei nelinearne) regresione i korelacione analize.

U slučaju više promenljivih reč je i metodamavišestruke (linearne i nelinearne) regresione ikorelacione analize.

Mi ćemo se ograničiti na linarne metode.

Page 8: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 7

Prosta linearna regresija

Prost regresioni model je matematički model koji ima samodve promenljive: zavisnu i nezavisnu. Zavisna promenljiva jeona čije varijacije treba objasniti na osnovu promenanezavisne promenljive.

Prost linearni regresioni model je regresioni model kojimse opisuje linearna veza između zavisne i nezavisnepromenljive.

Page 9: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 8

Prosta linearna regresija

Linearna veza

Dohodak

Izda

ci z

a hr

anu

Izda

ci z

a hr

anu

Dohodak

Nelinearna veza

Primer: Veza između mesečnih izdataka za hranu i dohotkaporodice. Slika A prikazuje lineranu vezu, a slika B nelineranu vezu.

A B

Page 10: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 9

Prvi korak u analizi zavisnosti dve pojave je grafičkoprikazivanje empirijske serije podataka, bilo da se odnosena osnovni skup ili uzorak.Na istim elementima skupa ili uzorka posmatramo dvaobeležja, npr. kod 20 firmi posmatramo troškove reklame iobim prodaje. Zatim treba identifikovati koje obeležjepredstavlja nezavisno promenljivu X, a koje zavisnopromenljivu Y. Tako se dobija niz od n (N) uređenih parova(X1,Y1), (X2,Y2), ..., (Xn,Yn). Na apscisu se nanose vrednostinezavisno promenljive X, a na ordinatu vrednosti zavisnopromenljive Y. Takav grafički prikaz naziva se dijagramraspršenosti.

Dijagram raspršenosti

Page 11: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 10

Podsetimo se jednačine prave:

Linearna jednačina ili jednačina linearne veze u ovom slučaju:

y = a + bx

x je nezavisno promenljivay je zavisno promenljivaa je konstanta u linearnoj jednačini otsečak na y osib je koeficijent nagiba prave

Prost linearni regresioni model

Page 12: Statistika Predavanje 12 Prosta Linearna Regresija

X

Y

0

1

2

3

-1

-2

1 2 3 4 5-1-2-3-4 132

+−= xy

132

+= xyT (0,1)

Eksplicitni oblik jednačine prave

17. 5. 2010. Beograd Predavanje 12 / 11

Page 13: Statistika Predavanje 12 Prosta Linearna Regresija

X

Y

0

1

2

3

-1

-2

1 2 3 4 5-1-2-3-4

132

+−= xy

132

+= xy

17. 5. 2010. Beograd Predavanje 12 / 12

Eksplicitni oblik jednačine prave

Page 14: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 13

Cilj regresije je predvideti vrednosti y za pojedine vrednosti x.Kako je reč o stohastičkim vezama između x i y ne može setačno predvideti vrednost y za određenu vrednost x.

Zato se kao moguće rešenje traži regresiona prava (kriva)koja će najmanje odstupati od empirijskih podataka.

Određivanje koeficijenata te linearne jednačine omogućujenam da vršimo traženo predviđanje. Takvo predviđanje nećebiti egzaktno jer se mora uzeti u obzir i greška zbogstohastičke prirode veze.

Prost linearni regresioni model

Page 15: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 14

Model proste linearne regresije u opštem obliku:Yi = β0 + β1xi + εi i =1, 2,…, N

gde suYi i-ta zavisna promenljivaxi i-ta vrednost nezavisna promenljivaβ0 i β1 nepoznate konstante, regresioni parametriεi stohastički član ili slučajna greškaN veličina osnovnog skupaNezavisno promenljiva X se naziva objašnjavajućompromenljivom jer pomoću nje pokušavamo da objasnimovarijacije promenljive Y.

Prost linearni regresioni model

Page 16: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 15

Na osnovu dijagrama raspršenosti odabira se tip krive kojinajviše odgovara empirijskim podacima. Tek tada na osnovudijagrama, ako on ukazuje na linearnu vezu dveju pojava,prelazimo na drugu etapu regresione analize – ocenjivanjenepoznatih parametara: slobodnog člana β0 i koeficijentanagiba β1.

Slučajnom greškom u stohastičkom regresionom modeluobuhvaćene su:

1. nedostajuće ili izostavljene promenljive (efekti pronljivihkoje nisu direktno uključene u model),

2. slučajne varijacije (domaćinstvo može u jednom mesecuda organizuje više zabava i potroši više na hranu, a sledećegmeseca zbog dečje ekskurzije ili kupovine nameštajaprištedeće na hrani.

Ocenjivanje: Metod najmanjih kvadrata

Page 17: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 16

U regresionom modelu su β0 i β1 parametri osnovnog skupa.Međutim, kako nisu poznati svi podaci o osnovnom skupu,regresioni model osnovnog skupa ocenjujemo na osnovupodataka iz uzorka. Ocene nepoznatih parametara, odsečka β0

i koeficijenta nagiba β1 se označavanju sa b0 i b1.

Cilj je da se na osnovu uzorka dođe do najboljih mogućihocena b0 i b1 i time postavi ocenjeni model uzorka (linijaregresije u uzorku):

gde je ona vrednost Y koja se tačno nalazi na najboljeprilagođenoj liniji regresije, pa se naziva prilagođena ilipredviđena vrednost Y.

Ocenjivanje: Metod najmanjih kvadrata

ii xbbY 10ˆ +=

iY

Page 18: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 17

Stvarne vrednosti promenljive Y nazivaju se empirijskevrednosti. Razlika između stvarne i očekivane (prosečne)vrednosti Y u osnovnom skupu predstavlja slučajnu grešku ε.Npr. To je razlika između iznosa koje je domaćinstvo jednog meseca stavrnopotrošili za hranu i prosečne vrednosti dobijene na osnovu regresione praveosnovnog skupa.

Razlika između stvarne i ocenjene vrednosti Y u uzorku nazivase rezidual i označava se sa e. Rezidual predstavlja ocenuslučajne greške, ε.

gde je Y stvarna vrednost , a ocenjena vrednost Y.

Ocenjivanje: Metod najmanjih kvadrata

YYe ˆ−=Y

Page 19: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 18

Stvarne vrednosti promenljive Y nazivaju se empirijskevrednosti. Razlika između stvarne i očekivane (prosečne)vrednosti Y u osnovnom skupu predstavlja slučajnu grešku ε.Npr. To je razlika između iznosa koje je domaćinstvo jednog meseca stavrnopotrošili za hranu i prosečne vrednosti dobijene na osnovu regresione praveosnovnog skupa.

Razlika između stvarne i ocenjene vrednosti Y u uzorku nazivase rezidual i označava se sa e. Rezidual predstavlja ocenuslučajne greške, ε.

gde je Y stvarna vrednost , a ocenjena vrednost Y.

Ocenjivanje: Metod najmanjih kvadrata

YYe ˆ−=Y

Page 20: Statistika Predavanje 12 Prosta Linearna Regresija

Ocenjivanje: Metod najmanjih kvadrata

17. 5. 2010. Beograd Predavanje 12 / 19

0)ˆ( =−= ∑∑ YYe

Dijagram raspršenosti i regresione prave

Suma svih reziduala je uvek jednaka 0.

Page 21: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 20

Kako je suma svih reziduala jednaka 0 njenimminimiziranjem i ne možemo dobiti najbolje prilagođenuregresionu krivu, ali minimiziranjem sume kvadratareziduala (SKR) mogu se dobiti vrednosti b0 i b1 uregresionom modelu uzorka. Od svih mogućih pravih linijatreba odabrati onu koja ima najmanju sumu kvadratavertikalnih odstupanja (reziduala).

gde je Y stvarna vrednost , a ocenjena vrednost Y.Minimiziranjem sume kvadrata reziduala dobijaju se b0 i b1,kao ocene regresionih parametara β0 i β1.

Ocenjivanje: Metod najmanjih kvadrata

Y

22 )ˆ( YYeSKR −== ∑∑

Page 22: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 21

Koeficijenti regresione prave uzorka, odnosno ocene pometodu najmanjih kvadrata glase:

gde je SK i SP označavaju odgovarajuću sumu kvadrata isumu proizvoda.

Ocenjivanje: Metod najmanjih kvadrata

xx

xy

SKSP

b =1 XbYb 10 −=

∑ ∑ ∑−=n

YXXYSPxy ∑ ∑−=

nX

XSK xx

22 )(

Page 23: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 22

Testiranje značajnosti regresione veze

Da bi primena regresione linije uzorka pri predviđanjuvrednosti zavisne promenljive Y bila opravdana,neophodno je prethodno ispitati da li uopšte postojilinearno slaganje između varijacija posmatrane dvepromenljive u osnovnom skupu.

Prilikom testiranja hipoteze o regresionom parametru β1testiramo nultu hipotezu da je parametar β1=0 što jeekvivalentno hipotezi da promenljiva X ne utiče napromenljivu Y.

Page 24: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 23

Testiranje značajnosti regresione veze

Nulte i alternativna hipoteza o regresionom parametru β1:H0: β1 = 0 (Između varijacija posmatranih pojava ne postojilinearna veza, odnosno X ne utiče na Y)H1: β1 ≠ 0 (Između varijacija posmatranih pojava postojilinearna veza, odnosno X utiče na Y)

Statistika t testa za testiranje hipoteze o β1 glasi:

Broj stepeni slobode je df = n - 2 . Testiranje se sprovodi naisti način kao kod aritmetičke sredine skupa.

11

111

bb Sb

Sbt =−

221 xnxsSb

⋅−=∑

Page 25: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 24

Cilj korelacione analize je da se utvrdi da li izmeđuvarijacija posmatranih pojava postoji kvantitativnoslaganje (korelaciona veza) i ako postoji u kom stepenu.

Ako se posmatraju dve pojave reč je o prostoj korelaciji, aako je reč o više pojava onda o višestrukoj korelaciji.

Takođe moguće je ispitati da li je reč o linearnoj ilikrivolinijskoj vezi.

Mi ćemo govoriti o prostoj linearnoj korelaciji.

Prosta linearna korelacija

Page 26: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 25

Prosta linearna korelacija

Za razliku od regresione analize u korelacionoj analizi seobe posmatrane pojave tretiraju kao slučajne promenljive.Ovde nema razlike između zavisne i nezavisnepromenljive. Svejedno je koju ćemo pojavu označiti sa Xakoju sa Y, jer će se dobiti identični rezultati.

Zadatak proste linearne korelacije jeste da pokaže daizmeđu varijacija dve pojave postoji prosta pravolinijskaveza.

Page 27: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 26

Koeficijent prostelinearne korelacije

Koeficijent korelacije predstavlja pokazatelj stepenakvantitativnog slaganja između promenljivih. Koeficijent prostelinearne korelacije u osnovnom skupu obeležava se sa ρ, a uuzorku sa r i može uzeti vrednosti samo u intervalu -1 i 1, tj.

-1 ≤ ρ ≤ 1 i -1 ≤ r ≤ 1

Ako je r = 1 između dve promenljive postoji perfektna pozitivnalinearna korelacija, tj. sve tačke dijagrama raspršenosti senalaze na rastućoj pravoj.

Ako je r = -1 između dve promenljive postoji perfektnanegativna linearna korelacija, tj. sve tačke dijagramaraspršenosti se nalaze na opadajućoj pravoj.

Page 28: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 27

Linearna korelacija između dve promenljive

Slaba pozitivna linearna korelacija r ≈ 0, r >0

Veoma jaka pozitivna linearna korelacija, r ≈ 1

Page 29: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 28

Linearna korelacija između dve promenljive

Slaba negativna linearna korelacija r ≈ 0, r < 0

Veoma jaka negativnalinearna korelacija, r ≈ -1

Page 30: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 29

Koeficijent prostelinearne korelacije

Ako su empirijske tačke raspršene svuda po dijagramu tadaizmeđu dve promenljive ne postoji linearna korelacija i tada jer ≈ 0.

Koeficijent proste linearne korelacije između dve promenljive uuzorku ili Pirsonov koeficijent korelacije, r, se izračunava kao:

Formula je simetrična u odnosu na promenljive X i Y, pa je svejedno koju smo promenljivu kako označili.

∑ ∑∑ ∑∑ ∑ ∑

−⋅−

−=

2222 )()( yynxxn

yxxynr

Page 31: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 30

Testiranje značajnosti ocene koeficijenta proste linearne korelacije

Testiranje hipoteze o koeficijentu proste linearne korelacijena osnovnom skupu ρ, na osnovu njegove ocene izslučajnog uzirka r se zasniva na pretpostavci o normalnostizajedničke raspodele za promenljive X i Y. Prilikom testiranjakoristimo t raspodelu verovatnoća.

Nulta hipoteza H0: ρ = 0 (u osnovnom skupu ne postojilinearna korelacija između dve promenljive)

Alternativna hipoteza H1: ρ ≠ 0 (u osnovnom skupu postojilinearna korelacija između dve promenljive)

Page 32: Statistika Predavanje 12 Prosta Linearna Regresija

17. 5. 2010. Beograd Predavanje 12 / 31

Testiranje značajnosti ocene koeficijenta proste linearne korelacije

Testiranje hipoteze o koeficijentu proste linearne korelacijena osnovnom skupu ρ se svodi na određivanje vrednostistatistike testa koja ima Studentovu t raspodelu sa (n – 2)stepena slobode:

gde je r ocenjena vrednost parametra ρ.

212

rnrt−−

=

Page 33: Statistika Predavanje 12 Prosta Linearna Regresija

Hvala na pažnji!

17. 5. 2010. Beograd Predavanje 12