korelacija i regresija_pod
DESCRIPTION
Korelacija i regresijaTRANSCRIPT
Korelacijska i regresijska analizaKorelacijska i regresijska analiza
•• OdnosOdnos međumeđu pojavamapojavama momožžee bitibiti::
–– deterministideterminističčki ki ili ili funkcionalni unkcionalni ii
–– stohastistohastiččkiki ili ili statististatističčkiki
Kod deterministiKod determinističčkoga se odnosa za svaku vrijednost koga se odnosa za svaku vrijednost jedne pojave tojedne pojave toččno zna vrijednost druge pojave.no zna vrijednost druge pojave.
Kod stohastiKod stohastiččkoga se odnosa na osnovi vrijednosti koga se odnosa na osnovi vrijednosti jedne pojave ne mojedne pojave ne možže sa sigurnoe sa sigurnoššćću predvidjeti u predvidjeti vrijednost druge pojave. vrijednost druge pojave.
•• PrimjeriPrimjeri deterministideterminističčkihkih odnosaodnosa: : stranica kvadratastranica kvadrata i i njenjegovgov opsegopseg, , kolikoliččinaina prodaneprodane robe i robe i dobivenidobiveni iznosiznos novcanovca..
•• PrimjeriPrimjeri stohastistohastiččkihkih odnosaodnosa: : cijenacijena nekeneke robe robe i njezinai njezina potrapotražžnjanja,,visinavisina i i staroststarost stablastabla..
Odnosi među pojavamaOdnosi među pojavama
•• Osnovna su pitanja koja pri prouOsnovna su pitanja koja pri prouččavanju odnosa između avanju odnosa između dviju ili vidviju ili višše pojava postavljamo:e pojava postavljamo:
–– Jesu li statistiJesu li statističčke varijable povezane?ke varijable povezane?
–– Na Na kojikoji susu nanaččinin povezanepovezane??
–– KolikoKoliko susu snasnažžnono povezanepovezane??
–– MoMožžee lili se se povezanostpovezanost numerinumeriččkiki izrazitiizraziti??
•• IstraIstražživanjem i kvantificiranjem povezanosti među ivanjem i kvantificiranjem povezanosti među promatranim pojavama, odnosno varijablama bavi se promatranim pojavama, odnosno varijablama bavi se korelacijska analizakorelacijska analiza. .
•• Utvrđivanjem analitiUtvrđivanjem analitiččkog izraza povezanosti među kog izraza povezanosti među pojavama bavi se pojavama bavi se regresijska analizaregresijska analiza..
DijagramDijagram rasprrasprššenjaenja
•• Polazna toPolazna toččka u korelacijskoj i regresijskoj ka u korelacijskoj i regresijskoj analizi jest analizi jest dijagram rasprdijagram rasprššenjaenja. . To To jeje grafigrafiččkikiprikazprikaz totoččakaaka u u koordinatnomkoordinatnomee sustavusustavu kojekojepredstavljajupredstavljaju nizniz uređenihuređenih parovaparova ((xx11, , yy11), ), ((xx22, , yy22), ), ……, (, (xxnn, , yynn); ); pripri ččemuemu susu xx11, , xx22, , ……, , xxnn, , vrijednostivrijednosti jednjednee varijablevarijable ((XX ), a ), a yy11, , yy22, , ……, , yynn, , vrijednostivrijednosti drugdrugee varijablevarijable ((YY ).).
•• UoUoččimoimo lili nekuneku pravilnostpravilnost u u rasporerasporedudu totoččakaaka u u dijagramudijagramu rasprrasprššenjaenja, , momožžemoemo zakljuzaključčitiiti jesujesu lilivarijablevarijable koreliranekorelirane iliili nisunisu..
Primjeri dijagrama rasprPrimjeri dijagrama rasprššenjaenja
YY
XX
Postoji korelacija Nema korelacije
Y Y
XX
Linearna i nelinearna korelacija
X X
Y Y
Korelacije pozitivnog i negativnog smjera
X
Y
X
Y
Jaka i slaba korelacija
X
Y
Potpuna korelacija
KoeficijentiKoeficijenti korelacijekorelacije•• KKoeficijentioeficijenti korelacijekorelacije su psu pokazateljiokazatelji stupnjastupnja
statististatističčkeke povezanostipovezanosti. . •• AkoAko se se istraistražžujeuje vezaveza izmeđuizmeđu dvijudviju varijablivarijabli ii akoako jeje tata
vezaveza linearnalinearna, , stupanj povezanosti izrastupanj povezanosti izražžava se ava se koeficijentom linearne korelacijekoeficijentom linearne korelacije..
•• IstraIstražžuje li se postojanje linearne veze jedne varijable u uje li se postojanje linearne veze jedne varijable u ovisnosti od dviju ili viovisnosti od dviju ili višše drugih varijabli, stupanj e drugih varijabli, stupanj povezanosti izrapovezanosti izražžava se ava se koeficijentom vikoeficijentom viššestrukeestrukelinearne korelacijelinearne korelacije. .
•• Stupanj nelinearne ili Stupanj nelinearne ili krivolinijskekrivolinijske veze između varijabli veze između varijabli izraizražžava se ava se koeficijentom koeficijentom krivolinijskekrivolinijske korelacijekorelacije..
•• Ako su promatrane pojave predstavljene Ako su promatrane pojave predstavljene redosljednimredosljednimvarijablama, stupanj njihove povezanosti izravarijablama, stupanj njihove povezanosti izražžava se ava se koeficijentom korelacije rangakoeficijentom korelacije ranga..
PearsonovPearsonov** koeficijentkoeficijent korelacijekorelacije•• PearsonovPearsonov koeficijentkoeficijent korelacijekorelacije ((rr )) mjerimjeri jjakostakost i i smjersmjer linearnelinearne
korelacijekorelacije..•• RaRaččunauna se se popo formuliformuli::
**KarlKarl PearsonPearson (1857. (1857. -- 1936.), engleski matemati1936.), engleski matematiččar, statistiar, statističčar i biolog.ar i biolog.
,yx
xyrσσ
σ=
gdje su σx i σy standardne devijacije varijabli X i Y, a σxy jekovarijancakovarijanca - aritmetička sredina umnožaka odstupanja varijabli odnjihovih aritmetičkih sredina.
Kovarijanca niza n uređenih parova vrijednosti obilježja X i Y računa se po formuli:
)()(11
yyxxn i
n
iixy −−=σ ∑
=
ili po formuli:
yxn
yxn
iii
xy −=σ∑=1
•• UvijekUvijek jeje --1 1 ≤≤ rr ≤≤ 1.1.
–– AkoAko jeje ||rr | = 1, | = 1, vezaveza jeje funkcionalnafunkcionalna; ; –– akoako jeje rr = 0= 0, , nene postojipostoji linearnalinearna korelacijakorelacija međumeđu ispitivanimispitivanim
pojavamapojavama..
•• Smjer korelacije jednak je predznaku od Smjer korelacije jednak je predznaku od rr..
•• Stupanj jakosti korelacije okvirno je dan saljedeStupanj jakosti korelacije okvirno je dan saljedeććom tablicom:om tablicom:
potpuna korelacija1
jaka korelacija0,8 - 1
srednje jakakorelacija
0,5 - 0,8
slaba korelacija0 - 0,5
nema korelacije0Jakost korelacije| r |
Regresijska analizaRegresijska analiza
•• Ako model izraAko model izražžava vezu između zavisne i jedne ava vezu između zavisne i jedne nezavisne varijable, rijenezavisne varijable, riječč je o je o jednostavnom jednostavnom regresijskom modeluregresijskom modelu..
•• Ako model izraAko model izražžava vezu između zavisne i dviju ava vezu između zavisne i dviju ili viili višše nezavisnih varijabli, rijee nezavisnih varijabli, riječč je o je o modelu modelu viviššestruke regresijeestruke regresije. .
•• Regresijski modeli mogu izraRegresijski modeli mogu izražžavati i linearne i avati i linearne i nelinearne veze između promatranih pojava ili nelinearne veze između promatranih pojava ili varijabli.varijabli.
•• Regresijska analizaRegresijska analiza bavi se određivanjem bavi se određivanjem funkcionalne zavisnosti između dviju ili vifunkcionalne zavisnosti između dviju ili višše e varijabli. Analitivarijabli. Analitiččki izraz te zavisnosti zove se ki izraz te zavisnosti zove se regresijski modelregresijski model..
•• Najjednostavniji oblik zavisnosti, odnosno Najjednostavniji oblik zavisnosti, odnosno najjednostavniji regresijski model je najjednostavniji regresijski model je modelmodeljednostavne linearne regresijejednostavne linearne regresije*:*:
yy = = axax + + bb,,
gdje jegdje je a, b a, b ∈∈ RR.
•• Ovakvim modelom pokuOvakvim modelom pokuššavamo objasniti veliavamo objasniti veliččinu inu yy preko samo jedne velipreko samo jedne veliččine (ine (xx), a svi ostali ), a svi ostali utjecaji se zanemaruju.utjecaji se zanemaruju.
•• Takav je pristup u praksi opravdan jer smo Takav je pristup u praksi opravdan jer smo najnajččeeššćće u nemogue u nemoguććnosti sagledati sve utjecaje nosti sagledati sve utjecaje na velina veliččinu inu yy, pa uzimamo u obzir samo , pa uzimamo u obzir samo najbitnijenajbitnije..
*Model je linearan ako svaka varijabla u modelu ima potenciju 1.
•• No moguNo mogućće je da se analizom dođe e je da se analizom dođe dodo zakljuzaključčka ka da je da je yy u znau značčajnoj linearnoj zavisnosti od viajnoj linearnoj zavisnosti od višše e varijabli. Tada bi varijabli. Tada bi određivali model oblikaodređivali model oblika::
yy = = axax11 + + axax22 + + …… + + axaxkk + + bb,,
gdje jegdje je aaii, b , b ∈∈ RR, i = 1, …, k.
To je To je model vimodel viššestruke linearne regresijeestruke linearne regresije..
•• Podaci za regresijsku analizu nastaju Podaci za regresijsku analizu nastaju opaopažžanjem ili mjerenjem u statistianjem ili mjerenjem u statističčkim kim pokusima.pokusima.
•• U gospodarskim primjenama regresijskog U gospodarskim primjenama regresijskog modela podaci se javljaju kao: modela podaci se javljaju kao: 1. broj1. brojččane vrijednosti pojava za određene ane vrijednosti pojava za određene
gospodarske ili prostorne jedinice gospodarske ili prostorne jedinice 2. vremenski nizovi2. vremenski nizovi3. kombinacija 1. i 2.3. kombinacija 1. i 2.
Model jednostavne linearne regresijeModel jednostavne linearne regresije
•• Pretpostavimo da je zadan dijagram rasprPretpostavimo da je zadan dijagram rasprššenja enja od od nn totoččaka (aka (xx11, , yy11), (), (xx22, , yy22), ..., (), ..., (xxnn, , yynn), te da ), te da nas oblik tog dijagrama upunas oblik tog dijagrama upuććuje na postojanje uje na postojanje linearne korelacije među obiljelinearne korelacije među obilježžjima jima XX i i YY. .
•• PravacPravac regresijeregresije pp imaima jednadjednadžžbubu::yy = = axax + + bb..
Nagib (Nagib (aa) i odsje) i odsječčak (ak (bb) o) određuju se dređuju se metodom najmanjih metodom najmanjih kvadratakvadrata..
Metoda najmanjih kvadrataMetoda najmanjih kvadrata
•• Metoda najmanjih kvadrata bazira se na uvjetu da zbroj Metoda najmanjih kvadrata bazira se na uvjetu da zbroj kvadrata vertikalnih odstupanja tokvadrata vertikalnih odstupanja toččaka u dijagramu aka u dijagramu rasprrasprššenja od traenja od tražženog pravca regresije bude minimalan. enog pravca regresije bude minimalan.
Vertikalna odstupanja od pravca regresije
y = ax + b
x1 x2
ε1
ε2
(x1, y1)(x2, y2)
ax2 + bax1 + b
X
Y
ε3
ax3 + b
x3
(x3 y3)
•• IzIz zadanogzadanog uvjetauvjeta dobidobijeje se:se:
,2x
xyaσ
σ= ,xayb −=
,
.
gdje je gdje je σσxx22 varijancavarijanca varijable varijable XX, a , a σσxyxy kovarijancakovarijanca između između
varijabli varijabli XX i i YY..
Parametar Parametar ««aa»» zove se zove se regresijski koeficijentregresijski koeficijent . On pokazuje za . On pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna varijabla promijeni za jedan. varijabla promijeni za jedan.
Parametar Parametar ««bb»» je konstanta i pokazuje vrijednost zavisne varijable je konstanta i pokazuje vrijednost zavisne varijable u sluu sluččaju kada je nezavisna varijabla jednaka nuli.aju kada je nezavisna varijabla jednaka nuli.
PrimjedbaPrimjedba
•• Kao Kao šštoto smosmo promatralipromatrali pravacpravac regresijeregresije veliveliččineine YY u u odnosuodnosu nana veliveliččinuinu XX, , momožžemoemo promatratipromatrati i i obrnutoobrnuto: : pravacpravac regresijeregresije veliveliččineine XX u u odnosuodnosu nana veliveliččinuinu YY. Taj . Taj pravacpravac imaima jednadjednadžžbubu::
,byax ′+′=
gdje je:gdje je:
,2y
xyaσ
σ=′ .yaxb ′−=′
,
.
Primjer 1: Mjerenjem duljine klipa kukuruza (u cm) i broja zrna na klipu na uzorku od 20 klipova dobiveni su sljedeći podaci:Duljina klipa (X) 17,5 15,5 21,0 26,0 21,5 18,0 19,5 23,0 22,5 19,0 Broj zrna na klipu (Y) 480 456 564 714 602 558 640 648 562 565
Duljina klipa (X ) 20,5 17,0 16,5 15,5 22,0 25,0 21,0 18,0 19,5 23,0Broj zrna na klipu (Y) 600 490 472 458 560 598 603 565 620 672
Na osnovi dobivenih podataka nacrtan je dijagram raspršenja.
5 10 15 20 25
450
500
550
600
650
700
Ovaj dijagram upućuje na zaključak da postoji linearna korelacija, pa ima smisla tražiti jednadžbu pravca regresije:
Za određivanje te jednadžbe treba izračunamti varijancu i kvarijancu, za zadanepodatke. Izračunavanjem se dobiva:
σxy = 178,217; σx = 2,96859; σy = 71,9731.
Uvrštavanjem u formule za određivanje nagiba i odsječka pravca regresije dobivamo:
2232,202.96859178,217
2 ==a
358,164125,202232,2035,571 =⋅−=−= xayb
Jednadžba pravca regresije je y = 20,2232x + 164,358.
Njegov je graf dan je na sljedećoj slici. slici
5 10 15 20 25
450
500
550
600
650
700
Primjer 2:Primjer 2:
434315015041411451453636120120333311011029291051052626100100yyiixxii
Promatrana je veza između broja proizvedenih proizvoda (X) i ukupnog profita (Y) (u tisućama kuna). Dobiveni podaci dani su u tablici:
a) Nacrtajte dijagram raspršenja.b) Odredite jednadžbu pravca regresije koji
pokazuje ovisnost ukupnog profita o broju proizvedenih proizvoda i označite značenje parametara.
c) Ucrtajte pravac regresije u prethodni graf.d) Izračunajte regresijske vrijednosti i
vrijednosti rezidualnih odstupanja.
RjeRješšenje:enje:
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100 120 140 160
Series1
a)a)
b)b)
25990259909105091050208208730730
6450645022500225004343150150
5945594521025210254141145145
4320432014400144003636120120
3630363012100121003333110110
3045304511025110252929105105
2600260010000100002626100100
xxii yyiixxii22yyiixxii
46733,267,12130523,067,34
30523,047,22282,680
67,12169105067,3467,121625990
222
−=⋅−=−=
==⋅−
⋅⋅−=
−
−=∑∑
xbyb
xnx
yxnyxa
i
ii
67,346
208,67,1216
730==== yx
46733,230523,0 −= xy
Jednadžba pravca regresije je:
d)d)
y = 0,306x - 2,5597R2 = 0,9446
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100 120 140 160
Series1Linear (Series1)
00208,0139208,0139208208730730
--0,317170,3171743,3171743,317174343150150
--0,791020,7910241,7910241,791024141145145
1,839731,8397334,1602734,160273636120120
1,892031,8920331,1079731,107973333110110
--0,581820,5818229,5818229,581822929105105
--2,055672,0556728,0556728,055672626100100
εεiiyyiixxii iy
∑ ∑= ii yy ˆ
d) Izračunavanje regresijskih vrijednosti i vrijednosti rezidualnih odstupanja.
Primjer 3:Primjer 3:
•• Analiziraju se ukupni troAnaliziraju se ukupni trošškovi proizvodnje u kovi proizvodnje u jednom poduzejednom poduzećću. u. Na temelju kvartalnih Na temelju kvartalnih podataka utvrđene su kolipodataka utvrđene su količčine proizvodnje i ine proizvodnje i ukupni troukupni trošškovi proizvodnje. Podaci su dani u kovi proizvodnje. Podaci su dani u tablici. tablici. –– (a) Nacrtajte dijagram rasipanja. (a) Nacrtajte dijagram rasipanja. ŠŠto zakljuto zaključčujete iz ujete iz
dijagrama? dijagrama? –– (b) Procijenite vrijednosti parametara regresijskog (b) Procijenite vrijednosti parametara regresijskog
modela i protumamodela i protumaččite njihovo znaite njihovo značčenje. enje. –– (c) Izra(c) Izraččunajte regresijske vrijednosti. unajte regresijske vrijednosti. –– (d) Odredite vrijednosti rezidualnih odstupanja.(d) Odredite vrijednosti rezidualnih odstupanja.
300300743743274274692692268268641641238238577577227227529529208208490490205205462462190190441441177177411411153153373373146146352352
UkUk. tro. trošškovikoviProizvodnjaProizvodnja
1303333130333331345433134543238623865711571122290022290055204955204930030074374318960818960847886447886427427469269217178817178841088141088126826864164113732613732633292933292923823857757712008312008327984127984122722752952910192010192024010024010020820849049094710947102134442134442052054624628379083790194481194481190190441441727477274716892116892117717741141157069570691391291391291531533733735139251392123904123904146146352352
xxii yyiixxii22yyiixxii
xyb
a
yx
38092,014236,1914236,191818,51938092,09091,216
38092,084,16949517,64565
1818,5191131345439091,2161818,519111303333
9091,21611
23861818,51911
5711
2
+==⋅−=
==⋅−
⋅⋅−=
====
--0,00000,00002386,00012386,000113033331303333313454331345432386238657115711--0,72%0,72%--2,16592,1659302,1659302,1659222900222900552049552049300300743743--3,19%3,19%--8,73908,7390282,7390282,73901896081896084788644788642742746926921,75%1,75%4,68794,6879263,3121263,3121171788171788410881410881268268641641--0,39%0,39%--0,93320,9332238,9332238,93321373261373263329293329292382385775772,80%2,80%6,35106,3510220,6490220,64901200831200832798412798412272275295291,06%1,06%2,20682,2068205,7932205,79321019201019202401002401002082084904904,82%4,82%9,87269,8726195,1274195,127494710947102134442134442052054624621,51%1,51%2,87192,8719187,1281187,128183790837901944811944811901904414410,73%0,73%1,29951,2995175,7005175,70057274772747168921168921177177411411--5,38%5,38%--8,22558,2255161,2255161,22555706957069139129139129153153373373--4,95%4,95%--7,22627,2262153,2262153,22625139251392123904123904146146352352
uui,reli,reluuiixxii yyiixxii22yyiixxii iy