Regresijska i korelacijska analiza
Dio statistike koji prou ava povezanost i uzajamni odnos me u pojavama, koriste i pri tomu matemati ke relacije, naziva se korelacija. Veze me u pojavama mogu biti funkcionalne (ili deterministi ke) i statisti ke ( ili stohasti ne). Glavna zada a korelacijske analize je otkrivanje zakonitosti i pravilnosti koje vladaju u odnosima me u masovnim statisti kim pojavama, te kreiranje matemati kih modela koji pomo u simbola opisuju ponašanje pojava u stvarnim uvjetima funkcioniranja.Korelacijska analiza uklju uje konstrukciju grafikona za
prikaz kovarijacije pojava (varijabli) i utvr ivanje broj anih pokazatelja jakosti i smjera veze izme u varijabli.
Regresijska i korelacijska analiza
Kada se u analizi me uzavisnosti definira koja je varijabla zavisna a koja nezavisna onda se koriste metode regresijske analize. Zavisnost pojava se utvr uje prema prethodnim teorijskim i empirijskim saznanjima o prirodi pojava i njihovim odnosima. Matemati ki izraz koji pokazuje kako na vrijednost zavisne varijable utje e vrijednost jedne ili više nezavisnih varijabli naziva se regresijski model.Regresijski model predstavlja matemati ku funkciju kojom se opisuje zavisnost jedne (zavisne) varijable o jednoj ili više nezavisnih varijabli.
Modeli regresijeOp i oblik modela regresije je:
Model se sastoji od deterministi kog dijela, koji predstavlja matemati ku funkciju kojom se izražava zavisnost zavisne varijable od odre enog broja nezavisnih varijabli, i stohasti nog dijela koji predstavlja odstupanje od funkcionalne zavisnostiModele regresije možemo podijeliti s obzirom na broj nezavisnih varijabli uklju enih u model i s obzirom na oblik matemati ke funkcije deterministi kog dijela modela
),...,,( 21 kXXXfY
Modeli regresije
S obzirom na broj nezavisnih varijabli u modelu, modeli regresije se dijele na modele jednostavne regresije i modele višestruke regresije.Model jednostavne linearne regresije ima jednu zavisnu i jednu nezavisnu varijablu.Model višestruke regresije ima jednu zavisnu i više nezavisnih varijabli
Modeli regresije
Prema obliku matemati ke funkcije deterministi kog modela, modele regresije dijelimo na linearne i nelinearne ili krivolinijske modele.Veza me u varijablama kod linearnog modela predo ena je linearnom funkcijom, iji je graf pravac.Veza izme u varijabli kod krivolinijske regresije ima oblik neke druge matemati ke funkcije, iji je graf neka kriva linija.
Modeli regresije
Cilj regresijske analize je utvrditi smjer, oblik i ja inu veze izme u analiziranih pojava. Smjer veze može biti pozitivan i negativan. Oblik veze definiran je oblikom matemati ke funkcije koja predstavlja deterministi ki dio modela regresije. Tako postoje linearni i krivolinijski modeli.Ja ina veze se odre uje analizom slu ajne varijable regresijskog modela. Slu ajnom varijablom se predo uju nesistemski utjecaji, odnosno utjecaji pojava koje nisu uklju ene u model.Kao prvi korak u analizi zavisnosti dviju slu ajnih varijabli uobi ajeno se empirijski podaci prikazuju grafi ki. U koordinatni sustav se ucrtavaju to ke odre ene parovima vrijednosti . Tako dobiveni dijagram se naziva dijagram rasipanja (scatter diagram).
ii yx ,
Karakteristi ni oblici dijagrama rasipanja
Pozitivna, linearna funkcionalna veza
y i
x i
Negativna, linearna funkcionalna vezax i
y i
Pozitivna,linearna jaka stohasti na veza
x i
y i
Negativna, linearna umjerena stohasti na vezax i
y i
Karakteristi ni oblici dijagrama rasipanja
Pozitivna, linearna slaba statisti ka veza
x i
y i
Negativna, linearna slaba stohasti na vezax i
y i
Nepostojanje veze x i
y i
Krivolinijska stohasti na veza
x i
yi
Modeli regresije – jednostavna linearna regresija
Model jednostavne linearne regresije, op i oblik modela je:
U modelu jednostavne linearne regresije vrijednost zavisne varijable Y je linearna kombinacija vrijednosti nezavisne varijable X, parametara modela i slu ajne varijable.Funkcionalni dio modela odre en je ako su poznate vrijednosti parametaraVrijednost parametara se procjenjuje empirijski ili pomo u izmjerenih n parova vrijednosti varijable X i Y
iii exbby 10
10 bib
Modeli regresije – jednostavna linearna regresija
Analiza modela u domeni deskriptivne statistike vrši se izra unavanjem vrijednosti parametara i pokazatelja reprezentativnosti modela, a to su varijanca, standardna devijacija, koeficijent varijacije i koeficijent determinacije. Vrijednost procijenjenih parametara se izra unava iz n izmjerenih parova vrijednosti x i y.Prema tome i vrijednosti pokazatelja se odnose samo na n izmjerenih parova podataka.
Modeli regresije – jednostavna linearna regresija
Parametri procijenjenog modela se odre uju tako da odstupanja izmjerenih vrijednosti od procijenjene vrijednosti zavisne varijable pomo u modela budu što manja. Postoji više metoda procjene parametara, a naj eš e se koristi metoda minimalnih kvadrata odstupanja. Parametri procijenjeni metodom minimalnih kvadrata odstupanja opisuju pravac za koji je zbroj rezidualnih kvadrata odstupanja minimalan.
Parametri se izra unavaju pomo u izraza:
2
1
2
11
xnx
yxnyxb n
ii
n
iii
xbyb0
Modeli regresije – jednostavna linearna regresija
Parametar predstavlja konstantni lan modela, a parametar je regresijski koeficijent.Konstantan lan je vrijednost zavisne varijable kada je vrijednost nezavisne varijable jednaka nuli. Za ve inu primjera nema konkretno zna enje.Regresijski koeficijent predstavlja linearnu promjenu zavisne varijable za jedini no pove anje nezavisne varijable. Regresijske vrijednosti se dobivaju uvrštavanjem odgovaraju ih vrijednosti nezavisne varijable x u model regresije.Rezidualna odstupanja su odstupanja izmjerenih vrijednosti zavisne varijable od regresijskih vrijednosti.
0b
0b1b
1b
Modeli regresije – jednostavna linearna regresija
Podaci o cijeni i prodaji proizvoda A
0
5
10
15
20
0 2 4 6 8 10
Cijena
Prod
aja
Empirijski podaci Linearni model regresije
(x, y )
(0, b 0 )
Modeli regresije – jednostavna linearna regresija
Razlike vrijednosti izmjerenih vrijednosti zavisne varijable i regresijskih vrijednosti predstavljaju rezidualna odstupanja i ozna avaju se sa .Ovako dobivena odstupanja su izražena u mjernim
jedinicama zavisne varijable Y i nazivaju se apsolutna rezidualna odstupanja, . Relativna rezidualna odstupanja su izražena u postotcima i dobiju se tako što se apsolutno odstupanje podijeli izmjerenom vrijednosti varijable, zatim omjer pomnoži sa 100,
Rezidualna odstupanja se mogu izraziti i u standardnim devijacijama, pa se nazivaju standardizirana rezidualna odstupanja. Dobivaju se tako da se apsolutna odstupanja podijele standardnom devijacijom modela regresije,
ie
iii yye ˆ
y
iii
yye
ˆ,
100ˆ
,i
iireli y
yye
Modeli regresije – jednostavna linearna regresija
Model regresije je reprezentativniji što su manja rezidualna odstupanja.Kakvo a modela se mjeri odgovaraju im pokazateljima, a najzna ajniji su:
- Varijanca ili prosje no kvadratno odstupanje, dobiva se tako da se zbroj kvadrata rezidualnih odstupanja podijeli brojem podataka.
- Standardna greška modela ili prosje no odstupanje podataka od regresijskih vrijednosti, dobiva se kao pozitivni drugi korijen iz varijance.
- Koeficijent varijacije je omjer standardne devijacije i prosje ne vrijednosti zavisne varijable, pomnoženo sa 100.
n
iiiy yy
n 1
22ˆ ˆ1
100ˆˆ y
V yy
Modeli regresije – jednostavna linearna regresija
U analizi reprezentativnosti regresijskog pravca koristi se koeficijent determinacije.Koeficijent determinacije je relativna mjera prilago enosti regresijskog pravca empirijskim podacima.Dobiva se kao omjer protuma enog dijela zbroja kvadrata odstupanja i ukupnog zbroja kvadrata odstupanja.Ukupno odstupanje empirijskih podataka (varijabla y) od prosje ne vrijednosti varijable y se rastavlja na dio odstupanja protuma en modelom regresije (razlika regresijske vrijednosti i prosje ne vrijednosti) i dio ne protuma en modelom (razlika izme u izmjerene i regresijske vrijednosti)Koeficijent determinacije uzima vrijednosti iz intervala 0 i 1.
n
ii
n
ii
yy
yyr
1
2
1
2
2
ˆ
Nelinearni regresijski modeli
Povezanost dvije pojave ne može se uvijek izraziti linearnim modelom. Zbog toga se u izgradnji modela regresije koriste razli iti oblici funkcija, pa se takvi modeli zovu nelinearni ili krivolinijski modeli regresije. U praksi se naj eš e koriste modeli koji se postupkom transformacije mogu prevesti u modele jednostavne linearne regresije i modeli polinomske regresije.Od modela koji se mogu transformirati u modele jednostavne linearne regresije naj eš e se koriste:
- eksponencijalni modeli,- multiplikativni model,- logaritamski model i- recipro ni model.
Nelinearni regresijski modeli
Kod svih modela regresije radi se o statisti koj me uzavisnosti pojava, pa modeli imaju funkcionalni dio i slu ajnu promjenjivu. Analiza funkcionalnog dijela zavisi od oblika funkcije koji se koristi, a analiza rezidualnih odstupanja se provodi na isti na in bez obzira na oblik funkcije. Zbog toga je kod krivolinijskihmodela navedena analiza samo funkcionalnog dijela.Analiza rezidualnih odstupanja provodi se izra unavanjem istih pokazatelja reprezentativnosti kao kod linearnog modela.
Nelinearni regresijski modeli
Funkcionalni dio eksponencijalni model ima oblik:
Logaritmiranjem izraza dobiva se linearizirani model:
Analiza transformiranog modela provodi se na isti na in kao kod linearnih modela, uz napomenu da je kod interpretacije rezultata nužno voditi ra una koje su varijable ili parametri transformirani. U navedenom modelu izvršena je transformacija zavisne varijable i koriste se logaritamske vrijednosti varijable .Vrijednosti parametara koji se procjenjuju pomo u empirijskih
vrijednosti se dobivaju u logaritamskim vrijednostima.
ixi bby 10ˆ
ii xbby 10 loglogˆlog
iylog
Nelinearni regresijski modeli
Vrijednost parametara, odnosno njihovih logaritamskih vrijednosti se dobiva pomo u izraza:
n
ii
n
iii
xnx
yxnyxb
1
22
11
logloglog xbyb 10 logloglog
Nelinearni regresijski modeliVrijednost parametara originalnog modela dobiva se antilogaritmiranjem. Parametar predstavlja vrijednost zavisne varijable kada nezavisna varijabla ima vrijednost nula. Kao i kod linearnog modela uglavnom nema stvarno zna enje. Vrijednost parametra pokazuje relativnu promjenu zavisne varijable za jedini no relativno pove anje nezavisne varijable. Tuma i se uglavnom kao postotna promjena. Zna i, ako se nezavisna varijabla pove a za 1% zavisna varijabla e se promijeniti u postotcima za iznos
pomnožen sa sto.
0b
1b
10011b
Nelinearni regresijski modeli
Logaritamski model koristi transformaciju nezavisne varijable ( ), a op i oblik regresije je: Model s procijenjenim parametrima se dobiva pomo u izmjerenih n parova vrijednosti zavisne i nezavisne varijable,
Vrijednosti parametara procijenjenog modela se izra unavaju pomo u izraza:
ixlog ii xbby logˆ 10
ii yx ,
n
ii
n
iii
xnx
yxnyxb
1
22
11
loglog
loglogxbyb log10
Nelinearni regresijski modeli
Parametar predstavlja vrijednost zavisne varijable kada je nezavisna varijabla jednaka jedan .Parametar pokazuje prosje no linearno pove anje zavisne varijable kada se logaritam nezavisne varijable pove a za jedan (vrijednost logaritma 0, 1, 2, 3, 4,… imaju redom brojevi 1, 10, 100, 1000, 10000,…)Recipro ni model regresije ima oblik:
Korištenjem recipro ne vrijednosti za zavisnu varijablu , model se transformira u linearni oblik:
0b01log
1b
ii xbb
y10
1ˆ
iy1
ii
xbby 10ˆ1
Model polinomske regresije
U izboru tipa krivulje koja je najbolje prilago ena to kama u dijagramu rasipanja može se po i od modela polinomskeregresije. Op i oblik polinomske regresije je:
Koeficijenti polinoma , su parametri modela regresije kojetreba procijeniti. Procjena parametara vrši se pomo u izmjerenih n parova vrijednosti zavisne i nezavisne varijable ,
kik
jijiii xbxbxbxbby ........ˆ 2
210
jb
ii yx ,
Model polinomske regresije
U modelu polinomske regresije vrijednost zavisne varijable je kombinacija nepoznatih parametara , numeri kih vrijednosti nezavisne varijable s razli itim stupnjevima i nepoznatih vrijednosti slu ajne varijable.Ovdje je prikazan samo funkcionalni dio modela, a analiza slu ajne varijable ili rezidualnih odstupanja se provodi na isti na in kao kod modela jednostavne linearne regresije.Procjena parametara se provodi metodom minimalnih kvadrata odstupanja, sli no kao kod modela jednostavne linearne regresije, samo je broj normalnih jednadžbi jednak broju nepoznatih parametara.
iyjb kj ,...,2,1
Model polinomske regresije
U zavisnosti od vrijednosti k imamo polinome razli itog stupnja. Za imamo polinom prvog stupnja ili linearnu funkciju; za polinom je drugog stupnja ili kvadratna funkcija iji graf je parabola; za polinom je tre eg stupnja…Teorijski k može uzeti bilo koju vrijednost iz skupa prirodnih brojeva, ali se u praksi koriste uglavnom polinomi drugog i tre eg stupnja.Porastom stupnja polinoma, procjena parametara modela polinomske regresije postaje matemati ki znatno složenija, a javlja se i problem tuma enja izra unatih parametara.
1k2k
3k
Model polinomske regresije
Za model kvadratne regresije procijenjeni model ima oblik:
Graf kvadratne funkcije je parabola, a procjena regresijskih koeficijenata , i se dobiva rješavanjem sustava normalnih jednadžbi:
2210ˆ iii xbxbby
n
i
n
iiii
n
i
n
iii
n
i
n
i
n
iiiii
n
ii
n
i
n
i
n
iiii
yxxbxbxb
yxxbxbxb
yxbxbnb
1 1
242
1 1
31
20
1 1 1
32
21
10
1 1 1
2210
0b 1b 2b
Korelacijski analiza
Korelacijskom analizom se utvr uje postojanje i ja ina statisti ke veze me u pojavama. Za dvije pojave predo ene kvantitativnim varijablama ja ina veze se mjeri koeficijentom korelacije.Ako su pojave predo ene varijablama ranga, stupanj statisti ke povezanosti se mjeri koeficijentom korelacije ranga.
Korelacijski analiza
Polazna veli ina za izra unavanje koeficijenta korelacije izme u dvije numeri ke varijable je kovarijanca. Ako je za dvije numeri ke varijable X i Y izmjereno n parova njihovih vrijednosti , kovarijanca predstavlja prvi mješoviti moment vrijednosti varijabla oko njihovih sredina. Izraz za kovarijancu je:
Kovarijanca je aritmeti ka sredina umnožaka odstupanja vrijednosti varijable X od njezine aritmeti ke sredine i odstupanja vrijednosti varijable Y od njezine aritmeti ke sredine. Može uzimati pozitivne i negativne vrijednosti i ovisna je o mjernim jedinicama varijable X i Y, pa se njome prosu uje postojanje i smjer veze, ali ne i stupanj veze.
ii yx , ni ,...,2,1
n
iii yyxx
nM
111
1
Korelacijski analiza
Stupanj veze se mjeri Pearsonovim koeficijentom linearne korelacije koji se dobiva tako da se prvi mješoviti moment podijeli sa standardnim devijacijama varijabla X i Y. Izraz za koeficijent korelacije je:
ili u razvijenom obliku navedeni izraz ima oblik:
yx
Mr 11 11 r
n
ii
n
ii
n
iii
ynyxnx
yxnyxr
1
22
1
22
1
Korelacijski analiza
Spearmanov koeficijent korelacije ranga se izra unava pomo u parova modaliteta rang-varijabla ili numeri kih varijabla transformiranih u rang-varijable. Spearmanov koeficijent korelacije je dan izrazom:
Koeficijent korelacije ranga poprima vrijednosti iz zatvorenog intervala od minus jedan do plus jedan.
nn
dr
n
ii
s 31
261 iii yrxrd
11 sr