osnove statistike - ekonomski fakultet sveučilišta u...

Click here to load reader

Post on 30-May-2018

216 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • OSNOVE STATISTIKE

    Regresijska i korelacijska analiza

  • Regresijska i korelacijska analiza

    Dio statistike koji prou ava povezanost i uzajamni odnos me u pojavama, koriste i pri tomu matemati ke relacije, naziva se korelacija. Veze me u pojavama mogu biti funkcionalne (ili deterministi ke) i statisti ke ( ili stohasti ne). Glavna zada a korelacijske analize je otkrivanje zakonitosti i pravilnosti koje vladaju u odnosima me u masovnim statisti kim pojavama, te kreiranje matemati kih modela koji pomo u simbola opisuju ponaanje pojava u stvarnim uvjetima funkcioniranja.Korelacijska analiza uklju uje konstrukciju grafikona za

    prikaz kovarijacije pojava (varijabli) i utvr ivanje broj anih pokazatelja jakosti i smjera veze izme u varijabli.

  • Regresijska i korelacijska analiza

    Kada se u analizi me uzavisnosti definira koja je varijabla zavisna a koja nezavisna onda se koriste metode regresijske analize. Zavisnost pojava se utvr uje prema prethodnim teorijskim i empirijskim saznanjima o prirodi pojava i njihovim odnosima. Matemati ki izraz koji pokazuje kako na vrijednost zavisne varijable utje e vrijednost jedne ili vie nezavisnih varijabli naziva se regresijski model.Regresijski model predstavlja matemati ku funkciju kojom se opisuje zavisnost jedne (zavisne) varijable o jednoj ili vie nezavisnih varijabli.

  • Modeli regresijeOp i oblik modela regresije je:

    Model se sastoji od deterministi kog dijela, koji predstavlja matemati ku funkciju kojom se izraava zavisnost zavisne varijable od odre enog broja nezavisnih varijabli, i stohasti nog dijela koji predstavlja odstupanje od funkcionalne zavisnostiModele regresije moemo podijeliti s obzirom na broj nezavisnih varijabli uklju enih u model i s obzirom na oblik matemati ke funkcije deterministi kog dijela modela

    ),...,,( 21 kXXXfY

  • Modeli regresije

    S obzirom na broj nezavisnih varijabli u modelu, modeli regresije se dijele na modele jednostavne regresije i modele viestruke regresije.Model jednostavne linearne regresije ima jednu zavisnu i jednu nezavisnu varijablu.Model viestruke regresije ima jednu zavisnu i vie nezavisnih varijabli

  • Modeli regresije

    Prema obliku matemati ke funkcije deterministi kog modela, modele regresije dijelimo na linearne i nelinearne ili krivolinijske modele.Veza me u varijablama kod linearnog modela predo ena je linearnom funkcijom, iji je graf pravac.Veza izme u varijabli kod krivolinijske regresije ima oblik neke druge matemati ke funkcije, iji je graf neka kriva linija.

  • Modeli regresije

    Cilj regresijske analize je utvrditi smjer, oblik i ja inu veze izme u analiziranih pojava. Smjer veze moe biti pozitivan i negativan. Oblik veze definiran je oblikom matemati ke funkcije koja predstavlja deterministi ki dio modela regresije. Tako postoje linearni i krivolinijski modeli.Ja ina veze se odre uje analizom slu ajne varijable regresijskog modela. Slu ajnom varijablom se predo uju nesistemski utjecaji, odnosno utjecaji pojava koje nisu uklju ene u model.Kao prvi korak u analizi zavisnosti dviju slu ajnih varijabli uobi ajeno se empirijski podaci prikazuju grafi ki. U koordinatni sustav se ucrtavaju to ke odre ene parovima vrijednosti . Tako dobiveni dijagram se naziva dijagram rasipanja (scatter diagram).

    ii yx ,

  • Karakteristi ni oblici dijagrama rasipanja

    Pozitivna, linearna funkcionalna veza

    y i

    x iNegativna, linearna funkcionalna veza

    x i

    y i

    Pozitivna,linearna jaka stohasti na veza

    x i

    y i

    Negativna, linearna umjerena stohasti na vezax i

    y i

  • Karakteristi ni oblici dijagrama rasipanja

    Pozitivna, linearna slaba statisti ka veza

    x i

    y i

    Negativna, linearna slaba stohasti na vezax i

    y i

    Nepostojanje veze x i

    y i

    Krivolinijska stohasti na veza

    x i

    yi

  • Modeli regresije jednostavna linearna regresija

    Model jednostavne linearne regresije, op i oblik modela je:

    U modelu jednostavne linearne regresije vrijednost zavisne varijable Y je linearna kombinacija vrijednosti nezavisne varijable X, parametara modela i slu ajne varijable.Funkcionalni dio modela odre en je ako su poznate vrijednosti parametaraVrijednost parametara se procjenjuje empirijski ili pomo u izmjerenih n parova vrijednosti varijable X i Y

    iii exbby 10

    10 bib

  • Modeli regresije jednostavna linearna regresija

    Analiza modela u domeni deskriptivne statistike vri se izra unavanjem vrijednosti parametara i pokazatelja reprezentativnosti modela, a to su varijanca, standardna devijacija, koeficijent varijacije i koeficijent determinacije. Vrijednost procijenjenih parametara se izra unava iz n izmjerenih parova vrijednosti x i y.Prema tome i vrijednosti pokazatelja se odnose samo na n izmjerenih parova podataka.

  • Modeli regresije jednostavna linearna regresija

    Parametri procijenjenog modela se odre uju tako da odstupanja izmjerenih vrijednosti od procijenjene vrijednosti zavisne varijable pomo u modela budu to manja. Postoji vie metoda procjene parametara, a naj e e se koristi metoda minimalnih kvadrata odstupanja. Parametri procijenjeni metodom minimalnih kvadrata odstupanja opisuju pravac za koji je zbroj rezidualnih kvadrata odstupanja minimalan.

    Parametri se izra unavaju pomo u izraza:

    2

    1

    2

    11

    xnx

    yxnyxb n

    ii

    n

    iii

    xbyb0

  • Modeli regresije jednostavna linearna regresija

    Parametar predstavlja konstantni lan modela, a parametar je regresijski koeficijent.Konstantan lan je vrijednost zavisne varijable kada je vrijednost nezavisne varijable jednaka nuli. Za ve inu primjera nema konkretno zna enje.Regresijski koeficijent predstavlja linearnu promjenu zavisne varijable za jedini no pove anje nezavisne varijable. Regresijske vrijednosti se dobivaju uvrtavanjem odgovaraju ih vrijednosti nezavisne varijable x u model regresije.Rezidualna odstupanja su odstupanja izmjerenih vrijednosti zavisne varijable od regresijskih vrijednosti.

    0b

    0b1b

    1b

  • Modeli regresije jednostavna linearna regresija

    Podaci o cijeni i prodaji proizvoda A

    0

    5

    10

    15

    20

    0 2 4 6 8 10

    Cijena

    Prod

    aja

    Empirijski podaci Linearni model regresije

    (x, y )

    (0, b 0 )

  • Modeli regresije jednostavna linearna regresija

    Razlike vrijednosti izmjerenih vrijednosti zavisne varijable i regresijskih vrijednosti predstavljaju rezidualna odstupanja i ozna avaju se sa .Ovako dobivena odstupanja su izraena u mjernim

    jedinicama zavisne varijable Y i nazivaju se apsolutna rezidualna odstupanja, . Relativna rezidualna odstupanja su izraena u postotcima i dobiju se tako to se apsolutno odstupanje podijeli izmjerenom vrijednosti varijable, zatim omjer pomnoi sa 100,

    Rezidualna odstupanja se mogu izraziti i u standardnim devijacijama, pa se nazivaju standardizirana rezidualna odstupanja. Dobivaju se tako da se apsolutna odstupanja podijele standardnom devijacijom modela regresije,

    ie

    iii yye

    y

    iii

    yye

    ,

    100

    ,i

    iireli y

    yye

  • Modeli regresije jednostavna linearna regresija

    Model regresije je reprezentativniji to su manja rezidualna odstupanja.Kakvo a modela se mjeri odgovaraju im pokazateljima, a najzna ajniji su:

    - Varijanca ili prosje no kvadratno odstupanje, dobiva se tako da se zbroj kvadrata rezidualnih odstupanja podijeli brojem podataka.

    - Standardna greka modela ili prosje no odstupanje podataka od regresijskih vrijednosti, dobiva se kao pozitivni drugi korijen iz varijance.

    - Koeficijent varijacije je omjer standardne devijacije i prosje ne vrijednosti zavisne varijable, pomnoeno sa 100.

    n

    iiiy yyn 1

    22

    1

    100 yV yy

  • Modeli regresije jednostavna linearna regresija

    U analizi reprezentativnosti regresijskog pravca koristi se koeficijent determinacije.Koeficijent determinacije je relativna mjera prilago enosti regresijskog pravca empirijskim podacima.Dobiva se kao omjer protuma enog dijela zbroja kvadrata odstupanja i ukupnog zbroja kvadrata odstupanja.Ukupno odstupanje empirijskih podataka (varijabla y) od prosje ne vrijednosti varijable y se rastavlja na dio odstupanja protuma en modelom regresije (razlika regresijske vrijednosti i prosje ne vrijednosti) i dio ne protuma en modelom (razlika izme u izmjerene i regresijske vrijednosti)Koeficijent determinacije uzima vrijednosti iz intervala 0 i 1.

    n

    ii

    n

    ii

    yy

    yyr

    1

    2

    1

    2

    2

  • Nelinearni regresijski modeli

    Povezanost dvije pojave ne moe se uvijek izraziti linearnim modelom. Zbog toga se u izgradnji modela regresije koriste razli iti oblici funkcija, pa se takvi modeli zovu nelinearni ili krivolinijski modeli regresije. U praksi se naj e e koriste modeli koji se postupkom transformacije mogu prevesti u modele jednostavne linearne regresije i modeli polinomske regresije.Od modela koji se mogu transformirati u modele jednostavne linearne regresije naj e e se koriste:

    - eksponencijalni modeli,- multiplikativni model,- logaritamski model i- recipro ni model.

  • Nelinearni regresijski modeli

    Kod svih modela regresije radi se o statisti koj me uzavisnosti pojava, pa modeli imaju funkcionalni dio i slu ajnu promjenjivu. Analiza funkcionalnog dijela zavisi od oblika funkcije koji se koristi, a analiza rezidualnih odstupanja se provodi na isti na in bez obzira na oblik funkcije. Zbog toga je kod krivolinijskihmodela navedena analiza samo funkcionalnog dijela.Analiza rezidualnih odstupanja provodi se izra unavanjem istih pokazatelja reprezentativnosti kao kod linearnog modela.

  • Nelinearni regresijski modeli

    Funkcionalni dio eksponencijalni model ima oblik:

    Logaritmiranjem izraza dobiva se linearizirani model:

    Analiza transformiranog modela provodi se na isti na in kao kod linearnih modela, uz napomenu da je kod interpretacije rezultata nuno voditi ra una koje su varijable ili parametri transformirani. U navedenom modelu izvrena je transformacija zavisne varijable i koriste se logaritamske vrijednosti varijable .Vrijednosti parametara koji se procjenjuju pomo u empirijskih

    vrijednosti se dobivaju u logaritamskim vrijednostima.

    ixi bby 10

    ii xbby 10 logloglog

    iylog

  • Nelinearni regresijski modeli

    Vrijednost parametara, odnosno njihovih logaritamskih vrijednosti se dobiva pomo u izraza:

    n

    ii

    n

    iii

    xnx

    yxnyxb

    1

    22

    11

    logloglog xbyb 10 logloglog

  • Nelinearni regresijski modeliVrijednost parametara originalnog modela dobiva se antilogaritmiranjem. Parametar predstavlja vrijednost zavisne varijable kada nezavisna varijabla ima vrijednost nula. Kao i kod linearnog modela uglavnom nema stvarno zna enje. Vrijednost parametra pokazuje relativnu promjenu zavisne varijable za jedini no relativno pove anje nezavisne varijable. Tuma i se uglavnom kao postotna promjena. Zna i, ako se nezavisna varijabla pove a za 1% zavisna varijabla e se promijeniti u postotcima za iznos

    pomnoen sa sto.

    0b

    1b

    10011b

  • Nelinearni regresijski modeli

    Logaritamski model koristi transformaciju nezavisne varijable ( ), a op i oblik regresije je: Model s procijenjenim parametrima se dobiva pomo u izmjerenih n parova vrijednosti zavisne i nezavisne varijable,

    Vrijednosti parametara procijenjenog modela se izra unavaju pomo u izraza:

    ixlog ii xbby log 10

    ii yx ,

    n

    ii

    n

    iii

    xnx

    yxnyxb

    1

    22

    11

    loglog

    loglogxbyb log10

  • Nelinearni regresijski modeli

    Parametar predstavlja vrijednost zavisne varijable kada je nezavisna varijabla jednaka jedan .Parametar pokazuje prosje no linearno pove anje zavisne varijable kada se logaritam nezavisne varijable pove a za jedan (vrijednost logaritma 0, 1, 2, 3, 4, imaju redom brojevi 1, 10, 100, 1000, 10000,)Recipro ni model regresije ima oblik:

    Koritenjem recipro ne vrijednosti za zavisnu varijablu , model se transformira u linearni oblik:

    0b01log

    1b

    ii xbb

    y10

    1

    iy1

    ii

    xbby 101

  • Model polinomske regresije

    U izboru tipa krivulje koja je najbolje prilago ena to kama u dijagramu rasipanja moe se po i od modela polinomskeregresije. Op i oblik polinomske regresije je:

    Koeficijenti polinoma , su parametri modela regresije kojetreba procijeniti. Procjena parametara vri se pomo u izmjerenih n parova vrijednosti zavisne i nezavisne varijable ,

    kik

    jijiii xbxbxbxbby ........

    2210

    jb

    ii yx ,

  • Model polinomske regresije

    U modelu polinomske regresije vrijednost zavisne varijable je kombinacija nepoznatih parametara , numeri kih vrijednosti nezavisne varijable s razli itim stupnjevima i nepoznatih vrijednosti slu ajne varijable.Ovdje je prikazan samo funkcionalni dio modela, a analiza slu ajne varijable ili rezidualnih odstupanja se provodi na isti na in kao kod modela jednostavne linearne regresije.Procjena parametara se provodi metodom minimalnih kvadrata odstupanja, sli no kao kod modela jednostavne linearne regresije, samo je broj normalnih jednadbi jednak broju nepoznatih parametara.

    iyjb kj ,...,2,1

  • Model polinomske regresije

    U zavisnosti od vrijednosti k imamo polinome razli itog stupnja. Za imamo polinom prvog stupnja ili linearnu funkciju; za polinom je drugog stupnja ili kvadratna funkcija iji graf je parabola; za polinom je tre eg stupnjaTeorijski k moe uzeti bilo koju vrijednost iz skupa prirodnih brojeva, ali se u praksi koriste uglavnom polinomi drugog i tre eg stupnja.Porastom stupnja polinoma, procjena parametara modela polinomske regresije postaje matemati ki znatno sloenija, a javlja se i problem tuma enja izra unatih parametara.

    1k2k

    3k

  • Model polinomske regresije

    Za model kvadratne regresije procijenjeni model ima oblik:

    Graf kvadratne funkcije je parabola, a procjena regresijskih koeficijenata , i se dobiva rjeavanjem sustava normalnih jednadbi:

    2210 iii xbxbby

    n

    i

    n

    iiii

    n

    i

    n

    iii

    n

    i

    n

    i

    n

    iiiii

    n

    ii

    n

    i

    n

    i

    n

    iiii

    yxxbxbxb

    yxxbxbxb

    yxbxbnb

    1 1

    242

    1 1

    31

    20

    1 1 1

    32

    21

    10

    1 1 1

    2210

    0b 1b 2b

  • Korelacijski analiza

    Korelacijskom analizom se utvr uje postojanje i ja ina statisti ke veze me u pojavama. Za dvije pojave predo ene kvantitativnim varijablama ja ina veze se mjeri koeficijentom korelacije.Ako su pojave predo ene varijablama ranga, stupanj statisti ke povezanosti se mjeri koeficijentom korelacije ranga.

  • Korelacijski analiza

    Polazna veli ina za izra unavanje koeficijenta korelacije izme u dvije numeri ke varijable je kovarijanca. Ako je za dvije numeri ke varijable X i Y izmjereno n parova njihovih vrijednosti , kovarijanca predstavlja prvi mjeoviti moment vrijednosti varijabla oko njihovih sredina. Izraz za kovarijancu je:

    Kovarijanca je aritmeti ka sredina umnoaka odstupanja vrijednosti varijable X od njezine aritmeti ke sredine i odstupanja vrijednosti varijable Y od njezine aritmeti ke sredine. Moe uzimati pozitivne i negativne vrijednosti i ovisna je o mjernim jedinicama varijable X i Y, pa se njome prosu uje postojanje i smjer veze, ali ne i stupanj veze.

    ii yx , ni ,...,2,1

    n

    iii yyxxn

    M1

    111

  • Korelacijski analiza

    Stupanj veze se mjeri Pearsonovim koeficijentom linearne korelacije koji se dobiva tako da se prvi mjeoviti moment podijeli sa standardnim devijacijama varijabla X i Y. Izraz za koeficijent korelacije je:

    ili u razvijenom obliku navedeni izraz ima oblik:

    yx

    Mr 11 11 r

    n

    ii

    n

    ii

    n

    iii

    ynyxnx

    yxnyxr

    1

    22

    1

    22

    1

  • Korelacijski analiza

    Spearmanov koeficijent korelacije ranga se izra unava pomo u parova modaliteta rang-varijabla ili numeri kih varijabla transformiranih u rang-varijable. Spearmanov koeficijent korelacije je dan izrazom:

    Koeficijent korelacije ranga poprima vrijednosti iz zatvorenog intervala od minus jedan do plus jedan.

    nn

    dr

    n

    ii

    s 31

    261 iii yrxrd

    11 sr