tiesinĖ regresija

33
TIESINĖ REGRESIJA

Upload: miyoko

Post on 11-Jan-2016

76 views

Category:

Documents


4 download

DESCRIPTION

TIESINĖ REGRESIJA. Pavyzdžiai. Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros? Kaip sistolinis kraujo spaudimas priklauso nuo KMI? Kaip išlaidos priklauso nuo pajamų? Ar gimstamumas priklauso nuo šeimos pajamų? - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: TIESINĖ REGRESIJA

TIESINĖ REGRESIJA

Page 2: TIESINĖ REGRESIJA

Pavyzdžiai

• Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros?

• Kaip sistolinis kraujo spaudimas priklauso nuo KMI?

• Kaip išlaidos priklauso nuo pajamų?• Ar gimstamumas priklauso nuo šeimos pajamų?• Išmatavome IQ pirmame kurse. Ar galima

prognozuoti koks bus studento diplomo pažymių vidurkis?

• Kokį vidutinį VS studento baigiamojo darbo balą galima prognozuoti, jei visas studijų balų vidurkis 8,7?

Page 3: TIESINĖ REGRESIJA

Tiesinė regresija ir koreliacija

• Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybę (stipri, silpna, teigiama, neigiama)

• Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiu

• Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu asimetriški.

Page 4: TIESINĖ REGRESIJA

Skirtingos koreliacijos pavyzdys

• Koreliacija tarp išlaidų reklamai ir pajamų yra 0,99 – stiprus teigiamas ryšys.

• Ar naudinga firmai padidinti išlaidas reklamai?

• Atrodytu, kad taip!

• Tačiau tokį rezultatą gali duoti tiek įdėtas 1 Lt ir gautas kelių Lt pelnas, tiek kelių cnt. pelnas.

Page 5: TIESINĖ REGRESIJA

Kintamieji

• Kintamasis, kurio reikšmes norima prognozuoti, vadinamas priklausomu kintamuoju (dependent variable).

• Kintamasis, pagal kurio reikšmes norima prognozuoti priklausomo kintamojo reikšmes, vadinamas nepriklausomu kintamuoju (independent variable).

Page 6: TIESINĖ REGRESIJA

Regresijosmodeliai

Paprasta Daugialypė(multiple)

Tiesinė(linear)

Netiesinė(non-linear)

Tiesinė(linear)

Netiesinė(non-linear)

Vienas nepriklausomas kintamasis

Du ir daugiau nepriklausomų kintamųjų

Page 7: TIESINĖ REGRESIJA

Paprastos tiesinės regresijos modelis

y=a+bx+ey ir x kintamieji

a ir b konstantos (a- laisvasis narys (angl. intercept), b-tiesės krypties koeficientas (angl. slope))

e atsitiktinė paklaida

Page 8: TIESINĖ REGRESIJA

Regresijos grafinis vaizdas

Page 9: TIESINĖ REGRESIJA

Tiesinės regresijos žingsniai

1. Priklausomo ir nepriklausomo kintamojo nustatymas.

2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp

nepriklausomų kintamųjų.

3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų

grafikai).4. Galutinės lygties užrašymas, jos interpretacija.

Page 10: TIESINĖ REGRESIJA

Pavyzdys excel –Automobilio taisymo kainos

priklausomybė nuo ridos

Priklausomas kintamasis – remonto kainaNepriklausomas kintamasis – ridaDuomenys:

Page 11: TIESINĖ REGRESIJA

KORELIACIJA

Page 12: TIESINĖ REGRESIJA

Lygtis ir hipotezė

y=a+bx

Tikrinama H0: b=0

HA: b≠0

Page 13: TIESINĖ REGRESIJA

Excel – “Data analysis” → “Regression”

Page 14: TIESINĖ REGRESIJA

Analizės išklotinė

Page 15: TIESINĖ REGRESIJA

Grafiškai pagal duomenis(Automobilio taisymo kainos priklausomybė nuo ridos)

Page 16: TIESINĖ REGRESIJA

Išklotinės rezultatai – ką vertinti?

Page 17: TIESINĖ REGRESIJA

Determinacijos koeficientas,ANOVA,regresijos koeficientai

Page 18: TIESINĖ REGRESIJA

Paklaidų analizė

• Išskirtys (iš grafiko arba standartizuotų paklaidų)

• Vidurkiai lygūs nuliui

• Paklaidų skirstiniai normalūs

• Dispersija tolygi (homoskedatiška)

• Paklaidos atsitiktinės

(aiškinimas youtube: http://www.youtube.com/watch?v=vM13uarpcuQ)

Page 19: TIESINĖ REGRESIJA

Paklaidų vidurkiai lygūs nuliui

Page 20: TIESINĖ REGRESIJA

Paklaidų skirstiniai normalūs

Page 21: TIESINĖ REGRESIJA

Paklaidų dispersija tolygi (homoskedatiška)

Page 22: TIESINĖ REGRESIJA

Galutinės lygties užrašymas(Automobilio taisymo kainos priklausomybė nuo ridos)

Remonto kaina=-197,3+0,01*rida(km)

Jei nepriklausomas kintamasis (rida) padidėja vienu vienetu (1 km), priklausomas kintamasis (remonto kaina) padidės dydžiu, lygiu b įverčiui (0,01 USD).

Page 23: TIESINĖ REGRESIJA

Grafiškai(Automobilio taisymo kainos priklausomybė nuo ridos)

Page 24: TIESINĖ REGRESIJA

Tiesinė daugialypė regresija

Page 25: TIESINĖ REGRESIJA

Pavyzdžiai

• Ar poegzamininis dirglumas priklauso nuo gauto pažymio, nuo egzamino trukmės ir nuo ko labiau?

• Kaip antikvarinės keramikos kaina priklauso nuo jos senumo ir aukciono dalyvių skaičiaus?

• Ar diplomo pažymių vidurkis ir komunikabilumas gali padėti prognozuoti būsimą atlyginimą?

Page 26: TIESINĖ REGRESIJA

Tiesinė daugialypė regresija

y=a+b1x1+b2x2+b3x3+ …+ bjxj+e

Tikrinama H0: b=0

HA: bent vienas b≠0

Page 27: TIESINĖ REGRESIJA

Tiesinė daugialypė regresija

Prieš pradedant įvertinama:• Koreliacija• Multikolinearumas (nepriklausomų kintamųjų

priklausomybė vienas nuo kito)– Ryšys paprastai žinomas iš praktikos– Ryšio stiprumui nustatyti skaičiuojame koreliacijos

koeficientą• Stat. paketuose skaičiuojame VIF ir tolerance.

Kintamasis “perdaug multikolinearus”:– Jeigu VIF>4– Jei tolerance artėja prie nulio

Page 28: TIESINĖ REGRESIJA

Tiesinė daugialypė regresija

Page 29: TIESINĖ REGRESIJA

Tiesinė daugialypė regresija

Page 30: TIESINĖ REGRESIJA

Tiesinė daugialypė regresija

kaina=85,71+0,01*rida(km)-92,74*išsilavinimas

Page 31: TIESINĖ REGRESIJA

Tiesinės regresijos (paprastos ir daugialypės) atlikimo reziumė

1. Priklausomo ir nepriklausomo kintamojo nustatymas.

2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp

nepriklausomų kintamųjų.

3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų

grafikai).4. Galutinės lygties užrašymas, jos interpretacija.

Page 32: TIESINĖ REGRESIJA

Tiesinės regresijos prielaidos

– Stebėjimai:• Tiesinis ryšys• Normalūs skirstiniai (bet nebūtinai)• Dipersijos panašios

– Paklaidos• e normaliai pasiskirstę atsitiktiniai dydžiai;• visų e vidurkiai lygūs nuliui;• visų e dispersijos tolygios (homoskedatiškos);• visi e nepriklausomi.

Page 33: TIESINĖ REGRESIJA

Pagrindinės priežastys, dėl kurių tiesinė regresija gali netikti

1. Kintamųjų priklausomybė nėra tiesinė

2. Stebėjimai heteroskedatiški

3. Paklaidų skirstiniai nėra normalieji

4. Paklaidos nėra atsitiktinės

5. Duomenyse yra išskirčių