tiesinĖ regresija
DESCRIPTION
TIESINĖ REGRESIJA. Pavyzdžiai. Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros? Kaip sistolinis kraujo spaudimas priklauso nuo KMI? Kaip išlaidos priklauso nuo pajamų? Ar gimstamumas priklauso nuo šeimos pajamų? - PowerPoint PPT PresentationTRANSCRIPT
TIESINĖ REGRESIJA
Pavyzdžiai
• Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros?
• Kaip sistolinis kraujo spaudimas priklauso nuo KMI?
• Kaip išlaidos priklauso nuo pajamų?• Ar gimstamumas priklauso nuo šeimos pajamų?• Išmatavome IQ pirmame kurse. Ar galima
prognozuoti koks bus studento diplomo pažymių vidurkis?
• Kokį vidutinį VS studento baigiamojo darbo balą galima prognozuoti, jei visas studijų balų vidurkis 8,7?
Tiesinė regresija ir koreliacija
• Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybę (stipri, silpna, teigiama, neigiama)
• Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiu
• Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu asimetriški.
Skirtingos koreliacijos pavyzdys
• Koreliacija tarp išlaidų reklamai ir pajamų yra 0,99 – stiprus teigiamas ryšys.
• Ar naudinga firmai padidinti išlaidas reklamai?
• Atrodytu, kad taip!
• Tačiau tokį rezultatą gali duoti tiek įdėtas 1 Lt ir gautas kelių Lt pelnas, tiek kelių cnt. pelnas.
Kintamieji
• Kintamasis, kurio reikšmes norima prognozuoti, vadinamas priklausomu kintamuoju (dependent variable).
• Kintamasis, pagal kurio reikšmes norima prognozuoti priklausomo kintamojo reikšmes, vadinamas nepriklausomu kintamuoju (independent variable).
Regresijosmodeliai
Paprasta Daugialypė(multiple)
Tiesinė(linear)
Netiesinė(non-linear)
Tiesinė(linear)
Netiesinė(non-linear)
Vienas nepriklausomas kintamasis
Du ir daugiau nepriklausomų kintamųjų
Paprastos tiesinės regresijos modelis
y=a+bx+ey ir x kintamieji
a ir b konstantos (a- laisvasis narys (angl. intercept), b-tiesės krypties koeficientas (angl. slope))
e atsitiktinė paklaida
Regresijos grafinis vaizdas
Tiesinės regresijos žingsniai
1. Priklausomo ir nepriklausomo kintamojo nustatymas.
2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp
nepriklausomų kintamųjų.
3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų
grafikai).4. Galutinės lygties užrašymas, jos interpretacija.
Pavyzdys excel –Automobilio taisymo kainos
priklausomybė nuo ridos
Priklausomas kintamasis – remonto kainaNepriklausomas kintamasis – ridaDuomenys:
KORELIACIJA
Lygtis ir hipotezė
y=a+bx
Tikrinama H0: b=0
HA: b≠0
Excel – “Data analysis” → “Regression”
Analizės išklotinė
Grafiškai pagal duomenis(Automobilio taisymo kainos priklausomybė nuo ridos)
Išklotinės rezultatai – ką vertinti?
Determinacijos koeficientas,ANOVA,regresijos koeficientai
Paklaidų analizė
• Išskirtys (iš grafiko arba standartizuotų paklaidų)
• Vidurkiai lygūs nuliui
• Paklaidų skirstiniai normalūs
• Dispersija tolygi (homoskedatiška)
• Paklaidos atsitiktinės
(aiškinimas youtube: http://www.youtube.com/watch?v=vM13uarpcuQ)
Paklaidų vidurkiai lygūs nuliui
Paklaidų skirstiniai normalūs
Paklaidų dispersija tolygi (homoskedatiška)
Galutinės lygties užrašymas(Automobilio taisymo kainos priklausomybė nuo ridos)
Remonto kaina=-197,3+0,01*rida(km)
Jei nepriklausomas kintamasis (rida) padidėja vienu vienetu (1 km), priklausomas kintamasis (remonto kaina) padidės dydžiu, lygiu b įverčiui (0,01 USD).
Grafiškai(Automobilio taisymo kainos priklausomybė nuo ridos)
Tiesinė daugialypė regresija
Pavyzdžiai
• Ar poegzamininis dirglumas priklauso nuo gauto pažymio, nuo egzamino trukmės ir nuo ko labiau?
• Kaip antikvarinės keramikos kaina priklauso nuo jos senumo ir aukciono dalyvių skaičiaus?
• Ar diplomo pažymių vidurkis ir komunikabilumas gali padėti prognozuoti būsimą atlyginimą?
Tiesinė daugialypė regresija
y=a+b1x1+b2x2+b3x3+ …+ bjxj+e
Tikrinama H0: b=0
HA: bent vienas b≠0
Tiesinė daugialypė regresija
Prieš pradedant įvertinama:• Koreliacija• Multikolinearumas (nepriklausomų kintamųjų
priklausomybė vienas nuo kito)– Ryšys paprastai žinomas iš praktikos– Ryšio stiprumui nustatyti skaičiuojame koreliacijos
koeficientą• Stat. paketuose skaičiuojame VIF ir tolerance.
Kintamasis “perdaug multikolinearus”:– Jeigu VIF>4– Jei tolerance artėja prie nulio
Tiesinė daugialypė regresija
Tiesinė daugialypė regresija
Tiesinė daugialypė regresija
kaina=85,71+0,01*rida(km)-92,74*išsilavinimas
Tiesinės regresijos (paprastos ir daugialypės) atlikimo reziumė
1. Priklausomo ir nepriklausomo kintamojo nustatymas.
2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp
nepriklausomų kintamųjų.
3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų
grafikai).4. Galutinės lygties užrašymas, jos interpretacija.
Tiesinės regresijos prielaidos
– Stebėjimai:• Tiesinis ryšys• Normalūs skirstiniai (bet nebūtinai)• Dipersijos panašios
– Paklaidos• e normaliai pasiskirstę atsitiktiniai dydžiai;• visų e vidurkiai lygūs nuliui;• visų e dispersijos tolygios (homoskedatiškos);• visi e nepriklausomi.
Pagrindinės priežastys, dėl kurių tiesinė regresija gali netikti
1. Kintamųjų priklausomybė nėra tiesinė
2. Stebėjimai heteroskedatiški
3. Paklaidų skirstiniai nėra normalieji
4. Paklaidos nėra atsitiktinės
5. Duomenyse yra išskirčių