regresija tiesinĖ regresija logistinĖ regresija

39
REGRESIJA REGRESIJA TIESINĖ REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA LOGISTINĖ REGRESIJA

Upload: arden-glenn

Post on 31-Dec-2015

185 views

Category:

Documents


0 download

DESCRIPTION

REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA. Tiesinė regresija. Pavyzdžiai Oro temperatūros ir parduodamų ledų kiekis Sistolinio kraujo spaudimo ir KMI priklausomybė I šlaidų ir pajamų priklausomyb ė G imstamumo ir šeimos pajamų priklausomyb ė. Tiesinė regresija ir koreliacija. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

REGRESIJAREGRESIJA

TIESINĖ REGRESIJATIESINĖ REGRESIJA

LOGISTINĖ REGRESIJALOGISTINĖ REGRESIJA

Page 2: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Tiesinė regresijaTiesinė regresija

PavyzdžiaiPavyzdžiai Oro temperatūros ir parduodamų ledų Oro temperatūros ir parduodamų ledų

kiekiskiekis SistolinioSistolinio kraujokraujo spaudimospaudimo irir KMIKMI

priklausomybėpriklausomybė IIšlaidų ir pajamų priklausomybšlaidų ir pajamų priklausomybėė GGimstamumoimstamumo irir šeimosšeimos pajamųpajamų

priklausomybpriklausomybėė

Page 3: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Tiesinė regresija ir koreliacijaTiesinė regresija ir koreliacija

Tas pats koreliacijos koeficientas gali Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybęnusakyti skirtingą priklausomybę

Regresinė analizė leidžia prognozuoti Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiuvieną kintamąjį kito atžvilgiu

Koreliacija simetriška, regresiniai Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu modeliai kintamųjų atžvilgiu asimetriški. asimetriški.

Page 4: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

KintamiejiKintamieji

Kintamasis,Kintamasis, kuriokurio reikšmesreikšmes norimanorima prognozuoti,prognozuoti, vadinamasvadinamas priklausomupriklausomu kintamuoju.kintamuoju.

Kintamasis,Kintamasis, pagalpagal kuriokurio reikšmesreikšmes norimanorima prognozuoti priklausomo prognozuoti priklausomo kintamojo reikšmes,kintamojo reikšmes, vadinamas vadinamas nepriklausomunepriklausomu kintamuoju.kintamuoju.

Page 5: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

TiesinėTiesinės regresijos modeliss regresijos modelis

y=y=aa+b+bxx+e+ey y ir ir xx kintamieji kintamieji

a a ir ir b b konstantoskonstantos

e atsitiktine atsitiktinė paklaidaė paklaida

Tiesinės regresijos prielaidos:Tiesinės regresijos prielaidos:1.1. e normaliai pasiskirstę atsitiktiniaie normaliai pasiskirstę atsitiktiniai

dydžiai;dydžiai;

2.2. visų e vidurkiai lygūs nuliui;visų e vidurkiai lygūs nuliui;

3.3. visų e dispersijos lygios;visų e dispersijos lygios;

4.4. visi e nepriklausomivisi e nepriklausomi..

Page 6: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Tiesinė regresijaTiesinė regresijaPrieš pradedant nustatomaPrieš pradedant nustatoma

KORELIACIJAKORELIACIJA

Page 7: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Pavyzdys SPSSPavyzdys SPSS(Vaikų skaitymo(Vaikų skaitymo kokyb kokybės priklausomybė nuo ės priklausomybė nuo

amžiaus)amžiaus)

Page 8: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Pavyzdys SPSSPavyzdys SPSS((Vaikų skaitymo Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo

amžiaus)amžiaus)

Page 9: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Pavyzdys SPSSPavyzdys SPSS((Vaikų skaitymo Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo

amžiaus)amžiaus)

Page 10: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Pavyzdys SPSSPavyzdys SPSS(Vaikų skaitymo (Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo

amžiaus)amžiaus)

Page 11: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Pavyzdys SPSSPavyzdys SPSS(Vaikų skaitymo (Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo

amžiaus)amžiaus)

Determinacijos koeficientas(variacijos dalis,

kurią paaiškina modelis)

•Didesnis determinacijos koeficientas reiškia, kad stebėjimai yra labiau koncentruoti apie mažiausiųjų kvadratų metodu gautą tiesę.Remiantis vien tik determinacijos koeficientu, dar negalima pasakyti, ar tiesinės regresijos modelis turimiems duomenims tinka.•Dažniausiai reikalaujama, kad r2≥0,25.Jeigu r2<0,25, labai abejotina, ar tiesinės regresijos modelis tinka.

Page 12: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Pavyzdys SPSSPavyzdys SPSS(Vaikų skaitymo (Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo

amžiaus)amžiaus)

y=y=aa+b+bxx

Tikrinama HTikrinama H00: b: b=0=0 HHAA: b: b≠0≠0

Page 13: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Pavyzdys SPSSPavyzdys SPSS

y(x)=3,032+0,542*y(x)=3,032+0,542*amžiusamžius

Jei nepriklausomas kintamasis padidJei nepriklausomas kintamasis padidėja ėja vienu vienetu, priklausomas kintamasis vienu vienetu, priklausomas kintamasis padidės dydžiu, lygiu b įverčiui.padidės dydžiu, lygiu b įverčiui.

Vaikų skaitymo kokybės balais Vaikų skaitymo kokybės balais priklausomybė nuo amžiaus.priklausomybė nuo amžiaus.

Page 14: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Tiesinė daugialypė regresijaTiesinė daugialypė regresija

y=y=aa+b+b11xx11+b+b22xx22+b+b33xx33+ …+ b+ …+ bjjxxjj+e+e

Tikrinama HTikrinama H00: b: b=0=0

HHAA: : bent vienasbent vienas b≠0b≠0

Page 15: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Tiesinė daugialypė regresijaTiesinė daugialypė regresija

Prieš pradedant įvertinama:Prieš pradedant įvertinama: KoreliacijaKoreliacija Multikolinearumas (priklausomų kintamųjų Multikolinearumas (priklausomų kintamųjų

priklausomybė vienas nuo kito)priklausomybė vienas nuo kito) Ryšys paprastai žinomas iš praktikosRyšys paprastai žinomas iš praktikos Ryšio stiprumui nustatyti skaičiuojame Ryšio stiprumui nustatyti skaičiuojame

koreliacijos koeficientąkoreliacijos koeficientą SPSS skaičiuojame SPSS skaičiuojame VIFVIF ir ir tolerancetolerance. .

KKintamasisintamasis “perdaug multikolinearus”“perdaug multikolinearus”:: Jeigu Jeigu VIFVIF>4>4 Jei Jei tolerancetolerance artėja prie nulio artėja prie nulio

Page 16: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Tiesinė daugialypė regresijaTiesinė daugialypė regresija

Page 17: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Tiesinė daugialypė regresijaTiesinė daugialypė regresija

Page 18: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Tiesinė daugialypė regresijaTiesinė daugialypė regresija

Page 19: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Tiesinė daugialypė regresijaTiesinė daugialypė regresija

Page 20: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

TiesinėTiesinė daugialyp daugialypė regresijaė regresija

y(x)=1,897+0,339*amy(x)=1,897+0,339*amžiusžius++0,0,521*trumpalaik521*trumpalaikėė atmintisatmintis

Vaikų skaitymo kokybės balais priklausomybė Vaikų skaitymo kokybės balais priklausomybė nuo amžiaus ir trumpalaikės atmintiesnuo amžiaus ir trumpalaikės atminties

Page 21: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Logistinė regresijaLogistinė regresija(pagal V.Čekanavičių ir G.Murauską(pagal V.Čekanavičių ir G.Murauską

http://stat.vadoveliai.lt/files/LogRegSPSS.pdfhttp://stat.vadoveliai.lt/files/LogRegSPSS.pdf))

Dvireikšmė (Dvireikšmė (binarybinary) logistinė ) logistinė regresijaregresija– toks modelis, kai vienam – toks modelis, kai vienam (priklausomam) dvireikšmiui (priklausomam) dvireikšmiui kintamąjam daro įtaką vienas ar kintamąjam daro įtaką vienas ar keletas (nepriklausomų, keletas (nepriklausomų, aiškinamųjų) kintamųjų.aiškinamųjų) kintamųjų.

Page 22: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

PavyzdžiaiPavyzdžiaiPagal paciento svorį ir kraujo Pagal paciento svorį ir kraujo tyrimus reikia nustatyti tikimybę tyrimus reikia nustatyti tikimybę susirgti diabetu.susirgti diabetu.

Pagal testų rezultatus siekiama Pagal testų rezultatus siekiama nustatyti, ar reiks kompiuteriui nustatyti, ar reiks kompiuteriui garantinio remonto.garantinio remonto. Aiškinamasi, ar žinant rinkėjo Aiškinamasi, ar žinant rinkėjo pajamas ir amžių galima numatyti, pajamas ir amžių galima numatyti, balsuos jis už kandidatą ar balsuos jis už kandidatą ar nebalsuos. nebalsuos.

Page 23: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

KintamiejiKintamieji

Priklausomas kintamasis Priklausomas kintamasis YY –– dvireikšmis (0 arba 1). dvireikšmis (0 arba 1). Aiškinamieji kintamieji (Aiškinamieji kintamieji (XX) – ) – intervaliniai arba pseudokintamieji. intervaliniai arba pseudokintamieji.

Vienetai (nuliai) sudaro ne daugiau Vienetai (nuliai) sudaro ne daugiau kaip 80 % kaip 80 % YY stebėjimų. stebėjimų.

Page 24: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

ModelisModelis

P(Y P(Y ==1) = 1) =

čia

z(x) = a + b1x1 + ... + bk xk

Page 25: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Kitas modelio užrašymasKitas modelio užrašymas

ln )0(

)1(

YP

YP = z(x)

čiaz(x) = a + b1x1 + ... + bkxk

Page 26: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

TikslaiTikslai

•Rasti parametrų (Rasti parametrų (aa, , bb , ..., , ..., bbkk) ) įverčiusįverčius

•Išsiaiškinti kaip gerai modelis tinka Išsiaiškinti kaip gerai modelis tinka duomenimsduomenims

•Mokėti pritaikyti prognozėmsMokėti pritaikyti prognozėms

Page 27: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Logistinės regresijos pavyzdysLogistinės regresijos pavyzdys

Norėdamas sužinoti, ar inkubacinės Norėdamas sužinoti, ar inkubacinės aplinkos temperatūra turi įtakos aplinkos temperatūra turi įtakos vėžliukų lyčiai, Ajovos universiteto vėžliukų lyčiai, Ajovos universiteto profesoriusprofesoriusK. Koehler tyrė, kiek kokios lyties K. Koehler tyrė, kiek kokios lyties vėžliukų išsirito iš skirtingose vėžliukų išsirito iš skirtingose temperatūrose laikytų vėžlio temperatūrose laikytų vėžlio kiaušinių.kiaušinių.

Page 28: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

PavyzdysPavyzdys

Temperatūra Vėžliukai Vėžliukės

27,2 C0 2 25

27,7 C0 17 7

28,3 C0 26 4

28,4 C0 19 8

28,9 C0 27 1

Page 29: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

SPSS Logistinė regresijaSPSS Logistinė regresija

Page 30: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

SPSS Logistinė regresijaSPSS Logistinė regresija

Page 31: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

SPSS Logistinė regresijaSPSS Logistinė regresija

Page 32: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

SPSS Logistinė regresijaSPSS Logistinė regresija

Page 33: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

SPSS “SPSS “outputoutput””Kintamojo kodai sutapo su modelio kodais. Taip bus ne visada. Modelio vienetu tampa didesnioji Y reikšmė.

Geras klasifikavimas būtina, bet nepakankama sąlyga, kad tiktų modelis.

Page 34: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Statistinės išvados Statistinės išvados atsižvelgiant įatsižvelgiant į

p reikšmęp reikšmę (Omnibus(Omnibus ir Wald)

Page 35: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Modelio tinkamumo Modelio tinkamumo pagrindimaspagrindimas

Omnibus test

Gerai, jei p<0,05

Goodness of fit test

Gerai, jei p>0,05

Determinacijos koeficientai

Page 36: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

PastabaPastaba

Page 37: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

RezultataiRezultatai

Daugiklis Exp(2,211) = 9,125 rodo, kaip keičiasi galimybių santykis, temperatūrai pakilus vienu laipsniu.

Galimybių santykį Exp(2,211) =9,125 interpretuojame taip: temperatūrai padidėjus vienu laipsniu, galimybė išsiristi vėžliukui padidėja 9,125 karto.

Page 38: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

Prognozavimo pavyzdysPrognozavimo pavyzdys

P(Y P(Y ==1) =1) = = = =0,367=0,367

Žinome, kad Y=1 atitinka teiginį išsiris vėžliukas. Todėl gautąjį rezultatą interpretuojame taip:esant 27,5 C0 temperatūrai, tikimybės išsiristi vėžliukui įvertis yra 0,367.Tikimybė išsiristi vėžliukei lygi 1- 0,367 = 0,633.

z(x) = a + b1x1 + ... + bk xk

Kai temperatūra yra 27,50C, tai z(x) = -61,318 + 2,211*27,5 = -0,545

Pastaba. Galimybių santykis buvo 9,125.Galimybė – nėra tikimybė, vienetą viršyti gali.

Page 39: REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

RodikliaiRodikliai

Išrikiuokime modelio tinkamumą atspindinčius rodiklius pagal svarbą:

•Klasifikavimo lentelė. •χ2 kriterijus ir Hosmerio - Lemešou kriterijus. •Voldo kriterijus „įtartiniems“ aiškinamiesiems kintamiesiems rasti. •Determinacijos koeficientai.