regresija tiesinĖ regresija logistinĖ regresija
DESCRIPTION
REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA. Tiesinė regresija. Pavyzdžiai Oro temperatūros ir parduodamų ledų kiekis Sistolinio kraujo spaudimo ir KMI priklausomybė I šlaidų ir pajamų priklausomyb ė G imstamumo ir šeimos pajamų priklausomyb ė. Tiesinė regresija ir koreliacija. - PowerPoint PPT PresentationTRANSCRIPT
REGRESIJAREGRESIJA
TIESINĖ REGRESIJATIESINĖ REGRESIJA
LOGISTINĖ REGRESIJALOGISTINĖ REGRESIJA
Tiesinė regresijaTiesinė regresija
PavyzdžiaiPavyzdžiai Oro temperatūros ir parduodamų ledų Oro temperatūros ir parduodamų ledų
kiekiskiekis SistolinioSistolinio kraujokraujo spaudimospaudimo irir KMIKMI
priklausomybėpriklausomybė IIšlaidų ir pajamų priklausomybšlaidų ir pajamų priklausomybėė GGimstamumoimstamumo irir šeimosšeimos pajamųpajamų
priklausomybpriklausomybėė
Tiesinė regresija ir koreliacijaTiesinė regresija ir koreliacija
Tas pats koreliacijos koeficientas gali Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybęnusakyti skirtingą priklausomybę
Regresinė analizė leidžia prognozuoti Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiuvieną kintamąjį kito atžvilgiu
Koreliacija simetriška, regresiniai Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu modeliai kintamųjų atžvilgiu asimetriški. asimetriški.
KintamiejiKintamieji
Kintamasis,Kintamasis, kuriokurio reikšmesreikšmes norimanorima prognozuoti,prognozuoti, vadinamasvadinamas priklausomupriklausomu kintamuoju.kintamuoju.
Kintamasis,Kintamasis, pagalpagal kuriokurio reikšmesreikšmes norimanorima prognozuoti priklausomo prognozuoti priklausomo kintamojo reikšmes,kintamojo reikšmes, vadinamas vadinamas nepriklausomunepriklausomu kintamuoju.kintamuoju.
TiesinėTiesinės regresijos modeliss regresijos modelis
y=y=aa+b+bxx+e+ey y ir ir xx kintamieji kintamieji
a a ir ir b b konstantoskonstantos
e atsitiktine atsitiktinė paklaidaė paklaida
Tiesinės regresijos prielaidos:Tiesinės regresijos prielaidos:1.1. e normaliai pasiskirstę atsitiktiniaie normaliai pasiskirstę atsitiktiniai
dydžiai;dydžiai;
2.2. visų e vidurkiai lygūs nuliui;visų e vidurkiai lygūs nuliui;
3.3. visų e dispersijos lygios;visų e dispersijos lygios;
4.4. visi e nepriklausomivisi e nepriklausomi..
Tiesinė regresijaTiesinė regresijaPrieš pradedant nustatomaPrieš pradedant nustatoma
KORELIACIJAKORELIACIJA
Pavyzdys SPSSPavyzdys SPSS(Vaikų skaitymo(Vaikų skaitymo kokyb kokybės priklausomybė nuo ės priklausomybė nuo
amžiaus)amžiaus)
Pavyzdys SPSSPavyzdys SPSS((Vaikų skaitymo Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo
amžiaus)amžiaus)
Pavyzdys SPSSPavyzdys SPSS((Vaikų skaitymo Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo
amžiaus)amžiaus)
Pavyzdys SPSSPavyzdys SPSS(Vaikų skaitymo (Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo
amžiaus)amžiaus)
Pavyzdys SPSSPavyzdys SPSS(Vaikų skaitymo (Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo
amžiaus)amžiaus)
Determinacijos koeficientas(variacijos dalis,
kurią paaiškina modelis)
•Didesnis determinacijos koeficientas reiškia, kad stebėjimai yra labiau koncentruoti apie mažiausiųjų kvadratų metodu gautą tiesę.Remiantis vien tik determinacijos koeficientu, dar negalima pasakyti, ar tiesinės regresijos modelis turimiems duomenims tinka.•Dažniausiai reikalaujama, kad r2≥0,25.Jeigu r2<0,25, labai abejotina, ar tiesinės regresijos modelis tinka.
Pavyzdys SPSSPavyzdys SPSS(Vaikų skaitymo (Vaikų skaitymo kokybkokybės priklausomybė nuo ės priklausomybė nuo
amžiaus)amžiaus)
y=y=aa+b+bxx
Tikrinama HTikrinama H00: b: b=0=0 HHAA: b: b≠0≠0
Pavyzdys SPSSPavyzdys SPSS
y(x)=3,032+0,542*y(x)=3,032+0,542*amžiusamžius
Jei nepriklausomas kintamasis padidJei nepriklausomas kintamasis padidėja ėja vienu vienetu, priklausomas kintamasis vienu vienetu, priklausomas kintamasis padidės dydžiu, lygiu b įverčiui.padidės dydžiu, lygiu b įverčiui.
Vaikų skaitymo kokybės balais Vaikų skaitymo kokybės balais priklausomybė nuo amžiaus.priklausomybė nuo amžiaus.
Tiesinė daugialypė regresijaTiesinė daugialypė regresija
y=y=aa+b+b11xx11+b+b22xx22+b+b33xx33+ …+ b+ …+ bjjxxjj+e+e
Tikrinama HTikrinama H00: b: b=0=0
HHAA: : bent vienasbent vienas b≠0b≠0
Tiesinė daugialypė regresijaTiesinė daugialypė regresija
Prieš pradedant įvertinama:Prieš pradedant įvertinama: KoreliacijaKoreliacija Multikolinearumas (priklausomų kintamųjų Multikolinearumas (priklausomų kintamųjų
priklausomybė vienas nuo kito)priklausomybė vienas nuo kito) Ryšys paprastai žinomas iš praktikosRyšys paprastai žinomas iš praktikos Ryšio stiprumui nustatyti skaičiuojame Ryšio stiprumui nustatyti skaičiuojame
koreliacijos koeficientąkoreliacijos koeficientą SPSS skaičiuojame SPSS skaičiuojame VIFVIF ir ir tolerancetolerance. .
KKintamasisintamasis “perdaug multikolinearus”“perdaug multikolinearus”:: Jeigu Jeigu VIFVIF>4>4 Jei Jei tolerancetolerance artėja prie nulio artėja prie nulio
Tiesinė daugialypė regresijaTiesinė daugialypė regresija
Tiesinė daugialypė regresijaTiesinė daugialypė regresija
Tiesinė daugialypė regresijaTiesinė daugialypė regresija
Tiesinė daugialypė regresijaTiesinė daugialypė regresija
TiesinėTiesinė daugialyp daugialypė regresijaė regresija
y(x)=1,897+0,339*amy(x)=1,897+0,339*amžiusžius++0,0,521*trumpalaik521*trumpalaikėė atmintisatmintis
Vaikų skaitymo kokybės balais priklausomybė Vaikų skaitymo kokybės balais priklausomybė nuo amžiaus ir trumpalaikės atmintiesnuo amžiaus ir trumpalaikės atminties
Logistinė regresijaLogistinė regresija(pagal V.Čekanavičių ir G.Murauską(pagal V.Čekanavičių ir G.Murauską
http://stat.vadoveliai.lt/files/LogRegSPSS.pdfhttp://stat.vadoveliai.lt/files/LogRegSPSS.pdf))
Dvireikšmė (Dvireikšmė (binarybinary) logistinė ) logistinė regresijaregresija– toks modelis, kai vienam – toks modelis, kai vienam (priklausomam) dvireikšmiui (priklausomam) dvireikšmiui kintamąjam daro įtaką vienas ar kintamąjam daro įtaką vienas ar keletas (nepriklausomų, keletas (nepriklausomų, aiškinamųjų) kintamųjų.aiškinamųjų) kintamųjų.
PavyzdžiaiPavyzdžiaiPagal paciento svorį ir kraujo Pagal paciento svorį ir kraujo tyrimus reikia nustatyti tikimybę tyrimus reikia nustatyti tikimybę susirgti diabetu.susirgti diabetu.
Pagal testų rezultatus siekiama Pagal testų rezultatus siekiama nustatyti, ar reiks kompiuteriui nustatyti, ar reiks kompiuteriui garantinio remonto.garantinio remonto. Aiškinamasi, ar žinant rinkėjo Aiškinamasi, ar žinant rinkėjo pajamas ir amžių galima numatyti, pajamas ir amžių galima numatyti, balsuos jis už kandidatą ar balsuos jis už kandidatą ar nebalsuos. nebalsuos.
KintamiejiKintamieji
Priklausomas kintamasis Priklausomas kintamasis YY –– dvireikšmis (0 arba 1). dvireikšmis (0 arba 1). Aiškinamieji kintamieji (Aiškinamieji kintamieji (XX) – ) – intervaliniai arba pseudokintamieji. intervaliniai arba pseudokintamieji.
Vienetai (nuliai) sudaro ne daugiau Vienetai (nuliai) sudaro ne daugiau kaip 80 % kaip 80 % YY stebėjimų. stebėjimų.
ModelisModelis
P(Y P(Y ==1) = 1) =
čia
z(x) = a + b1x1 + ... + bk xk
Kitas modelio užrašymasKitas modelio užrašymas
ln )0(
)1(
YP
YP = z(x)
čiaz(x) = a + b1x1 + ... + bkxk
TikslaiTikslai
•Rasti parametrų (Rasti parametrų (aa, , bb , ..., , ..., bbkk) ) įverčiusįverčius
•Išsiaiškinti kaip gerai modelis tinka Išsiaiškinti kaip gerai modelis tinka duomenimsduomenims
•Mokėti pritaikyti prognozėmsMokėti pritaikyti prognozėms
Logistinės regresijos pavyzdysLogistinės regresijos pavyzdys
Norėdamas sužinoti, ar inkubacinės Norėdamas sužinoti, ar inkubacinės aplinkos temperatūra turi įtakos aplinkos temperatūra turi įtakos vėžliukų lyčiai, Ajovos universiteto vėžliukų lyčiai, Ajovos universiteto profesoriusprofesoriusK. Koehler tyrė, kiek kokios lyties K. Koehler tyrė, kiek kokios lyties vėžliukų išsirito iš skirtingose vėžliukų išsirito iš skirtingose temperatūrose laikytų vėžlio temperatūrose laikytų vėžlio kiaušinių.kiaušinių.
PavyzdysPavyzdys
Temperatūra Vėžliukai Vėžliukės
27,2 C0 2 25
27,7 C0 17 7
28,3 C0 26 4
28,4 C0 19 8
28,9 C0 27 1
SPSS Logistinė regresijaSPSS Logistinė regresija
SPSS Logistinė regresijaSPSS Logistinė regresija
SPSS Logistinė regresijaSPSS Logistinė regresija
SPSS Logistinė regresijaSPSS Logistinė regresija
SPSS “SPSS “outputoutput””Kintamojo kodai sutapo su modelio kodais. Taip bus ne visada. Modelio vienetu tampa didesnioji Y reikšmė.
Geras klasifikavimas būtina, bet nepakankama sąlyga, kad tiktų modelis.
Statistinės išvados Statistinės išvados atsižvelgiant įatsižvelgiant į
p reikšmęp reikšmę (Omnibus(Omnibus ir Wald)
Modelio tinkamumo Modelio tinkamumo pagrindimaspagrindimas
Omnibus test
Gerai, jei p<0,05
Goodness of fit test
Gerai, jei p>0,05
Determinacijos koeficientai
PastabaPastaba
RezultataiRezultatai
Daugiklis Exp(2,211) = 9,125 rodo, kaip keičiasi galimybių santykis, temperatūrai pakilus vienu laipsniu.
Galimybių santykį Exp(2,211) =9,125 interpretuojame taip: temperatūrai padidėjus vienu laipsniu, galimybė išsiristi vėžliukui padidėja 9,125 karto.
Prognozavimo pavyzdysPrognozavimo pavyzdys
P(Y P(Y ==1) =1) = = = =0,367=0,367
Žinome, kad Y=1 atitinka teiginį išsiris vėžliukas. Todėl gautąjį rezultatą interpretuojame taip:esant 27,5 C0 temperatūrai, tikimybės išsiristi vėžliukui įvertis yra 0,367.Tikimybė išsiristi vėžliukei lygi 1- 0,367 = 0,633.
z(x) = a + b1x1 + ... + bk xk
Kai temperatūra yra 27,50C, tai z(x) = -61,318 + 2,211*27,5 = -0,545
Pastaba. Galimybių santykis buvo 9,125.Galimybė – nėra tikimybė, vienetą viršyti gali.
RodikliaiRodikliai
Išrikiuokime modelio tinkamumą atspindinčius rodiklius pagal svarbą:
•Klasifikavimo lentelė. •χ2 kriterijus ir Hosmerio - Lemešou kriterijus. •Voldo kriterijus „įtartiniems“ aiškinamiesiems kintamiesiems rasti. •Determinacijos koeficientai.