logisticka regresija (1)

Upload: marko-delic

Post on 15-Oct-2015

116 views

Category:

Documents


5 download

DESCRIPTION

ashgdshz

TRANSCRIPT

UNIVERZITET U KRAGUJEVCU

Kvantitativne metode u ekonomiji i menadmentu Logistika kriva

UNIVERZITET U KRAGUJEVCU

EKONOMSKI FAKULTET KRAGUJEVAC

SEMINARSKI RAD

TEMA: LOGISTIKA REGRESIJAPredmet: Kvantitativni metodi u ekonomiji i menadmentu

Mentor: Prof. dr M. Lovri

lanovi tima: Edisa Drekovi Mirela Momilovi

Kragujevac, Jun 2009.

SADRAJ:3Uvod

41 Tumaenje modela logistike regresije

41.1Tumaenje linearne aproksimacije

51.2Primer sa krabama

71.3Tumaenje racija verovatnoe deavanja

82Znaaj logistike regresije

92.1Intervali pouzdanosti za efekte

92.2Test znaaja

102.3Distribucija prorauna verovatnoe

113Provera modela

113.1Kvalitet podesnosti za modele sa neprekidnim prediktorima

133.2Uporedni testovi kvaliteta podesnosti i modela racija verodostojnosti

144Viestruka logistika regresija

144.1Primer sa krabama pri korienju prediktora boje i irine

164.2Poreenje modela

164.3Kvantitativna obrada rednog prediktora

174.4Odabir modela sa nekoliko prediktora

19Zakljuak

20PRILOG: PRIMER

30Literatura:

Uvod

Logistika regresija ili logistiki model ili logit model se koristi za predvianje verovatnoe dogaaja putem prilagoavanja podataka logistikoj krivi. Logistika regresija je tip regresione analize u kojoj je zavisna (kriterijumska) promenljiva dihotomna, odnosno binarna i kodira se sa 0 ili 1 i postoji najmanje jedna nezavisna (prediktorska) promenljiva.

Ovaj rad ima za cilj da blie objasni ta je to logistika regresija, kako i kada se koristi, te kako izgleda regresioni model ukoliko imamo jednu ili vie prediktorskih varijabli, ta je to odnos ansi i kada se smatra da je regresioni model dobro prilagoen podacima. Pored toga na kraju rada emo dati primer koritenja logistike regresije uraen pomou softvera SPP.

1 Tumaenje modela logistike regresije

Statistiko modeliranje binarnih promenljivih odgovora podrazumeva merenje izbora koje za svaki subjekat moe biti uspeno ili neuspeno. Binarni podaci su verovatno najei oblik kategorijskih podataka. Najrasprostranjeniji model binarnih podataka je logistika regresija.

Za binarni izbor Y i kvantitativnu objanjavajuu promenljivu X, neka (x) predstavlja verovatnou uspeha kada X ima vrednost x. Ova verovatnoa je parametar za binomnu distribuciju. Model logistike regresije ima linearni oblik za logit ove verovatnoe.

(Jednaina 1)

Ova formula prikazuje da (x) raste ili opada sa S-funkcijom od x.

Druga formula za logistiku regresiju odnosi se direktno na verovatnou uspeha. Ova formula koristi eksponencijalnu funkciju exp(x) = ex u obliku

(Jednaina 2)

1.1 Tumaenje linearne aproksimacije

Parametar odreuje stopu rasta ili opadanja S-krive. Oznaka ukazuje na to da li je kriva opadajua ili rastua, kao i na stopu rasta promene kako | | raste. Kada model ima vrednost = 0, desna strana Jednaine 2 pojednostavljuje se u konstantu. Zatim, (x) je identian sa svim x, te kriva prelazi u horizontalnu pravu liniju. Binarni izbor Y postaje potom konstanta X.

Grafik 1 pokazuje S-stranu modela logistike regresije za (x). Budui da ova funkcija ima zakrivljeni, a ne pravolinijski izgled, zakljuuje se da stopa promene u (x) po jedinici promene u x varira. Prava linija koja predstavlja tangentu na krivi za datu vrednost x prikazuje stopu promene u toj taki. Za parametar logistike regresije, ta prava ima nagib jednak . Na primer, linija tangente na krivu za vrednost x kod koje je (x) = 0,5 ima nagib (0,5)(0,5) = 0,25; s druge strane, kada je (x) = 0,9 ili 0,1, nagib iznosi 0,09. Nagib se pribliava vrednosti 0 kako se verovatnoa pribliava vrednosti 1,0 ili 0.

Najotriji nagib krive dogaa se za vrednost x kada je (x) = 0,5; ova vrednost x iznosi

x = - / . (Vrednost (x) = 0,5 se ovde moe proveriti zamenom - / za x u Jednaini 2, to jest, zamenom vrednosti (x) = 0,5 u Jednaini 1 i reavanjem po x) Ova vrednost x se ponekad naziva srednjim nivoom efektivnosti i oznaava se sa EL50. Njime se prikazuje nivo kod kojih svaki rezultat ima 50% anse.

Graf 1: Linearna aproksimacija logistike regresione krive1.2 Primer sa krabamaIzraunavanja maksimalne verodostojnosti (ML) za modele uklapanja logistike regresije su prilino sloena, ali se lako izvode korienjem statistikog softvera. U svrhu ilustracije ovog modela mogu se koristiti podaci u vezi sa krabama. Binarni izbor e se koristiti da bi se videlo dali enke krabe imaju prisutnog mujaka (tj. satelita); u tom smislu, vai Y = 1 ako enka krabe ima bar jednog satelita, a Y = 0 ako nema satelita.

Grafik 2 prikazuje podatke koji se sastoje od skupa taaka na nivou Y = 1 i drugi niz taaka na nivou Y = 0. Numerisani simboli ukazuju na broj opservacija u svakoj taki. Izgleda da Y = 1 tei da se dogodi relativno ee to su vee x vrednosti. Poto Y uzima samo vrednosti 0 i 1, teko je odrediti da li model logistike regresije ima smisla prilikom razvijanja Y za vrednost x. Bolje informacije rezultiraju iz grupisanja vrednosti irine u svaku katerogoriju i raunanja uzorka za udeo kraba koji imaju satelite za svaku kategoriju. Ovim se otkriva da li prave proporcije slede priblino trend koji zahteva ovaj model. Tabela 1 prikazuje podatke grupisanja kojima se moe ispitati adekvatnost Pojzonovih modela regresije. U svakoj od osam kategorija irine raunali smo uzorak za udeo kraba koji imaju satelite, kao i srednju irinu za krabe u ovoj kategoriji. Grafik 2 takoe sadri osam taaka koje predstavljaju uzorak proporcije enki kraba koje imaju satelite koji se rauna preko srednjih irina za ovih osam kategorija.

Graf 2: Da li su sateliti prisutni (Y=1 da, Y=0 ne) prema irini enske krabeTabela 1: Odnos izmeu irine enskih kraba i prisustva satelita, i predviene vrednosti za model logistike regresije

Broj onih Predvieni broj Broj koji imaju Uzorak Predviena kraba koje imajuirina sluajeva satellite udela verovatnoa satelite_______

29,25 14 14 1,00 0,93 13,08

S druge strane, nekim softverskim programa podaci se mogu dati u filtriranom obliku ime bi se prikazao opti trend bez potrebe da se pretpostavi odreeni funkcionalni oblik za dati odnos. Ovi metodi se zasnivaju na generalizovanim modelima adicije i njima se prikazuje ak optija strukturna forma nego generalizovanim linearnim modelom (GLM). Na primer, njima se pronalaze verovatno kompleksnije funkcije objanjavajuih promenljivih koje slue kao najbolji prediktori odreenog tipa. Grafik 2 takoe prikazuje krivu koja se zasniva na filtriranom prikazivanju podataka uz pomo ovog modela. Osam izraunatih uzoraka proporcije i ova kriva ugrubo prikazuju rastui trend tako da se potom pristupa modelima uklapanja koji upuuju na ovakve trendove.

Najjednostavniji model za interpretaciju je model linearne verovatnoe, (x) = + x. Za ove podatke, neke predviene vrednosti ovog generalizovanog linearnog modela su izvan legitimnog opsega za binomni parametar tako da uklapanje maksimalne verodostojnosti propada. Obino najmanji kvadrati uklapanja iznose (x) = -1,766 + 0,092x. Predviena verovatnoa satelita poveava se za 0,092 za svaki 1cm poveanja po irini. Ovaj model daje jednostavno tumaenje i realistina predvianja veeg dela opsega irine, ali je neadekvatan za ekstremne vrednosti. Na primer, pri maksimalnoj irini u ovom uzorku od 33,5 njegova predviena verovatnoa iznosi -1,766 + 0,092(33,5) = 1,3.

Parametar maksimalne verodostojnosti procenjen za model logistike regresije iznosi = -12,351 i za = 0,497. Predviena verovatnoa satelita je uzorak analogan sa Jednainom 2:

Poto vai > 0 predviena verovatnoa za je vea pri viim vrednostima irine. Pri minimalnoj irini u ovom uzorku od 21cm, predviena verovatnoa je = exp(-12,351 + 0,497(21)) / [1 + exp(-12,351 + 0,497(21))] = 0,129; pri maksimalnoj irini od 33,5cm, predviena verovatnoa iznosi exp(-12,351 + 0,497(33,5)) / [1 + exp(-12,351 + 0,497(33,5))] = 0,987. Nivo srednje efektivnosti je irina kod koje predviena verovatnoa iznosi 0,5 gde je x = EL50 = - / = 12,351 / 0,497 = 24,8. Grafik 1 izraunava predviene verovatnoe kao funkcije irine.

Na uzorku srednje irine od 26,3cm predviena verovatnoa satelita iznosi 0,674. Dodatna stopa promene u uklopljenoj verovatnoi pri ovoj taki iznosi (1 ) = 0,497(0,674)(0,326) = 0,11. Za enke krabe koje su blizu srednje irine, procenjena verovatnoa satelita raste pri stopi od 0,11 po cm porasta pri irini. Predviena stopa promene je najvea pri vrednosti x od (24,8) gde je = 0,5; otuda, predviena verovatnoa raste pri stopi od (0,497)(0,5)(0,5) = 0,12 po cm porasta pri irini. Za razliku od modela linearne verovatnoe, model logistike regresije dozvoljava da stopa promene varira kako varira i vrednost x.

Da bi se uklapanje detaljnije opisalo, Tabela 1 prikazuje predvieni broj kraba koje imaju satelite (to jest, uklopljene vrednosti). Da bi se izraunao taj broj, dodaje se predviena verovatnoa za sve krabe u kategoriji; na primer, predviene verovatnoe za 14 kraba sa irinama ispod 23,25cm iznosi 3,64. Prosena predviena verovatnoa za enke krabe date u kategoriji irine jednaka je uklopljenoj vrednosti podeljenoj brojem enki krabe u toj kategoriji. Za prvu kategoriju irine, 3,64 / 14 = 0,26 je prosena predviena verovatnoa. Tabela 1 daje uklopljene vrednosti i prosene predviene verovatnoe za grupisani model. Blie poreenje ovih podataka sa uzorkom kraba koje imaju satelite i uzorkom proporcije govori da se ovaj model valjano moe koristiti.

1.3 Tumaenje racija verovatnoe deavanja

Naredno tumaenje modela logistike regresije koristi verovatnou deavanja i racija verovatnoe deavanja. Kao model verovatnoe izbora (to jest, izgledi za uspehom) koristiti se sledea jednaina:

(Jednaina 3)

Eksponencijalni odnos prua tumaenje za : Izgledi se poveavaju multiplikativno za e za svako poveanje od jedne jedinice po x. Drugim reima, verovatnoa na nivou x+1 jednaka je verovatnoi pri x pomnoeno sa e. Kada je = 0, e = 1 tada se verovatnoa ne menja kako se menja vrednost x.

Za enke krabe procenjena verovatnoa satelita mnoi se sa exp() = exp(0,497) = 1,64 za svaki centimetar poveanja pri irini, odnosno, poveanje iznosi 64%. Radi ilustracije, vrednost srednje irine od x = 26,3 ima predvienu vrednost satelita jednaku 0,674 i verovatnou od 0,674 / 0,326 = 2,07. Pri x = 27,3 = 26,3 + 1,0 moe se proveriti da je predviena vrednost 0,773 i verovatnoa 0,773 / 0,227 = 3,40. Meutim, ovde se radi o poveanju od 64%, to jest, 3,40 = 2,07(1,64).

Logaritam verovatnoe, to predstavlja logit transformaciju (x), ima linearni odnos. Ovde se radi o logit izrazu modela, to govori da se logit poveava uz jedinicu za svaku jedinicu promene pri x. Veina ne shvata logit skalu kao neto prirodno, tako da ona ima ogranienu upotrebu.

1.4 Logistika regresija sa studijama kontrole sluaja

Sledea karakteristika modela logistike regresije odnosi se na situacije kod kojih je objanjavajua promenljiva X sluajna, a ne promenljiva izbora Y. Ovo se, uglavnom, dogaa kod retrospektivnog nacrta uzorka, kao to su studije kontrole sluaja. Za uzorke subjekata kod kojih vai Y = 1 (sluajevi) i Y = 0(kontrole), posmatra se vrednost X. Dokaz postoji pri asocijaciji izmeu X i Y ako se distribucija vrednosti X razlikuje izmeu sluaja i kontrole.

Mnoge biomedicinske studije, posebno epidemioloke studije, koriste nacrte kontrole sluaja. Ovde se parametri logistike regresije odnose na verovatnou i racio verovatnoe deavanja. Stoga se takvi modeli mogu uklopiti u retrospektivne podatke, a mogu se proceniti i efekti studijama kontrole sluaja. Ovo nije tano kod modela binarnih izbora poto racio verovatnoe deavanja nije njihova prirodna mera za opisivanje efekta. Ovim se daje vanost logit veze u odnosu na veze kao to su probit, i to je glavni razlog zato je model logit pretekao ostale.

Bez obzira na mehanizam uzimanja uzorka, model logistike regresije moe i ne mora da na dobar nain opisuje dati odnos. U jednom posebnom sluaju, ovaj model je vie nego neophodan. Pretpostavimo da je distribucija vrednosti X za sve subjekte za koje vai Y = 1 normalna N(1, ), i pretpostavimo da je distribucija vrednosti X za sve subjekte za koje vai Y = 0 normalna N(0, ); drugim reima, dolazi do drugaijih srednjih vrednosti, ali i do istih standardnih odstupanja. Potom se moe videti da (x) zadovoljava krivu logistike regresije, s tim da ima isti znak 1 - 0. Kada se populacija sastoji od meavine dva tipa subjekata jedan skup kod kojeg vai Y = 1 sa distribucijom na X u obliku zvona, i drugi skup kod kojeg vai Y = 0 sa distribucijom isto u obliku zvona sa slinim rasprostiranjem, tada je funkcija logistike regresije priblina krivi za (x). Ako su distribucije u obliku zvona, ali sa prilino razliitim rasprostiranjima tada model takoe sadri uslov kvadriranja (kako x tako i x2) i dobro se uklapa. U tom sluaju, odnos nije monoton, to jest, (x) se poveava pa smanjuje, ili obrnuto.

2 Znaaj logistike regresije

U prethodnom delu bilo je rei o tome kako uklapanje modela logistike regresije pomae pri opisivanju prediktora za promenljivu binarnog izbora. U narednom delu sledi prikaz statistikog znaaja parametara modela, to pomae pri odreivanju znaaja i veliine efekata. Odreeni softveri mogu da se koriste pri prikazivanju procene parametara i standardnih greaka kao i drugih podataka u vezisa uklopanjem modela.

2.1 Intervali pouzdanosti za efekte

Veliki interval pouzdanosti za parametar u modelu logistike regresije, logit[(x)] = + x, je:

.

Ilustracije radi mogu se koristiti primeri analize logistike regresije kraba. Procenjeni efekat irine pri uklopljenoj jednaini za verovatnou satelita iznosi = 0,497, sa ASE = 0,102. Interval pouzdanosti od 95% za je 0,497 1,96(0,102), ili (0,298, 0,697). Interval pouzdanosti za efekat verovatnoe pri centimetru porasta po irini iznosi (e.298, e.697) = (1,35, 2,01). Pretpostavljamo da svaki centimetar poveanja pri irini ima najmanje 35-procentno poveanje, i uglavnom se udvostruava ansa da enka krabe ima satelit.

Uslov (1-) daje priblinu promenu verovatnoe po jedinici promene za x. Na primer, kod = 0,05 procenjena stopa promene je 0,25 = 0,124. 95-procentni interval pouzdanosti za 0,25 iznosi 0,25 pomnoeno sa krajnjim takama intervala za , ili [0,25(0,298), 0,25(0,697)] = (0,074, 0,174). Ukoliko vai model logistike regresije, vrednosti x blizu irine kod koje je = 0,5, stopa poveanja verovatnoe satelita po centimetru poveanja po irini je izmeu 0,07 i 0,17.

2.2 Test znaaja

Kod modela logistike regresije, nulta hipoteza H0 : = 0 znai da je verovatnoa uspeha nezavisna od X.

Kod veih uzoraka, statistika testa

ima standardnu, normalnu distribuciju kada je = 0. Uz to, z se moe pridodati standardnoj tabeli da bismo dobili jednostranu ili dvostranu P-vrednost. Isto tako, za dvostranu alternativu 0, ( / ASE)2 vai Valdova statistika kod koje vai ksi-kvadratna distribucija velikog uzorka sa df = 1.

Iako Valdov test dobro funkcionie kod velikih uzoraka, test racija verodostojnosti je efektniji i pouzdaniji za veliine uzorka koje koristimo u praksi. Statistika testa poredi maksimalni L0 log-funkcije verodostojnosti kada je = 0 (to jest, kada (x) mora da bude identina sa svim vrednostima x) do maksimalnog L1 log-funkcije verodostojnosti za nerestriktivnu . Statistika testa, -2(L0 L1), takoe ima ksi-kvadratnu distribuciju velikog uzirka sa df = 1.Veina softvera za logistiku regresiju daje podatke za maksimalnu log-verodostojnost L0 i L1, a statistika racija verodostojnosti dobija se iz ovih maksima.

Za podatke sa krabama, statistiki podaci z = / ASE = 0,497 / 0,102 = 4,9 prikazuju vrst dokaz pozitivnog efekta irine na prisustvo satelita (P < 0,0001). Ekvivalentna statistika Valdovog ksi-kvadrata, z2 = 23,9, ima df = 1. Maksimalna log-verodostojnost iznosi L0 = -112,88 po H0 : = 0 i L1 = -97,23 za puni model. Statistika racija verodostojnosti iznosi -2(L0 L1) = 31,3, sa df = 1.

2.3 Distribucija prorauna verovatnoe

Procenjena verovatnoa da je Y = 1 pri fiksnom skupu x od X iznosi

(Jednaina 3)

Veina softvera za logistiku regresiju moe da prikae procene kao i intervale pouzdanosti za prave verovatnoe.

Ovde se mogu prikazati podaci za verovatnou pojavljivanja satelita za enke krabe irine x = 26,5, to je blizu srednje irine. Uklapanje logistike regresije procenjuje se na (26,5) = exp(-12,351 + 0,497(26,5)) / [1+exp(-12,351 + 0,497(26,5))] = 0,695. Prema softveru, 95-procentni interval pouzdanosti za tanu verovatnou iznosi (0,61, 0,77).

Intervali pouzdanosti za verovatnou se mogu izvesti korienjem matrice kovarijanse modela procene parametra. Uslov + x u eksponentima jednaine predvianja (Jednaina 3) je procenjeni lineani prediktor u logit transformaciji x. Preocenjeni logit ima veliki uzorak ASE dat procenjenim korenom na kvadrat od

95-procentni interval pouzdanosti za pravi logit je ( + x) 1,96ASE. Zamenom krajnjih taaka intervala za + x u eksponentima Jednaine 3 dobija se odgovarajui interval verovatnoe.

Na primer, kod x = 26,5, predvieni logit je -12,351 + 0,497(26,5) = 0,825. Softverski programi daju sledee podatke Var() = 6,910, Var() = 0,01035, Cov(, ) = -0,2668, iz kojih se vidi da procenjena varijansa predvienog logita iznosi (6,910) + (26,5)2(0,01035) + 2(26,5)(-0,2668) = 0,038.

95-procentni interval pouzdanosti za pravi logit iznosi ili (0,44, 1,21). Sledei jednainu 3, moemo izvesti interval

za verovatnou satelita pri irini od 26,5cm.

Moe se dogoditi da se zanemari model uklapanja, te da se jednostavno koriste uzorci proporcija da bi se procenile takve verovatnoe. est kraba u tom uzorku imaju irinu 26,5, a etiri od njih est imaju satelite. Procena uzorka proporcije na x = 26,5 iznosi to je slino proceni zasnovanoj na modelu. Prebacivanjem testova za male uzorke korienjem binomne distribucije, 95-procentni interval pouzdanosti se zasniva na ovih est opservacija i sam iznosi (0,22, 0,96).

Kada model logistike regresije funkcionie, estimator verovatnoe zasnovan na modelu daleko je bolji pokazatelj od uzorka proporcije. Ovaj model ima samo dva parametra za procenu, gde pristup koji nije zasnovan na modelu ima odvojeni parametar za svaku distinktivnu vrednost X. Na primer, za x = 26,5, softverski program daje ASE = 0,04 za procenu zasnovanu na modelu 0,695, gde je procenjena standardna greka za uzorak proporcije od 0,67 zasnovan na samo 6 opservacija. 95-procentni intervali pouzdanosti su (0,61, 0,77) naspram (0,22, 0,96). Umesto korienja samo 6 opservacija, ovaj model koristi podatke o tome da svih 173 opservacija pruaju procenu ta dva parametra modela. Dobijeni rezultat je mnogo precizniji.

Stvarnost je malo komplikovanija. U praksi, nee svaki model tano predstavljati stvarni odnos izmeu (x) i x. Na primer, kako se poveava veliina uzorka, estimator zasnovan na modelu ne mora da se pribliava u potpunosti tanoj vrednosti verovatnoe. Meutim, to nuno ne mora da znai da je uzorak proporcije zaista bolji estimator u praksi. Ako se model pribliava stvarnoj verovatnoi na odgovarajui nain, njegov estimator i dalje tei da bude blii pravoj vrednosti od proporcije uzorka. Ovaj model filtrira podatke uzorka. Rezultirajui estimatori tee da budu bolji osim ako svaka proporcija uzorka nije zasnovana na ekstremno velikom uzorku. 3

I konano, ako model logike regresije priblino odgovara pravoj zavisnosti (x) na x, tada su taka i proraun intervala za (x) zasnovani na njemu prilino korisni.

3 Provera modela

Modeli uklopljene logistike regresije pruaju predvienu verovatnou da je Y = 1. Pri svakom skupu objanjavajuih promenljivih moe se pomnoiti predviena verovatnoa sa brojem subjekata da bi se dobio uklopljeni rezultat. Slino tome, moe se dobiti uklopljeni rezultat za Y = 0 za svaki postupak. Test nulte hipoteze poredi uklopljene i posmatrane rezultate uz pomo testa Pearson X2 ili testa racija verodostojnosti G2.

Za odreeni broj prorauna kada veina uklopljenih rezultata iznosi najmanje 5, X2 i G2 imaju pribline ksi-kvadratne raspodele. Stepeni slobode, poznati kao ostaci df za dati model, jednaki su broju logit uzoraka (to jest, broju prorauna objanjavajuih promenljivih), te minus broj parametara modela. Kao i obino, velike X2 i G2 vrednosti pruaju dokaza o nedostatku uklapanja, a P-vrednost je desnostrana verovatnoa iznad posmatrane vrednosti. Kada je uklapanje slabo, ostaci i ostale dijagnostike mere opisuju uticaj pojedinih opservacija na uklapanje modela i istiu razloge za neadekvatnost.

3.1 Kvalitet podesnosti za modele sa neprekidnim prediktorima

Kvalitet podesnosti za ovaj model se moe izraziti uz pomo x = irina da bismo predvideli verovatnou x po kojem enka krabe ima satelit:

(Jednaina 4)

irina uzima u obzir 66 distinktivne vrednosti za 173 krabe, uz neto opservacija pri veini irina. Podaci se mogu posmatrati kao tabela sluajnosti 66 X 2, u kojoj dve elije u svakom redu daju proraun broja kraba sa satelitima i broja kraba bez satelita, na toj irini. Rezultati elija u toj tabeli su mali s obzirom da se radi o uklopljenim rezultatima.

Teorija velikog uzorka za X2 i G2 primenjuje se za stalni broj elija kada su uklopljeni rezultati veliki. Ova teorija se na dva naina uruava kod tabele 66 X 2. Prvo, veina uklopljenih rezultata su mali. Drugo, kada se podaci skupe, mogu se dogoditi i dodatne vrednosti irine, tako da e tabela sluajnosti sadrati vie elija od stalnog broja. Zbog toga, X2 i G2 za modele logistike regresije uklopljene sa neprekidnim ili skoro neprekidnim prediktorima nemaju pribline ksi-kvadratne raspodele. Ovi indeksi uklapanja se daleko bolje primenjuju kada su objanjavajue promenljive kategorike, a relativno mali broj uklopljenih rezultata je nizak.

Da bismo proverili adekvatnost logistike regresije za ove podatke, moemo uporediti posmatrane i uklopljene vrednosti u grupisanoj formi Tabele 1. Ovi podaci su prikazani u dolenavedenoj Tabeli 2 (radi se o tabeli 8 X 2). U svakoj kategoriji irine, uklopljena vrednost za izbor DA je suma predviene verovatnoe (x) za sve krabe koje imaju irinu u toj kategoriji; uklopljena vrednost za izbor NE je suma 1 (x) za date krabe.

Tabela 2: Grupisanje posmatranih i uklopljenih vrednosti za uklapanje modela logistike regresije na primeru podataka o krabama Broj Broj Uklopljeno Uklopljenoirina DA NE DA NE

29,25 14 0 13,08 0,92 Uklopljene vrednosti prikazane u ovom obliku su puno vee od onih u prvobitnoj tabeli 66 X 2, a ksi-kvadratna statistika za testiranje modela je daleko validnija. Zamenom 16 grupisanih posmatranih rezultata i uklopljenih vrednosti u standardnu ksi-kvadratnu statistiku izgleda ovako:

i

Tabela 2 ima osam logit uzoraka, jedan za svaki proraun; model logistike regresije ima dva parametra (Jednaina 4), tako da je df = 8 2 = 6. Ni X2 ni G2 ne pokazuju dokaz nedostatka uklopljenosti (P > 0,4).

Jednostavniji, ali i pribliniji metod za dobijanje statistikih podataka kvaliteta podesnosti , direktno uklapa model logistike regresije u posmatrane rezultate u okviru tabele 8 X 2. Da bi se irina posmatrala na kvantitativan nain, rezultati se dodeljuju kategorijama, kao to su srednja irina {22,69; 23,84; 24,77; 25,84; 26,79; 27,74; 28,67; 30,41}za krabe u svakoj kategoriji. Jednaina logit predvianja je logit[(x)] = -11,51 + 0,465x, koja prikazuje skup predvienih verovatnoa i uklopljene vrednosti. Za ovo uklapanje vai X2 = 5 i G2 = 6, zasnovano na df = 6. Rezultati su slini statistikim podacima kod kojih se koriste uklopljene vrednosti zasnovane na predvienoj verovatnoi kod pojedinih vrednosti irine.

Kada su objanjive promenljive neprekidne teko je analizirati nedostatak uklapanja bez odreenog tipa grupisanja. Kako se broj objanjavajuih promenljivih poveava, istovremeno grupisanje promenljivih za svaku promenljivu moe proizvesti tabelu sluajnosti sa velikim brojem elija, od kojih mnoge imaju male rezultate. Alternativni nain grupisanja stvara posmatrane i uklopljene vrednosti zasnovane na deljenju predvienih verovatnoa. Za model uklapanja, 14 kraba u prvoj kategoriji irine su one sa najmanjim predvienim verovatnoama satelita; 14 kraba u drugoj kategoriji irine imaju vee predviene verovatnoe od kraba u prvoj kategoriji, ali manje predviene verovatnoe od kraba u narednoj kategoriji i tako dalje.

Bez obzira na to koliko prediktora ima u modelu, posmatrane i uklopljene vrednosti mogu se podeliti prema predvienim verovatnoama. est pristup je formiranje grupa pri deljenju tako da one imaju priblino jednaku veliinu. Da bi se formiralo 10 grupa na primer, jedan par posmatranih i uklopljenih rezultata odnosi se na n/10 opservacija koje imaju najvie predviene verovatnoe, naredni par se odnosi na n/10 opservacija koje imaju drugu decilu predvienih verovatnoa i tako dalje. U praksi obino nije mogue formirati grupe tano jednake veliine jer skupovi opservacija imaju iste predviene verovatnoe, i sve opservacije koje imaju istu predvienu verovatnou stavljaju se u istu grupu. Za svaku grupu, uklopljena vrednost rezultata je suma predviene verovatnoe za ishod svih opservacija u datoj grupi.

Ovaj postupak je osnova testa prema Hosmeru i Lemou (Hosmer, Lemeshow). Njihova statistika slina Pirsonu zapravo nema ksi-kvadratnu raspodelu, ali su simulacije pokazale da je njihova raspodela priblina ksi-kvadratnoj sa df = g 2, gde g oznaava broj grupa. Njihov test se moe primeniti sa g = 10 grupe priblino jednake veliine za model logistike regresije uklopljene u negrupisane podatke. Statistika Hosmer-Lemoa iznosi 3,5 zasnovana na df = 8 to ukazuje na dobru uklopljenost.

Nedostatak uklopljenosti se moe pronai putem testa racija verodostojnosti da bi se poredio radni model sa sloenijim modelima. Na primer, u obzir se mogu uzeti sloeniji modeli koji sadre nelinearne efekte (kao to su uslovi kvadriranja) za kvantitativne prediktore ili uslove interakcije. Ako ne naemo sloeniji model koji prua bolju uklopljenost tada se moe rei da je ovaj model uklapanja prihvatljiv. Ovaj model je korisniji od naune perspektive. Statistika velikog kvaliteta podesnosti jednostavno ukazuje na odreeni nedostatak uklopljenosti, ali ne prua nikakav uvid u prirodu toga.

3.2 Uporedni testovi kvaliteta podesnosti i modela racija verodostojnosti

Statistika racija verodostojnosti -2(L0 L1) se koristi za testiranje da li odreeni parametri u nekom modelu iznose 0. Ovim testom se porede maksimalna log- verodostojnost (L1) za model do maksimalne log-verodostojnosti (L0) za jednostavniji model kojim se briu ovi parametri. Sa M1 moemo oznaiti uklopljeni model, a sa M0 jednostavniji model za koji ovi parametri iznose 0.

Statistika kvaliteta podesnosti G2 za testiranje uklopljenosti modela logistike regresije M je specijalni sluaj statistike racija verodostojnosti po kojem je M0 = M, a M1 je najsloeniji mogui model. Ovaj sloeni model ima odvojeni parametar za svaki logit, i prua savrenu uklopljenost za logit uzorke. Ovaj model se naziva zasieni model. Pri testiranju toga da li je M uklopljen, testiramo da li su svi parametri u zasienom modelu, ali ne i u M, jednaki nuli. Ovu statistiku testiranja uklopljenosti M moemo oznaiti sa G2(M). U terminologiji GLM ovo se naziva odstupanje modela. Neka Ls oznaava maksimalnu log-verodostojnost zasienog modela. Tako, na primer, odstupanja za modele M0 i M1 iznose G2(M0) = -2(L0 LS) i G2(M1) = -2(L1 LS).

Sa G2(M0 | M1) moemo oznaiti statistiku racija verodostojnosti za testiranje M0 pod uslovom da M1 funkcionie. Stoga statistiki proraun za poreenje ova dva modela iznosi

kao razlika statistike kvaliteta podesnosti kod G2 za ova dva modela. Drugim reima, statistika racija verodostojnosti za poreenje ova dva modela je jednostavno razlika u odstupanjima ova dva modela. Ova statistika je velika kada se M0 loije uklapa u poreenju sa M1. Radi se o ksi-kvadratnoj statistici velikog uzorka, sa df jednakim razlici izmeu ostatka df vrednosti za ova dva modela.

Poreenje ova dva modela se moe ilustrovati uklapanjem grupisanih podataka kod kraba. Model logistike regresije sa irinom moemo oznaiti M1 kao jedinim prediktorom, a jednostavniji model koji ima samo jedan odseen parametar sa M0. Ovaj jednostavniji model predlae nezavisnost irine i ima jedan satelit, a statistika kvaliteta podesnosti G2 je jednostavno reeno G2 statistika za testiranje nezavisnosti u dvostranoj tabeli sluajnosti. Za posmatrane rezultate u tabeli 8 X 2, jednaka je G2(M0) = 34, zasnovano na df = 7. Poto uklapanje modela sa irinom kao prediktorom ima G2(M1) = 6, sa df = 6, komparativna statistika za ova dva modela je G2(M0 | M1) = G2(M0) G2(M1) = 34 6 = 28, zasnovana na df = 7 6 = 1. U stvari, ovo je jednako statistici racija verodostojnosti -2(L0 L1) za testiranje da je = 0 u modelu logistike regresije uklopljene u grupisane podatke Tabele 2.

4 Viestruka logistika regresija

Model logistike regresije i drugi generalizovani linearni modeli (GLM) poput obinih modela regresije za normalne podatke se generalizuju da bi se dolo do objanjavajuih promenljivih. Prediktori mogu biti kvantitativni, kvalitativni, ili kvantitativno-kvalitativni.

Oznaimo sa X1, X2, ..., Xk skup k prediktora za binarni izbor Y. Model (dat u Jednaini 1) za logit verovatnoe za Y = 1 generalizuje se u:

EMBED Equation.3 (Jednaina 5)

Parametar i odnosi se na efekte Xi na log izglede za Y = 1, ime se kontroliu ostale Xs. Na primer, exp(i) je multiplikativni efekat na izglede poveanja za jednu jedinicu u Xi, pri stalnom nivou druge Xs.

4.1 Primer sa krabama pri korienju prediktora boje i irine

Podaci o krabama se mogu dalje analizirati ukljuivanjem irine i boje enki kraba kao prediktore. Boja ima pet kategorija: svetla, srednje svetla, srednja, srednje tamna, tamna. Boja je surogat za starost starije krabe postaju tamnije. Uzorak ne sadri krabe svetle boje, tako da ovi modeli koriste samo ostale etiri kategorije.

Boju prvo tretiramo na kvalitativan nain korienjem tri vetake promenljive (dummy variables) da bismo predstavili etiri kategorije. Ovaj model se moe predstaviti na sledei nain:

(Jednaina 6)

gde x oznaava irinu, a

c1 = 1 za srednje svetlu boju; u ostalim sluajevima je 0,

c2 = 1 za srednju boju; u ostalim sluajevima je 0,

c3 = 1 za srednje tamnu boju; u ostalim sluajevima je 0.

Boja krabe je tamna (kategorija 4) kada je c1 = c2 = c3 = 0. Procene maksimalne verodostojnosti (ML) za date parametre su:

Prekid:

= -12,715; ASE = 2,762

c1:

1 = 1,330; ASE = 0,852

c2:

2 = 1,402;ASE = 0,548

c3:

3 = 1,106;ASE = 0,592

irina:

4 = 0,468;ASE = 0,106.

Na primer, za tamne krabe, c1 = c2 = c3 = 0, jednaina predvianja je logit() = -12,715 + 0,468x; za razliku od toga, za srednje svetle krabe, c1 = 1, je logit() = (-12,715 + 1,330) + 0,468x = -11,385 + 0,468x.

Model pretpostavlja nedostatak interakcije izmeu boje i irine pri vrenju efekta na odgovor. irina ima isti efekat (koeficijent 0,468) za sve boje tako da su oblici krive koji se odnose na irinu do = P(Y=1) identini. Za svaku boju, poveanje od 1cm po irini ima multiplikativni efekat od exp(0,468) = 1,60 na izglede da je Y = 1. Grafik 3 prikazuje uklopljeni model. Svaka kriva je jednostavno sva kriva pomerena na desno ili na levo. Paralelnost krivi u horizontalnoj dimenziji ukazuje na to da se dve krive nikada ne ukrtaju. Kod svih vrednosti irine, boja 4 (tamna) ima manju predvienu verovatnou satelita od drugih boja.

Graf 3: Logistiki regresioni model koji koristi irinu i boju kao prediktorePredviena verovatnoa satelita se moe izraunati korienjem jednaina predvianja za verovatnou. Ilustracije radi, kod kraba srednje svetle boje i prosene irine (26,3cm), predviena verovatnoa je:

EMBED Equation.3 Poreenja radi, tamna kraba prosene irine ima predvienu verovatnou:

Stepenovana razlika izmeu dva parametra boja je odnos ansi (odds ratio) kojim se porede ove boje. Na primer, razlika u proceni parametara boje izmeu srednje svetle krabe i tamno svetle krabe iznosi 1,330; pri bilo kojoj irini, procenjene anse da srednje svetla kraba ima satelit su u odnosu exp(1,330) = 3,8 prema ansama da ih tamna kraba ima. Korienjem ovih verovatnoa izraunatih prema irini 26,3 anse iznose 0,715/0,285 = 2,51 za srednje svetle krabe, i 0,399/0,601 = 0,66 za tamne krabe, kod kojih je 2,51/0,66 = 3,8. Procene boje ukazuju na ovom uzorku da tamne krabe imaju manje anse od kraba ostalih boja da imaju satelite.

4.2 Poreenje modela

Metod racija verodostojnosti moe se koristiti da bismo testirali hipoteze u vezi sa parametrima u modelima viestruke logistike regresije. Na primer, da bismo testirali da li boja znaajno doprinosi modelu (Jednaina 6), proveravamo da li je H0 : 1 = 2 = 3 = 0. Hipoteza govori da, pri kontroli irine, verovatnoa satelita je nezavisna od boje. Poredi se maksimalna log-verodostojnost L1 za puni model (Jednaina 6) sa maksimalnom log-verodostojnosti L0 za jednostavniji model kod kojih ovi parametri iznose 0 uz pomo test statistike -2(L0 L1) = 7. Ksi-kvadrat od df = 3 je razlika izmeu broja parametara u ova dva modela. P-vrednost 0,07 prua neznatni dokaz efekta boje.

Opte uzev, maksimalna log-verodostojnost moe se porediti za bilo koji par modela koji su samo specijalna vrsta onog drugog. Jedno takvo poreenje proverava da li dati model zahteva uslove interakcije. Test analizira da li model boljeg uklapanja rezultira iz dodavanja interakcije boje i irine na dati model (Jednaina 6). Ovaj sloeniji model dozvoljava zaseban efekat irine za svaku boju. Taj model ima tri dodatna uslova ukrteni proizvod irine sa vetakim varijablama boje. Uklapanje ovog modela je ekvivalentno uklapanju modela logistike regresije sa irinom kao prediktorom odvojeno za krabe svake boje. Svaka boja, potom, ima krivu drugaijeg oblika koja povezuje irinu sa verovatnoom satelita tako da poreenje dve boje varira prema nivou irine. Statistika racija verodostojnosti koja poredi modele sa uslovima interakcije ili bez njih iznosi 4,4 i zasnovana je na df = 3. Dokaz interakcije nije jak (P = 0,22).

Redukovan model (Jednaina 6) ima prednosti u vidu jednostavnijih interpretacija. U stvari, ovaj model se adekvatno uklapa prema formalnim testovima kvaliteta podesnosti. Na primer, Hosmer-Lemov test sa deset grupa predvienih verovatnoa ima test statistiku jednaku 3,7 zasnovanu na df = 8.

4.3 Kvantitativna obrada rednog prediktora

Boje se prirodno niu, od najsvetlije do najtamnije. Jednostavniji model bi mogao da se napravi tako to bi se ovaj redni prediktor obradio na kvantitativni nain. Boja moe da ima linearni efekat za niz monotonih rezultata dodeljenih ovim kategorijama.

Ilustracije radi, rezultate c = {1, 2, 3, 4}moemo dodeliti kategorijama boje, te da uklopimo model

(Jednaina 7)

Jednaina predvianja glasi:

Procene boje i irine imaju ASE vrednosti od 0,224 i 0,104 ime se prikazuje vrst dokaz efekta svake. Pri datoj irini, za svako poveanje jaine boje kod svake kategorije, procenjena anse satelita mnoi se sa exp(-0,509) = 0,60. Na primer, procenjene anse satelita kod srednje svetle krabe su 60% od onih kod srednje svetlih kraba.

Test racija verodostojnosti poredi fit (uklapanje) ovog modela sa kompleksnijim modelima (Jednaina 6) koji imaju poseban parametar za svaku boju. Test statistika iznosi -2(L0 L1) = 1,7 zasnovana na df = 2. Ova statistika testira da li funkcionie jednostavniji model (Jednaina 7) pod uslovom da je drugi model (Jednaina 6) adekvatan. Ovde se testira da li parametri boje u Jednaini 6 slede linearni trend kada se raunanja vre prema rezultatima boja. Izgleda da se ovo pojednostavljenje dozvoljava (P = 0,44).

Procene parametara boja u ovom modelu (Jednaina 6) po kojem se boje tretiraju kao kvalitativne iznose (1,33; 1,40; 1,11; 0), pri emu vrednost nula za tamnu boju ukazuje na nedostatak vetake promenljive za tu kategoriju. Iako ove vrednosti ne odstupaju znaajno od linearnog trenda, prve tri su prilino sline u poreenju sa poslednjom. Ovo ukazuje na druge potencijalne rezultate boja za dati model (Jednaina 7): {1; 1; 1; 0}; to jest, rezultat je 0 za krabe tamne boje, i 1 za druge. Statistiki racio verodostojnosti koji poredi model dat u Jednaini 7 sa binarnim rezultatima modela datog u Jednaini 6 iznosi 0,5, zasnovan na df = 2 ime se pokazuje da je jednostavniji model takoe adekvatan (P = 0,78). Ovaj model ima procenu irine od 0,478 (ASE = 0,104) i procenu boje od 1,300 (ASE = 0,525). Pri datoj irini, procenjene anse da svetla kraba ima satelit su exp(1,300) = 3,7 prema procenjenim ansama za tamnu krabu.

Model kvalitativne boje, redni model sa rezultatima boje {1, 2, 3, 4} i model binarnih rezultata boje {1; 1; 1; 0} upuuju na to da je najmanje verovatno da krabe tamne boje imaju satelite. Ovim bi se zahtevale mnogo vee veliine uzorka da bi se odredilo koji od dva rezultata boje je podesniji. Prednost se sastoji u tome to se redni prediktori obrauju na kvantitativan nain kada se takvi modeli dobro uklapaju. Prednost je i u tome to je model jednostavniji i laki za tumaenje, a testovi efekta rednih prediktora jai kada se radi sa jednim, a ne sa vie parametara.

4.4 Odabir modela sa nekoliko prediktora

Podaci o krabama sadre etiri prediktora: boja (etiri kategorije), stanje bodlji (tri kategorije), teina, i irina tita.

Postoji nekoliko procedura odabira modela, ali nijedan nije najbolji. Predostronost koja se uzima u obzir kod uobiajenih regresionih modeliranja normalnih podataka funkcioniu za bilo koji generalizovani linearni model. Na primer, model sa nekoliko prediktora ima potencijala za multikolinearnost: snane korelacije meu prediktorima govore o tome da izgleda da neka promenljiva nije vana kada su sve ostale ukljuene u model. Izgleda da promenljiva ima malo efekta jednostavno zbog toga to se znatno preklapa sa ostalim prediktorima u modelu.

Ilustracije radi, moe se poeti sa uklapanjem modela koji ima glavne efekte za etiri prediktora, gde se boja i stanje bodlji tretira kao kvalitativni (faktor). Test racija verodostojnosti po kojem je verovatnoa satelita skupa nezavisna od etiri prediktora istovremeno se testira da svi ovi parametri iznose nula. Statistika racija verodostojnosti zasniva se na poreenju modela punog efekta sa nultim modelom koji ima samo uslov prekida koji iznosi -2(L0 L1) = 40,6 sa df = 7. Statistika ima P-vrednost < 0,0001 to je prilino vrst dokaz da bar jedan prediktor ima efekat. Tabela 3 prikazuje procenu parametara i njihove ASE vrednosti. ak i kada je celokupni test vrlo znaajan, rezultati tabele nisu podsticajni. Procene za kvantitativne prediktore, teinu i irinu, su samo neznatno vei od njihovih ASE vrednosti. Procene za kvalitativne prediktore porede svaki nivo do konane kategorije kao osnove; to jest, uvode se vetake promenljive za prve tri boje i za prva dva stanja bodlji. Kod boje, najvea razlika izmeu procenjenih vrednosti za dva nivoa je izmeu prvog i etvrtog, to je manje od dve standardne greke; kod stanja bodlji, najvea razlika izmeu procenjenih vrednosti za dva nivoa je izmeu drugog i treeg, to je manje od standardne greke.

Tabela 3: Procene parametara za model glavnih efekata kod podataka za krabe

Parametar Procena ASE

Prekid

-9,273 3,838

Boja (1) 1,609 0,936

Boja (2) 1,506 0,567

Boja (3) 1,120 0,593

Bodlja (1) -0,400 0,503

Bodlja (2) -0,496 0,629

Teina 0,826 0,704

irina 0,263 0,195

Veoma mala P-vrednost kod celokupnog testa, premda se nedostatak znaaja prikazuje u Tabeli 3, predstavlja opomenu da moe doi do multikolinearnosti. Ranije je ukazano da postoji vrst dokaz da irina ima uticaj na prisustvo satelita, i da, uz kontrolu teine, boje i bodlji, malo je dokaza o tome kakav je uticaj delimine irine. Grafika analiza otkriva, meutim, da postoji snana linearna komponenta za odnos izmeu irine i teine. Uzorak korelacije meu njima iznosi 0,887. Svakako nema smisla da se analiziraju efekti irine dok se kontrolie teina poto se teina prirodno poveava kako se poveava irina.

Iz praktinih razloga, irina i teina slue jednako dobro kao prediktori, ali je izlino koristiti ih oba. Da bi se nadalje vrile analize, koristi se irina samo uz boju i bodlje kao prediktore. U tom smislu, ove prediktore moemo oznaiti sa W (irina), C (boja) i S (bodlje). Iz razloga pojednostavljenja, razliite modele simbolizujemo najviim uslovima u modelu, tako da C i S u ovom modelu posmatramo kao faktore. Tako, C + S + W oznaava model sa najveim efektima, to se moe videti u Tabeli 3, dok C + S * W oznaava model kod kojeg postoji interakcija izmeu S iW. ZakljuakLogistika regresija je tip regresione analize kod koje se povezuje jedna zavisna (kriterijumska) promenljiva koja moe imati dva ishoda, te poprima vrednosti 0 ili 1, i jedna ili vie nezavisnih promenljivih (prediktorskih). Ona predvia verovatnou dogaaja, a podaci su kod nje prilagoeni logistikoj krivi koja ima oblik slova S.

Cilj logistike regresije je da na osnovu kriterijumskih varijabli raunamo verovatnou da svaki od sluajeva u naoj datoteci ue u jednu od dve katagorije (vrednosti) zavisne varijable.Kao krajnji rezultat, mi emo utvrditi koje prediktorske varijable jesu znaajne da predvidimo vrednosti kriterijumske varijable, i da prema tome, na osnovu distribucija vrednosti ovih kriterijumskih varijabli, predviamo vrednosti zavisne varijable.Cilj dobrog modela jeste isti kao kada je re o linearnoj regresiji, a to je da se sa to manjim brojem prediktorskih varijabli objasni to vea varijansa kriterijumske varijable.Logistika regresija se ekstenzivno koristi u medicini i drutvenim naukama, kao i u marketingu (predvianje spremnosti kupca da kupi proizvod ili da uzme pretplatu).

PRILOG: PRIMERKao primer upotrebe logistike regresije moe posluiti primer zavisnosti nastanka Koronarno sranih bolesti(KSB) od godina starosti, gojaznosti, puenja I to na primeru binarne logistike regresije.

Binarna logistika regresija je tip regresione analize u kojoj je zavisna promenljiva dihotomna i najmanje jedna nezavisna je kontinuirana. Zavisne dihotomne promenljive su este u biologiji i medicini.

Cilj:

Pokazati da li su starost, puenje i gojaznost faktori rizika za KSB

Ako su faktori rizika kolika je jaina njihovog delovanja

Dihotomna promenljiva (dummy variable) kodira se:

0 nepua, nije gojazan ...

1 pua, gojazan...

Sa 1 se kodira ono to nas interesuje

Kako analizirati ove podatke? 1. Podeliti ispitanike u dve grupe prema statusu KSB i uporediti srednje vrednosti godina starosti

Ispitanici bez KSB: xsr = 44,2 g (Sd=14,65)

Ispitanici sa KSB: xsr = 60,4 g (Sd=12,16)

t = 4,55 p < 0,001

Ne vidi se uticaj puenja i gojaznosti2. Podeliti ispitanike u dve starosne grupe i uporediti frekvence pojavljivanja KSB

Analiza:

t test za proporciju: f KSB+ kod starijih : f KSB+ kod mlaih (t = 3,56, p < 0,01)

ili 2 - test

3. Podeliti ispitanike u vie starosnih grupa i uporediti frekvence pojavljivanja KSB

Podeliti ispitanike u dve grupe u odnosu na BMI i uporediti frekvence pojavljivanja KSB

Analiza:

t test za proporciju: f KSB+ kod mlaih : f KSB- kod starijih (t = 1,915 p > 0,05)

ili 2 testOdds ratio (Relativni odds, Ukrteni odnos) Odds Ratio (OR) je odnos ansi prethodne izloenosti kod sluajeva (prisutan neeljeni dogaaj) i kontrola (odsutan neeljeni dogaaj):

Odds za prisutan neeljeni dogaaj: a/c

Odds za odsutan neeljeni dogaaj: b/d

Odds ratio: (a/c) / (b/d) = ad/bcKSB : Godine

Odds za prisustvo KSB kod starijih:

20/6 = 3,333

Odds za odsustvo KSB kod starijih:

12/22 = 0,545

Odds ratio (OR)

3,333/0,545 = 6,11

Osobe starije od 50 g imaju 6,11 puta veu ansu da obole od KSBKSB : Puenje

Odds za prisustvo KSB kod puaa:

16/10 = 1,6

Odds za odsustvo KSB kod puaa:

7/27 = 0,259

Odds ratio (OR)

1,6 / 0,259 = 6,18

Puai imaju 6,18 puta veu ansu da obole od KSB

KSB : Gojaznost

Odds za prisustvo KSB kod gojaznih:

13/13 = 1

Odds za odsustvo KSB kod gojaznih:

9/25 = 0,36

Odds ratio (OR)

1 / 0,36 = 2,78

Gojazne osobe imaju 2,78 puta veu ansu da obole od KSB

Logistika regresijaOmoguava da se izrauna jednaina koja izraava relaciju izmeu binarnog ishoda i jednog ili vie faktora uticaja (prediktora):

verovatnoa za pojavu KSB i godine starosti

verovatnoa za pojavu KSB i puenje

verovatnoa za pojavu KSB i gojaznost

verovatnoa za pojavu KSB i godine starosti + puenje

verovatnoa za pojavu KSB i godine starosti + gojaznost

verovatnoa za pojavu KSB i godine starosti + puenje + gojaznostZa jedan prediktor funkcija glasi:

gde su:

b0 i b1 regresioni koeficijenti

p verovatnoa za pojavu KSB

x1 godine ili puenje ili gojaznostZa tri prediktora funkcija glasi:

gde su:

b0 , b1 , b2 i b3 regresioni koeficijenti

p verovatnoa za pojavu KSB

x1 godine

x2 status puenja

x3 gojaznostOdds za neki dogaaj je

Odnosno gde je p verovatnoa da se dogaaj desi

to je odds nekog dogaaja vei, to je vea verovatnoa da se dogaaj desi

Logistika regresija u SPSS-uPodaci se unose u vie kolona: zavisna (binarna) i nezavisne promenljive

Analyze, Regression, Binary Logistic

Dependent : KSB

Covariates: godine

Method: Enter

Options: oznaiti CI for exp(B)

Continue

OKKSB: GODINE

OR = e0,085 = 1,089

Interpretacija koeficijenata b0 i b1b0

neophodan za jednainu, nema znaaja za interpretaciju ,predstavlja vrednost log odds kada je prediktor jednak 0

U regresionom modelu KSB : Godine b0 je log odds za pojavu KSB za osobu koja je stara 0 godina

b1 > 0 pozitivna asocijacija izmeu prediktora i log odds za pojavu dogaaja koji nas interesuje

b1 = 0 nema asocijacije izmeu prediktora i log odds za pojavu dogaaja koji nas interesuje

b1 < 0 negativna asocijacija izmeu prediktora i log odds za pojavu dogaaja koji nas interesuje

U regresionom modelu KSB : Godine b1 > 0, odnosno postoji pozitivna asocijacija izmeu godina starosti i log odds za pojavu KSB

b1 je frakcija za koju se promeni rizik za pojavu KSB kada se godine starosti (x) promene za jednu jedinicu

Primer

osoba 1, starost (x) = k godina

osoba 2, starost (x) = (k + 1) godina

Jednaine za log odds glase

log (odds za KSB kod osobe 2) = b0 + b1 (k + 1)

log (odds za KSB kod osobe 1) = b0 + b1 (k)

Dalje:

log (odds za KSB kod osobe 2) = b0 + b1 (k) + b1

log (odds za KSB kod osobe 1) = b0 + b1 (k)

Razlika izmeu log odds osobe 1 i osobe 2:

log (odds za KSB kod osobe 2) = b0 + b1 (k) + b1

log (odds za KSB kod osobe 1) = b0 + b1 (k)

log odds za pojavu KSB kod osobe 2 starosti (k + 1) godina razlikuje se od log odds za pojavu KSB kod osobe 1 starosti (k) godina za vrednost koeficijenta b1

b1 = 0

odds i verovatnoa za pojavu eljenog dogaaja su jednaki za sve vrednosti x (eb1 = OR = 1)

b1 > 0

odds i verovatnoa za pojavu eljenog dogaaja se poveavaju sa poveanjem vrednosti x (eb1 = OR > 1)

b1 < 0

odds i verovatnoa za pojavu eljenog dogaaja se smanjuju sa smanjenjem vrednosti x (eb1 = OR < 1)

KSB : Puenje

KSB : Gojaznost

KSB : (Godine + Puenje)

SHAPE \* MERGEFORMAT

Na grafiku se vidi pozitivna korelacija izmeu godina i puenja i njihovog uticaja na KSB.KSB : (Godine + Gojaznost)

Grafik pokazuje ne postoji pozitivna korelacija izmeu godina i puenja i verovatnoe nastanka KSB.

KSB : (Godine + Puenje + Gojaznost)

Faktori rizika za KSB

Literatura:1. Agresti A.: Un Introduction to Categorical Data Analysis, (1996) John Wiley & Sons, New York

2. Hair J.F., Anderson R.E., Tatham R.L., Black W.C.: Multivariate data analysis, (1995) Prentice Hall, New York3. Kotz S, Balakrishnan N., Johnson N.: Continuous Multivariate Distributions (2000) John Wiley & Sons, New York

4. http://faculty.chass.ncsu.edu/garson/PA765/logistic.htm5. http://luna.cas.usf.edu/~mbrannic/files/regression/Logistic.html6. http://supa.pharmacy.bg.ac.rs/assets/102

EMBED Equation.3

p

OR

EMBED Equation.3

p

OR

EMBED Equation.3

p

OR

EMBED Equation.3

p

OR

p

OR

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

p

OR

b1

b0

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

72

_1306782791.unknown

_1306825215.unknown

_1306839598.unknown

_1306844051.unknown

_1306851090.unknown

_1306851145.unknown

_1306851202.unknown

_1306850910.unknown

_1306844147.unknown

_1306841302.unknown

_1306841435.unknown

_1306841292.unknown

_1306838456.unknown

_1306838472.unknown

_1306831044.unknown

_1306823839.unknown

_1306825136.unknown

_1306783375.unknown

_1306705065.unknown

_1306766900.unknown

_1306782310.unknown

_1306782421.unknown

_1306772514.unknown

_1306755756.unknown

_1306756709.unknown

_1306755404.unknown

_1306704309.unknown

_1306704502.unknown

_1306704822.unknown

_1306704421.unknown

_1306703807.unknown

_1306704042.unknown

_1306703369.unknown

_1306703403.unknown

_1306703316.unknown

_1306703246.unknown