1zlc/fajlovi/logisticka... · web viewkada su regresioni koeficijenti pozitivni tada nezavisne...
TRANSCRIPT
1. UVOD
1.1 POREKLO LOGISTIČKE FUNKCIJE - POPULACIONI MODEL
Poznati demograf iz Engleske, Tomas Maltus je 1789. godine u svom radu „Put u
katastrofu“, pokušao da skrene pažnju svetske javnosti na problem prenaseljenosti
iznoseći svoju „mračnu teoriju“ da čovečanstvo može opstati samo ako eksponencijalni
rast populacije bude povremeno prekidan epidemijama i katastrofama .
Maltus je rezonovao ovako: zamislimo da prebrojavanjem dođemo do podatka da
u nekom trenutku živo p(0) ljudi. Populacija u sledećem trenutku je srazmerna populaciji
u prethodnom, odnosno p(1) = rp(0), gde je r parametar koji opisuje neto priraštaj
stanovništva i može se dobiti iz postojećih podataka na osnovi toga što će u tom
vremenskom intervalu između dva brojenja, neki ljudi da umru (ratovi, siromaštvo,
bolest), neki će da se rode.
Ako se sa označi konstantna brzina rođenja u jedinici vremena po jedinki
(stopa nataliteta), a sa konstantna brzina umiranja u jedinici vremena po jedinki (stopa
mortaliteta), tada važi da je konstantan priraštaj .
Ako je sa p(t) označen broj jedinki u trenutku t, onda je on posle vremenskog
intervala jednak
Vidimo da je rast srazmeran postojećoj populaciji i vremenu.
Diferencna jednačina vodi ka Cauchy-evom problemu za običnu diferencijalnu jednačinu
, (1)
Rešavanjem ove diferencijelne jednačinu dobijamo:
1
Konstantu A određujemo, jer znamo početnu populaciju .
Važi da je , pa je rešenje jednačine (1)
(2)
Ovaj model se naziva osnovni (Maltusov) populacioni model .
Međutim osnovne pretpostavke Maltusovog populacionog modela su razumne za
populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje
postoje neograničeni resursi, odgovarajuća ishrana, nepostojanje bolesti, nepostojanje
prirodnih neprijatelja i sl.
Uprkos ovome ovaj model je imao ogroman uticaj na demografe i mislioce toga
vremena. Naime, sa povećanjem broja stanovnika povećava se i količina proizvedenih
resursa, hrane i slično, ali ovo povećanje, prema tadašnjim podacima, raste aritmetičkom
progresijom. Broj stanovnika raste brže nego količina resursa. Posle određenog broja
godina, dakle, resursa će biti manje, a stanovnika koji će ih koristiti više, pa će tako
zavladati oskudice. I ovo stanje će se vremenom pogoršavati. Ovo stanje je dobilo i
naziv-demografska (Maltusova) katastrofa. Pa su zato mislioci tog vremena došli do
zaključka da je jedini način da se izbegne izbegne ili odloži katastrofa smanjenjem
priraštaja, što se može postići povećanjem smrtnosti - namerno izazvanim ratovima,
bolestima, oskudicama, ili ograničenim rađanjem.
2
1.2 POPRAVKA MODELA
Maltusov model ima bitan nedostatak: nijedna realna sredina ne može da održava na sebi
neograničeno veliki broj ljudi. Kako Maltusov model ima manu, to jest neograničen rast,
moguće je napraviti model za p(t) koji ne daje apsurdna rešenja, i ograničava rast do neke
maksimalne fiksne vrednosti specifične za sitem koji se posmatra. Dakle, jasno da
Maltusov eksponencijalni populacioni model nije realan, jer ograničeni resursi (hrana,
voda, vazduh) usporavaju rast populacije. Populacija teži ka graničnom zasićenju. Drugi
nedostatak je taj što linearne brzine rađanja i umiranja nisu konstantne kao u
pretpostavci Maltusovog modela već su date sa:
i smanjuju brzinu rađanja, a uvećavaju brzinu umiranja
I neka je maksimalni priraštaj označen sa , gde je
Sada važi da je prirodni priraštaj
gde smo sa označili
Jednačina sada ima oblik
(3)
Prirodni sistemi najčešće zbog svojih ograničenja ne mogu prihvatiti neograničenu
populaciju. Stoga je čest sledeći slučaj: populacija u početku raste eksponencijalno sa
3
stopom rasta a, ali se taj rast smanjuje kako se populacija približava maksimalnom
(nosivom) kapacitetu sistema . Matematički takvo ponašanje možemo modelirati
logističkom jednačinom:
Mehanizam jednačine je sledeći: kada ja populacija mala u odnosu na kapacitet ,
tada je izraz u zagradi približno jednak jedan, i populacija se ponaša prema Maltusovom
populacionom modelu. Kada se populacija približi maksimalnom kapacitetu, tada izraz u
zagradi teži nula što koči rast populacije. Rešimo jednačinu:
Opšte rešenje ove jednačine je logistička funkcija.
Kad uvrstimo i početni uslov, dobijamo:
(4)
4
Rešenje logističke jednačine možemo prikazati u ekvivalentnom obliku
, ili:
(5)
Kriva ima S-oblik i naziva se logistička kriva.
1.3 SIGMOID FUNKCIJA
Postoje različiti oblici logističke funkcije a jedan od specijalnih slučajeva je
sigmoid funkcija ili sigmoid kriva koja je još poznata i pod nazivom standardna
logistička funkcija ili osnovna logistička funkcija i data je sa:
(6)
Ona se često se sreće u mnogim oblastima tehnike, naročito u veštačkim
neuronskim mrežama kao transfer funkcija.
Standardna sigmoid funkcija se dobija kao rešenje nelinearne diferencijalne
jednačine prvog reda:
.
Ona je strogo rastuća funkcija koja se može prikazati i u sledećem obliku:
gde je parametar nagiba sigmoidne funkcije. Menjajući vrednost parametra , dobijaju
se različiti oblici, što je prikazano na slici 1. .
5
Slika 1. Sigmoidna funkcija
Posmatrajmo izraz (6). P-predstavlja verovatnoću da se neki događaj desi, pod
uticajem nekih nezavisnih rizičnih faktora, promenljiva se definiše kao:
, gde se regresioni koeficijenti koji opisuju veličinu
doprinosa odgovarajućeg rizičnog faktora . Kada su regresioni koeficijenti pozitivni
tada nezavisne promenljive povećavaju verovatnoći pozitivnog ishoda, a kada su
negativni, onda smanjuju tu verovatnoću.
Primer1.
Ispitujemo verovatnoću da osoba u narednih 10 godina umre od bolesti srca,
posamtrajući rizične faktore: = godine preko 50, -pol(muško-0, žensko-1), -nivo
holesterola preko 5 mmol/l. Neka su nam regresioni koeficijenti dati sa:
.
Posmatrajmo: Muškarca koji ima 50 godina i 7 mmol/l holesterola u krvi.
Verovatnoća da on umre u nsrednih 10 godina je tada data sa:
Odnosno verovatnoća da ova osoba umre u narednih 10 godina je 7%.
6
2. LOGISTIČKI REGRESIONI MODEL
Uopšteno, regresija je statistički metod koji omogućava predviđanje i ocenjivanje jedne
promenljive na osnovu vrednosti neke druge promenljive ili više njih.
Logistička regresija se koristi za:
- predviđanje zavisne promenljive na osnovu vrednosti nezavisnih promenljivih
- rangiranje nezavisnih promenljivih po važnosti
- procenu efekta interakcije.
Logistička regresija primenjuje maksimalnu procenu verovatnoće nakon promene zavisne
promenljive u logističku promenljivu. Na ovaj način se vrši procena verovatnoće da
određeni događaj nastupi.
Dakle, logistička regresija, za razliku od linearne, računa promene u logaritmu
verovatnoće zavisnih promenljivih, a ne promene u zavisnim promenljivim.
Prilikom traženja modela, koji će opisati vezu između zavisne i nezavisnih promenljivih,
cilj je pronaći najekonomičniji model koji je najbolje fitovan (prilagođen) podacima.
Kada se kaže najekonomičniji model misli se na model koji će imati, u neku ruku,
optimalan broj promenljivih. Odnosno model koji će sadržati samo one nezavisne
promenljive koje imaju uticaja na ishod zavisne promenljive.
Zavisna promenljiva u logističkom regresionom modelu je binarna, dok nezavisne
promenljive mogu biti numeričke, kategorijalne ili njihova kombinacija.
Zbog prirode zavisne promenljive, logistički regresioni model se još naziva i binarni
logistički regresioni model (Binary Logistic Regression Model).
Na primer, zavisna promenljiva može biti da li je pacijent izlečen ili ne; da li je neki
proizvod prošao kontrolu kvaliteta ili ne; da li je životinja na kojoj se vršio neki
eksperiment preživela isti ili ne itd.
Kao što vidimo, zavisna promenljiva uzima samo dve vrednosti, tj. dihotomna je. Upravo
zbog toga se kodira sa 0 i 1, gde 0 označava „neuspeh“ ili odsustvo neke karakteristike, a
1 „uspeh“ odnosno prisustvo neke karakteristike.
7
Na primer, ukoliko je pacijent izlečen, ishod je „uspeh“, a ako nije ishod je „neuspeh“;
ako proizvod prođe kontrolu kvaliteta ishod je „uspeh“, u suprotnom „neuspeh“.
Ukoliko zavisna promenljiva označava to da li je osoba zdrava ili ne, onda bismo sa 0
kodirali - osoba nije zdrava, a sa 1 – osoba je zdrava.
Zavisnu promenljivu označavamo sa Y, doke nezavisne označavamo sa X.
Ishodna promenljiva je povezana sa skupom vrednosti datih nezavisnih promenljivih.
Vrednosti nezavisnih promenljivih ćemo označavati sa x.
Primera radi, da li će pacijent biti izlečen ili ne može zavisiti od medicinskog tretmana
kom je podvrgnut, od pola, godina starosti pacijenta itd.; da li će proizvod proći kontrolu
kvaliteta može zavisiti od temperature, kvaliteta sirovog materijala od kog se pravio
proizvod itd.
Često je potrebno izvršiti grupisanje podataka, tako da se u okviru jedne grupe nalaze svi
subjekti koji imaju iste vrednosti nezavisnih promenljivih. Kada su podaci grupisani,
lakše je zabeležiti broj „uspeha“, odnosno broj „neuspeha“, jer ih beležimo za svaku
grupu posebno, dok bismo u slučaju negrupisanih podataka dobijali dugačke nizove 0 i 1.
Na primer, uzmimo da je zavisna promenljiva CHD, koja označava konorarno srčano
oboljenje, a starost, izraženu u godinama, nezavisna promenljiva. Promenljivu CHD
ćemo kodirati sa 0 i 1, gde 0 označava odsustvo, a 1 prisustvo srčane bolesti za 100
subjekata koji učestvuju u istraživanju. Želimo da ispitamo u kakvoj su vezi promenljive
CHD i Starost, odnosno da vidimo u kojoj meri starost subjekata utiče na pojavu
oboljenja.
Posmatrajmo sledeći dijagram rasipanja:
8
0
0,2
0,4
0,6
0,8
1
1,2
20 30 40 50 60 70 80
Starost (godine)
CH
D
Slika 2.
Vidimo da sve tačke pripadaju jednoj od dve paralelne prave koje predstavljaju prisustvo
(CHD = 1), odnosno odsustvo (CHD = 0) srčanog oboljenja.
Može se uočiti da se kod mlađe populacije oboljenje javlja ređe nego kod starije, ali ipak
ovaj dijagram ne daje jasnu sliku o vezi između godina starosti subjekata i pojave
oboljenja.
Ukoliko bismo grupisali podatke kao u tabeli
CHD sredinastarosne grupe n odsutan prisutan (proporcija)
20-29 10 9 1 0.1030-34 15 13 2 0.1335-39 12 9 3 0.2540-44 15 10 5 0.3345-49 13 7 6 0.4650-54 8 3 5 0.6355-59 17 4 13 0.7660-69 10 2 8 0.80
Ukupno 100 57 43 0.43Tabela 1. Tabela frekvencija za starosne grupe u odnosu na CHD
9
i izračunali sredinu rezultujuće promenljive unutar svake grupe, tj. verovatnoću da osoba
iz odgovarajuće grupe oboli, dobili bismo sledeći grafik.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
20 25 30 35 40 45 50 55 60 65 70
Starosne grupe
Popo
rcija
pris
utno
g C
HD
Slika 3. Proporcija subjekata sa CHD u odnosu na starosne kategorije
Sa datog grafika se može uočiti da se sa povećanjem starosti, povećava i proporcija
subjekata koji imaju srčano oboljenje.
U bilo kom regresionom modelu ključno je odrediti očekivanu vrednost zavisne
promenljive za datu vrednost nezavisne promenljice, u oznaci E(Y׀x). Kako je zavisna
promenljiva dihotomna, za uslovnu sredinu važi 0 ≤ E(Y׀x) ≤ 1. Promena u E(Y׀x) po
jedinici promene za x postaje progresivno manja kako uslovna sredina postaje bliža 0 ili
1.
Kako je zavisna promenljiva dihotomna i uzima vrednosti 0 i 1, uzećemo da uzima
vrednost 1 sa verovatnoćom , a vrednost 0 sa verovatnoćom , tj. .
10
Slučajna promenljiva Y׀x će takođe uzimati vrednosti 0 i 1, sa verovatnoćama
redom, tj. .
Kako nas interesuje očekivana vrednost od Y za dato x, izračunaćemo je:
Zbog ovoga, ubuduće ćemo koristiti oznaku za prikazivanje uslovne sredine od Y
za dato x kada se koristi logistička raspodela.
Poseban oblik regresionog modela koji koristimo je
Kod logističke regresije, vrednost rezultujuće promenljive za dato x možemo izraziti kao
, gde je greška koja ima binomnu raspodelu.
Promenljiva može uzeti vrednost i i to vednost uzima kada
promenljiva Y | x uzme vrednost 0, a vrednost uzima kada Y | x uzme vrednost
1.
Kako slučajna promenljiva Y | x uzima vrednost 0 sa verovatnoćom , a vrednost
1 sa verovatnoćom , sledi da će i uzeti odgovarajuće vrednosti sa tim
verovatnoćama, tj. .
Dakle, zaista ima binomnu raspodelu sa sredinom nula i varijansom
.
11
Logit funkcija je funkcija definisana za sve realne brojeve na otvorenom
Intervalu i ima sledeći oblik
.
Kako odnos verovatnoće da se događaj realizuje i verovatnoće da se događaj ne realizuje
nazivamo šansa uspeha , vidi se da logit funkcija predstavlja prirodni logaritam šanse
uspeha.
2.1 SLAGANJE LOGISTIČKOG REGRESIONOG MODELA SA PODACIMA
Pretpostavimo da imamo uzorak od n nezavisnih registrovanih vrednosti parova
, gde označava vrednost rezultujuće dihotomne promenljive koja je
kodirana sa 0 i 1, gde 0 predstavlja odsustvo, a 1 prisustvo neke karakteristike.
označava registrovanu vrednost nezavisne promenljive za -ti subjekat.
Da bismo objasnili šta znači pojam „fitovanje modela“, posmatraćemo najednostavniji
logistički regresioni model koji sadrži samo jednu nezavisnu promenljivu, tj.
Fitovanje datog logističkog regresionog modela za neki skup podataka podrazumeva
ocenu vrednosti nepoznatih parametara i .
Vrednosti nepoznatih parametara ćemo oceniti koristeći metodu maksimalne
verodostojnosti. Da bismo, uopšte, mogli koristiti pomenutu metodu, prvo moramo
konstruisati funkciju verodostojnosti.
Ako je zavisna promenljiva tada izraz , za proizvoljnu
vrednost , daje uslovnu verovatnoću i
.
12
Za one parove gde je doprinos funkciji verodostojnosti je , a za one
parove gde je doprinos funkciji verodostojnosti je , gde
označava vrednost funkcije za konkretno .
Dakle, za par doprinos funkciji verodostojnosti je dat sledećim izrazom:
(7)
S obzirom da radimo pod pretpostavkom da su registrovane vrednosti nezavisne, funkcija
verodostojnosti je dobijena kao proizvod izraza (7), tj.
Radi jednostavnosti koristićemo logaritam ove
funkcije, tj. logaritam verodostojnosti:
(8)
Koristeći informacije koje imamo o izgledu logističkog regresionog modela
možemo izračunati i . Ako tome
pridodamo informaciju o izgledu logit funkcije , logaritam
verodostojnosti možemo zapisati na sledeći način:
Ocene parametara tražimo tako da maksimiziraju funkciju verodostojnosti. Da bismo
našli koji maksimizira funkciju diferenciraćemo u odnosu na
i i dobijene jednačine ćemo izjednačiti sa nulom.
13
Ove jednačine su nelinearne po i , pa se rešavaju nekim od iterativnih postupaka.
Vrednost koja se dobije kao rešenje ovih jednačina se naziva ocena
maksimalne verodostojnosti i označava se sa .
Posledica jednakosti (9) je da važi odnosno vidimo da je suma
registrovanih vrednosti za jednaka sumi predviđenih (očekivanih) vrednosti na osnovu
modela.
Dakle, da sumiramo:
Želimo da odredimo očekivanu vrednost za zavisnu promenljivu , za neko
konkretno . Da bismo to mogli izvesti potrebno je da odredimo vrednosti nepoznatih
parametara , do kojih dolazimo metodom maksimalne verodostojnosti. Nakon
određivanja , možemo dobiti i očekivanu vrednost zamenom vrednosti sa
u logističkom regresionom modelu .
14
3. TESTIRANJE ZNAČAJNOSTI KOEFICIJENATA
Nakon ocenjivanja koeficijenata, dalje razmatranje fitovanog modela se uopšteno
odnosi na ocenjivanje značajnosti promenljivih u modelu. Ovo obično uključuje
formulisanje i testiranje statističkih hipoteza za određivanje da li su nezavisne
promenljive u modelu "značajno" povezane sa rezultujućom promenljivom.
Pitanje koje ovde postavljamo je sledeće: Da li nam model koji sadrži
promenljivu, govori više o rezultujućoj promenljivoj nego model koji ne sadrži tu
promenljivu?
Odgovor na ovo pitanje je dobijen upoređivanjem registrovane vrednosti
rezultujuće promenljive sa predviđenom vrednosti pomoću svakog od dva modela; prvi
sa, i drugi bez te promenljive. Ako su predviđene vrednosti na osnovu modela koji sadrži
tu promenljivu bolje, ili tačnije u nekom smislu, nego vrednosti koje su predviđene na
osnovu modela koji ne sadrža tu promenljivu, tada je promenljiva u modelu "značajna".
postavljeno u relativnom smislu.
3.1 TEST KOLIČNIKA VERODOSTOJNOSTI
Poređenje registrovane i predviđene vrednosti dobijene iz modela koji sadrži
nezavisnu promenljivu i modela koji je ne sadrži, je bazirano na logaritmu funkcije
verodostojnosti. Pri tome se smatra da je registrovana vrednost zavisne promenljive ona
predviđena vrednost koja se dobija na osnovu zasićenog modela. Zasićen model je onaj
model koji sadrži toliko mnogo parametara koliko ima podataka. Za poređenje
registrovanih sa predviđenim vrednostima na osnovu modela koristimo funkcije
verodostojnosti:
(11)
Izraz unutar uglastih zagrada u izrazu (10) je količnik verodostojnosti. Korišćenje -2ln
je neophodno zbog dobijanja veličine čija je raspodela poznata i može se koristiti za
15
testiranje hipoteza. Ovaj test je poznat pod nazivom test količnika verodostojnosti.
Koristeći jednakost (8), jednakost (11) postaje:
(12)
gde je i = (xi).
Statistika D, u jednakosti (12) se naziva odstupanje, a poznata je i kao
logaritam test statistika količnika verodostojnosti.
U cilju procenjivanja značajnosti nezavisne promenljive, upoređujemo vrednost D
za model koji sadrži nezavisnu promenljivu i model koji je ne sadrži. Promena u D koja
nastaje zbog uključivanja nezavisne promenljive u model je data sa:
G = D (model bez nezavisne promenljive) – D (model sa nezavisnom promenljivom)
Kako obe vrednosti D imaju isti imenilac (verodostojnost zasićenog modela), G se
može se izraziti kao:
Za specijalan slučaj jedne nezavisne promenljive, lako se pokazuje da kada
promenljiva nije u modelu, ocena maksimalne verodostojnosti za β0 je ln(n1/n0), gde je
n1 = Σyi, i n0 = Σ(1– yi), i predviđena vrednost je konstantna, n1/n.
U tom slučaju, vrednost G je:
16
Ili
Ukoliko je tačna hipoteza da je β1 jednako nuli, statistika G ima hi-kvadrat raspodelu sa
jednim stepenom slobode.
Testiranje hipoteza o vektoru parametara β može se vršiti i korišćenjem dva
statistički ekvivalentna testa : Wald testa ( ) i Score testa.
17
4. INTERPRETACIJA LOGISTIČKOG REGRESIONOG MODELA
Pretpostavićemo da je logistički regresioni model prilagođen podacima, odnosno da je
fitovan i da su promenljive u modelu značajne, tj. da su odgovarajući regresioni
koeficijenti različiti od nule.
Interpretacija fitovanog modela porazumeva izvođenje zaključaka na osnovu ocenjenih
koeficijenata u modelu. Ključno pitanje koje se tu javlje je šta nam, zapravo, ocenjeni
koeficijenti „govore“ o pitanjima zbog kojih je i započeto istraživanje. Prilikom
interpretacije modela posmatraju se dva problema:
1. određivanje funkcionalne veze između zavisne i nezavisne promenljive
2. definisanje odgovarajuće jedinice promene za nezavisnu promenljivu
Funkcionalnu vezu između zavisne i nezavisne promenljive u logističkom regresionom
modelu daje logit funkcija, tj. .
Na dalje ćemo, zbog jednostavnosti, raditi samo sa jednom nezavisnom promenljivom,
odnosno logit funkcija je .
U logističkom regresionom modelu koeficijent nagiba predstavllja promenu u logitu
po jedinici promene nezavisne promenljive, tj. .
Interpretaciju fitovanog logističkog regresionog modela ćemo dati u dva slučaja u
zavisnosti od toga da li je nezavisna promenljiva dihotomna ili neprekidna.
4.1 DIHOTOMNA NEZAVISNA PROMENLJIVA
Slučaj kada je nezavisna promenljiva u logističkom regresionom modelu dihotomna
predstavlja osnovu za druge slučajeve.
Kako je pretpostavka da je nezavisna promenljiva dihotomna, kodirana je sa 0 i 1.
Rečeno je da koeficijent predstavlja stopu promene zavisne promenljive po jedinici
promene nezavisne promenljive, u ovom slučaju će biti:
18
Da bismo mogli interpretirati dobijeni rezultat uvešćemo pojam odnos šansi (odds ratio),
koji daje meru povezanosti nezavisne promenljive sa ishodom od interesa.
Šansa je odnos verovatnoća da se događaj desi prema verovatnoći da se događaj ne desi.
U našem slučaju nezavisna promenljiva je kodirana sa 0 i 1, pa ćemo posebno računati
šanse za oba slučaja.
Šansa da je zavisna promenljiva uzela vrednost 1, kada nezavisna promenljiva uzme
vrednost 1 je .
Kada nezavisna promenljiva uzme vrednost 0, šansa je da je zavisna promenljiva uzela
vrednost 1 je .
Odnos šansi, u oznaci OR, je definisan kao odnos ove dve šanse, tj.
Moguće vrednosti logističke verovatnoće se mogu predstaviti tablicom na sledeći
način:
Rezultujuća promenljiva
(Y)
Nezavisna promenljiva (X)
x = 1 x = 0
y = 1
y = 0
Total 1 1
Tabela 3.
19
Ova tabela opravdava to što se odnos šansi OR još naziva i unakrsni odnos šansi, jer
vidimo da se OR dobija kao odnos unakrsnog proizvoda elemenata na glavnoj dijagonali
date tabele i elemenata na sporednoj dijagonali.
Zamenom izraza iz tabele u OR dobijamo:
Dakle, za logističku regresiju sa dihotomnom nezavisnom promenljivom koja je kodirana
sa 1 i 0 veza između odnosa šansi i regresionog koeficijenta je:
.
Ocenjen odnos šansi dobijamo kada zamenimo sa odnosno
Ova jednostavna veza između koeficijenta i odnosa šansi je osnovni razlog zašto se
logistička regresija pokazala kao moćan analitički alat.
Odnos šansi je mera povezanosti koja ima široku primenu, naročito u epidemiologiji, gde
aproksimira koliko je više verovatno (ili neverovatno) da je ishod prisutan među onima sa
x = 1 nego među onima kod kojih je x = 0.
Na primer, ako Y označava prisustvo ili odsustvo kancera pluća, a X označava da li je
osoba pušač ili ne i recimo da je dobijeno da je . To bi značilo da se kancer pluća
dvostruko verovatnije javlja među pušačima nego među nepušačima u posmatranoj
populaciji.
20
Kao drugi primer, pretpostavimo da Y označava prisustvo ili odsustvo srčanog oboljenja,
a da X označava da li je osoba fizički aktivna ili ne i da je dobijeno da je , to znači
da je upola manje verovatno da se srčano oboljenje javi kod fizički aktivne, nego kod
fizički neaktive osobe u posmatranoj populaciji.
Dakle, iz prethodna dva primera vidimo da odnos šansi OR može imati vrednosti veće i
vrednosti manje od jedan, u zavisnosti šta se postavi kao referentan ishod.
U prvom primeru referentan ishod je pojava kancera kod pušača, a u drugom pojava
srčanog oboljenja kod fizički aktivnih osoba.
Generalno je svejedno kako se posmatra, jer uvek, na osnovu dobijenog odnosa za jedan
ishod , možemo dobiti odnos za drugi ishod uzimanjem recipročne vrednosti.
Tako da, za prvi primer, možemo reći da je upola manje verovatno da nepušač dobije
kancer pluća ili za drugi primer da je dva puta verovatnije da će fizički neaktivna osoba
oboleti od srčanog oboljenja.
Uvešćemo još jedan pojam, a to je relativni rizik, u oznaci RR. Relativni rizik predstavlja
odnos verovatnoća uspeha u okviru dve grupe.
U našem slučaju .
Izraz za odnos šansi se može zapisati na sledeći način:
U mnogim primerima odnos šansi aproksimira relativni rizik. Iz prethodne jednakosti se
jasno vidi da će se to desiti kada , odnosno kada su verovatnoće neuspeha u
obe gurpe približno jednake. To se dešava kada je verovatnoća dovoljno mala bilo
da je ili . U praksi se srećemo sa ovom situacijom kod ispitivanja relativno
retkih bolesti, koje kao takve imaju malu verovatnoću pojave.
Sledeći primer pokazuje šta je to zapravo odnos šansi, relativni rizik i razliku između ova
dva pojma.
21
Dati su podaci u tabeli, koji se odnose na broj preživelih i poginulih putnika na Titanku,
gde je bilo ukupno 1313 putnika, od toga 462 žene i 851 muškarac.
Tabela 4.
Iz same tabele se vidi da je verovatnije da muškarac umre nego žena, pa ćemo smrt
muškaraca uzeti kao referentan ishod, jer ćemo na taj način dobiti vrednost odnosa šansi
veću od jedan. Dakle, odnos šansi će porediti odnose šansi za smrt u okviru svake grupe,
tj. među muškarcima i ženama.
Šanse za smrt kod žena su .
Šanse za smrt kod muškaraca su .
Dakle, odnos šansi je , što znači da su skoro deset puta
veće šanse za smrt muškarca u odnosu na smrt žene.
Relativni rizik poredi verovatnoće za smrt u okviru svake grupe, tj.
Verovatnoća smrti kod muškaraca je , dok je verovatnoća smrt kod žena
. Zamenom ovih vrednosti dobijamo da je relativni rizik
, odnosno postoji 2.5 puta veća verovatnoća za smrt muškarca nego za
smrt žene.
3.2 NEPREKIDNA NEZAVISNA PROMENLJIVA
žene muškarci preživeli 308 142 450poginuli 154 709 863ukupno 462 851 1313
22
Sada ćemo posmatrati logistički regresioni model koji sadrži neprekidnu nezavisnu
promenljivu. U ovom slučaju promena od jedne jedinice nezavisne promenljive najčešće
nije interesantna. Na primer, rast sistolnog krvnog pritiska za 1 mmHg može biti suviše
mali da bismo ga smatrali važnim dok bi recimo rast od 10 jedinica predstavljao
značajniji podatak. Sa druge strane, ako se vrednosti koje nezavisna promenljiva može
uzeti kreću u inervalu od 0 do 1, tada bi promena od jedne jednice bila suviše velika, dok
bi promena od 0.01 jedinice bila realnija.
Dakle, da bismo obezbedili pravilnu interpretaciju modela smatraćemo da se desila
promena od c jedinica. Tada je promena u logitu sledeća:
Sada je odnos šansi dat izrazom . Ocenu za odnos šansi možemo dobti
zamenom sa njegovom ocenom dobijenom metodom maksimalne verodostojnosti
i tada je ocenjena vrednos odnosa šansi .
c može uzeti bilo koju vrednost, pri čemu se mora voditi računa o tome da se na jasan
način ukaže kako se menja rizik da je ishod prisutan sa promenom nezavisne
promenljive.
Na primer, neka zavisna promenljiva predstavlja prisustvo ili odsustvo srčanog oboljenja,
a nezavisna promenljiva predstavlja starost i recimo da je ocenjen logit .
Tada ocenjen odnos šansi ima sledeći oblik .
Ako bismo hteli da vidimo kako povećanje starosti od 10 godina utiče na pojavu srčane
bolesti u prethodnom izrazu c ćemo zameniti sa 10 i dobiti . Dakle, sa
svakim povećanjem starosti od 10 godina rizik za pojavu srčanog oboljenja se povećava
1.46 puta.
Osnovna razlika za ocenu odnosa šansi kod modela sa dihotomnom i modela sa
neprekidnom nezavisnom promenljivom leži upravo u načinu definisanja promene.
4. PROCENA SLAGANJA MODELA SA PODACIMA
23
4.1 UVOD
Počinjemo razmatranje metoda za procenjivanje slaganja ocenjenog logističkog
regresionog modela sa podacima, pretpostavkom da smo zadovoljni našim pokušajima na
nivou građenja modela. Odnosno, podrazumevamo da model sadrži one promenljive koje
treba da su u modelu, tj. koje su značajne i da su promenljive unete u korektnom
funkcionalnom obliku. Sada nas interesuje koliko efikasno naš model opisuje rezultujuću
(ishodnu) promenljivu (tzv. goodness-of-fit).
Neka su registrovane uzoračke vrednosti rezultujuće promenljive prikazane u vektorskom
obliku sa y, gde je y' = (y1, y2, . . . ,yn). Označimo vrednosti koje su predviđene modelom,
ili fitovane vrednosti, sa , gde je ' = ( , , ..., ).
Možemo zaključiti da je model prilagođen podacima ako su:
(1) mere rastojanja između y i male.
(2) doprinos svakog para (yi, ) , i = 1, 2, 3, . . . , n ovim merama je nesistematski,
i mali u odnosu na grešku modela.
Dakle, kompletno procenjivanje fitovanog modela obuhvata kako izračunavanje mera
rastojanja između y i , tako i ispitivanje pojedinačnih komponenti tih mera.
4.2 OSNOVNE MERE ZA GOODNESS OF-FIT
Osnovne mere za goodness-of-fit predstavljaju opšti pokazatelj koliko dobro se model
slaže sa podacima. Ove statistike ne moraju da daju informaciju o pojedinim
komponentama modela. Mala vrednost neke od tih statistika ne uzima u obzir mogućnost
nekih bitnih, tj. interesantnih odstupanja od vrednosti dobijene na osnovu fitovanog
modela za nekoliko subjekata. Sa druge strane, velika vrednost neke od tih statistika
jasno ukazuje na stvarne probleme modela.
Pre razmatranja specifične goodness-of-fit statistike, moramo prvo razmotriti efekat koji
fitovan model ima na stepene slobode koji su dostupni za procenu učinka modela.
Koristićemo izraz covariate pattern za opisivanje odabranog skupa vrednosti za
kovarijate u modelu. Covariate patterns su opservacije sa istim vrednostima za sve
24
nezavisne promenljive. Na primer, ako imamo dve nezavisne promenljive i koje
označavaju pol i rasu redom, pri tome prva promenljiva može uzeti dve vrednosti muški i
ženski, a druga promenljiva bela i crna, tada imamo četiri covariate patterns i to
(muški,bela), (muški,crna), (ženski,bela), (ženski,crna).
Ukoliko bismo imali tri nezavisne promenljive i koje označavaju pol, rasu,
visinu redom i ako bismo posmatrali n subjekata, tada bismo mogli imati najviše n
covariate patterns jer je treća promenljiva neprekidna.
Na primer, ako bismo imali 10 ovakvih subjekata:
(ženski,bela,168),(ženski,bela,169),(ženski,bela,175),(ženski,crna,165), (ženski,crna,166),
(muški,crna,178),(muški,crna,180), (muški,crna,190), (muški,bela,182), (muški,bela,192).
Tada vidimo da svi oni imaju različite vrednosti nezavisnih promenljivih, odnosno
imamo 10 covariate patterns.
A ukoliko posmatramo 10 ovakvih subjekata:
(ženski,bela,168),(ženski,bela,168),(ženski,bela,175),(ženski,crna,165), (ženski,crna,165),
(muški,crna,178),(muški,crna,178), (muški,crna,190), (muški,bela,182), (muški,bela,192).
Tada imamo 7 covariate patterns.
Tokom razvijanja modela nije neophodno baviti se brojem covariate patterns. Stepeni
slobode za testove su bazirani na razlici u broju parametara za modele koji se upoređuju,
a ne na broju covariate pattern. Međutim, kada je procenjeno koliko se model slaže sa
podacima, tada sporno pitanje može biti broj covariate pattern.
Goodness-of-fit je procenjen preko grupisanja fitovanih vrednosti određenih pomoću
kovarijati u modelu, a ne ukupnog skupa kovarijati. Na primer, pretpostavimo da naš
fitovan model sadrži p nezavisnih promenljivih, x' = (x1, x2, x3, ..., xp), i neka J označava
broj različitih vrednosti za registrovano x. Ako neki subjekti imaju istu vrednost za x,
tada je J < n.
Označimo broj subjekata za koje je x = xj , sa mj , za j = 1, 2, 3, . . . J. Sledi da je
Σmj = n. Neka je sa yj označen broj pozitivnih odgovora, y = 1, među mj subjekata za
koje važi x = xj.
25
Da bismo bolje objasnili šta koja oznaka predstavlja vratićemo se na primer u kojem smo
posmatrali sledeće subjekte:
(ženski,bela,168),(ženski,bela,168),(ženski,bela,175),(ženski,crna,165), (ženski,crna,165),
(muški,crna,178),(muški,crna,178), (muški,crna,190), (muški,bela,182), (muški,bela,192).
U ovom primeru imamo deset subjekata, dakle n =10. Od tih deset, njih sedam ima
različite vrednosti tj. J = 7.
Vidimo da imamo:
dve belkinje visine 168 i one čine jednu grupu tj.
jednu belkinju visine 175, ona čini drugu grupu tj.
dve crnkinje visine 165, one čine treću grupu tj.
dva crnca visine 178, oni čine četvrtu grupu tj.
po jednog crnca visine 190, belca visine 182 i belca visine 192 koji čine, redom,
petu, šestu i sedmu grupu tj.
Raspodela za statistiku goodnes-of-fit se dobija, ako se stavi da je n je dovoljno veliko.
Ako se broj covariate patterns takođe povećava sa n, tada svaka vrednost mj teži da bude
mala. Za distribucione rezultate dobijene pod pretpostavkom da samo n postaje veliko
kažemo da su n-asimptotski. Primer n-asimptotskog ponašanja je prethodni primer, jer
ukoliko posmatramo veliki broj subjekata i njihove visine, skoro je sigurno da ćemo
imati veliki broj različitih vrednosti, s obzirom da je visina neprekidna promenljiva.
Ako fiksiramo broj grupa i povećavamo obim uzorka onda će se povećavati broj
elemenata u svakoj grupi tj. matematički rečeno ako fiksiramo J < n i pustimo n da je
dovoljno veliko, tada svaka vrednost mj takođe teži da postane velika. Za raspodele gde
svako mj postaje veliko, kažemo da su m - asimptotske.
Pretpostavimo da je J ≈ n, kao što očekujemo kad god postoji bar jedna neprekidna
kovarijata u modelu. Ovo je slučaj koji se najčešće javlja u praksi, a takođe i predstavlja
najveći izazov u razvijanju raspodela goodness-of-fit statistike.
4.3 PIRSONOVA HI-KVADRAT STATISTIKA I ODSTUPANJE
26
U logističkoj regresiji postoji nekoliko mogućih načina za procenu razlike između
observirane i fitovane vrednosti. Za isticanje činjenice da su fitovane vrednosti u
logističkoj regresiji izračunate za svaki covariate pattern i da zavise od ocenjene
verovatnoće za taj covariate pattern, označavamo vrednost za j-ti covariate pattern sa
, i važi da je:
,
gde je ocenjen logit.
Počinjemo razmatranjem dve mere rastojanja između registrovane i predviđene
vrednosti na osnovu modela, a to su: Pirsonov rezidual i rezidual odstupanja. Za određen
covariate pattern, Pirsonov rezidual je definisan na sledeći način:
.
Statistika koja je bazirana na ovim rezidualima je Pirsonova hi-kvadrat statistika:
Χ2 = .
Rezidual odstupanja je definisan kao:
Statistika koja je bazirana na rezidualima odstupanja je odstupanje (Deviance).
D = .
27
Pod pretpostavkom da je fitovani model korektan za sve aspekte, statistike X2 i D imaju
hi-kvadrat raspodelu sa J – (p + 1) stepeni slobode. Za odstupanje ovo sledi iz činjenice
da je D test statistika količnika verodostojnosti zasićenog modela sa J parametara u
odnosu na fitovani model sa p + 1 parametara. Slična teorija daje nultu raspodelu za X2.
Problem nastaje kada je J ≈ n, jer je raspodela n-asimptotska, pa se broj parametara
povećava u istom odnosu kao veličina uzorka. Dakle, p-vrednosti, izračunate za ove dve
statistike kada je J ≈ n, a korišćenjem χ2(J – p – 1) raspodele su nekorektne.
Jedan način da se izbegnu navedene smetnje sa raspodelama za X2 i D, kada je J ≈
n je grupisanje podataka na takav način da se koristi m-asimptotska raspodela. Da bi se
razumelo obrazloženje za različite postupke grupisanja, korisno je smatrati X2
Pirsonovom i D kao logaritam verodostojnosti hi-kvadrat statistike koja se dobija iz
tabele 2 × J. Redovi tabele odgovaraju vrednostima rezultujuće promenljive, y = 1, 0, a J
kolona odgovara J mogućim vrednostima covariate patterns. Ocena očekivanih vrednosti
pod pretpostavkom da je logistički model u stvari korektan model za ćelije koje
odgovaraju y = 1 redu i j-toj koloni je mj . Sledi da je ocena očekivanih vrednosti za ćeliju
koja odgovara y = 0 i J-toj koloni mj (1 – ).
Kada su hi-kvadrat testovi izračunati iz tabele kontigencije, p-vrednosti su
korektne pod nultom hipotezom da su ocenjene vrednosti suviše "velike" u svakoj ćeliji.
Mada ovo previše pojednostavljuje situaciju, to je u suštini korektno. U gore opisanoj
tabeli 2 × J, očekivane vrednosti su uvek prilično male jer se broj kolona povećava kako
se n povećava. Da bi se izbegao ovaj problem, možemo smanjiti kolone u fiksiran broj
grupa, g, i tada računati registrovane i očekivane frekvencije. Fiksiranjem broja kolona,
ocenjene očekivane vrednosti postaju veće, sa povećanjem n.
Često se sugeriše da je X2 bolje nego D zato što na D prekomerno utiču vrlo
male frekvencije. Ako su očekivane frekvencije suviše male (to jest manje od 1), obe
aproksimacije su verovatno vrlo slabe. Naročito, ako svaka observacija ima različit
covariate pattern pa je yi nula, ili jedan, ni D, ni X 2 ne daju upotrebljivu meru za fit. Ovo
se može desiti kada su nezavisne promenljive neprekidne. U takvim situacijama najčešće
se koristi Hosmer- Lemeshow pristup.
28
4.4 TABELE KLASIFIKACIJE
Jedan način za sažimanje rezultata fitovanog logističkog regresionog modela je pomoću
tabele klasifikacije, koja je rezulat ukrštanja rezultujuće promenljive sa dihotomnom
promenljivom čije su vrednosti izvedene iz ocenjenih logističkih verovatnoća.
Kreiramo tabelu klasifikacije 2×2 predviđenih vrednosti iz našeg modela za ishodnu
promenljivu nasuprot tačnoj vrednosti ishodne promenljive. Predviđanje zavisi od neke
cut-off verovatnoće c. Pri tome se uzima da je ukoliko je i ukoliko je
. Najčešće korišćena vrednost je .
Senzitivnost testa predstavlja verovatnoću da je predviđena vrednost zavisne promenljive
jedan, ukoliko je, zaista, zavisna promenljiva primila vrednost jedan tj. .
Specifičnost testa je verovatnoća da je predviđena vrednost zavisne promenljive nula,
ako je njena stvarna vrednost nula tj. .
Posmatrajmo sledeću tabelu klasifikacije :
RegistrovanoKlasifikovano GOJAZNOST = 0 GOJAZNOST = 1 UkupnoGOJAZNOST = 0 530 250 780GOJAZNOST = 1 385 939 1324Ukupno 915 1189 2104
Tabela 5.
Iz tabele se vidi da je ukupno posmatrano 2104 osobe, od kojih je 1189 gojazno.
Od 1189 gojaznih dobro smo klasifikovali njih 939, dok je njih 250 pogrešno
klasifikovano. Od 915 negojaznih osoba 530 je dobro klasifikovano, dok je 385 osoba
pogrešno klasifikovano.
Senzitivnost testa je:
29
Specifičnost testa je :
Dakle, tačno smo klasifikovali 78.97% osoba koje su gojazne i 57.92% osoba koje su
negojazne pa je ukupna stopa tačne klasifikacije .
250 gojaznih osoba je klasifikovano kao negojazno tj. , dok je 385 osoba
koje nisu gojazne klasifikovano kao gojazno tj. .
Dakle, ukupno je pogrešno klasifikovano posmatranih osoba.
Klasifikacija je osetljiva na relativnu veličinu dve komponentne grupe i uvek favorizuje
klasifikaciju u veće grupe. Važan razlog zašto mere izvedene iz tabele klasifikacije 2 × 2
(kao što su senzitivnost i specifičnost) ne bismo trebali koristiti za procenu koliko je
model dobar, je taj da one veoma zavise od raspodele verovatnoća u uzorku Zbog
razmatranja koje sledi treba da razumemo smisao verovatnoće, a to je da se od n
subjekata koji imaju istu verovatnoću ishoda koji nas interesuje ( ),očekuje se da će broj
onih koji će imati ishod od interesa biti n , a broj onih za za koje se očekuje da neće
imati ishod od interesa je n(1– ). Pretpostavimo da je korišćen cutpoint 0.50 u cilju
klasifikacije i pretpostavimo da je 100 subjekata imalo verovatnoću = 0.51. Za sve ove
subjekte je predviđeno da će imati rezultat koji se posmatra, ali pretpostavljajući da je
model dobro podešen, 51 subjekat bi trebalo da zaista ima ishod od interesa, dok se za
njih 49 treba očekivati da neće imati ishod od interesa. Dakle, 49 od 100 pacijenata je
pogrešno klasifikovano.
Ne mogu se upoređivati modeli na bazi mera izvedenih iz tabele klasifikacije 2×2, jer ove
mere ne možemo posmatrati nezavisno od raspodela verovatnoća u uzorcima na kojima
su bazirani. Isti model procenjen u dve populacije, korišćenjem mera senzitivnosti ili
specifičnosti bi mogao da da vrlo različite utiske o njegovom učinku.
Ukratko, tabela klasifikacije je najprikladnija kada je klasifikacija postavljena kao cilj
analize, inače bi trebala da bude samo dopuna mnogo strožijim metodama procene
slaganja modela sa podacima.
30
4.5 ROC KRIVA
Kao što smo rekli na osnovu ocena i dobijaju se ocene za
verovatnoće , . Dalje se, na osnovu ovih ocena mogu dobiti i ocene
za vrednosti zavisne promenljive , , na sledeći način.: odabere se nivo
verovatnoće , koji se naziva cutpoint, pa ako je uzima se da je , a u
suprotnom za svako . Na taj način se subjekti u istraživanju klasifikuju
u dve grupe: oni koji prema modelu imaju osobinu ili ne. To znači da odluka da li neki
subjekat ima osobinu koja se posmatra ili ne zavisi od procene verovatnoće dobijene
modelom. Visinu nivoa verovatnoće, cutpoint, bira sam istraživač. Ovakav način
odlučivanja, klasifikovanja subjekata, često se naziva test.
Nameće se pitanje koliko je takav test dobar, koliko se slaže sa stvarnom
situacijom, tj. koliko dobro predviđa postojanje posmatrane osobine kod svakog
pojedinog subjekta, odnosno koliko dobro razdvaja posmatranu populaciju. Kvalitet testa
se meri njegovom senzitivnošću – verovatnoćom tačno predviđenog prisustva osobine, i
negovom specifičnošću - verovatnoćom tačno predviđenog odsustva osobine
Kada se senzitivnost i specifičnost testa izračunaju za čitav niz nivoa
verovatnoće, cutpoints, moguće je konstruisati ROC krivu (Receiver Operating
Characteristic Curve) koja povezuje senzitivnost (verovatnoću tačnog detektovanja
prisustva osobine) i 1– specifičnost, (verovatnoću netačnog detektovanja prisustva
osobine).
ROC kriva je prvi put korišćena tokom II svetskog rata za analizu radio signala
pre nego što je primenjena u teoriji detektovanja signala. Prateći napad na Perl Harbur
1941, armija USA je počela novo istraživanje da poveća tačno predviđanje detektovanog
japanskog aviona korišćenjem njihovih radio signala.
1950. godine ROC kriva je primenjena u psihofizici da proceni ljudsku (i
povremeno životinjsku) detekciju slabih signala. U medicini se koristi u dijagnostičkom
testiranju za evaluaciju efikasnosti novog leka ili dijagnostičke metode nasuprot već
priznatoj, postojećoj.. U radiologiji, ROC analiza je opšta tehnika za evaluaciju novih
radioloških tehnika.
31
Često, klinički istraživač se sreće sa pitanjem koliko je određeni laboratorijski test
precizan u identifikovanju obolelih slučajeva. Sposobnost testa da razdvoji obolele
slučajve od normalnih slučajeva je procenjena korišćenjem ROC krive. Kada razmatramo
rezultate određenog testa u dve populacije, jednu populaciju sa oboljenjem, i drugu bez
oboljenja, retko ćemo dobiti perfektno razdvajanje između ove dve grupe. Umesto toga
raspodela rezultata testa će se preklapati, kao što je prikazano na slici 4.
Slika 4.
Za svaku moguću tačku cut-off, ili kritičnu vrednost koju smo izabrali da
razdvaja dve populacije, postojaće neki slučajevi sa oboljenjem koji su korektno
klasifikovani kao pozitivni, (TP = true positive fraction), ali će neki slučajevi sa
oboljenjem biti klasifikovani kao negativni, to jest lažno negativni (FN = false negative
fraction). Sa druge strane, neki slučajevi bez oboljenja će biti korektno klasifikovani kao
negativni (TN = True Negative fraction), dok će neki slučajevi bez oboljenja biti
klasifikovani kao pozitivni, tj. lažno pozitivni (FP = False Positive fraction), što je
prikazano u tabeli 6.
Test Oboljenje UkupnoPrisutno OdsutnoPozitivan Tačno pozitivni (TP) a Lažno pozitivni (FP) c a+cNegativan Lažno negativni (FN) b Tačno negativni (TN) d b+dUkupno a+b c+d a+b+c+d
Tabela 6.
32
Prepostavimo da imao model za ocenjivanje verovatnoće da je osoba gojazna i da
nas interesuje predviđanje ishoda za svaku osobu. Pravilo koje je prikazano u Tabeli 5,
predviđa da će će osoba biti gojazna, ako je P(y = 1) ≥ 0.50, odnosno normalno uhranjena
ako je P(y = 0) < 0.50. Postoje neke statistički dobre osobine povezane sa korišćenjem
0.5, ali bi trebali razmatrati i šta se dešava kada koristimo druge vrednosti za cutpoints.
0
10
20
30
40
50
60
70
80
90
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
cutpoints
Senzitivnost (%)Specifičnost (%)
Slika 5. Senzitivnost i specifičnost modela za sve moguće cutpoints
Ako je naš cilj izbor optimalnog cutpoint, a u cilju klasifikacije, mogli bismo
izabrati onaj za koji je maksimalna i senzitivnost i specifičnost. Na slici 5 prikazan je
primer optimalanog izbora, za cutpoint = 0.6, gde se krive senzitivnosti i specifičnosti
seku.
Klasifikovano Registrovano UkupnoGOJAZNOST
= 0GOJAZNOST =
1GOJAZNOST = 0 730 539 1269GOJAZNOST = 1 339 976 1315Ukupno 1069 1515 2584
Tabela 7. Klasifikaciona tabela korišćenjem cutpoint 0.6
33
Senzitivnost = 976/1515 = 64.4%; Specifičnost = 730/1069 = 68.3%
Rezultati korišćenja cutpoint 0.6 su prikazani u Tabeli 7, ali ovo se može uraditi za bilo
koji mogući izbor cutpoint. Tabela 8 sumira rezultate biranja svih mogućih cutpoint
između 0.05 i 0.95 sa priraštajem od 0.05.
Cutpoint Senzitivnost (%)
Specifičnost (%)
1 – Specifičnost (%)
0.05 100.0 0.0 100.00.10 100.0 0.0 100.00.15 99.9 1.0 99.00.20 99.8 3.9 96.10.25 98.9 9.4 90.60.30 97.4 16.6 83.40.35 95.5 22.0 78.00.40 93.3 30.0 70.00.45 88.6 39.9 60.10.50 82.7 52.1 47.90.55 73.7 61.0 39.00.60 64.4 68.3 31.70.65 51.9 75.1 24.90.70 40.3 81.4 18.60.75 27.7 87.4 12.60.8 15.3 92.9 7.10.85 6.2 97 3.00.90 0.5 99.4 0.60.95 0 100 0.0
Tabela 8. Senzitivnost, specifičnost, i 1 – specifičnost za tabelu klasifikacije baziranu
na logističkom regresionom modelu korišćenjem cutpoint od 0.05 do 0.95 sa priraštajem
od 0.05
Grafikon sezitivnosti u odnosu na 1 – specifičnost za sve moguće cutpoints je prikazan na
slici 6. Kriva koja je generisana pomoću svih tih tačaka je ROC kriva i površina ispod
ove krive daje meru razdvajanja koja je, u našem slučaju verovatnoća da će osobe koje su
gojazne imati veću ocenjenu verovatnoću (P(y =1)) nego oni koji nisu gojazni.
34
Slika 6. Primer ROC krive
Površina ispod ROC krive, koja se kreće od nule do jedan, je mera sposobnosti
modela u razdvajanju subjekata koji su iskusili događaj koji se posmatra u odnosu na one
koji nisu. Površina ispod ROC krive, u oznaci AUC (The Area Under the Curve), takođe
označena i kao indeks accuracy (A), ili indeks konkordancije, c (concordance index) je
prihvaćena tradicionalna izvedena mera za ROC krivu.
Kao opšte pravilo, koristimo sledeće:
Ako je AUC = 0.5 nema diskriminacije
Ako je 0.5 ≤ AUC < 0.7 loše razdvajanje
Ako je 0.7 ≤ AUC < 0.8 prihvatljivo razdvajanje
Ako je 0.8 ≤ AUC < 0.9 odlično razdvajanje
Ako je AUC ≥ 0.9 izvanredno razdvajanje.
35
5. ZAKLJUČAK
Iako je logistička kriva često kritikovana, u smislu da je primenjivana na sisteme
gde nije odgovarajuća, ona se pokazala korisnom u modeliranju širokog opsega pojava.
Značaj logističke raspodele je ostavio traga u mnogim oblastima ljudskih
nastojanja. Verhulst je 1845. godine koristio u ekonomskim i demografskim
istraživanjima
Mnogi postupci u biologiji i drugim poljima koriste S-krivu rasta. Biološka
funkcija rasta po kojoj se obnavlja brojnost populacije riba, ptica, pa čak i količine vode u
podzemnim rezervoarima odgovara tzv. logističkoj funkciji rasta. Logistički model rasta
je prvi primenio u analizi ribarstva Schaffer (1957). U biologiji, logistička funkcija
opisuje populacioni rast u ograničenom okruženju, kao što je bakterija u petrievoj šolji.
Ima primenu u populacionom rastu vrsta koje rastu tako da su blizu zasićenja njegovih
ekosistema. Kingsland je dao kroz istoriju primene logističke krive u populacionoj
ekologiji, njene uspehe i neuspehe.
Logističke funkcije su dobar model u marketingu, gde prikazuju prodaju novih
proizvoda u tokom vremena, mogu da opisuju krive potražnje: opadanje potražnje za
proizvodom kao funkcija povećanja cene.
Wofford i drugi su proučavali kontinuirano nasilje u porodici, u nacionalnom
uzorku mladih oba pola, starosti od 18 do 27 godina . Dvadeset šest prediktora, baziranih
na podacima iz literature o nasilju u domaćinstvu su uklučene u ovu analizu. Kao deo
studije, ispitanici koji su saopštili da su žrtve ili izvršioci nasilja u porodici 1984. su
ponovo intervjuisani 1987.godine da bi se utvrdilo da li nasilje u porodici nastavilo ili je
prekinuto od momenta prvog intervjuisanja 1984. godine.
Logistička kriva je igrala značajnu ulogu i u sociološkim istraživanjima, na primer
u teoriji transformacije George Land, koji je koristio koncept S-krive za procenu
pogodnog zanimanja u različitim fazama tehnološkog razvoja. White, Pearson, Wilson su
ispitivali ostvarenje proizvodne prakse u datom momentu, korišćenjem logističkih
regresionih modela.
Logistička kriva, ili tzv. S kriva ima izuzetno široku primenu u prognoziranju
broja korisnika telekomunikacionih servisa. Posebno dobri rezultati se postižu u
36
prognoziranju glavnih telefonskih priključaka (GTP). U prvoj fazi uvođenja servisa
zahtevi rastu sporo, u drugoj fazi kada je servis prihvaćen na tržištu, dolazi do rapidnog
rasta broja zahteva. U trećoj fazi dolazi do zasićenja tržišta (broj zahteva ili uopšte ne
raste ili raste vrlo sporo). Gustina zasićenja se procenjuje posebno i obično se razlikuje za
svaku zemlju ili pojedine njene delove.
37