1zlc/fajlovi/logisticka... · web viewkada su regresioni koeficijenti pozitivni tada nezavisne...

1. UVOD

1.1 POREKLO LOGISTIČKE FUNKCIJE - POPULACIONI MODEL

Poznati demograf iz Engleske, Tomas Maltus je 1789. godine u svom radu „Put u

katastrofu“, pokušao da skrene pažnju svetske javnosti na problem prenaseljenosti

iznoseći svoju „mračnu teoriju“ da čovečanstvo može opstati samo ako eksponencijalni

rast populacije bude povremeno prekidan epidemijama i katastrofama .

Maltus je rezonovao ovako: zamislimo da prebrojavanjem dođemo do podatka da

u nekom trenutku živo p(0) ljudi. Populacija u sledećem trenutku je srazmerna populaciji

u prethodnom, odnosno p(1) = rp(0), gde je r parametar koji opisuje neto priraštaj

stanovništva i može se dobiti iz postojećih podataka na osnovi toga što će u tom

vremenskom intervalu između dva brojenja, neki ljudi da umru (ratovi, siromaštvo,

bolest), neki će da se rode.

Ako se sa označi konstantna brzina rođenja u jedinici vremena po jedinki

(stopa nataliteta), a sa konstantna brzina umiranja u jedinici vremena po jedinki (stopa

mortaliteta), tada važi da je konstantan priraštaj .

Ako je sa p(t) označen broj jedinki u trenutku t, onda je on posle vremenskog

intervala jednak

Vidimo da je rast srazmeran postojećoj populaciji i vremenu.

Diferencna jednačina vodi ka Cauchy-evom problemu za običnu diferencijalnu jednačinu

, (1)

Rešavanjem ove diferencijelne jednačinu dobijamo:

1

Konstantu A određujemo, jer znamo početnu populaciju .

Važi da je , pa je rešenje jednačine (1)

(2)

Ovaj model se naziva osnovni (Maltusov) populacioni model .

Međutim osnovne pretpostavke Maltusovog populacionog modela su razumne za

populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje

postoje neograničeni resursi, odgovarajuća ishrana, nepostojanje bolesti, nepostojanje

prirodnih neprijatelja i sl.

Uprkos ovome ovaj model je imao ogroman uticaj na demografe i mislioce toga

vremena. Naime, sa povećanjem broja stanovnika povećava se i količina proizvedenih

resursa, hrane i slično, ali ovo povećanje, prema tadašnjim podacima, raste aritmetičkom

progresijom. Broj stanovnika raste brže nego količina resursa. Posle određenog broja

godina, dakle, resursa će biti manje, a stanovnika koji će ih koristiti više, pa će tako

zavladati oskudice. I ovo stanje će se vremenom pogoršavati. Ovo stanje je dobilo i

naziv-demografska (Maltusova) katastrofa. Pa su zato mislioci tog vremena došli do

zaključka da je jedini način da se izbegne izbegne ili odloži katastrofa smanjenjem

priraštaja, što se može postići povećanjem smrtnosti - namerno izazvanim ratovima,

bolestima, oskudicama, ili ograničenim rađanjem.

2

1.2 POPRAVKA MODELA

Maltusov model ima bitan nedostatak: nijedna realna sredina ne može da održava na sebi

neograničeno veliki broj ljudi. Kako Maltusov model ima manu, to jest neograničen rast,

moguće je napraviti model za p(t) koji ne daje apsurdna rešenja, i ograničava rast do neke

maksimalne fiksne vrednosti specifične za sitem koji se posmatra. Dakle, jasno da

Maltusov eksponencijalni populacioni model nije realan, jer ograničeni resursi (hrana,

voda, vazduh) usporavaju rast populacije. Populacija teži ka graničnom zasićenju. Drugi

nedostatak je taj što linearne brzine rađanja i umiranja nisu konstantne kao u

pretpostavci Maltusovog modela već su date sa:

i smanjuju brzinu rađanja, a uvećavaju brzinu umiranja

I neka je maksimalni priraštaj označen sa , gde je

Sada važi da je prirodni priraštaj

gde smo sa označili

Jednačina sada ima oblik

(3)

Prirodni sistemi najčešće zbog svojih ograničenja ne mogu prihvatiti neograničenu

populaciju. Stoga je čest sledeći slučaj: populacija u početku raste eksponencijalno sa

3

stopom rasta a, ali se taj rast smanjuje kako se populacija približava maksimalnom

(nosivom) kapacitetu sistema . Matematički takvo ponašanje možemo modelirati

logističkom jednačinom:

Mehanizam jednačine je sledeći: kada ja populacija mala u odnosu na kapacitet ,

tada je izraz u zagradi približno jednak jedan, i populacija se ponaša prema Maltusovom

populacionom modelu. Kada se populacija približi maksimalnom kapacitetu, tada izraz u

zagradi teži nula što koči rast populacije. Rešimo jednačinu:

Opšte rešenje ove jednačine je logistička funkcija.

Kad uvrstimo i početni uslov, dobijamo:

(4)

4

Rešenje logističke jednačine možemo prikazati u ekvivalentnom obliku

, ili:

(5)

Kriva ima S-oblik i naziva se logistička kriva.

1.3 SIGMOID FUNKCIJA

Postoje različiti oblici logističke funkcije a jedan od specijalnih slučajeva je

sigmoid funkcija ili sigmoid kriva koja je još poznata i pod nazivom standardna

logistička funkcija ili osnovna logistička funkcija i data je sa:

(6)

Ona se često se sreće u mnogim oblastima tehnike, naročito u veštačkim

neuronskim mrežama kao transfer funkcija.

Standardna sigmoid funkcija se dobija kao rešenje nelinearne diferencijalne

jednačine prvog reda:

.

Ona je strogo rastuća funkcija koja se može prikazati i u sledećem obliku:

gde je parametar nagiba sigmoidne funkcije. Menjajući vrednost parametra , dobijaju

se različiti oblici, što je prikazano na slici 1. .

5

http://en.wikipedia.org/wiki/Differential_equation

http://en.wikipedia.org/wiki/Transfer_function

http://en.wikipedia.org/wiki/Artificial_neural_network

http://en.wikipedia.org/wiki/Artificial_neural_network

Slika 1. Sigmoidna funkcija

Posmatrajmo izraz (6). P-predstavlja verovatnoću da se neki događaj desi, pod

uticajem nekih nezavisnih rizičnih faktora, promenljiva se definiše kao:

, gde se regresioni koeficijenti koji opisuju veličinu

doprinosa odgovarajućeg rizičnog faktora . Kada su regresioni koeficijenti pozitivni

tada nezavisne promenljive povećavaju verovatnoći pozitivnog ishoda, a kada su

negativni, onda smanjuju tu verovatnoću.

Primer1.

Ispitujemo verovatnoću da osoba u narednih 10 godina umre od bolesti srca,

posamtrajući rizične faktore: = godine preko 50, -pol(muško-0, žensko-1), -nivo

holesterola preko 5 mmol/l. Neka su nam regresioni koeficijenti dati sa:

.

Posmatrajmo: Muškarca koji ima 50 godina i 7 mmol/l holesterola u krvi.

Verovatnoća da on umre u nsrednih 10 godina je tada data sa:

Odnosno verovatnoća da ova osoba umre u narednih 10 godina je 7%.

6

2. LOGISTIČKI REGRESIONI MODEL

Uopšteno, regresija je statistički metod koji omogućava predviđanje i ocenjivanje jedne

promenljive na osnovu vrednosti neke druge promenljive ili više njih.

Logistička regresija se koristi za:

- predviđanje zavisne promenljive na osnovu vrednosti nezavisnih promenljivih

- rangiranje nezavisnih promenljivih po važnosti

- procenu efekta interakcije.

Logistička regresija primenjuje maksimalnu procenu verovatnoće nakon promene zavisne

promenljive u logističku promenljivu. Na ovaj način se vrši procena verovatnoće da

određeni događaj nastupi.

Dakle, logistička regresija, za razliku od linearne, računa promene u logaritmu

verovatnoće zavisnih promenljivih, a ne promene u zavisnim promenljivim.

Prilikom traženja modela, koji će opisati vezu između zavisne i nezavisnih promenljivih,

cilj je pronaći najekonomičniji model koji je najbolje fitovan (prilagođen) podacima.

Kada se kaže najekonomičniji model misli se na model koji će imati, u neku ruku,

optimalan broj promenljivih. Odnosno model koji će sadržati samo one nezavisne

promenljive koje imaju uticaja na ishod zavisne promenljive.

Zavisna promenljiva u logističkom regresionom modelu je binarna, dok nezavisne

promenljive mogu biti numeričke, kategorijalne ili njihova kombinacija.

Zbog prirode zavisne promenljive, logistički regresioni model se još naziva i binarni

logistički regresioni model (Binary Logistic Regression Model).

Na primer, zavisna promenljiva može biti da li je pacijent izlečen ili ne; da li je neki

proizvod prošao kontrolu kvaliteta ili ne; da li je životinja na kojoj se vršio neki

eksperiment preživela isti ili ne itd.

Kao što vidimo, zavisna promenljiva uzima samo dve vrednosti, tj. dihotomna je. Upravo

zbog toga se kodira sa 0 i 1, gde 0 označava „neuspeh“ ili odsustvo neke karakteristike, a

1 „uspeh“ odnosno prisustvo neke karakteristike.

7

Na primer, ukoliko je pacijent izlečen, ishod je „uspeh“, a ako nije ishod je „neuspeh“;

ako proizvod prođe kontrolu kvaliteta ishod je „uspeh“, u suprotnom „neuspeh“.

Ukoliko zavisna promenljiva označava to da li je osoba zdrava ili ne, onda bismo sa 0

kodirali - osoba nije zdrava, a sa 1 – osoba je zdrava.

Zavisnu promenljivu označavamo sa Y, doke nezavisne označavamo sa X.

Ishodna promenljiva je povezana sa skupom vrednosti datih nezavisnih promenljivih.

Vrednosti nezavisnih promenljivih ćemo označavati sa x.

Primera radi, da li će pacijent biti izlečen ili ne može zavisiti od medicinskog tretmana

kom je podvrgnut, od pola, godina starosti pacijenta itd.; da li će proizvod proći kontrolu

kvaliteta može zavisiti od temperature, kvaliteta sirovog materijala od kog se pravio

proizvod itd.

Često je potrebno izvršiti grupisanje podataka, tako da se u okviru jedne grupe nalaze svi

subjekti koji imaju iste vrednosti nezavisnih promenljivih. Kada su podaci grupisani,

lakše je zabeležiti broj „uspeha“, odnosno broj „neuspeha“, jer ih beležimo za svaku

grupu posebno, dok bismo u slučaju negrupisanih podataka dobijali dugačke nizove 0 i 1.

Na primer, uzmimo da je zavisna promenljiva CHD, koja označava konorarno srčano

oboljenje, a starost, izraženu u godinama, nezavisna promenljiva. Promenljivu CHD

ćemo kodirati sa 0 i 1, gde 0 označava odsustvo, a 1 prisustvo srčane bolesti za 100

subjekata koji učestvuju u istraživanju. Želimo da ispitamo u kakvoj su vezi promenljive

CHD i Starost, odnosno da vidimo u kojoj meri starost subjekata utiče na pojavu

oboljenja.

Posmatrajmo sledeći dijagram rasipanja:

8

0

0,2

0,4

0,6

0,8

1

1,2

20 30 40 50 60 70 80

Starost (godine)

CH

D

Slika 2.

Vidimo da sve tačke pripadaju jednoj od dve paralelne prave koje predstavljaju prisustvo

(CHD = 1), odnosno odsustvo (CHD = 0) srčanog oboljenja.

Može se uočiti da se kod mlađe populacije oboljenje javlja ređe nego kod starije, ali ipak

ovaj dijagram ne daje jasnu sliku o vezi između godina starosti subjekata i pojave

oboljenja.

Ukoliko bismo grupisali podatke kao u tabeli

CHD sredinastarosne grupe n odsutan prisutan (proporcija)

20-29 10 9 1 0.1030-34 15 13 2 0.1335-39 12 9 3 0.2540-44 15 10 5 0.3345-49 13 7 6 0.4650-54 8 3 5 0.6355-59 17 4 13 0.7660-69 10 2 8 0.80

Ukupno 100 57 43 0.43Tabela 1. Tabela frekvencija za starosne grupe u odnosu na CHD

9

i izračunali sredinu rezultujuće promenljive unutar svake grupe, tj. verovatnoću da osoba

iz odgovarajuće grupe oboli, dobili bismo sledeći grafik.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

20 25 30 35 40 45 50 55 60 65 70

Starosne grupe

Popo

rcija

pris

utno

g C

HD

Slika 3. Proporcija subjekata sa CHD u odnosu na starosne kategorije

Sa datog grafika se može uočiti da se sa povećanjem starosti, povećava i proporcija

subjekata koji imaju srčano oboljenje.

U bilo kom regresionom modelu ključno je odrediti očekivanu vrednost zavisne

promenljive za datu vrednost nezavisne promenljice, u oznaci E(Y׀x). Kako je zavisna

promenljiva dihotomna, za uslovnu sredinu važi 0 ≤ E(Y׀x) ≤ 1. Promena u E(Y׀x) po

jedinici promene za x postaje progresivno manja kako uslovna sredina postaje bliža 0 ili

1.

Kako je zavisna promenljiva dihotomna i uzima vrednosti 0 i 1, uzećemo da uzima

vrednost 1 sa verovatnoćom , a vrednost 0 sa verovatnoćom , tj. .

10

Slučajna promenljiva Y׀x će takođe uzimati vrednosti 0 i 1, sa verovatnoćama

redom, tj. .

Kako nas interesuje očekivana vrednost od Y za dato x, izračunaćemo je:

Zbog ovoga, ubuduće ćemo koristiti oznaku za prikazivanje uslovne sredine od Y

za dato x kada se koristi logistička raspodela.

Poseban oblik regresionog modela koji koristimo je

Kod logističke regresije, vrednost rezultujuće promenljive za dato x možemo izraziti kao

, gde je greška koja ima binomnu raspodelu.

Promenljiva može uzeti vrednost i i to vednost uzima kada

promenljiva Y | x uzme vrednost 0, a vrednost uzima kada Y | x uzme vrednost

1.

Kako slučajna promenljiva Y | x uzima vrednost 0 sa verovatnoćom , a vrednost

1 sa verovatnoćom , sledi da će i uzeti odgovarajuće vrednosti sa tim

verovatnoćama, tj. .

Dakle, zaista ima binomnu raspodelu sa sredinom nula i varijansom

.

11

Logit funkcija je funkcija definisana za sve realne brojeve na otvorenom

Intervalu i ima sledeći oblik

.

Kako odnos verovatnoće da se događaj realizuje i verovatnoće da se događaj ne realizuje

nazivamo šansa uspeha , vidi se da logit funkcija predstavlja prirodni logaritam šanse

uspeha.

2.1 SLAGANJE LOGISTIČKOG REGRESIONOG MODELA SA PODACIMA

Pretpostavimo da imamo uzorak od n nezavisnih registrovanih vrednosti parova

, gde označava vrednost rezultujuće dihotomne promenljive koja je

kodirana sa 0 i 1, gde 0 predstavlja odsustvo, a 1 prisustvo neke karakteristike.

označava registrovanu vrednost nezavisne promenljive za -ti subjekat.

Da bismo objasnili šta znači pojam „fitovanje modela“, posmatraćemo najednostavniji

logistički regresioni model koji sadrži samo jednu nezavisnu promenljivu, tj.

Fitovanje datog logističkog regresionog modela za neki skup podataka podrazumeva

ocenu vrednosti nepoznatih parametara i .

Vrednosti nepoznatih parametara ćemo oceniti koristeći metodu maksimalne

verodostojnosti. Da bismo, uopšte, mogli koristiti pomenutu metodu, prvo moramo

konstruisati funkciju verodostojnosti.

Ako je zavisna promenljiva tada izraz , za proizvoljnu

vrednost , daje uslovnu verovatnoću i

.

12

Za one parove gde je doprinos funkciji verodostojnosti je , a za one

parove gde je doprinos funkciji verodostojnosti je , gde

označava vrednost funkcije za konkretno .

Dakle, za par doprinos funkciji verodostojnosti je dat sledećim izrazom:

(7)

S obzirom da radimo pod pretpostavkom da su registrovane vrednosti nezavisne, funkcija

verodostojnosti je dobijena kao proizvod izraza (7), tj.

Radi jednostavnosti koristićemo logaritam ove

funkcije, tj. logaritam verodostojnosti:

(8)

Koristeći informacije koje imamo o izgledu logističkog regresionog modela

možemo izračunati i . Ako tome

pridodamo informaciju o izgledu logit funkcije , logaritam

verodostojnosti možemo zapisati na sledeći način:

Ocene parametara tražimo tako da maksimiziraju funkciju verodostojnosti. Da bismo

našli koji maksimizira funkciju diferenciraćemo u odnosu na

i i dobijene jednačine ćemo izjednačiti sa nulom.

13

Ove jednačine su nelinearne po i , pa se rešavaju nekim od iterativnih postupaka.

Vrednost koja se dobije kao rešenje ovih jednačina se naziva ocena

maksimalne verodostojnosti i označava se sa .

Posledica jednakosti (9) je da važi odnosno vidimo da je suma

registrovanih vrednosti za jednaka sumi predviđenih (očekivanih) vrednosti na osnovu

modela.

Dakle, da sumiramo:

Želimo da odredimo očekivanu vrednost za zavisnu promenljivu , za neko

konkretno . Da bismo to mogli izvesti potrebno je da odredimo vrednosti nepoznatih

parametara , do kojih dolazimo metodom maksimalne verodostojnosti. Nakon

određivanja , možemo dobiti i očekivanu vrednost zamenom vrednosti sa

u logističkom regresionom modelu .

14

3. TESTIRANJE ZNAČAJNOSTI KOEFICIJENATA

Nakon ocenjivanja koeficijenata, dalje razmatranje fitovanog modela se uopšteno

odnosi na ocenjivanje značajnosti promenljivih u modelu. Ovo obično uključuje

formulisanje i testiranje statističkih hipoteza za određivanje da li su nezavisne

promenljive u modelu "značajno" povezane sa rezultujućom promenljivom.

Pitanje koje ovde postavljamo je sledeće: Da li nam model koji sadrži

promenljivu, govori više o rezultujućoj promenljivoj nego model koji ne sadrži tu

promenljivu?

Odgovor na ovo pitanje je dobijen upoređivanjem registrovane vrednosti

rezultujuće promenljive sa predviđenom vrednosti pomoću svakog od dva modela; prvi

sa, i drugi bez te promenljive. Ako su predviđene vrednosti na osnovu modela koji sadrži

tu promenljivu bolje, ili tačnije u nekom smislu, nego vrednosti koje su predviđene na

osnovu modela koji ne sadrža tu promenljivu, tada je promenljiva u modelu "značajna".

postavljeno u relativnom smislu.

3.1 TEST KOLIČNIKA VERODOSTOJNOSTI

Poređenje registrovane i predviđene vrednosti dobijene iz modela koji sadrži

nezavisnu promenljivu i modela koji je ne sadrži, je bazirano na logaritmu funkcije

verodostojnosti. Pri tome se smatra da je registrovana vrednost zavisne promenljive ona

predviđena vrednost koja se dobija na osnovu zasićenog modela. Zasićen model je onaj

model koji sadrži toliko mnogo parametara koliko ima podataka. Za poređenje

registrovanih sa predviđenim vrednostima na osnovu modela koristimo funkcije

verodostojnosti:

(11)

Izraz unutar uglastih zagrada u izrazu (10) je količnik verodostojnosti. Korišćenje -2ln

je neophodno zbog dobijanja veličine čija je raspodela poznata i može se koristiti za

15

testiranje hipoteza. Ovaj test je poznat pod nazivom test količnika verodostojnosti.

Koristeći jednakost (8), jednakost (11) postaje:

(12)

gde je i = (xi).

Statistika D, u jednakosti (12) se naziva odstupanje, a poznata je i kao

logaritam test statistika količnika verodostojnosti.

U cilju procenjivanja značajnosti nezavisne promenljive, upoređujemo vrednost D

za model koji sadrži nezavisnu promenljivu i model koji je ne sadrži. Promena u D koja

nastaje zbog uključivanja nezavisne promenljive u model je data sa:

G = D (model bez nezavisne promenljive) – D (model sa nezavisnom promenljivom)

Kako obe vrednosti D imaju isti imenilac (verodostojnost zasićenog modela), G se

može se izraziti kao:

Za specijalan slučaj jedne nezavisne promenljive, lako se pokazuje da kada

promenljiva nije u modelu, ocena maksimalne verodostojnosti za β0 je ln(n1/n0), gde je

n1 = Σyi, i n0 = Σ(1– yi), i predviđena vrednost je konstantna, n1/n.

U tom slučaju, vrednost G je:

16

Ili

Ukoliko je tačna hipoteza da je β1 jednako nuli, statistika G ima hi-kvadrat raspodelu sa

jednim stepenom slobode.

Testiranje hipoteza o vektoru parametara β može se vršiti i korišćenjem dva

statistički ekvivalentna testa : Wald testa ( ) i Score testa.

17

4. INTERPRETACIJA LOGISTIČKOG REGRESIONOG MODELA

Pretpostavićemo da je logistički regresioni model prilagođen podacima, odnosno da je

fitovan i da su promenljive u modelu značajne, tj. da su odgovarajući regresioni

koeficijenti različiti od nule.

Interpretacija fitovanog modela porazumeva izvođenje zaključaka na osnovu ocenjenih

koeficijenata u modelu. Ključno pitanje koje se tu javlje je šta nam, zapravo, ocenjeni

koeficijenti „govore“ o pitanjima zbog kojih je i započeto istraživanje. Prilikom

interpretacije modela posmatraju se dva problema:

1. određivanje funkcionalne veze između zavisne i nezavisne promenljive

2. definisanje odgovarajuće jedinice promene za nezavisnu promenljivu

Funkcionalnu vezu između zavisne i nezavisne promenljive u logističkom regresionom

modelu daje logit funkcija, tj. .

Na dalje ćemo, zbog jednostavnosti, raditi samo sa jednom nezavisnom promenljivom,

odnosno logit funkcija je .

U logističkom regresionom modelu koeficijent nagiba predstavllja promenu u logitu

po jedinici promene nezavisne promenljive, tj. .

Interpretaciju fitovanog logističkog regresionog modela ćemo dati u dva slučaja u

zavisnosti od toga da li je nezavisna promenljiva dihotomna ili neprekidna.

4.1 DIHOTOMNA NEZAVISNA PROMENLJIVA

Slučaj kada je nezavisna promenljiva u logističkom regresionom modelu dihotomna

predstavlja osnovu za druge slučajeve.

Kako je pretpostavka da je nezavisna promenljiva dihotomna, kodirana je sa 0 i 1.

Rečeno je da koeficijent predstavlja stopu promene zavisne promenljive po jedinici

promene nezavisne promenljive, u ovom slučaju će biti:

18

Da bismo mogli interpretirati dobijeni rezultat uvešćemo pojam odnos šansi (odds ratio),

koji daje meru povezanosti nezavisne promenljive sa ishodom od interesa.

Šansa je odnos verovatnoća da se događaj desi prema verovatnoći da se događaj ne desi.

U našem slučaju nezavisna promenljiva je kodirana sa 0 i 1, pa ćemo posebno računati

šanse za oba slučaja.

Šansa da je zavisna promenljiva uzela vrednost 1, kada nezavisna promenljiva uzme

vrednost 1 je .

Kada nezavisna promenljiva uzme vrednost 0, šansa je da je zavisna promenljiva uzela

vrednost 1 je .

Odnos šansi, u oznaci OR, je definisan kao odnos ove dve šanse, tj.

Moguće vrednosti logističke verovatnoće se mogu predstaviti tablicom na sledeći

način:

Rezultujuća promenljiva

(Y)

Nezavisna promenljiva (X)

x = 1 x = 0

y = 1

y = 0

Total 1 1

Tabela 3.

19

Ova tabela opravdava to što se odnos šansi OR još naziva i unakrsni odnos šansi, jer

vidimo da se OR dobija kao odnos unakrsnog proizvoda elemenata na glavnoj dijagonali

date tabele i elemenata na sporednoj dijagonali.

Zamenom izraza iz tabele u OR dobijamo:

Dakle, za logističku regresiju sa dihotomnom nezavisnom promenljivom koja je kodirana

sa 1 i 0 veza između odnosa šansi i regresionog koeficijenta je:

.

Ocenjen odnos šansi dobijamo kada zamenimo sa odnosno

Ova jednostavna veza između koeficijenta i odnosa šansi je osnovni razlog zašto se

logistička regresija pokazala kao moćan analitički alat.

Odnos šansi je mera povezanosti koja ima široku primenu, naročito u epidemiologiji, gde

aproksimira koliko je više verovatno (ili neverovatno) da je ishod prisutan među onima sa

x = 1 nego među onima kod kojih je x = 0.

Na primer, ako Y označava prisustvo ili odsustvo kancera pluća, a X označava da li je

osoba pušač ili ne i recimo da je dobijeno da je . To bi značilo da se kancer pluća

dvostruko verovatnije javlja među pušačima nego među nepušačima u posmatranoj

populaciji.

20

Kao drugi primer, pretpostavimo da Y označava prisustvo ili odsustvo srčanog oboljenja,

a da X označava da li je osoba fizički aktivna ili ne i da je dobijeno da je , to znači

da je upola manje verovatno da se srčano oboljenje javi kod fizički aktivne, nego kod

fizički neaktive osobe u posmatranoj populaciji.

Dakle, iz prethodna dva primera vidimo da odnos šansi OR može imati vrednosti veće i

vrednosti manje od jedan, u zavisnosti šta se postavi kao referentan ishod.

U prvom primeru referentan ishod je pojava kancera kod pušača, a u drugom pojava

srčanog oboljenja kod fizički aktivnih osoba.

Generalno je svejedno kako se posmatra, jer uvek, na osnovu dobijenog odnosa za jedan

ishod , možemo dobiti odnos za drugi ishod uzimanjem recipročne vrednosti.

Tako da, za prvi primer, možemo reći da je upola manje verovatno da nepušač dobije

kancer pluća ili za drugi primer da je dva puta verovatnije da će fizički neaktivna osoba

oboleti od srčanog oboljenja.

Uvešćemo još jedan pojam, a to je relativni rizik, u oznaci RR. Relativni rizik predstavlja

odnos verovatnoća uspeha u okviru dve grupe.

U našem slučaju .

Izraz za odnos šansi se može zapisati na sledeći način:

U mnogim primerima odnos šansi aproksimira relativni rizik. Iz prethodne jednakosti se

jasno vidi da će se to desiti kada , odnosno kada su verovatnoće neuspeha u

obe gurpe približno jednake. To se dešava kada je verovatnoća dovoljno mala bilo

da je ili . U praksi se srećemo sa ovom situacijom kod ispitivanja relativno

retkih bolesti, koje kao takve imaju malu verovatnoću pojave.

Sledeći primer pokazuje šta je to zapravo odnos šansi, relativni rizik i razliku između ova

dva pojma.

21

Dati su podaci u tabeli, koji se odnose na broj preživelih i poginulih putnika na Titanku,

gde je bilo ukupno 1313 putnika, od toga 462 žene i 851 muškarac.

Tabela 4.

Iz same tabele se vidi da je verovatnije da muškarac umre nego žena, pa ćemo smrt

muškaraca uzeti kao referentan ishod, jer ćemo na taj način dobiti vrednost odnosa šansi

veću od jedan. Dakle, odnos šansi će porediti odnose šansi za smrt u okviru svake grupe,

tj. među muškarcima i ženama.

Šanse za smrt kod žena su .

Šanse za smrt kod muškaraca su .

Dakle, odnos šansi je , što znači da su skoro deset puta

veće šanse za smrt muškarca u odnosu na smrt žene.

Relativni rizik poredi verovatnoće za smrt u okviru svake grupe, tj.

Verovatnoća smrti kod muškaraca je , dok je verovatnoća smrt kod žena

. Zamenom ovih vrednosti dobijamo da je relativni rizik

, odnosno postoji 2.5 puta veća verovatnoća za smrt muškarca nego za

smrt žene.

3.2 NEPREKIDNA NEZAVISNA PROMENLJIVA

žene muškarci preživeli 308 142 450poginuli 154 709 863ukupno 462 851 1313

22

Sada ćemo posmatrati logistički regresioni model koji sadrži neprekidnu nezavisnu

promenljivu. U ovom slučaju promena od jedne jedinice nezavisne promenljive najčešće

nije interesantna. Na primer, rast sistolnog krvnog pritiska za 1 mmHg može biti suviše

mali da bismo ga smatrali važnim dok bi recimo rast od 10 jedinica predstavljao

značajniji podatak. Sa druge strane, ako se vrednosti koje nezavisna promenljiva može

uzeti kreću u inervalu od 0 do 1, tada bi promena od jedne jednice bila suviše velika, dok

bi promena od 0.01 jedinice bila realnija.

Dakle, da bismo obezbedili pravilnu interpretaciju modela smatraćemo da se desila

promena od c jedinica. Tada je promena u logitu sledeća:

Sada je odnos šansi dat izrazom . Ocenu za odnos šansi možemo dobti

zamenom sa njegovom ocenom dobijenom metodom maksimalne verodostojnosti

i tada je ocenjena vrednos odnosa šansi .

c može uzeti bilo koju vrednost, pri čemu se mora voditi računa o tome da se na jasan

način ukaže kako se menja rizik da je ishod prisutan sa promenom nezavisne

promenljive.

Na primer, neka zavisna promenljiva predstavlja prisustvo ili odsustvo srčanog oboljenja,

a nezavisna promenljiva predstavlja starost i recimo da je ocenjen logit .

Tada ocenjen odnos šansi ima sledeći oblik .

Ako bismo hteli da vidimo kako povećanje starosti od 10 godina utiče na pojavu srčane

bolesti u prethodnom izrazu c ćemo zameniti sa 10 i dobiti . Dakle, sa

svakim povećanjem starosti od 10 godina rizik za pojavu srčanog oboljenja se povećava

1.46 puta.

Osnovna razlika za ocenu odnosa šansi kod modela sa dihotomnom i modela sa

neprekidnom nezavisnom promenljivom leži upravo u načinu definisanja promene.

4. PROCENA SLAGANJA MODELA SA PODACIMA

23

4.1 UVOD

Počinjemo razmatranje metoda za procenjivanje slaganja ocenjenog logističkog

regresionog modela sa podacima, pretpostavkom da smo zadovoljni našim pokušajima na

nivou građenja modela. Odnosno, podrazumevamo da model sadrži one promenljive koje

treba da su u modelu, tj. koje su značajne i da su promenljive unete u korektnom

funkcionalnom obliku. Sada nas interesuje koliko efikasno naš model opisuje rezultujuću

(ishodnu) promenljivu (tzv. goodness-of-fit).

Neka su registrovane uzoračke vrednosti rezultujuće promenljive prikazane u vektorskom

obliku sa y, gde je y' = (y1, y2, . . . ,yn). Označimo vrednosti koje su predviđene modelom,

ili fitovane vrednosti, sa , gde je ' = ( , , ..., ).

Možemo zaključiti da je model prilagođen podacima ako su:

(1) mere rastojanja između y i male.

(2) doprinos svakog para (yi, ) , i = 1, 2, 3, . . . , n ovim merama je nesistematski,

i mali u odnosu na grešku modela.

Dakle, kompletno procenjivanje fitovanog modela obuhvata kako izračunavanje mera

rastojanja između y i , tako i ispitivanje pojedinačnih komponenti tih mera.

4.2 OSNOVNE MERE ZA GOODNESS OF-FIT

Osnovne mere za goodness-of-fit predstavljaju opšti pokazatelj koliko dobro se model

slaže sa podacima. Ove statistike ne moraju da daju informaciju o pojedinim

komponentama modela. Mala vrednost neke od tih statistika ne uzima u obzir mogućnost

nekih bitnih, tj. interesantnih odstupanja od vrednosti dobijene na osnovu fitovanog

modela za nekoliko subjekata. Sa druge strane, velika vrednost neke od tih statistika

jasno ukazuje na stvarne probleme modela.

Pre razmatranja specifične goodness-of-fit statistike, moramo prvo razmotriti efekat koji

fitovan model ima na stepene slobode koji su dostupni za procenu učinka modela.

Koristićemo izraz covariate pattern za opisivanje odabranog skupa vrednosti za

kovarijate u modelu. Covariate patterns su opservacije sa istim vrednostima za sve

24

nezavisne promenljive. Na primer, ako imamo dve nezavisne promenljive i koje

označavaju pol i rasu redom, pri tome prva promenljiva može uzeti dve vrednosti muški i

ženski, a druga promenljiva bela i crna, tada imamo četiri covariate patterns i to

(muški,bela), (muški,crna), (ženski,bela), (ženski,crna).

Ukoliko bismo imali tri nezavisne promenljive i koje označavaju pol, rasu,

visinu redom i ako bismo posmatrali n subjekata, tada bismo mogli imati najviše n

covariate patterns jer je treća promenljiva neprekidna.

Na primer, ako bismo imali 10 ovakvih subjekata:

(ženski,bela,168),(ženski,bela,169),(ženski,bela,175),(ženski,crna,165), (ženski,crna,166),

(muški,crna,178),(muški,crna,180), (muški,crna,190), (muški,bela,182), (muški,bela,192).

Tada vidimo da svi oni imaju različite vrednosti nezavisnih promenljivih, odnosno

imamo 10 covariate patterns.

A ukoliko posmatramo 10 ovakvih subjekata:



Tada imamo 7 covariate patterns.

Tokom razvijanja modela nije neophodno baviti se brojem covariate patterns. Stepeni

slobode za testove su bazirani na razlici u broju parametara za modele koji se upoređuju,

a ne na broju covariate pattern. Međutim, kada je procenjeno koliko se model slaže sa

podacima, tada sporno pitanje može biti broj covariate pattern.

Goodness-of-fit je procenjen preko grupisanja fitovanih vrednosti određenih pomoću

kovarijati u modelu, a ne ukupnog skupa kovarijati. Na primer, pretpostavimo da naš

fitovan model sadrži p nezavisnih promenljivih, x' = (x1, x2, x3, ..., xp), i neka J označava

broj različitih vrednosti za registrovano x. Ako neki subjekti imaju istu vrednost za x,

tada je J < n.

Označimo broj subjekata za koje je x = xj , sa mj , za j = 1, 2, 3, . . . J. Sledi da je

Σmj = n. Neka je sa yj označen broj pozitivnih odgovora, y = 1, među mj subjekata za

koje važi x = xj.

25

Da bismo bolje objasnili šta koja oznaka predstavlja vratićemo se na primer u kojem smo

posmatrali sledeće subjekte:



U ovom primeru imamo deset subjekata, dakle n =10. Od tih deset, njih sedam ima

različite vrednosti tj. J = 7.

Vidimo da imamo:

dve belkinje visine 168 i one čine jednu grupu tj.

jednu belkinju visine 175, ona čini drugu grupu tj.

dve crnkinje visine 165, one čine treću grupu tj.

dva crnca visine 178, oni čine četvrtu grupu tj.

po jednog crnca visine 190, belca visine 182 i belca visine 192 koji čine, redom,

petu, šestu i sedmu grupu tj.

Raspodela za statistiku goodnes-of-fit se dobija, ako se stavi da je n je dovoljno veliko.

Ako se broj covariate patterns takođe povećava sa n, tada svaka vrednost mj teži da bude

mala. Za distribucione rezultate dobijene pod pretpostavkom da samo n postaje veliko

kažemo da su n-asimptotski. Primer n-asimptotskog ponašanja je prethodni primer, jer

ukoliko posmatramo veliki broj subjekata i njihove visine, skoro je sigurno da ćemo

imati veliki broj različitih vrednosti, s obzirom da je visina neprekidna promenljiva.

Ako fiksiramo broj grupa i povećavamo obim uzorka onda će se povećavati broj

elemenata u svakoj grupi tj. matematički rečeno ako fiksiramo J < n i pustimo n da je

dovoljno veliko, tada svaka vrednost mj takođe teži da postane velika. Za raspodele gde

svako mj postaje veliko, kažemo da su m - asimptotske.

Pretpostavimo da je J ≈ n, kao što očekujemo kad god postoji bar jedna neprekidna

kovarijata u modelu. Ovo je slučaj koji se najčešće javlja u praksi, a takođe i predstavlja

najveći izazov u razvijanju raspodela goodness-of-fit statistike.

4.3 PIRSONOVA HI-KVADRAT STATISTIKA I ODSTUPANJE

26

U logističkoj regresiji postoji nekoliko mogućih načina za procenu razlike između

observirane i fitovane vrednosti. Za isticanje činjenice da su fitovane vrednosti u

logističkoj regresiji izračunate za svaki covariate pattern i da zavise od ocenjene

verovatnoće za taj covariate pattern, označavamo vrednost za j-ti covariate pattern sa

, i važi da je:

,

gde je ocenjen logit.

Počinjemo razmatranjem dve mere rastojanja između registrovane i predviđene

vrednosti na osnovu modela, a to su: Pirsonov rezidual i rezidual odstupanja. Za određen

covariate pattern, Pirsonov rezidual je definisan na sledeći način:

.

Statistika koja je bazirana na ovim rezidualima je Pirsonova hi-kvadrat statistika:

Χ2 = .

Rezidual odstupanja je definisan kao:

Statistika koja je bazirana na rezidualima odstupanja je odstupanje (Deviance).

D = .

27

Pod pretpostavkom da je fitovani model korektan za sve aspekte, statistike X2 i D imaju

hi-kvadrat raspodelu sa J – (p + 1) stepeni slobode. Za odstupanje ovo sledi iz činjenice

da je D test statistika količnika verodostojnosti zasićenog modela sa J parametara u

odnosu na fitovani model sa p + 1 parametara. Slična teorija daje nultu raspodelu za X2.

Problem nastaje kada je J ≈ n, jer je raspodela n-asimptotska, pa se broj parametara

povećava u istom odnosu kao veličina uzorka. Dakle, p-vrednosti, izračunate za ove dve

statistike kada je J ≈ n, a korišćenjem χ2(J – p – 1) raspodele su nekorektne.

Jedan način da se izbegnu navedene smetnje sa raspodelama za X2 i D, kada je J ≈

n je grupisanje podataka na takav način da se koristi m-asimptotska raspodela. Da bi se

razumelo obrazloženje za različite postupke grupisanja, korisno je smatrati X2

Pirsonovom i D kao logaritam verodostojnosti hi-kvadrat statistike koja se dobija iz

tabele 2 × J. Redovi tabele odgovaraju vrednostima rezultujuće promenljive, y = 1, 0, a J

kolona odgovara J mogućim vrednostima covariate patterns. Ocena očekivanih vrednosti

pod pretpostavkom da je logistički model u stvari korektan model za ćelije koje

odgovaraju y = 1 redu i j-toj koloni je mj . Sledi da je ocena očekivanih vrednosti za ćeliju

koja odgovara y = 0 i J-toj koloni mj (1 – ).

Kada su hi-kvadrat testovi izračunati iz tabele kontigencije, p-vrednosti su

korektne pod nultom hipotezom da su ocenjene vrednosti suviše "velike" u svakoj ćeliji.

Mada ovo previše pojednostavljuje situaciju, to je u suštini korektno. U gore opisanoj

tabeli 2 × J, očekivane vrednosti su uvek prilično male jer se broj kolona povećava kako

se n povećava. Da bi se izbegao ovaj problem, možemo smanjiti kolone u fiksiran broj

grupa, g, i tada računati registrovane i očekivane frekvencije. Fiksiranjem broja kolona,

ocenjene očekivane vrednosti postaju veće, sa povećanjem n.

Često se sugeriše da je X2 bolje nego D zato što na D prekomerno utiču vrlo

male frekvencije. Ako su očekivane frekvencije suviše male (to jest manje od 1), obe

aproksimacije su verovatno vrlo slabe. Naročito, ako svaka observacija ima različit

covariate pattern pa je yi nula, ili jedan, ni D, ni X 2 ne daju upotrebljivu meru za fit. Ovo

se može desiti kada su nezavisne promenljive neprekidne. U takvim situacijama najčešće

se koristi Hosmer- Lemeshow pristup.

28

4.4 TABELE KLASIFIKACIJE

Jedan način za sažimanje rezultata fitovanog logističkog regresionog modela je pomoću

tabele klasifikacije, koja je rezulat ukrštanja rezultujuće promenljive sa dihotomnom

promenljivom čije su vrednosti izvedene iz ocenjenih logističkih verovatnoća.

Kreiramo tabelu klasifikacije 2×2 predviđenih vrednosti iz našeg modela za ishodnu

promenljivu nasuprot tačnoj vrednosti ishodne promenljive. Predviđanje zavisi od neke

cut-off verovatnoće c. Pri tome se uzima da je ukoliko je i ukoliko je

. Najčešće korišćena vrednost je .

Senzitivnost testa predstavlja verovatnoću da je predviđena vrednost zavisne promenljive

jedan, ukoliko je, zaista, zavisna promenljiva primila vrednost jedan tj. .

Specifičnost testa je verovatnoća da je predviđena vrednost zavisne promenljive nula,

ako je njena stvarna vrednost nula tj. .

Posmatrajmo sledeću tabelu klasifikacije :

RegistrovanoKlasifikovano GOJAZNOST = 0 GOJAZNOST = 1 UkupnoGOJAZNOST = 0 530 250 780GOJAZNOST = 1 385 939 1324Ukupno 915 1189 2104

Tabela 5.

Iz tabele se vidi da je ukupno posmatrano 2104 osobe, od kojih je 1189 gojazno.

Od 1189 gojaznih dobro smo klasifikovali njih 939, dok je njih 250 pogrešno

klasifikovano. Od 915 negojaznih osoba 530 je dobro klasifikovano, dok je 385 osoba

pogrešno klasifikovano.

Senzitivnost testa je:

29

Specifičnost testa je :

Dakle, tačno smo klasifikovali 78.97% osoba koje su gojazne i 57.92% osoba koje su

negojazne pa je ukupna stopa tačne klasifikacije .

250 gojaznih osoba je klasifikovano kao negojazno tj. , dok je 385 osoba

koje nisu gojazne klasifikovano kao gojazno tj. .

Dakle, ukupno je pogrešno klasifikovano posmatranih osoba.

Klasifikacija je osetljiva na relativnu veličinu dve komponentne grupe i uvek favorizuje

klasifikaciju u veće grupe. Važan razlog zašto mere izvedene iz tabele klasifikacije 2 × 2

(kao što su senzitivnost i specifičnost) ne bismo trebali koristiti za procenu koliko je

model dobar, je taj da one veoma zavise od raspodele verovatnoća u uzorku Zbog

razmatranja koje sledi treba da razumemo smisao verovatnoće, a to je da se od n

subjekata koji imaju istu verovatnoću ishoda koji nas interesuje ( ),očekuje se da će broj

onih koji će imati ishod od interesa biti n , a broj onih za za koje se očekuje da neće

imati ishod od interesa je n(1– ). Pretpostavimo da je korišćen cutpoint 0.50 u cilju

klasifikacije i pretpostavimo da je 100 subjekata imalo verovatnoću = 0.51. Za sve ove

subjekte je predviđeno da će imati rezultat koji se posmatra, ali pretpostavljajući da je

model dobro podešen, 51 subjekat bi trebalo da zaista ima ishod od interesa, dok se za

njih 49 treba očekivati da neće imati ishod od interesa. Dakle, 49 od 100 pacijenata je

pogrešno klasifikovano.

Ne mogu se upoređivati modeli na bazi mera izvedenih iz tabele klasifikacije 2×2, jer ove

mere ne možemo posmatrati nezavisno od raspodela verovatnoća u uzorcima na kojima

su bazirani. Isti model procenjen u dve populacije, korišćenjem mera senzitivnosti ili

specifičnosti bi mogao da da vrlo različite utiske o njegovom učinku.

Ukratko, tabela klasifikacije je najprikladnija kada je klasifikacija postavljena kao cilj

analize, inače bi trebala da bude samo dopuna mnogo strožijim metodama procene

slaganja modela sa podacima.

30

4.5 ROC KRIVA

Kao što smo rekli na osnovu ocena i dobijaju se ocene za

verovatnoće , . Dalje se, na osnovu ovih ocena mogu dobiti i ocene

za vrednosti zavisne promenljive , , na sledeći način.: odabere se nivo

verovatnoće , koji se naziva cutpoint, pa ako je uzima se da je , a u

suprotnom za svako . Na taj način se subjekti u istraživanju klasifikuju

u dve grupe: oni koji prema modelu imaju osobinu ili ne. To znači da odluka da li neki

subjekat ima osobinu koja se posmatra ili ne zavisi od procene verovatnoće dobijene

modelom. Visinu nivoa verovatnoće, cutpoint, bira sam istraživač. Ovakav način

odlučivanja, klasifikovanja subjekata, često se naziva test.

Nameće se pitanje koliko je takav test dobar, koliko se slaže sa stvarnom

situacijom, tj. koliko dobro predviđa postojanje posmatrane osobine kod svakog

pojedinog subjekta, odnosno koliko dobro razdvaja posmatranu populaciju. Kvalitet testa

se meri njegovom senzitivnošću – verovatnoćom tačno predviđenog prisustva osobine, i

negovom specifičnošću - verovatnoćom tačno predviđenog odsustva osobine

Kada se senzitivnost i specifičnost testa izračunaju za čitav niz nivoa

verovatnoće, cutpoints, moguće je konstruisati ROC krivu (Receiver Operating

Characteristic Curve) koja povezuje senzitivnost (verovatnoću tačnog detektovanja

prisustva osobine) i 1– specifičnost, (verovatnoću netačnog detektovanja prisustva

osobine).

ROC kriva je prvi put korišćena tokom II svetskog rata za analizu radio signala

pre nego što je primenjena u teoriji detektovanja signala. Prateći napad na Perl Harbur

1941, armija USA je počela novo istraživanje da poveća tačno predviđanje detektovanog

japanskog aviona korišćenjem njihovih radio signala.

1950. godine ROC kriva je primenjena u psihofizici da proceni ljudsku (i

povremeno životinjsku) detekciju slabih signala. U medicini se koristi u dijagnostičkom

testiranju za evaluaciju efikasnosti novog leka ili dijagnostičke metode nasuprot već

priznatoj, postojećoj.. U radiologiji, ROC analiza je opšta tehnika za evaluaciju novih

radioloških tehnika.

31

Često, klinički istraživač se sreće sa pitanjem koliko je određeni laboratorijski test

precizan u identifikovanju obolelih slučajeva. Sposobnost testa da razdvoji obolele

slučajve od normalnih slučajeva je procenjena korišćenjem ROC krive. Kada razmatramo

rezultate određenog testa u dve populacije, jednu populaciju sa oboljenjem, i drugu bez

oboljenja, retko ćemo dobiti perfektno razdvajanje između ove dve grupe. Umesto toga

raspodela rezultata testa će se preklapati, kao što je prikazano na slici 4.

Slika 4.

Za svaku moguću tačku cut-off, ili kritičnu vrednost koju smo izabrali da

razdvaja dve populacije, postojaće neki slučajevi sa oboljenjem koji su korektno

klasifikovani kao pozitivni, (TP = true positive fraction), ali će neki slučajevi sa

oboljenjem biti klasifikovani kao negativni, to jest lažno negativni (FN = false negative

fraction). Sa druge strane, neki slučajevi bez oboljenja će biti korektno klasifikovani kao

negativni (TN = True Negative fraction), dok će neki slučajevi bez oboljenja biti

klasifikovani kao pozitivni, tj. lažno pozitivni (FP = False Positive fraction), što je

prikazano u tabeli 6.

Test Oboljenje UkupnoPrisutno OdsutnoPozitivan Tačno pozitivni (TP) a Lažno pozitivni (FP) c a+cNegativan Lažno negativni (FN) b Tačno negativni (TN) d b+dUkupno a+b c+d a+b+c+d

Tabela 6.

32

Prepostavimo da imao model za ocenjivanje verovatnoće da je osoba gojazna i da

nas interesuje predviđanje ishoda za svaku osobu. Pravilo koje je prikazano u Tabeli 5,

predviđa da će će osoba biti gojazna, ako je P(y = 1) ≥ 0.50, odnosno normalno uhranjena

ako je P(y = 0) < 0.50. Postoje neke statistički dobre osobine povezane sa korišćenjem

0.5, ali bi trebali razmatrati i šta se dešava kada koristimo druge vrednosti za cutpoints.

0

10

20

30

40

50

60

70

80

90

100

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

cutpoints

Senzitivnost (%)Specifičnost (%)

Slika 5. Senzitivnost i specifičnost modela za sve moguće cutpoints

Ako je naš cilj izbor optimalnog cutpoint, a u cilju klasifikacije, mogli bismo

izabrati onaj za koji je maksimalna i senzitivnost i specifičnost. Na slici 5 prikazan je

primer optimalanog izbora, za cutpoint = 0.6, gde se krive senzitivnosti i specifičnosti

seku.

Klasifikovano Registrovano UkupnoGOJAZNOST

= 0GOJAZNOST =

1GOJAZNOST = 0 730 539 1269GOJAZNOST = 1 339 976 1315Ukupno 1069 1515 2584

Tabela 7. Klasifikaciona tabela korišćenjem cutpoint 0.6

33

Senzitivnost = 976/1515 = 64.4%; Specifičnost = 730/1069 = 68.3%

Rezultati korišćenja cutpoint 0.6 su prikazani u Tabeli 7, ali ovo se može uraditi za bilo

koji mogući izbor cutpoint. Tabela 8 sumira rezultate biranja svih mogućih cutpoint

između 0.05 i 0.95 sa priraštajem od 0.05.

Cutpoint Senzitivnost (%)

Specifičnost (%)

1 – Specifičnost (%)

0.05 100.0 0.0 100.00.10 100.0 0.0 100.00.15 99.9 1.0 99.00.20 99.8 3.9 96.10.25 98.9 9.4 90.60.30 97.4 16.6 83.40.35 95.5 22.0 78.00.40 93.3 30.0 70.00.45 88.6 39.9 60.10.50 82.7 52.1 47.90.55 73.7 61.0 39.00.60 64.4 68.3 31.70.65 51.9 75.1 24.90.70 40.3 81.4 18.60.75 27.7 87.4 12.60.8 15.3 92.9 7.10.85 6.2 97 3.00.90 0.5 99.4 0.60.95 0 100 0.0

Tabela 8. Senzitivnost, specifičnost, i 1 – specifičnost za tabelu klasifikacije baziranu

na logističkom regresionom modelu korišćenjem cutpoint od 0.05 do 0.95 sa priraštajem

od 0.05

Grafikon sezitivnosti u odnosu na 1 – specifičnost za sve moguće cutpoints je prikazan na

slici 6. Kriva koja je generisana pomoću svih tih tačaka je ROC kriva i površina ispod

ove krive daje meru razdvajanja koja je, u našem slučaju verovatnoća da će osobe koje su

gojazne imati veću ocenjenu verovatnoću (P(y =1)) nego oni koji nisu gojazni.

34

Slika 6. Primer ROC krive

Površina ispod ROC krive, koja se kreće od nule do jedan, je mera sposobnosti

modela u razdvajanju subjekata koji su iskusili događaj koji se posmatra u odnosu na one

koji nisu. Površina ispod ROC krive, u oznaci AUC (The Area Under the Curve), takođe

označena i kao indeks accuracy (A), ili indeks konkordancije, c (concordance index) je

prihvaćena tradicionalna izvedena mera za ROC krivu.

Kao opšte pravilo, koristimo sledeće:

Ako je AUC = 0.5 nema diskriminacije

Ako je 0.5 ≤ AUC < 0.7 loše razdvajanje

Ako je 0.7 ≤ AUC < 0.8 prihvatljivo razdvajanje

Ako je 0.8 ≤ AUC < 0.9 odlično razdvajanje

Ako je AUC ≥ 0.9 izvanredno razdvajanje.

35

5. ZAKLJUČAK

Iako je logistička kriva često kritikovana, u smislu da je primenjivana na sisteme

gde nije odgovarajuća, ona se pokazala korisnom u modeliranju širokog opsega pojava.

Značaj logističke raspodele je ostavio traga u mnogim oblastima ljudskih

nastojanja. Verhulst je 1845. godine koristio u ekonomskim i demografskim

istraživanjima

Mnogi postupci u biologiji i drugim poljima koriste S-krivu rasta. Biološka

funkcija rasta po kojoj se obnavlja brojnost populacije riba, ptica, pa čak i količine vode u

podzemnim rezervoarima odgovara tzv. logističkoj funkciji rasta. Logistički model rasta

je prvi primenio u analizi ribarstva Schaffer (1957). U biologiji, logistička funkcija

opisuje populacioni rast u ograničenom okruženju, kao što je bakterija u petrievoj šolji.

Ima primenu u populacionom rastu vrsta koje rastu tako da su blizu zasićenja njegovih

ekosistema. Kingsland je dao kroz istoriju primene logističke krive u populacionoj

ekologiji, njene uspehe i neuspehe.

Logističke funkcije su dobar model u marketingu, gde prikazuju prodaju novih

proizvoda u tokom vremena, mogu da opisuju krive potražnje: opadanje potražnje za

proizvodom kao funkcija povećanja cene.

Wofford i drugi su proučavali kontinuirano nasilje u porodici, u nacionalnom

uzorku mladih oba pola, starosti od 18 do 27 godina . Dvadeset šest prediktora, baziranih

na podacima iz literature o nasilju u domaćinstvu su uklučene u ovu analizu. Kao deo

studije, ispitanici koji su saopštili da su žrtve ili izvršioci nasilja u porodici 1984. su

ponovo intervjuisani 1987.godine da bi se utvrdilo da li nasilje u porodici nastavilo ili je

prekinuto od momenta prvog intervjuisanja 1984. godine.

Logistička kriva je igrala značajnu ulogu i u sociološkim istraživanjima, na primer

u teoriji transformacije George Land, koji je koristio koncept S-krive za procenu

pogodnog zanimanja u različitim fazama tehnološkog razvoja. White, Pearson, Wilson su

ispitivali ostvarenje proizvodne prakse u datom momentu, korišćenjem logističkih

regresionih modela.

Logistička kriva, ili tzv. S kriva ima izuzetno široku primenu u prognoziranju

broja korisnika telekomunikacionih servisa. Posebno dobri rezultati se postižu u

36

http://en.wikipedia.org/wiki/Transformation_theory

prognoziranju glavnih telefonskih priključaka (GTP). U prvoj fazi uvođenja servisa

zahtevi rastu sporo, u drugoj fazi kada je servis prihvaćen na tržištu, dolazi do rapidnog

rasta broja zahteva. U trećoj fazi dolazi do zasićenja tržišta (broj zahteva ili uopšte ne

raste ili raste vrlo sporo). Gustina zasićenja se procenjuje posebno i obično se razlikuje za

svaku zemlju ili pojedine njene delove.

37

1zlc/fajlovi/logisticka... · web viewkada su regresioni koeficijenti pozitivni tada nezavisne...

Documents