segmentirana regresija sa primenom - · pdf file4.1 test količnika verodostojnosti ... ovakva...
TRANSCRIPT
UNIVERZITET U NOVOM SADU
PRIRODNO-MATEMATIKI FAKULTET
DEPARTMAN ZA MATEMATIKU I INFORMATIKU
Suzana Vidi
SEGMENTIRANA REGRESIJA SA
PRIMENOM
- master rad -
Mentor:
prof. dr Zorana Luanin
Novi Sad, 2014.
i
Sadraj
Predgovor...................................................................................................................................... iii
1 Uvod ............................................................................................................................................ 1
2 Regresiona analiza ..................................................................................................................... 3
2.1 Linearna regresija .................................................................................................................. 3
2.2 Segmentirana regresija ........................................................................................................ 10
3 Ocenjivanje parametara segmentirane regresije .................................................................. 14
3.1 Metoda maksimalne verodostojnosti ................................................................................... 14
3.2 Viestruka taka promene ................................................................................................... 19
3.3 Testiranje hipoteze .............................................................................................................. 21
3.3.1 Fierov (Fisher) test ...................................................................................................... 22
3.3.2 Dejvisov (Davies) test .................................................................................................. 24
4 Detektovanje take promene ................................................................................................... 26
4.1 Test kolinika verodostojnosti (Q-test) ............................................................................... 27
4.2 varcov informacioni kriterijum ......................................................................................... 29
4.3 EL (empirical likelihood) metod ......................................................................................... 32
5 Asimptotsko ponaanje ............................................................................................................ 36
5.1 Konzistentnost i red konvergencije ..................................................................................... 39
5.2 Asimptotska raspodela ........................................................................................................ 45
6 Uspenost procenjivanja modela ............................................................................................ 49
6.1 Koeficijent determinacije .................................................................................................... 49
6.2 Otkrivanje uticajnih podataka ............................................................................................. 51
ii
7 Primena segmentirane regresije ............................................................................................. 52
7.1 Pojava Daunovog sindroma kod novoroenadi ................................................................. 53
7.2 Metaboliki procesi ............................................................................................................. 58
Zakljuak ..................................................................................................................................... 62
Dodatak ........................................................................................................................................ 63
Literatura..................................................................................................................................... 66
iii
Predgovor
Tema ovog master rada je iz oblasti ekonometrije. Ekonometrija kao nauka je veoma
znaajna, zbog toga to nalazi iroku primenu u stvarnom ivotu. To je relativno mlada nauka,
nastala 30-ih godina dvadesetog veka. Ekonometrija na specifian nain povezuje ekonomiju,
matematiku, statistiku i stvarne podatke.
Regresiona analiza je jedna od najee korienih alata u ekonometrijskom radu kako bi
se opisale veze meu pojavama. esto u regresionim modelima se pretpostavlja da regresiona
funkcija ima jedan parametarski oblik tokom celog domena nezavisne promenljive. Meutim, u
mnogim problemima je neophodno uzeti u obzir regresione modele koji imaju razliite analitike
forme u razliitim segmentima domena nezavisne promenljive. Vaan specijalan sluaj je
segmentirana regresija u kojoj je svaki segment regresione funkcije razliita funkcija. Jedna
klasa segmentiranog modela sastoji se od funkcija gde je svaki segment u formi linearnog
modela.
Tema ovog rada se odnosi upravo na ovaj regresioni model, model segmetirane
regresije. Model segmentirane regresije sa dva segmenta prvi je prouavao Kvant 1958. godine.
Vremenom sve vei broj naunika prouava ovaj model kako bi se poveala njegova efikasnost i
uinkovitost. Fokus ovog master rada je na primeni ovog modela na podatke dobijene prilikom
medicinskih istraivanja.
***
Ovom prilikom elela bih da se zahvalim svim profesorima i asistentima, sa kojima sam
saraivala tokom osnovnih i master akademskih studija.
Posebno bih se zahvalila svom profesoru i mentoru, dr Zorani Luanin, na svim
sugestijama i strunom usmeravanju pri izradi ovog master rada, kao i na veoma zanimljivim
predavanjima i prenetom znanju tokom studiranja.
Takoe, zahvalila bih se lanovima komisije, dr Andreji Tepavevi i dr Dori Selei.
Veliku zahvalnost dugujem svojoj porodici, posebno majci Svetlani, za podrku i
razumevanje tokom celokupnog kolovanja.
Suzana Vidi
Master rad Segmentirana regresija sa primenom
1
1 Uvod
U zdravstvenim ustanovama se prikupljaju velike koliine podataka, smetenih u
istorijama bolesti, praenih dugi niz godina. Na ovakav nain uskladiteni podaci teko mogu
posluiti za predvianje ishoda bolesti ili ishoda leenja novih pacijenata. Kao kvalitetan i
savremen nain prikupljanja, analize podataka i interpretacije rezultata, nudi se primena
savremenih analitiko-statistikih metoda u svakodnevnom radu. Na osnovu istih mogu se
saznati uzrono-posledine veze, slinosti, razlike i zakonitosti, predikcija ishoda bolesti i
planiranje adekvatnog tretmana, a samim tim i mogunost pruanja kvalitetnijih usluga.
Kada se analizira uestalost pojave raka i stope smrtnosti, zdravstveni i medicinski
istraivai su posebno zainteresovani da znaju da li je bilo promena u trendu tokom vremena, i
ako je dolo do promena kada se to desilo. Ovakva pitanja igraju vanu ulogu u merenju
napretka u borbi protiv raka i uticaja intervencije na ishod bolesti. U statistikim terminima,
promena u trendu se moe definisati kao promena nagiba u regresiji. Segmentirana regresija se
moe smatrati kao veoma znaajan metod analize trendova i detektovanja take promene.
Model segmentirane regresije je model regresije, gde je veza izmeu zavisne i jedne ili
vie nezavisnih promenljivih linearna po delovima, sa takom promene. Drugim reima,
zavisnost moe biti predstavljena sa dve ili vie pravih linija pridruenih odgovarajuim
segmentima. U epidemolokim studijama, na primer, model segmentirane regresije se moe
koristiti kao prag model, gde se pretpostavlja da intervencija proizvodi efekat na zdravstveno
stanje samo nakon prelaska nekog (esto nepoznatog) praga. U medicini, na primer, moe da se
koristi za procenu efekata terapije. Pravilno upravljanje interakcijom lekova moe da sprei
neeljene dogaaje, a uspeh intervencije na osnovu promene u stopama kritinih interakcija
lekova se statistiki procenjuje upotrebom segmentirane regresije.
Na poetku rada ukratko definiemo okvir razmatranja koja slede. U drugom poglavlju su
predstavljeni osnovni pojmovi vezani za linearnu regresiju i formulisan je model segmentirane
regresije. U treem poglavlju, sledi teorija ocena, gde je prikazano ocenjivanje parametara i
testiranje hipoteza. Detaljno je objanjen metod maksimalne verodostojnosti za ocenjivanje
parametara, kao i testovi za postojanje take promene, Fierov, Studentov i Dejvisov test. U
etvrtom poglavlju su navedeni testovi koji detektuju taku promene. To su test kolinika
verodostojnosti, zatim varcov informacioni kriterijum i neparametarski EL (empirical
Master rad Segmentirana regresija sa primenom
2
likelihood) metod. U petom poglavlju, govori se o asimptotskom ponaanju parametara, tanije o
konzistentnosti, konvergenciji i asimptotskoj raspodeli. U estom poglavlju definie se
koeficijent determinacije koji slui za procenu uspenosti ocenjivanja modela. Ovo poglavlje
razmatra i uticaj autlajera. Poslednje poglavlje je posveeno primeni modela segmentirane
regresije. Navedeno je nekoliko primera, a detaljno su predstavljena dva primera sa stvarnim
podacima. Podaci su obraivani upotrebom softverskog programa R. U dodatku su prikazani
podaci korieni za kompjutersko izraunavanje kod primene modela.
Ma