korelacija i regresija - Универзитет у Београду ... · · 2013-11-22negativna...
TRANSCRIPT
Katedra za medicinsku
statistiku i informatiku ∑
Korelacija i regresija
• Regresijom i korelacijom analizira se povezanost (zavisnost, asocijacija, odnos) dve ili više varijabli
• Slučajno promenljive veličine su povezane ako su promene u jednoj veličini praćene promenama druge veličine
• Korelacija podrazumeva analizu jačine i smera povezanosti
• Regresija (regresioni model), osim analize jačine i smera, podrazumeva analizu oblika povezanosti, kao i analizu u smislu nezavisnih/zavisnih (prediktor/ishod). Regresioni model omogućava predikciju vrednosti zavisne varijable na osnovu poznavanja vrednosti nezavisnih varijabli.
• kad god postoji značajna korelacije između dve varijable može se vrednost jedne varijable iskoristiti za predikciju vrednosti druge varijable
Katedra za medicinsku
statistiku i informatiku ∑
Karakteristike povezanosti
• Smer
Pozitivan (+)
Negativan (-)
• Stepen/ jačina povezanosti
Između –1 i 1
Apsolutna vrednost označava jačinu
• Oblik povezanosti
Linearan
Nelinearan
• Zavisno od broja varijabli: • Jednostruka (prosta) povezanost
• Višestruka (multipla) povezanost
• Za sva obeležja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posedovati podatke sa istih statističkih jedinica
Katedra za medicinsku
statistiku i informatiku ∑
Dijagram rasturanja
• Eksploracija odnosa
izmedju dve kontinuirane varijable vrši se grafičkim prikazom –(dijagram rasipanja /"scatter plot") parova vrednosti dve kontinuirane varijable
• Iz grafičkog prikaza moguće je sagledati sve tri karakteristike povezanosti:
1. Smer povezanosti: pozitivan - negativan
2. Jačina povezanosti
3. Oblik povezanosti: linearan - nelinearan
Katedra za medicinsku
statistiku i informatiku ∑
Dijagram rasturanja
Pozitivna linearna povezanost
(r = 0.65)
Negativna linearna povezanost (r = -0,68)
Nema povezanosti
(r = 0.00)
Krivolinijska povezanost
Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice. Dijagram rasturanja sugeriše oblik odnosa dve varijable. Linearni odnos dve varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mera bliskosti tačaka i prave linije
Katedra za medicinsku
statistiku i informatiku ∑
Pearsonov koeficijent linearne korelacije
SDxy – kovarijansa, SDx i SDy – standardne devijacije varijabli x i y
Testiranje hipoteze o povezanosti dve varijable: H0: r = 0, H1: r 0 Nulta hipoteza r = 0 testira se t-testom:
za broj stepena slobode DF = n – 2
yx
xy
SDSD
SDr
yxn
xySDxy
2
2
xn
xSDx
2
2
yn
ySDy
21
2
r
nrt
Katedra za medicinsku
statistiku i informatiku ∑
Osobine Pearsonovog koeficijenta linearne korelacije
• Bezdimenzionalna veličina tj. nema jedinicu mere.
• Vrednosti koeficijenta linearne korelacije kreću se u opsegu od –1 do 1.
• U procesu izračunavanja varijable označene kao x i y mogu zameniti mesta bez uticaja na konačnu vrednost koeficijenta korelacije.
• Smer povezanosti:
• Vrednosti od 0 do 1 ukazuju na pozitivnu povezanost. Porast jedne varijable praćen je porastom druge varijable.
• Vrednosti od –1 do 0 ukazuju na negativnu povezanost. Porast jedne varijable praćen je padom druge varijable.
• r2 – koeficijent determinacije. Predstavlja proporciju zajedničkog varijabiliteta dve varijable.
Katedra za medicinsku
statistiku i informatiku ∑
Koeficijent korelacije 0.70 Jaka povezanost 0.30 – 0.69 Osrednja povezanost <0.30 Slaba povezanost Oko 0.0 Nema linearne povezanosti (ne isključuje postojanje nelinearnog oblika povezanosti) Jačina povezanosti (interpretacija je ista i za negativne vrednosti koeficijenta korelacije)
Interpretacija Pearsonovog koeficijenta linearne korelacije
Katedra za medicinsku
statistiku i informatiku ∑
Primer: Za dvanaest ispitanika muškog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina.
ID Starost Sistolna TA
1 39 125
2 59 165
3 71 170
4 75 150
5 73 185
6 55 155
7 51 180
8 70 160
9 41 145
10 45 140
11 63 135
12 35 130
Dijagram rasturanja starosti i
sistolne tenzije
80
100
120
140
160
180
200
30 40 50 60 70 80
Starost (godine)
Sis
toln
a T
A (
mm
Hg
)
Katedra za medicinsku
statistiku i informatiku ∑
x y x2 y2 x∙y
39 125 1521 15625 4875
59 165 3481 27225 9735
71 170 5041 28900 12070
75 150 5625 22500 11250
73 185 5329 34225 13505
55 155 3025 24025 8525
51 180 2601 32400 9180
70 160 4900 25600 11200
41 145 1681 21025 5945
45 140 2025 19600 6300
63 135 3969 18225 8505
35 130 1225 16900 4550
677 1840 40423 286250 105640
4.5612
677
n
xx 3.153
12
1840
n
yy
Katedra za medicinsku
statistiku i informatiku ∑
Postoji statistički značajna pozitivna osrednja povezanost starosti i sistolne TA (r = 0.605, t = 2.4, DF =10, p 0.05). Koeficijent determinacije = 0.366
6.134.5612
40423 22
2
xn
xSDx
5.183.15312
286250 22
2
yn
ySDy
78.1523.1534.5612
105640
yx
n
xySDxy
605.05.186.13
78.152
yx
xy
SDSD
SDr
404.2605.01
212605.0
2
t
Katedra za medicinsku
statistiku i informatiku ∑
Model jednostruke (proste)
linearne regresije • Obavezno je jedna varijabla
nezavisna (eksplanatorna, prediktorska, X) a druga zavisna (odgovor, ishod, Y)
• Regresiona analiza se može upotrebiti kada je nezavisna varijabla povezana sa zavisnom varijablom.
• Zavisna varijabla mora biti numerička kontinuirana.
• Nezavisna varijabla može biti numerička ili kategorijalna.
• kategorijalne varijable moraju biti kodirane kao “dummy” varijable
Katedra za medicinsku
statistiku i informatiku ∑
Regresiona jednačina
bxay ˆ– očekivana vrednost zavisne (ishodne) varijable
– nezavisna varijabla, eksplanator, prediktor
– odsečak na ordinati (konstanta). Odgovara prosečnoj ocenjenoj vrednosti zavisne varijable kada je vrednost nezavisne varijable jednaka nuli.
– nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable. a, b – regresioni koeficijenti
y
x
a
b
Rezultat regresione analize je regresiona jednačina koja daje najbolju predikciju zavisne varijable na osnovu jedne ili više nezavisnih varijabli
Katedra za medicinsku
statistiku i informatiku ∑
Metod najmanjih kvadrata
a, b su određeni metodom najmanjih kvadrata na taj način da je suma kvadrata vertikalnih odsupanja tačaka od linije regresije najmanja
x
y
Katedra za medicinsku
statistiku i informatiku ∑
Ocena nagiba u regresionom modelu:
Ocena konstante u regresionom modelu:
2
x
xy
SD
SDb
xbya
Ocena regresionih koeficijenata
Regresiona jednačina:
bxay
Katedra za medicinsku
statistiku i informatiku ∑
Pretpostavke za primenu
regresionog modela • Odnos varijabli mora
biti linearan
• Numerički podaci
• Opservacije su nezavisne (jedna opservacija po jedinici analize)
• Raspodela skorova Y varijable bi trebala da bude normalna za sve vrednosti X varijable
• Varijabilitet skorova Y varijable bi trebao da bude konstantan za sve vrednosti X varijable
Katedra za medicinsku
statistiku i informatiku ∑
Evaluacija regresionog modela
• ispitivanje značajnosti
ocenjenih regresionih parametara vrši se:
– F-testom ukupnog slaganja ili
– t-testovima pojedinačnih parametara
• Hipoteza koje se testira u
H0: β1 = 0
Ha: β1 ≠ 0
Analiza varijanse
• Totalni varijabilitet zavisne (Y) varijable je podeljen na komponente:
• Varijabilitet objašnjen regresijom
• Rezidualni (neobjašnjeni) varijabilitet
Katedra za medicinsku
statistiku i informatiku ∑
Evaluacija regresionog modela
• R2 – Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom • Kvadrat Pirsonovog
koeficijenta linearne korelacije
• 0 ≤ r2 ≤ 1
• Statistička deskriptivna mera uspešnosti modela regresije u objašnjavanju ishoda / zavisne varijable.
• Standardna greška ocene ili standardna greška reziduala (SEyx) je mera varijabiliteta oko regresione linije. SEyx je apsolutni pokazatelj reprezentativnosti regresionog modela. Mala vrednost SEyx je indikacija dobrog slaganja regresione linije sa podacima.
Katedra za medicinsku
statistiku i informatiku ∑
Predikcija pomoću regresionog modela –
interpolacija i ekstrapolacija
• Interpolacija – predviđanje unutar opsega varijable x
• Ekstrapolacija – predviđanje van opsega varijable x
• Položaj regresione linije može se odrediti izračunavanjem vrednosti zavisne varijable za dve proizvoljno uzete vrednosti nezavisne varijable
Katedra za medicinsku
statistiku i informatiku ∑
Ocena nagiba u regresionom modelu:
Ocena konstante u regresionom modelu:
823.074.185
78.1522
x
xy
SD
SDb
93.10642.56823.03.153 xbya
Ocena regresionih koeficijenata
Regresiona jednačina:
xbxay 823.093.106
Katedra za medicinsku
statistiku i informatiku ∑
Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:
3.17077823.093.106 bxay
80
100
120
140
160
180
200
30 40 50 60 70 80
Starost (godine)
Sis
toln
a T
A (
mm
Hg
)
Katedra za medicinsku
statistiku i informatiku ∑
Druge mere povezanosti
• Spearman (rs) –
Koeficijent korelacije ordinalih podataka. Neparametarski koeficijent korelacije.
• Point-biserijalni koeficijent korelacije – Korelacija numerički kontinuiranih podataka i dihotomnih podataka.
• Biserijalni koeficijent korelacije – Korelacija numerički kontinuiranih podataka i dihotomnih podataka koji potiču od kontinuirane varijable kategorisanih u dva nivoa.
• Phi koeficijent – Mera povezanosti kada su podaci obe varijable dihotomni.
Katedra za medicinsku
statistiku i informatiku ∑
Spearmanov koeficijent korelacije
rangova • Neparametarski metod za ocenu jačine
povezanosti koji se primenjuje kada:
• su podaci za najmanje jednu varijablu dati u vidu ordinalnih podataka ili rangova
• najmanje jedna varijabla nema normalnu raspodelu
• odnos između varijabli nije linearan
Katedra za medicinsku
statistiku i informatiku ∑
•Dodeliti rang vrednostima jedne varijable vodeći računa da rangiranje počne od najmanjeg do najvećeg podatka u rastućem nizu ili obrnuto. Podacima sa istim vrednostima obeležja dodeljuje se tzv. vezani rang (prosečna vrednost rangova koji pripadaju tim podacima) •Isto to učiniti i sa drugom varijablom •Izračunati vrednosti koeficijenta korelacije rangova pomoću formule:
Izračunavanje Spearmanovog koeficijenta korelacije rangova
16
12
2
nn
dr
i
S
d – razlika rangova, n – broj jedinica analize
Katedra za medicinsku
statistiku i informatiku ∑
Spearmanov koeficijent korelacije rangova
Testiranje hipoteze o povezanosti dve varijable: H0: = 0, H1: 0 Ako je broj jedinica analize 10 nulta hipotezu se testira t-testom za broj stepena slobode DF = n – 2:
21
2
S
Sr
nrt
Ako je broj jedinica analize < 10, empirijske vrednosti testa se upoređuju sa kritičnim tabličnim vrednostima za odgovarajući broj parova podataka i nivo značajnosti
Katedra za medicinsku
statistiku i informatiku ∑
Primer: Za deset bolesnika date su skorovi na Hamiltonovoj skali depresivnosti i vrednosti sistolne arterijske tenzije. Da li postoji povezanost depresije i sistolne arterijske tenzije? Testirati za nivo značajnosti 0.05.
HAMD skor
Rx Sistolna TA (kPa)
Ry d2
23 7 18.5 10 9.00
19 3 14.5 2 1.00
26 9.5 15.0 3 42.25
23 7 17.0 8 1.00
19 3 16.5 6.5 12.25
17 1 14.0 1 0.00
23 7 15.5 4 9.00
26 9.5 18.0 9 0.25
20 5 16.0 5 0.00
19 3 16.5 6.5 12.25
87.00
Katedra za medicinsku
statistiku i informatiku ∑
473.0
11010
0.8761
1
61
22
2
nn
dr
i
S
518.1473.01
210473.0
1
222
S
Sr
nrt
Vrednost koeficijenta korelacije rangova je:
Testiranje nulte hipoteze t-testom:
Ne postoji statistički značajna povezanost skorova na HAMD i sistolne TA (rS = 0.473, t = 1.52, DF =8, p > 0.05).
Katedra za medicinsku
statistiku i informatiku ∑
Multipla regresija
• često moramo pretpostaviti postojanje više od jedne nezavisne varijable
• Regresiona analiza koja uključuje dve ili više nezavisnih varijabli kao prediktore vrednosti zavisne (ishodne) varijable.
• zavisna varijabla kontinuirana
• nezavisne varijable u modelu mogu biti kontinuirane ili kategorijalne
Katedra za medicinsku
statistiku i informatiku ∑
Multipla regresija
y = βo + β1 x1+ β2 x2 + ...+βk xk +εj
Prema načinu uključivanja variabli u model multiple regresije: 1. Simultana / standardna regresija (“Enter”) – sve varijable odjednom
2. Hijerarhijska regresija – na osnovu teorijskog modela unapred određen redosled unosa varijabli jedna po jedna ili po blokovima
3. “Stepwise” regresija (korak po korak)– redosled unosa varijabli na osnovu statističkog kriterijuma (F-test)
• “Forward” – unos varijabli jedna po jedna
• “Backward” – unete sve varijable u početni model, a zatim se jedna po jedna uklanjaju varijable koje najmanje doprinose modelu
• “Stepwise selection” – kombinacija prethodne dve procedure
Katedra za medicinsku
statistiku i informatiku ∑
Multipla regresija
• Multikolinearnost
• Između nezavisnih varijabli takođe može postojati povezanost
• Prediktori ne bi trebalo da budu u visokoj korelaciji
• “Dummy” varijable
• Nezavisne varijable sa više od dve kategorije moraju biti rekodirane u “dummy” varijable. Varijable sa k kategorija moraju biti rekodirane u k-1 dihotomnih varijabli, pri čemu svaka ima samo dve vrednosti, 0 i 1
Katedra za medicinsku
statistiku i informatiku ∑
Ocena multiplog regresionog
modela • ANOVA p<0.05
• R2 – procenat varijanse zavisne varijable objašnjen prediktorima
Katedra za medicinsku
statistiku i informatiku ∑
Ocena prediktora u
regresionom modelu • Nestandardizovani regresioni
koeficijenti B – mogu biti upotrebljeni u jednačni za izračunavanje predikcije zavisne varijable. Negativna vrednost ukazuje na negativnu povezanost – povećanje vrednosti nezavisne varijable rezultuje smanjenjem vrednosti zavisne varijable. U multiploj regresiji koeficijenti daju iznos promene zavisne varijable za jediničnu promenu nezavisne (eksplanatorne) varijable, uslovno kad su sve ostale nezavisne varijable nepromenjene
• Standardizovani koeficijenti beta – korisni za tumačenje relativnog značaja nezavisnih varijabli
• Koeficijenti za dummy varijable interperetiraju se u odnosu na referentnu kategoriju