korelacija i regresija - Универзитет у Београду ... ·  · 2013-11-22negativna...

33
Katedra za medicinsku statistiku i informatiku Korelacija i regresija

Upload: trandat

Post on 30-May-2018

275 views

Category:

Documents


1 download

TRANSCRIPT

Katedra za medicinsku

statistiku i informatiku ∑

Korelacija i regresija

Katedra za medicinsku

statistiku i informatiku ∑

Korelacija i regresija

• Regresijom i korelacijom analizira se povezanost (zavisnost, asocijacija, odnos) dve ili više varijabli

• Slučajno promenljive veličine su povezane ako su promene u jednoj veličini praćene promenama druge veličine

• Korelacija podrazumeva analizu jačine i smera povezanosti

• Regresija (regresioni model), osim analize jačine i smera, podrazumeva analizu oblika povezanosti, kao i analizu u smislu nezavisnih/zavisnih (prediktor/ishod). Regresioni model omogućava predikciju vrednosti zavisne varijable na osnovu poznavanja vrednosti nezavisnih varijabli.

• kad god postoji značajna korelacije između dve varijable može se vrednost jedne varijable iskoristiti za predikciju vrednosti druge varijable

Katedra za medicinsku

statistiku i informatiku ∑

Karakteristike povezanosti

• Smer

Pozitivan (+)

Negativan (-)

• Stepen/ jačina povezanosti

Između –1 i 1

Apsolutna vrednost označava jačinu

• Oblik povezanosti

Linearan

Nelinearan

• Zavisno od broja varijabli: • Jednostruka (prosta) povezanost

• Višestruka (multipla) povezanost

• Za sva obeležja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posedovati podatke sa istih statističkih jedinica

Katedra za medicinsku

statistiku i informatiku ∑

Dijagram rasturanja

• Eksploracija odnosa

izmedju dve kontinuirane varijable vrši se grafičkim prikazom –(dijagram rasipanja /"scatter plot") parova vrednosti dve kontinuirane varijable

• Iz grafičkog prikaza moguće je sagledati sve tri karakteristike povezanosti:

1. Smer povezanosti: pozitivan - negativan

2. Jačina povezanosti

3. Oblik povezanosti: linearan - nelinearan

Katedra za medicinsku

statistiku i informatiku ∑

Dijagram rasturanja

Pozitivna linearna povezanost

(r = 0.65)

Negativna linearna povezanost (r = -0,68)

Nema povezanosti

(r = 0.00)

Krivolinijska povezanost

Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice. Dijagram rasturanja sugeriše oblik odnosa dve varijable. Linearni odnos dve varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mera bliskosti tačaka i prave linije

Katedra za medicinsku

statistiku i informatiku ∑

Pearsonov koeficijent linearne korelacije

SDxy – kovarijansa, SDx i SDy – standardne devijacije varijabli x i y

Testiranje hipoteze o povezanosti dve varijable: H0: r = 0, H1: r 0 Nulta hipoteza r = 0 testira se t-testom:

za broj stepena slobode DF = n – 2

yx

xy

SDSD

SDr

yxn

xySDxy

2

2

xn

xSDx

2

2

yn

ySDy

21

2

r

nrt

Katedra za medicinsku

statistiku i informatiku ∑

Osobine Pearsonovog koeficijenta linearne korelacije

• Bezdimenzionalna veličina tj. nema jedinicu mere.

• Vrednosti koeficijenta linearne korelacije kreću se u opsegu od –1 do 1.

• U procesu izračunavanja varijable označene kao x i y mogu zameniti mesta bez uticaja na konačnu vrednost koeficijenta korelacije.

• Smer povezanosti:

• Vrednosti od 0 do 1 ukazuju na pozitivnu povezanost. Porast jedne varijable praćen je porastom druge varijable.

• Vrednosti od –1 do 0 ukazuju na negativnu povezanost. Porast jedne varijable praćen je padom druge varijable.

• r2 – koeficijent determinacije. Predstavlja proporciju zajedničkog varijabiliteta dve varijable.

Katedra za medicinsku

statistiku i informatiku ∑

Koeficijent korelacije 0.70 Jaka povezanost 0.30 – 0.69 Osrednja povezanost <0.30 Slaba povezanost Oko 0.0 Nema linearne povezanosti (ne isključuje postojanje nelinearnog oblika povezanosti) Jačina povezanosti (interpretacija je ista i za negativne vrednosti koeficijenta korelacije)

Interpretacija Pearsonovog koeficijenta linearne korelacije

Katedra za medicinsku

statistiku i informatiku ∑

Primer: Za dvanaest ispitanika muškog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina.

ID Starost Sistolna TA

1 39 125

2 59 165

3 71 170

4 75 150

5 73 185

6 55 155

7 51 180

8 70 160

9 41 145

10 45 140

11 63 135

12 35 130

Dijagram rasturanja starosti i

sistolne tenzije

80

100

120

140

160

180

200

30 40 50 60 70 80

Starost (godine)

Sis

toln

a T

A (

mm

Hg

)

Katedra za medicinsku

statistiku i informatiku ∑

x y x2 y2 x∙y

39 125 1521 15625 4875

59 165 3481 27225 9735

71 170 5041 28900 12070

75 150 5625 22500 11250

73 185 5329 34225 13505

55 155 3025 24025 8525

51 180 2601 32400 9180

70 160 4900 25600 11200

41 145 1681 21025 5945

45 140 2025 19600 6300

63 135 3969 18225 8505

35 130 1225 16900 4550

677 1840 40423 286250 105640

4.5612

677

n

xx 3.153

12

1840

n

yy

Katedra za medicinsku

statistiku i informatiku ∑

Postoji statistički značajna pozitivna osrednja povezanost starosti i sistolne TA (r = 0.605, t = 2.4, DF =10, p 0.05). Koeficijent determinacije = 0.366

6.134.5612

40423 22

2

xn

xSDx

5.183.15312

286250 22

2

yn

ySDy

78.1523.1534.5612

105640

yx

n

xySDxy

605.05.186.13

78.152

yx

xy

SDSD

SDr

404.2605.01

212605.0

2

t

Katedra za medicinsku

statistiku i informatiku ∑

Model jednostruke (proste)

linearne regresije • Obavezno je jedna varijabla

nezavisna (eksplanatorna, prediktorska, X) a druga zavisna (odgovor, ishod, Y)

• Regresiona analiza se može upotrebiti kada je nezavisna varijabla povezana sa zavisnom varijablom.

• Zavisna varijabla mora biti numerička kontinuirana.

• Nezavisna varijabla može biti numerička ili kategorijalna.

• kategorijalne varijable moraju biti kodirane kao “dummy” varijable

Katedra za medicinsku

statistiku i informatiku ∑

Regresiona jednačina

bxay ˆ– očekivana vrednost zavisne (ishodne) varijable

– nezavisna varijabla, eksplanator, prediktor

– odsečak na ordinati (konstanta). Odgovara prosečnoj ocenjenoj vrednosti zavisne varijable kada je vrednost nezavisne varijable jednaka nuli.

– nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable. a, b – regresioni koeficijenti

y

x

a

b

Rezultat regresione analize je regresiona jednačina koja daje najbolju predikciju zavisne varijable na osnovu jedne ili više nezavisnih varijabli

Katedra za medicinsku

statistiku i informatiku ∑

Regresiona linija

a a

y

x

b = y / x

x x

y y

bxay ˆ

Katedra za medicinsku

statistiku i informatiku ∑

Metod najmanjih kvadrata

a, b su određeni metodom najmanjih kvadrata na taj način da je suma kvadrata vertikalnih odsupanja tačaka od linije regresije najmanja

x

y

Katedra za medicinsku

statistiku i informatiku ∑

Ocena nagiba u regresionom modelu:

Ocena konstante u regresionom modelu:

2

x

xy

SD

SDb

xbya

Ocena regresionih koeficijenata

Regresiona jednačina:

bxay

Katedra za medicinsku

statistiku i informatiku ∑

Pretpostavke za primenu

regresionog modela • Odnos varijabli mora

biti linearan

• Numerički podaci

• Opservacije su nezavisne (jedna opservacija po jedinici analize)

• Raspodela skorova Y varijable bi trebala da bude normalna za sve vrednosti X varijable

• Varijabilitet skorova Y varijable bi trebao da bude konstantan za sve vrednosti X varijable

Katedra za medicinsku

statistiku i informatiku ∑

Evaluacija regresionog modela

• ispitivanje značajnosti

ocenjenih regresionih parametara vrši se:

– F-testom ukupnog slaganja ili

– t-testovima pojedinačnih parametara

• Hipoteza koje se testira u

H0: β1 = 0

Ha: β1 ≠ 0

Analiza varijanse

• Totalni varijabilitet zavisne (Y) varijable je podeljen na komponente:

• Varijabilitet objašnjen regresijom

• Rezidualni (neobjašnjeni) varijabilitet

Katedra za medicinsku

statistiku i informatiku ∑

Evaluacija regresionog modela

• R2 – Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom • Kvadrat Pirsonovog

koeficijenta linearne korelacije

• 0 ≤ r2 ≤ 1

• Statistička deskriptivna mera uspešnosti modela regresije u objašnjavanju ishoda / zavisne varijable.

• Standardna greška ocene ili standardna greška reziduala (SEyx) je mera varijabiliteta oko regresione linije. SEyx je apsolutni pokazatelj reprezentativnosti regresionog modela. Mala vrednost SEyx je indikacija dobrog slaganja regresione linije sa podacima.

Katedra za medicinsku

statistiku i informatiku ∑

Predikcija pomoću regresionog modela –

interpolacija i ekstrapolacija

• Interpolacija – predviđanje unutar opsega varijable x

• Ekstrapolacija – predviđanje van opsega varijable x

• Položaj regresione linije može se odrediti izračunavanjem vrednosti zavisne varijable za dve proizvoljno uzete vrednosti nezavisne varijable

Katedra za medicinsku

statistiku i informatiku ∑

Ocena nagiba u regresionom modelu:

Ocena konstante u regresionom modelu:

823.074.185

78.1522

x

xy

SD

SDb

93.10642.56823.03.153 xbya

Ocena regresionih koeficijenata

Regresiona jednačina:

xbxay 823.093.106

Katedra za medicinsku

statistiku i informatiku ∑

Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:

3.17077823.093.106 bxay

80

100

120

140

160

180

200

30 40 50 60 70 80

Starost (godine)

Sis

toln

a T

A (

mm

Hg

)

Katedra za medicinsku

statistiku i informatiku ∑

Druge mere povezanosti

• Spearman (rs) –

Koeficijent korelacije ordinalih podataka. Neparametarski koeficijent korelacije.

• Point-biserijalni koeficijent korelacije – Korelacija numerički kontinuiranih podataka i dihotomnih podataka.

• Biserijalni koeficijent korelacije – Korelacija numerički kontinuiranih podataka i dihotomnih podataka koji potiču od kontinuirane varijable kategorisanih u dva nivoa.

• Phi koeficijent – Mera povezanosti kada su podaci obe varijable dihotomni.

Katedra za medicinsku

statistiku i informatiku ∑

Spearmanov koeficijent korelacije

rangova • Neparametarski metod za ocenu jačine

povezanosti koji se primenjuje kada:

• su podaci za najmanje jednu varijablu dati u vidu ordinalnih podataka ili rangova

• najmanje jedna varijabla nema normalnu raspodelu

• odnos između varijabli nije linearan

Katedra za medicinsku

statistiku i informatiku ∑

•Dodeliti rang vrednostima jedne varijable vodeći računa da rangiranje počne od najmanjeg do najvećeg podatka u rastućem nizu ili obrnuto. Podacima sa istim vrednostima obeležja dodeljuje se tzv. vezani rang (prosečna vrednost rangova koji pripadaju tim podacima) •Isto to učiniti i sa drugom varijablom •Izračunati vrednosti koeficijenta korelacije rangova pomoću formule:

Izračunavanje Spearmanovog koeficijenta korelacije rangova

16

12

2

nn

dr

i

S

d – razlika rangova, n – broj jedinica analize

Katedra za medicinsku

statistiku i informatiku ∑

Spearmanov koeficijent korelacije rangova

Testiranje hipoteze o povezanosti dve varijable: H0: = 0, H1: 0 Ako je broj jedinica analize 10 nulta hipotezu se testira t-testom za broj stepena slobode DF = n – 2:

21

2

S

Sr

nrt

Ako je broj jedinica analize < 10, empirijske vrednosti testa se upoređuju sa kritičnim tabličnim vrednostima za odgovarajući broj parova podataka i nivo značajnosti

Katedra za medicinsku

statistiku i informatiku ∑

Primer: Za deset bolesnika date su skorovi na Hamiltonovoj skali depresivnosti i vrednosti sistolne arterijske tenzije. Da li postoji povezanost depresije i sistolne arterijske tenzije? Testirati za nivo značajnosti 0.05.

HAMD skor

Rx Sistolna TA (kPa)

Ry d2

23 7 18.5 10 9.00

19 3 14.5 2 1.00

26 9.5 15.0 3 42.25

23 7 17.0 8 1.00

19 3 16.5 6.5 12.25

17 1 14.0 1 0.00

23 7 15.5 4 9.00

26 9.5 18.0 9 0.25

20 5 16.0 5 0.00

19 3 16.5 6.5 12.25

87.00

Katedra za medicinsku

statistiku i informatiku ∑

473.0

11010

0.8761

1

61

22

2

nn

dr

i

S

518.1473.01

210473.0

1

222

S

Sr

nrt

Vrednost koeficijenta korelacije rangova je:

Testiranje nulte hipoteze t-testom:

Ne postoji statistički značajna povezanost skorova na HAMD i sistolne TA (rS = 0.473, t = 1.52, DF =8, p > 0.05).

Katedra za medicinsku

statistiku i informatiku ∑

Multipla regresija

• često moramo pretpostaviti postojanje više od jedne nezavisne varijable

• Regresiona analiza koja uključuje dve ili više nezavisnih varijabli kao prediktore vrednosti zavisne (ishodne) varijable.

• zavisna varijabla kontinuirana

• nezavisne varijable u modelu mogu biti kontinuirane ili kategorijalne

Katedra za medicinsku

statistiku i informatiku ∑

Multipla regresija

y = βo + β1 x1+ β2 x2 + ...+βk xk +εj

Prema načinu uključivanja variabli u model multiple regresije: 1. Simultana / standardna regresija (“Enter”) – sve varijable odjednom

2. Hijerarhijska regresija – na osnovu teorijskog modela unapred određen redosled unosa varijabli jedna po jedna ili po blokovima

3. “Stepwise” regresija (korak po korak)– redosled unosa varijabli na osnovu statističkog kriterijuma (F-test)

• “Forward” – unos varijabli jedna po jedna

• “Backward” – unete sve varijable u početni model, a zatim se jedna po jedna uklanjaju varijable koje najmanje doprinose modelu

• “Stepwise selection” – kombinacija prethodne dve procedure

Katedra za medicinsku

statistiku i informatiku ∑

Multipla regresija

• Multikolinearnost

• Između nezavisnih varijabli takođe može postojati povezanost

• Prediktori ne bi trebalo da budu u visokoj korelaciji

• “Dummy” varijable

• Nezavisne varijable sa više od dve kategorije moraju biti rekodirane u “dummy” varijable. Varijable sa k kategorija moraju biti rekodirane u k-1 dihotomnih varijabli, pri čemu svaka ima samo dve vrednosti, 0 i 1

Katedra za medicinsku

statistiku i informatiku ∑

Ocena multiplog regresionog

modela • ANOVA p<0.05

• R2 – procenat varijanse zavisne varijable objašnjen prediktorima

Katedra za medicinsku

statistiku i informatiku ∑

Ocena prediktora u

regresionom modelu • Nestandardizovani regresioni

koeficijenti B – mogu biti upotrebljeni u jednačni za izračunavanje predikcije zavisne varijable. Negativna vrednost ukazuje na negativnu povezanost – povećanje vrednosti nezavisne varijable rezultuje smanjenjem vrednosti zavisne varijable. U multiploj regresiji koeficijenti daju iznos promene zavisne varijable za jediničnu promenu nezavisne (eksplanatorne) varijable, uslovno kad su sve ostale nezavisne varijable nepromenjene

• Standardizovani koeficijenti beta – korisni za tumačenje relativnog značaja nezavisnih varijabli

• Koeficijenti za dummy varijable interperetiraju se u odnosu na referentnu kategoriju