korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 3. predavanje:

Korelacijske metode

psihologija (1.st.) – 2. letnik

2011/12

3. predavanje:ponovitev bivariatne regresije

Parcialna/semiparcialna korelacija

Regresijska diagnostika

Ponovitev nekaterih osnovnih pojmov

N

XXs

N

ii

X

1

2

2

1

1

2

2

N

XXN

ii

X

Varianca v vzorcu (s = standardni odklon)

Varianca v (neskončni) populaciji:

Ocena populacijske variance iz vzorčnih podatkov(“vzorčna varianca”)

Vrednost napovedovane spremenljivke za i-to osebo: Yi

Napovedana vrednost za i-to osebo:

Napaka napovedi (ostanek) za i-to osebo:

torej:

Standardna napaka napovedi: SEY = e ; če je e=0:

'.ˆii YozY

iii YYe ˆ

iii eYY ˆ

22 XXE iX

N

eozeESE

N

iY

1

2

2 .)(

Dva vidika regresijske analize:

1. napovedovanje (npr.: “Kolikšno delovno uspešnost lahko napovemo kandidatu za delovno mesto? Kolikšno napako lahko ob tem pričakujemo?”)

2. pojasnjevanje (npr.: “S katerimi sposobnostmi in veščinami lahko pojasnimo razlike v uspešnosti? Kolikšen delež variance uspešnosti lahko pojasnimo?”)

Kaj je merilo uspešnosti napovedovanja (…ciljna funkcija)?

Najpogosteje: kriterij najmanjših kvadratov: min f (Y’ ) = e2

Nekaj implikacij k.n.k.: minimizira SEY

“penalizira” velike napake napovedi e = M(e) = 0

“Prazni model”: 0 napovednikov

Če uporabimo kriterij najmanjših kvadratov, napovedujemo le na osnovi porazdelitve Y in dobimo

SEY = Y

spomnimo se tudi, da (X-M) = 0 e = 0

Prazni model pomemben kot osnova za primerjavo.

YY ˆ

1 napovednik: bivariatna regresija

(pogojna aritmetična sredina)iXYY ˆ

iYXYXi XbaY ˆ

Xi Xj Xk

(Y|Xi)(Y|Xj)

(Y|Xk) e~N(0,SE )

Enačba premice:

a = presečišče z ordinato (intercept) oz. regresijska konstanta = napovedana vrednost Y pri X=0

b = regresijski nagib (slope) = napovedano povečanje Y pri povečanju X za 1

Če pogojne aritmetične sredine ležijo na premici: linearna regresija.

Mere povezanosti / natančnosti napovedovanja (1)

Kovarianca (Cov):

informacija o povezanosti in variabilnosti

Pearsonov r- standardizirana kovarianca

- standardizirani regresijski nagib

- povprečni produkt z vrednosti (“produkt-moment”)

N

yx

N

YYXXs

N

iii

N

iii

XY

11

YX

XYXY ss

sr

N

zzr

N

iYX ii

1

X

YXY

Y

XYXXY s

sb

s

sbr

Mere povezanosti / natančnosti napovedovanja (2)

Koeficient determinacije r2

delež pojasnjene variance

Standardna napaka SE:

Indeks učinkovitosti napovedi EXY relativno zmanjšanje SE glede na prazni model

Interpretacija r2, SE in EXY je enaka tudi pri multipli regresiji.

2

2

2

2ˆ2 1

Y

YX

Y

YYX s

SE

s

sr

21

2

1

ˆ

YXY

N

iii

YX rsN

YYSE

21110011001100 XYY

YX

X

XYXY r

sSE

sSE

E

a 3908,7

b 37,5

r 0,993

r**2 0,986

E 0,88

4000

4200

4400

4600

4800

5000

5200

7,0 12,0 17,0 22,0 27,0 32,0

Starost v dnevih

Mas

a(g

)

Parcialna korelacija

= korelacija med dvema spremenljivkama, pri čemer kontroliramo enega ali več kovariatov.

= korelacija med deli X in Y, ki so nekorelirani s kovariatom Z

Uporaba: statistična kontrola motečih spremenljivk.

1

64

2 3

7

5

X Y

Z (kovariat)

32

2

21

26532

52

5421

52

2

2

ZXY

XY

r

r

.

Izračun parcialne korelacije

1. Določimo regresijski enačbi X’ = aXZ+bXZZ in Y’ = aYZ + bYZZ

2. Izračunamo napake napovedi eX = X-X’ in eY = Y-Y’

3. rXY.Z = r (eX , eY)

))((. 22 11 YZXZ

YZXZXYZXY

rr

rrrr

Pri enem kovariatu:

Semiparcialna korelacija: kovariat kontroliramo le pri eni spremenljivki (X ali Y ).

Statistična značilnost: enako kot r, df = N-2-(št. kovariatov)

Primer parcialne korelacije:

korelacija med ekstravertnostjo in nevroticizmom glede na starost

rEN = 0,4

rES = -0,6

rNS = -0,5

140501601

506040

11 2222,

),(),(

),(),(,.

NSES

NSESENSEN

rr

rrrr

Primer semiparcialne korelacije:

Koliko variance učne uspešnosti pojasni od inteligentnosti neodvisen del SES?

rUS = 0,3

rUI = 0,4

rIS = 0,5 120

501

504030

1 22,

),(

,,,).(

SI

SIUIUSISU

r

rrrr

Težave pri interpretaciji:

•statistični učinek (effect) vs. vzročni vpliv

•statistična značilnost vs. praktična pomembnost

•koliko variance pojasni posamezen napovednik?

•statistično značilni/neznačilni b v različnih modelih

•predznak b ni enak predznaku r ( sestavljene spremenljivke ali preveč visoko koreliranih napovednikov)

•supresorski odnosi (npr. mehanska in verbalna sposobnost ter uspešnost pilotov)

Regresijske parametre interpretiramo v kontekstu modela!

Regresijske predpostavke in diagnostika:

• intervalen kriterij, intervalni ali dihotomni napovedniki

• naključno vzorčenje / neodvisnost opazovanj

• normalnost ostankov (npr. P-P graf)

• linearnost odnosov (rezidualni graf)

• homoscedastičnost (rezidualni graf)

Zlasti če MR pojasnjevalna metoda:

• popolna zanesljivost napovednikov

• specifikacija modela

Rezidualni graf:napovedane vrednosti vs. ostanki

Vrste ostankov:•surovi (M = 0)•standardizirani (M = 0, Var = 1)•studentizirani (e/SEe manjši vpliv ekstremov)

•izbrisani (ei določen brez osebe i )

Iskanje vplivnih točk

• Cookova razdalja (oddaljenost od povprečja prediktorjev × napaka napovedi)

• DFBETA: sprememba regr. koeficienta, če izločimo osebo

• DFBETAS: standardizirana sprememba, (deljena s SE ) ; približna krit. vrednost: 2/(N 1/2) - 3/(N 1/2) jemati le orientacijsko, pazimo na relativno visoke vrednosti

• DFFIT: sprememba napovedane vrednosti

Sestavljanje regresijskega modela

a)Hkrati vključimo vse relevantne napovednike (Enter)

b)“Hierarhično” vključevanje po vnaprej postavljenem vrstnem redu.

c) Postopno vključevanje po statističnih kriterijih: Forward, Backward, Stepwise.

Strategiji b in zlasti c lahko nevarni, če razmerje N/P ni veliko! Testi značilnosti predpostavljajo a.

Namen MR:napovedovanje kriterijske spremenljivke Y na osnovi p (= 2 ali več) napovednikov (X1- Xp)

oz. y = Xb+ (b+ = vektor parametrov a in b)

X1

X3

X2 Y

b1

b2

b3

Diagram poti:Cilj MR:

določiti uteži b tako, da bo:

•korelacija med Y in Y = max.

e2 = (Y –Y )2 = min.

Y = obtežena vsota napovednikov, ki najbolje napoveduje Y v smislu najmanjših kvadratov

C

a

ij

P

jji XbaY

1

ˆ

Izračun in interpretacija parametrov

b+ = (X+X+)-1X+y oz. b = C-1c

X+ = podatkovna matrika z dodanim vektorjem enicb+ = [a b1 … bp] b = [b1 … bp]C = kovariančna matrika napovednikovc = [Cov(Y,X1) … Cov(Y,Xp)]

b1 = povečanje Y pri povečanju X1 za 1 enoto innespremenjenih X2-Xp

a = napovedana vrednost Y, ko velja X1=X2=… Xp = 0

a Y b Xj j

potreben poln rang X!

Kako priti do optimalnih uteži?

Nekaj možnih načinov obteževanja:

1. bj = 1 … variabilnost napovednikov

2. bj = 1/sj … rYj (…lahko v redu, če so rYj podobne)

3. bj = rYj/sj … r med napovedniki

4. na bj mora torej vplivati:•variabilnost napovednikov (),•korelacija med napovednikom in kriterijem (),•korelacije z drugimi napovedniki ().

212

22

21

212122

1 sss

ssssb yy

Izračun pri p = 2:

x1

x2

y

X - ravnina

e

y

Izpeljava regresijskih parametrov

y = y + eXb + e = yXXb + Xe = Xy //Xe = 0(XX)–1(XX)b = (XX)–1Xy b = (XX)–1Xy

Standardizirani model

ij

P

jji XzYz )()(ˆ

1

(konstanta odpade – vse M = 0)

z vrednosti obtežimo s “koeficienti beta”

Interpretacija :•regresijski nagib za standardizirane spremenljivke;•relativna pomembnost gl. na ostale prediktorje.•pri nekoreliranih napovednikih: Yj = rYj

Pozor:•|| lahko > 1 ni populacijska vrednost b•bolj odvisen od vzorčne variabilnosti kot b•ni isto kot delno standardizirani nagib (gl. AMSSD, str. 159)

Izračun beta koeficientov:

= R–1r …nagib za standardizirane napovednike

…standardizirani nagib

Pri dveh napovednikih:(prim. obrazec za surovi nagib)

Y

jjj s

sb

21 XZ

XZYZYXX

r

rrr

Primer:napovedovanje uspešnosti (U) na podlagi dveh testov (T1 in T2).

Korelacije: Opisne statistike:

T1 T2U 0,3 0,4T1 0,6

094,06,01

6,04,03,01 22

12

12211

r

rrr UU

344,06,01

6,03,04,01 22

12

12122

r

rrr UU

stand.regresijska enačba: z’U = 0,094zT1 + 0,344zT2

U T1 T2M 20 50 100SD 5 10 15

047,0105

094,01

11 Ub

115,0155

344,02

22 Ub

198,6100115,050047,020 jj XbYa

Nestandardizirana enačba:

U’ = 6,198 + 0,047 T1 + 0,115 T2

Višina povezanosti: multipla korelacija

Definicija:

Računanje:

)ˆ( YYrR

rRr 1' R βr'R

P

jjYjrR

1

2

22

1

2

XZ

XZYZYXYZYX

r

rrrrrR

oz. oz.

Za dva prediktorja:

R in semiparcialne korelacije:2

11232

1232

1221

212 )...().().(.... ... ppYYYYpY rrrrR

Na višino R vpliva:

•korelacije prediktorjev s kriterijem ()

•korelacije med prediktorji (),

•vplivne točke (/),

•napaka merjenja (),

•variabilnost v vzorcu gl. na populacijo ().

Velja tudi:

•0 ≤ R ≤ 1

•R ≥ max. rYj

•R ni izračunljiv, če |R|=0 (linearno odvisni prediktorji)

1

64

23

7

5 Y

X1

X2

3652

652212

.YR

Korelacija med prediktorji in R 2:

1

6

4

3

7

5YX1

X2

1

6

2 3

7

YX1

X2

22

21

212 YYY rrR .

22

212 YY rR .

7654

54

5421

54212

r

6532

6

6532

2 2)1.2(

2)2.1(

YY rr

Preberite tudi:

Sočan (2004). Postopki klasične testne teorije (PKTT),• dodatek A• Poglavje 4• (po potrebi poglavje o linearni regresiji v katerem od splošnih

učbenikov statistike)

Bartholomew et al. (2008). Analysis of multivariate social science data (AMSSD)

Poglavje 6

poglavje o multipli regresiji najdete v skoraj vseh učbenikih multivariatnih metod in mnogih statističnih učbenikih

korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 3. predavanje:

Documents