linearna regresija in korelacija¡f... ·  · 2009-06-014. regresijska analiza • univariatna,...

40
1 LINEARNA REGRESIJA LINEARNA REGRESIJA in in KORELACIJA KORELACIJA Iztok Grabnar Iztok Grabnar Univerza v Ljubljani, Fakulteta za farmacijo Univerza v Ljubljani, Fakulteta za farmacijo Maj, 2009 Maj, 2009

Upload: dinhthuan

Post on 30-May-2018

229 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

1

LINEARNA REGRESIJA LINEARNA REGRESIJA inin

KORELACIJAKORELACIJA

Iztok GrabnarIztok GrabnarUniverza v Ljubljani, Fakulteta za farmacijoUniverza v Ljubljani, Fakulteta za farmacijo

Maj, 2009Maj, 2009

Page 2: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

2

Lord Kelvin 1824-1907

“When you can measure what you are speaking about and express it in numbers, you know something about it."

"In science there is only physics; all the rest is stamp collecting."

“They were so intent on making everything numerical, that they frequently missed seeing what was there to be seen."

Barbara McClintock

Page 3: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

3

Matematični

modeldxdx = = k.xk.x ++m.ym.y

dydy = = f.xf.x

Page 4: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

4

Regresijska analiza

Univariatna, bivariatna, multivariatna analiza•

Statistična spremenljivka–

Numerična zvezna

Atributivna–

Dihotomna

Linearna, logistična regresija•

Nelinearna regresija

Page 5: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

5

Statistično

modeliranje

V procesu

opazovanja

povezanosti

med statističnimi

spremenljivkami

se lahko

osredotočimo

na

povezavo

med opazovanim

pojavom

na

eni

strani (odvisna spremenljivka) in samo eno

značilnostjo

(neodvisna spremenljivka) na

drugi

-

preprosti modeli, ali

pa med opazovanim

pojavom

na

eni

strani in več

značilnostmi

na

drugi

- multivariatni modeli.Oba postopka

imata

skupne

značilnosti. Podobno

kot

pri

opisovanju

porazdelitve

verjetnosti

spremenljivk, ko

dejansko

porazdelitev

opišemo

z neko

matematično

funkcijo, tudi

v analizi

povezanosti

opišemo

odnose

med spremenljivkami

z nekim

matematičnim

modelom. Za

analizo

izberemo

tistega, ki

se nam

zdi

najprimernejši.

Page 6: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

6

Grafični

prikazi

v analizi

povezanosti

Razsevni

diagrami•

Odgovorne

površine

0

0.1

0.2

0.3

0.4

0.5

0.6

0 0.2 0.4 0.6 0.8 1 1.2

x

y

1 3 5 7 9

11 13 15 17

1

7

13

-30

-20

-10

0

10

20

30

40

50

z

x

y

Page 7: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

7

Enostavna

linearna

regresija•

Matematični model

Metoda najmanjših kvadratov•

Koeficienta korelacije in determinacije

Predpostavke matematičnega modela•

Statistično sklepanje

Uporaba modela•

Statistični programski paketi

Analiza rezidualov: validacija predpostavk

Page 8: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

8

Je enačba, ki opisuje odnos med odvisno (y) in neodvisno (x) spremenljivko in napako (ε).

Enačba

enostavnega linearnega regresijskega modela

je:

y = β0

+ β1

x +ε

β0

in

β1

sta

parametera

modela.–

ε je

napaka N(0, σe

2)

Enostavni

linearni

regresijski

model

Page 9: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

9

PoPozzitiveitivenn llinearinearnini odnosodnos

E(y)

x

Naklon

β1je

pozitiven

Regresijska

premica

Odsekβ0

Page 10: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

10

NegativeNegativenn llinearinearnini odnosodnos

E(y)

x

Naklon

β1je

negativen

Regresijska

premicaOdsekβ0

Page 11: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

11

NNii povezavepovezave

E(y)

x

Naklon

β1je

0

Regresijska premicaOdsek

β0

Page 12: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

12

VzorVzorččni statistikini statistiki

0 1y b b x= +0 1y b b x= +

b0

in

b1

sta

statistiki.

Page 13: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

13

Določanje parametrov modela

Regresijski modely

= β0

+ β1

x

+εRegresijska enačba

E(y) = β0

+ β1

xNeznana parametra

β0

, β1

Vzorec:x yx1

y1. .. .

xn

yn

Regresijska enačba

Vzorčni statistikib0

, b1

b0

and b1Sta oceni za

β0

and β1

0 1y b b x= +0 1y b b x= +

Page 14: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

14

Vsota najmanjših kvadratovGauss

...the most probable value of unknown quantities will be that in which the sum of squares of the differences between the actually observed and computed values multiplied by numbers that measure the degree of precision is a minimum...

( ) ( )( )2

1∑

=

−→m

jjjjWLS t,ytzwminˆ αα

Johann Carl Friedrich Gauss (1777-1855)

Page 15: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

15

Metoda najmanjših kvadratov

yi = opažena

i-ta vrednost odvisne spremenljivkeyi = ocena

i-te vrednosti odvisne

spremenljivke

min (y yi i−∑ $ )2min (y yi i−∑ $ )2

^

Page 16: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

16

xy 10 ββ +=)

iyiy

ix

iii yy ˆ−=ε

Page 17: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

17

Ocena naklona

b x y x y nx x n

i i i i

i i1 2 2=

− ∑∑∑− ∑∑

( ) /( ) /

b x y x y nx x n

i i i i

i i1 2 2=

− ∑∑∑− ∑∑

( ) /( ) /

Page 18: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

18

Ocena odsekaOcena odseka

0 1b y b x= −0 1b y b x= −

Page 19: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

19

( ) ( ) ( )y y y y y yi i i i−∑ = −∑ + −∑2 2 2( ) ( ) ( )y y y y y yi i i i−∑ = −∑ + −∑2 2 2^^

Koeficient determinacije•

Odnos med

SST, SSR, SSE

SST = SSR + SSE

SST = total sum of squaresSSR = sum of squares due to regressionSSE = sum of squares due to error

Page 20: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

20

Koeficient determinacije je:

r2

= SSR/SST

kjer je:SST = total sum of squaresSSR = sum of squares due to regression

Page 21: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

21

Koeficient korelacije•

Vzorec

21 )(predznak rbrxy = 21 )(predznak rbrxy =

ijedeterminac koeficient )(predznak 1brxy = ijedeterminac koeficient )(predznak 1brxy =

xbby 10ˆ += xbby 10ˆ +=

Page 22: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

22

Predpostavke modela

Napaka ε1.

ε je slučajna spremenljivka z aritmetično sredino 0.

2.

varianca

ε , ki jo označimo

σe 2, je enaka za vse

vrednosti neodvisne spremenljivke.3.

vrednosti

ε so neodvisne.

4.

Porazdelitev

ε je normalna

Page 23: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

23

Statistično sklepanje

Ničelna statistična hipoteza:•

β1

= 0•

Dva pristopa–

t Test

F Test

Pri obeh je potrebna ocena

σe 2.

Page 24: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

24

∑∑ −−=−= 210

2 )()ˆ(SSE iiii xbbyyy ∑∑ −−=−= 210

2 )()ˆ(SSE iiii xbbyyy

Ocena

σe 2

Varianca napake

MSE ali

s2

s2

= MSE = SSE/(n-2)

kjer:

Page 25: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

25

Ocena

σe–

Kvadratni koren

σe

2

s imenujemo

standardna

napaka ocene.

2SSEMSE

−==

ns

2SSEMSE

−==

ns

Page 26: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

26

t bsb

= 1

1

t bsb

= 1

1

Hipotezi

H0

: β1

= 0Ha

: β1

= 0

Testna

spremenljivka

( )∑= 2

i x-xMSE

1bs

Page 27: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

27

tt

TestTest

Zavrnitev niZavrnitev niččelne hipotezeelne hipoteze

Zavrni

H0

če

t

< -tα/2 ali

t

> tα/2

kjer je: tα/2

odklon v

t

porazdelitviz (n

2)

stopinjami prostosti

Page 28: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

28

kjer je

b1

točkovna ocena naklonakritična mejavrednost iz t-porazdelitve z

(n –

2) stopinjami prostosti

12/1 bstb α±12/1 bstb α±

12/ bstα 12/ bstα

2/αt 2/αt

Določanje

intervala zaupanja za

β1

Page 29: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

29

FF

TestTest

Hipotezi

H0

: β1

= 0Ha

: β1

= 0

Testna spremenljivka

F

= MSR/MSE

Page 30: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

30

Zavrnitev niZavrnitev niččelne hipotezeelne hipoteze

Zavrni

H0

če

F

> Fα

kjer je

odklon

v F

porazdelitviz

1 stopinjo prostosti

v števcu ulomka

in

(n

2)

v imenovalcu ulomka

Page 31: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

31

Previdnost pri interpretaciji statistične značilnosti

Zavrnitev

H0

: β1

= 0 in sklep, da je povezava med spremenljivkama

x in

y značilna ne dopušča

opredelitve povezave v smislu vzrok in posledica.•

Z zavrnitvijo

H0

: β1

= 0 nismo dokazali, da je odnos med spremenljivkama

linearen.

Page 32: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

32

Uporaba regresijske enaUporaba regresijske enaččbe za napovedovanjebe za napovedovanje

$ / $y t sp yp± α 2$ / $y t sp yp± α 2

Interval zaupanja E(yp)

Interval napovedovanja yp

yp

+

tα/2 sind

Kjer je:

(1 -

α) koeficient zaupanja

Page 33: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

33

Značinost koeficienta korelacije

21 2

−−

=− nr

rt 2,n α

⎟⎠⎞

⎜⎝⎛

−+

=rru

11ln

21

31−

=n

su

( ) 30 −−= nuuzα

Η0

: ρ = 0H1

: ρ

0Η0

: ρ = ρ0H1

: ρ

ρ0

Fisherjeva transformacija

Page 34: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

34

Interval zaupanja in interval napovedovanja

Gestacijska starost

50403020

Por

odna

mas

a5000

4000

3000

2000

1000

0

Page 35: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

35

Interval zaupanja

Interval napovedovanja

( )⎟⎟⎠

⎞⎜⎜⎝

⎛ −+=

xxLxxs

2

n1MSEsy 2,αnt −±

( )⎟⎟⎠

⎞⎜⎜⎝

⎛ −++=

xxLxxs

2

n11MSEsy 2,αnt −±

( )[ ]∑ −= 2xxL ixx

Page 36: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

36

Analiza rezidualov

^

y ysi i

y yi i

y ysi i

y yi i

^

^

Rezidual

i-te vrednosti

yi –

yi

Standardizirani

rezidual

Page 37: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

37

x

ˆy y− ˆy y−

0

Resi

dual

Page 38: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

38

ˆy y− ˆy y−

x

ˆy y− ˆy y−

0

Resi

dual

Page 39: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

39

x

ˆy y− ˆy y−

0

Resi

dual

Page 40: LINEARNA REGRESIJA in KORELACIJA¡f... ·  · 2009-06-014. Regresijska analiza • Univariatna, bivariatna, multivariatna analiza • Statistična spremenljivka – Numerična zvezna

40

Korelacija rangov

Koeficient korelacije po Spearmanu

Koeficient korelacije po Kendallu

)1(6

1 2

2

−−= ∑

nndiρ di –

razlika rangov xi in yi