همبستگی و رگرسیون correlation and regression

41
رق ب و ب آ ت ع ن صاه گ ش ن دآ1 ون ی س ر گ ی و ر گ ت س مب هCorrelation and Regression ی ن س دو وی ن س و م ز ی1 ی ا5 ن1386

Upload: patricia-villarreal

Post on 30-Dec-2015

118 views

Category:

Documents


3 download

DESCRIPTION

همبستگی و رگرسیون Correlation and Regression. موسوی ندوشنی پاییز 1386. مقدمه (زوج داده‌ها). آیا این زوج‌ها ارتباطی با هم دارند؟ اگر پاسخ مثبت است، آیا می‌توان معادله‌ای برای آنها منظور نمود؟ آیا با استفاده از این معادله می‌توان درون‌یابی و یا برون‌یابی نمود؟. نمودار پراکنش. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: همبستگی و رگرسیون Correlation and Regression

دانشگاه صنعت آب و برق 1

همبستگی و رگرسیونCorrelation and Regression

موسوی ندوشنی1386پاییز

Page 2: همبستگی و رگرسیون Correlation and Regression

مقدمه )زوج داده ها(آیا این زوج ها ارتباطی با هم دارند؟ اگر پاسخ مثبت است، آیا می توان معادله ای

برای آنها منظور نمود؟ آیا با استفاده از این معادله می توان

درون یابی و یا برون یابی نمود؟

دانشگاه صنعت آب و برق 2

Page 3: همبستگی و رگرسیون Correlation and Regression

نمودار پراکنش در این نمودار زوج های(x,y به صورت نقاط )

مجزا از هم در صفحه مختصات ظاهر می شوند.

دانشگاه صنعت آب و برق 3

Page 4: همبستگی و رگرسیون Correlation and Regression

همبستگی خطی مثبت

دانشگاه صنعت آب و برق 4

x x

yy y

x

(a) Positive(b) Strong

positive

(c) Perfect

positive

Page 5: همبستگی و رگرسیون Correlation and Regression

همبستگی خطی منفی

دانشگاه صنعت آب و برق 5

x x

yy y

x

(d) Negative(e) Strong

negative

(f) Perfect

negative

Page 6: همبستگی و رگرسیون Correlation and Regression

همبستگی غیر خطی

دانشگاه صنعت آب و برق 6

x x

yy

(g) No Correlation (h) Nonlinear Correlation

Page 7: همبستگی و رگرسیون Correlation and Regression

ضریب همبستگی خطی این ضریب میزان همبستگی خطی بین

را در نمونه، اندازه می گیرد.x, yزوج های

ضریب همبستگی خطی جامعه را با عالمت نشان می دهند.

دانشگاه صنعت آب و برق 7

1

2 2

1 1

) () (

) ( ) (

n

i ii

n n

i ii i

x x y yr

x x y y

=

= =

- -=

- -

å

å å

Cov) , (

X Y

X Yr

s s=

Page 8: همبستگی و رگرسیون Correlation and Regression

تفسیر ضریب همبستگی اگر قدر مطلقr

بزرگتر از مقادیر جدول مربوط به این ضریب باشد. نتیجه می گیریم

که همبستگی خطی معنی دار است.

در غیر اینصورت بهاندازه کافی معنی دار

نیست.

دانشگاه صنعت آب و برق 8

n

Page 9: همبستگی و رگرسیون Correlation and Regression

rآزمون فرض راجع به آیا همبستگی خطی معنی داری بین دو متغیر

وجود دارد.

H0: = (no significant linear correlation)

H1: (significant linear correlation)

Test statistic:

دانشگاه صنعت آب و برق 9

21

2

rt

r

n

=-

-

Page 10: همبستگی و رگرسیون Correlation and Regression

)روش اول(tآماره آزمون

دانشگاه صنعت آب و برق 10

Page 11: همبستگی و رگرسیون Correlation and Regression

)روش دوم(rآماره آزمون آماره آزمونr استفاده از جدول معنی دار بودنr

دانشگاه صنعت آب و برق 11

Fail to reject

= 0

0r = - 0.811 r = 0.811 1

Sample data:

r = 0.828

-1

Reject

= 0

Reject

= 0

Page 12: همبستگی و رگرسیون Correlation and Regression

دانشگاه صنعت آب و برق 12

0.27

2

1.41

3

2.19

3

2.83

6

2.19

4

1.81

2

0.85

1

3.05

5

x Plastic (lb)

y Household

n = 8 = 0.05 H0

: = 0

H1

: 0

Test statistic is r = 0.842

Is there a significant linear correlation?

Page 13: همبستگی و رگرسیون Correlation and Regression

n = 8 = 0.05 H0

: = 0

H1

: 0

Test statistic is r = 0.842

0r = - 0.707 r = 0.707 1

Sample data:

r = 0.842

- 1

Fail to reject

= 0

Reject

= 0

Reject

= 0

Page 14: همبستگی و رگرسیون Correlation and Regression

رگرسیونمعادله رگرسیون

در حالت کلی )جامعه( معادله خط به صورت زیر •است:

با توجه به زوج داده های اندازه گیری شده معادله •رگرسیون عبارتست از:

خط رگرسیون•بهترین خط برازش یافته خط حاصل از روش حداقل مربعات(least squares)

دانشگاه صنعت آب و برق 14

0 1y b bx= +

0 1Y Xb b e= + +

Page 15: همبستگی و رگرسیون Correlation and Regression

دانشگاه صنعت آب و برق 15

Page 16: همبستگی و رگرسیون Correlation and Regression

روش حداقل مربعات برای بیان روش حداقل مربعات، باقی مانده

را در نظر بگیرید که به صورت زیر است: واضح است که باید مجموع مربع خطا حداقل

شود. یعنی

اگر معادله خط را در رابطه باال جایگذاریکنید، نتیجه می شود که:

دانشگاه صنعت آب و برق 16

ˆi i ie Y Y= -

2

1

ˆmin ) (n

i ii

F Y Y=

= -å

20 1

1

) (n

i ii

F b bX Y=

= + -å

Page 17: همبستگی و رگرسیون Correlation and Regression

دنباله روش حداقل مربعات برای حداقل نمودن عبارتF باید از آن

مشتق گرفت و مساوی صفر قرار داد.

تقسیم کنید و 2اگر طرفین معادالت را بر جابجایی های الزم صورت گیرد، آنگاه به

معادالت زیر می رسید که به معادالت نرمال شهرت دارند.

دانشگاه صنعت آب و برق 17

0 110

0 111

2 ) ( 0

2 ) ( 0

n

i iin

i i ii

Fb bX Y

bF

b bX Y Xb

=

=

¶= + - =

¶¶

= + - =¶

å

å

0 12

0 1

nb b X Y

b X b X XY

+ =

+ =å å

å å å

Page 18: همبستگی و رگرسیون Correlation and Regression

روابط برای محاسبه ضرایب معادله

:محاسبه شیب خط

:محاسبه عرض از مبداء

دانشگاه صنعت آب و برق 18

0 1b y bx= -

1 1 1

1 2

2

1 1

n n n

i i i ii i i

n n

i ii i

n xy x y

b

n x x

= = =

= =

æ ö æ öæ öç ÷ ç ÷ç ÷-ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷è ø è øè ø=

æ ö æ öç ÷ ç ÷-ç ÷ ç ÷ç ÷ ç ÷ç ÷ ç ÷è ø è ø

å å å

å å

Page 19: همبستگی و رگرسیون Correlation and Regression

نشان گذاری های مهم در رگرسیون

دانشگاه صنعت آب و برق 19

1

mean xn

i

i

xx

n=

= å

1

mean yn

i

i

yy

n=

= å

2

1

) ( sum of squares yn

y ii

SS y y=

= -å

2

1

) ( sum of squares xn

x ii

SS x x=

= -å

1

) () ( sum of x,y cross productsn

xy i ii

S x x y y=

= - -å

Page 20: همبستگی و رگرسیون Correlation and Regression

دنباله نشان گذاری های مهم در رگرسیون

دانشگاه صنعت آب و برق 20

1 1The estimate of )slope(xy

x

Sb

SSb=

0 1 0The estimate of )intercept(b y bx b= -

ˆ The estimated residual obs. ii i ie y y= -

2

1

sum of squares errorn

e ii

SS e=

= å2

2 2

1

The estimate of 2

ni

e ei

eS

ns

=

=-å

Page 21: همبستگی و رگرسیون Correlation and Regression

دنباله نشان گذاری های مهم در رگرسیون

دانشگاه صنعت آب و برق 21

1 1) ( standard error of e

e

x

SS

SSb b=

2

0 0

1) ( standard error of

ex

xS

n SSb b= +

Page 22: همبستگی و رگرسیون Correlation and Regression

نمودار معادله رگرسیون

دانشگاه صنعت آب و برق 22

Page 23: همبستگی و رگرسیون Correlation and Regression

برآوردها در برآورد مقدارy بر اساس x داده شده، به

موارد زیر توجه کنید.همبستگی خطی معنی داری وجود ندارد. بنابراین •

است.y برابر با میانگین yبهترین برآورد اگر همبستگی خطی معنی داری وجود داشت، •

با جایگزین نمودن yآنگاه بهترین برآورد مقدار در داخل معادله رگرسیون بدست xمقدار می آید.

دانشگاه صنعت آب و برق 23

Page 24: همبستگی و رگرسیون Correlation and Regression

مثال مقدارy به ازای x=0.5 را در مثال زیر بدست

آورید.

دانشگاه صنعت آب و برق 24

0.27

2

1.41

3

2.19

3

2.83

6

2.19

4

1.81

2

0.85

1

3.05

5

x Plastic (lb)

y Household

b0

= 0.549

b1

= 1.48

ŷ = 0.549 + 1.48 (0.50)

ŷ = 1.3

Page 25: همبستگی و رگرسیون Correlation and Regression

خاصیت باقیمانده ها و حداقل مربعات

باقیمانده مقدار y را گویند، که y-ŷ( اختالف x,y)برای زوج •

مقدار برآورد شده می باشند.ŷمشاهده شده و حداقل مربعات

خط راست رگرسیون بر اساس حداقل مربع •باقیمانده ها ترسیم می شود.

دانشگاه صنعت آب و برق 25

Page 26: همبستگی و رگرسیون Correlation and Regression

تعاریفانحراف کل

( و x,y یعنی فاصله بین نقطه )y-yفاصله عمودی •خط افقی که از میانگین نمونه می گذرد.

انحراف تبیین شده و خطی که ŷ یعنی فاصله بین ŷ-yفاصله عمودی •

می گذرد.yاز میانگین نمونه انحراف تبیین نشده

( و x,y) یعنی فاصله بین نقطه y-ŷفاصله عمودی •خط رگرسیون

دانشگاه صنعت آب و برق 26

Page 27: همبستگی و رگرسیون Correlation and Regression

شکل مربوط به تعاریف

دانشگاه صنعت آب و برق 27

Total

deviation

(y - y)

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Unexplained

deviation

(y - ŷ)

Explained

deviation

(ŷ - y)

(5, 19)

(5, 13)

(5, 9)

ŷ= 3 + 2x

y = 9

y

x

0 1 2 3 4 5 6 7 8 9

Page 28: همبستگی و رگرسیون Correlation and Regression

ŷ و y، میانگین yروابط بین

دانشگاه صنعت آب و برق 28

ˆ ˆ) ( ) ( ) (y y y y y y- = - + -انحراف کل

انحراف تبیین شده انحراف تبیین

نشده

2 2 2

1 1 1

ˆ ˆ) ( ) ( ) (n n n

i i i

y y y y y y= = =

- = - + -å å å

تغییرات کل تغییرات تبیین شده تغییرات تبیین نشده

tSS reg

SS resSS

Page 29: همبستگی و رگرسیون Correlation and Regression

تعریف ضریب تعیین

دانشگاه صنعت آب و برق 29

2

2 1

2

1

ˆ) (explained variation

total variation) (

n

i

n

i

y yr

y y

=

=

-= =

-

å

å

2 13.83661 13.8366113.83661 5.663385 19.50.70957

r = =+

=

2 reg

reg res

SSr

SS SS=

+

Page 30: همبستگی و رگرسیون Correlation and Regression

دو آزمون معنی دار بودن مقدارr=0.8423 محاسبه شده است. مقدار r

% با استفاده از 5با سطح معنی دار بودن می باشد، که 0.707جدول مربوطه برابر با

است. بنابراین همبستگی 0.707<0.8423معنی دار می باشد.

اگرn تعداد نمونه ها و k تعداد متغیرهای را به صورت Fمستقل باشد، می توان آزمون

زیر نوشت.

که در آنdf1=k و df2=n-k-1 .دانشگاه صنعت آب و برق است 30

2

1 1

2

22

1

reg

res

SS Rdf df

SS Rdfdf

F-

= =

Page 31: همبستگی و رگرسیون Correlation and Regression

دنباله دو آزمون معنی دار بودن اکنون اگر مقدارF را محاسبه کنید، نتیجه

می شود که:

اکنونF(0.95,1,6)=5.987 با استفاده از جدول % است. مالحظه 5در سطح معنی دار

است و مدل 5.987<14.659می شود که مذکور رد نمی شود.

دانشگاه صنعت آب و برق 31

13.836611

5.6633856

14.659

F =

=

Page 32: همبستگی و رگرسیون Correlation and Regression

خطای استاندارد برآورد خطای استاندارد برآورد به صورت ریاضی برابر

است:

که درجه آزادی است و برابر با تعداد نمونه ها منهای تعداد پارامترهای برآورد شده است. اگر معادله خط

است.=n-2را در نظر بگیرید اگرSe نزدیک Sy باشد، رگرسیون موفق نیست. اگر Se

کوچکتر باشد و نزدیک به صفر Syبه اندازه کافی از باشد، آنگاه رگرسیون مناسب به نظر می رسد.

دانشگاه صنعت آب و برق 32

2

1

ˆ) (n

i ii

e

Y YS

n=

-=

å

21e y

S S R= -

Page 33: همبستگی و رگرسیون Correlation and Regression

فاصله اطمینان برآورد در مورد خط

خطای استاندارد برآورد برآورد ŷ مشاهده شده و yاختالفات بین مقدار •

شده، یک خطای استاندارد را موجب می شود.

فاصله ای که می توان برایy در نظر گرفت به صورت زیر است:

دانشگاه صنعت آب و برق 33

2

1

ˆ) (

2

n

i ii

e

y yS

n=

-=

-

å

ˆ ˆy E y y E- < < +

Page 34: همبستگی و رگرسیون Correlation and Regression

Eمیزان مقدارE:به صورت زیر است

که در آنx0 مقداری است که به جای x در حاصل ŷمعادله رگرسیون قرار می دهیم تا

گردد.

دانشگاه صنعت آب و برق 34

20

/2, 2

) (11

n ex

x xE t S

n SSa -

-= + +

Page 35: همبستگی و رگرسیون Correlation and Regression

میانگین به عنوان داده

دانشگاه صنعت آب و برق 35

2

2

) (1ˆ 1 g

x

x xy t s

n SSa e

-± + +

x

g10 xbby

Page 36: همبستگی و رگرسیون Correlation and Regression

داده های نزدیک به میانگین

دانشگاه صنعت آب و برق 36

36

x1x)1x( 1x)1x(

g10 xbby

)1xx(y g )1xx(y g

1x 1x

2

2

) (1ˆ 1 g

x

x xy t s

n SSa e

-± + +

2

2

1 1ˆ 1

x

y t sn SSa e

± + +

Page 37: همبستگی و رگرسیون Correlation and Regression

داده های دورترنسبت به میانگین

دانشگاه صنعت آب و برق 37

37

x

g10 xbby

2x)2x( 2x)2x(

2x 2x

2

2

) (1ˆ 1 g

x

x xy t s

n SSa e

-± + +

2

2

1 2ˆ 1

x

y t sn SSa e

± + +

2

2

1 2ˆ 1

x

y t sn SSa e

± + +

Page 38: همبستگی و رگرسیون Correlation and Regression

Eفاصله اطمینان با استفاده از با استفاده از مقدارE می توان یک فاصله

اطمینان برای خط رگرسیون ترسیم نمود.

دانشگاه صنعت آب و برق 38

0 0.5 1 1.5 2 2.5 3 3.5-2

-1

0

12

3

4

56

7

8

910

plastic (lb)

Ho

use

ho

ld

data observedregression lineconfidence intervals %95

Page 39: همبستگی و رگرسیون Correlation and Regression

برای شیب خطفاصله اطمینان فاصله ای که می توان برای1 در نظر گرفت

به صورت زیر است:

که مقدارE:در آن عبارتست از

دانشگاه صنعت آب و برق 39

1 1 1b E b Eb- < < +

/2, 2n e

x

t SE

SS

a -=

Page 40: همبستگی و رگرسیون Correlation and Regression

برای عرض از فاصله اطمینانمبدا خط

فاصله ای که می توان برای0 در نظر گرفت به صورت زیر است:

که مقدارE:در آن عبارتست از

دانشگاه صنعت آب و برق 40

0 0 0b E b Eb- < < +

2

/2, 2

1n e

x

xE t S

n SSa -= +

Page 41: همبستگی و رگرسیون Correlation and Regression

شرایط صحت رگرسیون فرضیاتی که تحت آن مدل رگرسیون صحت

دارد.باقی مانده ها از یکدیگر مستقل باشند.•میانگین آن ها صفر باشد.•واریانس آن ها مقداری ثابت است.•باقی مانده ها به طور نرمال توزیع شده اند.•

،اگر یکی از مفروضات فوق برقرار نباشدمی توان مدعی شد که ساختار مدل مناسب

نیست. .اگر مدل را به صورت زیر در نظر گیرید

نتیجه می شود. دانشگاه صنعت آب و برق 41

20 1

)0, cte(e

Y X Nb b e e s= + + =: