15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. izsledvane na... · гл.ас. Хр....

26
Приложна математика пролетен триместър 2011/2012 уч.год. гл.ас. Хр. Кулина, катедра "Приложна математика и моделиране" [email protected] 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. 1. Статистическа зависимост. Главната задача на статистическите анализи е установяване на количествени връзки от статистически характер между наблюдаваните величини. Да разгледаме основния случай на две величини X и Y. Извадката трябва да включва едновременни наблюдения (x 1 , y 1 ), (x 2 , y 2 ), ..., (x n , y n ), които обикновено се представят в таблица: x i x 1 x 2 x n y i y 1 y 2 y n

Upload: others

Post on 20-Sep-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

Приложна математика пролетен триместър 2011/2012 уч.год.

гл.ас. Хр. Кулина, катедра "Приложна математика и моделиране" – [email protected]

15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ.

1. Статистическа зависимост. Главната задача на статистическите анализи е

установяване на количествени връзки от статистически характер между

наблюдаваните величини. Да разгледаме основния случай на две величини X и Y.

Извадката трябва да включва едновременни наблюдения (x1, y1), (x2, y2), ..., (xn, yn ),

които обикновено се представят в таблица:

xi x1 x2 … xn

yi y1 y2 … yn

Page 2: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

В този случай казваме, че е дадено съвместното разпределение на X и Y. Ако

съвместното разпределение на метричните величини X и Y е нормално,

статистическата зависимост между тях, заложена в данните от извадката, се

изразява т.н. извадков коефициент на линейна корелация или още извадков

корелационен коефициент на Пирсън и се означава с r.

Формулите за пресмятане на извадковия коефициент r са:

n

xxxxSSx i

ii

2

22 )()(

,

n

yyyySSy i

ii

2

22 )()(

,

n

yxyxyyxxSSxy ii

iiii

))(())((

,

Page 3: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

откъдето:

SSySSx

SSxyr .

Това, че цялата взаимна връзка между X и Y в този случай се изразява с едно

единствено число се явява един от многото благоприятни факти, които правят

статистическите модели сравнително лесни за прилагане в сложни ситуации.

Пресметнатият по формулата коефициент е точкова оценка за теоретичния

(популационния) коефициент на корелация, означаван с ρ.

Двете величини X и Y са статистически независими, когато са разпределени

независимо, т.е. когато разпределението на едната не съдържа информация за

разпределението на другата. Статистическата независимост означава, че по

Page 4: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

наблюденията над едната променлива не можем да правим заключения за

поведението на другата променлива.

Статистическата независимост има взаимен характер. При нормално съвместно

разпределение независимостта означава, че популационният коефициент на

линейна корелация ρ е равен на нула. Това, разбира се, не означава, че

извадковият коефициент r ще бъде винаги равен на нула, понеже във всяка извадка

винаги има елементи на случайност. Затова се прилагат тестове за проверка на

хипотези. Ако обаче ρ = 0, то с нарастване обема на извадката стойностите на r ще

се стремят към нула. Така ние изследваме зависимостта, отнесена към

популацииите, а данните от извадката служат за нейното оценяване.

Коефициентите на линейна корелация ρ и r представляват числа между −1 и 1,

като самите крайни стойности −1 и 1 на практика не се достигат. Линейният

Page 5: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

коефициент на корелация представлява индикатор за линейната статистическа

зависимост между величините, която зависимост се характеризира с посока и сила.

По тази причина корелационният коефициент се интерпретира по знак и

абсолютна стойност. Знакът "+ " означава наличие на право пропорционална

връзка – нарастването при едната променлива е свързано с нарастване при другата,

а знакът "–" означава наличие на обратно пропорционална връзка – нарастването

при едната променлива е свързано с намаляване при другата. Колкото е по-голяма

абсолютната стойност на корелационния коефициент (максимална абсолютна

стойност 1), толкова е по-силно изразена съответната връзка. Линейните

преобразования и на двете променливи (с положителни множители) не променят

стойността на корелационния коефициент, което всъщност представлява неговото

най-важно математическо свойство.

Page 6: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

Задача 1. За производство на химически продукт са получени следните данни

за зависимостта на изходния продукт Y (кг/ч) от температурата на реакция X (C).

Да се изследва има ли статистическа зависимост между X и Y и да се оцени

значимостта на извадковия корелационен коефициент с ниво на значимост = 0,05.

а)

x 28 35 40 29 53 58 65 75

y 5,3 20,7 21,7 9,2 55,4 64,3 79,1 101

Табл.1.

Решение: Построяваме таблицата, изчисляваме сумите и заместваме във

формулите за r.

Page 7: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

i xi yi xi2 yi

2 xi.yi

1 28 5,3 784 28,09 148,4

2 35 20,7 1225 428,49 724,5

3 40 21,7 1600 470,89 868

4 29 9,2 841 84,64 266,8

5 53 55,4 2809 3069,16 2936,2

6 58 64,3 3364 4134,49 3729,4

7 65 79,1 4225 6256,81 5141,5

8 75 101 5625 10201 7575

Суми 383 356,7 20473 24673,57 21389,8

Page 8: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

По формулите: n = 8,

n

xxSSx i

i

2

2 )(875,2136

8

383.38320473

n

yySSy i

i

2

2 )(20875,8769

8

7,356.7,35657,24673 ,

n

yxyxSSxy ii

ii

))((7875,4312

8

7,356.3838,21389 ,

996,020875,8769875,2136

7875,4312

SSySSx

SSxyr .

Практическо правило: Ако r >0,85, то може да се предполага, че между X и Y

има зависимост, но това не е достатъчно.

Page 9: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

След определянето на корелационния коефициент r се прави проверка за

неговата значимост. При предположение за нормално разпределени ГС:

X~N(m1,1), Y~N(m2,2) се разглеждат хипотезите:

H0: =0, т.е. няма корелационна зависимост между X и Y;

H1: 0, т.е. има корелационна зависимост между X и Y.

За проверката на тези хипотези се прилага t-статистиката по разпределението на

Стюдънт. Това става по следния начин:

1. Най-напред като се използва r се пресмята

2876,27

2

1 2

n

r

rt .

Page 10: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

След това се намира t критично - квантил на t-разпределението на Стюдънт с n-2

степени на свобода и порядък 2

1

q , където е избрано ниво на значимост,

напр.=0,05.

За да направим оценката на хипотезите от таблицата на t разпределението на

Стюдънт при даденото ниво на значимост =0,05, за n – 2 = 6 степени на свобода

и порядък на квантила 2

1

q =0,975, намираме t кр. = 2.4469136.

Решаващо правило: Ако |t| > t кр. , то се отхвърля основната хипотеза H0 и се

приема, че X и Y са корелационно зависими. Ако |t| < t кр. , то се приема, че X и Y са

корелационно независими.

Тъй като t>tкр., заключаваме, че съществува корелационна зависимост между X и

Y.

Page 11: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

Page 12: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

Page 13: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

2. Линеен регресионен анализ. Този вид статистически анализ е предназначен

да даде количествен израз на ефектите на дадена група метрични променливи X1,

X2, ..., Xk, които условно се наричат независими (independent) върху друга

променлива Y, която условно се нарича зависима (dependent). Независимите

променливи се наричат понякога и фактори.

Търси се функционална връзка от вида

(1) y= f (x1 , x2 , , xk),

Page 14: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

която по статистически обоснован начин дава израз на ефектите на отделните

независими променливи върху зависимата.

Уравнението (1) се нарича уравнение на регресия на Y върху X1 , X2 , ..., Xk и се

получава на база усредняване стойностите на Y при фиксирани стойности на X1 , X2

, ..., Xk.

Когато взаимното популационно разпределение на всичките променливи е

нормално, уравнението на регресия (1) се оказва линейно

(2) y = a0 + a1x1 + a2x2 +…+ akx ,

където a0, a1, a2, …, ak са коефициентите на уравнението. Тези коефициенти лесно

се интерпретират по знак. Ако например ai > 0, то нарастването на xi води до

нарастване на y, ако ai < 0, то нарастването на xi води до намаляване на y . По-

Page 15: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

големите по абсолютна стойност коефициенти са свързани с по-голяма промяна

при зависимата променлива.

Съпоставката по абсолютна стойност на тези коефициенти като критерий

доколко е голям ефектът на отделните независими променливи трябва да отчита и

други обстоятелства, свързани с дисперсиите на променливите. По тази причина е

по-удобно всичките променливи да бъдат приведени към z -стойности (нормално

стандартно разпределение) вместо (2), при което се получава уравнението

(3) k

kk

k

ys

xx

s

xx

s

xx

s

yy

...

2

222

1

111

в което свободният коефициент е равен на нула, а коефициентите 1, 2, …, k се

наричат стандартизирани коефициенти на регресия. Стандартизираните

коефициенти се интерпретират по знак, както преди, но вече са съпоставими и по

абсолютна стойност.

Page 16: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

За всеки от коефициентите на регресия се пресмята значимост, като фактически

се проверява нулева хипотеза, че съответният популационен коефициент е равен на

нула. При тези хипотези проверяващата статистика има разпределение на Стюдънт

t(n − k −1), където n е обемът на извадката. Ако някой от коефициентите се получи с

пренебрежима значимост, то съответната независима променлива може да бъде

изключена от анализа без съществена загуба на информация.

Ако с t-статистиката се установи наличието на зависимост, тя може да се

определи явно като формула с различни методи за приближаване на функции. Един

от най-използваните е методът на най-малките квадрати (МНМК). Когато

графиката на данните прилича на отсечка, приближаваща функция се търси като

полином от първа степен във вида xaaxy10

)(ˆ . Коефициентите 0

а , 1

а се

определят от линейната система

Page 17: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

n

iii

n

ii

n

ii

n

ii

n

ii

yxaxax

yaxna

11

1

2

01

11

10

.

а) Като използваме намерените суми

n

iii

n

i

n

iii

n

ii

yxyxx11 1

2

1

8,21389,7,356,20473,383 и заместим в системата за

линейна регресия, получаваме системата:

8,2138920473383

7,3563838

10

10

aa

aa.

Можем да решим системата например по метода на Крамер. Пресмятаме

детерминантите

= 17095383.38320473.820473383

3838 ,

Page 18: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

1= 3,8895748,21389.38320473.7,356204738,21389

3837,356 ,

2= 3,34502383.7,3568,21389.88,21389383

7,3568 .

Тогава 037,5217095

3,8895741

0

a , 018,2

17095

3,345022

1

a .

Уравнението на линейна регресия е: xxy 018,2037,52)(ˆ .

Coefficientsa

Model

Unstandardized Coefficients Standardized Coefficients

t Sig. B Std. Error Beta

1 (Constant) -52,037 3,598 -14,464 ,000

x 2,018 ,071 ,996 28,379 ,000

Page 19: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

Coefficientsa

Model

Unstandardized Coefficients Standardized Coefficients

t Sig. B Std. Error Beta

1 (Constant) -52,037 3,598 -14,464 ,000

x 2,018 ,071 ,996 28,379 ,000

a. Dependent Variable: y

Регресионният коефициент 037,520

a (свободният член в регресионното

уравнение) е означен като (Constant) и е статистически значим. Това се вижда от

неговото равнище на значимост (Sig T), което е 0 и е по – малко от грешката α =

0.05.

Регресионният коефициент пред факторната променлива е 018,21a Той е

статистически значим, тъй като неговото равнище на значимост (Sig T) e 0.00 и е по

– малко от грешката α = 0.05.

Page 20: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

За този коефициент е изчислен и съответният му стандартизиран коефициент,

наречен Beta. Най – често той служи за сравняване влиянието на различните

факторни променливи, когато те са две или повече. Най – силно е влиянието на

онзи фактор, чийто стандартизиран регресионен коефициент Beta е най – голям.

Начертаването на корелограмата, представяща зависимостта между X и Y с

пакета SPSS, става по следния начин: от главното меню избираме последователно

Graphs, Scatter, Simple Scatter и натискаме клавиша Define. В полето Simple

Scatterplot маркираме променливата Y и я изпращаме в полето Y – Axis, след това

маркираме X и я изпращаме в полето X – Axis. Накрая с ОК се изчертава

корелограмата:

б)

x 51 32 80 73 64 45 83 44 93

Page 21: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

y 52,7 15,2 89,5 94,8 76 39,3 114,8 36,5 137,4

Квадратична регресия. Търси се приближаваща функция като полином от

втора степен:

2

210)(ˆ xаxaaxy . Коефициентите

0а ,

1а и

2а се намират от линейната

система

n

iii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

yxaxaxax

yxaxaxax

yaxaxna

1

2

21

4

11

3

01

2

12

1

3

11

2

01

12

1

2

11

0

Page 22: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

Задача 2. Считайки, че зависимостта между променливите е от вида 2

210)(ˆ xаxaaxy , да се намерят параметрите по следните извадки.

a)

x 0 2 4 6 8 10

y 5 -1 -0,5 1,5 4,5 8,5

i xi yi xi2 yi

2 xi.yi xi

3 xi

4 xi

2.yi

1 0 5 0 25 0 0 0 0

2 2 -1 4 1 -2 8 16 -4

3 4 -0,5 16 0,25 -2 64 256 -8

Page 23: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

4 6 1,5 36 2,25 9 216 1296 54

5 8 4,5 64 20,25 36 512 4096 288

6 10 8,5 100 72,25 85 1000 10000 850

Суми 30 18 220 121 126 1800 15664 1180

1180156641800220

126180022030

18220306

210

210

210

aaa

aaa

aaa

a0=4, a1= -2,16429, a2=0,267857

Model Summary and Parameter Estimates

Dependent

Variable:y

Page 24: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

Equatio

n

Model Summary Parameter Estimates

R

Square F df1 df2 Sig.

Consta

nt b1 b2

Linear ,276 1,527 1 4 ,284 ,429 ,514

Quadra

tic ,916 16,355 2 3 ,024 4,000 -2,164 ,268

The independent variable is x.

Page 25: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

Page 26: 15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. Izsledvane na... · гл.ас. Хр. Кулина – kulina@uni-plovdiv.bg откъдето: SSx SSy SSxy r. Това, че

гл.ас. Хр. Кулина – [email protected]

б)

x 26 30 34 38 42 46 50

y 3,94 4,60 5,67 6,93 8,25 7,73 10,55