15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. izsledvane na... · гл.ас. Хр....

Приложна математика пролетен триместър 2011/2012 уч.год.

гл.ас. Хр. Кулина, катедра "Приложна математика и моделиране" – [email protected]

15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ.

1. Статистическа зависимост. Главната задача на статистическите анализи е

установяване на количествени връзки от статистически характер между

наблюдаваните величини. Да разгледаме основния случай на две величини X и Y.

Извадката трябва да включва едновременни наблюдения (x1, y1), (x2, y2), ..., (xn, yn ),

които обикновено се представят в таблица:

xi x1 x2 … xn

yi y1 y2 … yn

гл.ас. Хр. Кулина – [email protected]

В този случай казваме, че е дадено съвместното разпределение на X и Y. Ако

съвместното разпределение на метричните величини X и Y е нормално,

статистическата зависимост между тях, заложена в данните от извадката, се

изразява т.н. извадков коефициент на линейна корелация или още извадков

корелационен коефициент на Пирсън и се означава с r.

Формулите за пресмятане на извадковия коефициент r са:

n

xxxxSSx i

ii

2

22 )()(

,

n

yyyySSy i

ii

2

22 )()(

,

n

yxyxyyxxSSxy ii

iiii

))(())((

,


откъдето:

SSySSx

SSxyr .

Това, че цялата взаимна връзка между X и Y в този случай се изразява с едно

единствено число се явява един от многото благоприятни факти, които правят

статистическите модели сравнително лесни за прилагане в сложни ситуации.

Пресметнатият по формулата коефициент е точкова оценка за теоретичния

(популационния) коефициент на корелация, означаван с ρ.

Двете величини X и Y са статистически независими, когато са разпределени

независимо, т.е. когато разпределението на едната не съдържа информация за

разпределението на другата. Статистическата независимост означава, че по


наблюденията над едната променлива не можем да правим заключения за

поведението на другата променлива.

Статистическата независимост има взаимен характер. При нормално съвместно

разпределение независимостта означава, че популационният коефициент на

линейна корелация ρ е равен на нула. Това, разбира се, не означава, че

извадковият коефициент r ще бъде винаги равен на нула, понеже във всяка извадка

винаги има елементи на случайност. Затова се прилагат тестове за проверка на

хипотези. Ако обаче ρ = 0, то с нарастване обема на извадката стойностите на r ще

се стремят към нула. Така ние изследваме зависимостта, отнесена към

популацииите, а данните от извадката служат за нейното оценяване.

Коефициентите на линейна корелация ρ и r представляват числа между −1 и 1,

като самите крайни стойности −1 и 1 на практика не се достигат. Линейният


коефициент на корелация представлява индикатор за линейната статистическа

зависимост между величините, която зависимост се характеризира с посока и сила.

По тази причина корелационният коефициент се интерпретира по знак и

абсолютна стойност. Знакът "+ " означава наличие на право пропорционална

връзка – нарастването при едната променлива е свързано с нарастване при другата,

а знакът "–" означава наличие на обратно пропорционална връзка – нарастването

при едната променлива е свързано с намаляване при другата. Колкото е по-голяма

абсолютната стойност на корелационния коефициент (максимална абсолютна

стойност 1), толкова е по-силно изразена съответната връзка. Линейните

преобразования и на двете променливи (с положителни множители) не променят

стойността на корелационния коефициент, което всъщност представлява неговото

най-важно математическо свойство.


Задача 1. За производство на химически продукт са получени следните данни

за зависимостта на изходния продукт Y (кг/ч) от температурата на реакция X (C).

Да се изследва има ли статистическа зависимост между X и Y и да се оцени

значимостта на извадковия корелационен коефициент с ниво на значимост = 0,05.

а)

x 28 35 40 29 53 58 65 75

y 5,3 20,7 21,7 9,2 55,4 64,3 79,1 101

Табл.1.

Решение: Построяваме таблицата, изчисляваме сумите и заместваме във

формулите за r.


i xi yi xi2 yi

2 xi.yi

1 28 5,3 784 28,09 148,4

2 35 20,7 1225 428,49 724,5

3 40 21,7 1600 470,89 868

4 29 9,2 841 84,64 266,8

5 53 55,4 2809 3069,16 2936,2

6 58 64,3 3364 4134,49 3729,4

7 65 79,1 4225 6256,81 5141,5

8 75 101 5625 10201 7575

Суми 383 356,7 20473 24673,57 21389,8


По формулите: n = 8,

n

xxSSx i

i

2

2 )(875,2136

8

383.38320473

n

yySSy i

i

2

2 )(20875,8769

8

7,356.7,35657,24673 ,

n

yxyxSSxy ii

ii

))((7875,4312

8

7,356.3838,21389 ,

996,020875,8769875,2136

7875,4312

SSySSx

SSxyr .

Практическо правило: Ако r >0,85, то може да се предполага, че между X и Y

има зависимост, но това не е достатъчно.


След определянето на корелационния коефициент r се прави проверка за

неговата значимост. При предположение за нормално разпределени ГС:

X~N(m1,1), Y~N(m2,2) се разглеждат хипотезите:

H0: =0, т.е. няма корелационна зависимост между X и Y;

H1: 0, т.е. има корелационна зависимост между X и Y.

За проверката на тези хипотези се прилага t-статистиката по разпределението на

Стюдънт. Това става по следния начин:

1. Най-напред като се използва r се пресмята

2876,27

2

1 2

n

r

rt .


След това се намира t критично - квантил на t-разпределението на Стюдънт с n-2

степени на свобода и порядък 2

1

q , където е избрано ниво на значимост,

напр.=0,05.

За да направим оценката на хипотезите от таблицата на t разпределението на

Стюдънт при даденото ниво на значимост =0,05, за n – 2 = 6 степени на свобода

и порядък на квантила 2

1

q =0,975, намираме t кр. = 2.4469136.

Решаващо правило: Ако |t| > t кр. , то се отхвърля основната хипотеза H0 и се

приема, че X и Y са корелационно зависими. Ако |t| < t кр. , то се приема, че X и Y са

корелационно независими.

Тъй като t>tкр., заключаваме, че съществува корелационна зависимост между X и

Y.


2. Линеен регресионен анализ. Този вид статистически анализ е предназначен

да даде количествен израз на ефектите на дадена група метрични променливи X1,

X2, ..., Xk, които условно се наричат независими (independent) върху друга

променлива Y, която условно се нарича зависима (dependent). Независимите

променливи се наричат понякога и фактори.

Търси се функционална връзка от вида

(1) y= f (x1 , x2 , , xk),


която по статистически обоснован начин дава израз на ефектите на отделните

независими променливи върху зависимата.

Уравнението (1) се нарича уравнение на регресия на Y върху X1 , X2 , ..., Xk и се

получава на база усредняване стойностите на Y при фиксирани стойности на X1 , X2

, ..., Xk.

Когато взаимното популационно разпределение на всичките променливи е

нормално, уравнението на регресия (1) се оказва линейно

(2) y = a0 + a1x1 + a2x2 +…+ akx ,

където a0, a1, a2, …, ak са коефициентите на уравнението. Тези коефициенти лесно

се интерпретират по знак. Ако например ai > 0, то нарастването на xi води до

нарастване на y, ако ai < 0, то нарастването на xi води до намаляване на y . По-


големите по абсолютна стойност коефициенти са свързани с по-голяма промяна

при зависимата променлива.

Съпоставката по абсолютна стойност на тези коефициенти като критерий

доколко е голям ефектът на отделните независими променливи трябва да отчита и

други обстоятелства, свързани с дисперсиите на променливите. По тази причина е

по-удобно всичките променливи да бъдат приведени към z -стойности (нормално

стандартно разпределение) вместо (2), при което се получава уравнението

(3) k

kk

k

ys

xx

s

xx

s

xx

s

yy

...

2

222

1

111

в което свободният коефициент е равен на нула, а коефициентите 1, 2, …, k се

наричат стандартизирани коефициенти на регресия. Стандартизираните

коефициенти се интерпретират по знак, както преди, но вече са съпоставими и по

абсолютна стойност.


За всеки от коефициентите на регресия се пресмята значимост, като фактически

се проверява нулева хипотеза, че съответният популационен коефициент е равен на

нула. При тези хипотези проверяващата статистика има разпределение на Стюдънт

t(n − k −1), където n е обемът на извадката. Ако някой от коефициентите се получи с

пренебрежима значимост, то съответната независима променлива може да бъде

изключена от анализа без съществена загуба на информация.

Ако с t-статистиката се установи наличието на зависимост, тя може да се

определи явно като формула с различни методи за приближаване на функции. Един

от най-използваните е методът на най-малките квадрати (МНМК). Когато

графиката на данните прилича на отсечка, приближаваща функция се търси като

полином от първа степен във вида xaaxy10

)(ˆ . Коефициентите 0

а , 1

а се

определят от линейната система


n

iii

n

ii

n

ii

n

ii

n

ii

yxaxax

yaxna

11

1

2

01

11

10

.

а) Като използваме намерените суми

n

iii

n

i

n

iii

n

ii

yxyxx11 1

2

1

8,21389,7,356,20473,383 и заместим в системата за

линейна регресия, получаваме системата:

8,2138920473383

7,3563838

10

10

aa

aa.

Можем да решим системата например по метода на Крамер. Пресмятаме

детерминантите

= 17095383.38320473.820473383

3838 ,


1= 3,8895748,21389.38320473.7,356204738,21389

3837,356 ,

2= 3,34502383.7,3568,21389.88,21389383

7,3568 .

Тогава 037,5217095

3,8895741

0

a , 018,2

17095

3,345022

1

a .

Уравнението на линейна регресия е: xxy 018,2037,52)(ˆ .

Coefficientsa

Model

Unstandardized Coefficients Standardized Coefficients

t Sig. B Std. Error Beta

1 (Constant) -52,037 3,598 -14,464 ,000

x 2,018 ,071 ,996 28,379 ,000


Coefficientsa

Model

Unstandardized Coefficients Standardized Coefficients

t Sig. B Std. Error Beta

1 (Constant) -52,037 3,598 -14,464 ,000

x 2,018 ,071 ,996 28,379 ,000

a. Dependent Variable: y

Регресионният коефициент 037,520

a (свободният член в регресионното

уравнение) е означен като (Constant) и е статистически значим. Това се вижда от

неговото равнище на значимост (Sig T), което е 0 и е по – малко от грешката α =

0.05.

Регресионният коефициент пред факторната променлива е 018,21a Той е

статистически значим, тъй като неговото равнище на значимост (Sig T) e 0.00 и е по

– малко от грешката α = 0.05.


За този коефициент е изчислен и съответният му стандартизиран коефициент,

наречен Beta. Най – често той служи за сравняване влиянието на различните

факторни променливи, когато те са две или повече. Най – силно е влиянието на

онзи фактор, чийто стандартизиран регресионен коефициент Beta е най – голям.

Начертаването на корелограмата, представяща зависимостта между X и Y с

пакета SPSS, става по следния начин: от главното меню избираме последователно

Graphs, Scatter, Simple Scatter и натискаме клавиша Define. В полето Simple

Scatterplot маркираме променливата Y и я изпращаме в полето Y – Axis, след това

маркираме X и я изпращаме в полето X – Axis. Накрая с ОК се изчертава

корелограмата:

б)

x 51 32 80 73 64 45 83 44 93


y 52,7 15,2 89,5 94,8 76 39,3 114,8 36,5 137,4

Квадратична регресия. Търси се приближаваща функция като полином от

втора степен:

2

210)(ˆ xаxaaxy . Коефициентите

0а ,

1а и

2а се намират от линейната

система

n

iii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

yxaxaxax

yxaxaxax

yaxaxna

1

2

21

4

11

3

01

2

12

1

3

11

2

01

12

1

2

11

0


Задача 2. Считайки, че зависимостта между променливите е от вида 2

210)(ˆ xаxaaxy , да се намерят параметрите по следните извадки.

a)

x 0 2 4 6 8 10

y 5 -1 -0,5 1,5 4,5 8,5

i xi yi xi2 yi

2 xi.yi xi

3 xi

4 xi

2.yi

1 0 5 0 25 0 0 0 0

2 2 -1 4 1 -2 8 16 -4

3 4 -0,5 16 0,25 -2 64 256 -8


4 6 1,5 36 2,25 9 216 1296 54

5 8 4,5 64 20,25 36 512 4096 288

6 10 8,5 100 72,25 85 1000 10000 850

Суми 30 18 220 121 126 1800 15664 1180

1180156641800220

126180022030

18220306

210

210

210

aaa

aaa

aaa

a0=4, a1= -2,16429, a2=0,267857

Model Summary and Parameter Estimates

Dependent

Variable:y


Equatio

n

Model Summary Parameter Estimates

R

Square F df1 df2 Sig.

Consta

nt b1 b2

Linear ,276 1,527 1 4 ,284 ,429 ,514

Quadra

tic ,916 16,355 2 3 ,024 4,000 -2,164 ,268

The independent variable is x.


б)

x 26 30 34 38 42 46 50

y 3,94 4,60 5,67 6,93 8,25 7,73 10,55

15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. izsledvane na... · гл.ас. Хр....

Documents