15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ. izsledvane na... · гл.ас. Хр....
TRANSCRIPT
Приложна математика пролетен триместър 2011/2012 уч.год.
гл.ас. Хр. Кулина, катедра "Приложна математика и моделиране" – [email protected]
15. ИЗСЛЕДВАНЕ НА ЗАВИСИМОСТИ.
1. Статистическа зависимост. Главната задача на статистическите анализи е
установяване на количествени връзки от статистически характер между
наблюдаваните величини. Да разгледаме основния случай на две величини X и Y.
Извадката трябва да включва едновременни наблюдения (x1, y1), (x2, y2), ..., (xn, yn ),
които обикновено се представят в таблица:
xi x1 x2 … xn
yi y1 y2 … yn
гл.ас. Хр. Кулина – [email protected]
В този случай казваме, че е дадено съвместното разпределение на X и Y. Ако
съвместното разпределение на метричните величини X и Y е нормално,
статистическата зависимост между тях, заложена в данните от извадката, се
изразява т.н. извадков коефициент на линейна корелация или още извадков
корелационен коефициент на Пирсън и се означава с r.
Формулите за пресмятане на извадковия коефициент r са:
n
xxxxSSx i
ii
2
22 )()(
,
n
yyyySSy i
ii
2
22 )()(
,
n
yxyxyyxxSSxy ii
iiii
))(())((
,
гл.ас. Хр. Кулина – [email protected]
откъдето:
SSySSx
SSxyr .
Това, че цялата взаимна връзка между X и Y в този случай се изразява с едно
единствено число се явява един от многото благоприятни факти, които правят
статистическите модели сравнително лесни за прилагане в сложни ситуации.
Пресметнатият по формулата коефициент е точкова оценка за теоретичния
(популационния) коефициент на корелация, означаван с ρ.
Двете величини X и Y са статистически независими, когато са разпределени
независимо, т.е. когато разпределението на едната не съдържа информация за
разпределението на другата. Статистическата независимост означава, че по
гл.ас. Хр. Кулина – [email protected]
наблюденията над едната променлива не можем да правим заключения за
поведението на другата променлива.
Статистическата независимост има взаимен характер. При нормално съвместно
разпределение независимостта означава, че популационният коефициент на
линейна корелация ρ е равен на нула. Това, разбира се, не означава, че
извадковият коефициент r ще бъде винаги равен на нула, понеже във всяка извадка
винаги има елементи на случайност. Затова се прилагат тестове за проверка на
хипотези. Ако обаче ρ = 0, то с нарастване обема на извадката стойностите на r ще
се стремят към нула. Така ние изследваме зависимостта, отнесена към
популацииите, а данните от извадката служат за нейното оценяване.
Коефициентите на линейна корелация ρ и r представляват числа между −1 и 1,
като самите крайни стойности −1 и 1 на практика не се достигат. Линейният
гл.ас. Хр. Кулина – [email protected]
коефициент на корелация представлява индикатор за линейната статистическа
зависимост между величините, която зависимост се характеризира с посока и сила.
По тази причина корелационният коефициент се интерпретира по знак и
абсолютна стойност. Знакът "+ " означава наличие на право пропорционална
връзка – нарастването при едната променлива е свързано с нарастване при другата,
а знакът "–" означава наличие на обратно пропорционална връзка – нарастването
при едната променлива е свързано с намаляване при другата. Колкото е по-голяма
абсолютната стойност на корелационния коефициент (максимална абсолютна
стойност 1), толкова е по-силно изразена съответната връзка. Линейните
преобразования и на двете променливи (с положителни множители) не променят
стойността на корелационния коефициент, което всъщност представлява неговото
най-важно математическо свойство.
гл.ас. Хр. Кулина – [email protected]
Задача 1. За производство на химически продукт са получени следните данни
за зависимостта на изходния продукт Y (кг/ч) от температурата на реакция X (C).
Да се изследва има ли статистическа зависимост между X и Y и да се оцени
значимостта на извадковия корелационен коефициент с ниво на значимост = 0,05.
а)
x 28 35 40 29 53 58 65 75
y 5,3 20,7 21,7 9,2 55,4 64,3 79,1 101
Табл.1.
Решение: Построяваме таблицата, изчисляваме сумите и заместваме във
формулите за r.
гл.ас. Хр. Кулина – [email protected]
i xi yi xi2 yi
2 xi.yi
1 28 5,3 784 28,09 148,4
2 35 20,7 1225 428,49 724,5
3 40 21,7 1600 470,89 868
4 29 9,2 841 84,64 266,8
5 53 55,4 2809 3069,16 2936,2
6 58 64,3 3364 4134,49 3729,4
7 65 79,1 4225 6256,81 5141,5
8 75 101 5625 10201 7575
Суми 383 356,7 20473 24673,57 21389,8
гл.ас. Хр. Кулина – [email protected]
По формулите: n = 8,
n
xxSSx i
i
2
2 )(875,2136
8
383.38320473
n
yySSy i
i
2
2 )(20875,8769
8
7,356.7,35657,24673 ,
n
yxyxSSxy ii
ii
))((7875,4312
8
7,356.3838,21389 ,
996,020875,8769875,2136
7875,4312
SSySSx
SSxyr .
Практическо правило: Ако r >0,85, то може да се предполага, че между X и Y
има зависимост, но това не е достатъчно.
гл.ас. Хр. Кулина – [email protected]
След определянето на корелационния коефициент r се прави проверка за
неговата значимост. При предположение за нормално разпределени ГС:
X~N(m1,1), Y~N(m2,2) се разглеждат хипотезите:
H0: =0, т.е. няма корелационна зависимост между X и Y;
H1: 0, т.е. има корелационна зависимост между X и Y.
За проверката на тези хипотези се прилага t-статистиката по разпределението на
Стюдънт. Това става по следния начин:
1. Най-напред като се използва r се пресмята
2876,27
2
1 2
n
r
rt .
гл.ас. Хр. Кулина – [email protected]
След това се намира t критично - квантил на t-разпределението на Стюдънт с n-2
степени на свобода и порядък 2
1
q , където е избрано ниво на значимост,
напр.=0,05.
За да направим оценката на хипотезите от таблицата на t разпределението на
Стюдънт при даденото ниво на значимост =0,05, за n – 2 = 6 степени на свобода
и порядък на квантила 2
1
q =0,975, намираме t кр. = 2.4469136.
Решаващо правило: Ако |t| > t кр. , то се отхвърля основната хипотеза H0 и се
приема, че X и Y са корелационно зависими. Ако |t| < t кр. , то се приема, че X и Y са
корелационно независими.
Тъй като t>tкр., заключаваме, че съществува корелационна зависимост между X и
Y.
гл.ас. Хр. Кулина – [email protected]
гл.ас. Хр. Кулина – [email protected]
гл.ас. Хр. Кулина – [email protected]
2. Линеен регресионен анализ. Този вид статистически анализ е предназначен
да даде количествен израз на ефектите на дадена група метрични променливи X1,
X2, ..., Xk, които условно се наричат независими (independent) върху друга
променлива Y, която условно се нарича зависима (dependent). Независимите
променливи се наричат понякога и фактори.
Търси се функционална връзка от вида
(1) y= f (x1 , x2 , , xk),
гл.ас. Хр. Кулина – [email protected]
която по статистически обоснован начин дава израз на ефектите на отделните
независими променливи върху зависимата.
Уравнението (1) се нарича уравнение на регресия на Y върху X1 , X2 , ..., Xk и се
получава на база усредняване стойностите на Y при фиксирани стойности на X1 , X2
, ..., Xk.
Когато взаимното популационно разпределение на всичките променливи е
нормално, уравнението на регресия (1) се оказва линейно
(2) y = a0 + a1x1 + a2x2 +…+ akx ,
където a0, a1, a2, …, ak са коефициентите на уравнението. Тези коефициенти лесно
се интерпретират по знак. Ако например ai > 0, то нарастването на xi води до
нарастване на y, ако ai < 0, то нарастването на xi води до намаляване на y . По-
гл.ас. Хр. Кулина – [email protected]
големите по абсолютна стойност коефициенти са свързани с по-голяма промяна
при зависимата променлива.
Съпоставката по абсолютна стойност на тези коефициенти като критерий
доколко е голям ефектът на отделните независими променливи трябва да отчита и
други обстоятелства, свързани с дисперсиите на променливите. По тази причина е
по-удобно всичките променливи да бъдат приведени към z -стойности (нормално
стандартно разпределение) вместо (2), при което се получава уравнението
(3) k
kk
k
ys
xx
s
xx
s
xx
s
yy
...
2
222
1
111
в което свободният коефициент е равен на нула, а коефициентите 1, 2, …, k се
наричат стандартизирани коефициенти на регресия. Стандартизираните
коефициенти се интерпретират по знак, както преди, но вече са съпоставими и по
абсолютна стойност.
гл.ас. Хр. Кулина – [email protected]
За всеки от коефициентите на регресия се пресмята значимост, като фактически
се проверява нулева хипотеза, че съответният популационен коефициент е равен на
нула. При тези хипотези проверяващата статистика има разпределение на Стюдънт
t(n − k −1), където n е обемът на извадката. Ако някой от коефициентите се получи с
пренебрежима значимост, то съответната независима променлива може да бъде
изключена от анализа без съществена загуба на информация.
Ако с t-статистиката се установи наличието на зависимост, тя може да се
определи явно като формула с различни методи за приближаване на функции. Един
от най-използваните е методът на най-малките квадрати (МНМК). Когато
графиката на данните прилича на отсечка, приближаваща функция се търси като
полином от първа степен във вида xaaxy10
)(ˆ . Коефициентите 0
а , 1
а се
определят от линейната система
гл.ас. Хр. Кулина – [email protected]
n
iii
n
ii
n
ii
n
ii
n
ii
yxaxax
yaxna
11
1
2
01
11
10
.
а) Като използваме намерените суми
n
iii
n
i
n
iii
n
ii
yxyxx11 1
2
1
8,21389,7,356,20473,383 и заместим в системата за
линейна регресия, получаваме системата:
8,2138920473383
7,3563838
10
10
aa
aa.
Можем да решим системата например по метода на Крамер. Пресмятаме
детерминантите
= 17095383.38320473.820473383
3838 ,
гл.ас. Хр. Кулина – [email protected]
1= 3,8895748,21389.38320473.7,356204738,21389
3837,356 ,
2= 3,34502383.7,3568,21389.88,21389383
7,3568 .
Тогава 037,5217095
3,8895741
0
a , 018,2
17095
3,345022
1
a .
Уравнението на линейна регресия е: xxy 018,2037,52)(ˆ .
Coefficientsa
Model
Unstandardized Coefficients Standardized Coefficients
t Sig. B Std. Error Beta
1 (Constant) -52,037 3,598 -14,464 ,000
x 2,018 ,071 ,996 28,379 ,000
гл.ас. Хр. Кулина – [email protected]
Coefficientsa
Model
Unstandardized Coefficients Standardized Coefficients
t Sig. B Std. Error Beta
1 (Constant) -52,037 3,598 -14,464 ,000
x 2,018 ,071 ,996 28,379 ,000
a. Dependent Variable: y
Регресионният коефициент 037,520
a (свободният член в регресионното
уравнение) е означен като (Constant) и е статистически значим. Това се вижда от
неговото равнище на значимост (Sig T), което е 0 и е по – малко от грешката α =
0.05.
Регресионният коефициент пред факторната променлива е 018,21a Той е
статистически значим, тъй като неговото равнище на значимост (Sig T) e 0.00 и е по
– малко от грешката α = 0.05.
гл.ас. Хр. Кулина – [email protected]
За този коефициент е изчислен и съответният му стандартизиран коефициент,
наречен Beta. Най – често той служи за сравняване влиянието на различните
факторни променливи, когато те са две или повече. Най – силно е влиянието на
онзи фактор, чийто стандартизиран регресионен коефициент Beta е най – голям.
Начертаването на корелограмата, представяща зависимостта между X и Y с
пакета SPSS, става по следния начин: от главното меню избираме последователно
Graphs, Scatter, Simple Scatter и натискаме клавиша Define. В полето Simple
Scatterplot маркираме променливата Y и я изпращаме в полето Y – Axis, след това
маркираме X и я изпращаме в полето X – Axis. Накрая с ОК се изчертава
корелограмата:
б)
x 51 32 80 73 64 45 83 44 93
гл.ас. Хр. Кулина – [email protected]
y 52,7 15,2 89,5 94,8 76 39,3 114,8 36,5 137,4
Квадратична регресия. Търси се приближаваща функция като полином от
втора степен:
2
210)(ˆ xаxaaxy . Коефициентите
0а ,
1а и
2а се намират от линейната
система
n
iii
n
ii
n
ii
n
ii
n
iii
n
ii
n
ii
n
ii
n
ii
n
ii
n
ii
yxaxaxax
yxaxaxax
yaxaxna
1
2
21
4
11
3
01
2
12
1
3
11
2
01
12
1
2
11
0
гл.ас. Хр. Кулина – [email protected]
Задача 2. Считайки, че зависимостта между променливите е от вида 2
210)(ˆ xаxaaxy , да се намерят параметрите по следните извадки.
a)
x 0 2 4 6 8 10
y 5 -1 -0,5 1,5 4,5 8,5
i xi yi xi2 yi
2 xi.yi xi
3 xi
4 xi
2.yi
1 0 5 0 25 0 0 0 0
2 2 -1 4 1 -2 8 16 -4
3 4 -0,5 16 0,25 -2 64 256 -8
гл.ас. Хр. Кулина – [email protected]
4 6 1,5 36 2,25 9 216 1296 54
5 8 4,5 64 20,25 36 512 4096 288
6 10 8,5 100 72,25 85 1000 10000 850
Суми 30 18 220 121 126 1800 15664 1180
1180156641800220
126180022030
18220306
210
210
210
aaa
aaa
aaa
a0=4, a1= -2,16429, a2=0,267857
Model Summary and Parameter Estimates
Dependent
Variable:y
гл.ас. Хр. Кулина – [email protected]
Equatio
n
Model Summary Parameter Estimates
R
Square F df1 df2 Sig.
Consta
nt b1 b2
Linear ,276 1,527 1 4 ,284 ,429 ,514
Quadra
tic ,916 16,355 2 3 ,024 4,000 -2,164 ,268
The independent variable is x.
гл.ас. Хр. Кулина – [email protected]
гл.ас. Хр. Кулина – [email protected]
б)
x 26 30 34 38 42 46 50
y 3,94 4,60 5,67 6,93 8,25 7,73 10,55