МАТЕМАТИЧЕСКАЯ...

58
1 2 МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО- СТРОИТЕЛЬНЫЙ УНИВЕРСИТЕТ Ю. Е. Воскобойников Е. И. Тимошенко МАТЕМАТИЧЕСКАЯ СТАТИСТИКА НОВОСИБИРСК 2000 МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО- СТРОИТЕЛЬНЫЙ УНИВЕРСИТЕТ Ю. Е. Воскобойников Е. И. Тимошенко МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Учебное пособие НОВОСИБИРСК 2000

Upload: others

Post on 25-May-2020

20 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

1 2

МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО-СТРОИТЕЛЬНЫЙ УНИВЕРСИТЕТ

Ю. Е. Воскобойников Е. И. Тимошенко

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

НОВОСИБИРСК 2000

МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО-СТРОИТЕЛЬНЫЙ УНИВЕРСИТЕТ

Ю. Е. Воскобойников Е. И. Тимошенко

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Учебное пособие

НОВОСИБИРСК 2000

Page 2: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

3 4

ОГЛАВЛЕНИЕ

1. ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ............................5

2. ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ. ВЫБОРОЧНЫЕ ХАРАКТЕРИСТИКИ...................................................6

2.1. Генеральная и выборочная совокупности .....................................6 2.2. Свойства выборочной совокупности .............................................8 2.3. Вариационные ряды ..........................................................................9 2.4. Выборочная функция распределения. Гистограмма .................12 2.5. Выборочное среднее и выборочная дисперсия.............................17

3. ТОЧЕЧНЫЕ ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ ..........21

3.1. Определение и свойства точечной оценки .................................21 3.2. Точечная оценка математического ожидания..........................27 3.3. Точечные оценки дисперсии...........................................................28 3.4. Точечная оценка вероятности события.....................................32 3.5. Метод максимального правдоподобия.........................................33

4. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ...........................................................................................42

4.1. Некоторые распределения выборочных характеристик..........42 4.2. Понятие интервальной оценки параметра случайной

величины...........................................................................................49 4.3. Интервальные оценки математического ожидания

нормального распределения...........................................................50 4.4. Интервальные оценки дисперсии нормального

распределения ..................................................................................55 4.5. Интервальная оценка вероятности события ...........................57

5. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ................................61

5.1. Понятие статистической гипотезы. Основные этапы проверки гипотезы ..........................................................................61

5.2. Проверка гипотезы о числовом значении математического ожидания нормального распределения .......................................70

5.3. Проверка гипотез о числовом значении дисперсии нормального распределения...........................................................77

5.4. Проверка гипотезы о числовом значении вероятности события............................................................................................80

5.5. Проверка гипотезы о равенстве математических ожиданий двух нормальных распределений ..................................................84

5.6. Проверка гипотезы о равенстве математических ожиданий двух произвольных распределений по выборкам большого объема ...............................................................................................88

5.7. Проверка гипотезы о равенстве математических ожиданий двух нормальных распределений с неизвестными, но равными дисперсиями.....................................................................................89

5.8. Проверка гипотезы о равенстве дисперсий двух нормальных распределений..................................................................................93

5.9. Проверка гипотезы о законе распределения с применением критерия согласия Пирсона..........................................................98

5.10. Проверка гипотезы о независимости двух генеральных совокупностей с применением критерия 2χ ...........................106

6. ТАБЛИЦЫ............................................................................................110

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА .................................................116

Page 3: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

5 6

1. Задачи математической статистики

Математическая статистика – наука, изучающая методы иссле-

дования закономерностей в массовых случайных явлениях и процессах по данным, полученным из конечного числа наблюдений за ними.

Построенные на основании этих методов закономерности относятся не к отдельным испытаниям, из повторения которых складывается дан-ное массовое явление, а представляют утверждения об общих вероят-ностных характеристиках данного процесса. Такими характеристиками могут быть вероятности, плотности распределения вероятностей, мате-матические ожидания, дисперсии и т.п.

Найденные характеристики позволяют построить вероятностную модель изучаемого явления. Применяя к этой модели методы теории ве-роятностей, исследователь может решать технико-экономические зада-чи, например, определять вероятность безотказной работы агрегата в течение заданного отрезка времени. Таким образом, теория вероятно-стей по вероятностной модели процесса предсказывает его поведение, а математическая статистика по результатам наблюдений за процессом строит его вероятностную модель. В этом состоит тесная взаимосвязь между данными науками.

Очевидно, что для обнаружения закономерностей случайного массо-вого явления необходимо провести сбор статистических сведений, т.е. сведений, характеризующих отдельные единицы каких-либо массовых явлений. Пусть, например, мы располагаем материалом о числе дефект-ных изделий в изготовленной в определенных условиях партии продук-ции. Проблемы возникают тогда, когда на основании этой информации мы захотим сделать выводы относительно качества производства про-дукции, выпускаемой предприятием. Нас может интересовать вероят-ность производства дефектного изделия, средняя долговечность всех выпускаемых изделий и т.д. Собранный материал рассматривается лишь как некоторая пробная группа, одна из многих возможных пробных групп. Конечно, выводы сделанные на основании этого ограниченного числа наблюдений, отражают данное массовое явление лишь прибли-женно. Математическая статистика указывает, как наилучшим способом использовать имеющуюся информацию для получения по возможности более точных характеристик массового явления.

Конкретизируем задачи, решения которых будет рассмотрены в дан-ном пособии. 1. Оценки неизвестной функции распределения и функции плотности.

По результатам n независимых испытаний над случайной величиной X получены ее значения

nx...,,x,x 21 . Требуется оценить, хотя бы приближенно, неизвестные функции распределения )(xF и плотности )(xp .

2. Оценка неизвестных параметров распределения. Поясним задачу на примере нормального распределения генеральной совокупности, за-висящей от двух параметров α и σ . Требуется на основании имеющихся данных приближенно найти значения этих параметров. Для этого изучаются некоторые случайные величины и на основе их свойств определяется точность полученных оценок. Мы будем раз-личать два случая, когда имеется достаточно большое количество статистических данных и когда их набор ограничен. Во втором слу-чае мы будем строить интервалы со случайными границами, на ко-торые попадают неизвестные параметры распределения.

3. Проверка статистических гипотез. Предположим, например, что игральная кость подбрасывается n раз, причем )6,...,1( =ini озна-чает количество появлений i очков. Если кость симметрична, то любое количество очков должно появиться практически одинаковое число раз, как только n достаточно велико. Это следует из извест-ной теоремы Бернулли, утверждающей, что относительная частота

nni близка к вероятности 6

1=p . Однако между числами nni могут

быть различия. Возникает вопрос, насколько эти различия согласо-ваны с гипотезой о симметричности игральной кости. Разработаны методы, позволяющие дать ответы на подобные вопросы с заданной надежностью.

При обращении к понятиям теории вероятностей мы будем опирать-ся на учебное пособие Е.И. Тимошенко, Ю.Е. Воскобойников «Теория вероятностей» (Новосибирский государственный архитектурно строи-тельный университет, 1999).

2. Генеральная и выборочная совокупности. Выборочные характеристики

2.1. Генеральная и выборочная совокупности Для обнаружения закономерностей, описывающих исследуемое

массовое явление, необходимо иметь опытные данные, полученные в результате обследования соответствующих объектов, отображающих массовое явление. Например, для определения плотности распределения

Page 4: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

7 8

диаметра прошлифованного валика необходимо располагать набором возможных значений его диаметра.

Зачастую реально существующую совокупность объектов (напри-мер, валики, изготовленные в течение января) можно мысленно допол-нить любым количеством таких же однородных объектов (например, валики, изготовленные в тех же условиях в феврале, марте и т.д.). Такие совокупности объектов будем называть генеральными совокупностями.

Каждой генеральной совокупности соответствует случайная вели-чина, определяемая изучаемым признаком объекта. В нашем примере – это диаметр валика. Так как понятия генеральной совокупности и соот-ветствующей случайной величины связаны с наблюдениями (измере-ниями) в неизменных условиях, то для ее обозначения (по аналогии с курсом теории вероятностей) будем использовать прописные буквы ла-тинского алфавита (например, YX , ).

Часть отобранных объектов из генеральной совокупности называ-ется выборочной совокупностью или выборкой.

Результаты измерений изучаемого признака n объектов выбороч-ной совокупности порождают n значений nx,...,x,x 21 случайной ве-личины X . Число n называется объемом выборки.

Наряду с генеральной совокупностью X будем рассматривать n независимых случайных величин, обозначаемых той же буквой, что и генеральная совокупность, и имеющих точно такое же распределение, как генеральная совокупность. Итак, nXXX ,...,, 21 – n независимых

экземпляров X . Если )(xF – функция распределения генеральной со-

вокупности X , то у каждой случайной величины iX функция распре-

деления также равна )(xF . Понятно, что получить n значений слу-чайной величины X все равно что получить одно значение n-мерной случайной величины ( nXXX ,...,, 21 ). Поэтому каждую выборку

nxxx ,...,, 21 объема n мы можем рассматривать как одно значение n-

мерной случайной величины ( nXX ,...,1 ). Поясним сказанное на примере. Пусть X – дискретная случайная

величина, принимающая значения 1,2,3,4,5,6, каждое с вероятностью

61=p . Данную случайную величину, или в новой терминологии – ге-

неральную совокупность, мы можем вообразить как урну, содержащую одинаковое количество шаров с номерами от 1 до 6. Производя выбор с возвращением трёх шаров, и записывая их номера, мы получим выборку объема 3 из генеральной совокупности X . Вообразим себе три урны

того же содержания, т.е. три копии 321 ,, XXX урны X . Выберем из

каждой урны по одному шару. Получим выборку 321 ,, xxx из гене-ральной совокупности X .

2.2. Свойства выборочной совокупности Для того чтобы по отобранным значениям некоторого количест-

венного показателя можно было достаточно уверенно судить обо всей совокупности, полученная выборка должна быть репрезентативной (представительной), т.е. правильно отражать пропорции генеральной совокупности. Предположим, например, что вся совокупность состоит из равного большого количества белых и черных шаров, помещенных в ящик, на дне которого имеется отверстие. Если черные шары сосредо-точены в нижней части ящика, а белые – в верхней, то открывая некото-рое небольшое количество раз заслонку в отверстии ящика, мы получим выборку только из черных шаров. На основании такого способа отбора шаров мы не сможем сделать правильных выводов о содержании всей совокупности шаров, т.е. такая выборка не будет репрезентативной. Выборка будет представительной лишь тогда, когда все объекты гене-ральной совокупности имеют одинаковую вероятность попасть в вы-борку. Для этого шары должны быть перемешаны.

Другими словами, репрезентативность выборки обеспечивается случайностью отбора объектов в выборку.

Существует несколько способов отбора, обеспечивающих репре-зентативность выборки.

Пусть небольшие по размеру объекты генеральной совокупности находятся, например, в ящике. Каждый раз после тщательного переме-шивания (если оно не вызывает разрушение объектов) из ящиков науда-чу берут один объект. Эту операцию повторяют до тех пор, пока не об-разуется выборка нужного объема. Очевидно, что такая техника отбора невозможна, если генеральная совокупность состоит из больших (по размерам) или хрупких объектов, например, из мощных электромото-ров. В этих случаях поступают следующим образом. Все объекты гене-ральной совокупности нумеруют и каждый номер записывается на от-дельную карточку. После этого карточки с номерами тщательно пере-мешиваются и из пачки карточек выбирают одну. Объект, номер кото-рого совпал с номером выбранной карточки, включается в выборку. Номера объектов можно "отбирать" с помощью таблиц случайных чи-сел – это целесообразно при большом объеме генеральной совокупно-сти.

Принципиально, что при отборе объектов в выборочную совокуп-ность возможны два варианта.

Page 5: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

9 10

1. Объект, возвращается в генеральную совокупность. Выбороч-ная совокупность, полученная таким образом, называется слу-чайной выборкой с возвратом (или повторной выборкой).

2. Объект, включенный в выборку, не возвращается назад в гене-ральную совокупность. Образованная выборка называется слу-чайной выборкой без возврата (или бесповторной выборкой).

Очевидно, что в повторной выборке возможна ситуация, когда один и тот же объект будет обследован несколько раз. Если объем генераль-ной совокупности велик, то различие между повторной и бесповторной выборками (которые составляют небольшую часть генеральной сово-купности) незначительно и это практически не сказывается на оконча-тельных результатах. В таких случаях, как правило, используют выбор-ку без возврата. Если генеральная совокупность имеет не очень боль-шой объем, то различие между указанными выборками будет сущест-венным.

2.3. Вариационные ряды После получения (тем или иным способом) выборочной совокуп-

ности все ее объекты обследуются по отношению к определенной слу-чайной величине – т.е. обследуемому признаку объекта. В результате этого получают наблюдаемые данные, которые представляют собой множество расположенных в беспорядке чисел. Анализ таких данных весьма затруднителен, и для изучения закономерностей полученные данные подвергаются определенной обработке.

♦Пример 2.1. На телефонной станции проводились наблюдения над числом Х неправильных соединений в минуту. Наблюдения в тече-ние часа дали следующие 60 значений:

3; 1; 3; 1; 4; ⎪ 2; 2; 4; 0; 3; ⎪ 0; 2; 2; 0; 2; ⎪1; 4; 3; 3; 1;

4; 2; 2; 1; 1; ⎪ 2; 1; 0; 3; 4; ⎪ 1; 3; 2; 7; 2; ⎪0; 0; 1; 3; 3;

1; 2; 4; 2; 0; ⎪ 2; 3; 1; 2; 5; ⎪ 1; 2; 4; 2; 0; ⎪ 2; 3; 1; 2; 5.

Очевидно, что число X является дискретной случайной величиной, а полученные данные есть значения этой случайной величины. Анализ исходных данных в таком виде весьма затруднителен.

Простейшей операцией является ранжирование опытных данных,

результатом которого являются значения, расположенные в порядке не-убывания. После проведения операции ранжирования опытные данные объединяют так, чтобы в каждой группе значения случайной величины были одинаковы. Значение случайной величины, соответствующее от-дельной группе сгруппированного ряда наблюдаемых данных, называ-

ется вариантом, а изменение этого значения – варьированием. Вариан-ты будем обозначать строчными буквами с соответствующими поряд-

ковому номеру группы индексами )()2()1( ...,,, mxxx , где m – число

групп. При этом имеет место )()2()1( ... mxxx <<< . Численность отдельной группы сгруппированного ряда данных на-

зывается частотой in , где i – индекс варианта, а отношение частоты данного варианта к общей сумме частот называется частностью (или относительной частотой) и обозначается iω , mi ...,,1= , т.е.

∑=

= m

ii

ii

n

n

1

ω . (2.1)

Дискретным вариационным рядом называется ранжированная сово-

купность вариантов )(ix с соответствующими им частотами in или

частностями iω . ♦Пример 2.2. Для данных примера 2.1 были выполнены операции

ранжирования и группировки. В результате этих операций были полу-чены семь значений случайной величины (варианты): 0; 1; 2; 3; 4; 5; 7. При этом значение 0 в этой группе встречается 8 раз, значение 1 – 17 раз, значение 2 – 16 раз, значение 3 – 10 раз, значение 4 – 6 раз, значе-ние 5 – 2 раза, значение 7 – 1 раз. Вычисленные значения частот и част-ностей приведены в табл. 2.1.

Таблица 2.1 Индекс i 1, 2, 3, 4, 5, 6, 7 Вариант )i(x 0, 1, 2, 3, 4, 5, 7

Частота in 8, 17, 16, 10, 6, 2, 1

Частность iω 601

602

606

6010

6016

6017

608 ,,,,,,

Таким образом, получен дискретный ряд:

)1(7);2(5);6(4);10(3);16(2);17(1);8(0 , где в скобках указаны соответствующие частоты. В отличие от исход-ных данных (см. пример 2.1) этот ряд позволяет делать некоторые вы-воды о статистических закономерностях.

Если среди n наблюдаемых значений ix отсутствуют одинаковые

значения, то 1, == innm , а дискретный вариационный ряд имеет вид

Page 6: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

11 12

)()1()2()1( ... nn xxxx <<<< − .

Если число возможных значений дискретной случайной величины достаточно велико или наблюдаемая случайная величина является не-прерывной, то строят интервальный вариационный ряд, под которым понимают упорядоченную совокупность интервалов варьирования зна-чений случайной величины с соответствующими частотами или частно-стями попаданий в каждый из них значений случайной величины.

Как правило, частичные интервалы, на которые разбивается весь ин-тервал варьирования, имеют одинаковую длину и представимы в виде

mihzz ii ...,,2,1),,[ =+ , (2.2) где m − число интервалов.

Длину h следует выбирать так, чтобы построенный ряд не был гро-моздким, но в то же время позволял выявлять характерные изменения случайной величины.

Рекомендуется для h использовать следующую формулу:

nxxh

lg222.31minmax

+−

= ,

где minmax , xx – наибольшее и наименьшее значения случайной вели-

чины. Если окажется, что h – дробное число, то за длину интервала следует принять либо ближайшую простую дробь, либо ближайшую це-лую величину. При этом необходимо выполнение условий:

maxmin1 ; xhzxz m ≥+≤ . (2.3) После нахождения частных интервалов определяется сколько значе-

ний случайной величины попало в каждый конкретный интервал. При этом в интервал включают значения большие или равные нижней гра-нице и меньшие верхней границы.

♦Пример 2.3. При изменении диаметра валика после шлифовки бы-ла получена следующая выборка (объемом 55=n ):

20.3 15.4 17.2 19.2 23.3 18.1 21.9 15.3 16.8 13.2 20.4 16.5 19.7 20.5 14.3 20.1 16.8 14.7 20.8 19.5 15.3 19.3 17.8 16.2 15.7 22.8 21.9 12.5 10.1 21.1 18.3 14.7 14.5 18.1 18.4 13.9 19.8 18.5 20.2 23.8 16.7 20.4 19.5 17.2 19.6 17.8 21.3 17.5 19.4 17.8 13.5 17.8 11.8 18.6 19.1

Необходимо построить интервальный вариационный ряд, состоящий из семи интервалов.

Решение. Так как наибольшая варианта равна 23.8, а наименьшая 10.1, то вся выборка попадает в интервал (10,24). Мы расширили интер-вал (10.1, 23.8) для удобства вычислений. Длина каждого частичного интервала равна 27

1024 =− . Получаем следующие семь интервалов:

),24;22[);22,20[);20,18[);16,14[);14,12[);12,10[

а соответствующий интервальный вариационный ряд представлен в табл. 2.2. Таб-

лица 2.2 X 10-12 12-14 14-16 16-18 18-20 20-22 22-24

iω 552 55

4 558 55

12 5516 55

10 553

2.4. Выборочная функция распределения. Гистограмма

В теории вероятностей для характеристики распределения случай-ной величины X служит функция распределения

)()( xXPxF <= ,

равная вероятности события }{ xX < , где x – любое действительное число.

Одной из основных характеристик выборки является выборочная (эмпирическая) функция распределения

nnxF x

n =)(* , (2.4)

где xn – количество элементов выборки, меньших чем x . Другими

словами, )(* xFn есть относительная частота появления события

}{ xXA <= в n независимых испытаниях. Главное различие между

)(xF и )(* xFn состоит в том, что )(xF определяет вероятность со-

бытия A , а выборочная функция распределения )(* xFn – относитель-ную частоту этого события.

Page 7: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

13 14

Из определения (2.4) имеем следующие свойства функции )(* xFn :

1. 10 ≤≤ )x(F*n ; (2.5)

2. )(* xFn – неубывающая функция;

3. .1)(;0)( ** =∞=−∞ nn FF Напоминаем, что такими же свойствами обладает и функция распре-

деления )(xF (вспомните эти свойства и сравните).

Функция )(* xFn является «ступенчатой», имеются разрывы в точ-ках, которым соответствуют наблюдаемые значения вариантов. Вели-чина скачка равна относительной частоте варианта.

Аналитически )(* xFn задается следующим соотношением:

⎪⎪

⎪⎪

>

=≤≤

= −−

=∑

,1

;,...,2,1,

;0

)(

)(

)()1(1

1

)1(

*

m

iii

iin

xxпри

mixxxпри

xxпри

xF ω (2.6)

где iω – соответствующие относительные частоты, определяемые вы-

ражением (2.1), )(ix – элементы вариационного ряда (варианты).

Замечание. В случае интервального вариационного ряда под )(ix понимается середина i-го частичного интервала.

Перед вычислением )(* xFn полезно построить дискретный или ин-тервальный вариационный ряд.

♦Пример 2.4. Построить выборочную функцию распределения по наблюдаемым данным, приведенным в примере 2.1.

Решение. Используя соответствующий этим данным дискретный ва-

риационный ряд (см. табл. 2.1), вычислим значения )(* xFn по формуле (2.6) и занесем эти значения в табл. 2.3.

Таблица 2.3

x )(*60 xF

x ≤ 1 0

0 < x ≤ 1 608

1 =ω

1 < x ≤ 2 6025

21 =+ωω

2 < x ≤ 3 6041

321 =++ ωωω

3 < x ≤ 4 6051

4321 =+++ ωωωω

4 < x ≤ 5 6057

54321 =++++ ωωωωω

5 < x ≤ 7 6059

654321 =+++++ ωωωωωω

x > 7 16060

7654321 ==++++++ ωωωωωωω

Из график )(*60 xF (рис. 2.1) видно, что )(*

60 xF удовлетворяет свойствам (2.5).

Рис. 2.1. График выборочной функции распределения (пример 2.4)

Задача 2.1. Построить выборочную функцию распределения по на-

блюдаемым данным, приведенным в примере 2.3.

Page 8: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

15 16

Напомним, что )(* xFn равна относительной частоте появления со-

бытия }{ xXA <= и, следовательно, при любом значении x величи-

на )(* xFn является случайной. Тогда конкретной выборке

)...,,,( 21 nxxx объема n соответствует функция распределения

)(* xFn , которая в силу своей случайности будет отличаться от )(* xFn , построенной по другой выборке из той же генеральной совокупности.

Возникает вопрос: зачем нужна такая характеристика, меняющаяся от выборки к выборке. Ответ получаем на основе следующих рассужде-ний.

По теореме Бернулли относительная частота появления события A в n независимых опытах сходится по вероятности к вероятности

)( xXP < этого события при увеличении n . Следовательно, при

больших объемах выборки выборочная функция распределения )(* xFn

близка к теоретической функции )(xF . Точнее имеет место следую-щая теорема.

Теорема В.И. Гливенко. Для любого действительного числа x и любого 0>ε

0))()((lim * =>−∞→

εxFxFP nn

.

Таким образом, по функции )(* xFn мы можем получить прибли-

женно функцию )(xF , т.е. функция )(* xFn является оценкой )(xF . В качестве оценки плотности распределения вероятности непрерыв-

ной случайной величины используют гистограмму относительных частот.

Гистограммой относительных частот называется система прямо-угольников, каждый из которых основанием имеет i-й интервал интер-вального вариационного ряда; площадь, равную относительной частоте

iω , а высота iy определяется по формуле

mih

yi

ii ...,,2,1, ==

ω,

где iii zzh −= +1 – длина i-го частичного интервала. Если длина час-

тичных интервалов одинакова, то hhi = (см. (2.2), (2.3)).

Очевидно, что сумма площадей всех прямоугольников равна 1 (дока-жите это свойство).

Площадь прямоугольника iω равна относительной частоте попада-ния элементов выборочной совокупности объема n на i-й интервал т.е.

)( 1*

+<≤= iini zXzωω .

С другой стороны, если )(xpy = – плотность вероятности случай-ной величины X , то вероятность

)( 1+<≤= iii zXzPp

по теореме Бернулли близка при большом значении n к относительной частоте.

Поэтому значение iω близко к

∫+

=<≤= +

1)()( 1

i

i

z

ziii dxxpzXzPp . (2.7)

Пусть iy – высота i-го прямоугольника. По теореме о среднем инте-грал, выражающий вероятность в формуле (2.7), можно записать в виде

)u(p)zz(dx)x(pp iii

z

zi

i

i

⋅−=∫= ++

11

, (2.8)

где iu – некоторое число из промежутка ),[ 1−ii zz . Так как

iiii yzz )( 1 −= +ω , то значения iy и )( iup близки друг к другу. Практически это означает, что график плотности распределения гене-ральной совокупности X проходит вблизи верхних границ прямо-угольников, образующих гистограмму. Поэтому при больших объемах выборок и удачном выборе длины частичных интервалов гистограмма напоминает график плотности распределения )(xp .

♦Пример 2.5. Построим гистограмму относительных частот выбо-рочной совокупности из примера 2.3. Решение. Используя интервальный вариационный ряд (см. табл. 2.2), находим высоты iy по формуле 2/iiy ω= . График построенной гис-тограммы приведен на рис 2.2. Здесь же штриховой линией отмечен предполагаемый график неизвестной плотности )(xp .

Page 9: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

17 18

Рис. 2.2. График гистограммы частностей (пример 2.5)

2.5. Выборочное среднее и выборочная дисперсия Рассмотренная выборочная функция распределения и гистограмма

позволяют делать выводы о закономерностях исследуемого массового явления. Однако они не удобны для описания группирования и рассеи-вания наблюдаемых данных. Для этого используются так называемые числовые характеристики выборочной совокупности, из которых рас-смотрим выборочное среднее и выборочную дисперсию.

Выборочным средним вX называется случайная величина, опреде-ленная формулой

nXXXX n

в+++

=...21 . (2.9)

Так как конкретная выборка nxx ,...,1 является реализацией значе-

ний случайных величин nXX ,...,1 , то среднее значение выборки

nxxxx n

в+++

=...21 (2.10)

является одной из реализаций случайной величины вX . Другими сло-

вами, вx есть одно из значений случайной величины вX . Если данные представлены в виде вариационного ряда, то целесооб-

разно для вычисления выборочного среднего одно из следующих соот-ношений:

• для дискретного вариационного ряда

∑===∑

=

=m

ii

i

n

nx

в xx m

ii

m

ii

i

1

)(

1

1

)(

ω ; (2.11)

• для интервального вариационного ряда

∑===∑

=

=m

iii

n

nz

в zx m

ii

m

iii

1

*

1

1

*

ω , (2.12)

где iω – частность (относительная частота), соответствующая i-й вари-

анте или i-му частичному интервалу; *iz – середина i-го частичного ин-

тервала, т.е.

....,,2,1,2

)( 1* mizzz iii =

+= +

Сравним математическое ожидание дискретной случайной величины Х, вычисляемой по формуле

∑=

=m

iii pxXM

1)( , (2.13)

и значение выборочного среднего, определяемое (2.11). Прежде всего, очевидна их внешняя схожесть. Однако в формуле (2.13) ix – возмож-

ные значения случайной величины, а ip – вероятности. В формуле

(2.11) )(ix – варианты случайной величины, полученные в результате наблюдений, iω – их относительная частота. Далее, математическое ожидание не является случайной величиной, а выборочное среднее – случайная величина, значение которой меняется от выборки к выборке. Несмотря на это, как будет показано ниже, выборочное среднее при оп-ределенных условиях выступает как «хорошая» оценка математическо-го ожидания.

Пример 2.6. Вычислим значение выборочного среднего по выборке примера 2.1.

Page 10: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

19 20

Решение. Используя дискретный вариационный ряд (табл. 2.1) и со-отношение (2.1), имеем

027543210 601

602

606

6010

6016

6017

608 .xв =⋅+⋅+⋅+⋅+⋅+⋅+⋅= .

Так как значение выборочного среднего есть выборочный аналог математического ожидания, то имеет смысл ввести характеристику, ко-торая бы оценивала величину рассеивания значений nxxx ,...,, 21 от-

носительно вx , а именно

∑=

−=

n

i

вiв n

xxd1

2)(. (2.14)

Число вd является значением случайной величины

∑−

==

n

i

вiв n

)XX(D1

2, (2.15)

которую мы будем называть выборочной дисперсией. Если данные представлены в виде вариационного ряда, то целесооб-

разно для вычислений вd вместо (2.14) использовать следующие соот-ношения:

• для дискретного вариационного ряда

∑ −=∑ −

==

= m

iiв

m

iiв

)i(

в )xx(n

n)xx(d )i(

1

21

2

ω ; (2.16)

• для интервального вариационного ряда

∑∑

=

= −=−

=m

iiвi

m

iiвi

в xzn

nxzd

1

2*1

2*

)()(

ω , (2.17)

где *, ii zω – те же, что и в формулах (2.11), (2.12). Можно показать справедливость следующих выражений, являющих-

ся аналогами (2.14), (2.16), (2.17) соответственно:

∑=

−=n

iвв )x()x(

nd )i(

1

221; (2.18)

∑=

−=m

iвiв xxd i

1

22 )()( )( ω ; (2.19)

∑=

−=m

iвiiв xzd

1

22* )()( ω . (2.20)

Приведенные ниже соотношения оказываются более удобными для программной реализации вычислений значения вd . Однако если гене-

ральная дисперсия 2σ существенно меньше квадрата математического

ожидания, т.е. 22 ))(( xM<<σ , то из-за ошибок округления при ма-

шинном счете по этим формулам возможно ситуация 0<вd и тогда

следует положить 0=вd . Сравним формулу (2.16) с формулой дисперсии дискретной случай-

ной величины

∑=

−=m

iii pXMxXD

1

2))(()( . (2.21)

Различие между этими формулами состоит в том, что: а) величина )(XD не случайна, вd – значение случайной величины, которое может

меняться от выборки к выборке; б) в формуле (2.21) ix – возможные

значения случайной величины ipX , – их вероятности, )(XM – мате-

матическое ожидание. В формуле (2.16) )(ix – варианты случайной ве-личины, iω – их относительные частоты, а вx – значения выборочного среднего. Несмотря на различия, между двумя этими формулами много общего. Во-первых, обе они являются мерой рассеивания. Во-вторых, кроме внешнего сходства формул, соответствующие дисперсии облада-ют схожими свойствами. В-третьих, как будет показано ниже, выбороч-ная дисперсия при определенных условиях, является хорошей оценкой для генеральной дисперсии )(XD .

Page 11: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

21 22

Пример 2.7. Необходимо вычислить значение выборочной диспер-сии по выборке примера 2.1. Решение. Для этого воспользуемся формулой (2.19). Первоначально, используя дискретный вариационный ряд (табл. 2.1), вычислим

0964925169410 601

602

606

6010

6016

6017

6087

1

2 .)x(i

i)i( =⋅+⋅+⋅+⋅+⋅+⋅+⋅=∑

=ω .(2.22)

Так как значение вx было вычислено в примере 2.6 ( 0.2=вx ), то

∑=

=−=−=7

1

22)( 09.20.409.6)()(i

вii

в xxd ω .

3. Точечные оценки неизвестных параметров

3.1. Определение и свойства точечной оценки

Большинство случайных величин, рассмотренных в курсе теории ве-роятностей, имели распределения, зависящие от одного или нескольких параметров. Так, биномиальное распределение зависит от параметров p и n , нормальное – от параметров a и σ , распределение Пуассона –

от параметра λ и т.п. Одной из основных задач математической стати-стики (см. разд. 1) является оценивание этих параметров по наблюдае-мым данным, т.е. по выборочной совокупности. В разд. 2 были рассмот-рены выборочные среднее и дисперсия, которые интерпретировались как приближенные значения неизвестных значений математического ожидания и дисперсии изучаемой случайной величины X , т.е. явля-лись оценками этих неизвестных характеристик.

Выборочная характеристика, используемая в качестве приближенно-го значения неизвестного параметра генеральной совокупности, называ-ется точечной оценкой этого параметра.

В этом определении слово «точечная» означает, что значение оценки представляет собой число или точку на числовой оси.

Обозначим через θ некоторый неизвестный параметр генеральной

совокупности, а через *nθ – точечную оценку этого параметра. Оценка

*nθ есть функция )...,,,( 21 nXXXϕ от n независимых экземпляров

nXXX ...,,, 21 генеральной совокупности, где n – объем выборки

(см. пункт 2.1). Поэтому оценка *nθ , как функция случайных величин,

также является случайной и свойства *nθ можно исследовать с исполь-

зованием понятий теории вероятностей.

В общем случае точечная оценка *nθ не связана с оцениваемым па-

раметром θ . Поэтому естественно потребовать, чтобы *nθ была близка

к θ . Это требование формируется в терминах несмещенности, состоя-тельности и эффективности.

Оценка *nθ параметра θ называется несмещенной, если для любого

фиксированного объема выборки n математическое ожидание оценки равно оцениваемому параметру, т.е.

θθ =)( *nM . (3.1)

Поясним смысл этого равенства следующим примером. Имеются два алгоритма вычисления оценок для параметра θ . Значения оценок, по-строенных первым алгоритмом по различным выборкам объема n ге-неральной совокупности, приведены на рис 3.1,а, а с использованием второго алгоритма – на рис 3.1,б. Видим, что среднее значение оценок на рис 3.1,а совпадает с θ , и, естественно, такие оценки предпочти-тельнее по сравнению с оценками рис 3.1,б, которые концентрируются

слева от значения θ и для которых θθ <)( *nM , т.е. эти оценки явля-

ются смещенными.

Оценка *nθ называется состоятельной, если

θθ ⎯→⎯pn* ,

т.е. для любого 0>ε при ∞→n

( ) 1→<− εθθ*nP . (3.2)

Поясним смысл этого предельного соотношения. Пусть ε – очень малое положительное число. Тогда (3.2) означает, что чем больше число наблюдений n , тем больше уверенность (вероятность) в незначитель-

Page 12: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

23 24

ном отклонении *nθ от неизвестного параметра θ . Очевидно, что «хо-

рошая оценка» должна быть состоятельной, иначе эта оценка не имеет практического смысла, так как увеличение объема исходной информа-ции не будет приближать нас к «истинному» значению θ .

Предположим, что имеются две состоятельные и несмещенные оценки

)x...,,x();x...,,x( n)*(

nn)*(

n 122

111 ϕθϕθ == (3.3)

одного и того же параметра θ . Как из двух этих оценок выбрать луч-шую? Каждая из них является случайной величиной, и мы не можем предсказать индивидуальное значение оценки в каждом частном случае. Однако, рассматривая в качестве меры концентрации распределения

оценки *nθ около значения параметра θ величину 2* )( θθ −nM , мы

можем теперь точно охарактеризовать сравнительную эффективность

оценок )1*(nθ и )2*(

nθ . В качестве меры эффективности принимается отношение

Рис. 3.1. К определению несмещенной оценки

Рис. 3.2. К определению эффективной оценки

2)2(*

2)1*(

)()(

θθθθ

−−

=n

n

MMe . (3.4)

Если значение 1>e , то оценка )2*(nθ более эффективна, чем )1*(

nθ . В

случае несмещенных оценок θθθθ == )(M,)(M )*()(*n

21 и поэтому

)()(

)2(*

)1*(

n

n

DDeθθ

= , (3.5)

где )( *nD θ – дисперсия оценки *

nθ .

Таким образом, несмещенная оценка *nθ параметра θ называется

несмещенной эффективной, если она среди всех других несмещенных оценок того же параметра обладает наименьшей дисперсией.

Приведенная на рис 3.2,а оценка *nθ является более эффективной

по сравнению с оценкой, значения которой нанесены на рис 3.2,б (по-чему?).

Как же выяснить, является ли несмещенная оценка эффективной? Очевидно, для этого необходимо сравнить дисперсию этой оценки с минимальной дисперсией.

θ

*nθ

a)

θ

*nθ

б)

θ

*nθ

a)

θ

*nθ

б)

Page 13: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

25 26

Для широкого класса оценок неравенство Рао-Крамера указывает точную нижнюю границу для дисперсий различных оценок одного и то-го же параметра. Если существует оценка, дисперсия которой равна в точности этой нижней границе, то она называется эффективной оцен-кой. Оценка, имеющая наименьшую дисперсию среди оценок данного класса, называется эффективной в данном классе оценок. Поясним по-нятие эффективной оценки несколькими примерами.

Предположим, что генеральная совокупность распределена по нор-мальному закону с параметрами a и σ , причем a – математическое

ожидание, подлежащее оценке, а 2σ – известная дисперсия. Оказывает-

ся, что для любой несмещенной регулярной оценки *a имеет место не-равенство

n

aD2

*)( σ≥ , (3.6)

где n – объем выборки, по которой производится оценивание. Если в

качестве *a принять вX , то дисперсия этой оценки, как будет показа-

но ниже, равна n

2σ, т.е. вX – эффективная оценка параметра а, так как

для нее достигается нижняя грань в неравенстве (3.6). Рассмотрим на примере понятие эффективной в данном классе

оценки. Предположим, что один и тот же предмет, истинная величина которого равна l , измеряется n раз различными приборами, имеющи-ми различную точность. Пусть iX – результаты i -го измерения. Тогда

,)(,)( 2σ== ii XDlXM

если считать, что измерения проводятся без систематических ошибок.

Дисперсия 2iσ характеризует точность измерений. Для оценки истин-

ного значения параметра l рассмотрим класс линейных оценок, т.е. оценок вида

nn XcXcl ++= ...11* ,

где ncc ...,,1 – некоторые неизвестные константы. Из всех несмещен-ных оценок данного класса нужно выбрать ту, которая имеет наимень-шую дисперсию.

Из несмещенности оценок получим

∑ ∑∑= ==

===n

i

n

iiii

n

iii clXMcXcMlM

1 11

* )()()( .

Значит,

.11

=∑=

n

iic (3.7)

Пользуясь свойствами дисперсии и независимостью проведенных измерений, получим

∑=

=n

iiiclD

1

22*)( σ .

Числа ncc ...,,1 должны удовлетворять условию (3.7) и обеспечи-вать минимум функции

∑=

=n

iiin cccF

1

221 )...,,( σ .

Мы получим задачу на условный экстремум, которую можно решить с помощью функции Лагранжа:

∑=

−−=n

iinn cccFccL

111 )1()...,,()...,,( λ .

Найдем критические точки функции Лагранжа:

niccL

iii

...,,1,02 2 ==−=∂∂ λσ ;

∑=

=−n

iic

101 .

Отсюда находим значение ic

....,,1,

1

1

1

2

2nic n

i

i

i

i ==∑= σ

σ (3.8)

Page 14: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

27 28

Полученный результат имеет простой физический смысл: чем мень-ше точность данного прибора, тем с меньшим значением коэффициента результат его должен входить в оценку.

Заметим, что если все приборы имеют одинаковую точность, т.е. 21

1 n... σσ == , то nci /1= и в качестве оценки получим вXl =* .

3.2. Точечная оценка математического ожидания Математическое ожидание )(XM генеральной совокупности X

назовем генеральной средней гx , т.е.

)(XMxг = .

Теорема 3.1. Выборочное среднее вX есть состоятельная и не-

смещенная оценка генеральной средней гx .

Доказательство. Вначале покажем, что вX есть состоятельная

оценка для гx , т.е.

гpn x

nX...XX

⎯→⎯+++ 21 .

По следствию из теоремы Чебышева для одинаково распределенных случайных величин имеем

)X(Mn

X...XX pn ⎯→⎯+++ 21 .

Так как гxXМ =)( , то используя свойства математического ожи-дания, получим

.xn

)X(nMn

)X(M...)X(Mn

X...XM)X(M

г

nnв

==

=++

=⎟⎠⎞

⎜⎝⎛ ++

= 11

Теорема доказана.

Теорема 3.2. Пусть случайная величина X имеет нормальное рас-

пределение ),a(N σ , где a – математическое ожидание, 2σ – диспер-

сия случайной величины X . Тогда выборочное среднее вX является

эффективной несмещенной оценкой для гx .

Доказательство. Необходимо показать, что дисперсия )( вXD сов-падает с минимальной дисперсией, равной в случае нормального рас-

пределения n/2σ , а ее математическое ожидание )X(M в равно гx .

Найдем дисперсию )( вXD :

nnXnDXDXDXD

n

iin

n

iinв

2

21

1

1

1 )()()()( 2σ

==== ∑∑==

. (3.9)

Мы проверили при доказательстве теоремы 3.1, что гв x)X(M = .

Так как дисперсия )( вXD равна минимальному значению, то выбо-

рочное среднее вX является эффективной несмещенной оценкой. Тео-рема доказана.

Таким образом показано, что выборочное среднее вX имеет все три свойства «хорошей» оценки и этим объясняется ее широкое использо-вание в качестве оценки математического ожидания генеральной сово-купности.

Напомним, что по конкретной выборке nxx ...,,1 вычисляется (см.

(2.10), (2.11), (2.12)) «конкретное значение» вx , являющееся одним из

множества возможных значений случайной величины вX .

3.3. Точечные оценки дисперсии Дисперсию )(XD генеральной совокупности X будем называть

генеральной дисперсией гD , т.е.

)(XDDг = . (3.10)

Теорема 3.3. Выборочная дисперсия вD является состоятельной, но

смещенной оценкой генеральной дисперсии гD .

Доказательство. Получим сначала формулу для вычисления вD . Согласно определению

Page 15: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

29 30

n

)XX(D

n

iвi

в

∑ −= =1

2

.

С другой стороны,

.XnXXnXnX

)XXXX()XX(

n

ii

n

ii

iвn

ii

n

iвi

ввв

в

∑ −∑ =+−=

=+∑ −=∑ −

==

==

1

22

1

222

2

1

2

1

2

2

2

Тогда из определения дисперсии следует

21

2

1

22

в

n

ii

n

iвi

в Xn

X

n

XnXD −

∑=

∑ −= == .

Воспользуясь теперь следствием из теоремы Чебышева для одинако-

во распределенных случайных величин 2iX и свойствами предела по

вероятности, получаем

)(

);()( 221

2

XMX

XMXMn

X

ip

n

ii

⎯→⎯

=⎯→⎯∑=

и, значит,

гp

в DXDXMXMD ==−⎯→⎯ )()()( 22 .

Следовательно, дисперсия выборочная вD является состоятельной оценкой для дисперсии генеральной. Вычислим математическое ожида-ние вD и убедимся, что гв DDM ≠)( . Имеем

=−

⎟⎟⎟⎟

⎜⎜⎜⎜

=

⎟⎟⎟⎟

⎜⎜⎜⎜

−=∑∑== )X(M

n

XMX

n

XM)D(M в

n

ii

в

n

ii

в21

2

21

2

=⎟⎠⎞

⎜⎝⎛ ++

⎟⎟⎟⎟

⎜⎜⎜⎜

=∑=

211

2

nX...XM

n

XM n

n

ii

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛ ++++−=

∑≠

2

222

21

2

n

XXX...XXM)X(M ji

jin,

где ∑≠ ji

ji XX означает сумму произведений величин iX и jX для

всех значений i и j от 1 до n , но не равных между собой. Так как iX

и jX независимы при ji ≠ , то

)()()( jiji XMXMXXM = .

Поэтому, продолжая вычисления )( ВDM , получаем

=∑+++

−= ≠2

221

2

n

)X(M)X(M)X(M...X(M)X(M)D(M ji

jin

в

=−+

−=n

)X(M)n(n)X(nM)X(M22

2 1

[ ].D

nn

)X(M)X(Mn

nn

)n(n)X(nM)X(M

г1

11 222

2

−=

−−

=−+

−=

Множитель )1( −nn объясняется тем, что по правилу произведения количество различных пар ( ), ji при nji ≤≠≤1 равно )1( −nn .

Итак, мы получили, что

гв Dn

nDM 1)( −= (3.11)

и, следовательно, вD – смещенная оценка для дисперсии генеральной. Теорема доказана.

Полученная формула (3.11) для вычисления математического ожи-дания дисперсии выборочной позволяет указать состоятельную и не-смещенную оценку для дисперсии генеральной. Для этого рассмотрим случайную величину

вDn

nS1

2−

= , (3.12)

Page 16: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

31 32

называемую исправленной дисперсией. Понятно, что

гp DS ⎯→⎯2 ,

так как 11→

−nn

при ∞→n . С другой стороны,

ггвв DDn

nn

n)D(Mn

nDn

nM)S(M =−

⋅−

=−

=⎟⎠⎞

⎜⎝⎛

−=

1111

2 .

Тем самым доказана.

Теорема 3.4. Исправленная дисперсия 2S является состоятельной и несмещенной оценкой для дисперсии генеральной гD .

Заметим, что для выборок большого объема множитель 1−n

n бли-

зок к 1 и поэтому случайные величины 2S и вD мало отличаются друг от друга. Однако для выборок малого объема это отличие может быть существенным.

Возникает вопрос: будет ли несмещенная оценка 2S эффективной. Для ответа предположим, что случайная величина X подчиняется

нормальному распределению ),a(N σ , а величины nXXX ,...,, 21 , как обычно, n независимых экземпляров независимой величины Х. То-гда минимальная дисперсия несмещенной оценки для дисперсий равна

n

D4

min2σ

= . (3.13)

В п. 4.1 будет показано, что величина 2S представима в виде

21

22

1 −−= nn

S χσ, (3.14)

где 21−nχ – случайная величина, имеющая 2χ – распределение с 1−n

степенями свободы. Поэтому

12

1

42

12

42

−=

−= − n

)(D)n(

)S(D nσχσ

, (3.15)

из этого следует

min2

1)( D

nnSD−

= . (3.16)

Следовательно, 2S , будучи несмещенной оценкой дисперсии )(XD , не является эффективной оценкой. Однако при достаточно

больших n увеличение )( 2SD по сравнению с minD пренебрежи-тельно мало.

Заметим, что несмещенная эффективная оценка дисперсии )(XD нормально распределенной величины ),a(NX σ= имеет вид

2

1

20 )(1∑

=−=

n

ii aX

nS .

Однако в эту формулу входит математическое ожидание a , которое, как правило, заранее неизвестно.

3.4. Точечная оценка вероятности события Обозначим через )(Ap неизвестную вероятность события A в од-

ном испытании. Для оценивания )(Ap проведем n независимых ис-пытаний, в которых событие A произошло m раз. Тогда случайная ве-личина

nmp =* (3.17)

является частностью (относительной частотой) события A . Свойства этой точечной оценки определяет.

Теорема 3.5. Относительная частота nmp /* = появления события A в n испытаниях есть состоятельная оценка вероятности )(Ap .

Доказательство. Состоятельность оценки *p вытекает из теоремы Бернулли, согласно которой для любого 0>ε выполняется неравенст-во

1=⎟⎠

⎞⎜⎝

⎛<−

∞→ε)A(P

nmPlim

n (3.18)

или в других обозначениях:

)(Apnm p⎯→⎯ .

Для доказательства несмещенности этой оценки зафиксируем число испытаний n . Найдем математическое ожидание частности m/n, имея в

Page 17: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

33 34

виду, что в условиях испытаний Бернулли величина т имеет биноми-альный закон распределения с характеристиками М(т) = пр, D(m) = пр(1 – р). Имеем

)(1)(1 Apnpn

mMnn

mM ===⎟⎠⎞

⎜⎝⎛

.

Следовательно, nmp /* = является несмещенной оценкой вероят-ности р(А).

Для доказательства эффективности укажем, что минимум среди дис-персий различных несмещенных оценок вероятности р(А) равен

nppD )1(

min−

= . (3.19)

Определим дисперсию оценки *p

npp

npnpmD

nnmDpD )1()1()(1)( 22

* −=

−==⎟

⎠⎞

⎜⎝⎛= .

Так как D(P*) СОВпадает с минимальной дисперсией minD , то част-ность р*, будучи несмещенной оценкой, является также и эффективной.

3.5. Метод максимального правдоподобия В предыдущих пунктах были рассмотрены различные точечные

оценки, являющиеся некоторыми функциями от результатов наблюде-ния. Однако осталось неясным, почему были взяты именно эти функ-ции. Рассмотрим один из методов, позволяющих получить эти функции. Для понимания его сущности обратимся к следующему примеру.

Предположим, что график плотности распределения генеральной со-вокупности Х имеет вид равнобедренного треугольника АВС, длина ос-нования и высота которого зафиксированы, а неизвестным параметром θ является абсцисса точки D – середины отрезка АВ. Пусть

nxxx ...,,, 21 – выборка из генеральной совокупности X. Зададимся во-просом: в какую точку оси абсцисс необходимо поместить точку D, ес-ли в результате опыта получена именно выборка nxxx ...,,, 21 . Конеч-но, никаких ограничений для ее расположения на оси х нет. Но если мы сдвинем треугольник далеко влево или вправо от элементов выборки, то вероятность получения выборки, попавшей на промежуток ],[ ML , ко-торому принадлежит точка D, будет равна нулю, так как

00 =⋅==∈ ∫ ∫]M,L[ ]M,L[

dxdx)x(p])M,L[X(P .

Поэтому точка D должна лежать в "гуще" выборки, т.е. таким обра-зом, чтобы значения ординат ),( θixp были в совокупности как можно больше. Тогда становится правдоподобным получение именно выборки

nxxx ...,,, 21 . Данный метод называется методом максимального

правдоподобия. Итак, параметр θ , согласно этому методу, нужно вы-бирать так, чтобы вероятность получения набора значений

nxxx ...,,, 21 случайной величины Х при этом значении θ была наи-большей. Конечно, о вероятности получения данного набора значений мы строго можем говорить лишь в том случае, когда рассматриваемая генеральная совокупность распределена дискретно. Напомним, что для непрерывных случайных величин любые конкретные значения появля-ются с нулевой вероятностью. Поэтому метод максимального правдо-подобия имеет некоторые различия в случае дискретных и непрерывных генеральных совокупностей.

Дискретная генеральная совокупность. Пусть Х – дискретная ге-неральная совокупность, распределение которой зависит от некоторого параметра θ , т.е.

)()( θji pyXP == ,

где j = 1,..., m; y1,...,ym – все различные значения, которые может принимать случайная величина X, а вероятности, с которыми эти зна-чения появляются, зависят от параметра θ . Предположим, что

nxxx ...,,, 21 – выборка из генеральной совокупности X, причем значе-

ние yj встречается в выборке nj раз, т.е. nj – частота значения yj, и по-этому имеет место равенство

∑ ==

m

jj nn

1.

Учитывая независимость случайных величин nXX ...,,1 , вероятность

получения выборки nxxx ...,,, 21 можно представить как

)xX(P)xX(P)xX...;;xX(P nnnn ===== L1111 .

Page 18: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

35 36

Эта вероятность есть функция от nxxx ...,,, 21 , которая называется функцией максимального правдоподобия и обозначается

KK )xX(P),x,,x,x(L n 1121 ==θ )xX(P nn = .

Учитывая, что значение iy встречается в выборке jn раз, получаем

)(...)(),...,,( 111 θθθ mn

mn

n ppxxL = .

Как уже было сказано, суть метода максимального правдоподобия состоит в том, что в качестве параметра θ берется такое значение, ко-торое максимизирует функцию ),...,,( 1 θnxxL . Полученное значение,

если оно существует, является функцией от nxxx ...,,, 21 , т.е.

)...,,,( 21*

nМП xxxθθ = . Заменяя элементы nx...,,x,x 21 случайными

величинами nXX ...,,1 , получаем оценку максимального правдоподо-

бия )X...,,X,X( n*МП 21θ .

Точка максимума функции ),...,,( 1 θnxxL удовлетворяет нелиней-ному (в общем случае) уравнению

0),,...,( 1 =

∂∂

θθnxxL

(3.20)

и поэтому конкретное значение оценки )...,,,( 21*

nМП xxxθ опреде-ляют как корень уравнения (3.20).

Функции ),...,,( 1 θnxxL ) и ),...,,(ln 1 θnxxL достигают макси-

мума при одном и том же значении θ . Поэтому вместо отыскания мак-симума функции ),...,,( 1 θnxxL находят максимум функции

),...,,(ln 1 θnxxL . Эта функция получила название логарифмической функции правдоподобия.

Построение оценки максимального правдоподобия можно разбить на следующие этапы:

1. Определяем производную логарифмической функции правдопо-добия по параметру θ .

2. Приравнивая производную к нулю, находим критическую точку

крθ – корень уравнения правдоподобия 0),,...,( 1 =

∂∂

θθnxxL

.

3. Находим вторую производную 2

2 lnθ∂

∂ L и ее значение в точке

крθ . Если вторая производная в точке крθ меньше нуля, то в точке

крθ функция ),x,...,x(L n θ1 достигает максимума.

Найденная таким образом *МПθ является функцией случайных ве-

личин nXXX ...,, 21 и, следовательно, сама является случайной вели-

чиной. Конкретное значение оценки *МПθ получается при подстановке

в )...,,( 1*

nМП XXθ вместо nXXX ...,, 21 значений выборки

nxxx ...,,, 21 . Непрерывная генеральная совокупность. Рассмотрим случай, ко-

гда генеральная совокупность имеет непрерывный ряд распределения. Функцию максимального правдоподобия определим по правилу

),x(p),x(p),x...,,x(L nn θθθ L11 = ,

где ),( θxp – плотность распределения генеральной совокупности. Все остальное, изложенное для дискретного случая, переносится на непре-рывный.

Пример 3.1. Проводится п независимых опытов, в каждом из кото-рых событие А повторяется с неизвестной вероятностью р. Рассмотрим генеральную совокупность Х – количество появлений события А в од-ном опыте. По выборке nxx ...,,1 из генеральной совокупности Х необ-

ходимо оценить параметр р. Решение. Выборка nxx ...,,1 состоит из нулей и единиц, причем

1=ix , если в i -м опыте событие А произошло, и 0=ix , если собы-

тие не произошло. Предположим, что т – частота появления события А в п опытах. Тогда выборка nxx ...,,1 содержит m единиц и )( mn −

нулей. Так как pXPpXP −==== 1)0(,)1( , то mnm

n )p(p),x...,,x(L −−= 11 θ .

Найдем точку максимума логарифмической функции максимального правдоподоподобия Lln

)1ln()(ln),...,,(ln 1 pmnpmxxL n −−+=θ . Определим из уравнения

Page 19: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

37 38

0=∂

∂p

Lln

критическую точку. Имеем

pmn

pm

pLln

−−

−=∂

∂1

.

Решая уравнение

01

=−−

−pmn

pm

,

находим nm

крp = . Убедимся, что при данном значении параметра

крp функции Lln достигает максимума. Для этого нужно проверить, что

01 222

2<

−−

−=∂

∂)p(

mnpm

pLln

.

Подставляя в это неравенство вместо p значение крp убеждаемся в его

справедливости. Значит, nm

крp = – оценка максимального правдопо-

добия, т.е. nm*

МПp = . Заметим, что полученная оценка – относитель-

ная частота – является состоятельной и несмещенной оценкой для пара-метра p .

Пример 3.2. Найти оценку максимального правдоподобия для пара-метра λ распределения Пуассона.

Решение. Напомним, что распределение Пуассона имеет вид

λλ −== em

mXPm

!)( ,

где m принимает любые целые неотрицательные значения. Пусть

nxx ...,,1 – выборка из генеральной совокупности X . Тогда

∏=

−=n

i i

x

n ex

xxLi

11 !

),...,,( λλλ .

Преобразовав произведение, получим

∏=

−++

⋅⋅⋅=

n

i

n

n

x...x

n ex...!x!x

),x...,,x(Ln

1 211

1 λλλ .

Поэтому логарифмическая функция максимального правдоподобия имеет вид

)!!...ln(ln)...(ln 11 nn xxxxnL −+++−= λλ Находим критическую точку, решая уравнение

0ln=

∂∂λ

L.

Получим

x...xn n1 =++

+−

Отсюда n

x...xкр

n++= 1λ . Так как

x...xλlnL

2n1

2

2<

++−=

при крλλ = , то найденная критическая точка есть точка максимума.

Поэтому оценкой максимального правдоподобия для параметра λ яв-ляется случайной величиной

,...1*n

XX nМП

++=λ

т.е. вX . Пример 3.3. Найти оценку максимального правдоподобия для пара-

метра α показательного распределения

⎩⎨⎧

≤>=

.0,0;0,)(

xexp

x αα α (3.21)

Решение. По выборке nxx ...,,1 , состоящей из положительных чи-сел, находим

∏=

++−− ==n

i

xxnxn

ni eexxL1

)...(1

1),...,,( αα ααα .

Поэтому )...(lnln 1 nxxnL ++−= αα .

Решая уравнение

0=∂∂α

Lln

Page 20: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

39 40

находим nxx

n++

=...1

α . Так как условие

0ln22

2<−=

∂∂

ααnL

при крλλ = выполняется, то оценкой максимального правдоподобия для параметра α является

вX1*

МПα = .

Пример 3.4. Найти оценки максимального правдоподобия для пара-метров α и σ нормально распределенной генеральной совокупно-сти.

Решение. Учитывая, что плотность распределения в данном случае есть

2

2

2

)(

21),,( σσπ

σαax

exp−

−= ,

получим по выборке nxx ...,,1

( ).ee),a,x...,,x(L

n

iii )ax(

nn

n

i

)ax(

n

∑−

=

−−

==∏= 1 2

2

2

2

2

12

12

121 σσ

σπσπσ

Отсюда

.)ax(lnnlnLlnn

i

in ∑−

−−−==1 2

2

2 22

σσπ

Находим критические точки этой функции, решая систему уравнений

0Lln;0aLln

=σ∂

∂=

∂∂

.

Вычисляя частные производные, получим

01 2 =∑

−=

∂∂

=

n

i

i )ax(a

Llnσ

,

0)(1ln1

23 =∑ −+−=

∂∂

=

n

ii axnL

σσσ.

Отсюда

;n

x...xa n1кр

++= (3.22)

n

)a(xσ

n

1i

2крi

2кр

∑=

−= . (3.23)

Проверим, что при найденных значениях крa и крσ функция

Lln принимает максимальное значение. Для этого нужно проверить выполнение неравенств

0ln2

2<

∂∂

aL

,

02

22

2

2

2

>

∂∂

∂∂∂

∂∂∂

∂∂

aLln

aLln

aLln

aLln

σ

σ.

Вычислим вторые производные

0ln22

2<−=

∂∂

σn

aL

;

∑=

−−=

∂∂∂

=∂∂

∂ n

i

i axaL

aL

13

222lnln

σσσ;

∑=

−−=∂

=∂∂ n

ii )ax(nnLln

1

24222

2 3σσσσ

. (3.24)

Подставляя значения для крa и крσ из (3.22) и (3.23), получаем:

;xxaLln n

i

n

iii 02

1 13

2=⎟

⎠⎞

⎜⎝⎛∑ ∑−−=

∂∂∂

= =σσ

,d

nnddd

nLln

вв

вв

232

2

2 −=−=∂

σ (3.25)

где вd – значения дисперсии выборочной. Вычисляя определитель в критической точке, получим

Page 21: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

41 42

020

02

2

2lnln

lnln

2

22

2

2

2

>=−

−=

∂∂

∂∂∂

∂∂∂

∂∂

вdn

dn

La

L

aL

aL

dn

в

в

σσ

σ.

Поэтому при значениях крa и 2крσ , определенных по формулам (3.22)

и (3.23), функция Lln принимает максимальное значение. Следова-тельно, оценками максимального правдоподобия будут

в*МПв

*МП D;Xa == σ .

Пример 3.5. Генеральная совокупность распределена равномерно на интервале ),( ba . По выборке nxx ...,,1 оценить параметры a и b .

Решение. Найдем оценки максимального правдоподобия для пара-метров a и b . Плотность генеральной совокупности имеет вид

⎪⎩

⎪⎨⎧

∈= −

),(,0

),(,),,(

1

bax

baxbaxp ab . (3.26)

Поэтому функция максимального правдоподобия

∏=

=n

iin baxpbaxxL

11 ),,(),,,...,(

равна нулю, если хотя бы один сомножитель произведения равен нулю, и больше нуля, если все значения nxx ...,,1 лежат на интервале ),( ba , т.е.

),...,max(),,...,min( 11 nn xxbxxa ≥≤ . (3.27)

Тогда nabn baxxL)(

11 ),,,...,(

−= . Значение этой функции будет мак-

симальным, если величина )( ab − минимальна. Учитывая (3.27), полу-чим

)x,...,xmax(b),x,...,xmin(a nкрnкр 11 == , т.е.

)X,...,Xmax(b),X,...,Xmin(a n*

n*

МПМП 11 == .

4. Интервальные оценки неизвестных параметров

4.1. Некоторые распределения выборочных характеристик

Генеральные совокупности часто имеют нормальный закон распре-деления. В этом случае многие выборочные характеристики, в том чис-

ле 2,, SDX вв выражаются через небольшое число распределений. Как правило, в математической статистике используются не плотности этих распределений, а некоторые характеристики, представленные таблица-ми. Чаще всего в качестве такой характеристики выступает квантиль распределения.

Квантилем уровня )10( << pp или p -квантилем случайной ве-

личины Х называется такое число pd , что вероятность )( pdXP <

равна заданной величине р. Из определения следует, что если непрерывная случайная величина

Х имеет плотность распределения )(xp , то квантиль pd определяется равенством

∫∞−

=pd

pdxxp )( . (4.1)

Это означает, что площадь фигуры, ограниченной осью абсцисс, кривой )(xf и прямой pdx = , равна величине р. На рис.4.1,а показан

квантиль 1.0d , а на рис.4.1,6 квантиль 9.0d . Площади заштрихованных фигур равны 0.1 и 0.9 соответственно.

Рассмотрим несколько распределений, которым подчиняются выбо-рочные характеристики и которые используются для построения интер-вальных оценок.

Распределение 2χ (распределение К. Пирсона). Пусть nN,...,N1 – независимые нормально распределенные случайные величины с пара-метрами (0,1). Распределение случайной величины

223

22

21

2 ... nn NNNN ++++=χ (4.2)

называется распределением хи-квадрат с п степенями свободы, а сама

величина 2χ – случайной величиной хи-квадрат с п степенями свободы.

Page 22: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

43 44

Заметим, что количество степеней свободы п является единственным

параметром хи-квадрат распределения и значения 2χ неотрицательны,

т.е. 0)0( 2 =<nP χ .

Рис. 4.1. К определению квантилей случайной величины

Определим математическое ожидание величины 2χ . По определе-нию (4.2) имеем

[ ]∑ ∑∑= ==

+==⎟⎠

⎞⎜⎝

⎛=n

i

n

iiii

n

iin NMNDNMNMM

1 1

22

1

22 )()()()(χ ,

так как )X(M)X(M)X(D 22 −= . Но 01 == )N(M,)N(D ii ,

а значит, nM n =)( 2χ . Нетрудно вычислить и дисперсию случайной

величины 2nχ . Так как случайные величины 22

1 ,..., nNN независимы, то

[ ])N(M)N(Mn)N(nD)(D n21

41

21

2 −==χ . (4.3)

Плотность распределения случайной величины N1 равна

22

21

xe)x(p−

, значит,

321)()( 2

2444

1 === ∫∫∞

∞−

−∞

∞−

xexdxxpxNM

π.

Последний интеграл вычисляется методом интегрирования по час-

тям. Далее, так как 1)( 21 =NM , то nnD n 2)13()( 2 =−=χ . Таким

образом, 2χ распределение с п степенями свободы имеет следующие числовые характеристики:

nDnM nn 2][;][ 22 == χχ (4.4) Согласно центральной предельной теореме, если случайные величи-

ны 222

21 ,...,, nNNN независимы, одинаково распределены и имеют ко-

нечные дисперсии, то последовательность 221

2 ... nn NN ++=χ асим-

птотически нормальна. Другими словами, при больших значениях п

распределение случайной величины 2nχ близко к нормальному распре-

делению с параметром nna 2, 2 == σ . Однако при малых значениях

п функция плотности случайной величины 2nχ значительно отличается

от кривой Гаусса. Для иллюстрации этого факта определим плотность распределения

случайной величины 22

21

22 NN +=χ . Вначале вычислим функцию

распределения случайной величины 22χ . Пусть х > 0 .

)()( 22 xPxF <= χ . (4.5)

По оси абсцисс u будем откладывать значение случайной величины

1N , а по оси ординат v – значение случайной величины 2N . Рассмот-

рим пару случайных величин 21, NN , совместная плотность распреде-ления которых вычисляется по формуле

222

21),(

vuevup

+−=π

,

так как )v(p)u(p)v,u(p ⋅= вследствие независимости составляю-

Page 23: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

45 46

щих 21, NN . Из (4.5) следует, что )(uF равна вероятности попадания

случайной точки ),( 21 NN в круг радиуса x . Из курса теории веро-ятности известно, что искомую вероятность можно вычислить как двойной интеграл от функции плотности ),( vup по этому кругу xK ,

т.е.

∫ ∫=xK

dudvvupxF ),()( . (4.6)

Обозначим через )(xf функцию плотности случайной величины 22χ .

Согласно определению, )()( xFxf ′= , т.е.

xxFxxFxf

x Δ−Δ+

=→Δ

)()(lim)(0

.

Но из (4.6) получим

∫ ∫Δ+

=Δ+xxK

dudvvupxxF ),()( , (4.7)

где xxK Δ+ – круг радиуса xx Δ+ с центром в начале координат.

Из (4.6) и (4.7) получим

∫ ∫=−Δ+R

dudvvupxFxxF ),()()( , (4.8)

где R – кольцо, между окружностями с радиусами xx Δ+ и x . По теореме о среднем интеграл (4.8) равен значению подынтегральной функции ),( vup , вычисленной в некоторой точке М из области R, ум-

ноженной на площадь области R. Пусть ),( 11 vu – координаты точки М. Площадь кольца

xxxxS Δ=−Δ+= πππ )( . Поэтому

2

21

21

21

11

vu

ex)v,u(Sp)x(F)xx(F+

−==−+

πΔπΔ .

Так как 21

21 vu + – квадрат расстояния от начала координат до точки М,

то xxvux Δ+≤+≤ 21

21 и, значит, 2

121 vu + стремится к x , когда

xΔ стремится к нулю. Мы предполагаем, что 0>Δx , но это не умень-шает общности рассуждений. Итак,

.exex

lim

x)x(F)xx(Flim)x(f

x

vu

x

x

22

21

21

212

1

0

0

−−

==

=−+

=

+

ΔΔπ

ΔΔ

πΔ

Δ (4.9)

На рис. 4.2 показаны плотности распределения )x(f случайной ве-

личины 2nχ при 62 == n;n и 20=n . Видно, что при увеличении n

плотность )x(f «приближается» к плотности нормального распределе-ния.

Рис. 4.2. Плотность распределения хи-кватрат

Обратим внимание на одно замечательное свойство распределения

2nχ . Строго говоря, это свойство можно доказать, используя, например,

производящие функции. Свойство состоит в том, что сумма независи-

мых случайных величин 22mn χχ + также распределена по закону хи-

квадрат с )( mn + степенями свободы. Объясняется это тем, что слу-

чайная величина 22mn χχ + представляется в виде суммы )( mn +

квадратов случайных величин, независимых и нормально распределен-ных с параметрами (0,1).

Page 24: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

47 48

Распределение Стьюдента ( Т-распределение). Пусть )1,0(N – нормально распределенная случайная величина с параметрами

10 == σ,a , а 2nχ – независимая от )1,0(N случайная величина,

подчиняющаяся распределению хи-квадрат с n степенями свободы. То-гда распределение случайной величины

2

)1,0(

nn

nNTχ

= (4.10)

называется t-распределением или распределением Стьюдента. Сама случайная величина (4.10) называется t -величиной с п степенями сво-боды. Плотность вероятности случайной величины nT имеет вид

21

21

+−

⎟⎟⎠

⎞⎜⎜⎝

⎛+=

n

nxBp nn ,

где nB – некоторая константа, удовлетворяющая условию нормирова-

ния ∫∞

∞−= 1)( dxxpn . При больших значениях п кривая )(xpn близка к

кривой – Гаусса распределения )1,0(N . Поэтому в практических рас-четах при п > 30 часто считают, что

22

21)(

xexpn−=

π.

Заметим, что функция плотности )(xpn симметрична относительно оси ординат.

Распределение Фишера ( F -распределение). Пусть 2nχ и 2

mχ – независимые случайные величины, имеющие хи-квадрат распределе-ния с п и m степенями свободы, соответственно. Распределение случай-ной величины

mnF

m

nmn 2

2

, χχ

= (4.11)

называется F-распределением или распределением Фишера п и m степе-нями свободы, а сама величина (4.11) – mnF , величиной. Так как слу-

чайные величины 02 ≥nχ и ,02 ≥mχ то 0, ≥mnF . В дальнейшем мы часто будем ссылаться на следующую теорему о

распределении выборочных характеристик вX и вD доказанную Р. Фишером.

Теорема 4.1 (о распределении выборочных характеристик). Если ге-неральная совокупность Х распределена по нормальному закону с па-раметрами a и σ , то: а) случайная величина вX распределена нормально с параметрами

),a(nσ ;

б) 2σвnD имеет распределение 21−nχ ;

в) случайные величины вX и вD независимы. Мы не будем полностью доказывать эту теорему. Обратим внимание

лишь на то, что вX есть линейная комбинация

nnnnв XXXX 12

11

1 ... +++=

независимых, нормально распределенных случайных величин. Как от-мечалось в курсе теории вероятностей, в этом случае случайная величи-на вX распределена нормально. Легко получить, что

an

nan

)x(M...)x(Mn

x...xxM)X(M nnв ==

++=⎟

⎠⎞

⎜⎝⎛ +++

= 121 ,

nnn

nxDxD

nxxDXD nn

в

2

2

2

211 )(...)(...)( σσ

==++

=⎟⎠⎞

⎜⎝⎛ ++

= .

Тем самым первое утверждение теоремы доказано. Как следует из в), используя случайные величины вX и вD , мож-

но составить случайную величину 1−nT . Действительно, пронормиро-

вав вX , получим

Page 25: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

49 50

),(Nn)aX( в 10=−σ

.

Так как вX и вD независимы, то по (4.10)

в

вввn D

n)aX(nD:nn)aX(T 1121

−−=

−−=− σσ

.

Итак, мы получили Следствие. Если условия теоремы о распределении выборочных ха-

рактеристик выполнены, то случайная величина

в

в

Dn)aX( 1−−

имеет распределение Стьюдента с 1−n степенью свободы.

Напомним, что исправленная дисперсия 2S определяется как

вDn

nS1

2−

= .

Тогда получаем новое Следствие. Если условия теоремы о распределении выборочных ха-

рактеристик выполнены, то случайная величина

2S

n)aX( в −

имеет распределение с 1−n степенью свободы.

4.2. Понятие интервальной оценки параметра случайной величины

Вычисляя на основании результатов наблюдений точечную оценку *θ неизвестного параметра θ , мы понимаем, что величина *θ являет-

ся (в силу своей случайности) лишь приближенным значением парамет-ра θ . При большом числе наблюдений точность приближения бывает достаточной для практических выводов в силу несмещенности, состоя-тельности и эффективности «хороших» оценок. Для выборок малого объема точечные оценки могут значительно отличаться от оцениваемо-го параметра и вопрос о точности получаемых оценок становится очень важным. В математической статистике он решается введением интер-вальных оценок.

Интервальной оценкой для параметра θ называется такой интервал

⎟⎠⎞⎜

⎝⎛ ** ,θθ со случайными границами, что

γθθθ =<< )(P** . (4.12)

Вероятность γ называется надежностью интервальной оценки или до-

верительной вероятностью, случайные величины ** ,θθ – довери-

тельными границами, а сам интервал ),( ** θθ иногда называют дове-рительным интервалом. Центром этого интервала является значение

точечной оценки *θ . Надежность γ принято выбирать равной 0.95, 0.99. Тогда событие,

состоящее в том, что интервал ),( ** θθ покроет параметр θ , будет практически достоверным.

Общая теория построения интервальных оценок заключается в опре-делении случайной величины, зависящей от оцениваемого параметра. Зная распределение этой случайной величины, находят соответствую-щие доверительные границы и сам доверительный интервал с требуе-мой точностью. Посмотрим, как эта идея реализуется для различных параметров.

4.3. Интервальные оценки математического ожидания нормального распределения

Пусть генеральная совокупность Х распределена по нормальному

закону ),a(N σ , причем параметр σ известен, а параметр a требует-ся оценить с надежностью γ . По теореме о распределении выборочных

характеристик случайная величина σ

naX в )( − распределена по за-

кону )1,0(N . На рис. 4.3 изображен график функции плотности этой

случайной величины, т.е. кривая 22

21

xey−

. Выберем число

γx так, что заштрихованная площадь равна γ , т.е.

( ) γγσγ =<<− − )( xxP naX в . (4.13)

Page 26: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

51 52

Рис. 4.3. К построению доверительных интервалов Это значение легко находится с использованием интегральной

функции Лапласа dtexx t

∫−

=Φ0

221

2

)( π . Действительно,

γγγγγγ =Φ=−Φ−Φ=<<− )(2)()())1,0(( xxxxNxP . (4.14)

Значение γx , удовлетворяющее нелинейному уравнению

2)( γ

γ =Φ x , (4.15)

находится по табл. П1, в которой приведены значения )(xΦ .

Так как 0>σ , то события ( )γσγ xx naX в <<− − и

n

xXa

n

xX вв

σσ γγ +<<− эквивалентны, а значит, их вероятности

равны:

γσσ γγ =⎟⎟⎠

⎞⎜⎜⎝

⎛+<<−

n

xXa

n

xXP вв . (4.16)

Таким образом, мы построили для параметра a доверительный ин-

тервал (интервальную оценку), левая граница которого n

xX в

σγ− ,

правая – n

xX в

σγ+ , а точность – n

x σδ γ= . Центр этого интервала

находится в точке с координатой вX , а длина интервала n

x σγ2 . Если

объем выборки неограниченно возрастает, то интервал стягивается в одну точку вX , которая является состоятельной и несмещенной оцен-кой для параметра a .

Пример 4.1. По выборке объема п = 9 найдено среднее значение

5.1=вx . Считая, что генеральная совокупность распределена по нор-мальному закону с известным 2=σ , определить интервальную оценку для математического ожидания с надежностью 95.0=γ .

Решение. Используя табл. П1 функции )(xΦ , находим, что

475.0295.0)( ==Φ γx

при 96.1=γx . Тогда 3119619

2 .. =⋅=δ и доверительный интервал

(4.16) имеет границы ).X,.X( вв 311311 +− . Таким образом, с веро-ятностью 0.95 можно быть уверенным в том, что интервал

).X,.X( вв 311311 +− (4.17)

накроет параметр a , или другими словами, с вероятностью 0.95 значе-ние вX дает значение параметра а с точностью δ = 1.31.

Заметим, что эта трактовка неверна, если вместо случайной величи-ны вX использовать вычисленное по конкретной выборке значение

вx = 1.5. Тогда границы интервала (0.19, 2.81) будут не случайными и возможны два случая:

— точка а лежит внутри этого интервала и тогда

Р(0.19 < а < 2.81) = 1;

— точка а не лежит внутри (0.19, 2.81) и тогда

γx− xγx

Page 27: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

53 54

Р(0.19 < а < 2.81) = 0.

Поэтому только для интервала (4.17) со случайными границами можно утверждать, что

950311311 .).Xa.X(P вв =+<<− .

Определим теперь интервальную оценку для неизвестной генераль-ной средней гx , нормально распределенной генеральной совокупности

Х в том случае, когда дисперсия генеральная гD неизвестна, т.е. по-строим доверительный интервал для параметра a , если σ неизвестно.

В отличие от предыдущего случая, вместо случайной величины

σnaXв )( − , распределенной по закону )1,0(N , рассмотрим случайную

величину в

вD

naX 1)( −− , которая согласно следствию из теоремы о рас-

пределении выборочных характеристик распределена по закону Стью-дента 1−nT . При заданном значении γ , пользуясь табл. П2, вычислим

значение ),( nt γ из условия

γγγ =⎟⎟⎠

⎞⎜⎜⎝

⎛<

−−<− )n,(t

Dn)aX()n,(tP

в

в 1, (4.18)

где γ – надежность интервальной оценки. Замена случайной величины

σnaXв )( − на случайную величину

в

вD

naX 1)( −− вызвана тем, что закон

распределения последней случайной величины известен и в ее запись не входит неизвестный в данном случае параметр σ . Из условия (4.18) получаем

γγγ

=⎟⎟⎠

⎞⎜⎜⎝

−−<<

−−

1),(

1),(

nDnt

Xan

DntXP в

вв

в .

Таким образом, интервальная оценка надежности γ для неизвестной генеральной средней а имеет границы

⎟⎟⎠

⎞⎜⎜⎝

−+

−−

1),(

,1

),(n

DntX

nDnt

X вв

вв

γγ.

Выразим границы интервала через исправленную дисперсию 2S . Так,

как вnn DS 1

2−= , то

nS

nDв =−1

. Поэтому

nSnt

nDnt в ),(1

),( γγ=

−.

Значит, границы доверительного интервала можно записать как

⎟⎠

⎞⎜⎝

⎛ +−n

SntXn

SntX вв),(,),( γγ

, (4.19)

а точность интервальной оценки определить соотношением:

Snnt ),(γδ = . (4.20)

Как и в предыдущем случае, центр интервала находится в точке вX ,

но длина интервала Snnt ),(2 γ является случайной величиной, прини-

мающей тем меньшие значения, чем больше значение п. Это объясняет-ся тем, что наличие большей информации nxx ,...,1 о генеральной со-вокупности Х позволяет сузить интервал.

Пример 4.2. По выборке объема п = 9 из нормально распределенной генеральной совокупности найдены значения 5.1=вx и 5.1=s . По-строить интервальную оценку для математического ожидания с надеж-ностью 95.0=γ .

Решение. Пользуясь табл. П2, находим величину 26.2)9,95.0( =t . Тогда точность δ определяется соотношением (см. (4.20)):

SSn

St 75.0326.2)9,95.0(

≈==δ ,

а интервальная опенка имеет границы

( )0.75SX0.75S,X вв +− ,

которые зависят от двух случайных величин SX в , . Подставляя вместо

Page 28: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

55 56

S ее вычисленное значение s = 2, получаем интервал

( )1.50X1.5,X вв +− .

Сравнивая эту оценку с интервальной оценкой примера 4.1 (см .(4.17)), видим, что замена неизвестной величины σ вычисляемой величиной s приводит к уменьшению точности интервальной оценки и увеличению длины доверительного интервала. Подставив вместо случайной величи-ны вX ее конкретное значение 5.1=вx , получаем конкретное значе-ние границ (0; 3).

4.4. Интервальные оценки дисперсии нормального распределения

Как и при построении интервальных оценок для математического ожидания, в данном случае также необходимо определить случайную величину, распределение которой было известно и включало оценивае-мый параметр σ . В соответствии с теоремой 4.1 такой отправной точ-кой для построения доверительного интервала может быть случайная

величина 2σвnD , распределенная по закону хи - квадрат с )1( −n степе-

нями свободы. Заметим, что доверительные интервалы, построенные для параметра a , вообще говоря, можно было выбрать несимметрич-ными относительно вX и это не противоречило бы определению ин-тервальной оценки. Но такой выбор интервала, когда в его середине ле-жит состоятельная и несмещенная оценка параметра, являлся предпоч-тительным. В данном случае целесообразно выбрать два предела

2,γχ лев , и 2

,γχпр так, что

( ) ( )2

221

221

αχχχχ γγ =>=< −− ,прn,левn PP ,

где ,1 γα −= γ – надежность интервальной оценки.

Следовательно, 2,γχ лев – квантиль 2

1−nχ – распределения уровня

2α , 2,γχпр – уровня 21 α− . Тогда имеет место равенство

γχσ

χ γγ =⎟⎠

⎞⎜⎝

⎛ << 2,2

2, пр

влев

nDP .

Следовательно, интервал

⎟⎟

⎜⎜

⎛2

,2

,,

γγ χχ лев

в

пр

в nDnD (4.21)

является интервальной оценкой для 2σ надежности γ .

Так как nSnDв2)1( −= , то 2)1( SnnDв −= и интервал

⎟⎟

⎜⎜

⎛ −− 22

,

22

,

1,1 SnSn

левпр γγ χχ (4.22)

является также интервальной оценкой для дисперсии 2σ надежности γ . Заметим, что границы интервалов (4.21), (4.22) являются случайны-

ми величинами (почему?) и с вероятностью γ можно утверждать, что

интервалы (4.21), (4.22) накроют неизвестную дисперсию 2σ . Пример 4.3. По выборке объема п = 20 из нормально распределен-

ной генеральной совокупности вычислено значение дисперсии выборки

5.1=вd . Построить интервальную оценку для параметра 2σ надеж-

ности 960.=γ .

Решение. Значения 2,γχ лев , 2

,γχпр находим из условий:

( ) ( ) ..P;.P ,пр,лев 980020 2219

2219 =<=< γγ χχχχ

Эти условия означают, что 2,γχ лев есть квантиль 2χ – распределе-

ния с 19 степенями свободы уровня 0.02, а 2,γχпр – квантиль уровня

0.98. По табл. ПЗ квантилей 2χ -распределения находим

6.82, =γχ лев ; 7.332

, =γχпр .

Тогда интервальная оценка (4.21) принимает вид

)D.,D.( вв 332590 .

Page 29: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

57 58

Подставляя вычисленное значение 5.1=вd случайной величины

вD , получаем

.488.389.0 2 <σ<

4.5. Интервальная оценка вероятности события В п. 3.4 было показано, что "хорошей" точечной оценкой вероятно-

сти р события является частность nmp /* = (см. (3.17)), где п – общее число независимых испытаний, в каждом из которых событие А может произойти с вероятностью р а m – число испытаний, в которых про-изошло событие А.

Зададимся надежностью интервальной оценки γ и найдем числа

γ,левp , γ,прp такие, чтобы выполнялось соотношение

( ) γγγ =<< ,пр,лев pppP . (4.23)

Интервальную оценку построим для двух случаев: когда число ис-пытаний п сравнительно велико )30,10( >> nnp и для малого числа испытаний.

Интервальная оценка вероятности при большом числе испыта-ний. Если 30,10 >> nnp , то распределение случайной величины

nmp =*

можно аппроксимировать нормальным распределением )n/pq,p(N . Следовательно, при этих же условиях распределение

величины npq

pp/

)( *− близко к нормальному с нулевым математическим

ожиданием и единичной дисперсией, т.е.

)1.0(/

*N

npqpp=

−.

По аналогии с (4.13) найдем такое число xγ, для которого справедливо равенство

γγγ =⎟⎟⎠

⎞⎜⎜⎝

⎛<

−<− x

n/pqppxP

*. (4.24)

Это число является корнем уравнения

2)( γγ =Φ x ,

где )(xΦ – функция Лапласа, и корень может быть найден с помощью табл. П1.

Неравенство, стоящее в скобках выражения (4.24), разрешим отно-сительно р. Для этого неравенство перепишем в виде эквивалентного

γxnpqpp

<−/

*.

Возведем в квадрат и в результате получим

22* )1()( γxn

pppp −<− .

Далее, возведя в квадрат )( * pp − и перенеся все члены влево, полу-чим

0212

22

2

<+⎟⎟⎠

⎞⎜⎜⎝

⎛+−⎟

⎟⎠

⎞⎜⎜⎝

⎛+ ** pp

nx

ppnx γγ .

Корни 1p и 2p квадратного трехчлена, стоящего в правой части нера-венства, определяются выражениями

;nx

)n(xn)p(px)n(xpp

***

2

222

11

412

γ

γγγ

+

+−−+= (4.25)

nx

)n(xn)p(px)n(xpp

***

2

222

21

412

γ

γγγ

+

+−++= . (4.26)

Корни этого уравнения и являются границами интервальной оценки (4.23)

Page 30: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

59 60

2,;1, pppp прлев == γγ . (4.27)

Если п >> 100, то для вычисления 21 p,p можно использовать прибли-женные формулы:

.n)p(pxpp;n)p(pxpp ****** −+≈−−≈ 11 21 γγ (4.28)

Видно, что границы интервала (4.23) являются случайными величинами и конкретные значения границ получаются в результате подстановки наблюдаемого значения случайной величины р*.

Пример 4.4. Событие А в серии из п = 100 испытаний произошло т = 78 раз. Построить интервальную оценку для вероятности р события с надежностью 9.0=γ .

Решение. В условиях примера значение точечной оценки вероятнос-

ти р равно, 78.0100/78* ==p . По табл. П1 определяем 64.1=γx

и вычисляем по формулам (4.25, 4.26) значения 21 p,p при

848.0,705.0:78.0 21* === ppp . Таким образом, получили

реализацию доверительного интервала (0.705, 0.848) для вероятности р события А.

Интервальная оценка вероятности при малом числе испытаний При малом числе испытаний п предположение о приближенном рас-

пределении случайной величины m по нормальному закону

)npq,np(Nm = ,

становится несправедливым и для описания распределения величины m необходимо использовать формулу Бернулли:

nxppCxmP xnxxn ,...,1,0,)1()( =−== − .

Можно показать, что граничные точки интервальной оценки (4.22) являются решениями следующих нелинейных уравнений:

∑+

=−−

=

−1

0,, 2

1)1(m

x

xnлев

xлев

xn ppc γ

γγ ; (4.29)

∑−

=−=

−m

x

xnпр

xпр

xn ppc

0,, 2

1)1( γγγ , (4.30)

где γ – надежность интервальной оценки. Вновь заметим, что решения

γγ ,, , прлев pp этих уравнений являются случайными величинами (по-

чему?) и только при подстановке конкретного значения т (количество испытаний, в которых появилось событие А) будут получены конкрет-ные значения граничных точек интервальной оценки (4.23).

Корни уравнений (4.29), (4.30) могут быть найдены одним из извест-ных численных методов решения нелинейных уравнений. Кроме этого, существуют специальные таблицы для нахождения чисел

γγ ,, , прлев pp , удовлетворяющих уравнениям (4.29), (4.30) по задан-ным γ,, nmn − . Фрагмент этих таблиц представлен в табл. П4.

Пример 4.5. В пяти испытаниях событие А произошло три раза. По-строить интервальную оценку для вероятности р события А с надежно-стью 95.0=γ .

Решение. Из условий примера имеем п = 5, m = 3, γ = 0.95. По

табл. П4 находим 947.0,147.0 ,, == γγ прлев pp , а интервальная

оценка определяется как (0.147,0.947). Сравнивая интервальные оценки примеров 4.4, 4.5, видим, что дли-

на доверительного интервала для примера 4.5 (равная 0.8) существенно больше длины доверительного интервала примера 4.4 (равной 0.143). Это является следствием разного объема выборок )5( =n и )100( =n

и различных дисперсий случайной величины nmp =* .

5. Проверка статистических гипотез

5.1. Понятие статистической гипотезы. Основные этапы проверки гипотезы

Прежде чем перейти к математическим формулировкам, рассмотрим один пример.

Результаты многолетних статистических исследований показали, что для населения некоторого региона вероятность предрасположения к данному заболеванию R равна 1.00 =p . После строительства в этом регионе химического предприятия была проведена выборочная провер-ка населения. Из 1000 обследованных у 120 человек были обнаружены

Page 31: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

61 62

признаки заболевания R. Можно ли утверждать: а) полученные данные не противоречат предположению, что строительство не повлияло на уровень заболевания R, или б) изменение экологической обстановки по-сле строительства комбината повлияло на распространение заболевания R? Приведенный пример является типичной задачей проверки статисти-ческой гипотезы. Под статистической гипотезой понимается всякое высказывание о генеральной совокупности (случайной величине X), проверяемое по выборочной совокупности (по результатам наблюде-ний). В нашем примере высказывание формулируется в терминах веро-ятности 0p события А = {наличие у человека заболевания R}. Не рас-полагая сведениями о всей генеральной совокупности, высказанную ги-потезу сопоставляют по определенным правилам с выборочными дан-ными и делают вывод о том, можно принять гипотезу или нет. Эта про-цедура сопоставления называется проверкой гипотезы.

Рассмотрим этапы проверки гипотезы и используемые при этом по-нятия.

Э т а п 1. Располагая выборочными данными и руководствуясь кон-кретными условиями рассматриваемой задачи, формулируют гипотезу

0H , которую называют основной или нулевой, и гипотезу 1H , конку-

рирующую с гипотезой 0H . Гипотезу 1H называют также альтерна-тивной.

Термин "конкурирующая" означает, что являются взаимоисклю-чающими следующие два события:

• по выборке принимается решение о справедливости для генераль-ной совокупности гипотезы 0H ;

• по выборке принимается решение о справедливости для генераль-ной совокупности гипотезы 1H .

Вернемся к нашему примеру. Обозначим через А событие, состоящее в том, что случайно выбранный человек в данном регионе предраспо-ложен к заболеванию R. До строительства химического предприятия ве-роятность события А была равна 0.1. В качестве гипотезы 0H рас-смотрим гипотезу о том, что после строительства химического предпри-ятия вероятность события А не изменилась. Таким образом, если 1p — вероятность события А после строительства предприятия, то в качестве нулевой (основной) гипотезы принимается

010 : ppH = .

Учитывая, что: а) строительство комбината вряд ли улучшило экологи-ческую обстановку в регионе; б) при выборке из 1000 человек у 120 че-ловек обнаружено заболевание R, что соответствует относительной час-тоте р* = 120/1000 = 0.12 > 0.1, в качестве альтернативной гипотезы примем:

011 pp:H > .

Э т а п 2 . Задается вероятность α , которую называют уровнем значимости. Эта вероятность имеет следующий смысл.

Решение о том, можно ли считать высказывание 0H справедливым для генеральной совокупности, принимается по выборочным данным, т.е. по ограниченному объему информации. Следовательно это решение может быть ошибочным. При этом может иметь место ошибка двух ро-дов:

• ошибка первого рода совершается при отвержении гипотезы 0H

(т.е. принимается альтернативная 1H ), тогда как на самом деле

гипотеза 0H верна; вероятность такой ошибки обозначим

);/( 01 HHP

• ошибка второго рода совершается при принятии гипотезы 0H , то-

гда как на самом деле высказывание 0H неверно и следовало бы

принять гипотезу 1H ; вероятность ошибки второго рода обозна-чим как

)/( 10 HHP=β . (5.1)

Тогда уровень значимости α определяет ошибки первого рода, т.е.

)/( 01 HHP=α . (5.2)

Поэтому вероятность α задается малым числом, поскольку это ве-роятность ошибочного высказывания, при этом обычно используются стандартные значения: 0.05; 0.01; 0.005. Например, 05.0=α означает следующее: если гипотезу 0H проверять по каждой из 100 выборок одинакового объема, то в среднем в 5 случаях из 100 совершим ошибку первого рода.

Page 32: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

63 64

Обратим внимание на то, что в результате проверки гипотезы 0H

могут быть приняты правильные решения двух следующих видов:

• принимается гипотеза 0H тогда, когда она верна (т.е. 0H имеет место в генеральной совокупности); вероятность этого решения равна α−=1)/( 00 HHP (почему?);

• не принимается гипотеза 0H (т.е. принимается гипотеза 1H ) то-гда, когда и на самом деле она неверна (т.е. справедлива гипотеза

1H ), вероятность этого решения равна (почему?)

β−=1)/( 11 HHP . (5.3)

Э т а п 3 . Определяют величину K такую, что: а) ее значения зави-сят от выборочных данных nxxx ,...,, 21 , т.е. ),...,,( 21 nxxxKK = ; б) будучи величиной случайной (в силу случайности выборки

nxx ,...,1 ), величина K подчиняется при выполнении гипотезы 0H некоторому известному закону распределения; в) ее значения позволя-ют судить о расхождении гипотезы 0H с выборочными данными. Ве-личину K называют критерием.

Обратимся к нашему примеру. Пусть 1000S — количество обсле-дуемых, предрасположенных к заболеванию R в выборке из 1000 чело-век. Если гипотеза 0H верна, т.е. 1.001 == pp , то случайная вели-

чина 1000S распределена по биномиальному закону и ее числовые ха-

рактеристики равны 100)( 1000 =SM , 901000 =)S(D (почему?) С другой стороны, ее распределение близко к нормальному. Поэтому слу-чайная величина

487.91001000 −=

SK (5.4)

распределена по закону, близкому к нормальному ).1.0(N Заметим, что если вероятность события A возросла после строи-

тельства химического комбината, то случайная величина K преимуще-ственно будет принимать положительные значения (почему?) и это мо-жет трактоваться в пользу принятия гипотезы 1H . Видно, что величина

(5.4) удовлетворяет требованиям а), б), в) и может быть принята при проверке гипотезы 010 : ppH = при альтернативной 011 : ppH > .

Э т а п 4 . В области всевозможных значений критерия K выде-ляют подобласть ω , называемую критической областью. Значения критерия, попавшие в критическую область, свидетельствуют о сущест-венном расхождении выборки с гипотезой 0H . Поэтому руководству-ются следующим правилом: если вычисленное по выборке значение критерия попадает в критическую область ω , то гипотеза 0H отверга-

ется и принимается альтернативная 1H . При этом следует помнить, что

такое решение может быть ошибочным — на самом деле гипотеза 0H

может быть справедливой. Таким образом, ориентируясь на критиче-скую область, можно совершить ошибку первого рода, вероятность ко-торой задана заранее и равна α . Отсюда вытекает следующее требова-ние к критической области ω :

Вероятность принятия критерием K значения из критической об-ласти ω при справедливости гипотезы 0H должна быть равнаα , т.е.

αω =∈ )(KP . (5.5)

Однако критическая область определяется равенством (5.5) неоднознач-но. Пусть )(xpK является плотностью распределения критерия K . Тогда нетрудно увидеть, что на оси X существует бесчисленное мно-жество интервалов таких, что площади построенных на них криволи-нейных трапеций, ограниченных сверху кривой )(xpK , равны α . По-этому, кроме требования (5.5), выдвигается следующее: критическая область ω должна быть расположена так, чтобы при заданной вероят-ности α – ошибки первого рода вероятность β – ошибки второго рода (см. (5.1)) была минимальной.

Обычно этому требованию удовлетворяют три случая расположения критической области (в зависимости от вида нулевой и альтернативной гипотез, формы и распределения критерия К):

• правосторонняя критическая область (рис.5.1, а), состоящая из интервала ),( , +∞αпрx , где точка α,прx определяется из усло-вия:

αα => )( ,прxKP (5.6)

Page 33: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

65 66

и называется правосторонней критической точкой;

• левосторонняя критическая область (рис.5.1, б) состоит из ин-тервала ),( ,αлевx−∞ , где α,левx определяется из условия

αα =< )xK(P ,лев (5.7)

и называется левосторонней критической точкой;

• двусторонняя критическая область (рис.5.1, в), состоящая из следующих двух интервалов: ),(),,( 2/,2/, +∞−∞ αα прлев xx ,

где точки 2/,2/, , αα прлев xx определяются из условий

22 /)xK(P /,лев αα =< ; 2/)( 2/, αα => прxKP . (5.8)

Вернемся к нашему примеру. Так как альтернативная гипотеза име-ет вид 011 : ppH > , то принимается правосторонняя критическая об-

ласть (рис.5.1, а). Задаваясь α = 0.005, определяем α,прx из уравнения (5.6).

При справедливости гипотезы 0H критерий К, определяемый вы-

ражением (5.4), имеет нормальное распределение )1,0(N и, следова-тельно, по таблице функции Лапласа )(xΦ (по табл. П1) необходимо

найти такое α,прx , что

4950.)x( ,пр =αΦ .

Это значение равно 2.58. Тогда вероятность того, что критерий К при справедливости гипотезы 0H примет значение больше 2.58, равна

005058210582582 .).()()).(N.(P).K(P =−∞=∞<<=> ΦΦ .

Выбор критической области из условия минимума вероятности ошибки второго рода эквивалентен выбору критической области из ус-ловия максимума величины

β−= 1m ,

называемой мощностью критерия К и равной вероятности )/( 11 HHP

принятия гипотезы 1H , при справедливости гипотезы 1H . Поясним понятие мощности критерия следующим примером.

Рис. 5.1. Три вида критических областей при проверке статистических

гипотез

αПлощадь

α,прx

01

00::

aaHaaH

<=

α,левx

αПлощадь

2/,αпрx

2/αПлощадь

01

00::

aaHaaH

≠=

2/,αлевx

2/αПлощадь

Page 34: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

67 68

Предположим, что если верна гипотеза 0H , то критерий К

распределен по нормальному закону N(5,3) (т.е. математическое

ожидание 5=a , дисперсия 892 =σ ), а если верна конкурирующая гипотеза 1H , то критерий распределен по закону N(15,3). Требуется вычислить мощность критерия 1m , когда в качестве критической

рассматривается область больших значений, и мощность 2m , когда в качестве критической рассматривается область больших по модулю значений. Уровень значимости α возьмем 0.05. В первом случае границу правосторонней критической области найдем из условия

05.0))9,5(( , => αпрxNP ,

поэтому

( ) ( ) ..x

).(NxPx).(NP ,пр,пр,пр 050

35

213535 =⎟⎟

⎞⎜⎜⎝

⎛ −−=∞<<=> α

αα Φ

Значит, 45.03

5, =⎟⎟⎠

⎞⎜⎜⎝

⎛ −Φ αпрx

. По таблицам значений функции )(xΦ

находим, что

64.13

5, =−αпрx

.

Поэтому границы правосторонней критической области 92.9, =αпрx . Чтобы вычислить ошибку второго рода 1β , нужно

найти вероятность попадания в область допустимых значений ).,( 929∞− при условии, что гипотеза 0H неверна. В этом случае

считается справедливой гипотеза 1H , а критерий будет распределен по закону N(15,3). Значит,

( )....

).(..).).(N(P .

045504545050

6915050929315 315929

1

=−=

=−=+=<= − ΦΦβ

и мощность критерия 95501 11 .m =−= β .

Во втором случае правая граница критической области 2/,αпрx вы-числяется из условия

..)x).(N(P ,пр 025035 => α

Поэтому

9613

52 .x ,пр =

−α.

Значит, 88.10x 2/,пр =α . Левая граница критической области сим-

метрична с точкой 2/,αпрx относительно точки 5=x , т.е. левая гра-

ница 88.088.552/, =−=αпрx . Тогда вероятность ошибки 2β соста-вит

( ) ( )....).().(

).),(N.(P ..

0853041147050371295

8810315880 315880

3158810

2

=−=−=

=−=<<−= −−−

ΦΦ

ΦΦβ

Поэтому мощность критерия во втором случае равна 9147.00853.011 22 =−=−= βm . Значит, односторонняя крити-

ческая область больших значений является предпочтительной. Э т а п 5 . В формулу критерия К, который является функцией п

случайных величин nXXX ,...,, 21 , подставляются выборочные зна-

чения nxxx ,...,, 21 и подсчитывается числовое значение критерия

набK .

Если набK попадает в критическую областьω , то гипотеза 0H от-

вергается и принимается гипотеза 1H . При этом можно допустить

ошибку первого рода с вероятностью α. Если набK не попадает в кри-

тическую область, гипотеза 0H не отвергается. Однако это не означает,

что 0H является единственной подходящей гипотезой: просто 0H не противоречит результатам наблюдений; возможно, таким же свойством наряду с 0H могут обладать и другие гипотезы.

Вновь обратимся к нашему примеру. Напомним, что из обследован-ных 1000 человек признаки заболевания R были обнаружены у 120 че-

Page 35: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

69 70

ловек, т.е. 1201000 =S . Подставляя это выборочное значение в фор-мулу (5.4), получаем значение

108.2487.9100120 == −

набK .

Правосторонняя критическая точка ранее была определена как 58.22/, =αпрx . Так как 2.108 < 2.58, то можно принять гипотезу

010 : ppH = , а полученные расхождения между теоретической веро-

ятностью 1.00 =p и наблюдаемой частностью 0.120 считать допусти-

мыми на уровне значимости 005.0=α . Если бы количество человек с признаками заболевания R составило

130 (из 1000 обследованных), то 16234879100130 .K .наб == − . В этом слу-

чае случайная величина К приняла значение из критической области, т.е. произошло событие 2/,αпрxK > , которое практически невозмож-

но, если гипотеза 0H справедлива. Поэтому следует отвергнуть гипо-

тезу 0H в пользу альтернативной гипотезы 010 : ppH > .

5.2. Проверка гипотезы о числовом значении математического ожидания нормального распределения

Полагаем, что Х является случайной величиной, имеющей нормаль-

ное распределение с параметрами a и σ , т.е. ),( σaNX = , причем числовое значение а неизвестно.

Дать точный ответ на вопрос, каково численное значение неизвест-ного параметра а по выборочной совокупности нельзя. Поэтому посту-пают следующим образом. Полагая, что наблюдения nXXX ,...,, 21

независимы, вычисляют значение выборочной оценки вX , которое да-ет приближенные представления об a . Затем приступают к проверке гипотез о числовых значениях неизвестного параметра а.

Проверка гипотезы о числовом значении математического ожи-дания при известной дисперсии.

Предполагается, что ),( σaNX = , причем значение математиче-

ского ожидания а неизвестно, а числовое значение дисперсии 2σ из-вестно.

Выдвинем гипотезу 0H о том, что неизвестный параметр а равен

числу 0a . Возможны три случая: 1) параметр а равен числу 1a , кото-

рое больше числа 0a (т.е. 0aa > ); 2) параметр а равен числу 1a , ко-

торое меньше (т.е 0aa < ); 3) параметр а равен числу 1a , которое не

равно 0a (т.е. 0aa ≠ ). Для каждого из этих случаев рассмотрим этапы

проверки гипотезы 0H , приведенные в предыдущем пункте. Случай 1. Э т а п 1 . Сформулируем нулевую гипотезу

00 : aaH = (5.9)

и альтернативную

011 : aaaH >= . (5.10)

Э т а п 2 . Зададимся уровнем значимости α . Э т а п 3 . В качестве критерия возьмем величину

,0

naXK в

σ−

= (5.11)

значение которой зависит от выборочных данных (почему?), является случайной величиной и при выполнении гипотезы (5.9) подчиняется нормальному распределению N(0,1), т.е.

)1,0(0 NnaXK в =

−=

σ. (5.12)

Э т а п 4 . Построим критическую область ω , т.е. область таких зна-чений критерия К, при которых гипотеза 0H отвергается. Если нулевая и альтернативная гипотезы имеют вид (5.9), (5.10) соответственно, а критерий (5.11) — вид )1,0(NK = , то критическая область будет пра-

восторонней: ее образует интервал ),x( ,пр +∞α , где α,прx определя-ется из условия (5.6), которое с учетом (5.12) записывается как

αα => ))1,0(( ,прxNP .

Page 36: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

71 72

Остановимся на методике вычисления α,прx (которая будет исполь-зована в дальнейшем для других критических точек). Вероятность со-бытия α,)1,0( прxN ≤ можно представить как

∫ Φ+=∫+∞−

0,2

1

0)1,0()1,0( ),()()(

,

α

α

пр

x

NN xdxxpdxxpпр

где )()1,0( xpN — плотность нормального распределения

)(),1,0( xN Φ — функция Лапласа (см. табл. П1). Следовательно, ве-

роятность противоположного события α,)1,0( прxN > выражается в виде

[ ] )(),(1 ,21

,21

αα прпр xx Φ−=Φ+−

и эта вероятность должна быть равна α . Таким образом, приходим к уравнению

αα −=Φ 21

, )( прx .

Воспользовавшись табл. П1, находим значение α,прx , удовлетворяю-щее этому уравнению. Критическая область изображена на рис. 5.1, а.

Э т а п 5 . Используя вместо nXXX ,...,, 21 конкретные числа,

находим вx (см.(2.10)), а затем численное значение набK критерия

(5.11). Если α,прнаб xK > , то гипотеза 0H (5.9) отвергается и прини-

мается гипотеза 1H (5.10). Напомним, что поступая таким образом, мо-жем совершить ошибку первого рода. Вероятность такой ошибки равна α .

Случай 2. Э т а п 1 . Сформулируем нулевую гипотезу

00 : aaH = (5.13) и альтернативную

00 : aaH < . (5.14) Э т а п 2 . Зададимся уровнем значимости α .

Э т а п 3 . В качестве критерия (как в случае 1) возьмем величину (5.11), которая при справедливости гипотезы (5.13) удовлетворяет распределению N(0,1).

Э т а п 4 . Если нулевая и альтернативная гипотезы имеют соответственно вид (5.13), (5.14), а критерий – вид (5.12), то критическая область будет левосторонней: ее образует интервал

),( ,αлевx−∞ , где точка α,левx определяется из условия (5.7), которое с учетом (5.12) запишем в виде

αα =< ))1,0(( ,левxNP .

Исходя из этого равенства найдем точку α,левx . Воспользуемся

табл. П1 и найдем такое число x′ , для которого выполняется равенство

α−=′Φ 21)(x .

Затем определяем

xxлев ′−=α, .

Критическая область ),( ,αлевx−∞ изображена на рис.5.1, б.

Э т а п 5 . Находим числовое значение набK критерия (5.11). Если

α,левнаб xK ≥ , то гипотеза 0Н (5.13) не отвергается. Если

α,левнаб xK < , то гипотеза 0Н (5.13) отвергается и принимается

гипотеза 1Н (5.14). Поступая таким образом, можем совершить ошибку первого рода с вероятностью α .

Случай 3. Э т а п 1 . Сформулируем нулевую гипотезу

00 : aaH = (5.15)

и альтернативную

01 aa:H ≠ . (5.16)

Э т а п 2 . Зададимся уровнем значимости α . Э т а п 3 . В качестве критерия, как и в случаях 1, 2, возьмем вели-

чину (5.11), которая при справедливости гипотезы (5.15) удовлетворяет распределению N(0,1).

Page 37: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

73 74

Э т а п 4 . Если нулевая и альтернативная гипотезы имеют соот-ветственно вид (5.15), (5.16), а критерий определяется выражением (5.12), то критическая область будет двусторонней: ее образуют интер-валы ),( 2/,αлевx−∞ ),( 2/, +∞αпрx , где критические точки 2/,αпрx ,

2/,αлевx находятся из условия (5.8), которое, учитывая (5.12), запи-шется так

210

210 22

αααα =>=< )x),(N(P;)x),(N(P /,пр/,лев . (5.17)

Из рисунка 5.1. в) видно, что

2)1()( 2/,

αα

−=Φ прx . (5.18)

Воспользовавшись табл. П1, находим решение этого уравнения

2/,αпрx . В силу симметричности функции плотности распределения

)1,0(N имеем

2/,2/, αα прлев xx −= .

Э т а п 5 . Находим числовое значение набK критерия (5.11). Если

набK попадает в интервал ),( 2/,αлевx−∞ или ),( 2/, +∞αпрx , то ги-

потеза 0H (5.15) отвергается и принимаяется альтернативная (5.16). По-ступая таким образом, можно с вероятностью α допустить ошибку первого рода.

Пример 5.1. По результатам п = 9 замеров установлено, что среднее время изготовления детали cxв 48= . Предполагая, что время изго-товления подчиняется нормальному распределению с дисперсией

22 9c=σ на уровне значимости 05.0=α , решить: а) можно ли принять 50 с в качестве нормативного времени (матема-

тического ожидания) изготовления детали; б) можно ли принять за норматив 49 с? Решение: а) по условию задачи нулевая гипотеза 50:0 =aH с. Так как

cxв 48= , то в качестве альтернативной возьмем гипотезу

ca:H 501 < , т.е. имеем случай 2 (см.(5.13), (5.14)) при ca 500 = .

По изложенной схеме получаем 65.1, −=αлевx . Подставляя в (5.11)

исходные данные 9,3,48 === ncxв σ , получаем

2935048 −== −

набK . Так как число –2 попадает в критическую область

)65.1,( −−∞ , то гипотеза 50:0 =aH с отвергается и принимается

ca:H 501 < ; б) здесь нулевая гипотеза 490 =a:H с, альтернативная

ca:H 491 < . Снова имеет место случай 2 при ca 490 = . Так как

1935048 −== −

набK не попадает в критическую область, то гипотеза

49:0 =aH с не отвергается и в качестве норматива времени изготавления детали берем 49 с.

Проверка гипотезы о числовом значении математического ожидания при неизвестной дисперсии.

В этом случае за основу проверки гипотезы

00 : aaH = , (5.19)

где 0a – заранее заданное число, положен критерий

nSaXK в 0−

= , (5.20)

где вX , S – случайные величины, вычисляемые по формулам (2.9) и (3.12). Этот критерий при выполнении гипотезы (5.19) имеет t -распределение с числом степеней свободы 1−= nk , т.е.

10

−=−

= nв T

nSaXK , (5.21)

где 1−nT – случайная величина, подчиняющаяся распределению Стью-дента (см.(4.10)).

Задаваясь уровнем значимости α , построим критическую область для проверки гипотезы (5.19) при следующих альтернативных гипоте-зах.

Page 38: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

75 76

Случай 1. Альтернативная гипотеза

01 aa:H > . (5.22)

Критическая область является правосторонней: ее образует интервал ),( , +∞αпрx , где точка α,прx определяется из условия (5.6), которое с

учетом (5.12) можно записать в виде

αα =>− )( ,1 прn xTP .

В табл. П2 приведены значения ),( kt γ , определяемые соотношением

∫−

=)k,(t

)k,(tT dx)x(P

γ

γγ .

Так как функция плотности t -распределения симметрична относитель-но нуля, то искомая точка α,прx определяется как

)1,21(, −−= ntxпр αα . (5.23)

Подставив в (5.20) конкретные значения вX , S , получаем значение

критерия набK . Если α,прнаб xK > (т.е. попадает в критическую об-ласть), то гипотеза (5.19) отвергается и принимается гипотеза (5.22). При этом возможна ошибка первого рода с вероятностью α .

Случай 2. Альтернативная гипотеза

01 aa:H < . (5.24)

Критическая область является левосторонней, ее образует интервал ),( ,αлевx−∞ , где точка α,левx определяется из условия (5.7), которое

с учетом (5.21) записывается в виде

αα =<− )( ,1 левn xTP .

Обращаясь к табл. П2, находим

)1,21(, −−−= ntxлев αα . (5.25)

Подставляя в (5.20) конкретное значение вX , S , получаем значе-

ние набK . Если α,левнаб xK < , то гипотеза 0H (5.19) отвергается и

принимается гипотеза 1H (5.24). Случай 3. Альтернативная гипотеза

01 aa:H ≠ . (5.26)

Критическая область состоит из двух интервалов ),( 2/,αлевx−∞ ,

),( 2/, +∞αпрx , где критические точки 2/,αлевx , 2/,αпрx определя-ются из условий (5.7), которые с учетом (5.21) можно записать в виде

2/)( 2/,1 αα =<− левn xTP ;

2/)( 2/,1 αα =>− прn xTP .

Обращаясь к табл. П2, находим )1,1(2/, −−−= ntxлев αα ;

)1,1(2/, −−= ntxпр αα . (5.27)

Подставляя в (5.20) конкретные значения величин вX , S , получаем

значение критерия набK . Если набK попадает в интервал

),( 2/,αлевx−∞ или ),( 2/, +∞αпрx , то гипотеза 0H (5.19) отвергается

и принимается альтернативная гипотеза 1H (5.26). Если

∈набK [ 2/,αлевx , 2/,αпрx ], то принимается основная гипотеза

0H (5.19). Пример 5.2. Хронометраж затрат времени на сборку узла машины п

= 21 слесарей показал, что 77=вx мин, а 42 =s мин2. В предложе-нии о нормальности распределения решить вопрос: можно ли на уровне значимости 05.0=α считать 80мин нормативом (математическим ожиданием) трудоемкости. Решение. В качестве основной гипотезы принимается 80:0 =aH мин,

в качестве альтернативной 80:1 ≠aH мин, т.е. имеем случай 3, при

этом 800 =a . Используя (5.27) и табл. П2 )201( =−= nk , находим

086.22/, −=αлевx ;

086.22/, =αпрx . (5.28)

Page 39: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

77 78

По формуле (5.20) вычисляем 708.6)22()8077( −=−=набK .

Так как число )708.6(− попадает в критическую область (конкретно в

интервал )086.2,( −−∞ , то гипотеза 80:0 =aH мин отвергается.

5.3. Проверка гипотез о числовом значении дисперсии нормального распределения

Полагаем, что X является случайной величиной, имеющей нор-мальное распределение ),( σaN , причем числовое значение дисперсии

2σ неизвестно. Выборочная оценка )1/()(1

22 −∑ −==

nXXSn

iвi да-

ет приближенное представление о 2σ . Используя эту оценку, проверим гипотезу

20

20 : σσ =H , (5.29)

где 20σ – заранее заданное число.

В качестве критерия возьмем случайную величину

20

2)1(σ

SnK −= . (5.30)

При выполнении гипотезы (5.29) эта величина подчиняется 2χ -распределению с числом степени свободы 1−= nk , т.е.

212

0

2)1(−=

−= n

SnK χσ

. (5.31)

Зададимся уровнем значимости α и перейдем к построению критиче-ских областей для проверки гипотезы 0H (5.29) при следующих трех

альтернативных гипотезах 1H . Случай 1. В качестве альтернативной гипотезы примем

20

21 : σσ >H . (5.32)

Критическая область является правосторонней и определяется ин-тервалом ),( , +∞αпрx , где критическая точка α,прx находится из усло-вия (5.6), которое с учетом (5.31), можно записать в виде

αχ α =>− )( ,2

1 прn xP .

В табл. П3 приведены квантили ),(2 kγχ , определяем соотношением

( ) αγγχχ −==< 122 )k,(P k .

Следовательно, искомая критическая точка α,прx находится как

)1,1(2, −−= nxпр αχα .

Подставив в (5.30) конкретные значения 20

2 ,σS , находим набK . Если

α,прнаб xK > , то гипотеза 0H (5.29) отвергается и принимается гипо-

теза 1H (5.32). Случай 2. В качестве альтернативной гипотезы примем

20

21 : σσ <H . (5.33)

В этом случае критическая область является левосторонней, причем, поскольку критерий (5.30) неотрицателен (почему?), область имеет вид

),0( ,αлевx , где точка α,левx находится из условия (5.7), которое с учетом (5.31) можно записать в виде

αχ α =<− )( ,2

1 левn xP .

Обращаясь к табл. П3, находим

)1,(2, −= nxлев αχα .

Подставляя в (5.30) конкретные значения 20

2 ,σS , находим набK . Если

α,левнаб xK < , то гипотеза 0H (5.29) отвергается и принимается гипо-

теза 1H (5.33). Случай 3. В качестве альтернативной гипотезы примем

Page 40: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

79 80

20

21 : σσ ≠H . (5.34)

В этом случае критическая область состоит из двух интервалов ),0( 2/,αлевx и ),( 2/, +∞αпрx , где критические точки 2/,αлевx ,

2/,αпрx определяются из условий (5.7), которые с учетом (5.31) можно записать в виде

2/)( 2/,2

1 αχ α =<− левn xP ;

2/)( 2/,2

1 αχ α =>− прn xP .

Обращаясь к табл. П3, находим

)1,2/(22/, −= nxлев αχα ;

)1,2/1(22/, −−= nxпр αχα .

Если значение набK , вычисленное по формуле (5.30), попадает в

один из интервалов ),0( 2/,αлевx или ),( 2/, ∞αпрx , то гипотеза 0H

отвергается и принимается гипотеза 1H (5.34). В противном случае нет

оснований отвергнуть гипотезу 0H (5.29). Пример 5.3. Точность работы станка-автомата проверяется по дис-

персии контролируемого размера изделия. По выборке из 25 деталей

вычислена 25.02 =s . При уровне значимости 05.0=α проверить

гипотезу 15.0: 20 >σH .

Решение. За альтернативную примем гипотезу 15021 .:H >σ , т.е.

имеем случай 1. По табл. П3 находим 4.36)24,95.0(205.0, == χпрx ,

следовательно, критическая область ),4.36( ∞ . По формуле (5.30) находим

4015.0/25.0)125( =−=набK .

Так как набK попадает в критическую область, гипотезу 0H отвер-гаем.

5.4. Проверка гипотезы о числовом значении вероятности события

Предположим, что А – случайное событие, вероятность p появле-ния которого в единичном испытании неизвестна. Выдвинем гипотезу

00 : ppH = (5.35)

о том, что вероятность p равна числу 0p . В основе проверки этой ги-

потезы должно лежать сравнение числа 0p с приближенными значе-ниями вероятности p , найденным по опытным данным. Хорошим при-

ближением к p является относительная частота nm=ω , где n – число независимых испытаний, проводимых в одинаковых условиях, m – число испытаний (из n приведенных), в которых произошло со-бытие А. Поскольку А – случайное событие, то число m – случайная величина. Поэтому рассмотрим два случая.

Случай большого числа наблюдений. Напомним, что при большом n распределение величины

nppp

/)1( −−ω

можно аппроксимировать нормальным распределением )1,0(N . Если гипотеза (5.35) справедлива, то распределение критерия

nppp

/)1( 00

0

−ω (5.36)

можно аппроксимировать нормальным распределением )1,0(N , т.е.

),(Nn)p(p

p 101 00

=−−ω

.

Напомним, что при проверке гипотез о численном значении матема-тического ожидания (при известной дисперсии) уже использовался кри-терий, имеющий нормальное распределение. Поэтому, не останавлива-ясь на вычислении критических точек, определим только следующие три вида альтернативной гипотезы 1H .

Page 41: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

81 82

Альтернативная гипотеза 1H имеет вид

01 : ppH > . (5.38)

В этом случае критическая область представляет отрезок ),( , +∞αпрx (рис.5.1, а). Подставляя в формулу (5.36) значение

частности ω и заданные числа 0p и n , вычисляем значения критерия

набK . Если α,прнаб xK > , то гипотеза 0H (5.35) отвергается и при-

нимается гипотеза 1H (5.38).

Альтернативная гипотеза 1H имеет вид

01 : ppH < . (5.39)

В этом случае критическая область имеет вид ),( ,αлевx−∞ (рис.

5.1,б). Если числовое значение набK попадает в интервал

),( ,αлевx−∞ , то принимается гипотеза 1H (5.39).

Альтернативная гипотеза 1H имеет вид

01 : ppH ≠ . (5.40)

В этом случае критическая область состоит из двух отрезков )x,( ,лев 2

α−∞ , )x( ,пр ∞+2

α (рис. 5.1, в). Если числовое значение

критерия набK попадает в критическую область, принимается гипотеза

1H (5.40); в противном случае - гипотеза 0H (5.35). Пример 5.4. Партия принимается, если вероятность того, что изделие

окажется бракованным, не превышает 02.00 =p . Среди случайно отобранных п = 1000 деталей оказалась m = 40 бракованных. Можно ли при уровне значимости α = 0.01 принять партию?

Решение. Из условий задачи следует, что нулевая гипотеза

02.0:0 =pH ,

а альтернативная имеет вид

02.0:1 >pH .

Критическую точку α,прx находим из уравнения

49.001.021)( , =−=Φ αпрx .

По табл. П1 проводим линейную интерпретацию, получаем 33.2, =αпрx .

Числовое значение критерия (5.36)

5.4100098.002.002/004.0

=⋅−

=набK .

Так как это число попадает в критическую область ),33.2( +∞ , то ги-

потезу 02.0:0 =pH отвергаем и делаем вывод, что при уровне зна-чимости α = 0.01 партию изделий принять нельзя.

Случай малого числа наблюдений. При малом числе наблюдений допущение (5.37) несправедливо. В этом случае проверка гипотезы (5.35) проводится следующим образом.

Альтернативная гипотеза 1H имеет вид

01 : ppH > .

Задаемся уровнем значимости α . Полагая αγ 21−= и зная значение

mn, , по табл. П4 находим 1p (это нижнее число). Если 10 pp < , то

принимается гипотеза 01 : ppH > ; в противном случае — гипотеза

00 : ppH = .

Альтернативная гипотеза H1 имеет вид

01 : ppH > .

Полагая γ = 1 – 2α и зная n, m по таблице П4 находим р2 (верх-нее число в таблице). Если 20 pp > , то принимаем гипотезу

01 pp:H < ; в противном случае – гепотизу 01 pp:H = .

Альтернативная гипотеза 1H имеет вид

01 : ppH ≠ .

Page 42: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

83 84

Полагая αγ −= 1 и зная п, т, по табл. П4 находим 21, pp . Если

10 pp < или 20 pp > , то принимаем гипотезу 01 : ppH ≠ ; если

201 ppp << , то гипотеза 00 : ppH = .

Пример 5.5. В 5=n опытах событие A произошло 4=m раза. Можно ли принять вероятность p равной 0.2 при уровне значимости

025.0=α ? Решение. Основная гипотеза 0H имеет вид 02.0: 00 == ppH .

Рассмотрим три случая альтернативной гипотезы. 1. 01 : ppH > . Принимая 95.021 =−= αγ , по табл. П4 нахо-

дим 284.01 =p . Так как 10 pp < , то принимаем гипотезу 1H , т.е.

считаем, что 2.0>p .

2. 01 : ppH < . Для 95.021 =−= αγ по табл. П5 находим

995.02 =p . Так как 20 pp < , то принимаем гипотезу 0H , т.е. счи-

таем, что вероятность события р = 0.2. 3. 01 : ppH ≠ . Полагая 05.0=α , по табл. П5 для

95.01 =−= αγ находим 284.01 =p и 995.02 =p . Так как 200 .p = не попадает в интервал (0.284, 0.995), то принимается гипоте-

за 201 .p:H ≠ .

5.5. Проверка гипотезы о равенстве математических ожиданий двух нормальных распределений

Проверка гипотезы о равенстве математических ожиданий двух ге-неральных совокупностей имеет важное практическое значение. Дейст-вительно, иногда оказывается, что средний результат вx одной серии

наблюдений отличается от среднего результата вy другой серии. Воз-никает вопрос: можно ли это различие объяснить случайной ошибкой экспериментов или оно неслучайно. Иначе говоря, можно ли считать, что результаты экспериментов представляют собой выборки из двух ге-неральных совокупностей с одинаковыми средними. Приведем точную формулировку задачи.

Пусть генеральные совокупности Х и Y распределены по нормаль-ному закону, причем средние квадратические отклонения их известны и равны соответственно Xσ и Yσ . Требуется по двум независимым вы-

боркам nxx ,....,1 и myy ,....,1 из генеральных совокупностей Х и Y про-верить гипотезу о равенстве генеральных средних, т.е. основная гипоте-за имеет вид:

)()(:0 YMXMH = . (5.41)

Построим критерий проверки этой гипотезы, основываясь на сле-дующем соображении: так как приближенное представление о матема-тическом ожидании дает выборочная средняя, то в основе проверки ги-потезы (5.41) должно лежать сравнение выборочных средних вв YX , .

Найдем закон распределения разности )( вв YX − .

Эта разность является случайной величиной и если гипотеза 0H (5.41) верна, то

011 =−=⎟⎠

⎞⎜⎝

⎛ ++−

++=− )Y(M)X(M

mY...Y

nX...X

M)YX(M mnвв .

Пользуясь свойствами дисперсии, получим

.)()()()(

......)(

22

22

11

mnmYD

nXD

mYmD

nXnD

mYY

nXX

DYXD

YX

mnвв

σσ+=+=+=

=⎟⎠

⎞⎜⎝

⎛ ++−

++=−

(5.42)

Так как случайная величина вв YX − является линейной комбина-цией независимых нормально распределенных случайных величин

nXX ,...,1 , mYY ,...,1 , то вв YX − распределена по нормальному за-

кону с параметрами 0=a , mn

yx22

2 σσσ += . В качестве критерия

выберем пронормированную случайную величину вв YX − , т.е.

mn

вв

yx

YXK

22 σσ +

−= . (5.43)

Page 43: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

85 86

Таким образом, если гипотеза (5.41) верна, случайная величина K имеет нормальное распределение )1,0(N , т.е.

)1,0(22

NYXK

mn

вв

yx

=

+

−=

σσ. (5.44)

Теперь зададимся уровнем значимости α и перейдем к построению критических областей и проверке гипотезы (5.41) для трех видов аль-тернативной гипотезы 1H . Заметим, что вычисление критических точек критерия, распределенного по нормальному закону )1,0(N , подробно рассматривалось в пункте 5.2. Поэтому здесь ограничимся только опре-делением соответствующих критических областей.

1. Альтернативная гипотеза имеет вид

)()(:1 yMxMH > . (5.45)

В этом случае критическая область есть интервал ),( , +∞αпрx , где кри-

тическая точка α,прx определяется из условия αα => )x),(N(P ,пр10 (см. пункт 5.2). Критическая область приведена на рис.5.1,а. Подставляя в (5.43) числовые значения, найдем значения случайных величин

вв YX , , и значение критерия набK . Если α,прнаб xK > , то гипотезу

0H (5.41) отвергаем и принимаем гипотезу 1H (5.45). Поступая таким образом, можно допустить ошибку первого рода с вероятностью α .

Пример 5.6. По двум независимым выборкам, извлеченных из нор-мальных генеральных совокупностей, объемы которых равны 12=n и 8=m , найдены средние значения 143=вx , 122=вy . Генераль-

ные дисперсии известны 8)(,36)( 22 ==== YDXD yx σσ . При

уровне значимости 005.0=α проверить гипотезу )()(:0 YMXMH = при конкурирующей гипотезе

)()( YMXM > .

Решение. Критическую точку α,прx находим по табл. П1 из усло-

вия 495.0)( 21

, =−=Φ ααпрx . Получаем 58.2, =αпрx . Наблюдае-

мое значение критерия

5.10221122143

88

1236

==+

−=набK .

Так как 58.2>набK , то гипотеза о равенстве генеральных средних

отвергается на уровне значимости 005.0=α . 2. Альтернативная гипотеза 1H имеет вид

)()(:1 YMXMH < . (5.46)

В этом случае критическая область имеет вид ),( ,αлевx−∞ , где крити-

ческая точка α,левx находится из уравнения

αα =< ))1,0(( ,левxNP (см. пункт 5.2). Критическая область приве-

дена на рис. 5.1,б. Вычислим числовое значение набK . Если оно попа-дает в критическую область, то принимается гипотеза (5.46); в против-ном случае – гипотеза 0H (5.41).

3. Альтернативная гипотеза имеет вид

)y(M)x(M:H ≠1 . (5.47)

В этом случае наибольшая мощность критерия достигается при двусто-ронней критической области, состоящей из двух интервалов

),( 2/,αлевx−∞ и ),( 2/, +∞αпрx . Критические точки определяются из условия (см.пункт 5.2)

2/))1.0(( 2/, αα =< левxNP ;

2/))1.0(( 2/, αα => прxNP .

В силу симметрии плотности распределения N(0,1) относительно нуля имеет место 2/,2/, αα прлев xx −= . Если числовое значение критерия

набK , вычисленное по формуле (5.43), попадает в интервал

),( 2/,αлевx−∞ или в ),( 2/, +∞αпрx , то принимаем гипотезу

1H (5.47); если 2/,2/, αα прнаблев xKx << , то — гипотезу 0H (5.41). Пример 5.7. По двум независимым выборкам, объемы которых рав-

ны 6=n , 5=m , извлеченным из нормальных генеральных совокуп-

Page 44: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

87 88

ностей, вычислены средние значения 125=вx , 5.127=вy . Извест-

ны генеральные дисперсии 10)(,12)( == YDXD . При уровне зна-

чимости 02.0=α проверить гипотезу )()(:0 YMXMH = при

конкурирующей гипотезе )()(:1 YMXMH ≠ . Решение. Наблюдаемое значение критерия равно

.25.15.2

510

6122

221

−=+

−=

+

−=

mn

ввнаб

yxKσσ

По табл. П1 определяем 2/,αпрx из условия

49.02/)1()( 2/, =−=Φ ααпрx .

Получаем 32.22/, =αпрx , 32.22/, −=αлевx . Так как

32.225.132.2 <−<− , то наблюдаемое значение попало в область допустимых значений. Поэтому гипотеза о равенстве генеральных сред-них подтверждается на уровне значимости 02.0=α .

5.6. Проверка гипотезы о равенстве математических ожиданий двух произвольных распределений по выборкам большого объема

Пусть nxx ,...,1 — выборка из генеральной совокупности X, а

nyy ,...,1 – выборка из генеральной совокупности Y , причем объемы

выборок п и т большие (не менее 30 элементов в каждой). Распре-деление генеральных совокупностей нам неизвестно, но недостаток этой информации компенсируется большими объемами выборок. Со-гласно центральной предельной теореме случайная величина вв YX − распределена по закону, близкому к нормальному. Если гипотеза

)()(:0 YMXMH = верна, то 0)( =− вв YXM . Как и в предыду-

щем пункте, mnввyxYXD22

)(σσ +=− , однако 22 , yx σσ неизвестны.

Но при выборках большого объема случайные величины вxD — дис-

персия выборочная Х и вyD — дисперсия выборочная Y являются дос-

таточно хорошими оценками для D(x) и D(y). Поэтому случайная ве-личина

mD

nD

вв

вyвx

YXK

+

−= (5.48)

распределена по закону, близкому к нормальному N(0,1), и может быть принята в качестве критерия. Тогда построение критических областей для трех видов конкурирующих гипотез осуществляется так же, как и в предыдущем пункте.

Пример 5.8. По двум независимым выборкам объемов 120=n , 150=m найдены значения дисперсий выборочных 2.1=вxd и

5.4=вyd , а также средние значения 30=вx , 3.28=вy . При уров-

не значимости 05.0=α проверить гипотезу )()(:0 YMXMH =

при конкурирующей )Y(M)X(M:H ≠1 . Решение. Вычислим наблюдаемое значение критерия K :

5.83.2830

1505.4

1202.1

=+

−=

+

−=

md

nd

ввнаб

вyвx

YXK .

Правую границу 2/,αпрx двусторонней критической области

),( 2/, +∞αпрx найдем из условия 475.02/)1()( 2/, =−=Φ ααпрx .

Получаем 96.12/, =αпрx , 96.12/, −=αлевx . Так как

2/,αпрнаб xK > . Гипотеза о равенстве генеральных средних на уровне

значимости 05.0=α отвергается.

5.7. Проверка гипотезы о равенстве математических ожиданий двух нормальных распределений с неизвестными, но равными дисперсиями

Сформулируем задачу. Пусть nxx ,...,1 и myy ,...,1 – две незави-симые выборки из нормально распределенных генеральных совокупно-стей Х и Y соответственно. Ранее мы рассмотрели случай выборок большого объема и научились проверять гипотезу

)()(:0 YMXMH = . Такую же гипотезу мы можем проверить и в

Page 45: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

89 90

том случае, если выборки имеют малый объем, но )(XD и )(YD из-вестны. Поэтому рассмотрим случай, когда выборки имеют малый объ-ем и дисперсии их )(XD и )(YD неизвестны, но равны.

Таким образом, при следующих предположениях : а) случайные ве-личины Х и Y имеют нормальное распределение и независимы; б)

2)()( σ== YDXD требуется проверить гипотезу о равенстве математических ожиданий случайных величин Х и Y, т.е

)()(:0 YMXMH = . (5.49)

Построим критерий для проверки этой гипотезы. Для этого рассмот-

рим случайные величины 2σвxnD и 2σ

вymD. По теореме о распределении

выборочных характеристик они имеют распределения 21−nχ и 2

1−mχ , соответственно. Так как рассматриваются независимые выборки, то

случайные величины 2σвxnD и 2σ

вymD – независимы и поэтому их сумма

имеет распределение 22−+mnχ , т.е

2222 −+=+ mn

bybx mDnD χσσ

. (5.50)

В силу независимости величин Х и Y имеем

mnвв YXD22

)( σσ +=− . Если гипотеза 0H справедлива, то случайная

величина

)(11 вв

mn

вв YXmn

nmYXU −+

=+

−=

σσ (5.51)

имеет нормальное распределение )1,0(N (убедитесь в этом), т.е. )1,0(NU = .

Напомним, что случайная величина

22

22

−+−+

−+=

mnmn

mnUTχ

подчиняется распределению Стьюдента с 2−+ mn степенями свободы (см.пункт 4.1). Подставив вместо U правую часть выражение

(5.51), а вместо 22−+mnχ левую часть (5.50), получим

.mn

)mn(nmmDnDYX

Kвyвx

вв+

−+×

+

−=

2 (5.52)

Эта случайная величина не содержит неизвестный параметр σ и может быть взята в качестве критерия для проверки гипотезы 0H (5.49). Если эта гипотеза справедлива, то критерий (5.52) имеет t -распределение с

2−+= mnk степенями свободы, т.е.

2−+= mnTK . (5.53)

Зададимся уровнем значимости α и перейдем к построению крити-ческих областей для трех видов альтернативной гипотезы. Заметим, что ранее рассматривался критерий (5.20), имеющий распределение Стью-дента с 1−= nk степенями свободы. Сейчас рассмотрим критерий (5.52), имеющий t -распределение с 2−+= mnk степенями свобо-ды. Никаких принципиальных различий в алгоритмах построения кри-тических областей это не вносит. Поэтому лишь кратко приведем схемы нахождения критических точек.

1. Альтернативная гипотеза имеет вид )()(:1 YMXMH > . (5.54)

Критическая область представляет собой интервал ),x( ,пр +∞α , где

точка α,прx находится из условия

αα =>−+ )( ,2 прmn xTP

В табл. П2 приведены величины ),( kt γ , определяемые условием

( ) γγ =< ),( ktTP k , и, следовательно,

)2,21(, −+−= mntxпр αα . (5.55) Подставив в (5.52) числовые значения, получаем значения критерия

набK . Если α,прнаб xK > , то принимается гипотеза 1Н (5.54); в про-

тивном случае – гипотеза 0Н (5.49).

Page 46: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

91 92

2. Альтернативная гипотеза имеет вид:

)()(:1 YMXMH < . (5.56)

Критическая область – это интервал ),( ,αлевx−∞ , где точка α,левx

находится из условия αα =<−+ )( ,2 левmn xTP

и равна

)mn,(tx ,лев 221 −+−−= αα ,

где )mn,(t 221 −+− α находится по табл. П2. Если числовое значение

α,левнаб xK < , то принимается гипотеза 1Н (5.56); в противном слу-

чае – гипотеза 0Н (5.49). 3. Альтернативная гипотеза имеет вид

)()(:1 YMXMH ≠ . (5.57) В этом случае критическая область состоит из двух интервалов

),( 2/,αлевx−∞ , ),( 2/, +∞αпрx , где критические точки определяются

из условий

./)xT(P;/)xT(P

/,прmn

/,левmn

22

22

22

α

α

α

α

=>

=<

−+

−+

Используя табл. П2, получаем

).2,1();2,1(

2/,

2/,

−+−=

−+−−=

mntxmntx

пр

лев

α

α

α

α

Если числовое значение набK критерия попадает в интервал

),( 2/,αлевx−∞ или в интервал ),( 2/, +∞αпрx , то принимается гипо-

теза 1Н (5.57). Если набK попадает в интервал ( )2/,2/, , αα прлев xx ,

то принимается гипотеза 0H (5.49). Пример 5.9. По двум малым выборкам из нормальных генеральных

совокупностей Х и Y найдены среднее значение вx = 30, вy = 39 и зна-

чения исправленных дисперсий 8.02 =xs , 4.02 =ys . Требуется на

уровне значимости 05.0=α проверить гипотезу )()(:0 YMXMH = ) при конкурирующей гипотезе

)()(:1 YMXMH ≠ . Объемы выборок равны соответственно п = 12, т = 18.

Решение. Так как выборки имеют малый объем, то для применения

критерия Стьюдента мы должны вначале проверить гипотезу о равенст-ве дисперсий генеральных )()( YDXD = (см. пункт 5.8). Для провер-ки применим критерий Фишера. В качестве конкурирующей выберем гипотезу )()( YDXD > . Найдем наблюдаемое значение критерия Фишера:

24.08.0==набK .

Граница правосторонней критической области 41.2)17,11(, == γα fxпр . Так как α,прнаб xK < , то нет оснований

отвергать гипотезу о равенстве дисперсий )(XD и )(YD . Считая их равными, применим критерий (5.52) и вычислим

mnmnmn

mdndyx

Kвyвx

вв+

−+⋅

+

−=

)2(.

Так как вnn DS 1

2−= , то 22 )1(,)1( yвyxвx smmdsnnd −=−= . После

вычислений получим 594.3=набK . Критическая область для крите-рия является двусторонней. По табл. П2 находим

048.2)28,1(;048.2)28,1( 2/,2/, −=−−==−= αα αα txtx левпр .

Так как 048.2>набK , то гипотеза о равенстве математических ожи-

даний М(Х) и M(Y) отвергается на уровне значимости 0.05.

Page 47: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

93 94

5.8. Проверка гипотезы о равенстве дисперсий двух нормальных распределений

В предыдущем пункте при проверке гипотезы о равенстве математи-ческих ожиданий предполагалось, что дисперсии этих совокупностей одинаковы. Как убедиться в этом, имея лишь значения выборочных дисперсий? Задача проверки гипотезы о равенстве дисперсий имеет и самостоятельный интерес. Так как дисперсия характеризует точность работы прибора или технологического процесса, то, убедившись в ра-венстве дисперсий, можно говорить об одинаковой точности прибора или технологического процесса.

Пусть Х и Y – две случайные величины, имеющие нормальные рас-

пределения, и неизвестные дисперсии 2xσ и 2

yσ . Требуется проверить гипотезу

220 : yxH σσ = . (5.58)

Построим критерий для проверки этой гипотезы. Для этого рассмот-рим исправленные дисперсии:

.1

)(

,1

)(1

2

21

2

2−

=−

=∑∑==

m

YY

Sn

XXS

m

jвj

y

n

iвi

x

Как известно (см. пункт 3.3), эти величины могут быть приняты за при-

ближенные значения 2xσ и 2

yσ . Имеют место следующие распределе-ния (см. теорему 4.1):

212

2)1(−=

−n

x

xSn χσ

;

212

2)1(−=

−m

y

ySmχ

σ.

Поэтому в соответствии с определением F -распределения (см. пункт

3.1) отношение ll

k

l2

2

χχ

или отношение )1(

)1(

)1()1(

2

2

2

2

n

Sn

nSn

y

y

x

x

σσ будет

иметь распределение Фишера с 1−= nl и 1−= mk степенями сво-боды, т.е

1,12

2

2

2

−−= mny

y

x

x FSSσσ

. (5.59)

Если гипотеза (5.58) верна, то из (5.59) непосредственно получаем кри-терий

,),min(

),max(22

22

yx

yx

SS

SSK = (5.60)

который подчиняется распределению Фишера с l и k степенями свобо-ды (см.(4.11)), т.е.

klFK ,= . (5.61)

Предположим, что выборка с большей исправленной дисперсией имеет объем 1n , и меньшей – 1m . В этом случае

1;1 11 −=−= mknl .

Зададим уровень значимости α и перейдем к построению критических областей и проверке гипотезы (5.58) для трех следующих видов альтер-нативной гипотезы.

1. Альтернативная гипотеза имеет вид 22

1 : yxH σσ > . (5.62)

В этом случае критическая область представляет собой интервал ),( , +∞αпрx , где точка α,прx определяется из условия

αα => )( ,, прkl xFP .

Исходя из этого условия, найдем α,прx . В табл. П5 приведены значения

),( klfγ , удовлетворяющие условию

αγγ −==< 1)),(( , klfFP kl .

Тогда, задавая αγ −= 1 , приходим к соотношению

).,(, klfxпр γα = (5.63)

Перейдем к проверке гипотезы 0H . В соответствии с выражениями

Page 48: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

95 96

∑∑==

−−

=−−

=m

jвjy

n

iвix yy

msxx

ns

1

22

1

22 ,)(1

1,)(1

1

где ji yx , – выборочные значения, вв yx , – значения выборочных

средних, находим 22 , yx ss . Подставляя эти значения в (5.60), вычисляем

числовое значение критерия набK . Если α,прнаб xK > , то гипотеза

0Н (5.58) отвергается и принимается гипотеза 1H . При этом можно

совершить ошибку первого рода с вероятностью α . Если

α,прнаб xK < , то принимается гипотеза 0Н .

Пример 5.10. По двум независимым выборкам объемов 13,9 == mn , извлеченным из нормальных генеральных совокупно-

стей, найдены исправленные дисперсии 6s,12s 2y

2x == . При уровне

значимости 05.0=α проверить нулевую гипотезу 220 : yxH σσ =

при альтернативной 221 : yxH σσ > .

Решение. Вычислим значение критерия по формуле (5.60): 26/12 ==набK . В соответствии с соотношением (5.63) находим

точку ).mk;nl(.),(fx .,пр 1211318191383128 11950 =−=−==−=−===α

Так как 28.3>набK , то принимается гипотеза 220 : yxH σσ = .

2. Альтернативная гипотеза имеет вид 22

1 : yxH σσ < . (5.64)

В этом случае критическая область является левосторонней и, посколь-ку величина (5.57) неотрицательна, имеет вид ),,0( ,αлевx где точка

α,левx определяется из условия

αα =< )( ,, левkl xFP .

Вычислим α,левx из этого условия. Так как klF

k

lkl 2

2

, χχ

= , то

lkl

k

klF

lk

F ,2

2

,

1==

χχ

. Тогда имеем следующее свойство распределе-

ния Фишера:

γγγ

γ =⎟⎟⎠

⎞⎜⎜⎝

⎛>=⎟

⎟⎠

⎞⎜⎜⎝

⎛>=<

)k,l(fFP

)k,l(fFP))k,l(fF(P k,l

k,lk,l

111.

Следовательно, γγ −<< 1)),(/1( , klfFP kl ,

и, положив γα −= 1 , приходим к соотношению

),(/1 1, klfxлев αα −= , (5.65)

где значения ),(1 klf α− определяются по табл. П5.

Если вычисленное значение набK попадает в интервал

),,0( ,αлевx то принимается гипотеза 1H (5.64); в противном случае –

гипотеза 0H (5.58).

3. Альтернативная гипотеза 1H имеет вид 22

1 : yxH σσ ≠ . (5.66) В этом случае критическая область состоит из двух интервалов

),0( 2/,αлевx , ),( 2/, +∞αпрx , где точки 2/,αлевx и 2/,αпрx опреде-ляются следующими соотношениями (докажите это):

;),(1

2/, 2/1 klfлевxαα −

=

),(2/12/, klfxпр αα −= , (5.67)

в которых, как и прежде, значения )k,l(fγ находятся по табл. П5.

При попадании числового значения набK критерия (5.60) в интер-

вал ),0( 2/,αлевx или ),( 2/, +∞αпрx применяется гипотеза 1H (5.66);

если набK попадает в интервал 2/,[ αлевx , ]2/,αпрx , то применяется

гипотеза 0H (5.58).

Page 49: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

97 98

Пример 5.11. По двум независимым выборкам, объемы которых 13,12 == mn , извлеченным из нормальных генеральных совокупно-

стей, найдены исправленные выборочные дисперсии

35.0,05.1 22 == yx ss . При уровне значимости 10.0=α проверить

гипотезу 220 : yxH σσ = при конкурирующей гипотезе

221 : yxH σσ ≠ .

Решение. Вычислим

.335.005.122 === yxнаб ssK

Количество степеней свободы 12113k;11112l =−==−= . По табл. П5 для 95.02/1 =α−=γ , 12k,11l == находим

79.2)13,12(f 95.0 = . Тогда, используя (5.67), получаем

358.079.212/, ==αлевx ;

79.22/, =αпрx .

Так как 79.23 >=набK , то гипотеза 220 : yxH σσ = отвергается

и принимается 221 : yxH σσ ≠ .

В заключение сделаем следующее замечание. Выше, при проверке гипотез, предполагалась нормальность распределения исследуемых случайных величин Х и Y. Однако приведенные критерии весьма ус-тойчивы (особенно при больших объемах выборок) по отношению к от-клонению от нормального распределения. Данный факт позволяет наде-яться на успешное использование этих критериев для проверки гипотез в случаях, когда нет уверенности в нормальном распределении случай-ных величин Х и Y.

5.9. Проверка гипотезы о законе распределения с применением критерия согласия Пирсона

В предыдущих пунктах этого раздела рассматривались гипотезы, от-носящиеся к отдельным параметрам распределения случайных величин, при этом предполагался известным вид самого распределения.

При обработке статистических данных большого объема часто воз-никает ситуация, когда закон распределения генеральной совокупности

не известен заранее. Однако сравнение гистограммы с известными кри-выми функций плотностей позволяет выдвинуть гипотезу о виде рас-пределения генеральной совокупности. Так, например, если гистограм-ма имеет один явно выраженный пик (см. рис.5.2, а), то можно предпо-ложить, что исследуемая генеральная совокупность распределена по нормальному закону ),( σaN , т.е. имеет плотность

22

2

21 σσπ

)ax(

e)x(p−−

= .

Если гистограмма представляет собой "убывающие ступеньки прямо-угольников" (см. рис.5.2, б), то генеральная совокупность может быть распределена по показательному закону:

⎪⎩

⎪⎨⎧

<= −− .,

;,,0)(

0)(

0

0 xxe

xxxp xxλλ

Для гистограммы, представленной на рис.5.2, в, естественно выдвинуть гипотезу о равномерном распределении генеральной совокупности.

Возникает вопрос о критерии проверки по выборочным данным ги-потезы о том, что случайная величина Х подчиняется распределению с плотностью )(xpy = . Такие критерии называются критериями согла-

сия. Рассмотрим лишь один критерий согласия, использующий 2χ – распределение и получивший название критерия согласия Пирсона (или

критерия 2χ ). Выдвигая гипотезу о виде распределения генеральной совокупности, мы должны различать два случая. В первом из них вид функции плотности определен в гипотезе полностью. Например, мы выдвигаем гипотезу о том, что генеральная совокупность распределена по нормальному закону с параметрами 0=a и 1=σ . Такие гипотезы называются простыми. Если же гипотеза состоит лишь в том, что функция плотности р(х) принадлежит к некоторому семейству функ-ций, то такая гипотеза называется сложной. Например, можно выдви-нуть гипотезу о том, что генеральные совокупности распределены по показательному закону, не оговаривая значения параметров λ и 0x . Такая гипотеза будет сложной.

Page 50: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

99 100

Рис. 5.2. К проверке гипотезы о законе распределений

Остановимся вначале на простой гипотезе, предполагая, что гене-ральная совокупность распределена непрерывно. В качестве нулевой гипотезы принимается предположение, что неизвестная плотность рас-пределения )(xpX исследуемой случайной величины Х совпадает с предполагаемой плотностью р(х), т.е.

)x(p)x(p:H X =0 . (5.68)

В качестве предполагаемой (теоретической) плотности могут быть рассмотрены различные плотности (нормальная, показательная и т.д.).

Выберем наименьшее и наибольшее значения в данной выборке:

},...,max{},,...,min{ 11 nn xxbxxa == .

Промежуток ],[ ba разобьем на l промежутков равной длины

labh −

= . Границы этих промежутков обозначим bz,...,z,az l == 10 ,

где hzz ii +=+1 при 1,...,0 −= li . Считаем, что гипотеза верна. Вы-

числим частоту ),...,1( limi = попадания элементов генеральной сово-купности на каждый промежуток. Понятно, что

nm...mm l =+++ 21 .

Сдвинем границу левого интервала на ∞− , а правого на ∞+ , т.е. вме-сто первого интервала ),( 10 zz рассмотрим интервал );( 1z−∞ , а вме-

сто последнего ),( 1 ll zz − — интервал ),( 1 ∞−lz . Вычислим вероят-

ность попадания случайной величины Х на каждый из полученных про-межутков lΔΔ ,...,1 , воспользовавшись известной формулой:

.l,...,,i,dx)x(ppi

i ∫ ==Δ

21

Заметим, что первый и последний из интегралов являются несобствен-ными. Полученные вероятности npp ,...,1 должны удовлетворять усло-вию

1...21 =+++ nppp .

Рассмотрим п опытов, каждый из которых состоит в выборе слу-чайного значения величины Х, и события iA = {значение попало на ин-

Page 51: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

101 102

тервал iΔ ,}. Событие iA в каждом опыте происходит с вероятностью

ip . Поэтому ожидаемое количество появлений события А в п опытах

равно inp — математическое ожидание биномиального распределения. Понятно, что если гипотеза верна, то между фактическими частотами

im и теоретическими inp попаданий на i -й интервал не должно быть

"больших" расхождений , т.е. величины lnpnp ,...,1 и числа

lmm ,...,1 должны быть, соответственно, близки друг к другу. В каче-стве меры расхождения между ними используем сумму квадратов взве-шенных расхождений:

i

iii np

npmY −= .

Случайная величина

∑−

∑ ===

l

i i

iil

ii np

npmY1

2

1

2 )(

при большом объеме выборки n имеет распределение, близкое к 2χ с

)1( −l степенями свободы. Поэтому эта случайная величина принима-ется за критерий

∑−

==

l

i i

iinp

npmK1

2)(. (5.69)

Если гипотеза 0H (5.68) справедлива, то критерий K имеет 2χ – рас-

пределение с 1−= lk степенями свободы, т.е.

∑ =−

==

l

ik

i

iinp

npmK1

22)( χ . (5.70)

Далее задаемся уровнем значимости α и, зная распределение крите-рия K , строим правостороннюю критическую область. Это будет об-ласть вида ),( , +∞αпрx . Критическая точка α,прx находится из усло-

вия

αχ α => )( ,2

прk xP .

В табл. П3 приведены значения 2γ

χ , удовлетворяющие условию

γχχ γ =< )( 22kP .

Следовательно,

)1,1(2, −−= lxпр αχα . (5.71)

Если числовое значение критерия набK , вычисляемое по формуле

(5.69), попадает в критическую область ),( , ∞αпрx , то делается вывод о

неправомерности гипотезы 0H (5.67). При этом следует помнить, что этот вывод может быть ошибочным (т.е. генеральная совокупность име-ет плотность распределения )(xp ) с вероятностью α (ошибка первого рода).

Отметим одну рекомендацию для выбора длины интервала h . Что-

бы случайная величина ∑=

−l

i i

ii

npnpm

1

2)(была достаточно близка к рас-

пределению 21−lχ , достаточным для практических расчетов является

выполнение условия 10≥inp для всех i. В том случае, когда для неко-

торого i имеет место 10<inp , рекомендуется объединить несколько

интервалов, пока данное условие не будет выполнено. Пример 5.12. По выборке объема 144=n составлен группирован-

ный статистический ряд:

X 0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8

im 16 17 19 16 24 19 17 16

Проверить на уровне значимости 05.0=α гипотезу о равномерно-сти распределения генеральной совокупности на отрезке [0,8]. Решение. Нулевая гипотеза имеет вид

⎩⎨⎧ ≤≤

== −

.,0;80,

)()(: 081

0 xостальныхдляx

xpxpH X (5.72)

Page 52: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

103 104

Вычислим вероятность попадания случайной величины X на каждый интервал:

∫=

==+−==i

ii iiidxp

1

8,...,2,1,81)1(

81

81

.

Поэтому 1814481 ==inp при любом i . Так как 10≥inp , то нет

необходимости объединять несколько интервалов. Результаты дальнейших вычислений сведены в табл. 5.1.

Таблица 5.1

Номер интер-вала im inp ii npm −

i

ii

npnpm 2)( −

1 16 18 -2 0.22

2 17 18 -1 0.06

3 19 18 1 0.06

4 16 18 -2 0.22

5 24 18 6 2.00

6 19 18 1 0.06

7 17 18 -1 0.06

8 16 18 -2 0.22

∑ 144 144 0 2.9

Таким образом, числовое значение 90.2=набK . Для заданного

уровня значимости 05.0=α находим 95.01 =−= αγ ,

1.14)7,95.0(2 ==χ . Так как α,прнаб xK < , то гипотеза 0H (5.68)

принимается. Обычной является ситуация, когда предполагается лишь, что рас-

пределение генеральной совокупности принадлежит некоторому классу распределений. Например, генеральная совокупность распределена

нормально. В этой гипотезе не оговорены значения параметров а и σ .

Отличие в применении критерия 2χ в этом случае от ранее рассмот-

ренного состоит в том, что у нас нет возможности сразу вычислить зна-чения вероятностей. Поэтому вначале находят оценки неизвестных па-раметров. Например, для оценки параметра а, как известно, можно ис-

пользовать случайную величину вX и заменить а ее значением, т.е.

вxа = . В качестве оценки параметра 2σ можно выбрать исправлен-

ную дисперсию 2S и заменить 2σ ее значением 2s . Таким образом,

2

2

221 s

)xx( В

es

)x(р−

−=

π.

В качестве критерия также принимается случайная величина (5.69).

Если гипотеза 0H справедлива, то критерий имеет 2χ – распределение

с k степенями свободы. Однако количество степеней свободы критерия подсчитывается по формуле 1−− rl , где r — количество параметров, оцененных по выборке. В рассмотренном примере r = 2, т.к. по выборке

были оценены два параметра а и σ . В этом же примере вероятность

ip попадания случайной величины X в интервале [ ]ii zz ,1− находится

с помощью функции Лапласа

⎟⎠⎞

⎜⎝⎛ −

Φ−⎟⎠⎞

⎜⎝⎛ −

Φ=<<= −− s

xzs

xzzsxNzPp вiвiiвii

11 )),(( .

Пример 5.13. Группированный статистический ряд частот занесен в

графы 2 и 3 табл. 5.2. По выборке объема 200=n найдено вx ,

26.942 =s . При уровне значимости 02.0=α проверить гипотезу о нормальности распределения генеральной совокупности.

Page 53: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

105 106

Таблица 5.2

Номер интер-вала

Границы интерва-лов

ims

xz вi −−1 ⎟⎠⎞

⎜⎝⎛ −−

sxz вi 1Φ ip inp

i

iinp

)npm( 2−

1 2 3 4 5 6 7 8

1 [-20,15] 7 -1.99 -0.4767 0.023 4.66 1.18

2 [-15,10] 11 -1.47 -0.4292 0.047 9.50 0.24

3 [-10,-5] 15 -0.96 -0.331 0.097 19.54 1.05

4 [-5,0] 24 -0.44 -0.1700 0.161 32.30 2.13

5 [0,5] 49 +0.07 0.0279 0.197 39.58 2.24

6 [5,10] 41 0.59 0.222 0.194 38.90 0.11

7 [10,15] 26 1.10 0.364 0.141 28.38 0.20

8 [15,20] 17 1.62 0.4474 0.083 16.62 0.01

9 [20,25] 7 2.13 0.4834 0.0526 10.52 0.03

10 [25,30] 3 ∞+ 0.5

∑ 200 1 200.0 7.19

Решение. Так как ⎟⎠⎞

⎜⎝⎛ −

Φ−⎟⎠⎞

⎜⎝⎛ −

Φ= −

sxz

sxzp вiвi

i1 , то в графе 4

вычислены значения s

xzi −−1 . При этом левая граница первого интер-

вала заменена на ∞− , а правая граница последнего интервала заменена

на ∞+ . В графе 5 вычислены значения s

xzi −−1 , в графе 6 - вероятно-

сти ip , в графе 7 – математические ожидания inp , а в графе 8 - взве-

шенные отклонения i

ii

npnpm 2)( −

. Так как для 9-го и 10-го интервалов

102.79 <=np и 1032.310 <=np , то эти интервалы объединяем.

Для полученного интервала 105210 >= .np (см. графу 7). Числовое

значение критерия 19.7=набK (см. графу 8). По табл. ПЗ при

98.01 =−= αγ и 6129 =−−=k находим 0.15)98.0(2 =χ ,

0.15, =αпрx . Так как 0.15<набK , то гипотеза 0H о нормальности

распределения генеральной совокупности принимается на уровне зна-чимости 02.0=α .

5.10. Проверка гипотезы о независимости двух генеральных совокупностей с применением критерия 2χ

Пусть ),( YX — двухмерная генеральная совокупность, причем все

значения случайной величины X исчерпываются числами laa ,...,1 , а

все значения случайной величины Y — числами sbb ,...,1 . Выборка

объема п в этом случае состоит из пар ),(),...,,( 11 nn yxyx , где ix и iy

— соответствующие значения случайных величин X и Y . Заполним таблицу, называемую корреляционной, в первой строке которой пере-числим все значения случайной величины Y , в первом столбце — все значения случайной величины X , а на пересечении i -й строки и j-го

столбца поместим число ijn — количество пар ),( ii ba , встречающихся

в выборке.

Сумму элементов ∑=

s

jijn

1 i -й строки обозначим •in . Аналогично,

пусть ∑ ==

•l

ijij nn

1. Ясно, что ∑∑∑ ∑∑∑ ==== •

= =•

= =

l

ji

l

i

s

j

s

jjij

l

i

s

jij nnnnn

1 11 1.

Page 54: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

107 108

Если числа ijn концентрируются вдоль диагонали, идущей с левого

верхнего угла к правому нижнему, то между величинами Х и Y можно предположить тесную прямую связь.

Если числа ijn сосредоточены вдоль другой диагонали, то между

случайными величинами X и Y вероятна обратная связь, т.е. с ростом X значения Y убывают. Если числа ijn разбросаны по таблице, то ме-

жду X и Y скорее всего нет связи. Предположим, что анализ корреляционной таблицы позволил нам

выдвинуть гипотезу , что случайные величины X и Y независимы. Ис-пользуем критерий 2χ для проверки этой гипотезы. Если гипотеза вер-на, то

)()(),( jiji bYPaXPbYaXP =⋅==== .

Корреляционная таблица

Y

X 1b 2b ... 3b

la

aa

M2

1

2

21

11

ln

nn

2

22

12

ln

nn

...

...

...

ls

s

s

n

nn

2

1

Значение ia встречается среди чисел nxx ,...,1 •in раз. Поэтому от-

носительная частота события }{ iaX = равна nni• . Она является со-

стоятельной и несмещенной оценкой параметра )( ii aXPp == . Ана-

логично, nn j• состоятельная и несмещенная оценка вероятности

)( jj bYPp ==′ . Поэтому ожидаемое количество попаданий в клетку

),( ji можно найти по формуле nnn

n

nnnn jiji

ij•••• =⋅=′ 2 , как матема-

тическое ожидание случайной величины, распределенной по биноми-

альному закону с параметрами n и 2n

nnp ji ••= . Если гипотеза 0H

верна, то числа ijn и nnn ji •• близки друг к другу в совокупности. В ка-

честве критерия примем случайную величину

∑∑= = ••

⎟⎠⎞⎜

⎝⎛ −

=

••l

i

s

j ji

nnn

ij

nnn

nK

ji

1 1

2)(

. (5.73)

Если гипотеза 0H справедлива, то эта случайная величина имеет 2χ -

распределение с )1)(1( −−= llk степенями свободы, т.е

2)1)(1( −−= slK χ . (5.74)

Критическая область определяется отрезком ),( +∞прx , где точка

α,прx определяется соотношением ))1)(1(,1(2, −−−= slxпр αχα .

Если числовое значение критерия набK , найденное по формуле

(5.73), попадает в критическую область, т.е. α,прнаб xK > , то нулевая

гипотеза о независимости X и Y отвергается. Заметим, что вместо ограничения 10≥inp , указанного в пункте

5.9, здесь желательно выполнение условия 4≥••

nnn ji . Если это усло-

вие не выполняется, то соответствующие строки и столбцы должны быть объединены с соседними.

Пример 5.13. Комплектующие усилия одного наименования посту-

пают с трех предприятий: № 1, 2, 3. Результаты проверки изделий при-ведены в табл. 5.3.

Page 55: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

109 110

Таблица 5.3

Поставщик Всего Результаты проверки 1 2 3

Годные 29 38 53 120

Негодные 1 2 7 10

Всего 30 40 60 130

Можно ли считать, что качество изделий не зависит от поставщика?

Уровень значимости взять 0.05. Решение. Находим наблюдаемое значение критерия:

( ) ( ) ( )

( ) ( ) ( ).55.2

721

533829

1306010

2130

6010

1304010

2130

4010

1303010

2130

3010

13060120

2130

60120

13040120

2130

40120

13030120

2130

30120

=−

+−

+−

+

+−

+−

+−

=

набK(5.75)

По табл. П3 для числа степеней свободы =−−= )1s)(1l(k

2)13)(12( =−−= и 05.0=α находим 6)2,95.0(2 =χ , 6, =αпрx .

Так как 6<набK , то можно принять гипотезу 0H о независимости

качества изделия от поставщика.

6. Таблицы

Таблица П1

Значения функции dzzxx

∫ −=Φ0

2 )2exp(21)(π

x Φ( )x x Φ( )x x Φ( )x x Φ( )x

0.00 0.0000 0.33 0.1293 0.66 0.2454 0.99 0.3389 0.01 0.0040 0.34 0.1331 0.67 0.2486 1.00 0.3413 0.02 0.0080 0.35 0.1368 0.68 0.2517 1.01 0.3438 0.03 0.0120 0.36 0.1406 0.69 0.2549 1.02 0.3461 0.04 0.0160 0.37 0.443 0.70 0.2580 1.03 0.3485 0.05 0.0199 0.38 0.1480 0.71 0.2611 1.04 0.3508 0.06 0.0239 0.39 0.1517 0.72 0.2642 1.05 0.3531 0.07 0.0279 0.40 0.1554 0.73 0.2673 1.06 0.3554 0.08 0.0319 0.41 0.1591 0.74 0.2703 1.07 0.3577 0.09 0.0359 0.42 0.1628 0.75 0.2734 1.08 0.3599 0.10 0.0398 0.43 0.1664 0.76 0.2764 1.09 0.3621 0.11 0.0438 0.44 0.1700 0.77 0.2794 1.10 0.3643 0.12 0.0478 0.45 0.1736 0.78 0.2823 1.11 0.3665 0.13 0.0517 0.46 0.1772 0.79 0.2852 1.12 0.3686 0.14 0.0557 0.47 0.1808 0.80 0.2881 1.13 0.3708 0.15 0.0596 0.48 0.1844 0.81 0.2910 1.14 0.3729 0.16 0.0636 0.49 0.1879 0.82 0.2939 1.15 0.3749 0.17 0.0675 0.50 0.1915 0.83 0.2967 1.16 0.3770 0.18 0.0714 0.51 0.1950 0.84 0.2995 1.17 0.3790 0.19 0.0753 0.52 0.1985 0.85 0.3023 1.18 0.3810 0.20 0.0793 0.53 0.2019 0.86 0.3051 1.19 0.3830 0.21 0.0832 0.54 0.2054 0.87 0.3078 1.20 0.3849 0.22 0.0871 0.55 0.2088 0.88 0.3106 1.21 0.3869 0.23 0.910 0.56 0.2123 0.89 0.3133 1.22 0.3883 0.24 0.948 0.57 0.2157 0.90 0.3159 1.23 0.3907 0.25 0.0987 0.58 0.2190 0.91 0.3186 1.24 0.3925 0.26 0.1026 0.59 0.2224 0.92 0.3212 1.25 0.3944 0.27 0.1064 0.60 0.2257 0.93 0.3238 1.26 0.3962 0.28 0.1103 0.61 0.2291 0.94 0.3264 1.27 0.3980 0.29 0.1141 0.62 0.2324 0.95 0.3289 1.28 0.3997 0.30 0.1179 0.63 0.2357 0.96 0.3315 1.29 0.4015 0.31 0.1217 0.64 0.2389 0.97 0.3340 1.30 0.4032 0.32 0.1225 0.65 0.2422 0.98 0.3365 1.31 0.4049

Page 56: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

111 112

Продолжение табл. П1

x Φ( )x x Φ( )x x Φ( )x x Φ( )x

1.32 0.4066 1.69 0.4545 2.12 0.4830 2.86 0.4979 1.33 0.4082 1.70 0.4554 2.14 0.4838 2.88 0.4980 1.34 0.4099 1.71 0.4564 2.16 0.4846 2.90 0.4981 1.35 0.4115 1.72 0.4573 2.18 0.4854 2.92 0.4982 1.36 0.4131 1.73 0.4582 2.20 0.4861 2.94 0.4984 1.37 0.4137 1.74 0.4591 2.22 0.4868 2.96 0.4985 1.38 0.4162 1.75 0.4599 2.24 0.4875 2.98 0.4986 1.39 0.4177 1.76 0.4608 2.26 0.4881 3.00 0.49865 1.40 0.4192 1.77 0.4616 2.28 0.4887 3.20 0.49931 1.41 0.4207 1.78 0.4625 2.30 0.4893 3.40 0.49966 1.42 0.4222 1.79 0.4633 2.32 0.4898 3.60 0.4998411.43 0.4236 1.80 0.4641 2.34 0.4904 3.80 0.4999281.44 0.4251 1.81 0.4649 2.36 0.4909 4.00 0.4999681.45 0.4265 1.82 0.4656 2.38 0.4913 4.50 0.4999971.46 0.4279 1.83 0.4664 2.40 0.4918 5.00 0.4999971.47 0.4292 1.84 0.4671 2.42 0.4922 1.48 0.4306 1.84 0.4678 2.44 0.4927 1.49 0.4319 1.86 0.4686 2.46 0.4931 1.50 0.4332 1.87 0.4693 2.48 0.4934 1.51 0.4345 1.88 0.4699 2.50 0.4938 1.52 0.4357 1.89 0.4706 2.52 0.4938 1.53 0.4370 1.90 0.4713 2.54 0.4945 1.54 0.4382 1.91 0.4719 2.56 0.4948 1.55 0.4394 1.92 0.4726 2.58 0.4951 1.56 0.4406 1.93 0.4732 2.60 0.4953 1.57 0.4418 1.94 0.4738 2.62 0.4956 1.58 0.4429 1.95 0.4744 2.64 0.4959 1.59 0.4441 1.96 0.4750 2.66 0.4961 1.60 0.4452 1.97 0.4756 2.68 0.4961 1.61 0.4463 1.98 0.4761 2.70 0.4963 1.62 0.4474 1.99 0.4767 2.72 0.4965 1.63 0.4484 2.00 0.4772 2.74 0.4967 1.64 0.4495 2.02 0.4783 2.76 0.4971 1.65 0.4505 2.04 0.4793 2.78 0.4973 1.66 0.4515 2.06 0.4803 2.80 0.4974 1.67 0.4525 2.08 0.4812 2.82 0.4976 1.68 0.4535 2.10 0.4821 2.84 0.4977

Таблица П2 Таблица значений t n( , )γ , определяемых выражением

,)),(( γγ =< ntTP n где n – объем выборки

n γ 0.95 0.99 0.999 n

γ 0.95 0.99 0.999 5 2.78 4.6 8.61 20 2.093 2.861 3.883 6 2.57 4.03 6.86 25 2.064 2.797 3.745 7 2.45 3.71 5.96 30 2.045 2.756 3.659 8 2.37 3.50 5.41 35 2.032 2.720 3.600 9 2.31 3.36 5.04 40 2.023 2.0708 3.558 10 2.26 3.25 4.78 45 2.016 2.692 3.527 11 2.23 3.17 4.59 50 2.009 2.679 3.502 12 2.20 3.11 4.44 60 2.001 2.662 3.464 13 2.18 3.06 4.32 70 1.996 2.649 3.439 14 2.16 3.01 4.22 80 1.991 2.640 3.418 15 2.15 2.98 4.14 90 1.987 2.633 3.403 16 2.13 2.95 4.07 100 1.984 2.627 3.3392 17 2.12 2.92 4.02 120 1.980 2.617 3.374 18 2.11 2.90 3.97 ∞ 1.960 2.576 3.291 19 2.10 2.88 3.92

Page 57: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

113 114

Таблица П3 Таблица значений квантилей

χk2 – распределений, определяемых соотношением

P kk( ( , ))χ χ γ γ2 2< =

k γ 0.02 0.05 0.1 0.9 0.95 0.98 1 0.006 0.0039 0.016 2.7 3.8 5.4 2 0.040 0.103 0.211 4.6 6.0 7.8 3 0.185 0.352 0.584 6.3 7.8 9.8 4 0.43 0.71 1.06 7.8 9.5 11.7 5 0.75 1.14 1.61 9.2 11.1 13.4 6 1.13 1.63 2.20 10.6 12.6 15.0 7 1.56 2.17 2.83 12.0 14.1 16.6 8 2.03 2.73 3.49 13.4 15.5 18.2 9 2.53 3.32 4.17 14.7 16.9 19.7 10 3.06 3.94 4.86 16.0 18.3 21.2 12 4.2 5.2 6.3 18.5 21.0 24.1 14 5.4 6.6 7.8 21.1 23.7 26.9 16 6.6 8.0 9.3 23.5 26.3 29.6 18 7.9 9.4 10.9 26.0 28.9 32.3 20 9.2 10.9 12.4 28.4 31.4 35.0 22 10.6 12.3 14.0 30.8 33.9 37.7 24 12.0 138 15.7 33.2 36.4 40.3 26 13.4 15.4 17.3 35.6 38.9 42.9 28 14.8 16.9 18.9 37.9 41.3 45.4 30 16.3 18.5 20.6 40.3 43.8 48.0

Таблица П4

Доверительные границы 2p и 1p для вероятности p при 950.=γ (значения 2p приведены в верхней строке, 1p – в нижней)

m n-m 1 2 3 4 5 6 7 8

0 0.975

0.000

0.842

0.000

0.708

0.000

0.602

0.000

0.522

0.000

0.459

0.000

0.410

0.000

0.369

0.000

1 0.987

0.013

0.906

0.008

0.806

0.006

0.716

0.005

0.641

0.004

0.579

0.004

0.527

0.003

0.463

0.003

2 0.992

0.094

0.932

0.068

0.853

0.053

0.727

0.037

0.710

0.037

0.651

0.032

0.600

0.028

0.556

0.028

3 0.094

0.194

0.947

0.147

0.882

0.118

0.816

0.099

0.755

0.085

0.701

0.075

0.652

0.067

0.610

0.060

4 0.995

0.284

0.957

0.223

0.901

0.184

0.843

0.157

0.788

0.137

0.738

0.122

0.692

0.109

0.651

0.099

Page 58: МАТЕМАТИЧЕСКАЯ СТАТИСТИКАwindow.edu.ru/resource/304/63304/files/stat2000.pdf · 2015-01-12 · Проверка гипотез о числовом значении

115 116

Таблица П5 Квантили )k,l(fγ распределения Фишера, определяемые уравнением

95.0)),(),(( ==< γγ klfklFP ( l – степени свободы для большей дисперсии, k – для меньшей)

k l 1 2 3 4 6 8 12 24

1 161.4 199.5 215.7 224.6 234.0 238.9 243.9 249.0 2 18.51 19.00 19.16 19.25 19.33 19.37 19.41 19.45 3 10.13 9.55 9.28 9.21 8.84 8.82 8.74 8.64 4 7.71 6.94 5.59 6.39 6.16 6.04 5.91 5.77 5 6.61 5.79 5.41 5.19 4.95 4.82 4.68 4.53 6 5.99 5.14 4.76 4.53 4.88 4.15 4.00 3.84 7 5.59 4.74 4.35 4.12 3.87 3.73 3.57 3.41 8 5.32 4.46 4.07 3.84 5.58 3.44 3.28 3.12 9 5.12 4.26 3.86 3.63 3.37 3.23 3.07 2.90

10 4.96 4.10 3.71 3.48 3.22 3.07 2.91 2.74 12 4.75 3.88 3.49 3.26 3.00 2.85 2.69 2.50 14 4.60 3.74 3.34 3.11 2.85 2.70 2.53 2.35 16 4.49 3.63 3.24 3.01 2.74 2.59 2.42 2.24 18 4.41 3.55 3.16 2.93 2.66 2.51 2.34 2.15 20 4.35 3.49 3.10 2.87 2.60 2.45 2.28 2.08 22 4.30 3.44 3.05 2.82 2.55 2.40 2.23 2.03 24 4.26 3.40 3.01 2.78 2.51 2.36 2.18 1.98 26 4.22 3.37 2.98 2.74 2.47 2.32 2.15 1.95 28 4.20 3.34 2.95 2.71 2.44 2.29 2.12 1.91 30 4.17 3.32 2.92 2.69 2.42 2.27 2.09 1.89 40 4.08 3.23 2.84 2.61 2.34 2.18 2.00 1.79 60 4.00 3.15 2.76 2.52 2.25 2.10 1.92 1.70

Рекомендуемая литература

1. Тимошенко Е.И., Воскобойников Ю.Е. Теория

вероятностей: Учеб. пособие. – Новосибирск: НГАСУ, 1999. 2. Гмурман В.Е. Теория вероятностей и математическая

статистика. – М.: Высш. школа, 1998. 3. Смирнов Н.В., Дунин-Барковский И.В. Курс теориии

вероятностей и математической статистики. – М.: Наука, 1969. 4. Калинина В.Н., Панкин В.Ф. Математическая статистика. –

М.: Высш. школа. 1994.