wnioskowanie statystyczne czeŚĆ iii

27
Wnioskowanie statystyczne CZEŚĆ III dr Urszula Gierałtowska

Upload: lavender

Post on 18-Mar-2016

125 views

Category:

Documents


0 download

DESCRIPTION

Wnioskowanie statystyczne CZEŚĆ III. dr Urszula Gierałtowska. Wnioskowanie statystyczne. Zadaniem statystyki matematycznej jest wnioskowanie o populacji generalnej na podstawie populacji próbnej. Wnioskowanie to polegać może na weryfikacji przyjętego modelu teoretycznego. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczneCZEŚĆ III

dr Urszula Gierałtowska

Page 2: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Zadaniem statystyki matematycznej jest wnioskowanie o populacji generalnej na podstawiepopulacji próbnej. Wnioskowanie to polegać może na weryfikacji przyjętego modelu teoretycznego.Na jego podstawie formułowana jest hipoteza, z kolei wnioskowanie ma ją potwierdzić lubodrzucić. Hipoteza powinna być tak sformułowana, aby można było ją łatwo przyjąć lub odrzucić.

Hipoteza statystyczna – każde przypuszczenie dotyczące poszczególnych parametrów

(charakterystyk) lub rozkładu określonej zmiennej losowej, że o prawdziwości lub fałszywości tego

przypuszczenia można wnioskować w oparciu o losowo pobraną próbę realizacji tej zmiennej losowej.

Wnioskowanie o słuszności postawionej hipotezy nazywamy sprawdzianem hipotezy lub weryfikacją

hipotezy.

Page 3: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Rodzaje hipotez:

Hipoteza statystyczna

PARAMETRYCZNA(parametryczne testy istotności)

precyzuje wartość parametruw rozkładzie populacji gen.

NIEPARAMETRYCZNA(nieparametryczne testy istotności)

orzeka o typie rozkładu

TESTY ZGODNOŚCIsprawdzają hipotezę, że populacja ma

określony typ rozkładu

TESTY SPRAWDZAJĄCECZY 2 PRÓBY POCHODZĄ

Z JEDNEJ POPULACJI

Hipotezy:

– proste – w jednoznaczny sposób określa zarówno typ rozkładu (rodzinę dystrybuant), jak i wartości parametrów, od których zależy dystrybuanta rozpatrywanej zmiennej losowej,

– złożona – nie określa rozkładu w sposób jednoznaczny (hipotezy nieparametryczne mają charakter złożony, gdyż nie uwzględniają wartości parametrów rozkładu)

Page 4: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Weryfikacja hipotez statystycznych polega na zastosowaniu określonego schematu postępowaniazwanego testu statystycznego, który rozstrzyga, przy jakich wynikach z próby sprawdzoną hipotezę należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia.

Hipoteza zerowa – hipoteza sprawdzająca oznaczana H0 – jest to hipoteza poddana procedurze

weryfikacyjnej, w której zakładamy, że różnica między analizowanymi parametrami lub rozkładami wynosi zero.

Hipoteza alternatywna – hipoteza, którą skłonni jesteśmy przyjąć, jeżeli w świetle wyników próby

statystycznej należy odrzucić hipotezę H0. Oznaczamy ją H1.

Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach próby

hipotezę sprawdzaną H0 można przyjąć oraz przy jakich należy ją odrzucić.

Dla kształtu rozkładu pewnej zmiennej losowej określa się hipotezę zerową w następujący sposób:H F x0: ( ) ,

która mówi, że dana dystrybuanta rozkładu empirycznego uzyskanego z próby F(x) jest elementem pewnego zbioru funkcji rozkładu teoretycznego o określonej dystrybuancie. Hipoteza alternatywna będzie w tym przypadku sformułowana następująco: H F x1: ( ) ,

Page 5: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Podejmując decyzję przyjęcia lub odrzucenia hipotezy narażamy się na popełnienie błędu I rodzaju, polegającego na odrzuceniu hipotezy prawdziwej, jak i na popełnienie błędu II rodzaju, polegającego na

przyjęciu hipotezy fałszywej. Konstrukcja testu zależy od postaci hipotezy zerowej H0 (bezpośrednio

weryfikowanej) oraz postaci hipotezy alternatywnej H1 (konkurencyjnej do H0).

DecyzjaHipoteza H0

jest prawdziwa jest fałszywa

Przyjąć H0 decyzja poprawna 1 -

decyzja błędna

Błąd drugiego rodzaju

Odrzucić H0 decyzja błędna

Błąd pierwszego rodzaju (poziom istotności)

decyzja poprawna 1 –

Moc testu

Page 6: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Błąd pierwszego rodzaju (), który polega na odrzuceniu hipotezy zerowej, mimo że jest ona

prawdziwa. Błąd ten zwany jest poziomem istotności. Poziom istotności wskazuje, na jak mały błąd „zgadzamy się” przy weryfikacji hipotezy zerowej. Poziom istotności określa dopuszczalną częstość wystąpienia wyników niezgodnych z przyjętymi założeniami na skutek losowego charakteru próby.

Błąd drugiego rodzaju () polega na przyjęciu hipotezy zerowej, gdy jest ona w rzeczywistości fałszywa.

Moc testu: prawdopodobieństwo 1-, tj. prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona fałszywa, a hipoteza alternatywna jest prawdziwa. Testem najmocniejszym jest ten, którego, przy ustalonym poziome istotności , wartość jest najmniejsza.

1. Moc zależy od odległości między wartością parametru zakładaną w hipotezie zerowej a prawdziwą wartością parametru – im większa odległość tym większa moc.

2. Moc zależy od wielkości odchylenia standardowego w populacji – im mniejsze odchylenie, tym większa moc.

3. Moc zależy od liczebności próby – im liczniejsza próba, tym większa moc.

4. Moc zależy od poziomu istotności testu – im niższy poziom istotności, tym mniejsza moc testu.

Page 7: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

1. określić hipotezę zerową H0 i alternatywną H1;

2. określić poziom istotności oraz wielkość próby n (lub prób), a w pewnych przypadkach wielkości zbiorowości generalnej N;

3. określić zastosowany sposób losowania;4. w przypadku testu parametrycznego sprawdzić rozkład zbiorowości generalnej;5. wybrać odpowiedni test statystyczny dla oceny hipotezy zerowej;6. obliczyć wartość charakterystyki testu na podstawie danych uzyskanych z próby (lub prób);7. znaleźć w tablicach statystycznych wartość krytyczną na danym poziomie istotności i

wyznaczyć obszar przyjęcia i odrzucenia hipotezy zerowej;8. podjąć decyzję.

Budowa testu istotności:

Page 8: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Do weryfikacji hipotez parametrycznych najczęściej wykorzystywanymi testami są: dla dużej próbystatystyka u, dla małej próby statystyka t-Studenta. Są to tzw. testy istotności, które znajdujązastosowanie w sytuacji, gdy interesuje nas pytanie, czy hipotezę zerową można odrzucić – a niebadamy innych hipotez. Z tym, że statystyka u wykorzystuje rozkład normalny, z kolei statystyka t rozkład t-Studenta.

Reguła decyzyjna przy testowaniu hipotezy statystycznej polega na porównaniu wartości sprawdzianu z wartościami rozgraniczającymi obszary odrzucenia i nieodrzucenia. Hipotezę zerową odrzucamy wtedy i tylko wtedy, gdy sprawdzian wpada w obszar odrzucenia przy przyjętym poziomie istotności .

Obszarem odrzucenia hipotezy statystycznej jest taki zbiór liczb, że jeżeli sprawdzian przyjmie wartość z tego zbioru, to hipotezę zerową odrzucimy. Obszar odrzucenia określany jest jako obszar krytyczny.

Obszarem nieodrzucenia (przyjęcia) hipotezy statystycznej jest taki zbiór liczb, że jeżeli sprawdzian przyjmie wartość z tego zbioru, to hipotezy zerowej nie odrzucimy.

Wartość krytyczna testu – wartość zmiennej losowej o określonym rozkładzie, która przy danym poziomie istotności stanowi koniec przedziału odrzucenia.

Page 9: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Przed przystąpieniem do testowania muszą być sformułowane obie hipotezy: zerowa i alternatywna.

Testem dwustronnym jest test, którego obszar odrzucenia składa się z wartości położonych pod dwoma „ogonami” krzywej gęstości rozkładu sprawdzianu (przy założeniu prawdziwości hipotezy zerowej)

Test jednostronny zostanie zastosowany, jeżeli chcemy sprawdzić, czy parametr przyjmie wartość większą lub mniejszą od określonej liczby. Wybór jedno- lub dwustronnego testu hipotezy statystycznej jest wyznaczony przez potrzebę działania.

Jeżeli działanie będzie podjęte, gdy parametr przekroczy pewną wartość a, to alternatywną hipotezą będzie, że parametr jest większy od a i zastosujemy test prawostronny.

Jeżeli zaś działanie będzie podjęte, gdy parametr przyjmie wartość mniejszą od a, to alternatywną hipotezą będzie, że parametr jest mniejszy od a i zastosujemy test lewostronny.

W przypadku testów jednostronnych prawdopodobieństwo popełnienia błędu pierwszego rodzaju wyobraża pole pod jednym „ogonem” krzywej gęstości

Page 10: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Wnioskowanie w testach istotności

Jeżeli wartość statystyki z próby należy do obszaru krytycznego

odrzucamy H0 na korzyść H1 (przyjmujemy H1)

Jeżeli wartość statystyki z próby nie należy do obszaru krytycznego

brak podstaw do odrzucenia H0 (co nie jest jednoznaczne z przyjęciem H0)

Jeżeli hipotezę zerową odrzucimy na poziomie istotności , to odrzucimy ją na każdym większym poziomie istotności.

Jeżeli hipotezę zerową odrzucimy na poziomie istotności , to możemy jej nie odrzucić na mniejszym poziomie istotności.

Page 11: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Wartość p (p-value)

Wartością p jest najniższy poziom istotności , przy którym hipoteza zerowa mogłaby być odrzucona przy otrzymanej wartości sprawdziany.

Wartość p to prawdopodobieństwo otrzymania takiej wartości sprawdzianu, jaką otrzymaliśmy – lub wartości skrajniejszej – przy założeniu że hipoteza zerowa jest prawdziwa.

W przypadku testu dwustronnego wartość p jest miarą sumy dwóch pól pod krzywą gęstości rozkładu znajdujących się na prawo od dodatniej o na lewo od ujemnej wartości sprawdzianu. W przypadku testów jednostronnych jest miarą pola pod krzywą gęstości rozkładu na prawo od wartości sprawdzianu (test prawostronny) lub na lewo (test lewostronny).

Przy danym poziomie istotności a odrzucić hipotezę zerową można wtedy i tylko wtedy, jeżeli

≥ wartość p. Jeżeli p > , to brak jest podstaw do odrzucenia H0.

Page 12: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Test dla średniej

1° zakładamy, że zmienna losowa X ma rozkład normalny o znanym odchyleniu standardowym próba jest dość duża (powyżej 30), pobrana z populacji o rozkładzie N(. Estymatorem parametru jest

H0: = 0

H1: ≠ 0 lub > 0 lub < 0

Standaryzując otrzymujemy zmienną losową która ma rozkład N(0, 1).

a) jeżeli H1: ≠ 0

b) jeżeli H1: > 0

c) jeżeli H1: < 0

;uu;:OK22 11

;u:OK 1

1u;:OK

2° zakładamy, że zbiorowość generalna ma dowolny rozkład ciągły o nieznanych parametrach, a próba jest

duża (n > 50). Estymatorem parametru jest

Wartość statystyki testu: która ma rozkład N(0, 1).

W obu przypadkach obszar krytyczny uzależniony jest od postaci hipotezy alternatywnej:

Page 13: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

3° Zbiorowość generalna ma rozkład normalny o parametrach N() o nieznanych parametrach, a próba jest mała (n < 30). Korzystamy ze statystyki t- Studenta z n-1 stopniami swobody. Statystyka testowa ma postać: Obszary krytyczne mają postać:

a) jeżeli H1: ≠ 0

b) jeżeli H1: > 0

c) jeżeli H1: < 0

Page 14: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Test dla dwóch średnich H0: = 2

H1: ≠ 2 lub > 2 lub < 2

1° Badamy dwie populacje generalne mające rozkłady normalne N(1, 1) i N(2, 2), przy czym

odchylenie standardowe 1 i 2 są znane. Statystyka testu ma postać:

2

22

1

21

21

nn

xxu

2° Zmienna X ma w jednej populacji generalnej ma rozkład N(1, 1) i w drugiej populacji generalnej ma

rozkład N(2, 2) lub dowolny inny rozkład o odpowiednio: średniej wartości 1 i o skończonej, ale

nieznanej wartości wariancji 12 oraz średniej wartości 2 i o skończonej, ale nieznanej wartości 2

2.

Próby duże. Statystyka testu ma postać:

2

22

1

21

21

nxs

nxs

xxu

3° Badamy dwie populacje generalne mające rozkłady normalne N(1, 1) i N(2, 2), przy czym

odchylenie standardowe nie są znane, ale wiadomo, że 1 = 2 (wariancje nie różnią się istotnie

między sobą). Próby małe. Statystyka testu ma postać:

2121

222

211

21

n1

n1

2nnxsnxsn

xxt

Page 15: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Utarg A B2-4 40 44-6 100 266-8 30 498-10 20 1810-12 10 3

Suma 200 100

W dwóch sklepach badano utargi:Przykład

a) w sklepie A przeciętny utarg wynosi 5,5 tyś. zł ( = 0,1)b) w sklepie B przeciętny utarg jest mniejszy niż 7 tyś. zł ( = 0,01)c) sklep A osiąga niższą wartość utargu niż sklep B ( = 0,01)

Page 16: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Test dla dwóch średnich – próby powiązane

Dane pochodzą z dwóch populacji powiązanych i są powiązane w pary. Dla każdej z par wyznaczmy

różnicę di = yi – xi Zakładamy, że populacja różnic ma rozkład normalny

0z0z0z:H

0z:H

1

0

– w przypadku małej próby (n – 1 < 30) statystyką testową jest

– w przypadku dużej próby (n – 1 > 30) statystyką testową jest 1nzszt

nzszu

Zapylono 0,75 0,73 0,4 0,89 0,83 0,56 0,65Nie 0,18 0,09 0,29 0,26 0,27 0,17 0,11

Dla 7 losowo wybranych roślin chmielu wykonano pewne doświadczenie: zapylono połowę roślin, a drugą – nie.

Przykład

Na poziomie istotności 0,05 zweryfikować hipotezę, że zapylanie roślin zwiększa masę nasion.

Page 17: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Test dla wariancji H0: = 02

H1: ≠ 02 lub > 0

2 lub < 02

1° zakładamy, że zmienna losowa X ma rozkład normalny o nieznanym odchyleniu standardowym średniejpróba jest mała (poniżej 30), pobrana z populacji o rozkładzie N(. Estymatorem parametru jest

a) jeżeli H1: ≠ 0

b) jeżeli H1: 2 > 20

c) jeżeli H1: 2 < 20

2° zakładamy, że badana cecha populacji ma rozkład N(, ) o nieznanym i . Duża próba. Estymatorem parametru jest

Page 18: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Test dla wskaźnika struktury H0: p = p0

H1: p ≠ p0 lub p > p0 lub p < p0

Zbiorowość generalna ma rozkład dwupunktowy z parametrem p. Wylosowano próbę n > 100. W próbie losowej o liczebności n jest m elementów spełniających pewien warunek (wartość proporcji z próby powinna spełniać warunek: 0,2 < p < 0,8). Wówczas statystyką testową jest

Test dla dwóch wskaźników struktury H0: p1 = p2

H1: p1 ≠ p2 lub p1 > p2 lub p1 < p2

Zbiorowości generalne mają rozkład dwupunktowy z parametrami p1 i p2. Liczebności prób powinny

spełniać relacje: n1 > 100 i n2 > 100. Statystka testowa wynosi

n

p1p

nm

nm

u 2

2

1

1

p – proporcja dla próby połączonej21

21

21

21

nnn.nn,

nnmmp

Page 19: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Powierzchnia [m2] 30-40 40-50 50-60 60-70 70-80

Liczba mieszkań 13 17 48 30 15

2. W spółdzielni mieszkaniowej przeprowadzono badanie struktury mieszkań oddawanych do zasiedlenia według ich powierzchni. Otrzymano wyniki:

a) sprawdzić na poziomie istotności 0,05, że odchylenie standardowe powierzchni mieszkania jest mniejsze od 14 m2

b) czy można twierdzić, że odsetek dużych mieszkań (powyżej 60 m2) stanowi więcej niż 20 % ogółu mieszkań (współczynnik istotności 0,03)

Przykład

1. Podczas juwenaliów studentom zadano pytanie „czy lubi Pan/Pani alkohol”. Przebadano 180 studentek i 120 studentów. Na pytanie twierdząco odpowiedziało 50 studentek i 40 studentów. Czy można twierdzić, że frakcja lubiących alkohol mężczyzn jest taka sama jak kobiet (współczynnik istotności 0,04).

Page 20: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Test dla współczynnika korelacji

H0: =

H1: ≠ lub > lub <

Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów

– mała próba (n – 2 ≤ 120) – duża próba (n – 2 > 120)

H0: =

H1: ≠ lub > lub <

Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów (niekoniecznie dużo).

Jeżeli rxy jest współczynnikiem korelacji liniowej z próby i jest współczynnikiem korelacji w tej

zbiorowości, to rozkład zmiennej losowej 3n

1n211

ln21

r1r1

ln21u 0

0

0

xy

xy

jest w przybliżeniu normalny N(0, 1).

Page 21: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Wartość działki [w tys. zł] 9 10 15 16 18 18 19 19

Powierzchnia działki [w arach] 2 3 3 3 4 5 4 4

Na podstawie transakcji kupna-sprzedaży działek budowlanych w Szczecinie w grudniu 1995 roku otrzymano następujące informacje:

Przykład

a) zbadać istotność współczynnika korelacji pomiędzy wartością działki a jej powierzchnią (poziom istotności 0,05),

b) czy można twierdzić, że współczynnik korelacji pomiędzy wartością działki a powierzchnią jest większy od 0,7 (poziom istotności 0,04).

Page 22: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Testów parametrycznych nie stosujemy, gdy zmienne mają charakter jakościowy czy też uporządkowany. Testy nieparametryczne wykorzystujemy w sytuacji, gdy nie są spełnione założenia wymagane przez testy parametryczne, jak: zmienne mierzalne, posiadające rozkład zgodny normalnym (w odniesieniu do dużych populacji n > 100 zamiast testów nieparametrycznych możemy stosować testy parametryczne, mimo że sama zmienna nie posiada rozkładu normalnego. Jest to możliwe ze względu na fakt, że rozkład średnich z tych prób ulega normalizacji).

Testy nieparametryczne oparte są na porównywaniu całych rozkładów, a nie określonych parametrów tych rozkładów. Testy nieparametryczne mają znacznie mniejszą moc niż testy parametryczne, cooznacza, że za ich pomocą trudniej jest odrzucić hipotezę zerową niż za pomocą testów parametrycznych. Łatwiej więc popełnić błąd II rodzaju, tzn. przyjąć nieprawdziwą hipotezę zerową. W testach nieparametrycznych do odrzucenia hipotezy zerowej potrzebne są zwykle próby o większej liczebności niż w odpowiadających im testach parametrycznych.

Weryfikacja nieparametryczna

Page 23: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Nieparametryczne testy istotności można podzielić na trzy zasadnicze grupy:

– testy zgodności – zawdzięczają swoją nazwę temu, że sprawdza się za ich pomocą zgodność rozkładu empirycznego z próby z rozkładem hipotetycznym (zmiennej skokowej lub ciągłej) lub też zgodność dwóch lub więcej rozkładów empirycznych z próby. Spośród najbardziej popularnych testów wyróżnia się test zgodności 2, test zgodności Kołmogorowa, test Kołmogorowa – Smirnowa.

a) test zgodności 2 możemy wykorzystywać do badania zgodności cech mierzalnych, jak i niemierzalnych (jedyny test do badania zgodności cech niemierzalnych). W celu weryfikacji hipotezy

zerowej buduje się szereg rozdzielczy o r klasach (r ≥ 5) i liczebnościach ni (ni ≥ 5). Następnie

porównuje się liczebności teoretyczne (wyznaczone w oparciu o prawdopodobieństwo pi

charakterystyczne dla rozkładu hipotetycznego), które powinny występować w klasie i (gdyby

hipoteza H0 była poprawna) z liczebnościami empirycznymi. Statystyką testową jest statystyka 2, a

obszar krytyczny jest prawostronny wyznaczany w oparciu o statystykę 2 odczytaną dla zadanego poziomu istotności oraz r-k-1 stopni swobody (k – liczba szacowanych parametrów rozkładu hipotetycznego). Test ten może być stosowany zarówno kiedy dystrybuanta hipotetyczna jest skokowa, jak i ciągła (statystyka 2 nie zależy od tego, jaka jest postać dystrybuanty zmiennej X),

Page 24: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

b) test Kołmogorowa – sprawdza, czy rozkład w populacji dla pewnej zmiennej losowej, różni się od założonego rozkładu teoretycznego, gdy znana jest jedynie pewna skończona liczba obserwacji tej zmiennej. Często wykorzystywany jest on w celu sprawdzenia, czy zmienna ma rozkład normalny. Punktem wyjścia jest analiza bezwzględnych różnic pomiędzy dystrybuantą hipotetyczną a dystrybuantą empiryczną. Największa różnica służy do budowy statystyki , której rozkład służy do budowy obszaru krytycznego. Test ten może być stosowany jedynie, kiedy dystrybuanta hipotetyczna jest ciągła, a liczebność próby duża (powyżej 100),

c) test Kołmogorowa-Smirnowa jest uogólnieniem wcześniejszego testu – jest używany do sprawdzenia, czy dwa jednowymiarowe rozkłady prawdopodobieństwa różnią się od siebie (dwie próby pochodzą z tej samej populacji). W teście analizuje się jedynie różnice pomiędzy dystrybuantami empirycznymi. Niewątpliwą zaletą testu jest możliwość wykorzystania go w trakcie badań rozkładów bardzo nielicznych prób (poniżej 100).

– testy losowości – weryfikujące hipotezę, że próba ma charakter losowy, np. test serii (test serii Stevensa, Walda-Wolfowitza) – np. test medianowy (elementom poniżej mediany przyporządkowuje się np. symbol A, a elementom powyżej mediany – symbol B; pod pojęciem serii rozumiemy każdy ciąg identycznych elementów w zbiorze uporządkowanym według ustalonego wcześniej kryterium),

Page 25: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

– testy niezależności – sprawdzające hipotezę o niezależności dwóch zmiennych losowych, np. test niezależności 2, który stosowany jest w przypadku badania niezależności cech niemierzalnych (jakościowych) lub w przypadku badania niezależności cechy jakościowej z ilościową.

Przedmiotem badania jest populacja generalna, z której pobrano n-elementową próbę (n > 30), a wyniki sklasyfikowano w postaci tablicy wg jednej cechy w r wierszach i  wg drugiej cechy w k  kolumnach.

Wnętrze tablicy niezależności stanowią liczebności nij elementów próby, które spełniają jednocześnie

kryteria zawarte w  i-tym wierszu i j-tej kolumnie. Tablica niezależności jest podstawą weryfikacji nieparametrycznej hipotezy zerowej głoszącej, że w populacji nie ma zależności między cechami (zmiennymi) X i Y.

Page 26: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

H0: P(X = xi, Y = yj) = P(X = xi) · P(Y = yj), czyli, że cechy X i Y są niezależne

H1: P(X = xi, Y = yj) ≠ P(X = xi) · P(Y = yj), czyli, że cechy X i Y są zależne,

Do weryfikacji powyższych hipotez stosuje się statystykę 2:

k

1j

r

1i ij

2ijij2

n̂)n̂n(

nnn

n̂ j..iij

Liczebności teoretyczne wyznacza się wg formuły:

gdzie ni., n.j – liczebności brzegowe

Z tablic rozkładu odczytujemy wartość statystyki 2 odczytaną przy poziomie istotności i przy (r – 1)(k – 1) stopniach swobody (r – liczba wierszy w tablicy niezależności, k – liczba kolumn). Obszar krytyczny jest obszarem prawostronnym, zatem decyzja weryfikacyjna może być następująca:

– jeżeli 2 ≥ 2a; (r - 1)(k - 1)  – H0 odrzucamy na rzecz hipotezy alternatywnej H1

– jeżeli 2 < 2a; (r - 1)(k - 1)  – nie ma podstaw do odrzucenia H0 o niezależności cech

Page 27: Wnioskowanie statystyczne CZEŚĆ III

Wnioskowanie statystyczne

Przykład

Badając wpływ lokalizacji na cenę uzbrojonych działek budowlanych otrzymano poniższą tablicę:

Cena 1 m2Lokalizacja

niemodna przeciętna modna

60-80 12 3 1

80-100 2 9 3

100-120 2 4 15Zbadać, czy cechy są zależne (poziom istotności 0,05)