kategorİk verİlerİn testİ - deukisi.deu.edu.tr/levent.senyay/istatistik ii/10 kategorik...n n i...

23
Prof. Dr. Levent ŞENYAY X - 1 İSTATİSTİK II 10 KATEGORİK VERİLERİN TESTİ (ki-kare testi) 10.1. Ki-kare dağılışı 10.2. Bağımsızlık testi 10.2.1. 2x2 tablolarda bağımsızlık (oran/homojenite) testleri 10.2.2. rxc tablolarda bağımsızlık (oran/homojenite) testleri 10.2.3. Yates’s süreklilik düzeltmesi 10.3. İyi uyum testleri 10.3.1. Normal dağılışa uyum testi 10.3.2. Tekdüzen dağılışa uyum testi 10.3.3. Binom dağılışına uyum testi 10.3.4. Poisson dağılışına uyum testi 10.3.5. İyi uyum için kullanılan diğer bazı testler

Upload: others

Post on 24-Apr-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 1 İSTATİSTİK II

10

KATEGORİK

VERİLERİN

TESTİ

(ki-kare testi)

10.1. Ki-kare dağılışı

10.2. Bağımsızlık testi

10.2.1. 2x2 tablolarda bağımsızlık (oran/homojenite) testleri

10.2.2. rxc tablolarda bağımsızlık (oran/homojenite) testleri

10.2.3. Yates’s süreklilik düzeltmesi

10.3. İyi uyum testleri

10.3.1. Normal dağılışa uyum testi

10.3.2. Tekdüzen dağılışa uyum testi

10.3.3. Binom dağılışına uyum testi

10.3.4. Poisson dağılışına uyum testi

10.3.5. İyi uyum için kullanılan diğer bazı testler

Page 2: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 2 İSTATİSTİK II

KATEGORİK VERİLERİN TESTİ

Örnekten elde edilen sonuçların çoğu kez olasılık kurallarına göre teorik beklenen sonuçlar ile kesin bir uyum içerisinde olmadığı görülür. Örneğin bir metal paranın 100 kez atılışında 50 tura 50 yazı gelmesi teorik olarak beklenmesine rağmen bu sonuç çok nadiren elde edilebilir. Belli bir olayın mümkün sonuçlar seti aşağıdaki tablodaki gibi olsun E : olanaklı olay seti-olay adı E1 E2 E3 … Ek

G : gözlemlenen olay frekansları G1 G2 G3 … Gk

B : beklenen olay frekansları B1 B2 B3 … Bk

Bu verilere dayalı olarak gözlenen (G) frekanslar ile beklenen (B) frekanslar arasında mevcut tutarsızlığın bir ölçüsü olarak ki-kare dağılışı kullanılır

k

i i

ii

k

kk

B

BG

B

BG

B

BG

B

BG

1

22

2

2

22

1

2

112 )()(...

)()(

N

j j

jN

B

G

1

2

2 yukarıdaki ki-kareye eşdeğer başka bir formüldür. ( N=∑Bj=∑Gj )

Aynı populasyonun farklı iki farklı özelliği arasındaki ilişki inceleniyorsa. Hipotesler aşağıdaki

şekilde kurulur.

0H : Populasyondaki iki özellik arasında ilişki yoktur

1H : Populasyondaki iki özellik arasında ilişki vardır.

Açıklama : s.d. = k-1-m = rc-1-(r-1)-(c-1) = rc-1-r+1-c+1 = rc-r-c+1 = (r-1)(c-1) k = tablodaki hücre sayısı m = verilerden tahmin edilen bağımsız parametre sayısı

02 ise gözlenen frekanslar ile beklenen frekanslar tamamen aynıdır

02 ise gözlenen frekanslar ile beklenen frekanslar aynı değildir.

Burada sözü edilen veriler, bir veya daha fazla birbirinden ayrık veya kategorilere ayrılmış şekilde sınıflandırılabilen gözlemlerin analizi ile ilgilidir. İlgilenilen değişken her kategori içerisine giren gözlemlerin sayısıdır. Burada istatistiksel hipoteze konu olarak 2 tip problem söz konusudur. 1. Sınıflama amaçlı kullanılan iki ya da daha çok değişken arasındaki bağımsızlığın veya ilişkinin

testi veya değer bir deyişle oranların karşılaştırılması 2. Gözlemlerin belirli bir olasılık dağılışından gelip gelmediğinin testi

Page 3: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 3 İSTATİSTİK II

10.1 CHI-SQUARE (Ki-Kare)DAĞILIMI

Ki-kare dağılımı matematiksel olarak tek parametreli (v, serbestlik dereceli) bir dağılımdır.

Ki-kare dağılımının özel bir hali olan standart normal dağılışın karesi(Z2), v=1 serbestlik dereceli bir ki-kare dağılışıdır.

2

1

2)(

x

xZ

2

1

n

n

i

iZ

Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık bir dağılıştır. Serbestlik derecesi (v) büyüdükçe çarpıklık azalır, serbestlik derecesinin çok büyük değerleri için ki-

kare (dağılışı v ortalamalı ve v2 standart sapmalı) hemen hemen normal dağılışa benzer. Ancak

uygulamada v büyük değerleri almaz.

Eğer örnekleme istatistiği hesaplanırken populasyon parametresi kullanılmadan beklenen frekanslar hesaplanabiliyorsa , serbestlik derecesi v = k – 1 alınır Eğer örnekleme istatistiği hesaplanırken (m) adet populasyon parametresi ile beklenen frekanslar hesaplanabiliyorsa , serbestlik derecesi v = k – 1 - m alınır

v=2 s.d

v=5 s.d v=10 s.d.

=0.05

2

0H Red bölgesi f( )2

Page 4: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 4 İSTATİSTİK II

10.2 BAĞIMSIZLIK (homojenlik) TESTİ

10.2.1. 2x2 tablolarda bağımsızlık (homojenite) testleri Burada amaç gözlem değerlerini kullanarak A ve B değişkenlerinin bağımsız olduğu hipotezini testidir.

B Değişkeni

Oij B B

A 11n 12n .1n

A Değişkeni A 21n 22n .n 2

1.n 2.n n

veya diğer bir ifadeyle burada testin amacı, gözlem oranların karşılaştırılması yolu ile A ve B değişkenlerinin bağımsızlığı testidır

B değişkeni

pij B B’

A p11 p12=(1-p11) jp1 p1.

A değişkeni

A’ p21 p22=(1-p21) jp2 p2.

p.1 = 1ip p.2= 2ip

Belirli bir α hata olasılığı seviyesinde, H0: A ve B birbirinden bağımsız H1: A ve B birbirinden bağımsız değil Eğer P(AB)=P(A)P(B) ise A ve B birbirinden bağımsızdır bağıntısından yararlanılarak, diğer bir ifadeyle

H0: 1111 ij ppp olmalıdır.

Gözlenen hücre oranları pij=pi.p.j i=1,2 j=1,2

Beklenen Hücre Frekansı; Eij=npij 11.111 pnE 21.221 pnE

A özelliğinin beklenen hücre oranları toplamları n

np .1

.1ˆ

n

np 1.

1.ˆ

Beklenen hücre oranı n

n

n

nppp 1..1

1..111ˆˆˆ

Beklenen hücre frekansı (olay sayısı) n

nnn

n

n

n

nnpE 1..11..1

1111ˆˆ

Page 5: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 5 İSTATİSTİK II

n

nnpnE 1.

.111.111 n

nnpnE 1.

.221.221

2

1

2

1

2

ˆ

ˆ

i j ij

ijij

E

EO

2

1

2

1

2

ˆ

ˆ

i j ij

ijij

E

En

2

sd

sd=k-m-1 m=örnek hesaplanırken kullanılan parametre sayısı k=tablodaki hücre sayısı

22

tabhesap ise H0 red edilir.

Örnek: Akciğer kanseri ile havada taşınabilen asbestli işte çalışma arasında bir ilişki olup olmadığı araştırılmak isteniyor. H0: Akciğer kanseri ile asbestli işte çalışma arasında bir ilişki yoktur. H1: Akciğer kanseri ile asbestli işte çalışma arasında bir ilişki vardır. Gij Asbestli Ortamda Değil Asbestli Ortamda Toplam Akciğer Kanseri Değil 10 40 50 Akciğer Kanseri 490 4460 4950 Toplam 500 4500 5000

ijE (=Bij)

5=(500*50)/5000 45 495 4455

55000

)500(50

n

nnE 1..1

11 455000

)4500(50

n

nnE 2..1

12

4955000

)500(4950

n

nnE 1..2

21 44555000

)4500(4950

n

nnE 2..2

22

i j ij

ijij

B

BG 2

2)(

=

5

5102

+

45

45402

+

495

4954902

+

4495

449544602

=5.61

0.01 0.025 sd=(r-1)(c-1)=(2-1)(2-1)=1

63.62

1,01.0 02.52

1,025.0

5000

50*4500

Page 6: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 6 İSTATİSTİK II

6.635.61

0.01

2

H0 red edilemez.

5.02 5.61

0.01

2

H0 red edilir.

Page 7: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 7 İSTATİSTİK II

Örnek:10 yıl süre ile radyoaktif artıkların bulunduğu bir bölgede yaşayan kişiler üzerinde gözlenen verilerden yola çıkılarak radyoaktif tehlike ile kan basıncı arasındaki ilişki araştırılmak isteniyor. Kan Basıncı Düzensizliği(Tansiyon)

ijO Gözlenen Gözlenmeyen

Radyoaktif tehlikeye maruz kalmış 52 248 300 Radyoaktif tehlikeye maruz kalmamış 48 272 320 100 520 620

ijE

48.39 251.61

51.61 268.39

0H :Radyoaktif maddeye maruz kalmanın, tansiyon problemi üzerinde bir etkisi yoktur.

1H :Radyoaktif maddeye maruz kalmanın, tansiyon problemi üzerinde bir etkisi vardır.

i j ij

ijij

B

BG 2

2)(

2 39.48

39.48522

+

61.251

61.2512482

+

61.51

61.51482

+

39.268

39.2682722

=0.62

0.25

32.12

1,25.0

s.d.=(2-1)(2-1)=1

1.320.62

0.25

2

0H red edilemez.

620

)520(300

Page 8: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 8 İSTATİSTİK II

10.2.2. rxc tablolarda bağımsızlık (homojenite) testleri

1 2 c

1 11n 12n c1n .1n

2 21n 22n c2n .2n

.

.

r 1rn 2rn rcn .rn

1.n 2.n c.n n

rjj2j10 p.......pp:H j=1,2,.......,c

Değişken B

1 2 c

1 11p 12p c1p 1

2 21p 22p c2p 1

Değişken A . . .

r 1rp 2rp rcp 1

2 =

ij

2

ijij

E

En 1c1r,

B özelliği

3 4 13 20 5 10 5 20

A özelliği 11 2 20 33 15 25 20 60 5 8.33 6.67 5 8.33 6.67 5 8.33 6.67

2 =

5

532

+

33.8

33.842

+.........+

67.6

67.622

=14.74

2

01.0 =13.3 2

05.0 =14.9 0.05<p<0.01 arasında ise oH red edilir.

60

20*20

Page 9: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 9 İSTATİSTİK II

Örnek: Bir işletmedeki personelin çalıştığı pozisyon ile cinsiyetini ortaya koyan tablo aşağıdaki gibidir. Personelin çalıştığı pozisyon ile cinsiyeti arasında bir ilişki olup olmadığını %0.5 anlamlılık seviyesinde test ediniz.

Oij Erkek Kadın Toplam

Müdür 256 74 330

Şef 41 42 83

Eleman 66 34 100

Toplam 363 150 513

H0 : Personelin çalıştığı pozisyon ile cinsiyeti arasında bir ilişki yoktur. H1 : Personelin çalıştığı pozisyon ile cinsiyeti arasında bir ilişki vardır.

ˆijE

233.5 96.5

58.7 24.3

70.8 29.2

i j ij

ijij

B

BG 2

2)(

60,108,26

2,29

2,2934

8,70

8,7066

3,24

3,2442

7,58

7,5841

5,96

5,9674

5,233

5,233256

2

2;005,0

22

2222

2

n

olduğu için oH red edilir.

2

2;005.0

2

1213;005,0

2

11, xcr

r = 3 c = 2 s.d.= (3-1)(2-1) = 2

10.6 26.8

0.005

2

513

363330

Page 10: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 10 İSTATİSTİK II

10.2.3 Yates’ süreklilik düzeltmesi

1

2

112)5,0(

B

BG

2

2

22 )5,0(

B

BG … +

k

kk

B

BG 2)5,0(

Örnek : Bir metal para 200 kez havaya fırlatılıyor, 115 tura ve 85 yazı geldiğine göre. Metal paranın hilesiz olup olmadığını 0,05 ve 0.01 önem seviyelerinde hipotez testini yapınız.

50,4100

)10085(

100

)100115( 222

84,31,95,0

2 H0 red edilir

63,61,99,02 H0 red edilemez

Kategori veya sınıf sayısı (yazı ve tura) k=2, s.d. v = k-1 = 2-1=1 Yates’s düzeltmesi ile

100

)5,0100115( 2

2

corrected 205,4100

)5,010085( 2

Yukarıda elde edilen sonuçlar geçerliliğini korumaktadır.

Contingency katsayısı Bir olasılık tablosu içerisinde sınıfların bağımsızlığı veya birleşimi, ilişki derecesini gösteren bir ölçüdür.

NC

2

2

k= sıra + kolon sayısı

max C = kk /)1(

Özellikler ve sınıflar arası korelasyon katsayısı

)1(

2

kNr

Örnek : Özellik I Özellik II Toplam Gözlemlene frekans NP N(1-P) N Beklenen frekans Np N(1-p)=Nq N

Page 11: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 11 İSTATİSTİK II

Npq

pP

pq

pPN

qppPN

Nq

pPN

Np

pPN

Nq

pNPN

Np

NpNP

/

)()()

11)(((

)()())1()1(()( 222222222

Bu sonuçlar ile

N

j j

jN

B

G

1

2

2 ispatlanabilir.

Örnek : Gözlemler İyileşenler İyileşmeyenlar Toplam Serum kullanan grup 75 25 100 Serum kullanmayan grup 65 35 100 Toplam 140 60 200 Beklenen frekanslar İyileşen İyileşmeyen Toplam Serum kulananlar 70 30 100 Serum kullanmayanlar 70 30 100 Toplam 140 60 200

38,230

)3035(

70

)7065(

30

)3025(

70

)7075( 22222

20038,2

38,2C 0,1084

C için max değer Beklenen değerler İyileşen İyileşmeyen Toplam Serum kullananlar 100 0 100 Serum kullanmayanlar 0 100 100 Toplam 100 100 200

20050

)50100(

50

)500(

50

)500(

50

)50100( 22222

200200

200C 0,7071 elde edilir.

Page 12: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 12 İSTATİSTİK II

Örnek : Bir Mendel deneyinde 315 bezelye sarı ve yuvarlak, 108 yeşil ve yuvarlak, 101 buruşuk ve sarı, 32 buruşuk ve yeşil olarak gözlemlenmiştir. 315+108+101+32=556 gözlem mevcuttur. Mendel kanununa göre beklenen oranların 9 : 3 : 3 : 1 olması gerekmektedir.. Beklenen oranların toplam sayısı 9+3+3+1=16 dır. Buna göre beklenen frekanslar Yuvarlak sarı 556 (9/16) = 312,75 Yuvarlak yeşil 556(3/16) =104,25 Buruşuk sarı 556(3/16) = 104,25 Buruşuk yeşil 556(1/16)= 34,75 dir

470,075,34

)75,3432(

25,104

)25,104101(

25,104

)25,104108(

75,312

)75,312315( 22222

k=4

3,113,99,02 sıfır hipotezi red edilemez.

Örnek :

0H :Eğitim seviyesi ile söz konusu işte başarı arasında bir ilişki yok

1H : Eğitim seviyesi ile söz konusu işte başarı arasında bir ilişki var

Eğitim Seviyesi Liseye Gitmemiş Lise Terk Lise Mezunu Toplam Gij Başarılı 12 63 65 140 Başarılı Değil 8 17 35 60 Toplam 20 80 100 200 = N Bij

(20x140)/200 14 56 70 6 24 30 Gij Bij Gij-Bij (Gij-Bij)2 (Gij-Bij)2/Bij

12 14 -2 4 0.28 63 56 7 49 0.87 65 70 -5 25 0.35 8 6 2 4 0.66 17 24 -7 49 2.04 35 30 5 25 0.83

2 5.03h

0.05

i j ij

ijij

B

BG 2

2)(

=5.03

991.52

2,05.0 0H red edilemez

(r-1)(c-1)=(2-1)(3-1)=2 edilmez

Red Bölgesi

0.05

5.05 5.99

Page 13: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 13 İSTATİSTİK II

10.3 İYİ UYUM TESTLERİ İyi uyum testleri, örnek verilere dayanarak populasyon dağılımı hakkındaki varsayımı test

eder.

Örnek : 3 benzer meşrubat seçilirken, tercihleri gözlenen değerler

Örnek(içecek markası) 0 i p i i i iE p O (0 i -E i )2

2)0(

i

ii

E

E

1 8 1/3 11 (8-11)2 9/11 2 10 1/3 11 (10-11)2 1/11 3 15 1/3 11 (15-11)2 16/11

Toplam iO =33 1.0 33 2 26/11 2.364h

H 0 : p 1 = p 2 = p 3

H 0 : meşrubat tercihlerinde marka önemsiz (üniform dağılış)

H 1 : meşrubat tercihlerinde marka önemli

2

h = 2,364 < 2

01,2 = 4,61 (tekdüzen dağılışta m=0)

sd=k-m-1 m=örnek hesaplanırken kullanılan parametre sayısı k=tablodaki hücre sayısı

=0,1 seviyesinde H 0 red edilemez.

0 2

H0 red bölges i

4.61

=0.1

2

2f

10.3.1 İYİ UYUM TESTİ:TEK DÜZEN DAĞILIŞI İÇİN

N

1)x(f p=

N

1

N

nn

N

1f e

on f toplam gözlem sayısı

Page 14: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 14 İSTATİSTİK II

Örnek : Bir lotary de kazanan numara 4 digittir. (4416, 1083 gibi) kazanan numaralardaki digitler şansa bağlıdır. Kazanan digit populasyonunun tek düzen olduğu varsayılıyor. N=10 0,1,2,3,4,5,6,7,8,9. Digitleri her biri aynı olasılıklı (1/N=1/10) A isimli kişi bu oyunu düzenli oynuyor ve kazanan numaraları bir yere yazıyor ve geçmişte en sık kazanan /karşılaşılan 4 digit sayıyı kullanarak düzenli bir şekilde oyun oynuyor.

400 kazanan digit bir şans örneği olarak test için kullanıldı. =0.05 seviyesinde örnek dağılımının tek düzen olup olmadığını test ediniz.(100 gözlem var)

0H : Örnek dağılımı tekdüzen

1H : Örnek dağılımı tekdüzen değil

Digit Gözlemler( 0f ) Beklenen( ef ) e0 ff 2e0 ff

e

2

eo

f

ff

0 41 40 1 1 1/40 1 54 40 14 196 196/40 2 31 40 -9 81 81/40 3 39 40 -1 1 1/40 4 35 40 -5 25 25/40 5 36 40 -4 16 16/40 6 56 40 16 256 256/40 7 38 40 -2 4 4/40 8 31 40 -9 81 81/40 9 39 40 -1 1 1/40

n=400 2 662/ 40 16.55h

4010

400

N

nf e , en =10, sd= g1n e =10-1-0=9,

2 2

0.05,9 19.919 16.55h

0H red edilemez. (uniform dağılışta g=0)

10.3.2 İYİ UYUM TESTİ: BİNOM DAĞILIŞI İÇİN

n:örnek büyüklüğü (deneme sayısı) p:bir denemenin başarı olasılığı

( ) 0,1,..., ; 1x n xn

P x p q x n p qx

Page 15: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 15 İSTATİSTİK II

Örnek : Her kutuda 20 tane silindir satılıyor. Kutularda kusurlu silindirler olabiliyor. 20’lik

kutulardaki kusurlu sayıların binom dağılışı gösterdiği bilindiğine =0.05 seviyesinde test edilecek. Şansa bağlı 100 kutu alınıyor; 100(20)=2000 silindir inceleniyor. Toplam 100 silindir kusurlu bulunuyor.

( ) ( )

( ) x n x

E x nP x

nP x p q

x

Örnek kusurlu oranı 05.02000

100p

Kutulardaki kusurlu sayıları aşağıdaki gibi kayıt edilmiştir. 20’lik kutulardaki kusurlu silindir sayıları

:H0 n=20 binom dağılışı gösteriyor.

:H1 n=20 binom dağılışı göstermiyor.

Kutulardaki Kusurlu Sayısı Gözlenen Kutu Sayısı E(x)= ( )nP x

(x) 0f P(x) ef =100p(x)

0 39 0.3585 35.85

1 34 0.3773 37.73

2 20 0.1887 18.87

3 4

4 1

5 2

6 veya daha fazla 0

TOPLAM 100

( ) x n xn

P x p qx

P(x=0)= 3585.095.005.00

20200

P(x=1)= 3773.095.005.01

20191

P(x=2)= 1887.095.005.02

20182

…..

NxPxfe ).()(

85.35)100(3585.0)0(fe

73.37)100(3773.0)1(fe

87.18)100(1887.0)2(fe

Page 16: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 16 İSTATİSTİK II

Kutu sayısı

Kutudaki kusurlu sayısı 0f ef 0f - ef ee fff /)( 2

0

0 39 35.95 3.15 0.2768 1 34 37.73 -3.73 0.3687 2 20 18.87 1.13 0.0677 3 4 5.96 4 1 1.33 5 2 0.23 7.55 -0.55 6 0 0.03 7 veya daha fazla 0 0.00

Toplam 100 100.00 7533.02 h

sd = 2114g1n e

en 4 (kutudaki kusurlu sayısının sınıf sayısı)

g = 1 kullanılan parametre sayısı (binom parametresi p=0.05)

991.52

2,05.0 ( ) x n xn

P x p qx

0H red edilemez.

Örnek: Bir raptiye 200 kez atılmış ve sivri ucu yukarıya gelenlerin sayıları bir frekans tablosu

olarak aşağıda verilmiştir. a) Raptiyelerin sivri ucu yukarıya gelecek şekilde düşmesi olasılığını hesaplayınız. b) Sivri ucu yukarıya gelecek şekilde düşen raptiye sayısının Binom Dağılımı gösterip

göstermediğini 0.05 önem seviyesinde test ediniz.

Sivri ucu yukarıya gelen raptiye sayısı

Frekans (Oi)

0 5

1 27

2 41

3 67

4 43

5 17

N=200

a) p = (toplam sivri ucu yukarıya gelen raptiye sayısı)/(toplam deneme)

Page 17: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 17 İSTATİSTİK II

567.0

2005

51744336724112705ˆ

p

b) H0 : Sivri ucu yukarıya gelecek şekilde düşen raptiye sayısı n=5 olan Binom dağılımına

uygundur. H1 : Sivri ucu yukarıya gelecek şekilde düşen raptiye sayısı n=5 olan Binom dağılımına

uymamaktadır.

xnx ppx

nxP

1

0152.0433.0567.00

50

50

P 0996.0433.0567.0

1

51

41

P

2609.0433.0567.02

52

32

P 3417.0433.0567.0

3

53

23

P

2237.0433.0567.04

54

14

P 0586.0433.0567.0

5

55

05

P

Ei = N. pi

P(x) Ei

0,0152 3,04

0,0996 19,92

0,2609 52,18

0,3417 68,34

0,2237 44,74

0,0586 11,72

NOT: Herhangi bir beklenen değer ( Ei ) ifadesi 5 ‘ten küçük ise o değer kendisine en yakın

bir gözleme eklenir.

Sivri ucu yukarıya gelen raptiye sayısı Frekans (Oi)

Beklenen Frekans ( Ei )

i

ii

E

EO2

1 ve 1 den az 32 22,96 3,5593

2 41 52,18 2,3954

3 67 68,34 0,0262

4 43 44,74 0,0676

5 17 11,72 2,3787

4272,82 h

3.04 < 5 olduğundan dolayı

alttaki satır ile birleştirilir.

Page 18: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 18 İSTATİSTİK II

2

,

2

vt

v = m-1-a m: grup sayısı a: tahmin edilen paremetre sayısı v = 5-1-1=3

81473.74272,8 2

3,05.0

22 th olduğundan Ho red edilir.

Sonuç yorumu : Sivri ucu yukarıya gelecek şekilde düşün raptiye sayısı n=5 olan binom dağılışına uymamaktadır.

10.3.3 İYİ UYUM TESTİ: NORMAL DAĞILIŞ İÇİN

oH :Populasyon ortalamalı, standart sapmalı normal dağılımdır.

e

2

eo2

hesapf

ff

v, tablo değeri (kritik değer) kullanılır.

v= g1n e

en : Örnek 2 de kullanılan ef değerlerinin sayısı

g : Örnekten tahminlenen populasyon parametre sayısı (normal dağılışta g=2; µ ve σ )

H 0 doğru iken H 0 doğru iken

Örnek Gözlenen frekans olasılık beklenen

1 0 1 p 1 E 1 = n.p 1

2 0 2 p 2 E 2 = n.p 2

. . . . . . . . . . . .

k 0 k p k E k = n.p k

Toplam n 1 n

110 lp:H , 22 lp ,......., kk lp

k

1i i

2

ii2

np

npO

2

h =

2

1

)0(

k

i i

ii

E

E>

2

,1 gn ise H 0 red.

(normal dağılış için g=2)

Page 19: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 19 İSTATİSTİK II

Örnek : Bir kimyasal işletmedeki satışların normal dağılış gösterdiği düşünülüyor. 200 günlük satışlar şansa bağlı olarak alınıyor. Satış Miktarı Gün Sayısı

(1000 litre) 0f

<34 0 34 - <35.5 13 35.5- <37 20 37 - <38.5 35 38.5- <40 43 40 -<41.5 51 41.5-<43 27 43 -<44.5 10 44.5-<46 1

46 - 0

1000(40x litre)

xS = 2.5(1000 litre)

=0.05 seviyesinde satışların normal dağılış gösterdiğini test ediniz.

Satış Sınıfları 0f Olasılığı iP ie P200f 0f - ef

e

2

e0

f

ff

5.3534

34

13

13

0

0277.0

0082.0

54.5

64.17.18 5.82 4.7176

35.5- <37 20 0.0792 15.84 4.16 1.0925 37 - <38.5 35 0.1592 31.84 3.16 0.3136 38.5- <40 43 0.2257 45.14 -2.14 0.1015 40 - <41.5 51 0.2257 45.14 5.86 0.7607 41.5- <43 27 0.1592 31.84 -4.84 0.7357 43 - <45 10 0.0792 15,84 -5.84 2.1531

45 =< 10

1

0082.0

0277.0 18.7

64.1

54.5

18.6 3193.5

∑ 0f = 200 ∑ iP =1 1940.152

RED 1-αα

34 µ=40

4.25.2

4034xZ

P(-2.4<x<0) = P(0<x<2.4) = 0.4918

Page 20: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 20 İSTATİSTİK II

0.5 - P(-2.4<x<0) = 0.0082

ef =0.0082(200)=1.64

0H : dağılış normal

1H :dağılış normal değil

v= 5218g1n e

8n e

g=2 (parametre sayısı) ,

070.112

5,05.0

Bowman- Shelton normallik testi Bu test de oldukça güçlü bir normallik sınamadır. X1,X2,.........Xn gibi n gözlem olsun. Bu

verilerin normal dağılıma ait iki özelliğinin araştırılmasına dayanır.

1. özellik : simetri

Çarpıklık Katsayısı: Ç 0

)(

3

1

3

s

n

xxn

i

i

Dağılı sağa çarpık ise dağılımın 3. Momenti artı değer alır ce Ç>0 olur.

2. özellik : basıklık

Basıklık katsayısı: B 3

)(

4

1

4

s

n

xxn

i

i

Bu özellik olasılık yoğunluk fonksiyonunun kuyruk kalınlığını ölçer. Normal dağılımda

populasyon basıklık katsayısı 3 tür. Dolayısı ile Bowman-Shelton normallik testi, çarpıklık katsayısının 0’a ve basıklık katsayısının

3’e yakınlığı ile test edilir. Bu istatistik aşapıda tablo olarak verilen eşik değerleri ile karşılaştırılır.

24

)3(

6

22 BÇnB

Örnek sayısı arttıkça, populasyon dağılımının normal olduğu varsayımı doğru ise bu istatistik

2 serbestlik dereceli ki-kare dağılımına yaklaşır. Nu istatistiğin büyük değerleri testin reddine yol açar.

Örnek: n =278 Ç =0.04033 B =3.15553

Page 21: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 21 İSTATİSTİK II

BOWMAN-SHELDON istatistiği sınır (eşik) değerleri Örnek hacmi(n) 0.1 sınırı 0.05 sınırı

20 2.13 3.26 30 2.49 3.71 40 2.70 3.99 50 2.90 4.26 75 3.09 4.27 100 3.14 4.29 125 3.31 4.34 150 3.43 4.39 200 3.48 4.43 250 3.54 4.51 300 3.68 4.60 400 3.76 4.74 500 3.91 4.82 800 4.32 5.46 4.61 5.99

10.3.4 İYİ UYUM TESTİ: POISSON DAĞILIŞI İÇİN

P(!x

e)x

x

x : hesaplanan birim zamanda olay sayısı

: her birim zamanda ortalama olay oranı bir bira dolum işletmesinde bir bira şişesi kırılınca dolum sistemi durduruluyor; kırılan cam şişe

sistemden alınıp atılıyor. Üretimdeki bu duruşların (=3) günde ortalama 3 duruş olan poisson

dağılışı gösterdiği düşünülüyor. 120 günlük şans örneği alınıyor. =0.05 seviyesinde hipotezin testi isteniyor.

Bir gündeki duruş sayısı Gözlenen gün sayısı

x 0f

0 3 1 20 2 29 3 22 4 23 5 10 6 veya daha fazla 13 120

36.024

)15553.0(

6

)04033.0(278

22

B

Page 22: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 22 İSTATİSTİK II

:H0 yukarıdaki veriler 3 parametreli poisson dağılışı gösteriyor.

1 :H yukarıdaki veriler 3 parametreli poisson dağılışı göstermez.

x 0f P(!x

e)x

x

120* x eP f 0f - ef

e

2

e0

f

ff

0 3 0.0498 5.976 -2.976 1.482 1 20 0.1494 17.928 2.072 0.239 2 29 0.2240 26.880 2.120 0.167 3 22 0.2240 26.880 -4.880 0.886 4 23 0.1680 20.160 2.840 0.400 5 10 0.1008 12.096 -2.096 0.363 6 veya 13 0.0840 10.080 2.920 0.846 daha fazla

120 1.0000 120.000 2 4.383h

P !x

3ex

x3

P !0

3e0

03

976.5)120(0498.00fe

P !1

3e1

13

928.17)120(1494.01fe

.

P(6 )=1-P(0)-P(1)-...........-P(5)= 1-0.0498-0.1494-.........-0.1008=0.0840

0H günde =3 duruş olan poisson dağılışı gösteriyor

2 2

0.05;6 12.592 4.383h olduğu için 0H red edilemez.

sd = 6017g1nv e , Poisson dağılışında g=1 (λ), ancak nurada g=0 çünkü

parametresi örnekten tahminlenmedi.

Page 23: KATEGORİK VERİLERİN TESTİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/10 kategorik...n n i Zi Ki-kare sadece pozitif değerler için tanımlıdır, tek modlu ve sağa çarpık

Prof. Dr. Levent ŞENYAY X - 23 İSTATİSTİK II

10.3.5 İyi uyum testlerinde kullanılan diğer bazı tetler I.test

H 0 : p 1 + p 3 = p 2 + p 4 veya eşdeğeri olarak H 0 : p 1 -p 2 + p 3 -p 4 = 0

Bu tip hipotezleri genellersek

H 0 : l 1 p 1 +l 2 p 2 +......+l n p n =0 yazılabilir.

Kullanılan test istatistiği ;

2 =

).....(

).......00(2

2

2

21

2

1

2211

nn

nn

plplpln

olll

şeklinde hesaplanır.

ve “ l ” serbestlik dereceli 2

,l ile karşılaştırılarak test edilir.

Örnek: 4 laborantın belli bir süre içinde kırmış oldukları cam malzeme sayıları aşağıdaki gibi gözlenmiştir.

Laborant kırılan cam malzeme beklenen değer iE

1 30 0,25 2 45 0,25 3 28 0,25

4 57 0,25 Toplam 130

II. Test

)05.0(: 31420 PPPPH

H1 : 2. Laborant ile 4. Laborant , 1. ve 3. Laborantlara göre daha az dikkatlidir.

H0 red edilir.

84.389,14

25.0)1(1)1(1130

)57284530(

:

2

1,05.02222

22

31421

PPPPH