temel istatistik

43
Temel İstatistik Temel İstatistik Terimleri ve Terimleri ve Dağılımlar Dağılımlar

Upload: gulretre

Post on 02-Dec-2015

3.837 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: temel istatistik

Temel İstatistik Terimleri Temel İstatistik Terimleri ve Dağılımlarve Dağılımlar

Page 2: temel istatistik

Temel TanımlarTemel Tanımlar Her bilim kolunda olduğu gibi istatistik de Her bilim kolunda olduğu gibi istatistik de

kendine ait terimler üretmiştir. Bunlardan belli kendine ait terimler üretmiştir. Bunlardan belli başlılarını ilerideki konuların anlaşılmasını başlılarını ilerideki konuların anlaşılmasını sağlamak üzere tanımlayalım. sağlamak üzere tanımlayalım.

YığınYığın (Population): N gözlemden oluşan geniş (Population): N gözlemden oluşan geniş veri setiveri setiÖrnek: Yüksek Lisans ÖğrencileriÖrnek: Yüksek Lisans ÖğrencileriÖrneklemÖrneklem: Topluktan alınan n tane gözlemden : Topluktan alınan n tane gözlemden oluşmuş grupoluşmuş grup

Örnek: GYTE’deki Yüksek Lisans ÖğrencileriÖrnek: GYTE’deki Yüksek Lisans Öğrencileri Rasgele değişkenRasgele değişken: deneydeki bir sonraki : deneydeki bir sonraki

gözlemin değeri. gözlemin değeri.

Page 3: temel istatistik

Temel tanımlarTemel tanımlar

Yığını tanımlayan bir nicelikle örneklemi Yığını tanımlayan bir nicelikle örneklemi tanımlayan bir nicelik birbirinden farklıdır. tanımlayan bir nicelik birbirinden farklıdır.

İstatistik: Yığını temsil ettiği düşünülen verileri İstatistik: Yığını temsil ettiği düşünülen verileri kullanarak hesaplanmış niceliklerkullanarak hesaplanmış nicelikler

Parametre: Yığınla özdeşleştirilen idealize Parametre: Yığınla özdeşleştirilen idealize edilmiş nicelik. Parametreler direkt olarak edilmiş nicelik. Parametreler direkt olarak ölçülemezler ve bu nedenle istatistikle tahmin ölçülemezler ve bu nedenle istatistikle tahmin edilirler. Parametreler Yunan harfleriyle edilirler. Parametreler Yunan harfleriyle istatistikler ise Roma harfleriyle gösterilir. istatistikler ise Roma harfleriyle gösterilir.

Page 4: temel istatistik

Yığın ve ÖrneklemYığın ve Örneklem

ÖrneklemYığın

N: gözlem sayısıOrtalama: Varyans: 2

Standard Sapma:

n: gözlem sayısıOrtalama: yVaryans: s2

Standard Sapma: s

Page 5: temel istatistik

Yığın ve ÖrneklemYığın ve Örneklem

N

y

N

y

i

i

2

22

)(

)(

n

yy i

N

yi

ÖrneklemYığın

yi: gözlem

1

)(

1

)(

2

22

n

yys

n

yys

i

i

Varyans: belli bir gözlemin yığın ortalamasından ne kadar farklı olduğunun ölçüsüdür.

Deneyi yapan, yığın parametrelerini örneklem istatistiği ile elde edebilir.

Standard sapma

Ortalama

Page 6: temel istatistik

Yığın ve ÖrneklemYığın ve Örneklem

1

)(

1

)(

2

22

n

yys

n

yys

i

i Bağımsızlık derecesi: = n-1 varyansı hesaplarken ortalamanın kullanılmasıyla bağımsızlık derecesi v = n-1 olur.

Bağımsızlık derecesi: bir parametrenin hesaplanmasında kullanılan her bir bağımsız bilgi girdisi

Standard sapma

varyans

Bağımsız bilgi girdisinin azalmasıyla, hesaplanan s toplam gözlem sayısının bir eksiğine bölündüğü için örneklemdeki sapma daha büyük olacaktır.

Page 7: temel istatistik

Ortalama ve Standard SapmaOrtalama ve Standard Sapma

Verilen değerlerin ortalaması en az bir Verilen değerlerin ortalaması en az bir daha fazla anlamlı basamakla daha fazla anlamlı basamakla gösterilmelidir. Standard sapma ise en az gösterilmelidir. Standard sapma ise en az üç anlamlı basamağa kadar üç anlamlı basamağa kadar hesaplanmalıdır. hesaplanmalıdır.

Örnek: NO3 ölçümleri = 6.9, 7.8, 7.9,7.1Örnek: NO3 ölçümleri = 6.9, 7.8, 7.9,7.1 Ortalama = 7.42 mg/lOrtalama = 7.42 mg/l s = 0.499s = 0.499

Page 8: temel istatistik

Hassasiyet, Yanlılık ve Doğruluk Hassasiyet, Yanlılık ve Doğruluk

Verideki saçılmanın derecesi

Sistematik Hatalar

Yanlılık ve hassaslığın bir fonksiyonu

7.5 8.00 8.5 9

Gerçek Değer

YY HH DD

AA BüyükBüyük İyiİyi AzAz

BB KüçükKüçük KötüKötü AzAz

CC BüyükBüyük KötüKötü AzAz

DD YokYok İyiİyi ÇokÇok

A

B

C

D

Yanlış ölçümler kötü hassasiyet ya da yanlılığa, veya bunların her ikisine de sahip olan ölçümlerdir.

Page 9: temel istatistik

Yanlılık Yanlılık

Yanlılık = y-Yanlılık = y- Yığın ortalamasının ( Yığın ortalamasının () 8 ) 8 mg/l olduğunu biliyorsak, yanlılık ölçüm mg/l olduğunu biliyorsak, yanlılık ölçüm sonuçlarının ortalaması (y) ile 8 mg/l sonuçlarının ortalaması (y) ile 8 mg/l arasındaki farktır. Yanlılık sistematik arasındaki farktır. Yanlılık sistematik hataya işaret eder. Eğer kaynağı tespit hataya işaret eder. Eğer kaynağı tespit edilirse ortadan kaldırılabilir. edilirse ortadan kaldırılabilir. Soru: Daha fazla sayıda ölçüm yapmak Soru: Daha fazla sayıda ölçüm yapmak yanlılığı ortadan kaldırır mı?yanlılığı ortadan kaldırır mı?

Page 10: temel istatistik

Hassasiyet Hassasiyet Hassasiyet: Tekrar edilen ölçümler Hassasiyet: Tekrar edilen ölçümler

arasındaki farklara göre belirlenir. arasındaki farklara göre belirlenir. Ölçümler arası farklardan kaynaklanan bu Ölçümler arası farklardan kaynaklanan bu saçılmalar deneydeki rasgele (deneysel) saçılmalar deneydeki rasgele (deneysel) hatalar ile ilgilidir. Eğer hassas bir ölçüm hatalar ile ilgilidir. Eğer hassas bir ölçüm söz konusuysa bu hatalar küçüktür. Hata söz konusuysa bu hatalar küçüktür. Hata büyüklüğü daha fazla sayıda ölçüm yapıp büyüklüğü daha fazla sayıda ölçüm yapıp ortalaması alınarak sağlanabilir. ortalaması alınarak sağlanabilir.

Soru: Deneysel hatalar tamamen ortadan Soru: Deneysel hatalar tamamen ortadan kaldırılabilir mi? kaldırılabilir mi?

Page 11: temel istatistik

Deneysel Hatalar (gürültü)Deneysel Hatalar (gürültü)

Gerçek değer Gerçek değer ve ölçülen değer y ve ölçülen değer y ii ise ise YYii = = + e + eii eeii: hata payı, gözlemlerdeki dalgalanma ya da : hata payı, gözlemlerdeki dalgalanma ya da

bir deneyden diğerine değişen fark. Bir yanlışlık, bir deneyden diğerine değişen fark. Bir yanlışlık, yanlılık, bir gaf değil, istatistiksel ölçmenin yanlılık, bir gaf değil, istatistiksel ölçmenin kaçınılamaz bir sonucudur. kaçınılamaz bir sonucudur. Aletin durumuAletin durumu Kullananın becerisiKullananın becerisi Numune alma sırasındaki hatalarNumune alma sırasındaki hatalar Ortam şartlarındaki farklılıklar Ortam şartlarındaki farklılıklar

Deneysel hatanın

kaynakları

Page 12: temel istatistik

Birçok istatistiksel işlemin dayandığı üç önemli Birçok istatistiksel işlemin dayandığı üç önemli özelliközellik NormallikNormallik RastsallıkRastsallık BağımsızlıkBağımsızlık

Normallik: ölçümdeki hatalar normal olasılık Normallik: ölçümdeki hatalar normal olasılık dağılımından gelir. Bu da hatanın bir çok nedeni dağılımından gelir. Bu da hatanın bir çok nedeni olduğu ama hiçbirinin diğerine baskın olmadığı olduğu ama hiçbirinin diğerine baskın olmadığı varsayımına dayanır. Her zaman olmamakla varsayımına dayanır. Her zaman olmamakla birlikte çoğunlukla bu varsayım geçerlidir. birlikte çoğunlukla bu varsayım geçerlidir.

Normallik,Rastsallık ve BağımsızlıkNormallik,Rastsallık ve Bağımsızlık

Page 13: temel istatistik

RastsallıkRastsallık

Rastsal, bir yığına ait gözlemlerden Rastsal, bir yığına ait gözlemlerden rasgele birinin çekilmesi durumunda, rasgele birinin çekilmesi durumunda, yığındaki her bir elementin eşit çekilme yığındaki her bir elementin eşit çekilme şansı olması demektir. şansı olması demektir.

Rastsallık terimi aksi söylenmediği Rastsallık terimi aksi söylenmediği takdirde, genellikle yanlılık veya bir takdirde, genellikle yanlılık veya bir korelasyonun olmadığı anlamına gelir. korelasyonun olmadığı anlamına gelir.

Page 14: temel istatistik

ÖrnekÖrnekBir laboratuarın nitrat ölçüm işlemleri 8.0 mg/L lik olduğu bilinen 27 numuneyi laboratuara gönderip ölçtürerek değerlendiriliyor. Sürekli ve çok sayıda ölçümün yapıldığı laboratuarda teknik elemanlar bunun bir değerlendirme olduğunu bilmiyorlar. 27 numunede bulunan NO3 değerleri yandaki tabloda sıralanmıştır.

Yığın: 8.0 mg/L lik konsantrasyona sahip olduğu bilinen tüm örnekler

Örneklem: Yığından alınan 27 tane numune ölçümü

Örneklem Büyüklüğü: n = 27

Bu laboratuarda nitrat ölçümlerindeki hata rastsal mıdır?

Ölçüm No NO3 Kons

1 6.9

2 7.8

3 8.9

4 5.2

5 7.7

6 9.6

7 8.7

8 6.7

9 4.8

10 8

11 10.1

12 8.5

13 6.5

14 9.2

15 7.4

16 6.3

17 5.6

18 7.3

19 8.3

20 7.2

21 7.5

22 6.1

23 9.4

24 5.4

25 7.6

26 8.1

27 7.9

Page 15: temel istatistik

Örnek,DevamÖrnek,DevamNO3 Kons

-3-2-101234

0 10 20 30

Ölçüm No

Far

k (m

g/l

)

Şekilde görüldüğü gibi nitrat ölçümlerindeki hatalar için rastsal diyebiliriz.

Ölçüm No NO3 Kons Fark

1 6.9 1.1

2 7.8 0.2

3 8.9 -0.9

4 5.2 2.8

5 7.7 0.3

6 9.6 -1.6

7 8.7 -0.7

8 6.7 1.3

9 4.8 3.2

10 8 0

11 10.1 -2.1

12 8.5 -0.5

13 6.5 1.5

14 9.2 -1.2

15 7.4 0.6

16 6.3 1.7

17 5.6 2.4

18 7.3 0.7

19 8.3 -0.3

20 7.2 0.8

21 7.5 0.5

22 6.1 1.9

23 9.4 -1.4

24 5.4 2.6

25 7.6 0.4

26 8.1 -0.1

27 7.9 0.1

Page 16: temel istatistik

ÖrnekÖrnek

Ancak rastsallığın Ancak rastsallığın kontrolünde deneye etki kontrolünde deneye etki eden tüm faktörler göz eden tüm faktörler göz önüne alınmalıdır. önüne alınmalıdır. Örneğin nitrat Örneğin nitrat örneklerinde deneyi örneklerinde deneyi yapan kişilere göre veri yapan kişilere göre veri çizildiğinde şekildeki gibi çizildiğinde şekildeki gibi bir durum çıktığında bir durum çıktığında verilerin rastsallığından verilerin rastsallığından söz edemeyiz. söz edemeyiz.

Far

k

2

0

-2

Teknisyen A

Teknisyen B

Page 17: temel istatistik

BağımsızlıkBağımsızlık

Bir dizi gözlemden bilinmeyen Bir dizi gözlemden bilinmeyen nedenlerden deneysel hataların bir süre nedenlerden deneysel hataların bir süre etkin olarak kaldığını varsayalım. Öyle ki etkin olarak kaldığını varsayalım. Öyle ki birinci gözlem ybirinci gözlem y11 yüksekse ikinci gözlem y yüksekse ikinci gözlem y22 de yüksek oluyor. Bu durumda yde yüksek oluyor. Bu durumda y11 ve y ve y22 istatistiksel olarak bağımsız değildir. Bir istatistiksel olarak bağımsız değildir. Bir veri setinin bağımsız olmaması veri setinin bağımsız olmaması hesaplanan varyans değerini ciddi şekilde hesaplanan varyans değerini ciddi şekilde bozar ve normal ya da t dağılımına bağlı bozar ve normal ya da t dağılımına bağlı olarak yapılan çıkarımlar hatalı olabilir. olarak yapılan çıkarımlar hatalı olabilir.

Page 18: temel istatistik

Bağımsızlık, ÖrnekBağımsızlık, Örnek

Verilen nitrat verilerinin bağımsız olup olmadığı Verilen nitrat verilerinin bağımsız olup olmadığı hakkında ne diyebilirsiniz?hakkında ne diyebilirsiniz?

0

2

4

6

8

10

12

0 2 4 6 8 10 12

nitrat kons (i)

nit

rat

kon

s(i-

1)

Bu örnekte ölçümler birbirinden bağımsız

görünüyor.

Page 19: temel istatistik

BağımsızlıkBağımsızlık

Çevresel veriler söz konusu olduğunda, arıtma tesisi giriş Çevresel veriler söz konusu olduğunda, arıtma tesisi giriş çıkış konsantrasyonları , ırmaktaki su kalitesi değerleri, çıkış konsantrasyonları , ırmaktaki su kalitesi değerleri, bunların bir önceki ölçüm değerinden etkilenmemesi bunların bir önceki ölçüm değerinden etkilenmemesi mümkün değildir. Çıkış kalitesi çok kötü ise bu bir süre mümkün değildir. Çıkış kalitesi çok kötü ise bu bir süre devam edecektir. O nedenle bu tip verileri devam edecektir. O nedenle bu tip verileri değerlendirirken otomatik olarak bağımsızdır varsayımını değerlendirirken otomatik olarak bağımsızdır varsayımını yapamayız. Veri setinde bağımsızlıktan söz edilemiyorsa, yapamayız. Veri setinde bağımsızlıktan söz edilemiyorsa, bu durumda özel yöntemler kullanılmalıdır. bu durumda özel yöntemler kullanılmalıdır.

Page 20: temel istatistik

Normal DağılımNormal DağılımDeneysel hatalar yüzünden tekrar edilen ölçümler arasındaki fark genellikle merkezi bir değerin çevresinde çan eğrisi şeklinde simetrik ve küçük sapmaların büyük sapmalardan daha çok olduğu bir şekilde dağılır. Bu şekilde sürekli yığın frekans dağılımına Gaussian ya da normal dağılım denir.

N(ortalama,varyans)

N(,2):

N(52,144)

Page 21: temel istatistik

Standartlaştırılmış Normal DağılımStandartlaştırılmış Normal Dağılım

1. ortalama değerden büküm noktasına olan uzaklık

2. Ortalama değerden bir standartlık sapmayı geçen pozitif bir sapmanın olasılığı 0.1587 (0.00135+0.0214+0.1359) ya da 1/6, 2 ’yı geçme olasılığı 0.0228 (0.0135+0.0214) (1/40), 3 ’yı geçme

olasılığı 0.0013 (1/750)

Standartlaştırılmış normal sapmalarla çalışmak daha

kolaylık sağlar. (veri Standard sapma cinsinde yazılarak

orijinal ölçüm birimlerinden bağımsız hale gelir.)

z = (y-)/1

Page 22: temel istatistik

ÖrnekÖrnekStandartlaştırılmış sapmanın 1.57’den büyük olma olasılığı kaçtır? (z değerleri tablosunu

kullanın)

z = 1.57

= 0.0582 = % 5.82

(Excel’de, = 1-Normsdağ(z))Verinin %10’nun üzerinde olacağı z değeri kaçtır?

Eğrinin altındaki yeşille gösterilmiş alana karşılık gelen z değerine bakılır. z = 1.28 (Excel’de, = normsters(1-olasılık) = normsters(0.90)

Page 23: temel istatistik

t dağılımı (Student’s t)t dağılımı (Student’s t)

Herhangi bir normal Herhangi bir normal değişkeni standartlaştırmak değişkeni standartlaştırmak için için ve ve ’yı bilmemiz ’yı bilmemiz gerekir. gerekir.

z = (y-z = (y-)/)/ = s= s

t = (y-n)/st = (y-n)/s

Ancak yığına ait s genellikle bilinmediğinden Ancak yığına ait s genellikle bilinmediğinden yerine s kullanılması artıdan bir hata devreye yerine s kullanılması artıdan bir hata devreye sokacak ve dağılım da buna göre farklı olacaktır. sokacak ve dağılım da buna göre farklı olacaktır. İşte bu farklı dağılım 1906’da William S. Gossett İşte bu farklı dağılım 1906’da William S. Gossett tarafından bulundu ve 1908’de yayımlandı. İngiliz tarafından bulundu ve 1908’de yayımlandı. İngiliz kimyacı Dublin’de bir bira fabrikasında kimyacı Dublin’de bir bira fabrikasında çalışıyordu. Ticari sırları ortaya çıkarmamak için çalışıyordu. Ticari sırları ortaya çıkarmamak için takma isim “Student” ile yayımlandı. O nedenle takma isim “Student” ile yayımlandı. O nedenle Student’s T test olarak biliniyor. Student’s T test olarak biliniyor.

Page 24: temel istatistik

t dağılımıt dağılımı

Eğer örneklem büyüklüğü sonsuz ise (N Eğer örneklem büyüklüğü sonsuz ise (N ) t dağılımı normal dağılıma eşittir. ) t dağılımı normal dağılıma eşittir.

Eğer örneklem büyüklüğü küçük ise Eğer örneklem büyüklüğü küçük ise kuyruklar daha yayılmış hale gelir ve t kuyruklar daha yayılmış hale gelir ve t değerleri kullanılır. değerleri kullanılır.

t tablosunu kullanırken serbestlik t tablosunu kullanırken serbestlik derecesi(sd) gerekir. Sd (Tabloda df, derecesi(sd) gerekir. Sd (Tabloda df, degree of freedom = N-1)degree of freedom = N-1)

Page 25: temel istatistik

df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005

1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192

2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991

3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240

4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103

5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688

6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588

7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079

8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413

9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809

10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869

11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370

12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178

13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208

14 0.258213 0.692417 1.345030 1.761310 2.14479 2.62449 2.97684 4.1405

15 0.257885 0.691197 1.340606 1.753050 2.13145 2.60248 2.94671 4.0728

16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.0150

17 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651

18 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216

19 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834

20 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495

21 0.256580 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193

22 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921

23 0.256297 0.685306 1.319460 1.713872 2.06866 2.49987 2.80734 3.7676

24 0.256173 0.684850 1.317836 1.710882 2.06390 2.49216 2.79694 3.7454

25 0.256060 0.684430 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251

inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905

Page 26: temel istatistik

ÖrnekÖrnek 20 birimli bir örneklem için verinin %5’nin 20 birimli bir örneklem için verinin %5’nin

büyük olacağı t değeri kaçtır? Normal büyük olacağı t değeri kaçtır? Normal dağılımda karşılık gelen z değeri kaçtır? dağılımda karşılık gelen z değeri kaçtır?

t = 1.724 (Tablodan). t = 1.724 (Tablodan). Excel’de =tters (2*olasılık;Serbestlik Excel’de =tters (2*olasılık;Serbestlik

derecesi) = tters(0.1;19)derecesi) = tters(0.1;19) z = tablodan = 1.64z = tablodan = 1.64 Excel’de =normsters (1-olasılık) = Excel’de =normsters (1-olasılık) =

normsters(0.95)normsters(0.95)

Page 27: temel istatistik

Ortalama ve Varyansın DağılımıOrtalama ve Varyansın Dağılımı

Tüm istatistikler rastsal değişkenlerdir ve ortalama ve bir Tüm istatistikler rastsal değişkenlerdir ve ortalama ve bir varyansı olan bir olasılık dağılımı ile tanımlanabilirler. varyansı olan bir olasılık dağılımı ile tanımlanabilirler.

Ortalamanın örnekleme dağılımını incelemek için n Ortalamanın örnekleme dağılımını incelemek için n birimli rastsal örneklemleri aldığımızı varsayalım ve her birimli rastsal örneklemleri aldığımızı varsayalım ve her birinin ortalamasını hesaplayalım. Bir çok farklı ortalama birinin ortalamasını hesaplayalım. Bir çok farklı ortalama y değeri elde ederiz ve olasılık dağılımı şeklinde y y değeri elde ederiz ve olasılık dağılımı şeklinde y dağılımını çizebiliriz. Bu ortalamanın örneklem dağılımını dağılımını çizebiliriz. Bu ortalamanın örneklem dağılımını verir. Eğer gözlemlerin (y) ortalama civarındaki verir. Eğer gözlemlerin (y) ortalama civarındaki sapmaları rastsal ve bağımsızsa o zaman ysapmaları rastsal ve bağımsızsa o zaman y¯̄’nin ’nin dağılımını ortalaması dağılımını ortalaması ve varyans ve varyans 22/n olacaktır.(/n olacaktır.(22/n /n ortalamanın varyansı. )ortalamanın varyansı. )

Page 28: temel istatistik

Ortalamanın VaryansıOrtalamanın Varyansı

Yığın N

n

y¯1

n

y¯2

n

y¯3

n

y¯4

Ortalamanın varyansı: 2/n

Ortalamanın standart hatası: /√n ≈ s/√n

y örneklem ortalamasının (y¯) yığın ortalaması () civarındaki yayılımını verir. ise örneklemdeki gözlemlerin (y) civarındaki yayılımını verir.

Eğer ana dağılım normalse y¯’nin dağılımı da normal olacak, normal değilse y¯ dağılımı daha normal gibi olacaktır. Ortalamanın hesaplanmasında kullanılan birim sayısı (n) arttıkça y¯nin dağılımı normal dağılıma daha çok yaklaşır. Ortalaması ve varyansı 2/n olan dağılımı referans dağılım gibi alıp y¯ hakkında istatistiksel çıkarımlar yapmamızı sağlar. Örneğin y¯’nin belli bir sayıdan büyük ya da küçük olma ya da iki sayı arasında olma olasılığının değerlendirilmesinde.

Page 29: temel istatistik

ÖrnekÖrnek

27 adet nitrat numune ölçümünün 27 adet nitrat numune ölçümünün ortalaması 7.51 mg/l. s = 1.383. ortalaması 7.51 mg/l. s = 1.383.

Ortalamanın standart hatası kaçtır?Ortalamanın standart hatası kaçtır?

ssyy = s/ = s/ √n=0.266 mg/l√n=0.266 mg/l

Örneklemin ortalamasının değişkenliği, örneklemdeki gözlemlerin değişkenliğinden

daha azdır.

Page 30: temel istatistik

KarşılaştırmalarKarşılaştırmalar Eğer yığın varyansı bilinmiyorsa, ki çoğunlukla Eğer yığın varyansı bilinmiyorsa, ki çoğunlukla

böyledir, normal dağılımı karşılaştıracağımız böyledir, normal dağılımı karşılaştıracağımız referans dağılım olarak kullanamayız. Bunun referans dağılım olarak kullanamayız. Bunun yerine yerine yy yerine s yerine syy’yi yerleştirip t dağılımını ’yi yerleştirip t dağılımını

kullanırız. kullanırız. Örnek: Nitrat verisi (n=27) için yÖrnek: Nitrat verisi (n=27) için y¯̄= 7.51 mg/l= 7.51 mg/l

= 8 mg/l. Eğer gerçek ortalama 8 mg/l ise 7.51 = 8 mg/l. Eğer gerçek ortalama 8 mg/l ise 7.51 gibi düşük bir ölçüm ortalaması çıkma olasılığı gibi düşük bir ölçüm ortalaması çıkma olasılığı nedir?nedir?

Page 31: temel istatistik

Örnek, devamÖrnek, devam

ns

yt

/

26127

842.127/383.1

851.7

t

Serbestlik derecesi 26, t değeri -1.842 için değeri (yüzde) bulunabilir.

= 0.05 t = -1.706= 0.025 t = -2.056= 0.01 t = -2.479Bu değerlerin ara-değerlemesi (interpolasyon) ile t = -1.842’e karşılık gelen değeri 0.04 veya %4 bulunur. (Excel’de = TDAĞ(1.842;26;1) Yani 8 mg/l lik bir çözeltiden yollanan 27 ölçümün ortalamasının şans eseri 7.51 çıkma olasılığı %4 gibi küçük bir olasılıktır.

t dağılımı = 8

-3 -2 -1 0 1 2 3

-1.842 =%4

Page 32: temel istatistik

ÖrnekÖrnek

t referans dağılımı bir t referans dağılımı bir olayın sırf şans eseri olma olayın sırf şans eseri olma olasılığını verir. Dağılımın olasılığını verir. Dağılımın kuyruk bölgesine düşen kuyruk bölgesine düşen bir olay sıradışı olarak bir olay sıradışı olarak

düşünülebilirdüşünülebilir. . Eğer olay Eğer olay sıradışı bulunmuyorsa sıradışı bulunmuyorsa buna “istatistiksel olarak buna “istatistiksel olarak

anlamlı” denir.anlamlı” denir.

t dağılımı = 8

-3 -2 -1 0 1 2 3

-1.842 =%4

Nitrat ölçümlerin göz önüne alırsak ölçüm işleminin gerçek değeri altında değerler verecek şekilde sistemli bir hataya, yanlılığa sahip olduğu söylenebilir. Ya da yanlılık değil de tamamen şans eseri öyle olduğunu kabul edebiliriz.

Page 33: temel istatistik

Anlamlılık Testleri ve Güvenlik Anlamlılık Testleri ve Güvenlik AralığıAralığı

İstatistiksel tümevarım: Bilinmeyen yığın İstatistiksel tümevarım: Bilinmeyen yığın parametreleri hakkında deneysel veriye parametreleri hakkında deneysel veriye dayanarak değerlendirme yapmakdayanarak değerlendirme yapmak

Diyelim ki gerçek yığın ortalamasının değerini Diyelim ki gerçek yığın ortalamasının değerini bilmiyoruz. Eğer nitrat numunesi ölçümlerinin bilmiyoruz. Eğer nitrat numunesi ölçümlerinin ortalamasını 7.51 bulduysak, yığının gerçek ortalamasını 7.51 bulduysak, yığının gerçek ortalamasının 8.00 mg/l olma olasılığı nedir? Bu ortalamasının 8.00 mg/l olma olasılığı nedir? Bu değerlendirme için anlamlılık testleri ve güvenlik değerlendirme için anlamlılık testleri ve güvenlik aralığı kullanılan en yaygın iki metottur. aralığı kullanılan en yaygın iki metottur.

Page 34: temel istatistik

Anlamlılık TestleriAnlamlılık Testleri

1. Hipotez testi şeklinde olur: 1. Hipotez testi şeklinde olur: Hipotez testi için bir “sıfır hipotezi”, bir “alternatif Hipotez testi için bir “sıfır hipotezi”, bir “alternatif

hipotez” ve bir de testin sonucunun belirleneceği hipotez” ve bir de testin sonucunun belirleneceği anlamlılık düzeyi değeri (anlamlılık düzeyi değeri () ‘ya ihtiyaç vardır. ) ‘ya ihtiyaç vardır.

Test edilecek hipotez: HTest edilecek hipotez: Hoo : : = 8 mg/l = 8 mg/lHHoo “sıfır hipotezi” veya “geçersizlik” hipotezi diye “sıfır hipotezi” veya “geçersizlik” hipotezi diye

adlandırılır. adlandırılır. HHa a :m<8 veya m>8 (tek yönlü) veya:m<8 veya m>8 (tek yönlü) veyaHHaa: m: m≠8 (çift yönlü)≠8 (çift yönlü)H: “H: “alternatif hipotez” alternatif hipotez” Anlamlılık düzeyi: 0.05 (sıfır hipotezinin yanlışlıkla Anlamlılık düzeyi: 0.05 (sıfır hipotezinin yanlışlıkla

reddedilme riski)reddedilme riski)

Page 35: temel istatistik

1. Hipotez Testleri, Örnek1. Hipotez Testleri, Örnek Nitrat ölçüm sonuçları için ortalamanın 8.0 mg/l Nitrat ölçüm sonuçları için ortalamanın 8.0 mg/l

olduğunu olduğunu =0.05 düzeyinde test edin. =0.05 düzeyinde test edin. Çözüm:Çözüm:

HHoo===8 mg/l=8 mg/l HHaa==8 mg/l (8 mg/l (tek yönlü test)tek yönlü test) =0.05=0.05

Hesaplanan t, Hesaplanan t, =0.05 yani %5 olma olasılığı olan t =0.05 yani %5 olma olasılığı olan t istatistiğinden küçükse, Sıfır hipotezi reddedilecektir. istatistiğinden küçükse, Sıfır hipotezi reddedilecektir. Serbestlik derecesi 26 için bu kritik t değeri tablodan Serbestlik derecesi 26 için bu kritik t değeri tablodan bulunur. bulunur.

ttkk=t(26,0.05)=-1.706=t(26,0.05)=-1.706 t<tt<tk . k .

842.127/383.1

851.7

t

Page 36: temel istatistik

Hipotez Testleri, ÖrnekHipotez Testleri, Örnek

t<tt<tk . k . -1.842<-1.706. -1.842<-1.706.

Bu durumda alternatif hipotez lehine sıfır hipotezi Bu durumda alternatif hipotez lehine sıfır hipotezi reddedilir. Yani ortalamasının 7.51 bulunduğu nitrat reddedilir. Yani ortalamasının 7.51 bulunduğu nitrat ölçümlerinin ait olduğu yığının ortalamasının %5 riskle, 8 ölçümlerinin ait olduğu yığının ortalamasının %5 riskle, 8 olmadığını söyleyebiliriz. olmadığını söyleyebiliriz.

t dağılımı = 8

-3 -2 -1 0 1 2 3

tk-1.706 =%5

Hesaplanan t=-1.842

Page 37: temel istatistik

Çift Yönlü TestÇift Yönlü Test HHoo : : = 8 mg/l= 8 mg/l

HHaa : : ≠ 8 mg/l (≠ 8 mg/l (çift yönlü test)çift yönlü test)

=0.05. =0.05.

Bu durumda t referans dağılımının hem negatif hem de Bu durumda t referans dağılımının hem negatif hem de pozitif kuyruk alanları dikkate alınır. Simetriden dolayı bu pozitif kuyruk alanları dikkate alınır. Simetriden dolayı bu kuyruk alanları birbirine eşittir. kuyruk alanları birbirine eşittir.

0.05/2 = 0.025. 0.05/2 = 0.025.

Serbestlik derecesi 26 için kritik t değeri tablodan bulunur. Serbestlik derecesi 26 için kritik t değeri tablodan bulunur. ttkk=t(26,0.025)==t(26,0.025)=±±2.056 (excel’de =tters(0.05;26))2.056 (excel’de =tters(0.05;26))

t = t = ±±1.8421.842 t>tt>tk k (-1.842>-2.056)(-1.842>-2.056). .

Sıfır hipotezini reddetmek için yeterli kanıt yok. Sıfır hipotezini reddetmek için yeterli kanıt yok.

Page 38: temel istatistik

Tek Yönlü Çift Yönlü Tek Yönlü Çift Yönlü

t dağılımı = 8

-3 -2 -1 0 1 2 3

tk-1.706 =%5

t dağılımı = 8

-3 -2 -1 0 1 2 3

tk-2.056 =%2.5 =%2.5

Tek ve çift yönlü hipotez testleri sonuçları farklı çıkarımlar doğurdu, aynı ortalama, aynı veri, aynı anlamlılık düzeyi ve aynı sıfır hipotezi kullanılmasına rağmen. Tek fark alternatif hipotezdi, Ha. İstatistiksel olarak sıfır hipotezini reddetmek için için y- ile arasındaki sapma çift yönlü testte tek yönlü teste göre daha fazla olmalıdır.

SORU: HANGİ TESTİ KULLANMALIYIZ?

Page 39: temel istatistik

Hangi Test?Hangi Test?

Genel olarak bir yanıtı yok. Problemin içeriği hangi testin Genel olarak bir yanıtı yok. Problemin içeriği hangi testin kullanılması gerektiğini belirler. Örneğin eğer pozitif kullanılması gerektiğini belirler. Örneğin eğer pozitif sapma bir sorun ama negatif sapma sorun değilse tek sapma bir sorun ama negatif sapma sorun değilse tek yönlü test kullanılır. yönlü test kullanılır.

Örneğin yüksek değerler kanuna uygunluğu ihlal etmek Örneğin yüksek değerler kanuna uygunluğu ihlal etmek demek olduğu bir durumda uygunluğunu değerlendirmek demek olduğu bir durumda uygunluğunu değerlendirmek ya da verimliliği artırılması bir bir A maddesi ya da verimliliği artırılması bir bir A maddesi eklediğinizdeki durumu değerlendirmek için tek yönlü eklediğinizdeki durumu değerlendirmek için tek yönlü test diğer taraftan örneğin A maddesinin verimliliği test diğer taraftan örneğin A maddesinin verimliliği değiştirip değiştirmediğine bakmak isterseniz çift yönlü değiştirip değiştirmediğine bakmak isterseniz çift yönlü testi kullanabilirsiniz. testi kullanabilirsiniz.

Page 40: temel istatistik

2. Güvenlik Aralığı2. Güvenlik Aralığı

Genellikle parametre değerinin hangi değerler Genellikle parametre değerinin hangi değerler arasında kalacağını belirtmek daha arasında kalacağını belirtmek daha bilgilendiricidir. bilgilendiricidir.

= 0.05 ise, yukarıdaki ifade bize gerçek = 0.05 ise, yukarıdaki ifade bize gerçek değerin %95 ihtimalle güvenilirlik aralığı değerin %95 ihtimalle güvenilirlik aralığı içinde olduğunu gösterir. içinde olduğunu gösterir.

yy stysty 2/2/

Page 41: temel istatistik

ÖrnekÖrnek Nitrat ölçümleri için %95’lik güvenlik aralığını Nitrat ölçümleri için %95’lik güvenlik aralığını

hesaplayın.hesaplayın.

266.0

51.7

ys

y

=8 mg/l=8 mg/l=0.05=0.05n=27n=27v=26v=26t(26,0.025)=-2.056 t(26,0.025)=-2.056

yy stysty 2/2/

6.96 < < 8.05

8 mg/l bu aralığın içinde.

t dağılımı

7.0 7.25 7.5 7.75 8.0

tk-2.056 =%2.5 =%2.5

Page 42: temel istatistik

ÖzetÖzet Yığın: Yığın: ,,,,22

Örneklem, yÖrneklem, y¯̄,s,s Yığının parametreleri örneklemden elde edilen Yığının parametreleri örneklemden elde edilen

istatistikler yardımıyla hesaplanır. İstatistikler istatistikler yardımıyla hesaplanır. İstatistikler rastsal değişkenlerdir ve ortalaması ve varyansı rastsal değişkenlerdir ve ortalaması ve varyansı olan bir olasılık dağılımına sahiptirler. olan bir olasılık dağılımına sahiptirler.

Tüm deneyler ölçüm hatasına sahiptirler. Tüm deneyler ölçüm hatasına sahiptirler. Doğruluk hem yanlılığın hem de hassaslığın bir Doğruluk hem yanlılığın hem de hassaslığın bir fonksiyonudur. Bilimsel araştırmalarda fonksiyonudur. Bilimsel araştırmalarda istatistiğin görevi hatayı nicelendirmek ve karar istatistiğin görevi hatayı nicelendirmek ve karar vermek üzere veri kullanıldığında hatayı göz vermek üzere veri kullanıldığında hatayı göz önüne almaktır. önüne almaktır.

Page 43: temel istatistik

ÖzetÖzet

Eğer normal ana dağılımın ortalaması m, Eğer normal ana dağılımın ortalaması m, varyansı varyansı 22 ise örneklem ortalaması y ise örneklem ortalaması y¯̄, , ortalaması ortalaması ve varyansı ve varyansı 22 /n olan normal bir /n olan normal bir dağılıma sahiptir. dağılıma sahiptir. 22 bilinmiyorsa s bilinmiyorsa s22 ile tahmin ile tahmin edilir ve t dağılımı kullanılır. edilir ve t dağılımı kullanılır.

Hipotez testleri istatistiksel tümevarım için Hipotez testleri istatistiksel tümevarım için kullanılan bir yöntem olmakla birlikte basit bir kullanılan bir yöntem olmakla birlikte basit bir karşılaştırmayı bile gereksiz yere karşılaştırmayı bile gereksiz yere karmaşıklaştırırlar. Güvenilirlik aralığı istatistiksel karmaşıklaştırırlar. Güvenilirlik aralığı istatistiksel olarak hipotez testlerinin karşılığı olup daha olarak hipotez testlerinin karşılığı olup daha basit ve anlaşılırdır. Yığın parametresinin basit ve anlaşılırdır. Yığın parametresinin düşmesi gereken aralığı verir. düşmesi gereken aralığı verir.