olasılık ve normal dağılım - gavsispanel.gelisim.edu.tr · olasılık dağılımları, frekans...

Olasılık ve Normal Dağılım

P = 1

Kesin

P = .5

Yarı yarıya

P = 0

İmkansız

Yazı-Tura

1.5

2

1.5

2

.5 .5 .25

• Para atışı 10 kere tekrarlandığında

Yazı Sayısı f %

0 3 30

1 6 60

2 1 10

Toplam 10 100

• Atış 1000 kere tekrarlandığında

6

Yazı Sayısı f %

0 253 25.3

1 499 49.9

2 248 24.8

Toplam 1000 100

Bu dağılım teorik olarak beklediğimiz oranlara çok daha uygun. Sebebi ne olabilir?

• Sadece 10 atışta meydana gelmesi mümkün bir

çok olay vardır. Örneğin arka arkaya 5 kere tura bile gelebilir.

• Fakat deneyimizi 1000 kere tekrarladığımızda, uzun vadede bu olaylar dengelenir.

• Arka arkaya 5 kere tura gelse bile, daha sonra 5 kere yazı gelmesiyle bu durum eşitlenebilir.

7

• Bir olasılık dağılımı esasında sonsuz sayıda para

atışı için bir frekans dağılımıdır.

• Olasılık dağılımlarının bir ortalaması .

• Olasılık dağılımlarının ortalamaları uzun vadede teorik olarak görmeyi beklediğimiz değerler oldukları için, bu değerlere aynı zamanda beklenen değer adı da verilir.

8

Frekans dağılımlarında ortalama, SS ve varyans gözlemlenen verilerden hesaplanır.

Olasılık dağılımlarında ortalama, SS ve varyans olasılık teorisinden yola çıkılarak

elde edilen teorik verilerle hesaplanır.

9

Ortalama= μ

Standart Sapma= σ

Varyans= σ2

Olasılık dağılımları, frekans dağılımlarına benzer. Temel fark olasılık dağılımının teorik değerler ile oluşturulmasıdır.

• Doğada bir çok olayda gözlemlenebilen bir olasılık dağılımı tipi olan normal dağılımın özellikleri:

• Simetriktir.

• Unimodaldir • Eğrinin tepe noktası hem ortalamaya hem medyana

hem de moda tekabül eder.

10

12

• Simetrik

• Unimodal

• Ortalama= Medyan= Mod

• Her iki yönde de sonsuza ilerler

• Ortalama= μ; Standart sapma = σ

• Eğri altındaki alan (Olasılıklar toplamı)= 100%

Normal dağılım, teorik bir ideali temsil eder.

Bazı değişkenler normal dağılıma uymazlar.

– Çoğu dağılım simetrik değildir ve çok modludur.

– Verilerin normal dağılım göstermemesi halinde, normal dağılımda kullanılacak yöntemlerle incelenmesi bulgularımızı geçersiz kılar.

13

• Boy, zeka hatta politik yönelim bile teorik normal dağılıma benzer bir dağılım gösterir.

• Doğada gözlemlenen bir çok olay bu dağılım tipine uygunluk gösterdiği için araştırmacılar normal dağılımın özelliklerinden faydalanan bir çok yöntem geliştirmişlerdir.

14

Normal eğride ortalama ile 1 standart sapma mesafe arasında kalan alan her zaman bütün vakaların %34,13’ünü içerir.

Z skoru ve Normal Dağılım

• Herhangi bir standart sapma değeri ile ortalama arasındaki mesafe için eğri altında kalan hesaplanabilir.

• Bu mesafeye z skoru adı verilir.

19

Xz

μ=Ortalama σ = Standart Sapma

• Normal dağılım eğrisi, z skorları ve z skoru tablosu ile beraber kullanıldığında bir dağılımda herhangi bir X değerini elde etme ihtimalini hesaplayabiliriz.

20

21

Pozitif Değerler için Z Tablosu

Negatif Değerler için Z Tablosu

• Z-skoru =1.40Vakaların %41,91’i ortalama ile 1,4 SS mesafesi arasında bulunmaktadır.

• Aşağıdaki tablo bütün eğriyi değil ortalamanın simetrik olarak sağında kalan alanı kapsamaktadır.

24

Aynı z skoruna bütün alan için ortalamadan değil, sıfırdan başlayarak bakacak olursak bu değerin %91,92 olduğunu görürüz.

• Z Tablosundan alan hesaplama işlemi tersine çevrilerek belirli bir alana tekabül eden değişkenlerin belirlenmesi için de kullanılabilir.

• Daha önce gördüğümüz örnekte en yüksek maaşı alan %10’luk kesimi oluşturan hemşire grubunu belirlemek için bu yöntem kullanılabilir.

28

• En yüksek %10’luk kesimi belirlemek için %90’a tekabül eden Z skorunu bulmamız gerekmektedir.

• Daha sonra bu skor yine alan belirlemek için kullandığımız formül ile hangi maaş aralığının en yüksek %10’luk kesimini belirlemek için kullanılır.

• Tabloya göre %10’nun altında kalan (%90) en yakın z skoru 1,28’dir.

• Daha önce kullanmış olduğumu z skoru hesaplama formülünü kullanarak değişkeni hesaplayabiliriz.

• z= (x- µ )/δ X = µ+ zδ X=20000 + (1,28x1500)=21920

33

35

Evren: En azından bir ortak özellik gösteren

bireylerden oluşan grup.

Örneklem: Evrenden seçilmiş daha az

sayıda bireye sahip grup

Örnekleme genelleme yapılmasını sağlar.

Evren ve Örneklem

Evren

örneklem

Örnekleme

Rassal Olmayan Örnekleme vs.

Evrenin her bir üyesinin seçilme şandı eşittir.

Evrenin her üyesinin eşit oranda seçilme şansı yoktur.

RassalÖrnekleme

Rassal olmayan örnekleme

Uygun Örnekleme

Örnekleme araştırmacıya uygun gelen biçimde yapıılır.

Amaçsal Örnekleme

Örnekleme, genel mantığa uygun ve amaca yönelik yapılır.

Rassal Örnekleme

Basit

Tamamen rassaldır. Kura çekmekgibi

Sistematik Belli bir sistematik izlenerek bulunan bir aralık ve başlangıç noktasına dayalı olarak

örnekleme yapılır.

Katmanlı

Popülasyon önce kendi içinde homojen gruplara ayrıldıktan sonra örneklem yapılır.

39

Sadece tesadüfi olarak da olsa örneklem ortalaması ile popülasyon ortalaması arasında her zaman bir fark vardır.

Örneklem için popülasyondan farklı semboller kullanılır.

Örnekleme Hatası

Ölçüm Popülasyon Örneklem

Ortalama

Standart Sapma

Standart Hata

X

s

X

Xs

Evren Örneklem A Örneklem B Örneklem C

70 80 93 99 40 72

86 85 90 99 86 96

56 52 67 56 56 49

40 78 57 52 67 56

89 49 48

99 72 30

96 94 Ortalama=71,55 Ortalama=75,75 Ortalama=62,25 Ortalama=68,25

• Düşünüldüğünde değişkenin evren standart sapmasının bilindiği (s) ama ortalamasının bilinmediği (µ) durumlar çok gerçekçi değildir.

• Gerçekte evren standart sapmasının bilindiği çok az durum vardır.

• Ortalamaların örnekleme dağılımı, evren standart sapması bilinmediğinde normal değildir.

• Ortalamaların örnekleme dağılımı normal dağılımdan biraz daha geniştir.

• Aşağıdaki oran t oranı veya t dağılımı olarak bilinir.

42

• Aslında birden fazla t dağılımı vardır.

• Serbest derecesi adı verilen bir kavram kullanılarak hangi durumda hangi t dağılımının kullanılacağına karar verilir.

43

• Serbestlik derecesi t dağılımının normal dağılıma ne kadar yaklaştığına işaret eder.

• Evren ortalaması belirlenirken, serbestlik derecesi örneklem büyüklüğünden bir eksik olarak alınır.

• Serbestlik derecesi = N - 1

45

Standart Hata

Sx=s / (√n-1)

Sx=ortalamanın standart hatası s=standart sapma n=örneklem büyüklüğü

46

Evren ortalamasının tekabül edeceği ortalama değerler aralığı.

• Güven aralığı farklı seviyeler için hesaplanabilir.

Güven Aralığı

68%CI 1.00X

X

95%CI 1.96X

X

99%CI 2.58X

X

• Z tablosunun aksine, T tablosunda eğrinin altında %95 ve %99 gibi alanlara tekabül eden aramak yerine, hazır değerleri kullanılırız.

• Yani t tablosu eğrinin altında kalan özel bölgelere göre ayarlanmıştır.

47

• Tablo üzerindeki α (alfa) değeri t dağılımının kuyruklarındaki alanları temsil eder.

• Bu sebeple 1’den α değeri çıkartılınca kalan değer güven değerini verir. – α = 1 – güven seviyesi

• Örneğin %95 güven değeri için α=0,05.

• %99 güven değeri için α=0.01 ‘ dir.

48

Bu değerleri bulmak üzere t tablosuna iki bilgi doğrultusunda bakılır: 1)Serbestlik derecesi (N - 1) 2)Alfa değeri, dağılımın kuyruklarında kalan alan. Örneğin örneklem büyüklüğü 20 olduğunda %95’lik güven aralığı için 20-1=19 serbestlik derecesi ve %100-%95=%5 yani a=0,05 için tabloya bakarız. Buna göre t değerimiz 2,093’tür.

49

KORELASYON

Korelasyon analizi, iki değişken

arasındaki doğrusal ilişkiyi veya bir

değişkenin iki yada daha çok

değişken ile olan ilişkisini test etmek,

varsa bu ilişkinin derecesini ölçmek

için kullanılan istatistiksel bir

yöntemdir.

• Korelasyon analizinde amaç; bağımsız

değişken (X) değiştiğinde, bağımlı

değişkenin (Y) ne yönde değişeceğini

görmektir.

• Korelasyon analizi yapabilmek için, her

iki değişkenin de sürekli olmaları ve

normal dağılım göstermeleri gereklidir.

• Korelasyon analizi sonucunda, doğrusal

ilişki olup olmadığı ve varsa bu ilişkinin

derecesi korelasyon katsayısı ile

hesaplanır.

• Korelasyon katsayısı “r” ile gösterilir ve -

1 ile +1 arasında değerler alır.

Pozitif bir ilişkinin olması X değişkeninin

değerlerinin artması durumunda Y

değişkeninin değerlerinin de artması,

yada X değişkeninin değerlerinin düşmesi

durumunda Y değişkenine ait değerlerin

de düşme eğiliminde olduğunu gösterir

(Şekil1. a.)

• Negatif korelasyon (negatif ilişki) olması

değişkenlerin birine ait değerlerin artması

durumunda diğer değişkene ait değerlerin

düşmesi demektir (Şekil1. b.).

• Korelasyon katsayısının “0” olması

değişkenler arasında doğrusal bir ilişkinin

söz konusu olmadığını gösterir (Şekil 1. c.).

Korelasyon, neden sonuç ilişkisi anlamına

gelmemektedir.

• Pearson Korelasyon Katsayısı, iki sürekli

değişkenin doğrusal ilişkisinin derecesinin

ölçümünde kullanılır.

• İki değişken arasında anlamlı bir ilişki var mıdır

sorusunun cevabı aranır.

• Korelasyon katsayısı hesaplanmadan önce

mutlaka serpilme grafiği yapılarak doğrusal

ilişki olup olmadığı kontrol edilmelidir.

PEARSON KORELASYON KATSAYISI

• Korelasyon katsayısı -1 ile +1 arasında değerler

alır.

• Eğer;

– r=-1 ise Tam negatif doğrusal bir ilişki vardır.

– r=+1 ise, Tam pozitif doğrusal bir ilişki vardır.

– r=0 ise, iki değişken arasında ilişki yoktur.

Pearson Korelasyon Katsayısının yorumu;

r İlişki

0,00-0,25 Çok Zayıf

0,26-0,49 Zayıf

0,50-0,69 Orta

0,70-0,89 Yüksek

0,90-1,00 Çok Yüksek

HİPOTEZ TESTLERİ

63

• Gözlem ya da deneme sonucu elde edilmiş

sonuçların, rastlantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel yöntemlere HİPOTEZ TESTLERİ denir.

• Sonuçların rastlantıya bağlı olup olmadığı, kitle

parametreleri (ortalama, ortanca, varyans, vb.) üzerine kurulmuş hipotezlerin test edilmesi ile yapılır.

64

A ve B diyeti arasında fark olup olmadığını araştırmak isteyen bir araştırmacı rasgele 50 kişi seçiyor ve seçtiği 50 kişiyi yine rasgele 2 diyet grubuna atıyor. Diyetisyen, her iki gruptaki kişilerin diyet uygulamadan önce ve sonraki BKİ’leri arasındaki farkları ölçüyor ve aşağıdaki gibi bir tablo elde ediyor.

Diyet Denek

Sayısı BKİ farkı Ortalaması

(kg/m2) BKİ farkı Standart

Sapması (kg/m2)

A 25 1.2 0.1

B 25 1.5 0.2

Acaba A ve B diyeti arasında kilo düşürme açısından fark var mıdır?

65

• Verilen örnekte incelenmek istenen, kitle ortalaması(ları) ya da kitle oranı(ları) üzerine kurulmuş hipotezlerdir.

• Hipotez testlerinde iki hipotez vardır. Birincisi, H0 ile gösterilen yokluk hipotezi, İkincisi H1 ile gösterilen seçenek hipotezdir.

66

A ve B diyeti arasında fark olup olmadığını araştırmak isteyen bir araştırmacı rasgele 50 kişi seçiyor ve seçtiği 50 kişiyi yine rasgele 2 diyet grubuna atıyor. Diyetisyen, her iki gruptaki kişilerin diyet uygulamadan önce ve sonraki BKİ’leri arasındaki farkları ölçüyor ve aşağıdaki gibi bir tablo elde ediyor.

Diyet Denek

Sayısı BKİ farkı Ortalaması

(kg/m2) BKİ farkı Standart

Sapması (kg/m2)

A 25 1.2 0.1

B 25 1.5 0.2

Araştırmanın Hipotezi:

H0:A ve B diyetleri arasında fark yoktur. H1:A ve B diyetleri arasında fark vardır.

İstatistiksel hipotez testlerinde iki tür yanılgı vardır.

– : Anlamlılık Düzeyi 1-= Güven Düzeyi 1- : Testin Gücü

Test

Sonucu

Gerçek Durum

H0 Doğru H0 Yanlış

H0 Kabul Doğru Karar II. Tip Hata ()

H0 Red I. Tip Hata () Doğru Karar

Test Sonucu

Gerçek Durum

A ve B diyetleri

arasında fark yok A ve B diyetleri

arasında fark var

A ve B diyetleri

arasında fark

yok

(H0 Kabul)

Doğru Karar II. Tip Hata ()

A ve B diyetleri

arasında fark var

(H0 Red) I. Tip Hata () Doğru Karar

• Araştırmacı, çalışmasına başlamadan önce tip I hata olasılığı için belirli bir değer öngörür. Bu değer alfa () değeri ile gösterilir ve genellikle 0.05 veya 0.01 gibi küçük değerler olarak alınır.

• Çalışmamızın başında tip I hata olasılığını =0.05 olarak öngördüysek. Bunun anlamı H0 gerçekte doğru iken onu yanlışlıkla red etme olasılığımız maksimum %5 olmalı.

• İstatistiksel paket programları, bir hipotez testi sonucunda gerçekleşen I. tip hata miktarını hesaplar ve bu değere p değeri denir. P değeri önceden belirlenmiş değeri ile karşılaştırılarak karar verilir.

Eğer:

• P ≤ ise H0 red edilir. Bunun anlamı, H0’ı red etmekle gerçekleşen yanılgı öngörülenden küçüktür. Dolayısıyla rahatlıkla H0 red edilebilir.

• P > ise H0 kabul edilir. Bunun anlamı gerçekleşen yanılgı öngörülenden küçük olmadığı için H0 red edilemez.

Varsayalım ki, uygun hipotez testini kullandık ve p değerini 0.26 olarak elde ettik. Bu durumda aşağıdaki şekilde kurulan

– H0:A ve B diyetleri arasında fark yoktur.

– H1:A ve B diyetleri arasında fark vardır.

P > için H0 kabul edilir. Bunun anlamı A ve B diyeti arasında fark yoktur.

Hipotez Testi Aşamaları

I. Aşama: H0 Hipotezinin Belirlenmesi ve Formüle edilmesi:

• Kolesterol ortalaması 190, standart sapması 45 olan 100 kişilik bir örneklem, kolesterol yönünden normal kabul edilebilir mi?

H0 hipotezi, kitle parametreleri cinsinden ifade edilir.

• Bu örnekte öncelikle kolesterolü normal kitlenin parametrelerinin bilinmesi ya da belirlenmesi gerekir.

• Kolesterolü normal kitlenin ortalaması 180 standart sapması 58 ise Örneklemin çekildiği kitlenin ortalamasının 180 olup olmadığını incelemek gerekir. Bu durumda yokluk hipotezimiz;

180:0 H

II. Aşama: H1 Seçenek Hipotezinin Belirlenmesi ve Formüle edilmesi:

• H0 hipotezi, örneklemin kolesterolü normal bir

kitleden çekildiği olduğuna göre H1 seçenek hipotezi H0’a karşıt olarak örneklemin kolesterolü normal olmayan bir kitleden çekildiği biçiminde olacaktır.

• Bu durumda kolesterolü normal olmayan kitlenin tanımlanmasına gerek vardır

Örneklemin çekildiği kitlenin

ortalamasının 180’den farklıdır:

Örneklemin çekildiği kitle

ortalaması 180’ den büyüktür:

Örneklemin çekildiği kitle

ortalaması 180’ den küçüktür:

180:

180:

0

0

H

H

180:

180:

0

0

H

H

180:

180:

0

0

H

H

Araştırıcı amacına ya da tanımlamalarına uygun olarak yokluk hipotezine karşıt olarak üç farklı hipotez kullanabilir.

• Çift Yönlü H0: = 180 H1: 180

• Tek Yönlü H0: = 180 H1: > 180 ; H1: < 180

• H1 seçenek hipotezinin iki ya da çok yönlü olması test sonucu karar verilme koşullarında farklılık yaratır öyle ki; H1 seçenek hipotezinin iki yönlü olması 1. Tip hata ‘nın ikiye bölünmesini gerektirir.

• Bunun nedeni H1 hipotezinin iki yönlü seçilmesi yanılgının her iki yönde öngörülmesi demek olacağından toplam 1. Tip hata olasılığı olarak tanımlanan ’nın her iki yönde /2 olarak tanımlanmasını gerektirir.

H0: = 180

H1: 180

/2 /2

• H1 hipotezi tek yönlü iken gerçekleşen I. Tip hata P, ile karşılaştırılırken H1 hipotezi iki yönlü iken gerçekleşen I. Tip hata P; /2 ile karşılaştırılır.

H0: = 180

H1: > 180

H0: = 180

H1: < 180

III. Aşama: İstatistiksel test için I. Tip hatanın olasılığı olan ’nın belirlenmesi:

• Çalışmalarda genellikle =0.05, 0.01 gibi küçük değerler alınır.

IV Aşama: Hipotezler için uygun test veya test istatistiğinin belirlenmesi:

• Farklı hipotez testleri için değişik test istatistiklerinden yararlanılır.

• Örneğin iki örneklem ortalamasını karşılaştırmak için t test istatistiğinden yararlanırken, ikiden fazla örneklem ortalamasının birbirinden farklı olup olmadığını karşılaştırmada F test istatistiği kullanılmaktadır.

• Uygun testi dolayısıyla test istatistiğini seçmek hipotez testlerinin en önemli adımıdır.

• V Aşama: Belirlenen I. Tip hataya Bağlı Olarak H0 Hipotezi için Kabul ve Red Bölgelerinin Saptanması:

VI. Aşama: İstatistiksel Karar: • Yapılacak test sonucunda hesapla bulunan test

istatistiği değeri belirli bir teorik dağılıma uyar (örneğin standart normal dağılım veya t dağılımı gibi). Eğer hesapla bulunan test istatistiği değeri teorik tablo değerine eşit ya da büyük ise H0 RED edilir.

• Hesapla bulunan test istatistiği teorik tablo değerinden küçük ise H0 KABUL edilir.

• Diğer bir yol ise daha önce bahsedildiği gibi test sonucunda elde edilen p değeri ile karar vermektir.

• P değeri, daha önce belirlediğimiz yanılma düzeyinden küçük ise H0 RED edilir, eğer p değeri belirlenen hata düzeyinden büyük ise H0 KABUL edilir.

• =0.05 olduğunda yapılan hipotez testi sonucunda hesaplanan z test istatistiği 0.79 olsun.

• Yorum: Örneklemin çekildiği kitlenin kolesterol ortalaması 180’e eşittir. Dolayısıyla normal olarak kabul edilebilir.

Tek Örneklem Testleri

89

Kitle Ortalamasının Anlamlılık Testi

• Bu test, eldeki örneklemin belirli bir kitleden çekilip çekilmediğinin ya da başka deyimle belirli bir kitleye ait olup olmadığının incelenmesi amacı ile kullanılır. Buradaki belirli kitle, ortalaması ya da hem ortalaması hem varyansı bilinen kitleyi tanımlar.

90

KOŞULLAR

Kitle Normal dağılmalıdır.

Örneklem kitleden rasgele seçilmiş olmalıdır.

91

Kitle ortalamasının anlamlılık testinde test edilecek hipotezler

aşağıdakilerden biri olabilir.

I

H0 : A

H1 : A

II

H0 : A

H1 : A

III

H0 : A

H1 : A

Tek yönlü testlerde yanılgı tek yönde, iki yönlü testte yanılgı iki yönde öngörüldüğünde H0 hipotezinin kabul ya da red bölgeleri farklı olur. Araştırıcı testin tek ya da iki yönlü olacağına amacına bakarak karar verir.

Tek Yönlü Tek Yönlü İki Yönlü

92

Kitle ortalamasının anlamlılık testinde daha

önce belirtilen koşullar sağlandığında

yararlanılacak test istatistiği, n, örneklemdeki

denek sayısını göstermek üzere

Kitle varyansı bilindiğinde,

Kitle varyansı bilinmediğinde,

n

xz

/

n/S

xt

H0 Kabul ve Red Bölgeleri

H1 Tek Yönlü

H1 İki Yönlü

0

0

/2 /2

Z

Z/2 -Z/2

Z istatistiği için

Kabul Bölgesi Red Bölgesi

Kabul Bölgesi Red Bölgesi Red Bölgesi 94

H0 Kabul ve Red Bölgeleri

H1 Tek Yönlü

H1 İki Yönlü

0

0

/2 /2

t,n-1

t/2,n-1 -t/2,n-1

t istatistiği için

95

96

Standart Normal Dağılım Tablosu

97

t Dağılımı Tablosu

H0 için kabul ve red kriterleri

Z > Z ya da Z > Z /2

t > t ya da t > tα/2

Z < Zα ya da Z < Zα/2

t < t ya da t < tα/2

H0 Red

H0 Kabul

P < ya da P < /2

P > ya da P > /2

H0 Red

H0 Kabul 98

99

Kolesterol ortalaması 190 standart sapması 45

olan 100 kişilik çalışma örnekleminin ortalaması

180, standart sapması 58 olan bir kitleye ait

midir?

100

t Dağılımı Tablosu

olasılık ve normal dağılım - gavsispanel.gelisim.edu.tr · olasılık dağılımları, frekans...

Documents