olasılık ve normal dağılım - gavsispanel.gelisim.edu.tr · olasılık dağılımları, frekans...
TRANSCRIPT
Olasılık ve Normal Dağılım
P = 1
Kesin
P = .5
Yarı yarıya
P = 0
İmkansız
Yazı-Tura
1.5
2
1.5
2
.5 .5 .25
• Para atışı 10 kere tekrarlandığında
Yazı Sayısı f %
0 3 30
1 6 60
2 1 10
Toplam 10 100
• Atış 1000 kere tekrarlandığında
6
Yazı Sayısı f %
0 253 25.3
1 499 49.9
2 248 24.8
Toplam 1000 100
Bu dağılım teorik olarak beklediğimiz oranlara çok daha uygun. Sebebi ne olabilir?
• Sadece 10 atışta meydana gelmesi mümkün bir
çok olay vardır. Örneğin arka arkaya 5 kere tura bile gelebilir.
• Fakat deneyimizi 1000 kere tekrarladığımızda, uzun vadede bu olaylar dengelenir.
• Arka arkaya 5 kere tura gelse bile, daha sonra 5 kere yazı gelmesiyle bu durum eşitlenebilir.
7
• Bir olasılık dağılımı esasında sonsuz sayıda para
atışı için bir frekans dağılımıdır.
• Olasılık dağılımlarının bir ortalaması .
• Olasılık dağılımlarının ortalamaları uzun vadede teorik olarak görmeyi beklediğimiz değerler oldukları için, bu değerlere aynı zamanda beklenen değer adı da verilir.
8
Frekans dağılımlarında ortalama, SS ve varyans gözlemlenen verilerden hesaplanır.
Olasılık dağılımlarında ortalama, SS ve varyans olasılık teorisinden yola çıkılarak
elde edilen teorik verilerle hesaplanır.
9
Ortalama= μ
Standart Sapma= σ
Varyans= σ2
Olasılık dağılımları, frekans dağılımlarına benzer. Temel fark olasılık dağılımının teorik değerler ile oluşturulmasıdır.
• Doğada bir çok olayda gözlemlenebilen bir olasılık dağılımı tipi olan normal dağılımın özellikleri:
• Simetriktir.
• Unimodaldir • Eğrinin tepe noktası hem ortalamaya hem medyana
hem de moda tekabül eder.
10
12
• Simetrik
• Unimodal
• Ortalama= Medyan= Mod
• Her iki yönde de sonsuza ilerler
• Ortalama= μ; Standart sapma = σ
• Eğri altındaki alan (Olasılıklar toplamı)= 100%
Normal dağılım, teorik bir ideali temsil eder.
Bazı değişkenler normal dağılıma uymazlar.
– Çoğu dağılım simetrik değildir ve çok modludur.
– Verilerin normal dağılım göstermemesi halinde, normal dağılımda kullanılacak yöntemlerle incelenmesi bulgularımızı geçersiz kılar.
13
• Boy, zeka hatta politik yönelim bile teorik normal dağılıma benzer bir dağılım gösterir.
• Doğada gözlemlenen bir çok olay bu dağılım tipine uygunluk gösterdiği için araştırmacılar normal dağılımın özelliklerinden faydalanan bir çok yöntem geliştirmişlerdir.
14
Normal eğride ortalama ile 1 standart sapma mesafe arasında kalan alan her zaman bütün vakaların %34,13’ünü içerir.
Z skoru ve Normal Dağılım
• Herhangi bir standart sapma değeri ile ortalama arasındaki mesafe için eğri altında kalan hesaplanabilir.
• Bu mesafeye z skoru adı verilir.
19
Xz
μ=Ortalama σ = Standart Sapma
• Normal dağılım eğrisi, z skorları ve z skoru tablosu ile beraber kullanıldığında bir dağılımda herhangi bir X değerini elde etme ihtimalini hesaplayabiliriz.
20
21
Pozitif Değerler için Z Tablosu
Negatif Değerler için Z Tablosu
23
• Z-skoru =1.40Vakaların %41,91’i ortalama ile 1,4 SS mesafesi arasında bulunmaktadır.
• Aşağıdaki tablo bütün eğriyi değil ortalamanın simetrik olarak sağında kalan alanı kapsamaktadır.
24
Aynı z skoruna bütün alan için ortalamadan değil, sıfırdan başlayarak bakacak olursak bu değerin %91,92 olduğunu görürüz.
• Z Tablosundan alan hesaplama işlemi tersine çevrilerek belirli bir alana tekabül eden değişkenlerin belirlenmesi için de kullanılabilir.
• Daha önce gördüğümüz örnekte en yüksek maaşı alan %10’luk kesimi oluşturan hemşire grubunu belirlemek için bu yöntem kullanılabilir.
28
29
• En yüksek %10’luk kesimi belirlemek için %90’a tekabül eden Z skorunu bulmamız gerekmektedir.
• Daha sonra bu skor yine alan belirlemek için kullandığımız formül ile hangi maaş aralığının en yüksek %10’luk kesimini belirlemek için kullanılır.
• Tabloya göre %10’nun altında kalan (%90) en yakın z skoru 1,28’dir.
• Daha önce kullanmış olduğumu z skoru hesaplama formülünü kullanarak değişkeni hesaplayabiliriz.
• z= (x- µ )/δ X = µ+ zδ X=20000 + (1,28x1500)=21920
33
35
Evren: En azından bir ortak özellik gösteren
bireylerden oluşan grup.
Örneklem: Evrenden seçilmiş daha az
sayıda bireye sahip grup
Örnekleme genelleme yapılmasını sağlar.
Evren ve Örneklem
Evren
örneklem
Örnekleme
Rassal Olmayan Örnekleme vs.
Evrenin her bir üyesinin seçilme şandı eşittir.
Evrenin her üyesinin eşit oranda seçilme şansı yoktur.
RassalÖrnekleme
Rassal olmayan örnekleme
Uygun Örnekleme
Örnekleme araştırmacıya uygun gelen biçimde yapıılır.
Amaçsal Örnekleme
Örnekleme, genel mantığa uygun ve amaca yönelik yapılır.
Rassal Örnekleme
Basit
Tamamen rassaldır. Kura çekmekgibi
Sistematik Belli bir sistematik izlenerek bulunan bir aralık ve başlangıç noktasına dayalı olarak
örnekleme yapılır.
Katmanlı
Popülasyon önce kendi içinde homojen gruplara ayrıldıktan sonra örneklem yapılır.
39
Sadece tesadüfi olarak da olsa örneklem ortalaması ile popülasyon ortalaması arasında her zaman bir fark vardır.
Örneklem için popülasyondan farklı semboller kullanılır.
Örnekleme Hatası
Ölçüm Popülasyon Örneklem
Ortalama
Standart Sapma
Standart Hata
X
s
X
Xs
Evren Örneklem A Örneklem B Örneklem C
70 80 93 99 40 72
86 85 90 99 86 96
56 52 67 56 56 49
40 78 57 52 67 56
89 49 48
99 72 30
96 94 Ortalama=71,55 Ortalama=75,75 Ortalama=62,25 Ortalama=68,25
• Düşünüldüğünde değişkenin evren standart sapmasının bilindiği (s) ama ortalamasının bilinmediği (µ) durumlar çok gerçekçi değildir.
• Gerçekte evren standart sapmasının bilindiği çok az durum vardır.
• Ortalamaların örnekleme dağılımı, evren standart sapması bilinmediğinde normal değildir.
• Ortalamaların örnekleme dağılımı normal dağılımdan biraz daha geniştir.
• Aşağıdaki oran t oranı veya t dağılımı olarak bilinir.
42
• Aslında birden fazla t dağılımı vardır.
• Serbest derecesi adı verilen bir kavram kullanılarak hangi durumda hangi t dağılımının kullanılacağına karar verilir.
43
• Serbestlik derecesi t dağılımının normal dağılıma ne kadar yaklaştığına işaret eder.
• Evren ortalaması belirlenirken, serbestlik derecesi örneklem büyüklüğünden bir eksik olarak alınır.
• Serbestlik derecesi = N - 1
45
Standart Hata
Sx=s / (√n-1)
Sx=ortalamanın standart hatası s=standart sapma n=örneklem büyüklüğü
46
Evren ortalamasının tekabül edeceği ortalama değerler aralığı.
• Güven aralığı farklı seviyeler için hesaplanabilir.
Güven Aralığı
68%CI 1.00X
X
95%CI 1.96X
X
99%CI 2.58X
X
• Z tablosunun aksine, T tablosunda eğrinin altında %95 ve %99 gibi alanlara tekabül eden aramak yerine, hazır değerleri kullanılırız.
• Yani t tablosu eğrinin altında kalan özel bölgelere göre ayarlanmıştır.
47
• Tablo üzerindeki α (alfa) değeri t dağılımının kuyruklarındaki alanları temsil eder.
• Bu sebeple 1’den α değeri çıkartılınca kalan değer güven değerini verir. – α = 1 – güven seviyesi
• Örneğin %95 güven değeri için α=0,05.
• %99 güven değeri için α=0.01 ‘ dir.
48
Bu değerleri bulmak üzere t tablosuna iki bilgi doğrultusunda bakılır: 1)Serbestlik derecesi (N - 1) 2)Alfa değeri, dağılımın kuyruklarında kalan alan. Örneğin örneklem büyüklüğü 20 olduğunda %95’lik güven aralığı için 20-1=19 serbestlik derecesi ve %100-%95=%5 yani a=0,05 için tabloya bakarız. Buna göre t değerimiz 2,093’tür.
49
51
52
KORELASYON
Korelasyon analizi, iki değişken
arasındaki doğrusal ilişkiyi veya bir
değişkenin iki yada daha çok
değişken ile olan ilişkisini test etmek,
varsa bu ilişkinin derecesini ölçmek
için kullanılan istatistiksel bir
yöntemdir.
• Korelasyon analizinde amaç; bağımsız
değişken (X) değiştiğinde, bağımlı
değişkenin (Y) ne yönde değişeceğini
görmektir.
• Korelasyon analizi yapabilmek için, her
iki değişkenin de sürekli olmaları ve
normal dağılım göstermeleri gereklidir.
• Korelasyon analizi sonucunda, doğrusal
ilişki olup olmadığı ve varsa bu ilişkinin
derecesi korelasyon katsayısı ile
hesaplanır.
• Korelasyon katsayısı “r” ile gösterilir ve -
1 ile +1 arasında değerler alır.
Pozitif bir ilişkinin olması X değişkeninin
değerlerinin artması durumunda Y
değişkeninin değerlerinin de artması,
yada X değişkeninin değerlerinin düşmesi
durumunda Y değişkenine ait değerlerin
de düşme eğiliminde olduğunu gösterir
(Şekil1. a.)
• Negatif korelasyon (negatif ilişki) olması
değişkenlerin birine ait değerlerin artması
durumunda diğer değişkene ait değerlerin
düşmesi demektir (Şekil1. b.).
• Korelasyon katsayısının “0” olması
değişkenler arasında doğrusal bir ilişkinin
söz konusu olmadığını gösterir (Şekil 1. c.).
Korelasyon, neden sonuç ilişkisi anlamına
gelmemektedir.
• Pearson Korelasyon Katsayısı, iki sürekli
değişkenin doğrusal ilişkisinin derecesinin
ölçümünde kullanılır.
• İki değişken arasında anlamlı bir ilişki var mıdır
sorusunun cevabı aranır.
• Korelasyon katsayısı hesaplanmadan önce
mutlaka serpilme grafiği yapılarak doğrusal
ilişki olup olmadığı kontrol edilmelidir.
PEARSON KORELASYON KATSAYISI
• Korelasyon katsayısı -1 ile +1 arasında değerler
alır.
• Eğer;
– r=-1 ise Tam negatif doğrusal bir ilişki vardır.
– r=+1 ise, Tam pozitif doğrusal bir ilişki vardır.
– r=0 ise, iki değişken arasında ilişki yoktur.
Pearson Korelasyon Katsayısının yorumu;
r İlişki
0,00-0,25 Çok Zayıf
0,26-0,49 Zayıf
0,50-0,69 Orta
0,70-0,89 Yüksek
0,90-1,00 Çok Yüksek
HİPOTEZ TESTLERİ
63
• Gözlem ya da deneme sonucu elde edilmiş
sonuçların, rastlantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel yöntemlere HİPOTEZ TESTLERİ denir.
• Sonuçların rastlantıya bağlı olup olmadığı, kitle
parametreleri (ortalama, ortanca, varyans, vb.) üzerine kurulmuş hipotezlerin test edilmesi ile yapılır.
64
A ve B diyeti arasında fark olup olmadığını araştırmak isteyen bir araştırmacı rasgele 50 kişi seçiyor ve seçtiği 50 kişiyi yine rasgele 2 diyet grubuna atıyor. Diyetisyen, her iki gruptaki kişilerin diyet uygulamadan önce ve sonraki BKİ’leri arasındaki farkları ölçüyor ve aşağıdaki gibi bir tablo elde ediyor.
Diyet Denek
Sayısı BKİ farkı Ortalaması
(kg/m2) BKİ farkı Standart
Sapması (kg/m2)
A 25 1.2 0.1
B 25 1.5 0.2
Acaba A ve B diyeti arasında kilo düşürme açısından fark var mıdır?
65
• Verilen örnekte incelenmek istenen, kitle ortalaması(ları) ya da kitle oranı(ları) üzerine kurulmuş hipotezlerdir.
• Hipotez testlerinde iki hipotez vardır. Birincisi, H0 ile gösterilen yokluk hipotezi, İkincisi H1 ile gösterilen seçenek hipotezdir.
66
A ve B diyeti arasında fark olup olmadığını araştırmak isteyen bir araştırmacı rasgele 50 kişi seçiyor ve seçtiği 50 kişiyi yine rasgele 2 diyet grubuna atıyor. Diyetisyen, her iki gruptaki kişilerin diyet uygulamadan önce ve sonraki BKİ’leri arasındaki farkları ölçüyor ve aşağıdaki gibi bir tablo elde ediyor.
Diyet Denek
Sayısı BKİ farkı Ortalaması
(kg/m2) BKİ farkı Standart
Sapması (kg/m2)
A 25 1.2 0.1
B 25 1.5 0.2
Araştırmanın Hipotezi:
H0:A ve B diyetleri arasında fark yoktur. H1:A ve B diyetleri arasında fark vardır.
İstatistiksel hipotez testlerinde iki tür yanılgı vardır.
– : Anlamlılık Düzeyi 1-= Güven Düzeyi 1- : Testin Gücü
Test
Sonucu
Gerçek Durum
H0 Doğru H0 Yanlış
H0 Kabul Doğru Karar II. Tip Hata ()
H0 Red I. Tip Hata () Doğru Karar
Test Sonucu
Gerçek Durum
A ve B diyetleri
arasında fark yok A ve B diyetleri
arasında fark var
A ve B diyetleri
arasında fark
yok
(H0 Kabul)
Doğru Karar II. Tip Hata ()
A ve B diyetleri
arasında fark var
(H0 Red) I. Tip Hata () Doğru Karar
• Araştırmacı, çalışmasına başlamadan önce tip I hata olasılığı için belirli bir değer öngörür. Bu değer alfa () değeri ile gösterilir ve genellikle 0.05 veya 0.01 gibi küçük değerler olarak alınır.
• Çalışmamızın başında tip I hata olasılığını =0.05 olarak öngördüysek. Bunun anlamı H0 gerçekte doğru iken onu yanlışlıkla red etme olasılığımız maksimum %5 olmalı.
• İstatistiksel paket programları, bir hipotez testi sonucunda gerçekleşen I. tip hata miktarını hesaplar ve bu değere p değeri denir. P değeri önceden belirlenmiş değeri ile karşılaştırılarak karar verilir.
Eğer:
• P ≤ ise H0 red edilir. Bunun anlamı, H0’ı red etmekle gerçekleşen yanılgı öngörülenden küçüktür. Dolayısıyla rahatlıkla H0 red edilebilir.
• P > ise H0 kabul edilir. Bunun anlamı gerçekleşen yanılgı öngörülenden küçük olmadığı için H0 red edilemez.
Varsayalım ki, uygun hipotez testini kullandık ve p değerini 0.26 olarak elde ettik. Bu durumda aşağıdaki şekilde kurulan
– H0:A ve B diyetleri arasında fark yoktur.
– H1:A ve B diyetleri arasında fark vardır.
P > için H0 kabul edilir. Bunun anlamı A ve B diyeti arasında fark yoktur.
Hipotez Testi Aşamaları
I. Aşama: H0 Hipotezinin Belirlenmesi ve Formüle edilmesi:
• Kolesterol ortalaması 190, standart sapması 45 olan 100 kişilik bir örneklem, kolesterol yönünden normal kabul edilebilir mi?
H0 hipotezi, kitle parametreleri cinsinden ifade edilir.
• Bu örnekte öncelikle kolesterolü normal kitlenin parametrelerinin bilinmesi ya da belirlenmesi gerekir.
• Kolesterolü normal kitlenin ortalaması 180 standart sapması 58 ise Örneklemin çekildiği kitlenin ortalamasının 180 olup olmadığını incelemek gerekir. Bu durumda yokluk hipotezimiz;
180:0 H
II. Aşama: H1 Seçenek Hipotezinin Belirlenmesi ve Formüle edilmesi:
• H0 hipotezi, örneklemin kolesterolü normal bir
kitleden çekildiği olduğuna göre H1 seçenek hipotezi H0’a karşıt olarak örneklemin kolesterolü normal olmayan bir kitleden çekildiği biçiminde olacaktır.
• Bu durumda kolesterolü normal olmayan kitlenin tanımlanmasına gerek vardır
Örneklemin çekildiği kitlenin
ortalamasının 180’den farklıdır:
Örneklemin çekildiği kitle
ortalaması 180’ den büyüktür:
Örneklemin çekildiği kitle
ortalaması 180’ den küçüktür:
180:
180:
0
0
H
H
180:
180:
0
0
H
H
180:
180:
0
0
H
H
Araştırıcı amacına ya da tanımlamalarına uygun olarak yokluk hipotezine karşıt olarak üç farklı hipotez kullanabilir.
• Çift Yönlü H0: = 180 H1: 180
• Tek Yönlü H0: = 180 H1: > 180 ; H1: < 180
• H1 seçenek hipotezinin iki ya da çok yönlü olması test sonucu karar verilme koşullarında farklılık yaratır öyle ki; H1 seçenek hipotezinin iki yönlü olması 1. Tip hata ‘nın ikiye bölünmesini gerektirir.
• Bunun nedeni H1 hipotezinin iki yönlü seçilmesi yanılgının her iki yönde öngörülmesi demek olacağından toplam 1. Tip hata olasılığı olarak tanımlanan ’nın her iki yönde /2 olarak tanımlanmasını gerektirir.
H0: = 180
H1: 180
/2 /2
• H1 hipotezi tek yönlü iken gerçekleşen I. Tip hata P, ile karşılaştırılırken H1 hipotezi iki yönlü iken gerçekleşen I. Tip hata P; /2 ile karşılaştırılır.
H0: = 180
H1: > 180
H0: = 180
H1: < 180
III. Aşama: İstatistiksel test için I. Tip hatanın olasılığı olan ’nın belirlenmesi:
• Çalışmalarda genellikle =0.05, 0.01 gibi küçük değerler alınır.
IV Aşama: Hipotezler için uygun test veya test istatistiğinin belirlenmesi:
• Farklı hipotez testleri için değişik test istatistiklerinden yararlanılır.
• Örneğin iki örneklem ortalamasını karşılaştırmak için t test istatistiğinden yararlanırken, ikiden fazla örneklem ortalamasının birbirinden farklı olup olmadığını karşılaştırmada F test istatistiği kullanılmaktadır.
• Uygun testi dolayısıyla test istatistiğini seçmek hipotez testlerinin en önemli adımıdır.
• V Aşama: Belirlenen I. Tip hataya Bağlı Olarak H0 Hipotezi için Kabul ve Red Bölgelerinin Saptanması:
VI. Aşama: İstatistiksel Karar: • Yapılacak test sonucunda hesapla bulunan test
istatistiği değeri belirli bir teorik dağılıma uyar (örneğin standart normal dağılım veya t dağılımı gibi). Eğer hesapla bulunan test istatistiği değeri teorik tablo değerine eşit ya da büyük ise H0 RED edilir.
• Hesapla bulunan test istatistiği teorik tablo değerinden küçük ise H0 KABUL edilir.
• Diğer bir yol ise daha önce bahsedildiği gibi test sonucunda elde edilen p değeri ile karar vermektir.
• P değeri, daha önce belirlediğimiz yanılma düzeyinden küçük ise H0 RED edilir, eğer p değeri belirlenen hata düzeyinden büyük ise H0 KABUL edilir.
• =0.05 olduğunda yapılan hipotez testi sonucunda hesaplanan z test istatistiği 0.79 olsun.
• Yorum: Örneklemin çekildiği kitlenin kolesterol ortalaması 180’e eşittir. Dolayısıyla normal olarak kabul edilebilir.
Tek Örneklem Testleri
89
Kitle Ortalamasının Anlamlılık Testi
• Bu test, eldeki örneklemin belirli bir kitleden çekilip çekilmediğinin ya da başka deyimle belirli bir kitleye ait olup olmadığının incelenmesi amacı ile kullanılır. Buradaki belirli kitle, ortalaması ya da hem ortalaması hem varyansı bilinen kitleyi tanımlar.
90
KOŞULLAR
Kitle Normal dağılmalıdır.
Örneklem kitleden rasgele seçilmiş olmalıdır.
91
Kitle ortalamasının anlamlılık testinde test edilecek hipotezler
aşağıdakilerden biri olabilir.
I
H0 : A
H1 : A
II
H0 : A
H1 : A
III
H0 : A
H1 : A
Tek yönlü testlerde yanılgı tek yönde, iki yönlü testte yanılgı iki yönde öngörüldüğünde H0 hipotezinin kabul ya da red bölgeleri farklı olur. Araştırıcı testin tek ya da iki yönlü olacağına amacına bakarak karar verir.
Tek Yönlü Tek Yönlü İki Yönlü
92
Kitle ortalamasının anlamlılık testinde daha
önce belirtilen koşullar sağlandığında
yararlanılacak test istatistiği, n, örneklemdeki
denek sayısını göstermek üzere
Kitle varyansı bilindiğinde,
Kitle varyansı bilinmediğinde,
n
xz
/
n/S
xt
H0 Kabul ve Red Bölgeleri
H1 Tek Yönlü
H1 İki Yönlü
0
0
/2 /2
Z
Z/2 -Z/2
Z istatistiği için
Kabul Bölgesi Red Bölgesi
Kabul Bölgesi Red Bölgesi Red Bölgesi 94
H0 Kabul ve Red Bölgeleri
H1 Tek Yönlü
H1 İki Yönlü
0
0
/2 /2
t,n-1
t/2,n-1 -t/2,n-1
t istatistiği için
95
96
Standart Normal Dağılım Tablosu
97
t Dağılımı Tablosu
H0 için kabul ve red kriterleri
Z > Z ya da Z > Z /2
t > t ya da t > tα/2
Z < Zα ya da Z < Zα/2
t < t ya da t < tα/2
H0 Red
H0 Kabul
P < ya da P < /2
P > ya da P > /2
H0 Red
H0 Kabul 98
99
Kolesterol ortalaması 190 standart sapması 45
olan 100 kişilik çalışma örnekleminin ortalaması
180, standart sapması 58 olan bir kitleye ait
midir?
100
t Dağılımı Tablosu