korelasyon ve regresyonyunus.hacettepe.edu.tr/~dcaktan/ebb629_sunu/chapter15... · 2015. 5. 25. ·...
TRANSCRIPT
Korelasyon ve Regresyon
Kazanımlar
• Değişkenlerin ilişkisini açıklamak ve hesaplamak için Pearson korelasyon katsayısı 1
• Örneklem r ile evren korelasyonu hakkında hipotez testi yapmak 2
• Spearman korelasyonunu açıklamak ve hesaplamak 3
• point-biserial ve phi-katsayısını hesaplamak 4
• Y değerlerini yordayan lineer regresyon eşitliğini açıklamak ve hesaplamak 5
• Regresyon eşitliğinin anlamlılığını değerlendirmek 6
Korelasyon ve regresyona giriş
• İki değişken arasındaki ilişkiyi ölçer ve
tanımlar
• İlişkinin özelliklerini
– Yön (negatif veya pozitif)
– Şekil (genellikle lineer)
– güç
Korelasyon verisi Saçılım grafiği
Pozitif ve negatif ilişkiye örnekler
Lineer ilişkinin değişik değerlerine
örnekler
Pearson korelasyonu
• İki değişken arasındaki doğrusal ilişkinin
yönünü ve derecesini ölçer.
• Mükemmel doğrusal ilişkide
– X teki her bir değişime karşılık Y de bir
değişim mevcuttur.
– Korelasyon –1.00 veya +1.00 olur
klerideğeğişken ayrı ayrınin Y veX
değeğişiortak nin Y veX r
Çarpımlar Toplamı (ÇT)
• İki değişken arasındaki ortak değişimin
miktarını ölçer.
))(( YYXXÇT
ÇT – Hesaplama Formülü
• Hesaplama formülü daha kolay işlemlerle
aynı sonucu verir
n
YXXYÇT
Pearson korelasyon katsayısının hesabı
• ÇT, çarpımlar toplamı: X ve Y nin ortak değişimi
YX KTKT
ÇTr
Figure 15.4 Example 15.3 Scatterplot
Pearson korelasyonu ve z-puanları
• Pearson korelasyon formulü z puanlarıyla
ilişkili olarak ifade edilebilir.
1 :Evren
1 :Örneklem
n
zzr
n
zzr
YX
YX
Soru
• A scatterplot shows a set of data points that are clustered loosely around a line that slopes down to the right. Which of the following values would be closest to the korelasyon for these data?
• 0.75 A
• 0.35 B
• -0.75 C
• -0.35 D
Cevap
• A scatterplot shows a set of data points that are clustered loosely around a line that slopes down to the right. Which of the following values would be closest to the korelasyon for these data?
• 0.75 A
• 0.35 B
• -0.75 C
• -0.35 D
Doğru Yanlış
• Aşağıdaki ifadelerin doğru mu yanlış mı
olduklarına karar veriniz.
• n = 10 çift X ve Y puanlarının ΣX = ΣY = ΣXY = 20. buna göre, SP = –20
D/Y
• Eğer Y değişkeninin değerleri azalırken X değişkenine ait değerleder azalıyorsa aralarındaki korelasyon is negatiftir
D/Y
Cevap
Doğru
• Değişim aynı yöndedir, korelasyon pozitiftir
Yanlış
20402010
)20)(20(20 SP
Pearson korelasyonunun yorumu ve
kullanımı
• korelasyon yordama amacıyla kullanılır
• Geçerlik
• Güvenirlik
• Teori doğrulama
Örnek
Korelasyonun Yorumlanması
• korelasyon nedensellik göstermez
• Korelasyonun değeri eldeki verilerin
ranjından etkilenir
• Uç değerler– outliers –korelasyonu etkiler
– Korelasyonun karesi ortak değişimi gösterir
Sınırlı ranj ve korelasyon
Uç noktaların korelasyona etkisi
katsayı
• Detarminasyon katsayısı, bir değişkendeki
değişimin diğer değişken ile açıklanan
oranının ölçüsünü verir.
2rionDeterminat of oefficientC
Doğrusal ilişkinin derecesi
Pearson korelasyonu ile
Hipotez testi
• Pearson korelasyonu genellikle örneklem
verisi için hesaplanır, ancak evrendeki
ilişkileri test etmek için kullanılır.
• Evrendeki korelasyon rho (ρ) Yunan harfi ile
ifade edilir
• Yönsüz: H0: ρ = 0 and H1: ρ ≠ 0
• Yönlü: H0: ρ ≤ 0 and H1: ρ > 0
Örneklem korelasyonu ve Evren
Korelasyon ile Hipotez Testi
• Örneklem korelasyonu evren ρ yu test için
kullanılır
• Serbestlik derecesi (df) = n – 2
• Hipotez testi t veya F kullanılarak hesaplanır.
• Kritik değerler hesaplanır
– ± Kritik Değerlerinin ötesindeki örneklem
korelasyonları pek olası değildir (very unlikely)
– ± Kritik Değerlerinin ötesindeki örneklem
korelasyonları yokluk hipotezinin reddi ile
sonuçlanır.
Kısmi korelasyon
• Kısmi korelasyon, üçüncü bir değişkenin
etkisini sabit tutarak iki değişken arasındaki
ilişkinin ölçüsünü verir.
)1)(1(
)(
22yzxz
yzxyxy
zxy
rr
rrrr
Üçüncü değişkenin etkisini sabit tutmak
Pearson korelasyonuna Alternatif
• Pearson korelasyonu
– lineer ilişkiler
– Eşit aralık ve oranlı ölçekler için hesaplanır
• Diğer korelasyon katsayıları
– non-lineer veriler
– Diğer ölçek türleri için hesaplanır
Spearman korelasyon
• Pearson korelasyon formula is used with data
from an ordinal scale (ranks)
– Used when both variables are measured on
an ordinal scale
– Used when relationship is consistently
directional but may not be linear
Nonlineer pozitif ilişki
Puanlarını ve sıralarını gösteren
saçılım grafiği
Sıralama puanları
• Spearman korelasyonu
• Sıra atamak için kullanılan metod
– Puanlar en küçükten en büyüğe listelenir
– Listedeki her konumua bir sıra numarası verilir
– Eğer iki veya daha fazla puan aynı sırada ise,
onların sıralarının ortalaması hesaplanır ve bu
ortalama değer her birine sıra numarası olarak
verilir.
Spearman korelasyon formülü
• Puanların sıraları tamsayılardır
– Use D as the difference between the X rank
and the Y rank for each individual to compute
the rs statistic
)1(
61
2
2
nn
Drs
Nokta-Çiftserili korelasyon
• İki değişken arasındaki ilişkinin ölçüsüdür
– Değişkenlerden biri sadece iki değer alabilir
(ikili değişken)
• İlişkisiz örneklem t-testindeki aynı durum söz
konusudur
– Nokta çift serili r2 t istatistiğindeki hesaplanan
r2 ile aynıdır
– t-istatistiği anlamlılığı değerlendirir
– r istatistiği onun gücünü ölçer
Phi katsayısı
• Her iki değişkende (X ve Y) iki kategorilidir
– Her iki değişkende 0 ve 1 diye kodlanır
– Hesabında Pearson formülü kullanılır
Soru
• Bir çalışmada katılımcılar “sabahçılar” veya “akşamcılar” olarak sınıflandırılırlar ve daha sonra 50 puanlık vicdan sahibi olma ölçeğiyle 50 puan üzerinden puanlanırlar. Bu iki değişken arasındaki ilişkiyi ölçmek için hangi korelasyon katsayısı kullanılmalıdır?
• Pearson korelasyon A
• Spearman korelasyon B
• Nokta-çiftserili korelasyon C
• Phi-katsayısı D
Cevap
• Participants were classified as “morning people” or
“evening people” then measured on a 50-point
conscientiousness scale. Which korelasyon should
be used to measure the relationship?
• Pearson korelasyon A
• Spearman korelasyon B
• Nokta-çiftserili korelasyon C
• Phi-katsayı D
Soru
• Aşağıdaki ifadelerin doğru veya yanlış
olduklarını belirtiniz.
• Spearman korelasyonu dichotomous (ikili) verilerde kullanılır D/y
• Korelasyonun anlamlılığını test ederken, yokluk hipotesi korelasyonun sıfır olduğunu belirtir.
D/Y
Cevap
• Spearman korelasyonu sıralı verilerde hesaplanır
Yanlış
Doğru
Lineer regresyon
• Pearson korelasyonu iki değişken arasındaki
doğrusal ilişkiyi ölçer
• Verilerden geçen doğru
– İlişkiyi görmeyi kolaylaştırır
– İlişkiideki merkezi eğilimi gösterir
– Yordama amacıyla kullanılabilir
Figure 15.13 regresyon doğrusu
Lineer eşitlikler
• Bir doğruyu gösteren genel eşitlik
– Eşitlik: Y = bX + a
– X ve Y değişkenlerdir
– a ve b sabit değerlerdir
lineer eşitliğin grafiği
Regresyon
• Regresyon bir veri setinden geçen en iyi
uyum doğrusunu bulma yöntemidir.
– Bu doğruya regresyon doğrusu denir.
• Ŷ regresyon eşitliğindeki her bir X değeri için
Y nin yordanan değeridir
• (Y- Ŷ) her bir veri noktasının regresyon
doğrusundan uzaklığıdır: yordama hatası
• regresyon hataların karelerinin toplamını
minimum yapar
Veri noktası ile yordanan nokta
arasındaki mesafe
regresyon eşitlikleri
• regresyon doğrusu: Ŷ = bX + a
• Doğrunun eğimi, b, aşağıdaki gibi hesaplanır
X
Y
X s
sr
KT
ÇTb veya
XbYa
YX ,
Figure 15.16 X ve Y noktaları ve
regresyon doğrusu
korelasyon ve standard hata
• Y puanlarındaki yordanan değişkenlik:
KTregresyon = r2 KTY
• Y puanlarındaki yordanmayan değişkenlik:
KTresidual = (1 - r2) KTY
Kestirimin Standard Hatası
• regresyon eşitliği bir yordamada bulunur
• Kestirimin doğruluğu (presicion) kestirimin
standard hatası ile belirlenir
2
)ˆ(
df
K2
residual
n
YYT
Testing significance of regresyon
• Analysis of regresyon
– Similar to Analysis of Variance
– Uses an F-ratio of two Mean Square values
– Each MS is a SS divided by its df
Ortalamaların kareleri (OK) ve F-
oranı
residual
residualresidual
df
KTOK
regression
regression
regressiondf
KTOK
residual
regression
OK
OKF
Regresyon analizinde KT ve df in
bölüşümü
Figure 15.19 Plot of data in
Demonstration 15.1
Learning Check
• A linear regresyon has b = 3 and a = 4.
What is the predicted Y for X = 7?
• 14 A
• 25 B
• 31 C
• Cannot be determined D
Learning Check - Answer
• A linear regresyon has b = 3 and a = 4.
What is the predicted Y for X = 7?
• 14 A
• 25 B
• 31 C
• Cannot be determined D
Learning Check
• Decide if each of the following statements
is True or False.
• It is possible for the regresyon equation to have none of the actual data points on the regresyon line.
T/F
• If r = 0.58, the linear regresyon equation predicts about one third of the variance in the Y scores.
T/F
Answer
• The line is an estimator. True
• When r = .58, r2 = .336 True