basİt doĞrusal regresyon
DESCRIPTION
BASİT DOĞRUSAL REGRESYON. İşlenecek olan konunun ardından Saçılım grafiğinin ne olduğu; İki değişken arasındaki ilişkinin hesaplanması ve yorumu . Hesaplanan ilişkinin anlamlı olup olmadığına karar verilmesi . Bir veri setinde basit doğrusal regresyon katsayılarının hesaplanması ve yorumu . - PowerPoint PPT PresentationTRANSCRIPT
BASİT DOĞRUSAL REGRESYON
İşlenecek olan konunun ardından
• Saçılım grafiğinin ne olduğu;• İki değişken arasındaki ilişkinin
hesaplanması ve yorumu.• Hesaplanan ilişkinin anlamlı olup
olmadığına karar verilmesi.• Bir veri setinde basit doğrusal regresyon
katsayılarının hesaplanması ve yorumu.• Regresyon analizi uygulamak için gerekli
varsayımların ne olduğu? • Kurulan regresyon modelin anlamlılığı.
A Saçılım grafiği iki değişken arasındaki ilişkiyi grafik olarak gösteren yardımcı bir araçtır. X-y grafiği olarak da adlandırılır.
Saçılım Grafiği
İki değişken arasındaki ilişki
X
Y
(a) Doğrusal
İki değişken arasındaki ilişki
X
Y
(b) Doğrusal
İki değişken arasındaki ilişki
(c) Eğrisel
X
Y
İki değişken arasındaki ilişki
(d) İlişki yok
X
Y
Saçılım grafiği ( x-y grafiği) ile, iki değişken seti arasındaki ilişkinin doğrusal olup olmadığı ve ilişkinin yönü hakkında genel bir perspektif edinilir. Bununla birlikte ilişkinin yapısı ve yönü hakkında daha tutarlı ve hassas ölçülere ihtiyaç duyulur. Korelasyon katsayısı, iki değişken arasındaki ilişkiyi matematiksel olarak ölçen bir istatistiktir.
İLİŞKİ TİPLERİ
Değişkenlerin tipi ve dağılımlarına göre farklı yollarla korelasyon katsayısı hesaplanır. Pearson's r: Her iki değişkenin (metrik kesikli ve/veya sürekli) Normal dağılım veya Normal dağılım özelliği gösterdiği durumlarda Pearson’s r korelasyon katsayısı kullanılır.
Spearman's rho: Her iki değişkenin metrik olmadığı sıralı ölçülerde veya Normal dağılım özelliği göstermediği durumlarda sıralamaya dayalı hesaplanan korelasyon değeridir.
Pearson’s Korelasyon Katsayısı (r)
Matematiksel gösterimi
2 2 2 2( ) ( )n xy x y
rn x x n y y
Spearman's Korelasyon Katsayısı (rs)
Spearman's rho (rs): Veri seti sıralandıktan sonra aşağıdaki formül ile korelasyon hesaplanır
d= iki değişken arasındaki farkı belirtir
)1n(nd6
1r 2
2
s
Korelasyon Katsayısı
Korelasyon katsayısı ( r ), x ve y değişkenleri arasındaki ilişkinin derecesini açıklar. Korelasyon katsayısının ( r ) işareti, ilişkinin yönünün belirler. Korelasyon katsayısı ( r ) –1 ve +1 arasındaki herhangi bir değer alabilir.Korelasyon katsayısının işareti ( r ) her zaman regresyon katsayısı ( b )’nın işareti ile aynıdır.
Korelasyon katsayısının aldığı değeri yorumlamak için:r her zaman -1 +1 aralığındadır. Bu değer her iki yana çok yakın ise, saçılım grafiğinde noktalar arası bozulma o derece küçüktür. Bu nedenle iki değişken arasında güçlü bir ilişki sözkonusudur. r -1 veya +1 değerlerine eşitse iki değişken arasında mükemmel bir ilişki vardır. Saçılım grafiğinde tüm noktalar doğru üzerinde gözükecektir. (bu doğru regresyon doğrusu olarak bilinir). Eğer r 0’a çok yakın bir değer almışsa, the bozulma oldukça büyük görünecek ve değişkenler birbiri ile ilişki göstermeyeceklerdir. Korelasyon katsayısındaki ( r ) pozitif veya negatif işaret iki değişken arasında pozitif veya negatif ilişkinin varlığına işaret eder.
KORELASYON KATSAYISININ GÜCÜ
r = -1: Mükemmel negatif bir ilişki ( x yukarı çıkarken, y aşağı doğru)r = +1: Mükemmel pozitif bir ilişki ( x yukarı çıkarken, y yukarı çıkar)r = 0: x ve y arasında bir ilişki görülmemektedirBu değerlerin dışında bir katsayı hesaplandığında genel olarak korelasyon katsayısı ( r ) için: 0.0 ile 0.2 Çok zayıf veya ihmal edilebilir bir ilişki0.2 ile 0.4 Zayıf, düşük ilişki0.4 ile 0.7 orta derecede ilişki0.7 ile 0.9 Güçlü, yüksek ilişki0.9 ile 1.0 Çok yüksek ilişki
Saçılım Grafiği
r= -1 r= 0 r= +1 Mükemmel İlişki yok Mükemmel negatif pozitif
NoHamile
Hafta (x)Hemo.
(y) x2 y2 xy1 33 10.8 1089 116.6 356.42 33 9.5 1089 90.3 313.53 23 14.2 529 201.6 326.64 34 9.7 1156 94.1 329.8. . . . . .. . . . . .
17 27 12.8 729 163.8 345.618 29 11.0 841 121.0 319.019 24 13.5 576 182.3 324.020 31 10.8 961 116.6 334.8
Top. 581 236.6 17215 2842.4 6761.6
Örnek: Hemoglobin verilerini kullanarak Pearson’s ve Spearman’s korelasyon katsayılarını hesaplayıp, yorumlayınız .
Hem
oglo
bin
9
10
11
12
13
14
15
20 22 24 26 28 30 32 34 36
Gestation Week
Pearson’s Korelasyon Katsayısı
Hemoglobin düzeyi ile hamilelik (hafta) arasında negatif güçlü bir ilişki vardır. (Pearson’s r= -0.922)
2 2 2 2( ) ( )n xy x y
rn x x n y y
922.0))6.236(4.2842*20())581(17215*20(
6.236*5816.6761*20r22
Correlations
1 -,922**. ,000
20 20-,922** 1,000 .
20 20
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
HEMO
GESTWEEK
HEMO GESTWEEK
Correlation is significant at the 0.01 level (2-tailed).**.
PEARSON’S KORELASYON KATSAYISININ SPSS ÇIKTISI
Spearman’s Korelasyon Katsayısı (rs)
No Hafta Rank1 Hemo. Rank2 D= Rank1-Rank2
1 33 16.0 9,5 1.0 15
2 34 18.0 9,7 2.5 15,53 35 19.5 9,7 2.5 17
4 33 16.0 10,5 4.0 12
. . . . . .
. . . . . .17 24 4.0 13,5 17.0 -13
18 22 1.0 13,8 18.0 -1719 25 5.0 14 19.0 -14
20 23 2.5 14,2 20.0 -17,5R1: Hafta sıralaması; R2: hemoglobin düzeyi sıralaması
Spearman’s Korelasyon Katsayısı (rs)
Hemoglobin düzeyi ile hamilelik (hafta) arasında negatif güçlü bir ilişki vardır.(Spearman’s rho rs= -0.916).
916.0)120(20
2548*61)1n(n
d61r 22
2
s
SPEARMAN’S KORELASYON KATSAYISININ SPSS ÇIKTISI
Correlations
1,000 -,916**. ,000
20 20-,916** 1,000,000 .
20 20
Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N
HEMO
GESTWEEK
Spearman's rhoHEMO GESTWEEK
Correlation is significant at the 0.01 level (2-tailed).**.
Doğrusal regresyon analizi, bağımlı değişken ile bir veya daha fazla bağımsız değişken arasında bir ilişki kurar.Doğrusal model, bağımlı değişkeni bağımsız değişkenin aldığı değerin doğrudan oranı olarak gösterir.Basit Doğrusal regresyon analizinde sadece bir bağımsız değişken bulunur.
BASİT DOĞRUSAL REGRESYON
Bağımlı değişken (y); regresyon modelinde açıklanan veya tahmin edilecek olan değişkendir. Bu değişkenin bağımsız değişkenle fonksiyonel bir ilişkide olduğu varsayılır. Bağımsız değişken (x) regresyon modelinde bağımlı değişken ile ilişkili değişkendir. Bağımsız değişken, regresyon modelinde bağımlı değişkenin değerini tahmin etmek için kullanılır.
BASİT DOĞRUSAL REGRESYON MODELİ (POPULASYON MODELİ)
y = + βx + ε
y= bağımlı değişkenx= bağımsız değişken= sabit (y-eksenini kestiği nokta)β= regresyon doğrusunun eğimiε= hata terimi veya artık
Regresyon Parametreleri = sabit
doğrunun y eksenini kestiği nokta.Bağımsız değişkenin değerinin = 0 olduğu durumda bağımlı değişkenin aldığı değerdir.
β = eğimBağımsız değişkendeki değişime dayalı olarak bağımlı değişkende görülen değişimdir. Eğimin alacağı katsayının işareti iki değişken arasındaki ilişkiye bağlı olarak pozitif veya negatif olabilir.
y = Tahmin edilen y değeri (bağımlı değişken)a = regresyon sabit değerinin yansız tahminib = regresyon eğiminin yansız tahminix = bağımsız değişken değeri
bxay
TAHMİN EDİLEN REGRESYON MODELİ (ÖRNEKLEM MODELİ)
Basit doğrusal regresyon modelin bazı varsayımları bulunmaktadır:
I hata terimlerinin her biri istatistiksel olarak bir diğerinden bağımsızdır. hata terimlerinin aldığı değerler normal dağılım özelliği göstermelidir. Hata varyansı sabittir ve veriler arasında hiç değişmediği varsayılır. Buna otokorelasyon veya serisel korelasyon bulunmaması varsayımı adı verilir. Bağımsız değişken hatasızdır. Eğer bağımsız değişkende hata bulunduğu varsayılırsa özel bir yöntem şekli olan değişkenler-içinde-hata modeli teknikler kullanılarak model kurulmalıdır.
ε = Hata terimi (artık)
Regresyon modelleri tam (%100) doğru tahmin yapma özeliğine sahip değillerdir. Hata terimi (artık), gözlenen değer ile model tarafından tahmin edilen değer arasındaki farktır.
yy
Artık terminin (hata) grafiksel gösterimi
X
Y
4
300200
100
400
3904*60150x60150y
390
312
ε= Artık = 312 - 390 = -78
Regresyon Parametrelerinin Tahmini
b ve a katsayıları aşağıdaki eşitlikler kullanılarak hesaplanır :
nx
x
nyx
xy
xxyyxx
b 22
2 )()())((
xbya
En küçük kareler (EKK) yöntemi kullanılarak modeldeki artık kareler toplamı minimize edilerek parametre tahminleri yapılır.
Örnek: Hamilelik haftası ile hemoglobin düzeyi arasında anlamlı bir ilişki bulunmakta mıdır? Basit doğrusal regresyon modelini oluşturarak eğim parametresinin anlamlılığını test ediniz.
No Hafta Hemoglobin No Hafta Hemoglobin1 33 10.8 11 33 10.52 33 9.5 12 30 11.03 23 14.2 13 35 10.94 34 9.7 14 25 14.05 32 11.2 15 22 13.86 35 9.7 16 28 12.97 30 12.1 17 27 12.88 23 13.0 18 29 11.09 28 12.0 19 24 13.5
10 26 13.2 20 31 10.8
No Hafta (x)Hemo.
(y) x2 xy1 33 10.8 1089 356.42 33 9.5 1089 313.53 23 14.2 529 326.64 34 9.7 1156 329.8. . . . .. . . . .. . . . .
17 27 12.8 729 345.618 29 11.0 841 319.019 24 13.5 576 324.020 31 10.8 961 334.8
Total 581 236.6 17215 6761.6
331.0
20)581(17215
206.236*5816.6761
)( 222
nx
x
nyx
xyb
4.2120581)331.0(
206.236
xbya
xy 331.04.21
Regresyon parametrelerinin tahmini
Eğim parametresinin (b) anlamlılığının testi
tα, n-(p+1)= t(0.05, 18)= 2.1, t= 10.1 > t(0.05, 18)= 2.1, red H0; eğim
sıfır değildir.(n= örneklem genişliği, p= bağımsız değişken sayısı)
033.0Sb 0:0:
1
0
HH 1.10
033.0331.0
Sbt
b
ARALIK TAHMİNİTahminler çekilen örnekten örneğe değişeceğinden regresyon katsayılarını standart hataları ile vermek yerinde olacaktır , . Tahminlerin standart hataları çoğu istatistik paket programının çıktılarında confidence interval (güven aralığı) CI olarak gösterilir ve β’nın içinde bulunduğu aralık ile birlikte verilir:(1-α)% CI for β
95% güven aralığında β: (-4.000, -0.263)
(t(0.05, 18)= 2.1).
bS
033.0*1.2331.0
Stb b)1p(n,
Belirtme katsayısı (determinasyon katsayısı) Belirtme katsayısı, doğrusal modelin uyum iyiliğinin en iyi ölçüsüdür. Bağımlı değişkendeki değişimin ne kadarının bağımsız değişken (ler) tarafından açıklandığını ifade eder. Bu durum, regresyon modelinin açıklayıcılık gücünün iyi bir göstergesidir. ( R2 )
Örneğimizde, hemoglobin düzeyindeki değişimin %85’nin hamileliğin bulunduğu hafta ile açıklanabileceği hesaplanmıştır. (R2= 0.85).
Örnek: SPSS ile yaş ile %yağ değişkenleri arasındaki ilişkiyi Person ve Spearman’s korelasyon katsayıları kullanarak hesaplayınız. Değişkenler arasında anlamlı bir ilişki varsa regresyon modelini oluşturarak modelin
anlamlılığını test ediniz. No Yaş Rank %Yağ Rank No Yaş Rank %Yağ Rank
1 23 1.5 9.5 2 10 53 10.5 34.7 16
2 23 1.5 27.9 7 11 53 10.5 42.0 18
3 27 3.5 7.8 1 12 54 12.0 29.1 8
4 27 3.5 17.8 3 13 56 13.0 32.5 12
5 29 5.0 31.4 11 14 57 14.0 30.3 9
6 41 6.0 25.9 5 15 58 15.5 33.0 13
7 45 7.0 27.4 6 16 58 15.5 33.8 14
8 49 8.0 25.2 4 17 60 17.0 41.1 17
9 50 9.0 31.1 10 18 61 18.0 34.5 15
AGE
706050403020
FA
TP
ER
C
50
40
30
20
10
0FAT
%
Correlations
1 ,749**. ,000
18 18,749** 1,000 .
18 18
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
AGE
FATPERC
AGE FATPERC
Correlation is significant at the 0.01 level (2-tailed).**.
Correlations
1,000 ,754**. ,000
18 18,754** 1,000,000 .
18 18
Correlation CoefficientSig. (2-tai led)NCorrelation CoefficientSig. (2-tai led)N
AGE
FATPERC
Spearman's rhoAGE FATPERC
Correlation is significant at the 0.01 level (2-tai led).**.
SPSS ÇIKTISI
Coefficientsa
5,806 5,258 1,104 ,286 -5,340 16,953,498 ,110 ,749 4,518 ,000 ,264 ,732
(Constant)AGE
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig. Lower Bound Upper Bound95% Confidence Interval for B
Dependent Variable: FATPERCa.
Model Summary
,749a ,561 ,533 6,2483Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), AGEa.
ANOVAb
796,878 1 796,878 20,411 ,000a
624,660 16 39,0411421,538 17
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), AGEa.
Dependent Variable: FATPERCb.