第十三章 線性關係的分析:相關與迴歸
DESCRIPTION
第十三章 線性關係的分析:相關與迴歸. Analysis of Linear Relationship: Correlation and Regression. 課程目標. 瞭解線性關係的概念 瞭解相關係數的原理 瞭解其他類型的相關係數的概念 瞭解迴歸分析的原理 瞭解迴歸分析的假設 熟習相關與迴歸的 SPSS 統計應用. 線性關係的分析原理. 線性關係( linear relationship ) 指兩個變項的關係呈現直線般的共同變化 數據的分佈可以被一條最具代表性的直線來表達的關聯情形 。 - PowerPoint PPT PresentationTRANSCRIPT
第十三章 相關與迴歸 1/26
☆ 量化研究與統計分析…… .
第十三章第十三章線性關係的分析:相關與迴歸線性關係的分析:相關與迴歸
Analysis of Linear Relationship: Analysis of Linear Relationship:
Correlation and RegressionCorrelation and Regression
第十三章 相關與迴歸 2/26
☆ 量化研究與統計分析…… .
課程目標• 瞭解線性關係的概念• 瞭解相關係數的原理• 瞭解其他類型的相關係數的概念• 瞭解迴歸分析的原理• 瞭解迴歸分析的假設• 熟習相關與迴歸的 SPSS 統計應用
第十三章 相關與迴歸 3/26
☆ 量化研究與統計分析…… .
線性關係的分析原理• 線性關係( linear relationship )
– 指兩個變項的關係呈現直線般的共同變化– 數據的分佈可以被一條最具代表性的直線來表達的關聯情形 。
– 該直線之方程式為 Y=bx+a , b 為斜率(即 Δy/Δx ,每單位的 X 變動時,在 Y 軸上所變動的量)
• 線性關係可以散佈圖來表現
身高
190180170160150
體重
90
80
70
60
50
40
第一節
第十三章 相關與迴歸 4/26
☆ 量化研究與統計分析…… .
五種不同的相關情形– 完全正相關( perfect positive correlation )– 完全負相關( perfect negative correlation )– 正相關( positive correlation )– 負相關( negative correlation )– 零相關( zero correlation )
關聯方向 關聯情形
正向關係 負向關係
完全關聯 完全正相關 完全負相關
有關聯 正相關 負相關
關
聯
強
度 無關聯 零相關
第二節
第十三章 相關與迴歸 5/26
☆ 量化研究與統計分析…… .
X
Y
cov(x,y)
SDx2
X
Y
SDy2
相關分析的圖示
11
)(Variance
2
N
SS
N
XX x
1
))((Covariance
N
YYXX
yx
xy
yx SSSS
SP
YYXX
YYXX
ss
yxr
22 )()(
))((),cov(
第二節
第十三章 相關與迴歸 6/26
☆ 量化研究與統計分析…… .
積差相關的假設考驗
• 相關係數是否具有統計上的意義,則必須透過統計考驗 (t-test) 來判斷
• 從樣本得到的 r 是否來自於相關為 0 的母體,即 H0:ρXY= ( ρ0=0 )
• 相關係數的 t 檢定的自由度為 N-2 ,因為兩個變項各取一個自由度進行樣本變異數估計
2
1 2
00
N
r
r
s
rt
r
第二節
第十三章 相關與迴歸 7/26
☆ 量化研究與統計分析…… .
相關係數的特質1. 隨著共變數的大小與正負向,相關係數可以分
為正相關 ( 完全正相關 ) 、負相關 ( 完全負相關 ) 、零相關五種情形。
2. 相關的大小需經顯著性檢定來證明是否顯著( 是否有統計上的意義 ) 。
3. 相關係數介於 -1 至 1 之間。4. 相關情形的大小非與 r 係數大小成正比5. 相關並不等於因果6. 相關係數沒有單位 , 可以進行跨樣本的比較
第二節
第十三章 相關與迴歸 8/26
☆ 量化研究與統計分析…… .
相關係數的強度大小與意義
相關係數範圍(絕對值) 變項關聯程度
1.00 完全相關
.70至.99 高度相關
.40至.69 中度相關
.10至.39 低度相關
.10以下 微弱或無相關
第二節
第十三章 相關與迴歸 9/26
☆ 量化研究與統計分析…… .
點二系列相關係數• 適用於二分變數的相關係數計算
• rpb的係數數值介於 1.0 之間,絕對值越大,表示兩個變項的關係越強– 當 rpb係數為正時,表示二分變項數值大者,在連續變項上的得分越高– 當 rpb係數為負時,表示二分變項數值小者,在連續變項上的得分越高
• 當 p 與 q 數值為越接近 0.5 時, rpb的數值才有可能接近 1.0• 二分變項也可以視為一種連續變項,其與其他任何連續變項
的相關,即等於 Pearson’s r
pqs
XXr
tpb
21
第三節
第十三章 相關與迴歸 10/26
☆ 量化研究與統計分析…… .
eta 係數 • 適用於一個類別變項與連續變項的相關,可以反應非
線性關係的強度 • 原理是計算類別變項的每一個數值(類別)下,連續
變項的離散情形佔全體變異量的比例• 各類別中,在連續變項上的組內離均差平方和,佔總
離均差平方和的百分比(以 X 無法解釋 Y 的誤差部分),比例越小,表示兩變項的關聯越強
• η 係數數值類似積差相關係數,介於 0 至 1 之間,取平方後稱為 η2 ,具有削減誤差百分比( PRE )的概念,又稱為相關比( correlation ratio )
2
2
2
22
)(
)(1
)(
)()(
YY
YY
YY
YYYY kk
第三節
第十三章 相關與迴歸 11/26
☆ 量化研究與統計分析…… .
偏相關與部分相關
• 偏相關( partial correlation )與部分相關( part correlation )– 計算兩個變項的相關係數時,把第三變項的影響加以控制的技術
(b)
YX YX
(a)
C
(c)
YX
C
(d)
YX
C
(e)
YX
C
第三節
第十三章 相關與迴歸 12/26
☆ 量化研究與統計分析…… .
淨相關與部份相關 • 線性關係的統計控制
– 如果兩個連續變項之間的關係,可能受到其他變項的干擾之時,或研究者想要把影響這兩個變項的第三個變項效果排除,可以利用控制的方式,將第三變項的效果進行統計的控制。
• 淨相關 – 在計算兩個連續變項 X1 與 X2 的相關之時,將第三變項( X3 )與兩個
相關變項的相關 r13 與 r23 予以排除之後的純淨相關,以 r12 . 3 來表示。
• 部份相關 – 計算 X1 與 X2 的單純相關,如果在計算排除效果之時,僅處理第三變項
與 X1 與 X2 當中某一個變項的相關之時,所計算出來的相關係數,稱之為部份相關,或稱為半淨相關( semipartial correlation )
223
213
2313123.12
11 rr
rrrr
2
23
231312)3.2(1
1 r
rrrr
第三節
第十三章 相關與迴歸 13/26
☆ 量化研究與統計分析…… .
均值迴歸( regression toward the mean )
• 緣起– 1855 年,英國學者 Galton 以“ Regression towa
rd mediocrity in heredity stature” ,分析孩童身高與父母身高之間的關係
– 父母的身高可以預測子女的身高:當父母身高越高或越矮時,子女的身高會較一般孩童高或矮
– 當父母親身高很高或很矮(極端傾向)時,子女的身高會不如父母親身高的極端化,而朝向平均數移動( regression toward mediocrity )
第四節
第十三章 相關與迴歸 14/26
☆ 量化研究與統計分析…… .
迴歸原理• 迴歸原理
– 將連續變項的線性關係以一最具代表性的直線來表示,建立一個線性方程式 Y’=bX+a , b 為斜率, a 為截距
– 透過此一方程式,代入特定的 X 值,求得一個 Y 的預測值。– 此種以單一獨變項 X去預測依變項 Y 的過程,稱為簡單迴歸( si
mple regression ) • 最小平方法與迴歸方程式
– 配對觀察值( X,Y ),將 X 值代入方程式,得到的數值為對 Y 變項的預測值,記為 Y’
– 差值 Y-Y’ 稱為殘差( residual ),表示利用迴歸方程式無法準確預測的誤差
– 最小平方法:求取殘差的平方和最小化的一種估計迴歸線的方法– 利用此種原理所求得的迴歸方程式,稱為最小平方迴歸線
第四節
第十三章 相關與迴歸 15/26
☆ 量化研究與統計分析…… .
迴歸方程式與未標準化迴歸係數
• 迴歸方程式 的斜率與截距
x
xy
i
ii
x
xy SS
SP
XX
YYXX
s
yxb
22.
)(
))((),cov(
XbYa xy .
xyxy aXbY ..
第四節
第十三章 相關與迴歸 16/26
☆ 量化研究與統計分析…… .
標準化迴歸係數( standardized regression coefficient )
• 標準化迴歸係數– 將 b 值乘以 X 變項的標準差再除以 Y 變項的標準差,即可去除單
位的影響,得到一個不具特定單位的標準化迴歸係數– 標準化迴歸係數稱為( Beta )係數。係數是將 X 與 Y 變項所有
數值轉換成 Z 分數後,所計算得到的迴歸方程式的斜率•
係數具有與相關係數相似的性質,數值介於 -1 至 +1 之間– 絕對值越大者,表示預測能力越強,正負向則代表 X 與 Y 變項的
關係方向
y
xxyxy s
sb ..
第四節
第十三章 相關與迴歸 17/26
☆ 量化研究與統計分析…… .
迴歸誤差與可解釋變異
• 觀察值 Y=bX+a+e
• 迴歸方程式為• 誤差為兩者之差: e=Y- Y’
迴歸離均差
誤差
原始離均差
Xi
xyxy aXbY ..
Y=bX+a
第四節
第十三章 相關與迴歸 18/26
☆ 量化研究與統計分析…… .
迴歸解釋變異量 • 迴歸解釋變異量 (R2)
– 表示使用 X去預測 Y 時的預測解釋力(獨變項對於依變項的解釋力)
– 即 Y 變項被自變項所削減的誤差百分比 iiii YYYYYYe )()(
eregiit SSSSYYYYYYSS 222 )()()(
2
2
2
2
)(
)(
)(
)(1
YY
YY
YY
YY
SS
SS
SS
SS
i
ii
i
i
t
e
t
reg
PRESS
SS
SS
SSR
t
reg
t
e 12
第四節
第十三章 相關與迴歸 19/26
☆ 量化研究與統計分析…… .
調整迴歸解釋變異量 • R2無法反應模型的複雜度(或簡效性)• 簡效性( parsimony )問題
– 不斷增加獨變項, R2不會減低( R2為獨變項數目的非遞減函數)– 研究者為了提高模型的解釋力,不斷的投入獨變項,每增加一個獨變項,損失
一個自由度,最後模型中無關的獨變項過多,自由度變項,失去了簡效性• 調整後 R2 ( adjusted R2)
– 為了處罰增加獨變項所損失的簡效性,將自由度的變化作為分子與分母項的除項加以控制,可以反應因為獨變項數目變動的簡效性損失的影響
– 當獨變項數目( p )越多, adjR2越小– 當樣本數越大,對於簡效性處罰的作用越不明顯
)1/(
)1/(1
/
/12
NSS
pNSS
dfSS
dfSSadjR
t
e
tt
ee
第四節
第十三章 相關與迴歸 20/26
☆ 量化研究與統計分析…… .
迴歸模型的顯著性考驗
• R2 的基本原理是變異數,因此對於 R2 的檢定可利用 F 考驗來進行
1/
/
/
/)1,(
pNSS
pSS
dfSS
dfSS
MS
MSF
e
reg
ee
regreg
e
regpNp
變異來源 SS df MS F
迴歸效果 SSr p SSr/dfr MSr/MSe
誤差 SSe N-p-1 SSe/dfe
全 體 SSt N-1
第四節
第十三章 相關與迴歸 21/26
☆ 量化研究與統計分析…… .
估計標準誤 • 預測誤差 e 是一個呈現常態分配的隨機變數,平均數為 0 ,標準差為 se
• 估計標準誤的計量性質是標準差,因此可用以反應誤差分配的離散情形– 標準誤越大,估計誤差越大– 標準誤越小,估計誤差越小
• 估計標準誤– 取誤差變異的平方和除以自由度( N-k-1 )的開方,亦即 F 考驗當中的誤差均方( MSe )的開方
e
ee df
SS
kN
YYs
1
)( 2
第四節
第十三章 相關與迴歸 22/26
☆ 量化研究與統計分析…… .
迴歸模型的參數估計 • 個別的迴歸係數 b 或可以用以說明預測變項對於依變項的解釋力
• 迴歸係數數值的統計意義需經過假設考驗來檢驗– R2的顯著性考驗是迴歸分析的整體考驗( overall test ) – 迴歸係數的考驗可視為事後考驗( post hoc test )
• 迴歸係數的考驗– H0 : =0– 利用 t 檢定,自由度為 N-p-1 :
x
eb
SS
s
b
s
bt
2
第四節
第十三章 相關與迴歸 23/26
☆ 量化研究與統計分析…… .
迴歸係數的區間估計 • b 係數為未標準化係數,用以反應獨變項對於依變項的影響程度
• b 係數可以得知獨變項的變動在依變項的變動情形
• 利用模型的迴歸係數標準誤, b 係數的區間估計可用來推估母數出現的範圍
• 利用 b 係數的 95%信心估計區間是否涵蓋 0 ,來檢驗 b 係數是否顯著不等於 0
bdf stbCI ),2/()1(
第四節
第十三章 相關與迴歸 24/26
☆ 量化研究與統計分析…… .
迴歸分析的基本假設( 一 ) 固定自變項假設( fixed variable )
– 特定自變數的特定數值應可以被重複獲得,然後得以此一特定的 Xi 代入方程式而得到預測值。
( 二 ) 線性關係假設( linear relationship )– 當 X 與 Y 的關係被納入研究之後,迴歸分析必須建立在變項之間具有線性關係的
假設成立上。( 三 ) 常態性假設( normality )
– 迴歸分析中的所有觀察值 Y 是一個常態分配,即 Y 來自於一個呈常態分配的母群體。因此經由迴歸方程式所分離的誤差項 e ,即由特定 Xi 所預測得到的與實際 Yi 之間的差距,也應呈常態分配。誤差項 e 的平均數為 0 。
( 四 ) 誤差獨立性假設( independence )– 誤差項除了應呈隨機化的常態分配,不同的 X 所產生的誤差之間應相互獨立,無
相關存在,也就是無自我相關( nonautocorrelation )。( 五 ) 誤差等分散性假設( homoscedasticity )多元共線性假設
– 特定 X水準的誤差項,除了應呈隨機化的常態分配,且其變異量應相等,稱為誤差等分散性
第四節
第十三章 相關與迴歸 25/26
☆ 量化研究與統計分析…… .
等分散性假設圖示
第四節
第十三章 相關與迴歸 26/26
☆ 量化研究與統計分析…… .
Time for restChapter 13 is done here.. See you later!