개념 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_spring/lm/lm_로지스틱회귀.pdf ·...

5
Linear Model Spring 2015 로지스틱회귀 개념 로지스틱 회귀분석에서 종속변수 값은 0, 1(사건: 성공, 불량)로 입력된다. 로지스틱 회귀분 석은 이진형 반응변수 뿐 아니라 반응변수가 순서형(ordinal) 분류형인 경우 사용할 수 있다. 예를 들면 종속 변수가 고객의 신용도이고 이 변수가 (상, 중, 하) 분류되어 있는 경우 사용할 수 있다. 종속변수의 수준이 3개 이상인 경우 LOGISTIC 모형을 사용하는 것이 아니라 CATMOD를 사용해야 한다고 언급한 책이 있다. 그러나 CATMD는 CATegorical data MODeling의 약어로 분류변수 자료 모형화이며, LOGISTIC 모형은 CATMOD 기법의 한 부분이다. , 로지스틱 회귀모형의 종속 변수는 0과1 두 값만 가지므로(더 이상 정규분포를 따르지 않는 다) 결정계수( )가 매우 낮고(이산형 변수의 문제점, 설문 분석의 Likert 척도 문항도 같은 문제) F-검정이나 t-검정을 사용하여 모형, 회귀 계수 유의성 검정을 하는데 문제가 있다. 가 장 큰 문제는 종속 변수 가 이진형인 경우(자료가 0, 1만 존재) OLS에 의한 계수 추정은 무 의미 하여 음의 값이 예측되거나 부호 자체가 달라지게 된다. 또한 이진형 변수의 특성상 이 분산 가능성이 매우 높다. ODDS 를 임의의 사건이 발생할(성공) 확률이라고 할 때, 오즈는 성공 확률을 실패할 확률로 나눈 값으로 도박의 기준이 된다. 한국이 2002년 16강에 들어갈 확률 0.1이면 1/9이 Odds이다. 즉 한국 승리에 1$을 걸은 사람은 한국이 이길 경우 9$을 상금으로 받게 된다. 브라질이 2002 년 16강에 들어갈 확률 0.8이면 4가 Odds이다. 그러므로 4$을 걸면 1$을 상금으로 받게 됨 ODDS transformation 종속변수를 라고 생각해 보면 종속 변수는 어떤 사건이 일어날 확률이 ( ) 된다. 여기에 odds 개념을 적용하여 종속변수를 Odds 변환을 해 보자. 확률 가 (0,1) 사이의 값을 가지므로 는 (0, ∞) 값을 가진다. 변환을 하면 이 변수 는 (-∞,∞) 값을 가지므로 아래 모형에서 오차항의 (회귀 분석 가정)에는 문 제가 없을 것이다. i pi p i i i e x x x x f y + + + + + = = β β β α .. ) ( 2 2 1 1 ) , 0 ( ~ 2 σ iidN e i 2 R i y odds = p 1 p p p p p = 1 * ) 1 Pr( = = = Y p y i i 1 = Y i i p p p i = 1 * i p * i p ) ln( * i p ) , 0 ( ~ 2 σ Normal e i 한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page 15

Upload: others

Post on 08-Oct-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 개념 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Spring/LM/LM_로지스틱회귀.pdf · 로지스틱 회귀모형의 종속 변수는 0과1 두 값만 가지므로(더 이상 정규분포를

Linear Model Spring 2015 로지스틱회귀

개념

로지스틱 회귀분석에서 종속변수 값은 0, 1(사건: 성공, 불량)로 입력된다. 로지스틱 회귀분석은 이진형 반응변수 뿐 아니라 반응변수가 순서형(ordinal) 분류형인 경우 사용할 수 있다. 예를 들면 종속 변수가 고객의 신용도이고 이 변수가 (상, 중, 하) 분류되어 있는 경우 사용할 수 있다. 종속변수의 수준이 3개 이상인 경우 LOGISTIC 모형을 사용하는 것이 아니라 CATMOD를 사용해야 한다고 언급한 책이 있다. 그러나 CATMD는 CATegorical data MODeling의 약어로 분류변수 자료 모형화이며, LOGISTIC 모형은 CATMOD 기법의 한 부분이다.

��� ,

로지스틱 회귀모형의 종속 변수는 0과1 두 값만 가지므로(더 이상 정규분포를 따르지 않는

다) 결정계수( )가 매우 낮고(이산형 변수의 문제점, 설문 분석의 Likert 척도 문항도 같은 문제) F-검정이나 t-검정을 사용하여 모형, 회귀 계수 유의성 검정을 하는데 문제가 있다. 가

장 큰 문제는 종속 변수 가 이진형인 경우(자료가 0, 1만 존재) OLS에 의한 계수 추정은 무의미 하여 음의 값이 예측되거나 부호 자체가 달라지게 된다. 또한 이진형 변수의 특성상 이분산 가능성이 매우 높다.

ODDS

를 임의의 사건이 발생할(성공) 확률이라고 할 때, 오즈는 성공 확률을 실패할 확률로 나눈

값으로 도박의 기준이 된다. 한국이 2002년 16강에 들어갈 확률 0.1이면 1/9이 Odds이다. 즉 한국 승리에 1$을 걸은 사람은 한국이 이길 경우 9$을 상금으로 받게 된다. 브라질이 2002년 16강에 들어갈 확률 0.8이면 4가 Odds이다. 그러므로 4$을 걸면 1$을 상금으로 받게 됨

ODDS transformation

종속변수를 라고 생각해 보면 종속 변수는 어떤 사건이 일어날 확률이 ( )

된다. 여기에 odds 개념을 적용하여 종속변수를 Odds 변환을 해 보자.

확률 가 (0,1) 사이의 값을 가지므로 는 (0, ∞) 값을 가진다. 변환을 하면 이 변수

는 (-∞,∞) 값을 가지므로 아래 모형에서 오차항의 (회귀 분석 가정)에는 문제가 없을 것이다.

ipipiii exxxxfy +++++== βββα ..)( 2211 ),0(~ 2σiidNei

2R

iy

odds = p1− p

p

ppp−

=1

*

)1Pr( === Ypy ii 1=Y

i

ippp i −

=1

*

ip*ip )ln( *

ip

),0(~ 2σNormalei

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page1 5

Page 2: 개념 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Spring/LM/LM_로지스틱회귀.pdf · 로지스틱 회귀모형의 종속 변수는 0과1 두 값만 가지므로(더 이상 정규분포를

Linear Model Spring 2015 로지스틱회귀

로지스틱 회귀모형

이 모형을 Logistic 모형이라 한다.

, --- (로지스틱 모형)

양변 exp 취하면

위의 모형을 다시 쓰면 다음과 같다.

•회귀 계수의 부호가 양수이고 값이 커지면 (성공: , event)가 커지므로 성공 확률이

높아지고 부호가 음수이고 절대값이 커지면 가 작아지므로 성공 확률이 낮아진다.

•Exp(b)는 오즈비에 대한 설명변수의 곱의 영향 - 1보다 크면 성공에 양의 영향을 미침

모형의 적합성 검정 및 회귀계수 유의성 검정

•모형 전체의 유의성은 –2Log L , AIC(Akaike Information Criterion) Schwartz Criterion을 이용하고 (Adjusted 결정계수와 유사 개념)

•회귀계수의 유의성 검정은 Wald의 Chi-square 검정통계량을 이용한다.

SAS 활용

성공을 무엇으로 하였는지 프로필 참고

“낮음”을 성공으로 하였다고 나타냄

ipipiii

ii exxx

ppy +++++=−

= βββα ..)1

ln( 2211 ),0(~ 2σNormalei

pi1− pi

= e(α+β1x1+β2x2+...)

*}..{

*}..{

}..{

22112211

2211

1

1

1)|1Pr( ixxxixxx

xxx

i ee

ee

exYp

pipiipipii

pipii+

+=+

+===

++++−++++

++++

βββαβββα

βββα

ip 1=Y

ip

data smsa0; set ds.smsa; m_g="낮음"; if (mortality>=950) then m_g="높음"; run; proc logistic data=smsa0; model m_g=JanTemp--S02Pot/selection=stepwise sls=0.2 sle=0.2; run;run;

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page2 5

Page 3: 개념 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Spring/LM/LM_로지스틱회귀.pdf · 로지스틱 회귀모형의 종속 변수는 0과1 두 값만 가지므로(더 이상 정규분포를

Linear Model Spring 2015 로지스틱회귀

회귀계수 부호

•낮음이 성공이므로 1월 기온이 높을수록, 학력이 높을수록 사망률지수는 낮아짐

•비백인 비율이 높을수록, S02Pot 양이 높을수록 사망률지수는 높아짐

오즈비

•교육정도, 1월기온 오즈비가 1보다 크므로 사망률지수 낮음 (성공) 확률을 더 높임

•비백인비율, S02Pot 1보다 작으므로 사망률지수 높아짐

data smsa0; set ds.smsa; m_g="낮음"; if (mortality>=950) then m_g="높음"; run; proc logistic data=smsa0; model m_g=JanTemp education nonwhite S02Pot/stb ctable; output out=out1 pred=phat; run;

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page3 5

Page 4: 개념 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Spring/LM/LM_로지스틱회귀.pdf · 로지스틱 회귀모형의 종속 변수는 0과1 두 값만 가지므로(더 이상 정규분포를

Linear Model Spring 2015 로지스틱회귀

•회귀계수 - 사망률 낮음애 양의 영향을 주는 변수는 1월 기온과 교육수준, 즉 1월 기온이 높고 교육수준이 높을수록 사망률이 낮아짐, 비백인비율과 오염 SO2Pot 높으면 사망률이 높아짐.

•표준화 회귀계수 - Nonwhite 변수가 “사망률 낮음”에 가장 큰 영향

•Sensitivity 민감도 - 로지스틱 모형이 성공(사망률 낮음) 개체를 성공으로 분류한 비율 (정분류)

•Specificity 특이도 - 실패 개체를 실퍄라고 분류할 비율 (정분류)

•False Positive 거짓 양성 - 실패 개체를 성공으로 뷴류하는 비율 (오분류)

•False Negative 거짓 음성 - 성공 개체를 실패로 분류하는 비율 (오분류)

•Cable 옵션 - 민감도와 특이도를 활용하여 주관적으로 성공/실패 cut off 정할 수 있음, 민감도 90% 이상, 특이도 70% 이상으로 결정하면 0.3~0.42 - 0.42로 결정, 혹은 Correct 정분류 비율이 가장 높은 (85%) 0.52, 0.54 중 하나를 결정하면 됨

•SAS의 response value는 성공 확률 0.5 기준으로 그 이상이면 성공으로 =, 0.5 미만이면 실패로 자동 분류

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page4 5

Page 5: 개념 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Spring/LM/LM_로지스틱회귀.pdf · 로지스틱 회귀모형의 종속 변수는 0과1 두 값만 가지므로(더 이상 정규분포를

Linear Model Spring 2015 로지스틱회귀

R 활용

data smsa0; set ds.smsa; m_g="낮음"; if (mortality>=950) then m_g="높음"; run; proc logistic data=smsa0; model m_g=JanTemp education nonwhite S02Pot/stb ctable; output out=out1 pred=phat; run;

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page5 5