8 장 로지스틱 회귀분석

49
8 장 장장장장 장장장장

Upload: gavin-gamble

Post on 01-Jan-2016

215 views

Category:

Documents


1 download

DESCRIPTION

8 장 로지스틱 회귀분석. 8.1 개요. 로지스틱 회귀분석 (0,1) 기존의 선형 회귀분석의 종속변수 (Y) 를 범주형으로 확장한 것이다 . 범주형 변수 - ( 카테고리 ) Y 가 주식의 보유 / 매도 / 매수 를 나타내면 이 변수는 3 개의 범주를 갖는 범주형 변수라고 정의된다. 8.1 개요. 분류 - 0 과 1 로 분류 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 8 장  로지스틱  회귀분석

8 장 로지스틱 회귀분석

Page 2: 8 장  로지스틱  회귀분석

8.1 개요

로지스틱 회귀분석 (0,1) 기존의 선형 회귀분석의 종속변수 (Y) 를 범주형으로

확장한 것이다 .

범주형 변수 -( 카테고리 ) Y 가 주식의 보유 / 매도 / 매수 를 나타내면 이

변수는 3 개의 범주를 갖는 범주형 변수라고 정의된다 .

Page 3: 8 장  로지스틱  회귀분석

8.1 개요

분류 - 0 과 1 로 분류 로지스틱 회귀 분석은 하나의 집단에 속하지만 어느

집단인지 모르는 새로운 관찰치에 대해서 예측변수를 이용하여 특정 집단으로 분류하기 위해 사용될 수 있으며 이를 분류라 한다 .

프로파일링 - 관찰치들의 유사점 . 예측 변수를 이용하여 각 집단 내의 관찰치들 간의

유사점을 찾기 위해 집단에 대한 정보를 갖고 있는 데이터에서 사용하기도 하는데 . 이를 프로파일링 이라 한다 .

Page 4: 8 장  로지스틱  회귀분석

8.1 개요

로지스틱 회귀 분석은 다음과 같은 의사결정문제에 적용가능하다 .1. 반납 / 미납으로 고객을 분류하기 ( 분류 )2. 남녀 최고경영진을 판별하는 요인 찾기 (

프로파일링 )3. 신용점수와 같은 정보에 기초하여 대출의 승인 /

비승인을 예측하기 ( 분류 )

Page 5: 8 장  로지스틱  회귀분석

8.1 개요

다중 선형 / 로지스틱 회귀분석의 다른점 다중 선형 회귀분석은 연속형 Y 값을 예측 로지스틱 회귀분석은 어떤 집단에 속할것인지 예측

로지스틱 회귀분석의 2 단계 과정 :

1. 각 집단에 속하는 확률의 추정치를 계산 .

2. 각 관찰치를 어느 한 집단으로 분류하기 위해서 이러한 확률들에 분류 기준값을 적용 .

Page 6: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

로지스틱 회귀분석 범주형 출력변수를 설명 또는 예측하기 위한

모형이 필요한 경우에 사용 .

로짓의 숨은 개념 ( 중간 과정 ): 집단 0/1 에 속한 확률 p 를 구함 .

Page 7: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

식 (8.1)

식 (8.2)- 로지스틱 반응함수

Page 8: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

식 (8.3)- 승산 계산

식 (8.4)- 사건의 확률 계산

집단 1 에 속하는 승산

집단 0 에 속하는 승산

Page 9: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

승산 (odds)=>p/(1-p) p 는 어떤 사건이 발생할 확률 , 로 계산하며 ,

0 에서 무한대의 범위를 갖도록 바꿔 , 확률값을 더 편리하게 사용하기 위한 식입니다 .확률값이 0 에 가까우면 작은 값을 갖고 , 1 에 가까우면 큰 값을 갖도록 합니다 .

예 : 요일중에서 일요일을 무작위로 선택할확률 과 승산은 ?확률은 1/7 이고 승산은 1/6 , 6 to 1 , 6-1 ( 모두 six – to – one 이라 읽는다 )

결과를 얻지 못할 방법의 수

결과를 얻을 방밥의 수

Page 10: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

식 (8.5)- 승산과 예측변수 관계식(8.2)+(8.4)

식 (8.6)- 로지스틱 모형의 표준화된 공식

Page 11: 8 장  로지스틱  회귀분석

(a) 승산 (b) 로짓

Page 12: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

데이터 전처리 ( 예 1: 개인대출의 승인 )1. 학습 / 평가용 집합을 무작위로 데이터를 나눈다 .(60:40)2. 범주형 예측변수에 대해서는 더미변수를 만든다 .

EduProf EducGrad Securities CD Online Credit-Card

0 전문직 교육받은 경우

대학원졸업 교육을 받은 경우

고객이 은행에 증권계좌를 가지고 있는 경우

계좌 가진 경우

뱅킹을 사용하는 경우

은행의 신용카드를 보장한 경우

1 그외의 경우 그외의 경우 그외의 경우 그외의 경우

그외의 경우 기외의 경우

Page 13: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

단일 예측변수를 이용한 로지스틱 회귀분석 단일 예측변수인 소득을 사용하여 고객 분류 하고

확률의 관점에서 종속변수와 설명변수 간의 관계를 나타낸다 .

승산의 관점에서 표현한 표현식

Page 14: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

최대우도 추정치에 따라 추정된 추정 모형 우도란 ?/ 최대우도란 ?

어떤 시행의 결과 (Evidence) E 가 주어졌다 할 때 , 만일 주어진 가설 H 가 참이라면 , 그러한 결과 E 가 나올 정도는 얼마나 되겠느냐 하는 것이다 . 즉 결과 E 가 나온 경우 , 그러한 결과가 나올 수 있는 여러 가능한 가설들을 평가할 수 있는 측도가 곧 우도인 셈이다 .

우도함수을 최대로 하는 모수의 추정값을 최대우도추정량이라고 한다 .

1. 최대우도추정치2. B0=-6.3525 B1=0.0392

Page 15: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

소득의 함수이 개인대출에 대한 실제 데이터 좌표점들과 이를 적합시킨 로지스틱 곡선

Page 16: 8 장  로지스틱  회귀분석

분류기준값 : C = c/(1-c) 고객의 대출제안 수락의 승산 예연소득이 50000 달러인 고객

대출제안 수락의 확률

나온 수락의 확률을 분류기준값과 비교한다 .

Page 17: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

로지스틱 회귀분석의 추정 : 모수추정치의 계산 로지스틱 회귀분석에서 Y 와 베타 모수의 관계는 비선형이다 . 다중 회귀분석의 최소자승법이 아닌 , 최대우도법을 사용하여 베타

모수를 추정한다 .( 즉 모집단이 갖고 있는 것과 동일한 데이터를 얻는 가능성를 최대화하는 추정치를 찾는 것이다 .)

좋은 점근성을 보장하기 위하여 컴퓨터 프로그램을 사용하여 모수를 반복적으로 추정한다 .

Page 18: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

최대우도추정량의 특징 일치성

표본의 크기가 증가함에 따라 참의 값과 다를 추정확률은 0 으로 수렴한다 .

점근적 효율성 최대우도추정량의 분산은 일치추정량 중에서 가능한

최소값을 가진다 . 점근적 정규성 분포

표본의 크기가 클 경우 , 다중 선형 회귀 분석과 유사한 방식으로 신뢰구간을 계산하고 통계적 검정을 수행할 수 있다 .

Page 19: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

예 : P 값을 제외한 상태에서 12 개의 예측변수를 갖는 모형

에측변수의 값이 클수록 대출제안 수락확률이 높다 .

확률계산

Page 20: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

승산을 이용한 결과 분석 승산 (odds) 가정

개인대출제안에 대한 고객수락모형은 담음과 같이 소득에 대한 함수로 정의된다 .

기본적인 승산의 예 :소득이 0 인 고객이 대출제안을 수락할 승산은 exp[6.3525+(0.0392)(0)]=0.0017 로 추정된다 .

소득이 100,000 달러의 경우 승산은 exp[6.3525+(0.0392)(100)]=0.088 이 된다 .

Page 21: 8 장  로지스틱  회귀분석

8.2 로지스틱 회귀분석

소득 , 즉 x1 의 값은 x1 에서 x1+1 만큼 증가하고 반면 다른 예측변수는 일정한 값으로 고정되었다고 할때의 승산율은 다음과 같이 계산 된다 .

Page 22: 8 장  로지스틱  회귀분석

8.3 선형회귀분석이 범주형 반응변수에 적합하지 않은 이유 1. 각 관찰치에 대해서 Y 를 예측하거나 관찰치를 분류하기 위해 사용하는

모형이 반드시 0 또는 1 의 예측변수값을 갖는 것은 아니다 . 2. 만약 Y 가 오직 0 과 1 의 값만을 가진다면 그것은 정규분포라고 할수

없다 . 데이터 집합에서 1 이라는 숫자의 분포에 더 적합한 분포는 p=P(Y=1) 을 가지는 이항분포이다 .

3. 모든 집단에 대해서 Y 의 분산이 일정하다는 가정은 충족되지 않는다 . Y는 이항분포를 따르기 때문에 분산은 nP(1-p) 이다 .

Page 23: 8 장  로지스틱  회귀분석

3 개의 예측변수를 이용하여 개인대출 (PL, 대출이 받아들여진 고객은 PL=1, 그외는 PL=0 으로 표기함 ) 을 추정하는 다중 선형 회귀분석에 적용할 경우 다음과 같이 출력값의 일부를 얻게 된다 . 이 추정모형은 다음과 같다 .

예를 들어 연소득이 50000달러이고 가족이 2 명이며

유니버셜 은행의 CD 계좌를 갖지 않은 고객의 대출 제안은 수락은 -0.2346+(0.0329)(0)=-0.009 로

예측된다 .

Page 24: 8 장  로지스틱  회귀분석

8.4 분류 성과의 평가

가장 많이 사용되는 성과 측정치 정오분류표 리프트 도표

목적 :1. 예측변수만을 이용하여 관찰치가 속한 집단을 정확하게

분류하는것이다 . 2. 비록전체 모형의 정확도가 다소 낮아진다고 하더라도 특별히

관심하는 집단에 속하는 관찰치를 찾아내는데 뛰어난 능력을 보이는 모형을 찾는 것이다 .

Page 25: 8 장  로지스틱  회귀분석

정오분류표 분류 시스템의 데이터 분류문제에 있어서 실제값 ( 정답 ) 과 예측값 ( 실험결과 ) 의

정보를 담고 있다 .

정오분류표 의 각각의 항은 다음의 의미를 가지게 된다 . a 는 부정값인 데이터를 긍정값으로 예측한 올바른 예측들의 갯수이다 . b 는 부정값인 데이터를 부정값으로 예측한 잘못된 예측들의 갯수이다 . c 는 긍정값인 데이터를 긍정값으로 예측한 잘못된 예측들의 갯수이다 . d 는 긍정값인 데이터를 부정값으로 예측한 올바른 예측들의 갯수이다 .

현재값

긍정값 부정값

예측값 긍정값 a b

부정값 c d

Page 26: 8 장  로지스틱  회귀분석

리프트 도표 Lift chart- 로지스틱 회귀모형에 의한 응답에 대한 기대

반응률을 나타낸다 ), ROC(Receiver Operating Character-istic - 민감도와 특이도에 대한 곡선

Page 27: 8 장  로지스틱  회귀분석

8.4 분류 성과의 평가

로지스틱 회귀분석의 정오분류표를 얻는 순서1. 추정식으로 소속집단의 확률계산2. 분류기준값으로 관찰치의 소속집단을 결정3. 예측된 집단과 관찰치의 실제집단 비교

예 :

Page 28: 8 장  로지스틱  회귀분석

8.4 분류 성과의 평가

Page 29: 8 장  로지스틱  회귀분석

변수 선정 : 최종 모형의 선택에 있어서 변수투입에 따른 비용 , 오류의 경향성 그리고 모형의 복잡성 등과 같은 실제적인 문제들을 고려해야 한다 .

Page 30: 8 장  로지스틱  회귀분석

8.5 전체 적합도 평가

적합도 평가 : 모형이 데이터에 잘 적합되었는지에 대한 평가는 분석의 목적이

대체로 프로파일링인 경우에 중요하며 , 분석의 목적이 정확한 분류에 있는 경우에는 모형의 적합성에 대한 평가가 상대적으로 덜 중요하다 .

전체 적합도 평가 모형의 편차 D 를 단순 모형의 편차 D0 과 비교한다 . 다중 R2 의 측정치는 (D0-D)/D0 로계산 단순모형의 편차 D0=D/(1-R*R) 로 계산

모형이 편차

Page 31: 8 장  로지스틱  회귀분석

정오분류표와 리프트 도표는 최적의 모형을 만드는데 사용한 데이터와 동일한 데이터를 사용하기 때문에 이 정오분류표와 리프트 도표는 미래의 성과 측정치를 제공하지 못한다 . 따라서 학습용 집합의 정오분류표와 리프트 도표는 과적합화문제와 데이터 입력오류 또는 작업데이터 테이블의 잘못된 선택 등으로 인해 발생하는 기술적인 문제를 발견하기 위한 용도로 사용된다 .

Page 32: 8 장  로지스틱  회귀분석

8.6 예제분석 :

예제 분석 순서1. 모형의 적합화 추정2. 모형의 해석3. 모형의 성과4. 적합도5. 변수선정

Page 33: 8 장  로지스틱  회귀분석

8.6 예제분석 :

목적 : 데이터 집합에 포함되지 않은 새로운 항공기가

연착될지 여부를 정확하게 예측하는 것이다 . 종속변수는 이진변수로서 연착변수이며 연착은 1 그외는 0 으로 표시한다 .

Page 34: 8 장  로지스틱  회귀분석

예제의 변수 내역

Page 35: 8 장  로지스틱  회귀분석

20 대 항공기에 대한 표본

Page 36: 8 장  로지스틱  회귀분석

4 개 범주형 변수를 포함한다 . X1= 출발항공 x2 = 항공사 x3= 요일군 Y = 비행상태

1:월 - 수 =>컨티넨탈

2: 목 - 일 => 델 타

1:월 - 수 / 2: 목 -일

최악의 공항=>LAD

Page 37: 8 장  로지스틱  회귀분석

데이터 전처리1. 범주형 예측변수를 위해 더미변수를 만든다 .(

출발공항 2 개 , 도착공항 2 개 , 항공사 7 개 , 요일은 6 개 , 출발시간은 15 개 , 기상악화로 인한 연착 1 개 )

2. 학습용과 평가용 데이터를 60:40 의 비율로 나눈다 .

Page 38: 8 장  로지스틱  회귀분석

모형의 적합화와 추정1. 이 로직스틱 회귀모형에서 음의 계수가 1 보다 낮은

승산계수로 변환 되는것을 살펴야 한다 .2. 양의 로지스틱 회귀계수가 어떻게 1 보다 큰

승산계수로 변환되는지에 대하여 깊게 살펴야 한다 .

Page 39: 8 장  로지스틱  회귀분석

로지스틱 회귀분석의 추정결과

Page 40: 8 장  로지스틱  회귀분석

모형의 해석 : 예 : 도착공항인 JFK 의 계수는 -0.67 로

추정된다 . ( 이것은 LGA 에 도착하는 항공기가 JFK 에 도착하는 항공기보다 연착될 경향이 더 크다는 것을 의미한다 .)- 기준집단은 LGA 이다 .

Page 41: 8 장  로지스틱  회귀분석

모형의 성과 목적 :

항공기 가 연착할지 여부를 확인하여 항공기의 연착을 줄이거나 연착에 따른 효과를 경감시킬 수 있도록 관련 자원들을 관리하는데 있다 .

Page 42: 8 장  로지스틱  회귀분석

적합도 목적 :

추정된 로지스틱 모형이 학습용 데이터에 얼마나 잘 적합되었는지를 보기 위해서는 학습용데이터를 이용하여 편차와 같은 적합도 측정치 , 정오분류표 , 리프트 도표를 계산하기 위함 .

Page 43: 8 장  로지스틱  회귀분석

모형의 편차는 1.124 로 나타난다 . 낮은 다중 R2(13.45%) 은 모형이 유용하지 않다는것을 의미한다 .

엑셀의 CHIDIST 를 이용하여 CHIDIST(1299-

1124,24)=0.00

로지스틱 회귀모형이 단순모형보다 더 좋은

모델임을 설명해줌

Page 44: 8 장  로지스틱  회귀분석

변수 선정 : 변수 제거 재그룹화 변수군 선택 알고리즘

예 :

Page 45: 8 장  로지스틱  회귀분석

8.7 3 개 이상의 집단을 분류하는 로지스틱 회귀분석

m 개의 집단이 있을때에는 m 개의 확률값의 1 이기 때문에 m-1 개의 확률을 추정하면 된다 .

순위형 집단 : 순위정보를 가진 집단을 말한다 .( 매수 , 보유 , 매도 ) m=2 일때에는 이진형 로지스틱 회귀모형으로 사용 3<=m<=5 에는 확장된 로직스틱 회귀모형을 사용

Page 46: 8 장  로지스틱  회귀분석

모형에 대한 해석과 계산 단순화 :1. 집단에 속할 누적확률을 조사한다 .

예 : m=3 인 집단을 가진다고 할 때 1= 매수 ,2= 보유 ,3= 매수로 표기한다 . 모형에 의해 추정된 확률값은 P(Y<=1)( 매수를 추천할 확률 ) 과

P(Y<=2)( 매수 또는 보유를 추천 할 확률 ) 이다 .

Page 47: 8 장  로지스틱  회귀분석

2. 예측변수들의 함수로서 각 로짓 모형을 구축한다 .

주식추천에서 하난의 예측변수 x 를 갖는다면 다음의 2 개 식이 구해진다 .

Page 48: 8 장  로지스틱  회귀분석

3 개 집단의 사례에서 다음의 식이 얻어진다 . 여기서 a0,b0,b1 은 학습용 집합을 통해 얻는

추정치이다 .

Page 49: 8 장  로지스틱  회귀분석

명목형 집단 집단들이 순위형이 아니고 단순히 서로 다를 때 이러한 집단은

명목형 집단에 속한다 . 다음은 예측변수와의 관계가 선형인 m-1 개의 유사 로싲등식을

보여준다 .

학습용 집합을 이용하여 4 개의 로지스틱 회귀계수를 추정할 경우 , 각 집단에 속할 확률은 다음과 같이 추정될 수 있다 .