sas와 r을 사용한 데이터 분석

24
1 Team 1 20081367 이 종 민 20100275 이 창 열 20130866 신 중 민 20131301 오 재 훈 Century National Bank 고객분석 & 사업계획

Upload: jung-shin

Post on 11-Feb-2017

71 views

Category:

Business


4 download

TRANSCRIPT

Page 1: SAS와 R을 사용한 데이터 분석

1

Team 1

20081367 이 종 민

20100275 이 창 열

20130866 신 중 민

20131301 오 재 훈

Century National Bank

고객분석 & 사업계획

Page 2: SAS와 R을 사용한 데이터 분석

2

INTRO

CASE STUDY

SUGGESTION

- Problem

- Data

- Data Analysis & Result

- Implication & Action Plan

- Limitation & Further Study

Page 3: SAS와 R을 사용한 데이터 분석
Page 4: SAS와 R을 사용한 데이터 분석

To know the characteristics of our checking account customers.

How to increase our profit and enlarge market share

Page 5: SAS와 R을 사용한 데이터 분석

총 60명의 checking account 고객, 6가지의 주어진 변수

Balance : 잔고

ATM : 한 달에 ATM 사용횟수

Services : 은행의 다른 서비스 사용 횟수

Debit : Debit Card를 소지하고 있으면 1, 없으면 0 (factor)

Interest : Interest가 나오는 계좌면 1, 안 나오는 계좌면 0 (factor)

City : 사는 도시 (숫자에서 도시이름으로 바꾼 뒤 factorization)

새로운 변수 sum = ATM + Services (많을 수록 우리 은행을 주로 사용하고 있다고 볼 수 있음)

새로운 변수 ratio = (ATM/sum)*100 (현금을 사용하는 정도를 알 수 있음)

Outlier의 제거 : Balance <= 500 & sum<=5 & interest==0 & debit == 0

Balance ATM Services Debit Interest City sum ratio

46 32 2 0 0 0 Kentucky 2 100

Page 6: SAS와 R을 사용한 데이터 분석

Interest를 안 받는 계좌 : Checking account Monthly fee가 있다

Debit card의 수수료 거의 없다

ATM 수수료 낮다

백지수표 발행 가능

Interest를 받는 계좌 : Saving account 항상 높은 저축을 유지해야 한다

Monthly fee가 없다

Debit card의 수수료 높다

ATM 수수료 높다

백지수표 발행이 안 됨

미국은 debit card 사용환경이 잘 조성되어 있어 Checking account의 비율이 높음

Page 7: SAS와 R을 사용한 데이터 분석
Page 8: SAS와 R을 사용한 데이터 분석

▶ Balance에 대한 회귀모형 도출 : Stepwise selection method

변수 Sum, Interest, City를 포함한 회귀식 도출

Y = 584.86 + 77.84*sum + 167.56*interest + (-379.46)*Kentucky + (-342.01)*Ohio + (-415.63)*Pennsylvania

But, Interest는 유의수준을 벗어남 => Interest변수 제거

Page 9: SAS와 R을 사용한 데이터 분석

▶ Balance에 대한 회귀모형 도출 : 상호작용 존재여부 확인

P값이 유의수준보다 높다.

-> 상호작용 효과가 유의하지 않다.

Page 10: SAS와 R을 사용한 데이터 분석

▶ Balance에 대한 회귀모형 도출 : Interest변수 제외

변수 Sum, City를 포함한 최종 회귀식 도출

Y = 624.16 + 78.47*sum + (-363.86)*Kentucky + (-357.96)*Ohio + (-426.01)*Pennsylvania

Georgia Ohio Kentucky Pennsylvania

Page 11: SAS와 R을 사용한 데이터 분석

▶ Balance에 대한 회귀모형 도출 : Conclusion & Action Plan

결정계수의 값이 56%인 것으로 보아 Sum과 City변수로는 Balance의 56%정도만 설명 가능

-> Balance가 누적의 개념이 아닌 현금흐름이 지나가는 개념이기 때문

그러나, 기본적으로 은행 이용빈도(Sum)와 Balance사이에 양의 상관관계가 존재하는 것으로 보아

은행 이용에의 유인동기를 부여하여 Balance를 높일 수 있다.

이를 이용해 당행의 유동자산보유액을 늘려 다양하고 원활한 여신업무를 진행하여 수익 증대에 기여할 수 있다.

도시를 비롯한 다른 변수별 기초통계량을 함께 분석함으로써 유의한 사업전략 제시 가능

Page 12: SAS와 R을 사용한 데이터 분석

▶ City별 분석 : Georgia 17 / Kentucky 13 / Ohio 16 / Pennsylvania13

Balance

-> Georgia가 다른 도시들과 비교했을 때, 뚜렷하게 Balance가 높다

-> 1인당 GDP가 가장 높은 도시일 것이다.

<Balance>

Geogia Kentucky Ohio Pennsylvania

2500

2000

1500

1000

500

<Sum>

Geogia Kentucky Ohio Pennsylvania

20

10

<Ratio>

Geogia Kentucky Ohio Pennsylvania

80

60

40

Page 13: SAS와 R을 사용한 데이터 분석

▶ Interest 변수에 따른 분석 : Interest 미수수 계좌 43 / 수수 계좌 16

<Balance> <Sum> <Ratio>

Balance

-> Interest를 받는 고객은 Balance의 평균치가 높으며 표준편차가 작다.

-> 안정적이며 비교적 많은 현금공급이 가능한 고객군

Page 14: SAS와 R을 사용한 데이터 분석

▶ Interest 변수에 따른 분석 : Interest 미수수 계좌 43 / 수수 계좌 16

<Balance> <Sum> <Ratio>

Balance

-> Interest를 받는 고객은 Balance의 평균치가 높으며 표준편차가 작다.

-> 안정적이며 비교적 많은 현금공급이 가능한 고객군

Interest의 유무에 따라 차이가 큰 Balance를 각각의 도시에서 모두 분석

Page 15: SAS와 R을 사용한 데이터 분석

▶ City별 분석 : Balance based on Interest

<Georgia> <Kentucky> <Ohio> <Pennsylvania>

5 12 5 8 3 13 3 10

17 13 16 13

2000

1500

이자 미수수 이자 수수 이자 미수수 이자 수수

2000

1500

1000

500

이자 미수수 이자 수취

1500

1000

500

이자 미수수 이자 수수

2500

2000

1500

1000

500

Page 16: SAS와 R을 사용한 데이터 분석

▶ Debit card변수에 따른 분석 : Debit card 미소지자 33 / 소지자 26

<Balance> <Sum> <Ratio>

Sum & Ratio

-> Debit card의 유무에 따른 은행이용 차이는 크지 않으나

Debit card가 없는 사람은 현금사용을 주로 하므로 ATM 사용빈도가 높다

Page 17: SAS와 R을 사용한 데이터 분석

▶ Debit card변수에 따른 분석 : Debit card 미소지자 33 / 소지자 26

<Balance> <Sum> <Ratio>

Sum & Ratio

-> Debit card의 유무에 따른 은행이용 차이는 크지 않으나

Debit card가 없는 사람은 현금사용을 주로 하므로 ATM 사용빈도가 높다

Debit card의 유무에 따라 차이가 큰 Ratio를 각각의 도시에서 모두 분석

Page 18: SAS와 R을 사용한 데이터 분석

▶ City별 분석 : Ratio based on Debit

<Georgia> <Kentucky> <Ohio> <Pennsylvania> 17 13 16 13

8 9 6 7 7 9 5 8

미 소지자 소지자

80

70

60

50

미 소지자 소지자

80

70

60

65

75

85

미 소지자 소지자

80

70

60

50

90

미 소지자 소지자

80

40

60

20

Page 19: SAS와 R을 사용한 데이터 분석

▶ City별 분석 : 결론

Georgia : 전반적으로 Balance의 평균치가 높으며 다른 도시와 비교했을 때,

Interest를 받지 않는 고객 군이 Interest를 받는 고객 군보다 Balance 평균이 높다는 것이 특징이다.

-> 현금이 저축보다 거쳐가는 것으로 계좌가 사용되며, 현금유동성이 풍부한 상업종사자 고객이 많을 것이다.

Kentucky : Interest를 받는 고객 군의 Balance 표준편차가 극히 작다

Ohio : 전반적으로 Balance와 이용빈도의 평균치가 가장 낮다.

-> 다른 도시에 비해, 현금흐름이 적으며 상대적으로 저소득층 고객이 많을 것이다.

(Interest보다 Interest받지 않는 것으로 인한 수수료수익을 더 중요하게 생각하는 고객이 많을 것)

Pennsylvania : Balance와 sum의 표준편차가 가장 크며 다른 도시와 비교했을 때,

Debit card를 사용 하는 고객 군이 Debit Card를 사용하지 않는 고객 군보다

Ratio 평균이 높다는 것이 특징이다.

-> 고객들의 성향과 취향이 다양하다.

Page 20: SAS와 R을 사용한 데이터 분석

▶ 고객의 현금 유치를 통한 여신업무 증대 : 도시별 차별화된 전략 사용

Georgia : 이자수익을 비롯하여 여러가지 파생형 자산증대 상품을 홍보하여 고객 및 고객의 현금 유치

Ohio : 계좌를 통한 여수신 서비스 이용에 수수료인하 등 으로 신규고객 유치 및 기존고객 충성도 증대

Kentucky : 수수료 및 비용에 민감한 고객군이 존재하는 만큼 수수료인하를 이용해 고객 및 고객의 현금 유치

Pennsylvania : 다양한 고객층이 존재하는 만큼 고객자료를 더 모아 분석한 후 새로운 마케팅 전략에 따른

투자회수가 가능할 경우 새로운 전략 실행. 현재는 같은 사업전략 및 마케팅 지속

Page 21: SAS와 R을 사용한 데이터 분석
Page 22: SAS와 R을 사용한 데이터 분석

▶ 자료의 부족

Column 관점 : 고객의 성향을 파악하기 위해서는 한 고객에 대한 정보가 너무 적다.

Balance, ATM, Services, Interest, Debit, City뿐만 아니라

월급, 최근 한 달의 입금액과 출금액과 같은 data도 고객의 성향을 분석하는 데 좋은 변수가 될 것이다.

Row 관점 : 총 데이터가 60개이며, City별로는 약 15명 정도이다.

절대적으로 표본의 수가 부족해서 sample이 대표한다고 말할 수 없다.

Page 23: SAS와 R을 사용한 데이터 분석

▶ 더미변수들의 관계 파악 : Type 분류

Interest 받는 계좌 Interest 안 받는 계좌

Debit card 사용 A C

Debit card 미사용 B D

표본이 충분히 많다면, 더미변수들을 기준으로 계속해서 나누어서 더 구체적으로 성향을 파악한다.

Ex) 다음과 같이 4개의 Type으로 구분 하고 이를 City별로 나누어 총 16개로 나누어 분석한다.

Page 24: SAS와 R을 사용한 데이터 분석

24

Thank You!