aplicação do algoritmo classification and regression trees ... · para seus nós filhos e isso é...
TRANSCRIPT
Aplicação do algoritmo Classification and Regression Trees na
segmentação de uma carteira de crédito
Marcos S. Oliveira,
Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe
Av. Marechal Rondon s/n, Rosa Elze, 49100-000, São Cristóvão-SE E-mail: [email protected]
Antonio S. A. da Silva, Rosilda B. de Souza, Lêda V. R. Santana
Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco
Rua Dom Manoel de Medeiros s/n, Dois Irmãos, 52171-900, Recife-PE, Brasil. E-mail: [email protected], [email protected], [email protected]
Palavras-chaves: segmentação de clientes, árvore de decisão, cálculo de Gini.
Resumo: No mercado financeiro, principalmente na concessão de crédito, é necessário aprimorar
tecnicamente a busca por melhores resultados em suas carteiras de clientes. Este estudo utiliza a
técnica árvore de decisão, construída através de um algoritmo baseado no cálculo de Gini para
gerar um modelo de segmentação. Para isso, utilizamos uma base de dados cedida por uma
instituição com visibilidade em empréstimo pessoal. Utilizando o SPSS, versão 18 demo, o seu
método CRT para desenvolvimento de árvores de decisão. Os resultados foram satisfatórios para
utilização da árvore de decisão em processos de segmentação de clientes.
1. Introdução
O acompanhamento, a medição e o controle comportamental da utilização do crédito e o
endividamento por parte de alguns clientes faz-se necessário para qualquer Instituição financeira
que deseje estar em condições de continuar no mercado, desenvolver técnicas que proporcione uma
segmentação de clientes satisfatória, no intuito de atingir a rentabilidade em caráter equilibrado e
rentável. A árvore de decisão é uma dessas técnicas, que utiliza também do cálculo de Gini para
proporcionar a separação da carteira.
A segmentação de clientes é um processo muito utilizado nas grandes instituições de crédito
(bancos, financeiras, cartões de crédito, etc.) para dar suporte à manutenção de clientes,
principalmente os melhores. A árvore de decisão é uma técnica que possibilita uma representação
intuitiva e de fácil entendimento [1].
A árvore de decisão é uma técnica com imenso poder de classificação de dados e muito
utilizada no desenvolvimento de segmentação de informação. Um dos grandes motivos da
utilização desta técnica refere-se ao fato desse método ter sido desenvolvido através da
representação de regras estruturais, baseadas em matemática ou em estatísticas. A facilidade do
entendimento pelas pessoas consiste por essas regras serem expressas em uma linguagem natural.
No desenvolvimento da árvore de decisão busca-se a assimilação de que cada nó de decisão tenha o
atributo com maior associação em relação aos demais que não foram utilizados ainda no caminho
iniciado na raiz (início) da árvore.
Grande parte dos algoritmos de indução para construção das árvores de decisão trabalha com
funções de divisão univariável, ou seja, cada nó interno da árvore é dividido de acordo com um
único atributo. Nesse caso, o algoritmo tenta encontrar o melhor atributo para realizar essa divisão.
No nosso trabalho utilizaremos o cálculo de Gini para formação dos nós.
34
ISSN 2317-3297
Quando uma árvore de decisão é finalmente desenvolvida, temos a facilidade do seu uso em
caráter imediato e muito rápido computacionalmente, aliado ao seu ponto forte de ser facilmente
interpretada, porém a construção necessita de alta demanda computacional.
2. Dados e metodologia
2.1. Dados
Utilizamos uma base de dados cedida por uma instituição com visibilidade em empréstimo pessoal,
com 69 variáveis referentes a 6 meses de observação, 1 mês de visão e 12 meses para performance,
totalizando 8.914 clientes. Construiu-se 10 novas variáveis com o interesse de aproveitar as
informações históricas e melhorar as condições de análise, sendo uma a dependente (binária em
mau e bom) e as demais corresponderam às independentes, que são Faixa Idade do Cliente, Faixa
Tempo de Crédito, Faixa Uso de Limite, Faixa Índice Fatura, Faixa Índice Limite, Faixa Soma
Pagamentos em Quantidades, Faixa Indice Pagamentos Valores, Faixa Inatividade e Faixa Última
Cobrança.
2.2. O cálculo de Gini
O cálculo de Gini é utilizado no algoritmo “Classification and Regression Trees”, conhecido por
CART ou CRT [1]. É uma medida bastante conhecida como Coeficiente de Gini, a qual emprega
um índice de dispersão estatística proposto em 1912 pelo estatístico italiano Corrado Gini. Este
índice é muito utilizado em análises econômicas e sociais, por exemplo, para quantificar a
distribuição de renda em um país. 1
1
11 )).((1n
k
kkkk xxyyG (1)
em que:
G é valor calculado de Gini;
y é a proporção acumulada da primeira variável a ser comparada;
x é a proporção acumulada da segunda variável a ser comparada.
O valor de G varia entre 0 e 1 e quanto mais próximo de 0, mais igual é a distribuição.
Enquanto um elevado coeficiente indica uma distribuição desigual, isto é, o valor zero corresponde
a perfeita igualdade e o valor 1 refere-se a perfeita desigualdade entre as variáveis comparadas [2].
2.3. Árvore de decisão
As árvores de decisão são construídas utilizando o recurso de partição recursiva binária. O termo
“binário” indica que as variáveis são divididas em duas quando é identificada uma diferença de
comportamento que possa aumentar o poder preditivo [1]. Estas divisões, chamadas “nós” se
repetem enquanto for identificada uma quebra que conduza a uma melhor predição.
O cálculo de Gini varia de 0 a 1 e com seu uso apenas definimos os valores de impureza para
um único nó que pode ser definida por uma árvore como a média ponderada dos valores de
impurezas a partir de nós terminais. Quando um nó é dividido em dois nós filhos, a impureza de
cada ramo é simplesmente a média ponderada das suas impurezas. Com o crescimento da árvore, o
35
ISSN 2317-3297
CRT divide um nó na variável independente que produz a maior redução de impureza (comparando
a impureza do nó pai para a impureza dos nós filhos). Esta mudança de impureza forma um nó pai
para seus nós filhos e isso é chamado de melhoria e aparece no diagrama de árvore.
Duas circunstâncias surgem quando se utiliza a impureza como um critério para o crescimento
das árvores. A primeira é poder quase sempre reduzir a impureza ampliando a árvore, e a segunda é
que toda árvore sempre possuirá a impureza zero, caso cresça o máximo possível. Com isso é
proposto a medida de custo-complexidade com poda [1]. Recomendando-se a geração de uma
árvore grande, talvez com apenas cinco níveis antes da poda, para grandes arquivos de dados será
computacionalmente intensivo, mas viável. Além de fornecer um ponto satisfatório com boas
soluções para formação de nós finais.
3. Resultados
Submetermos ao aplicativo “SPSS versão 18 demo” e o seu método CRT gerou 11 nós finais
correspondendo à segmentação de clientes disponibilizada pela árvore de decisão.
Tabela 1: Classificação
Observado Previsto
Mau Bom Acertos (%)
Mau 3078 689 81,7%
Bom 20 5127 99,6%
Acertos Gerais 92,0%
Na Tabela 1 temos a eficiência da segmentação de clientes nos acertos indicados entre o
observado na variável dependente (cliente mau e bom) e o previsto pela árvore de decisão.
Tabela 2: Nós finais gerados pelo CRT no SPSS 18.
Nó Dados Ganhos Gerais Ganhos no
Nó
Índice de
Ganhos Quantidade % Quantidade %
17 678 7,6% 674 13,1% 99,4% 172,2%
11 303 3,4% 297 5,8% 98,0% 169,8%
19 702 7,9% 683 13,3% 97,3% 168,5%
7 407 4,6% 394 7,7% 96,8% 167,7%
20 847 9,5% 771 15,0% 91,0% 157,6%
18 1103 12,4% 1003 19,5% 90,9% 157,5%
16 564 6,3% 464 9,0% 82,3% 142,5%
14 457 5,1% 348 6,8% 76,1% 131,9%
10 755 8,5% 493 9,6% 65,3% 113,1%
8 2155 24,2% 16 0,3% 0,7% 1,3%
12 943 10,6% 4 0,1% 0,4% 0,7%
De acordo com a Tabela 2, o “Nó 17” é indicado como o melhor onde acumulou um total de
678 clientes, equivalente a 7,6% do número total da base de dados, onde 674 foram classificados
como bons clientes pela variável dependente, sendo 13,3% do total de bons da base e a 99,4% de
todos os clientes segmentados no nó. O índice de ganhos neste nó é de 172,2%, isto é, todos os
36
ISSN 2317-3297
clientes incluídos neste nó poderão retornar em torno deste percentual de qualidade nas ações
executadas. Os clientes deste nó podem receber limites de crédito mais altos.
Figura 1: Árvore de decisão gerada pelo CRT do SPSS.
4. Conclusões
Neste estudo foi realizada a construção de um modelo para segmentação de clientes através da
árvore de decisão baseado no cálculo de Gini, com o intuito de classificar uma base de dados
contendo informações do comportamento dos clientes de uma instituição que concede empréstimo
pessoal. Para cada nó, segmentação de clientes, pode-se direcionar ofertas diferenciadas para
concessão de crédito, correspondendo à utilização de taxas de juros menores para os melhores nós
até menores percentuais de limites concedidos, de acordo com a renda, para os piores nós.
Ressaltamos a necessidade de construir procedimentos para validação do modelo,
principalmente quando são inseridos no processo de produção. Neste nosso trabalho não tivemos a
oportunidade de executarmos a validação por causa de restrições dos dados contidos na base.
A amostra utilizada foi cedida por uma Instituição Financeira e possui caráter confidencial.
5. Referências
[1] L. Breiman, J. H. Freidman, R. A. Olshen, C. J. Stone, “Classification and Regression Trees”,
Wadsworth, Belmont, 1984.
[2] V. P. M. Freire, “Uma métrica para ranqueamento em redes de colaboração baseada em
intensidade de relacionamento”, Dissertação de Mestrado, COPPE/UFRJ, 2010.
[3] L. Goodman, “The analysis of cross-classified data having ordered categories”, Harvard
University Press, Cambridge, 1984.
37
ISSN 2317-3297