aplicação do algoritmo classification and regression trees ... · para seus nós filhos e isso é...

Aplicação do algoritmo Classification and Regression Trees na

segmentação de uma carteira de crédito

Marcos S. Oliveira,

Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe

Av. Marechal Rondon s/n, Rosa Elze, 49100-000, São Cristóvão-SE E-mail: [email protected]

Antonio S. A. da Silva, Rosilda B. de Souza, Lêda V. R. Santana

Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco

Rua Dom Manoel de Medeiros s/n, Dois Irmãos, 52171-900, Recife-PE, Brasil. E-mail: [email protected], [email protected], [email protected]

Palavras-chaves: segmentação de clientes, árvore de decisão, cálculo de Gini.

Resumo: No mercado financeiro, principalmente na concessão de crédito, é necessário aprimorar

tecnicamente a busca por melhores resultados em suas carteiras de clientes. Este estudo utiliza a

técnica árvore de decisão, construída através de um algoritmo baseado no cálculo de Gini para

gerar um modelo de segmentação. Para isso, utilizamos uma base de dados cedida por uma

instituição com visibilidade em empréstimo pessoal. Utilizando o SPSS, versão 18 demo, o seu

método CRT para desenvolvimento de árvores de decisão. Os resultados foram satisfatórios para

utilização da árvore de decisão em processos de segmentação de clientes.

1. Introdução

O acompanhamento, a medição e o controle comportamental da utilização do crédito e o

endividamento por parte de alguns clientes faz-se necessário para qualquer Instituição financeira

que deseje estar em condições de continuar no mercado, desenvolver técnicas que proporcione uma

segmentação de clientes satisfatória, no intuito de atingir a rentabilidade em caráter equilibrado e

rentável. A árvore de decisão é uma dessas técnicas, que utiliza também do cálculo de Gini para

proporcionar a separação da carteira.

A segmentação de clientes é um processo muito utilizado nas grandes instituições de crédito

(bancos, financeiras, cartões de crédito, etc.) para dar suporte à manutenção de clientes,

principalmente os melhores. A árvore de decisão é uma técnica que possibilita uma representação

intuitiva e de fácil entendimento [1].

A árvore de decisão é uma técnica com imenso poder de classificação de dados e muito

utilizada no desenvolvimento de segmentação de informação. Um dos grandes motivos da

utilização desta técnica refere-se ao fato desse método ter sido desenvolvido através da

representação de regras estruturais, baseadas em matemática ou em estatísticas. A facilidade do

entendimento pelas pessoas consiste por essas regras serem expressas em uma linguagem natural.

No desenvolvimento da árvore de decisão busca-se a assimilação de que cada nó de decisão tenha o

atributo com maior associação em relação aos demais que não foram utilizados ainda no caminho

iniciado na raiz (início) da árvore.

Grande parte dos algoritmos de indução para construção das árvores de decisão trabalha com

funções de divisão univariável, ou seja, cada nó interno da árvore é dividido de acordo com um

único atributo. Nesse caso, o algoritmo tenta encontrar o melhor atributo para realizar essa divisão.

No nosso trabalho utilizaremos o cálculo de Gini para formação dos nós.

34

ISSN 2317-3297

Quando uma árvore de decisão é finalmente desenvolvida, temos a facilidade do seu uso em

caráter imediato e muito rápido computacionalmente, aliado ao seu ponto forte de ser facilmente

interpretada, porém a construção necessita de alta demanda computacional.

2. Dados e metodologia

2.1. Dados

Utilizamos uma base de dados cedida por uma instituição com visibilidade em empréstimo pessoal,

com 69 variáveis referentes a 6 meses de observação, 1 mês de visão e 12 meses para performance,

totalizando 8.914 clientes. Construiu-se 10 novas variáveis com o interesse de aproveitar as

informações históricas e melhorar as condições de análise, sendo uma a dependente (binária em

mau e bom) e as demais corresponderam às independentes, que são Faixa Idade do Cliente, Faixa

Tempo de Crédito, Faixa Uso de Limite, Faixa Índice Fatura, Faixa Índice Limite, Faixa Soma

Pagamentos em Quantidades, Faixa Indice Pagamentos Valores, Faixa Inatividade e Faixa Última

Cobrança.

2.2. O cálculo de Gini

O cálculo de Gini é utilizado no algoritmo “Classification and Regression Trees”, conhecido por

CART ou CRT [1]. É uma medida bastante conhecida como Coeficiente de Gini, a qual emprega

um índice de dispersão estatística proposto em 1912 pelo estatístico italiano Corrado Gini. Este

índice é muito utilizado em análises econômicas e sociais, por exemplo, para quantificar a

distribuição de renda em um país. 1

1

11 )).((1n

k

kkkk xxyyG (1)

em que:

G é valor calculado de Gini;

y é a proporção acumulada da primeira variável a ser comparada;

x é a proporção acumulada da segunda variável a ser comparada.

O valor de G varia entre 0 e 1 e quanto mais próximo de 0, mais igual é a distribuição.

Enquanto um elevado coeficiente indica uma distribuição desigual, isto é, o valor zero corresponde

a perfeita igualdade e o valor 1 refere-se a perfeita desigualdade entre as variáveis comparadas [2].

2.3. Árvore de decisão

As árvores de decisão são construídas utilizando o recurso de partição recursiva binária. O termo

“binário” indica que as variáveis são divididas em duas quando é identificada uma diferença de

comportamento que possa aumentar o poder preditivo [1]. Estas divisões, chamadas “nós” se

repetem enquanto for identificada uma quebra que conduza a uma melhor predição.

O cálculo de Gini varia de 0 a 1 e com seu uso apenas definimos os valores de impureza para

um único nó que pode ser definida por uma árvore como a média ponderada dos valores de

impurezas a partir de nós terminais. Quando um nó é dividido em dois nós filhos, a impureza de

cada ramo é simplesmente a média ponderada das suas impurezas. Com o crescimento da árvore, o

35

ISSN 2317-3297

CRT divide um nó na variável independente que produz a maior redução de impureza (comparando

a impureza do nó pai para a impureza dos nós filhos). Esta mudança de impureza forma um nó pai

para seus nós filhos e isso é chamado de melhoria e aparece no diagrama de árvore.

Duas circunstâncias surgem quando se utiliza a impureza como um critério para o crescimento

das árvores. A primeira é poder quase sempre reduzir a impureza ampliando a árvore, e a segunda é

que toda árvore sempre possuirá a impureza zero, caso cresça o máximo possível. Com isso é

proposto a medida de custo-complexidade com poda [1]. Recomendando-se a geração de uma

árvore grande, talvez com apenas cinco níveis antes da poda, para grandes arquivos de dados será

computacionalmente intensivo, mas viável. Além de fornecer um ponto satisfatório com boas

soluções para formação de nós finais.

3. Resultados

Submetermos ao aplicativo “SPSS versão 18 demo” e o seu método CRT gerou 11 nós finais

correspondendo à segmentação de clientes disponibilizada pela árvore de decisão.

Tabela 1: Classificação

Observado Previsto

Mau Bom Acertos (%)

Mau 3078 689 81,7%

Bom 20 5127 99,6%

Acertos Gerais 92,0%

Na Tabela 1 temos a eficiência da segmentação de clientes nos acertos indicados entre o

observado na variável dependente (cliente mau e bom) e o previsto pela árvore de decisão.

Tabela 2: Nós finais gerados pelo CRT no SPSS 18.

Nó Dados Ganhos Gerais Ganhos no

Nó

Índice de

Ganhos Quantidade % Quantidade %

17 678 7,6% 674 13,1% 99,4% 172,2%

11 303 3,4% 297 5,8% 98,0% 169,8%

19 702 7,9% 683 13,3% 97,3% 168,5%

7 407 4,6% 394 7,7% 96,8% 167,7%

20 847 9,5% 771 15,0% 91,0% 157,6%

18 1103 12,4% 1003 19,5% 90,9% 157,5%

16 564 6,3% 464 9,0% 82,3% 142,5%

14 457 5,1% 348 6,8% 76,1% 131,9%

10 755 8,5% 493 9,6% 65,3% 113,1%

8 2155 24,2% 16 0,3% 0,7% 1,3%

12 943 10,6% 4 0,1% 0,4% 0,7%

De acordo com a Tabela 2, o “Nó 17” é indicado como o melhor onde acumulou um total de

678 clientes, equivalente a 7,6% do número total da base de dados, onde 674 foram classificados

como bons clientes pela variável dependente, sendo 13,3% do total de bons da base e a 99,4% de

todos os clientes segmentados no nó. O índice de ganhos neste nó é de 172,2%, isto é, todos os

36

ISSN 2317-3297

clientes incluídos neste nó poderão retornar em torno deste percentual de qualidade nas ações

executadas. Os clientes deste nó podem receber limites de crédito mais altos.

Figura 1: Árvore de decisão gerada pelo CRT do SPSS.

4. Conclusões

Neste estudo foi realizada a construção de um modelo para segmentação de clientes através da

árvore de decisão baseado no cálculo de Gini, com o intuito de classificar uma base de dados

contendo informações do comportamento dos clientes de uma instituição que concede empréstimo

pessoal. Para cada nó, segmentação de clientes, pode-se direcionar ofertas diferenciadas para

concessão de crédito, correspondendo à utilização de taxas de juros menores para os melhores nós

até menores percentuais de limites concedidos, de acordo com a renda, para os piores nós.

Ressaltamos a necessidade de construir procedimentos para validação do modelo,

principalmente quando são inseridos no processo de produção. Neste nosso trabalho não tivemos a

oportunidade de executarmos a validação por causa de restrições dos dados contidos na base.

A amostra utilizada foi cedida por uma Instituição Financeira e possui caráter confidencial.

5. Referências

[1] L. Breiman, J. H. Freidman, R. A. Olshen, C. J. Stone, “Classification and Regression Trees”,

Wadsworth, Belmont, 1984.

[2] V. P. M. Freire, “Uma métrica para ranqueamento em redes de colaboração baseada em

intensidade de relacionamento”, Dissertação de Mestrado, COPPE/UFRJ, 2010.

[3] L. Goodman, “The analysis of cross-classified data having ordered categories”, Harvard

University Press, Cambridge, 1984.

37

ISSN 2317-3297

aplicação do algoritmo classification and regression trees ... · para seus nós filhos e isso é...

Documents