luiz vieira e silva filho - repositorio.ufpe.br · pós-graduação em ciência da computação...

“Uma arquitetura para combinação declassificadores otimizada por métodos de poda

com aplicação em credit scoring”

Por

Luiz Vieira e Silva Filho

Dissertação de Mestrado Profissional

Universidade Federal de Pernambuco

[email protected]

www.cin.ufpe.br/~posgraduacao

Recife, 2014

www.cin.ufpe.br/~posgraduacao

Universidade Federal de PernambucoCentro de InformáticaPós-graduação em Ciência da Computação

Luiz Vieira e Silva Filho

“Uma arquitetura para combinação declassificadores otimizada por métodos de poda com

aplicação em credit scoring ”

Este trabalho foi apresentado à Pós-graduação em Ci-

ência da Computação do Centro de Informática da

Universidade Federal de Pernambuco como requisito

parcial para obtenção do grau de Mestre Profissional

em Ciência da Computação.

Orientador: Prof. George D. C. Cavalcanti

Recife, 2014

Catalogação na fonte Bibliotecária Joana D’Arc L. Salvador, CRB 4-572

Silva Filho, Luiz Vieira e. Uma arquitetura para combinação de classificadores otimizada por métodos de poda com aplicação em credit scoring / Luiz Vieira e Silva Filho. – Recife: O Autor, 2014. 79 f.: fig., tab.

Orientador: George Darmiton da Cunha Cavalcanti. Dissertação (Mestrado Profissional) - Universidade Federal de Pernambuco. CIN. Ciência da Computação, 2014. Inclui referências.

1. Computação. 2. Inteligência artificial. 3. Aprendizado do computador. I. Cavalcanti, George Darmiton da Cunha (orientador). II. Título.

004 (22. ed.) MEI 2014-90

Dissertação de Mestrado Profissional apresentada por Luiz Vieira e Silva Fi-

lho à Pós-Graduação em Ciência da Computação do Centro de Informática

da Universidade Federal de Pernambuco, sob o título Uma arquitetura para

combinação de classificadores otimizada por métodos de poda com aplica-

ção em credit scoring , orientada pelo Prof. Prof. George D. C. Cavalcanti e

aprovada pela Banca Examinadora formada pelos professores:

———————————————————————–

Prof. Teresa Bernarda Ludermir

Centro de Informática/UFPE

———————————————————————–

Prof. Tiago Alessandro Espínola Ferreira

Universidade Federal Rural de Pernambuco

———————————————————————–

Prof. George Darmiton da Cunha Cavalcanti

Centro de Informática/UFPE

Visto e permitida a impressão.

Recife, 17 de fevereiro de 2014

—————————————————————————————

Prof. EDNA NATIVIDADE DA SILVA BARROS

Centro de Informática da Universidade Federal de Pernambuco

Agradecimentos

Agradeço à minha esposa Maria das Neves, e aos meus filhos, André Luiz e

Felipe, pelo estímulo e apoio incondicional para que eu pudesse realizar um

sonho acalentado desde a juventude. Agradeço a essa maravilhosa família por

compreender os momentos em que precisei me ausentar do convívio familiar,

servindo ainda como esteio nas incontáveis horas de cansaço, permitindo-me

buscar energia para seguir adiante. Certamente, sem essa base de amor e

carinho o caminho teria sido muito difícil, e não sei se conseguiria atingir o

objetivo.

Um agradecimento especial ao Professor George Darmiton por estar sempre

disponível, sendo rápido, preciso e seguro em suas recomendações, desafiando-

me constantemente a fazer melhor, a buscar novos conhecimentos, tudo sem-

pre com muita paciência, bom humor, e inteligência. Sua vibração enquanto

mestre, fez-me admirá-lo e a sentir-me como um jovem estudante. Esta sensa-

ção revigorou meu espírito, e me instigou a ir mais fundo nesta fascinante área

da inteligência artificial. Espero poder seguir pesquisando.

Agradeço aos demais professores pelos valiosos ensinamentos que me foram

passados durante todo o curso, tornando possível a reciclagem profissional que

esperava obter ao final deste período.

Meu muito obrigado à jovem equipe de colegas com quem dividi os traba-

lhos do curso, formada pelos amigos Bira, Paulo, Diego e Felipe, conhecidos

como os ’backpropagation boys’, com quem aprendi sobre as mais recentes

tecnologias da ciência da computação. Seus espíritos alegres tornaram leves e

divertidas nossas aulas e trabalhos. Valeu amigos, vocês não têm ideia do bem

que me fizeram.

Um agradecimento às empresas onde trabalhei, e ainda trabalho, por com-

preenderem minhas ausências durante todo esse período.

Agradeço aos meus pais, por terem me ensinado desde criança o valor do

estudo, e do trabalho duro e honesto como forma de se realizar e contribuir

para transformar o mundo ao meu redor.

Por fim, dedico este trabalho a minha amada esposa, Maria das Neves,

companheira amorosa na estrada da vida, que desde sempre me incentivou a ir

em busca desse sonho. Essa conquista também é sua, lindinha. Amo você.

O sucesso normalmente contempla aqueles

que estão ocupados demais para procurar por ele.

—HENRY DAVID THOREAU

Resumo

Sistemas de Múltiplos Classificadores (Multiple Classifiers Systems - MCS) se ba-

seiam na ideia de que combinar a opinião de vários especialistas pode produzir

melhores resultados do que quando se usa apenas um especialista. Diversas

técnicas de MCS foram desenvolvidas, apresentando pontos fortes e fracos,

a depender do contexto em que são aplicadas. Este trabalho propõe uma ar-

quitetura para MCS que visa potencializar a complementaridade entre essas

técnicas, possuindo dois objetivos principais: i) a combinação de métodos

de amostragem tradicionais, visando a geração de classificadores de melhor

desempenho que componham um pool de classificadores; ii) a aplicação de

um algoritmo de poda para remover do pool aqueles classificadores incom-

petentes para lidar com o problema em questão, considerando os critérios de

seleção adotados. A arquitetura proposta foi avaliada em uma aplicação de

credit-scoring. Os métodos de amostragem usados foram o Bagging e o Ran-

dom Subspace com classificadores-base sendo árvores-de-decisão, construídas

com base no algoritmo CART. Para o processamento da poda foi usado o algo-

ritmo Orientation Ordering, e para combinação das saídas dos classificadores

do ensemble adotou-se o método Majority Vote. Os experimentos realizados

mostraram que a arquitetura proposta alcançou taxas de acerto similares ou

superiores às atingidas pelos métodos apresentados na literatura. Esses resul-

tados ainda foram obtidos com ensembles cujos tamanhos eram da ordem de

20% dos pools originais gerados na fase de treinamento.

Palavras-chave: MCS, Combinação de classificadores, ensembles, comitês,

poda de ensembles, árvores-de-decisão, credit scoring, ordenação de classifica-

dores.

Abstract

Multiple Classifiers Systems (MCS) are based on the idea that the combination

of the opinion of several experts can generate better results than when only

one expert is used. Several MCS techniques have been developed, each one

having its strengths and weaknesses depending on the context in which they

are applied. This work presents an architecture for MCS that aims to enhance

the complementarity of these techiques, having two main contributions: i) the

combination of two well-known sampling methods in order to generate better

classifiers to compose the pool of classifiers; ii) the application of a pruning

algorithm to remove classifiers that are not competent to deal with the problem

at hand, considering the selection criteria adopted. The proposed architecture

was evaluated in a credit scoring application. The sampling methods used

were Bagging and Random Subspace. The base classifiers used were decision

trees constructed based on the CART algorithm. For pruning, we used the

Orientation Ordering algorithm and the Majority Vote method was adopted

to combine the outputs of the classifiers in the ensemble. The experiments

showed that the proposed architecture obtained better or similar accuracy rates

when compared with literature methods. These results were also obtained with

ensembles whose sizes were around 20% of the original pools generated in the

training phase.

Keywords: MCS, classifiers combining, ensembles, committees, ensembles

pruning, decision-trees, credit scoring, classifiers ordering.

Lista de Figuras

3.1 Visão geral da arquitetura proposta composta por 3(três) fases:

Treinamento do pool de classificadores L; Poda de L com se-

leção de P , P ⊂ L; Teste de P usando método de combinação

não-ponderada de classificadores. . . . . . . . . . . . . . . . . . . . 40

3.2 Estratégias dual de treinamento (ou treinamento em 2 níveis)

para geração do Pool de Classificadores inicial . . . . . . . . . . . . 43

3.3 Esquema de poda baseada no algoritmo Orientation Ordering -

(OO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.1 Base de dados Australian - Desempenho da arquitetura em fun-

ção do tamanho do pool original de classificadores e da taxa de

seleção de características. Os gráficos variam quanto: à estra-

tégia dual adotada e à taxa de seleção adotada pelo Random

Subspace na fase de treinamento; e, ao método usado na fase

de poda. A taxa média de poda (TMP) indica para quanto foi

reduzido o tamanho do Pool original. . . . . . . . . . . . . . . . . . 61

4.2 Base de dados German - Desempenho da arquitetura em fun-

ção do tamanho do pool original de classificadores e da taxa

de seleção de características. Os gráficos variam quanto: à es-

tratégia dual adotada e à taxa de seleção adotada pelo Random

Subspace na fase de treinamento; e, ao método usado na fase

de poda. A taxa média de poda (TMP) indica para quanto foi

reduzido o tamanho do Pool original. . . . . . . . . . . . . . . . . . 62

4.3 Desempenho preditivo da arquitetura em função da taxa de se-

leção. Os gráficos variam quanto: à estratégia em dois níves

(dual) - Bagging-RS e RS-Bagging, adotada na fase de treina-

mento; e, ao método usado na fase de poda. O desempenho

é avaliado com base na taxa média de acerto, calculada como

sendo a média das taxas de acerto obtidas por cada um dos en-

semble, independente de tamanho, para cada uma determinada

taxa de seleção. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.4 Desempenho da arquitetura em função da quantidade de clas-

sificadores, considerando estratégia de treinamento em ape-

nas 1 nível (Bagging ). As curvas referem-se ao método usado na

fase de poda. A taxa média de poda (TMP) indica para quanto foi

reduzido o tamanho do pool original. . . . . . . . . . . . . . . . . . 65

Lista de Tabelas

3.1 Vetor de assinatura do ensemble . . . . . . . . . . . . . . . . . . . . . 49

3.2 Vetor de referência do ensemble . . . . . . . . . . . . . . . . . . . . . 49

3.3 Ângulos entre os vetores de assinatura dos classificadores e o

vetor de referência do ensemble . . . . . . . . . . . . . . . . . . . . . 49

4.1 Descrição das bases de dados utilizados nos experimentos . . . . 54

4.2 Parâmetros informados na configuração dos cenários dos experi-

mentos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.3 Tamanho dos pools de classificadores usados em cada cenário . 58

4.4 Taxas médias de acerto nos 21 cenários avaliados . . . . . . . . . . 66

4.5 10 melhores taxas de acerto utilizando-se treinamento em 2 níveis 68

4.6 Taxas médias de acerto dos 10 melhores resultados obtidos por

cada configuração da arquitetura . . . . . . . . . . . . . . . . . . . . 69

4.7 Taxas médias dos 10 melhores resultados usando o conceito do

Single Best . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Lista de Acrônimos

DT Decision Tree

EPIC Ensemble Pruning via Individual Contribution Ordering

IA Inteligência Artificial

MCS Multiple Classifiers System

MLP Multilayer Perceptron

OO Orientation Ordering

RAM Random Access Memory

RNA Rede Neural Artificial

RF Rotation Forest

RS Random Subspace

SVM Support Vector Machine

Sumário

1 Introdução 13

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3 Estrutura do documento . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Conceitos básicos 19

2.1 Por quê combinar classificadores ? . . . . . . . . . . . . . . . . . . . 20

2.1.1 Fundamentos na escolha de classificadores . . . . . . . . . 22

2.1.2 Escolha dos classificadores . . . . . . . . . . . . . . . . . . . 23

2.1.3 Momento da escolha dos classificadores . . . . . . . . . . . 24

2.1.3.1 Seleção dinâmica de Ensembles . . . . . . . . . . . 24

2.2 Arquitetura e projeto de MCS . . . . . . . . . . . . . . . . . . . . . . 24

2.2.0.2 Otimização da cobertura e otimização da decisão 26

2.3 Construindo MCS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3.1 Manipulando dados de treinamento . . . . . . . . . . . . . 27

2.3.2 Produzindo MCS . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.3.3 Podando MCS . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4 Combinando decisões . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.5 Trabalhos correlatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.5.1 Evolução da análise na concessão de crédito . . . . . . . . 33

2.5.2 Credit scoring e os MCS . . . . . . . . . . . . . . . . . . . . . 34

2.5.2.1 Classificadores base e métodos de geração de

ensembles . . . . . . . . . . . . . . . . . . . . . . . . 34

2.5.2.2 Incrementando a diversidade e a precisão . . . . 35

2.5.2.3 Otimizando a eficiência dos ensembles . . . . . . 36

3 Arquitetura proposta 38

3.1 Visão geral da arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Treinamento do pool de classificadores . . . . . . . . . . . . . . . . 39

3.3 Poda do pool de classificadores . . . . . . . . . . . . . . . . . . . . . 42

3.4 Teste do ensemble final . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.5 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4 Experimentos e resultados 53

4.1 Bases de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.3 Parametrização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5 Conclusões e trabalhos futuros 72

5.1 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Referências 76

1Introdução

Uma pessoa com uma crença é um poder social igual a

noventa e nove que possuem apenas interesses.

—JOHN STUART MILL (1861)

1.1 Motivação

Demandas da sociedade como aumento da segurança física e de sistemas,

acessibilidade de pessoas com necessidades especiais às facilidades da vida

moderna, sistemas automatizados de suporte à decisão em áreas como finanças,

marketing, medicina, engenharia, transporte são alguns exemplos de situações

que se utilizam, ou que poderiam se utilizar, aplicações baseadas em técnicas

de inteligência computacional.

Parte significativa dessas técnicas usa algoritmos de aprendizagem de má-

quina. Por outro lado, apesar de décadas de pesquisa produtiva, modernas

teorias ainda convivem com ideias ad hoc, intuição e especulação, o que se re-

flete na variedade de métodos e técnicas disponíveis ao pesquisador (Kuncheva,

2004).

Ao longo de décadas, cientistas vêm trabalhando no sentido de aperfei-

çoar tais algoritmos, com vistas a ampliar as taxas de acerto de suas decisões,

tornando-os assim mais eficazes em seus objetivos de agrupar padrões, inicial-

mente desconhecidos da máquina, em classes pré-definidas.

Um dos campos que vem recebendo bastante atenção dos pesquisadores

neste sentido é o que se refere a Sistemas de Múltiplos Classificadores, ou do

13

1.1. MOTIVAÇÃO

inglês, Multiple Classifiers Systems - MCS, também chamados de ensembles

(Ponti (2011);Wozniak et al. (2014)).

Os MCS vêm sendo estudados desde a segunda metade do século XX, tendo

como um dos seus pioneiros Oliver Selfridge, que em 1959 construiu o pri-

meiro modelo de sistemas com múltiplos especialistas, a arquitetura Pandemo-

nium (Selfridge, 1958). Daí por diante, importantes estudos foram publicados

usando diferentes termos, tais como: comitê, fusão de classificador, combina-

ção, agregação, mistura de especialistas, entre outros. Atualmente os termos

mais comuns são ensemble learning e MCS, muito usados pela comunidade de

aprendizagem de máquina (Ponti, 2011).

A ideia geral da combinação de classificadores parte do conceito intuitivo

de que, na maioria das vezes, a conjugação da opinião de diversos especialistas

em uma determinada área do conhecimento tende a produzir uma decisão de

melhor qualidade do que aquela gerada apenas por um único especialista. A

maioria dos esforços despendidos nas pesquisas de combinação de classifica-

dores visa a melhoria da precisão na classificação de padrões, atuando sobre as

fraquezas e as forças de cada um desses modelos (Ponti, 2011).

De fato, várias pesquisas demonstraram que problemas de classificação são

resolvidos com mais precisão quando são usados classificadores combinados,

ao invés de um único classificador (Kuncheva, 2004). Combinar classificadores

aparece como um passo natural diante da massa crítica de conhecimento que

se acumulou sobre os modelos com um único classificador (Kuncheva, 2004).

Também é natural supor que combinar classificadores com elevadas taxas

de precisão possibilitará a criação de um ensemble de melhor desempenho,

contudo, outro fator interessante a ser considerado nos MCS é o da diversidade

entre os classificadores que os compõem (Wozniak et al., 2014). Intuitivamente,

pode-se admitir que a combinação de classificadores que cometem erros nos

mesmos objetos pouco acrescentará em termos de desempenho do ensemble

(Kuncheva (2004); Santana et al. (2007)). Muitos estudos já demonstraram

que quanto menor a correlação entre os classificadores em relação aos erros

cometidos mais preciso o ensemble tende a ser (Tumer e Ghosh, 1996).

Por outro lado, alguns aspectos pesam contrariamente à classificação de

padrões por meio de ensembles, tais como a necessidade de memória para

armazenar todos os classificadores que compõem o ensemble, além do cresci-

mento linear do tempo de processamento necessário à tarefa de classificação,

14

1.1. MOTIVAÇÃO

na medida em que aumenta a quantidade de classificadores que precisam ser

combinados (Margineantu e Dietterich, 1997). Para efeito de simplificação,

neste trabalho, passaremos a nos referir a esses dois aspectos - consumo de me-

mória e tempo de processamento dos ensembles - como custo computacional.

Para lidar com a questão do custo computacional, Margineantu e Dietterich

(1997) propuseram a abordagem de poda de classificadores de um ensemble,

ou na forma simplificada poda de ensembles, na qual o ensemble final é com-

posto por um subconjunto dos classificadores do ensemble original, que por

sua vez foi construído a partir de um método tradicional, neste caso o AdaBoost.

A ideia fundamental da poda de ensembles passa por descartar aqueles

classificadores que ajam em detrimento do desempenho do ensemble, e/ou que

estejam produzindo informação redundante (Martínez-Muñoz e Suárez, 2006).

Outros trabalhos demonstraram que além do menor consumo de memória e

de tempo de processamento, o ensemble podado pode ter uma taxa de acerto

ainda melhor que o ensemble original completo (Zhou et al. (2002); Zhou e Tang

(2003)).

Entretanto, considerando que a poda de um ensemble com T classificadores

implica numa busca em um espaço de 2T −1 subensembles não-vazios, é possível

que a poda se apresente como um problema NP-completo (Martínez-Muñoz e

Suárez, 2006). Diante disso, pesquisas vêm sendo feitas buscando identificar

heurísticas que tornam factíves a escolha de subensembles com desempenho

igual ou superior ao do ensemble completo (Zhou et al. (2002); Zhou e Tang

(2003); Martınez-Munoz e Suárez (2004); Martínez-Muñoz e Suárez (2006)).

Todas essas questões nos motivaram a estudar alguns desses conceitos,

métodos e algoritmos definidos e desenvolvidos, de modo a tornar possível

a criação de um modelo de arquitetura que viabilize, de uma maneira estru-

turada, a implementação de sistemas baseados na combinação de múltiplos

classificadores que sejam eficazes no que se refere à capacidade de generali-

zação, sendo eficiente em relação ao consumo dos recursos computacionais

necessários ao seu processamento durante o uso.

Particularmente, é interessante observar que os resultados obtidos com o

uso de MCS têm inspirado o desenvolvimento de novas técnicas para lidar

com aplicações que necessitam manipular dados com níveis elevados de ruído

(noisy data) e com redundância de atributos. Uma das aplicações que mais são

influenciadas por estas duas situações é a de credit scoring (Wang et al. (2012);

15

1.2. OBJETIVO

Marqués et al. (2012a)).

Em virtude dessa observação, visando avaliar a eficácia do modelo proposto,

escolheu-se nesta dissertação realizar experimentos sobre uma aplicação na

área de credit-scoring. Essa decisão, entretanto, foi reforçada pelas seguintes

razões:

(1) Crescente importância que o credit-scoring vem assumindo nas institui-

ções financeiras como uma das principais maneiras de avaliar o risco de

concessão de crédito, dando agilidade e suporte às decisões gerenciais. O

objetivo do modelo de credit-scoring é reduzir perdas decorrentes da con-

cessão indevida de crédito, ou da não concessão a quem deveria ter sido

feita, aumentando, consequentemente, os lucros dessas instituições (Wang

et al., 2012), otimizando seus fluxos de caixa. Tudo isso é reforçado pela

recente crise financeira internacional que evidenciou ainda mais a questão

da análise de crédito como fator crítico de sucesso para essas organizações

(Marqués et al., 2012a);

(2) Êxito de diversas pesquisas em demonstrar a superioridade de técnicas de

Inteligência Artifical (IA) em relação a métodos estatísticos em aplicações de

credit-scoring (Wang et al., 2012), instigando-nos a buscar novos modelos

que alcancem ainda melhores resultados.

1.2 Objetivo

Considerando a diversidade de métodos de eficiência já comprovadas em pes-

quisas anteriores, e outros tantos estudos realizados no campo da combinação

de classificadores, surge a seguinte pergunta: é possível alcançar resultados

ainda melhores por meio de sistemas de múltiplos classificadores? Nossa

hipótese é que sim, sendo um dos caminhos pensados, exatamente, o de se

combinar esses métodos eficientes de forma a se criar MCS mais eficazes, seja

em relação ao desempenho preditivo, seja em relação ao seu custo computacio-

nal.

Assim, o objetivo dessa dissertação é propor uma arquitetura para MCS

que: i) combine estratégias de amostragem de dados, tais como Bagging e

Random Subspace, com o intuito de gerar classificadores que irão compor um

16

1.2. OBJETIVO

pool de classificadores - deseja-se que esses classificadores sejam diversos e

precisos; e, ii) remova classificadores do pool de classificadores usando um

método estruturado de poda de ensembles, para que o ensemble final formado

seja mais eficiente e preciso que o pool originalmente gerado.

A proposta é que esse novo modelo se beneficie dos aspectos complemen-

tares entre modelos e métodos já implementados, potencializando os seus

pontos fortes e mitigando os fracos. Eventuais modificações podem até vir a ser

introduzidas na forma original dos algoritmos, métodos e modelos usados na

arquitetura proposta com a finalidade de permitir que a associação ocorra de

forma mais ajustada, criando um efeito no qual o todo seja mais eficiente do

que a soma das partes.

Considerar previamente a aplicação na qual será usado o ensemble produ-

zido pela arquitetura é necessário, pois, a partir desse conhecimento, será possí-

vel definir mais apropriadamente modelos e métodos que melhor se adequem

àquela aplicação, permitindo-se extrair um melhor desempenho preditivo a

partir da combinação entre eles por meio da arquitetura proposta.

Conforme comentado na Seção 1.1, este trabalho propõe-se a avaliar o

desempenho desta arquitetura numa aplicação de análise de crédito (credit-

scoring ), verificando eventuais ganhos de desempenho, e/ou redução de custo

computacional, em relação ao desempenho e custo desses métodos quando

processados isoladamente.

Contudo, apesar dos experimentos terem sido realizados na área de credit-

scoring, a expectativa é que esta nova arquitetura possa ser aplicada de forma

genérica em outros tipos de solução de problemas de classificação de padrões,

usando, inclusive, outras técnicas de treinamento de classificadores, métodos

de poda de ensembles e de combinação de resultados para a tomada de decisão.

A expectativa é que ao final deste trabalho esteja disponível mais uma alter-

nativa de modelo a ser aplicado na solução de problemas de classificação de

padrões por meio de técnicas de combinação de classificadores, alimentando-

se assim o ciclo evolutivo das pesquisas científicas nesse importante campo da

inteligência computacional.

17

1.3. ESTRUTURA DO DOCUMENTO

1.3 Estrutura do documento

O restante deste documento está organizado como segue: No capítulo 2 são

apresentados conceitos básicos utilizados no campo da pesquisa de combi-

nação de classificadores, além de alguns trabalhos relevantes realizados neste

campo com aplicação ao credit scoring. No capítulo 3 é apresentada a arquitura

proposta, detalhando os principais métodos usados, a forma de associá-los, e as

mudanças implementadas visando atingir o objetivo da pesquisa. No capítulo

4 são detalhados os experimentos realizados e os resultados alcançados. No

capítulo 5, as conclusões e direções para futuras pesquisas são apresentadas.

18

2Conceitos básicos

Na verdade só sabemos quão pouco sabemos –

com o saber cresce a dúvida.

—GOETHE (1826)

O objetivo desta seção é discorrer sobre a terminologia, definições, conceitos

e métodos utilizados e desenvolvidos na área de classificação de padrões por

meio de sistemas de múltiplos classificadores (MCS).

A seção 2.1 descreve as principais razões para o uso de ensembles na aprendi-

zagem de máquina, discorrendo ainda sobre conceitos fundamentais e métodos

para escolha de classificadores que irão compor o ensemble. A seção 2.2 apre-

senta os principais tipos de arquitetura usadas no desenho de MCS, assim

como os conceitos a serem considerados durante a elaboração do projeto do

ensemble. A seção 2.3 aborda algumas estratégias usadas no treinamento dos

classificadores que formarão o ensemble, detalhando duas das mais usadas

técnicas de geração de MCS – Bagging e Random-Subspace. Nesta seção é dada

uma atenção especial aos métodos usados para a poda de ensembles, enquanto

estratégia de otimização de desempenho. Na seção 2.4 são descritas as duas

principais abordagens para combinar as decisões dos classificadores – fusão

e seleção. Por fim, na seção 2.5 são apresentados trabalhos que se referem ao

uso de MCS nos quais essa pesquisa se baseou.

19

2.1. POR QUÊ COMBINAR CLASSIFICADORES ?

2.1 Por quê combinar classificadores ?

Há três razões básicas que explicam porque combinar classificadores pode ser

melhor do que utilizar um único classificador, são elas: Estatística, Represen-

tacional e Computacional (Dietterich, 2000). Abaixo são descritas as situações

em que cada uma se apresenta:

(a) Motivação estatística (ou o pior caso): dado um determinado conjunto de

padrões Z, e um número de classificadores (hipóteses) diferentes, cujos

desempenhos sobre Z sejam considerados satisfatórios, é possível escolher

como solução para o problema apenas um desses classificadores, correndo-

se o risco de se selecionar aquele que venha a ter o pior desempenho em

termos de capacidade de generalização. Combinando-se os classificadores,

pode-se evitar o uso do pior classificador ao optar-se, por exemplo, pela

média dos classificadores com desempenho satisfatório (Fumera e Roli,

2005). Esta simples combinação mostrou ser eficiente em muitas aplica-

ções. Em compensação, nada garante que essa combinação venha a ter um

desempenho superior ao do melhor classificador individual treinado.

(b) Motivação representacional (ou o melhor caso): na maioria das aplica-

ções de aprendizagem de máquina, a hipótese verdadeira pode não estar

representada no espaço de hipóteses disponível. Neste caso, a combina-

ção das várias hipóteses cria uma nova hipótese, expandindo-se assim o

espaço de hipóteses representáveis. Logo, torna-se possível atingir um de-

sempenho superior ao da melhor hipótese existente no espaço de hipóteses

original. Existem muitas evidências experimentais de que isto acontece

normalmente quando os classificadores de um dado comitê (ensemble)

cometem diferentes erros de classificação.

(c) Motivação computacional: muitos algoritmos de aprendizagem, ao reali-

zarem a busca pela hipótese verdadeira, podem ficar presos em um ótimo

local. Um ótimo local ocorre quando a hipótese encontrada apresenta de-

sempenho superior às hipóteses mais próximas (vizinhas), porém ainda é

inferior à hipótese de melhor desempenho disponível no espaço de hipó-

teses. Por exemplo, algoritmos como o backpropagation usado nas redes

neurais artificiais (RNA) têm seus parâmetros inicializados aleatoriamente

na tentativa de evitar soluções de ótimo local. É frequente o uso de várias

20


(centenas ou milhares de) inicializações desses parâmetros na tentativa

de encontrar a melhor hipótese. A inicialização de vários classificadores

e a combinação de seus resultados é capaz de se aproximar da hipótese

verdadeira de forma mais eficiente do que com um único classificador, pos-

sibilitando ainda a estabilização de sistemas formados por classificadores

instáveis (v. subseção 2.1.1), a exemplo das RNA (Breve et al., 2007).

As razões acima apresentadas são reforçadas pelo teorema “No Free Lunch”

(Wolpert e Macready, 1997), o qual afirma não existir um único classificador que

possa ser considerado ótimo para todos os problemas, ou seja, o desempenho

elevado em uma classe de problemas é compensado com um mal desempenho

em outra classe. Ainda, segundo esse teorema, como não há um princípio claro

definido para se escolher um conjunto de métodos de aprendizagem, além

de raramente se ter um completo conhecimento da distribuição dos dados

e do comportamento dos algoritmos de classificação. Assim, torna-se uma

tarefa muito difícil encontrar um bom e único classificador que solucione um

determinado problema de classificação de padrão(Ponti, 2011).

Esses motivos vêm impelindo pesquisadores na busca por alternativas que

aperfeiçoem o desempenho de MCS enquanto alternativa eficiente para pro-

blemas de classificação de padrões. É importante salientar que o desempenho

de sistemas de classificação compostos por múltiplos classificadores, assim

como acontece com um classificador simples, é medido, primordialmente, mas

não exclusivamente, pela taxa de acerto obtida na classificação dos padrões

apresentados após a fase de treinamento (Kuncheva, 2004).

Diante dessa busca por melhor desempenho, colocam-se perante os pro-

jetistas importantes desafios, que passam principalmente por duas grandes

decisões (Ponti, 2011):

• definir quais os métodos a serem aplicados na escolha dos classificadores

que formarão o ensemble;

• definir quais os métodos a serem aplicados na combinação das decisões

produzidas pelos classificadores membros do ensemble.

A seguir, na subseção 2.1.1, são apresentados alguns conceitos referentes

à relação entre o classificador e os dados usados em seu treinamento. Estes

conceitos fundamentam várias pesquisas no campo da combinação de classifi-

cadores. Na sequência, a subseção 2.1.2 descreve dois dos principais critérios

21


usados para avaliar se os classificadores a serem combinados poderão produzir

um ensemble com desempenho interessante. Por fim, a definição do momento

da escolha dos classificadores que irão formar o ensemble é tema da subseção

2.1.3.

2.1.1 Fundamentos na escolha de classificadores

Abaixo são apresentados, sucintamente, mais alguns fundamentos que podem

ser levados em consideração na escolha dos tipos de classificador a serem utili-

zados na composição de ensembles. As definições foram extraídas do tutorial

de Ponti (2011):

(a) Classificador Fraco (weak learner): um classificador cujo desempenho

preditivo é ligeiramente melhor do que uma simples escolha aleatória. A

existência de um weak learner pressupõe a existência de um classificador

forte (strong learner). Um dos pontos fortes da combinação de classificado-

res é transformar weak learners em um strong learner ;

(b) Classificador instável: é aquele que pode sofrer grandes variações em suas

saídas, a partir de pequenas mudanças nos dados usados durante seu trei-

namento. Como exemplo de classificadores instáveis tem-se as Árvores de

Decisão, ou Decision Trees (DT), e as Redes Neurais Artificiais (RNA);

(c) Classificadores independentes ou não correlacionados: são aqueles que,

dada a mesma base de padrões de entrada, os erros de classificação ocorrem

de forma independente, ou seja, com pouca ou nenhuma correlação posi-

tiva entre si. Este conceito está diretamente relacionado com a definição de

diversidade entre classificadores;

(d) Dilema Bias-Variance: Durante a fase de treinamento de um classificador,

um dos grandes desafios é encontrar equilíbrio entre a menor taxa de erro

(bias) de classificação, e a capacidade de generalização do mesmo quando

lhe forem apresentados novos padrões (variance) na fase de testes (uso). O

método e a intensidade do treinamento do classificador pode provocar o

efeito de overfitting, que leva o classificador a decorar os padrões apresenta-

dos durante o treinamento. Ou seja, embora a taxa de erro do classificador

apresentada no treinamento seja interessante, o mesmo pode perder a ca-

pacidade de generalização, levando a taxas de erro na fase de teste (uso) a

22


níveis indesejados. A combinação de classificadores independentes (não

correlacionados) é uma das estratégias para superar este dilema, de modo a

se atingir o melhor dos mundos, isto é, taxas de erro reduzidas na fase de

treinamento, com adequada capacidade de generalização durante o uso;

(e) Maldição da dimensionalidade: alguns classificadores podem ter dificul-

dade de manipular padrões de entrada compostos por muitas característi-

cas, correndo o risco de overfitting durante a fase de treinamento, ou ainda

de elevar demasiadamente o custo computacional;

2.1.2 Escolha dos classificadores

Com relação à escolha dos classificadores que poderão compor o ensemble, a

literatura apresenta dois importantes critérios que devem ser avaliados conjun-

tamente: o grau de precisão dos classificadores que irão compor o comitê e a

diversidade entre os mesmos (Soares et al., 2006):

• O grau de precisão, ou simplesmente precisão, do classificador pode ser

entendido como sendo a probabilidade do mesmo produzir uma classifi-

cação correta;

• A diversidade entre dois classificadores é medida pela correlação exis-

tente entre os erros cometidos pelos mesmos, ou seja, até que ponto um

classificador comete os mesmos, ou a maioria, dos erros cometidos pelo

outro classificador. Existem diferentes maneiras de produzir classifica-

dores com maior grau de diversidade entre si, assim como diferentes

métricas para avaliar quão diferentes eles o são entre si.

Levando ao extremo, a importância de se utilizar as duas medidas juntas,

no momento da seleção de um classificador para compor um ensemble, está

simplesmente no fato de que não há, por exemplo, qualquer ganho de precisão

em um ensemble composto por um conjunto de classificadores idênticos. Por

mais precisos que estes possam ser, cometerão os mesmos erros e acertos.

Logo, quando se tem muitos classificadores diferentes para serem combinados,

espera-se um aumento na probabilidade de acerto da classificação do conjunto.

Contudo, esse aumento de precisão somente acontece se a precisão individual

de cada classificador for maior que 50% (Kuncheva, 2004). Por fim, quanto

23

2.2. ARQUITETURA E PROJETO DE MCS

mais precisos e diversos eles são maior é a taxa de acerto esperada do ensemble

(Soares et al., 2006).

2.1.3 Momento da escolha dos classificadores

Outro aspecto que vem sendo estudado, ainda vinculado à escolha de classi-

ficadores que serão utilizados no ensemble, está relacionado ao momento da

definição dos classificadores que irão compor o comitê. A maioria dos métodos

atuais, frequentemente, o fazem durante a fase de treinamento, ou seja, uma

vez escolhidos os classificadores membros, eles são usados para construir o

ensemble, o qual será sempre o mesmo durante a fase de teste, e consequente-

mente de uso. Por outro lado, há trabalhos realizados (Soares et al., 2006) que

adotaram procedimentos que permitem a montagem do ensemble dinamica-

mente, ou seja, os classificadores são escolhidos durante a fase de teste (uso).

Esse método é chamado de seleção dinâmica de classificador, ou Dynamic

Classifier Selection (DCS). O objetivo desse método é tornar o comitê ainda mais

especializado e efetivo, em função do padrão de teste que lhe for apresentado,

ganhando-se em termos de aumento de sua taxa de acertos.

2.1.3.1 Seleção dinâmica de Ensembles

Há ainda métodos mais elaborados que tratam da definição, durante a fase de

teste (uso), de qual ensemble irá classificar o padrão apresentado. Neste caso,

durante a fase de treinamento são montados vários ensembles, sendo estes

armazenados. Na fase de teste (uso), e em função das características do padrão

apresentado, é selecionado o ensemble com maior probabilidade de acerto na

classificação daquele padrão. Este método também é conhecido como seleção

dinâmica de comitês (ou do inglês Dynamic Ensemble Selection - DES) (Ko et al.,

2008).

2.2 Arquitetura e projeto de MCS

Uma vez definidos aspectos relacionados à escolha dos componentes de um

ensemble, é preciso pensar em como organizá-los para que trabalhem juntos.

Para isso, há na literatura duas tradicionais topologias adotadas em sistemas de

múltiplos classificadores:

24


(1) Arquitetura Paralela. A instâcia é apresentada a todos os classificadores do

ensemble sem exceção, os quais fornecem suas saídas para aquela instância,

sendo estas então combinadas para que se chegue à classificação final

(Wozniak et al., 2014). O uso desta arquitetura é mais frequente em sistemas

de aplicação mais geral, tanto por ser mais simples, como por ser mais fácil

de analisar seu desempenho (Ponti, 2011).

(2) Arquitetura Serial. A instância é apresentada a um primeiro classificador.

Quando este não consegue classificá-lo usa-se um segundo classificador

e assim por diante, até que a classificação seja realizada (Wozniak et al.,

2014). Este método é mais usado em aplicações específicas, sendo útil, por

exemplo, no contexto de aprendizagem on-line (Ponti, 2011).

Além da definição do padrão de arquitetura usado no processo de apresenta-

ção dos padrões de entrada aos classificadores, um outro fator a ser considerado

na construção de ensembles é a definição pelo projetista quanto à abordagem

que norteará o projeto de construção do sistema de múltiplos classificadores.

As possibilidades de abordagem estão agrupadas em 4 grandes níveis: nível

de Combinação, nível de Classificador, nível de Atributo e nível de Dados

(Kuncheva, 2004):

(1) Nível de Combinação: há diferentes maneiras de se combinar as saídas

dos classificadores em um MCS. Esse nível de abordagem concentra-se na

definição dos métodos de combinação a serem utilizados na composição

da decisão final do ensemble;

(2) Nível de Classificador: muitos MCS usam um único modelo de classifica-

dor base em sua composição, por exemplo, árvores de decisão ou redes

neurais artificiais. Contudo, não há evidências de que esta maneira de

construir o ensemble seja melhor do que usar diferentes modelos de clas-

sificadores. Portanto, neste nível de abordagem o fator mais importante

do projeto está na decisão dos modelos de classificadores básicos a serem

utilizados na formação do ensemble.

(3) Nível de Atributo: esta abordagem foca em como utilizar diferentes su-

bespaços de características das instâncias de entradas durante a fase de

treinamento. O principal objetivo deste nível de abordagem está na criação

25


de ensembles formados por classificadores especialistas, treinados em cada

um desses subespaços do conjunto de entradas;

(4) Nível de Dados: neste nível o foco está na manipulação e/ou tratamento

dos padrões de entrada utilizados durante o treinamento dos classificadores.

Esta abordagem tem-se provado extremamente bem sucedida, principal-

mente pelo uso de métodos para geração de ensembles, como por exemplo

o Bagging, descrito na subseção 2.3.2.

Importante salientar que, embora muitos métodos possam ser enquadrados

num desses níveis de abordagem, estes não cobrem toda variedade de métodos

para projetos de MCS disponível na literatura.

2.2.0.2 Otimização da cobertura e otimização da decisão

Ainda em relação a projetos, os métodos de criação de sistemas de múltiplos

classificadores podem ser agrupados em duas categorias (Ho, 2001):

(1) Métodos voltados à Otimização da decisão - aqueles que, dado um con-

junto fixo de classificadores cuidadosamente bem projetados e altamente

especializados, buscam encontrar e otimizar o mecanismo de combinação

de suas decisões;

(2) Métodos voltados à Otimização da cobertura - aqueles que, dado um de-

terminado método de combinação, procuram gerar um conjunto de classi-

ficadores genéricos e mutuamente complementares que possam ser combi-

nados visando alcançar melhores taxas de acerto.

Os métodos dirigidos à Otimização da decisão são interessantes quando o

projetista conhece suficientemente o problema de modo a poder construir tais

classificadores eficientes e especializados. Já os métodos voltados à Otimização

da cobertura são interessantes quando a tarefa de construir classificadores

fortes (strong learners) torna-se difícil ou de alto custo computacional (Ponti,

2011).

Em relação às abordagens de projeto, pode-se dizer que os métodos do pri-

meiro grupo utilizam a abordagem no nível de Combinação, e os do segundo se

utilizam das abordagens nos níveis de Classificador, Atributos e Dados (Kun-

cheva, 2004).

26

2.3. CONSTRUINDO MCS

Mesmo com o agrupamento desses métodos em duas categorias, é possí-

vel produzir sistemas que usem as duas estratégias, por exemplo, no modelo

mixture of experts tanto os classificadores como a função de combinação são

treinados (Kuncheva, 2004). Neste caso este modelo nem está em uma categoria

nem na outra.

2.3 Construindo MCS

Conforme visto na Seção 2.2, há várias abordagens para se gerar classificado-

res ’bons’ de combinar, isto é, que sejam diversos e precisos o suficiente para

atenderem as exigências do problema em questão. Dentre os métodos mais

conhecidos estão os métodos heurísticos, que pressupõem um razoável conhe-

cimento do problema ao ponto de permitir que o projetista faça ajustes tanto na

arquitetura do ensemble, como em alguns parâmetros, a fim de construir diver-

sos classificadores. Outros métodos interessantes consideram, por exemplo, a

manipulação dos dados de treinamento ou dos atributos de entrada e de saída,

de modo a se usar diferentes subespaços de treinamento que proporcionem

a geração de bons classificadores; ou ainda na ausência de um conhecimento

mais profundo do problema, variar aleatoriamente os métodos classificadores,

suas arquiteturas e parâmetros até se chegar a um desempenho desejado.

Nas subseções seguintes serão tratados com maior detalhamento alguns

aspectos importantes no processo de construção dos classificadores que irão

compor o ensemble. A subseção 2.3.1 aborda a questão do pré-processamento

dos dados a serem usados nas fases de treinamento e validação dos classificado-

res, em especial no caso de limitação ou desbalanceamento desses dados. Em

seguida, na subseção 2.3.2 são descritos alguns dos mais populares métodos

de criação de ensemble – Bagging e Random-Subspace. Ao final, na subse-

ção 2.3.3 é explicado no que consiste o conceito de poda de ensembles e suas

consequências.

2.3.1 Manipulando dados de treinamento

Criar ensembles a partir de um conjunto limitado ou desbalanceado de dados

para treinamento e validação também possui uma forte dose de desafio. É

preciso usar algumas técnicas para ampliar esta base. Uma dessas técnicas

27


é a de inserção de dados com ruído, apesar disto ampliar a possibilidade de

geração de outliers (Ponti, 2011). Outliers são padrões que podem permitir a

geração de falso positivo ou falso negativo.

Nos casos em que as bases de treinamento estão desbalanceadas pode

haver um aumento da possibilidade de overfitting. Nesta situação uma das

técnicas é reduzir o excesso de quantidade de padrões de uma classe, nivelando-

a quantitativamente às demais classes. Outra forma é criar instâncias artificiais

para nivelar os padrões de menor quantidade aos de maior (super-amostragem

da minoria ou sub-amostragem da maioria) (Ponti, 2011).

2.3.2 Produzindo MCS

Há importantes métodos de geração de ensembles, tais como: Bagging (Brei-

man, 1996), Boosting (Schapire, 1990), Adaboost (Freund e Schapire, 1997),

Random Subspace (Ho, 1998), Rotation Forest (Rodriguez et al., 2006), Error-

Correcting Output Coding (ECOC) (Dietterich e Bakiri, 1995). Em função de

estarem relacionados aos experimentos realizados nesta dissertação, são deta-

lhadas a seguir dois desses métodos de treinamento de classificadores usados

na criação de MCS:

(a) Bagging : Baseia-se na geração de amostras (bootstraps), a partir do con-

junto de dados de treinamento, com pequenas modificações em relação ao

original, porém com o mesmo tamanho da original. Ideal para trabalhar

com classificadores instáveis, por exemplo, árvores de decisão ou redes

neurais artificiais, pois a partir de pequenas mudanças nos dados de trei-

namento são produzidos classificadores diversos. Uma vez montado o

ensemble, pode-se usar qualquer método de combinação das saídas. As

mais comuns são a média ou a escolha da classe com maior frequência,

também conhecida como majority vote. Quando os classificadores têm bias

(erro) pequeno, mas com alta variância, esse método ajuda a reduzir esta

última. Na maioria dos casos essa redução é maior à medida que se trabalha

com mais classificadores;

(b) Random Subspace (RS): Consiste em selecionar, aleatoriamente, um nú-

mero arbitrário de subespaços do espaço original de características (atribu-

tos), e construir um classificador para cada subespaço. A idéia passa por

criar classificadores que se complementem entre si, cada um com o seu grau

28


de especialização num determinado subconjunto de atributos. Tem bom

funcionamento em um espaço com grande dimensionalidade e atributos

redundantes. Isto evita o problema da maldição da dimensionalidade. O RS

também tem similaridade com o Bagging, variando quanto a criação das

amostras para o treinamento. Seja M a dimensão do vetor de entrada das

amostras de treinamento, o RS escolhe aleatoriamente, sem reposição, um

subconjunto de dimensão m, m < M , ou seja, o subconjunto de característi-

cas usado para treinar cada classificador é diferente. A questão-chave desse

método está no como definir o parâmetro que determina a dimensionali-

dade dos subespaços de treinamento. Não há uma regra geral que oriente

essa definição, ou seja, em cada caso devem ser estudados os impactos

desta definição.

2.3.3 Podando MCS

De uma maneira geral, na medida em que se aumenta o número de classifica-

dores agregados ao ensemble, a taxa de erro de predição decresce monotoni-

camente, tendendo, assintoticamente, a um nível constante (Martınez-Munoz

e Suárez (2004);Martinez-Muñoz et al. (2009)). Geralmente, esta taxa de erro

assintótica é considerada o melhor resultado que o método pode alcançar, in-

dependentemente de se continuar ampliando a quantidade de classificadores.

Em compensação, na criação de ensembles, a cada vez que um novo classifi-

cador é agregado, há um aumento no custo computacional. Árvores-de-decisão,

por exemplo, podem demandar grandes requisitos de memória. A depender da

aplicação, o consumo de memória e o tempo de processamento pode tornar

inviável o uso de um MCS.

Um fator que merece atenção em projetos de MCS é a possibilidade de

existir, dentre os membros do ensemble, classificadores com alta similaridade,

o que poderá reduzir a diversidade média do sistema e, consequentemente,

a capacidade do ensemble em classificar corretamente os padrões de entrada

(Tsoumakas et al., 2009).

Variações quanto ao desempenho de cada classificador que compõe o en-

semble, também podem levar o desempenho do ensemble a ficar abaixo do que

poderia atingir, dependendo, inclusive, do método de combinação usado.

Geralmente, métodos para construção de ensembles são compostos por

duas fases: a produção dos classificadores e a combinação de suas saídas,

29


porém, diante das questões acima, trabalhos recentes têm considerado uma

fase intermediária que trata da redução do tamanho do ensemble, normalmente

chamada de poda do ensemble (Tsoumakas et al., 2009).

A poda de ensembles visa, por meio da redução do número de classificadores

do ensemble, melhorar o desempenho preditivo do sistema assim como sua

eficiência (Tsoumakas et al., 2009).

Em outras palavras, o processo de poda de um ensemble L busca encontrar

um subensemble S, S ⊂ L, que contenha classificadores com desempenho dentro

do desejado para a aplicação em questão, preservando a diversidade entre os

mesmos, mantendo, ou melhorando, a capacidade de predição do ensemble L,

Por outro lado, conforme citado na Seção 1.1, a busca por esse subensemble

é um problema NP-completo em função do tamanho do ensemble aonde se

processará a busca, o que tem levado muitos pesquisadores a propor heurísticas

que tornem viável uma solução para essa questão (Margineantu e Dietterich

(1997); Martínez-Muñoz e Suárez (2006); Lu et al. (2010)).

Tsoumakas et al. (2009), em seu trabalho de proposição de uma taxonomia

para a poda de ensembles, propõem agrupar os métodos de poda de ensembles

em categorias de acordo com a maneira pela qual os classificadores são organi-

zados previamente para depois serem submetidos ao processo de avaliação e

poda. As categorias são:

• Baseados em ranking : o mais simples de todos. Os classificadores são

ordenados conforme uma função de avaliação sendo então selecionados

aqueles melhor avaliados;

• Baseados em clustering : aqui os classificadores são agrupados de acordo

com a similitude de suas decisões, sendo feita a poda por grupo, a fim de

manter a diversidade;

• Baseados em otimização: A poda é tratada como um problema de oti-

mização, ou seja, o objetivo é encontrar o subconjunto com melhor de-

sempenho conforme uma determinada medida. Busca exaustiva pode ser

inviável dependendo do tamanho do ensemble;

• Outro: qualquer outro método que não se enquadre nos acima expostos.

É importante observar que a poda de ensembles é diferente de pondera-

ção de ensembles. Neste último método, as saídas de todos os classificadores

30

2.4. COMBINANDO DECISÕES

continuarão sendo utilizadas no processo de combinação, porém com pesos di-

ferentes. Logo, este método visa somente a melhoria do desempenho preditivo

(Tsoumakas et al., 2009). Contudo, é possível entender a ponderação como um

caso particular de poda, se alguns dos pesos tiverem valor igual a zero.

Independentemente de como os métodos acima funcionam, é importante

ressaltar que todos eles empregam uma função que avalia quão adequados são

cada um dos classificadores base que compõem o ensemble original para sua

inclusão no ensemble final (podado). Essa função, tipicamente, se baseia nas

saídas desses classificadores a partir de um conjunto de dados usados apenas

no processamento da poda (Tsoumakas et al., 2009).

2.4 Combinando decisões

Uma vez escolhida a forma de como será composto o MCS, passa-se à segunda

fase do projeto, que trata da maneira pela qual serão combinadas as decisões

dos seus classificadores para se obter a decisão final do ensemble. Neste caso,

há duas abordagens principais (Kuncheva, 2004), quais sejam:

(a) Fusão: baseia-se na combinação de classificadores competitivos. Nesta

abordagem, cada classificador contribui com sua saída para a decisão final.

Neste método, considera-se que cada classificador tem conhecimento sobre

todo o espaço de características (Kuncheva, 2004). Nesta abordagem são

aplicados métodos de combinação tais como média, soma e majority vote

(Santana et al., 2007);

(b) Seleção: no qual apenas um classificador do comitê é usado para dar a

decisão final. Nesta abordagem supõe-se que cada classificador conhece

bem uma determinada parte do espaço de atributos, sendo responsável,

portanto, pela classificação dos objetos que possuam aqueles atributos.

Assim, os classificadores são considerados complementares. A escolha do

classificador é feita durante a fase de uso do ensemble (Kuncheva, 2004).

Um dos principais métodos baseados em seleção é o chamado Dynamic

Classifier Selection (DCS) (Santana et al., 2007).

Existem esquemas de combinação onde as duas abordagens podem ser

usadas em conjunto. Por exemplo, há casos em que a classificação é feita

31

2.5. TRABALHOS CORRELATOS

calculando-se a média ponderada do valor das saídas dos classificadores, ou

seja, há diferentes pesos por classificador, que variam em função da entrada x

a ser classificada. Logo, para cada entrada x alguns classificadores terão mais

peso que os demais, porém todas as saídas passarão pelo processo de fusão por

meio de um combinador simples, como a média ou majority vote. A arquitetura

mixture of experts é um exemplo prático desse tipo de esquema que fica entre

fusão e seleção (Kuncheva, 2004).

a abordagem de fusão, as saídas produzidas pelos membros do ensemble

são classificadas em três níveis - abstrato, rank, e medição (Xu et al., 1992). Em

cada uma desses níveis há métodos de combinação mais adequados, podendo-

se, inclusive, fazer uma mescla desses métodos, independentemente do nível

de abordagem. São eles:

• Abstrato – cada classificador produz uma saída informando a classe es-

colhida para aquela determinada amostra de entrada. Neste nível não há

nenhuma informação de grau de certeza sobre se a amostra pertence de

fato àquela classe, nem é sugerida nenhuma outra classe como alternativa

à apresentada;

• Rank – cada classificador ordena um ranking das classes nas quais a

amostra de entrada pode se enquadrar. Este nível é mais adequado a

problemas com um grande número de classes possíveis;

• Medição – cada classificador produz um escore, probabilidade, ou um

nível de confiança em como a entrada pode ser classificada. No nível

medição são usadas regras fixas para combinar os resultados dos classifi-

cadores, tais como: média, mínimo, máximo, produto, mediana, soma.

2.5 Trabalhos correlatos

Nesta seção são apresentados alguns trabalhos que têm relação com o de-

senvolvimento dessa pesquisa. Na subseção 2.5.1 é apresentado um breve

histórico da evolução dos métodos usados na tomada de decisões ligadas ao

gerenciamento de riscos no processo de concessão de crédito. Na subseção

2.5.2 são descritos trabalhos que utilizaram métodos e conceitos de sistemas

de múltiplos classificadores em aplicações de credit scoring.

32


2.5.1 Evolução da análise na concessão de crédito

O processo de decidir pela concessão de crédito vem evoluindo ao longo dos

tempos. Inicialmente baseava-se em critérios meramente subjetivos de alguns

"especialistas"que se utilizavam de suas experiências anteriores para tomar

a decisão (Hand e Henley, 1997). Depois, evoluiu para um processo de aná-

lise mais criteriosa do perfil sócio-econômico do cliente, os chamados 5 Cs:

Caráter, Capital, Garantias ( do inglês, Collateral), Capacidade e Condições

(econômicas) (Abrahams e Zhang, 2008).

Contudo, o aumento em larga escala da demanda por crédito, aliado a uma

maior competição comercial pela oferta de crédito tornaram muito complexo

fazer esta análise manualmente. Diante desse cenário, algumas técnicas es-

tatísticas têm sido usadas na construção de modelos de avaliação de risco na

concessão de crédito, tais como: Linear Discriminant Analysis (LDA), Linear

Regression Analysis (LRA), Logistic Regression Analysis (logR).

A esse processo formal de determinar a probabilidade de um tomador de

crédito não conseguir efetuar os pagamentos devidos, podemos chamar de

credit scoring (Hand e Henley, 1997). Algumas vezes o termo application sco-

ring é usado para diferenciá-lo do termo behavioural scoring, que se refere ao

processo de monitoramento e predição do comportamento de pagamento de

um cliente a quem já foi concedido o crédito (Hand e Henley, 1997).

Comparados aos métodos subjetivos, os métodos estatísticos de credit sco-

ring apresentam vantagens como: maior velocidade nas decisões; menos custo

operacional; menor risco de erro por se basear em critérios objetivos; flexibili-

dade para se ajustar a novas políticas e cenários econômicos; e capacidade de

monitoramento do desempenho do modelo em relação à sua acurácia (Rosen-

berg e Gleit (1994);Thomas et al. (2002)).

Prosseguindo na evolução da análise de crédito, e do credit scoring enquanto

método objetivo, muitos estudos foram desenvolvidos utilizando-se técnicas

de Inteligência Articial (IA). Em contraste aos modelos estatísticos, os métodos

de IA conseguem extrair informação a partir de observações anteriores, não ne-

cessitando de um conhecimento prévio específico sobre o problema (Marqués

et al., 2012b).

Vários desses estudos têm demonstrado que técnicas como Redes Neurais

Artificiais (RNA), Árvores de Decisão (DT), e Máquinas de Vetor de Suporte

(SVM) podem ser usados como alternativas mais eficientes aos métodos es-

33


tatísticos, ou seja, classificadores construídos baseados nesses métodos têm

alcançado resultados superiores em relação à taxa de acerto (Marqués et al.,

2012a).

Mesmo assim, verificou-se que alguns modelos como as DT eram relativa-

mente menos utilizadas em aplicações de credit scoring por terem um desempe-

nho menor do que outros modelos de classificadores, devido à sua sensibilidade

a ruídos e a atributos redundantes, presentes neste tipo de aplicação (Wang

et al., 2012).

2.5.2 Credit scoring e os MCS

Diante da ’fraqueza’ de alguns modelos individuais de classificadores, algumas

pesquisas passaram a ser feitas na direção de se usar métodos baseados em

sistemas de múltiplos classificadores (MCS), com o objetivo de obter melhores

resultados em problemas relacionados à avaliação de crédito (Wozniak et al.,

2014).

2.5.2.1 Classificadores base e métodos de geração de ensembles

Na busca por identificar quais modelos de classificadores base seriam os me-

lhores para serem usados em ensembles no contexto do credit scoring, Marqués

et al. (2012a) avaliaram 7 modelos de classificador – 1-nearest neighbour (1-NN),

naive Bayes classifier (NBC), logistic regression (logR), multilayer perceptron

(MLP), radial basis function (RBF) e support vector machine (SVM), decision tree

(DT), em 5 diferentes métodos de geração de ensembles– Bagging, Boosting, RS,

DECORATE, RF.

Este trabalho concluiu que, dentre o os 7 modelos avaliados nos 5 métodos

utilizados, a árvore de decisão (DT) era o melhor modelo de classificador base

para ser adotado em MCS para credit scoring, seguido de perto pelo MLP e da

Regressão Logística (método estatístico).

Por sua vez, Nanni e Lumini (2009) investigaram o desempenho dos métodos

de geração de ensembles no mesmo contexto da predição de falência e credit

scoring. Neste estudo foram avaliados 4 diferentes métodos: Bagging, Random

Subspace, Class Switching, Rotation Forest, cada um utilizando 4 tipos de classi-

ficadores base diferentes – Rede Neural treinada com o algoritmo de Levenberg-

Marquardt, Multilayer Perceptron Neural Network LP, 5-NN, RBF-SVM(RV )2. Ao

34


final, a análise permitiu concluir que, entre os métodos analisados, o Random

Subspace (Ho, 1998) foi o de melhor desempenho para aplicações de predição

de falência e credit scoring.

2.5.2.2 Incrementando a diversidade e a precisão

Wang et al. (2012) realizaram um trabalho com o objetivo de construir um

método, baseado em sistemas de múltiplos classificadores, que potenciali-

zasse a utilização de classificadores fracos, como Árvores de Decisão (DT), em

aplicações de credit scoring. A proposta do trabalho consistiu fundamental-

mente na indução de maior diversidade entre os classificadores do ensemble

por meio da utilização de uma estratégia dual de treinamento, utilizando para

isso dois dos mais tradicionais métodos para construção de MCS: Bagging e

Random-Subspace (RS). Esses métodos foram escolhidos pelas suas capacida-

des de ampliarem a precisão dos classificadores, ao tratarem dados com ruídos

e redundância de atributos, respectivamente.

Esta estratégia dual é assim considerada, porque há dois tratamentos em

sequência a serem aplicados sobre os dados: a) redução de ruídos e b) redução

da redundância de atributos. E, como esses tratamentos podem ser proces-

sados em duas sequências diferentes: a) primeiro reduz o ruído e depois a

redundância de atributos, ou b) primeiro reduz a redundância e depois reduz o

ruído, foi possível a criação de duas estratégias de criação de ensembles de DT:

Bagging-RS DT e RS-Bagging DT. Em cada uma dessas estratégias, é produzido

um ensemble final, composto por subensembles de DT, sendo a classificação

final obtida pela combinação dos resultados desses subensembles.

Os resultados deste trabalho mostraram que ambas as estratégias (Bagging-

RS DT e RS-Bagging DT ) superaram, em termos de taxa de acerto, tanto classi-

ficadores simples (single classifiers) como ensembles simples, ou seja, aqueles

produzidos por métodos tradicionais. Como consequência desses resultados, o

uso de comitês de DT treinados sob esta estratégia dual tornou-se mais uma

alternativa eficaz para solução de problemas de avaliação de crédito.

Seguindo a mesma linha de indução de diversidade, com aumento da preci-

são do ensemble, Marqués et al. (2012b) avaliaram outras possibilidades de uso

da estratégia dual de formação de ensembles, a qual denominaram de estratégia

de treinamento em 2 níveis. Neste trabalho, foi experimentada a combinação

de 4 métodos de geração de classificadores: 2 baseados em reamostragem

35


(Bagging e Adaboost) e 2 baseados em seleção de atributos (RandomSubspace

e Rotation Forest). Sendo assim, os 4 métodos combinados entre si geraram 8

possibilidades de combinação. Nessa pesquisa também adotou-se a DT como

classificador base.

A conclusão de Marqués et al. (2012b) é semelhante à de Wang et al. (2012),

ou seja, com a diversidade proporcionada pela combinação dos métodos, além

da redução dos ruídos e da redundância, esta estratégia de treinamento e cons-

trução do ensemble em 2 níveis alcança resultados satisfatórios para aplicações

de credit scoring. O desempenho preditivo dos sistemas produzidos por este

método foi melhor do que o de comitês formados por métodos simples e tra-

dicionais, e, significativamente melhor do que os obtidos por classificadores

individuais (single classifiers).

Uma diferença importante entre esses dois trabalhos está na forma de en-

contrar a classificação final. Em Marqués et al. (2012b), para cada uma das 8

possibilidades de combinação é gerado apenas um único comitê composto

por uma quantidade de classificadores individuais igual a M ×L, sendo M a

quantidade de subamostras de dados geradas durante a execução do método

de treinamento do primeiro nível, e L a quantidade de subamostras geradas

durante a execução do método do segundo nível. Ao final, é feita uma única

operação de combinação das saídas de todos os classificadores membros do

ensemble.

2.5.2.3 Otimizando a eficiência dos ensembles

Conforme observado na seção1.1, na medida em que se aumenta a quantidade

de classificadores do ensemble na busca por melhores taxas de acerto, amplia-se

a necessidade de memória e tempo de processamento. Para tratar desse efeito

colateral na utilização de MCS, a poda de ensembles é uma abordagem sobre

a qual diversos autores têm se debruçado nos últimos anos (Martínez-Muñoz

e Suárez (2006),Martinez-Muñoz et al. (2009), Lu et al. (2010),Dai (2013)). A

poda de ensembles visa encontrar subensembles que possuam desempenho

equivalente ou superior ao ensemble completo.

As abordagens para encontrar esses subensembles mais eficientes do que o

ensemble completo podem ser agrupadas em duas grandes categorias (Lu et al.,

2010): (1) as que tratam essa busca como um problema de otimização matemá-

tica; (2) as que reordenam os classificadores do ensemble original baseando-se

36


em algum critério predefinido, como por exemplo, a taxa de acerto dos classifi-

cadores, e selecionam um subconjunto desta lista ordenada.

Para fins desta pesquisa, priorizamos as abordagens da segunda categoria.

Especificamente, Martínez-Muñoz e Suárez (2006) e Lu et al. (2010) desen-

volveram os métodos de poda Orientation Ordering (OO) e o EPIC - Ensemble

Prunning via Individual Contribution Ordering (EPIC), respectivamente. Ambos

os métodos utilizam o Bagging para realizar o treinamento dos classificadores

que irão compor o pool inicial.

Em seguida, os classificadores são ordenados, adotando-se como chave

de ordenação uma medida indicativa do quanto cada classificador contribui

para melhoria da taxa de acerto global do ensemble. Ao final os classificadores

são selecionados segundo um critério específico de seleção, formando assim o

subensemble a ser utilizado nos testes.

Em ambos os trabalhos, o desempenho do subensemble superou o do en-

semble completo, atingindo taxas de poda entre 70% e 85%. É interessante

observar que os experimentos de Martínez-Muñoz e Suárez (2006) foram re-

alizados sobre diversas bases, dentre elas algumas com entradas relativas a

perfis de tomadores de empréstimo, usadas, inclusive, em pesquisas sobre

aprendizagem de máquina aplicadas a credit scoring.

37

3Arquitetura proposta

A natureza ama a simplicidade.

—KEPLER (1619)

A arquitetura proposta, descrita neste capítulo, baseia-se em sistemas de

múltiplos classificadores (MCS) otimizados por métodos de poda de ensembles.

Essa arquitetura é dividida em 3 (três) grandes fases - Treinamento, Poda e

Teste. Na fase de treinamento é produzido um único pool de classificadores,

cujas predições são combinadas a fim de produzir a decisão final desse pool

ou ensemble. Antes, contudo, da efetiva combinação dessas saídas, o ensemble

produzido na primeira fase é submetido a um processo de poda, com o objetivo

de reduzir os custos computacionais decorrentes do processamento da predição

final do sistema, sem que haja perda, ou até obtendo-se ganho, no desempenho

preditivo do ensemble. Na última fase, o ensemble obtido pelo processo de poda

é finalmente testado por meio de um método de fusão de classificadores.

O capítulo está estruturado da seguinte forma: na seção 3.1 é apresentada

uma visão geral da arquitetura proposta; nas seções 3.2, 3.3 e 3.4 são descritas,

respectivamente, as 3 fases que compõem a arquitetura – Treinamento, Poda

e Teste; por fim, na seção 3.5 são relacionados os conceitos e fundamentos da

teoria de combinação de classificadores nos quais se baseou o modelo proposto

nesta pesquisa.

38

3.1. VISÃO GERAL DA ARQUITETURA

3.1 Visão geral da arquitetura

Conforme já mencionado, a arquitetura proposta neste trabalho possui 3 (três)

fases - Treinamento, Poda e Teste (Figura 3.1). Na primeira fase, um único pool

de classificadores L = l1, ..., lm é treinado a partir de uma estratégia de treina-

mento, na qual há a composição de dois métodos de geração de ensembles,

visando induzir uma maior diversidade entre os seus componentes (Marqués

et al., 2012b). No caso específico da aplicação da arquitetura proposta a pro-

blemas de credit scoring, os métodos de geração utilizados foram escolhidos

em função de suas capacidades em lidar com ruídos e com redundância de

atributos. Na fase seguinte, o pool L é submetido a um processo de poda, cujo

método utiliza o conceito de agregação ordenada dos classificadores (Martınez-

Munoz e Suárez, 2004). O processo de poda visa selecionar um subensemble

P = p1, ..., pk , P ⊂ L, que possua um desempenho igual ou melhor que L, com

menor necessidade de recursos computacionais de memória e processador.

Na última fase, o ensemble podado P é avaliado utilizando um método não-

ponderado de combinação dos classificadores-membros, no qual todos os

componentes do ensemble opinam sobre todos os padrões apresentados nesta

fase.

Os arquivos DB1, DB2 e DB3 usados como entradas nas 3 fases descritas na

Figura 3.1 são subconjuntos disjuntos de uma mesma base de dados. Embora

as quantidades de registros de cada subconjunto de dados sejam diferentes,

todos preservam a mesma proporcionalidade em relação às classes existentes

na base de dados completa.

3.2 Treinamento do pool de classificadores

Nesta fase é gerado o pool inicial de classificadores L = l1, ..., lm, m indica a

quantidade de membros do pool. Cada um dos classificadores-membro é trei-

nado tendo como entrada uma base de dados DB1, sendo submetido a um

método de treinamento baseado numa estratégia dual de criação de ensembles

(Wang et al., 2012). A estratégia é dita dual, ou em 2 níveis de treinamento

(Marqués et al., 2012b), por usar de forma composta dois métodos convenci-

onais de geração de ensembles: Bagging (Breiman, 1996) e Random Subspace

39

3.2. TREINAMENTO DO POOL DE CLASSIFICADORES

DB1

Geração do Pool de

Classificadores

Treinamento

L=l1, l2,...,lm

DB2

Poda do Pool de

Classificadores

Poda

P=p1, p2,...,pk

DB3

Combinador

Teste

xq

wq

(classe de xq)

Figura 3.1: Visão geral da arquitetura proposta composta por 3(três) fases:Treinamento do pool de classificadores L; Poda de L com seleção de P , P ⊂ L;Teste de P usando método de combinação não-ponderada de classificadores.

(RS) (Ho, 1998), induzindo uma maior diversidade entre os componentes do

ensemble, e reduzindo a influência de dados com ruídos e com atributos redun-

dantes.

O Bagging possui melhor desempenho que outros métodos de geração de

ensembles em situações em que haja muito ruído (Wang et al., 2012). O RS

oferece bons resultados na classificação quando há informação redundante

dentre os atributos do padrão (Ho, 1998). Portanto, a combinação em sequência

de ambos os métodos lida tanto com os efeitos dos ruídos, como com a redun-

dância de atributos existente em aplicações de credit scoring, obtendo maior

precisão na classificação dos padrões (Wang et al., 2012). Além disso, o RS é um

algoritmo de aprendizagem paralela, ou seja, a geração de cada classificador é

independente (Ho, 1998), o que reforça sua adequação à arquitetura escolhida

para implementação do modelo proposto (v. seção 3.5).

Como a composição dos métodos pode se realizar em duas diferentes ordens,

40

3.2. TREINAMENTO DO POOL DE CLASSIFICADORES

isto é, primeiro reduzindo os efeitos dos ruídos (Bagging ) e depois reduzindo a

redundância dos atributos dos dados (Random Subspace), ou então na ordem

inversa, é possível aplicar dois modelos dessa estratégia dual: Bagging-RS e o

RS-Bagging (Wang et al., 2012).

Conforme descrito na seção 2.5, em Wang et al. (2012) as duas estratégias

acima constroem na fase de treinamento n subensembles com p classificadores

cada um, sendo n o número de iterações que os dados são processados pelo

primeiro método da sequência, e p o número de iterações que os dados são

processados pelo segundo método da sequência (Figura 3.2). Na fase de teste,

o padrão é apresentado a cada um dos subensembles, sendo a classificação

final obtida através da combinação dos resultados dos subensembles, utilizando

como técnica de combinação majority vote (Kuncheva, 2004).

Contudo, para a arquitetura aqui proposta foi adotado um conceito dife-

rente do algoritmo dos modelos propostos por Wang et al. (2012), no qual são

treinados n subensembles com p classificadores. Nesta dissertação adotou-se o

método proposto por Marqués et al. (2012b), em que é construído um único

ensemble ou pool com n ×p classificadores. Como na fase final (teste) da ar-

quitetura proposta será utilizado um único ensemble, a escolha desse método

pareceu ser mais eficaz, uma vez que será efetuado o processamento da poda

de uma só vez em um único pool de classificadores. Caso fosse usado o método

proposto por Wang et al. (2012), para se obter o ensemble final, seria necessário

pelo menos um processamento a mais. Este processamento teria por objetivo a

unificação dos diversos subensembles intermediários em um único ensemble,

para em seguida se passar para a fase de poda. Contudo, essa possibilidade

não deixa de ser mais uma variação de configuração da arquitetura proposta,

podendo, portanto, vir a ser avaliada em outra ocasião.

Sendo assim, para cada um dos modelos de estratégia dual, são informados

na fase de treinamento os seguintes parâmetros de entrada:

(1) os números de iterações n e p que cada um dos métodos - Bagging e RS -

serão processados em cada sequência. O produto m = n ×p define a quan-

tidade de classificadores treinados que irão compor o pool L. O primeiro

método da sequência irá processar a base de dados DB1 produzindo su-

bamostras DB1i , i = 1. . .n. A partir de cada subamostra DB1i , o segundo

método produzirá p subamostras DB1i j , j = 1. . . p, as quais serão utilizadas

no treinamento dos classificadores. Ao final, n ×p classificadores estarão

41

3.3. PODA DO POOL DE CLASSIFICADORES

treinados, compondo um único pool de classificadores L = l1, ..., lm. (Figu-

ras 3.2a e 3.2b);

(2) taxa de seleção de características. Esta taxa é usada pelo método Random

Subspace para redução da dimensionalidade dos padrões. Esta taxa de-

fine a quantidade de atributos que serão escolhidos aleatoriamente dentre

os atributos originais que definem o padrão. Esta seleção permite a gera-

ção de uma subamostra de dados de dimensionalidade a ser utilizada no

treinamento dos classificadores base.

3.3 Poda do pool de classificadores

Após gerado o pool de classificadores, o mesmo é submetido a um processo de

poda de ensembles, cujo objetivo é manter ou otimizar o seu desempenho em re-

lação às classificações, além de reduzir o consumo de recursos computacionais,

tais como: tempo de processamento e memória.

O processo da poda é realizado tendo como entrada o pool L, cujos clas-

sificadores que o compõem foram agregados sem uma ordenação específica,

durante a fase de treinamento. Outra entrada dessa fase é uma base de da-

dos, DB2, contendo padrões diferentes dos utilizados da fase anterior. O pool

completo L, não ordenado, é podado conforme um método de agregação or-

denada – Orientation Ordering (OO), produzindo um ensemble P = p1, ..., pq ,

P ⊂ L, sendo q igual à quantidade de classificadores selecionados pelo referido

método de poda. O processo de poda é apresentado na Figura 3.3. Com isso,

espera-se que P alcance um desempenho preditivo igual ou superior a L, a um

menor custo computacional.

O algoritmo Orientation-Ordering (OO) (Martínez-Muñoz e Suárez, 2006)

é um método de poda baseado em ranking cuja eficácia foi comprovada em

termos de desempenho (Tsoumakas et al., 2009). A abordagem utilizada pelo

OO é a de modificar a agregação original dos classificadores no ensemble, pro-

duzidos aleatoriamente por meio de um método tradicional (ex.: Bagging ),

estabelecendo uma ordem de importância desses classificadores quanto à con-

tribuição dos mesmos na otimização do desempenho preditivo do ensemble

final. Esta abordagem tem como premissa que é possível se construir de forma

42


DB1

Bagging

... Random Subspace

DB111

DB11

DB112 DB11p ...

Geração dos classificadores

l11 l12 l1p ...

Random Subspace

DB121

DB12

DB122 DB12p ...


l21 l22 l2p ...

Random Subspace

DB1n1

DB1n

DB1n2 DB1np ...


ln1 ln2 lnp ...

...

(a) Bagging-RS

DB1

Random Subspace

... Bagging

DB111

DB11

DB112 DB11p ...


l11 l12 l1p ...

Bagging

DB121

DB12

DB122 DB12p ...


l21 l22 l2p ...

Bagging

DB1n1

DB1n

DB1n2 DB1np ...


ln1 ln2 lnp ...

...

(b) RS-Bagging

Figura 3.2: Estratégias dual de treinamento (ou treinamento em 2 níveis)para geração do Pool de Classificadores inicial

incremental subensembles cada vez mais eficientes, agregando um classificador

de cada vez, conforme um determinado critério (Martínez-Muñoz e Suárez,

2006). Após esta agregação ordenada, somente uma fração desses classificado-

43


DB2

Ordenação de L com base no Vetor

de Referência

P=p1, p2,...,pq

L=l1, l2,...,lm

Lo=lo1, lo2,...,lom

Corte dos classificadores que não atingiram o critério de seleção

Cálculo do Vetor de Referência

OO

Figura 3.3: Esquema de poda baseada no algoritmo Orientation Ordering - (OO)

res é selecionada, conforme um critério τ, para formar o ensemble podado P

com as características já mencionadas.

A medida, ou critério, adotada pelo OO para realizar a ordenação dos classi-

ficadores, identifica quanto cada classificador contribui para maximizar o en-

semble na direção de um desempenho ideal de classificação (Martínez-Muñoz e

Suárez, 2006). Entende-se como desempenho ideal de classificação, no âmbito

do algoritmo OO, a possibilidade do ensemble conseguir classificar correta-

mente todos os padrões que lhe forem apresentados durante o treinamento.

Conforme pode ser observado no algoritmo 3.1, em sua etapa 1, cada classi-

ficador l do ensemble completo L é caracterizado por um vetor de assinatura,

c (l ) = (c1,c2, . . . ,cr ), sendo r o total de padrões utilizados no processamento

da poda. O vetor c (l ) representa o desempenho do classificador sobre esse con-

junto de padrões, no qual o conteúdo do i-ésimo componente ci pode ser +1 ou

−1, sendo +1 quando o padrão for classificado corretamente pelo classificador

l, e −1, caso contrário.

Na etapa 2 é calculado o vetor de assinatura do ensemble, cens , como sendo

a média dos m vetores de assinatura de todos os classificadores do ensemble L.

cens representa a tendência central do pool original L:

44


Algoritmo 3.1 Fase de poda usando Orientation Ordering (OO)Entrada: Pool de Classificadores L = l1, . . . , lm gerado na fase de treinamentoEntrada: Base de Dados DB2 = (x1, y1), . . . , (xr , yr )Saída: P = p1, ..., pq , P ⊂ L, q igual a qtd de classificadores após a poda

Etapa 1 - Monta vetores de assinatura dos classificadores1: para t ← 1 até m faça2: para i ← 1 até r faça3: c(lt )

i ← 2I (lt (xi ) = yi )−1 . I(α) é 1 se α for verdade e 0, se for falso4: fim para5: fim para

Etapa 2 - Calcula vetor de assinatura do ensemble e vetor de referência

6: cens ← 1m

m∑t=1

c(lt )

7: λ←−o. cens|cens |2

8: cr e f ← o +λcens

Etapa 3 - Seleciona e Ordena Classificadores Candidatos ao ensemble final9: para t ← 1 até m faça

10: se ang (c(lt )) ≤ pi /2 então . ang(β) calcula ângulo entre c(lt ) e cr e f

11: Le ← lt . lt é candidato ao ensemble final12: u ← u +1 . conta # de classificadores candidatos ao ensemble final13: fim se14: fim para15: Lo ← Ordena(Le) . Ordena Le ascendentemente pelor ângulo com cr e f

16: Ang ← MedLo (ang (c(lt ))) . Calcula média dos ângulos dos classif. de Lo

Etapa 4 - Elimina classificadores cujos ângulos sejam maior que a média17: para t ← 1 até u faça . u é igual ao # de classificadores candidatos18: se ang (c(lt )) ≤ Ang então19: P ← c(lt ) . Agrega o classificador ao ensemble final20: fim se21: fim para

cens = 1

m

m∑t=1

c (lt )

Em um problema de classificação binária, como no caso do credit scoring,

o i-ésimo componente de cens é igual à margem de classificação do i-ésimo

padrão, sendo essa margem definida como a diferença entre o número de votos

45


computados para a classe correta e o número de votos para a classe errada, nor-

malizada no intervalo [−1;1] (Martínez-Muñoz e Suárez, 2006). Considerando

que, um padrão é corretamente classificado quando o i-ésimo elemento de cens

é positivo, pode-se concluir que um ensemble cujo vetor de assinatura cens es-

teja no primeiro quadrante do espaço r-dimensional, classificará corretamente

todos os exemplos da base usada no processamento da poda.

Desta forma, o método OO estabelece um critério de ordenação baseado na

orientação do vetor de assinatura de cada classificador do ensemble em relação

a uma determinada direção de referência. Esta direção, codificada num vetor

de referência cr e f , é a projeção da diagonal do primeiro quadrante do espaço

r-dimensional sobre o hiperplano definido por cens (Martínez-Muñoz e Suárez,

2006).

Intuitivamente, pode-se entender que, numa situação ideal, se todos os

classificadores estivessem corretos sobre todos os padrões, o vetor de assina-

tura do ensemble, cens , seria composto apenas por 1s, cuja direção equivaleria

à da diagonal do primeiro quadrante do espaço r-dimensional. A meta do

algoritmo, portanto, é criar subensembles por meio da agregação incremental

de classificadores, de modo que o vetor de assinatura cens seja impulsionado

na direção da projeção dessa diagonal no hiperplano definido por cens , o mais

rápido possível. Essa rapidez significa encontrar um subensemble composto por

uma menor quantidade possível de classificadores selecionados, cujo vetor de

assinatura mais se aproxime da projeção da diagonal, podendo levar a uma taxa

de erro de generalização equivalente ou melhor do que a do ensemble original

ordenado aleatoriamente, a um menor custo computacional.

Para conseguir este efeito, o vetor de referência precisa ser definido tal que

maximize o torque1 sobre cens na direção da projeção da diagonal do primeiro

quadrante. Assim, o vetor de referência é calculado da seguinte forma:

cr e f = o +λcens

Sendo o um vetor orientado ao longo da diagonal do primeiro quadrante,

1Torque é definido como o produto vetorial: ~τ = ~F x~r , correspondendo a um vetor cujomódulo é dado por |τ| = |F |.|r |senθ, sendo F a força aplicada sobre um objeto, r a distânciaentre o ponto de fixação (ou de origem) do objeto e o ponto de aplicação da força F , e θ o ânguloentre os vetores ~F e~r . Dados ~F e~r , o torque será máximo quando ~F ⊥~r , pois sen90o é igual a 1.

46


e λ uma constante tal que cr e f é perpendicular à cens (cr e f ⊥ cens) (Martínez-

Muñoz e Suárez, 2006). Por esta fórmula, pode-se deduzir que:

λ=−o.cens

|cens|2

A partir da definição de torque, pode-se entender o vetor de referência,

cr e f , como sendo a direção da força a ser aplicada sobre o vetor de assinatura

cens (equivalente à distância ~r ) no sentido de impulsioná-lo na direção da

projeção da diagonal do primeiro quadrante sobre o hiperplano definido por

este último. Os vetores de assinatura dos classificadores c (t ) representam a

intensidade da força a ser aplicada sobre cens a cada vez que são agregados

ao subensemble. Logo, quanto mais orientado c (t ) estiver na direção de cr e f ,

maior será o impulso sobre cens na direção desejada. Sendo assim, devem

ser agregados ao subensemble, em ordem crescente, os classificadores cujos

ângulos dos seus vetores de assinatura com o vetor de referência sejam os

menores do ensemble original.

O ângulo entre o vetor de assinatura de cada classificador, c (t ), e o vetor de

referência, cr e f , é encontrado a partir do cálculo do cosseno do ângulo entre

eles, o qual é feito a partir da fórmula:

cosθ = cr e f .c (t )

|cr e f |.|c (t )|

Uma vez encontrado o valor do cosθ, aplica-se a função inversa do cosseno,

arcos(cosθ), para se chegar ao valor de θ.

Conforme apresentado na etapa 3 do algoritmo 3.1, uma vez ordenados

os classificadores de acordo com o método acima descrito, é preciso definir

quantos classificadores de fato serão selecionados para serem agregados ao

subensemble a fim de se chegar às melhores taxas de acerto na generalização. A

proposta do OO para definir esta quantidade é, numa primeira etapa, definir

como candidatos a participarem do subensemble final aqueles classificadores

cujo vetor de assinatura tenha um ângulo com cr e f menor do que π/2, ou seja,

aqueles que estejam dentro do quadrante definido por cr e f e cens . Em seguida,

o OO calcula a média dos ângulos desses vetores pré-selecionados, escolhendo

47


para fazer parte do subensemble final todos os classificadores cujo ângulo com

cr e f seja menor do que essa média, obtendo-se a sim o ensemble podado final,

a ser utilizado na fase seguinte da arquitetura (etapa 4 do algoritmo 3.1).

A questão chave em todo este processo é encontrar um critério confiável

no qual se baseie a ordenação dos classificadores. É conhecido na literatura

relativa aos MCS, que nem a precisão dos classificadores que os compõem, nem

a diversidade entre eles, são por si sós suficientes para se identificar ensembles

eficientes (Martinez-Muñoz et al., 2009). Ou seja, critérios de ordenação ba-

seados apenas nas propriedades individuais dos classificadores-membros do

ensemble, não possuem correlação positiva com o aumento do desempenho

de classificação do ensemble, por isso, é necessário encontrar uma relação de

complementaridade entre os classificadores (Martınez-Munoz e Suárez (2004);

Martínez-Muñoz e Suárez (2006)). Por exemplo, um classificador pode ter

individualmente um desempenho fraco, contudo, sua contribuição pode ser

importante quando combinado com outros classificadores no ensemble, caso

ele consiga classificar corretamente determinadas amostras nas quais os demais

classificadores cometem erros (Martinez-Muñoz et al., 2009).

O método OO conseguiu encontrar subensembles com quantidades inter-

mediárias de classificadores, variando entre 15% e 30% do ensemble original,

com taxas de erro de generalização abaixo do valor da constante assintótica

(v. Subseção 2.3.3), obtida no caso do ensemble cujos classificadores foram

agregados aleatoriamente pelo bagging (Martínez-Muñoz e Suárez, 2006).

Exemplo do funcionamento do algoritmo Orientation-Ordering : Supo-

nha um pool de classificadores L = l1, . . . , lm, m = 5, gerado na fase de treina-

mento, e uma amostra de dados Dpr = (d1, . . . ,dr ), r = 10, usada no processa-

mento da poda. Ao final da primeira etapa da poda, para cada classificador

li , seria gerado um vetor de assinatura c (li ), sendo obtido o vetor de assina-

tura do ensemble, cens , calculado a partir da média dos respectivos vetores de

assinatura dos classificadores. Esse resultado pode ser observado na última

linha da Tabela 3.1, na qual cada linha i corresponde ao vetor de assinatura

do classificador li , e cada coluna indica se este classificador li acertou (+1) ou

errou (−1) a classificação do padrão.

De posse do vetor do cens , pode ser obtido o vetor de referência, cr e f . Para

encontrar o vetor de referência do ensemble, primeiro é preciso calcular-se o λ,

48


Vetores de assinatura dos classificadores – c (li )

d1 d2 d3 d4 d5 d6 d7 d8 d9 d10

c (l1) -1 +1 +1 +1 +1 -1 +1 -1 +1 -1

c (l2) +1 +1 +1 -1 -1 +1 +1 -1 +1 -1

c (l3) +1 -1 -1 -1 +1 -1 +1 -1 +1 -1

c (l4) +1 -1 +1 -1 +1 -1 +1 -1 +1 +1

c (l5) +1 +1 -1 -1 +1 +1 -1 -1 +1 +1

cens 0,6 0,2 0,2 -0,6 0,6 -0,2 0,6 -1 1 -0,2

Tabela 3.1: Cálculo do vetor de assinatura do ensemble

a partir da fórmula: λ=−o. cens|cens |2 . Sendo o = (1;1;1;1;1;1;1;1;1;1), e |cens | =

p3,6,

calcula-se λ= 0,3333. Uma vez conhecido λ, pode-se calcular cr e f , a partir da

fórmula: cr e f = o +λcens (v. Tabela 3.2).

d1 d2 d3 d4 d5 d6 d7 d8 d9 d10

cr e f 0,8 0,9333 0,9333 1,2 0,8 1,0667 0,8 1,3333 0,6667 1,0667

Tabela 3.2: Vetor de referência do ensemble

Interessante observar neste exemplo que, no conceito de torque, as di-

mensões correspondentes aos padrões com maior dificuldade de classificação

sentirão um impulso mais forte (ou seja, os padrões d4, d6, d8, d10).

Por fim, uma vez calculado o vetor de referência acima, são calculados os

ângulos (em radianos) entre os vetores de assinatura dos classificadores e o

vetor de referência, tomando por base o valor do cosseno entre dos mesmos

(cosθ = cr e f .c(t )

|cr e f |.|c(t )|), conforme apresentado na Tabela 3.3.

Vetor Ângulo (rad)

c (l1) 1,4726c (l2) 1,4972c (l3) 1,9373c (l4) 1,5218c (l5) 1,4726

Tabela 3.3: Ângulos entre os vetores de assinatura dos classificadores e o vetorde referência do ensemble

49

3.4. TESTE DO ENSEMBLE FINAL

Com base nestes ângulos, inicialmente são selecionados e ordenados as-

cendentemente todos os classificadores que possuem ângulo menor que π/2,

ou seja: l1, l5,l2,l4. Em seguida, calcula-se a média dos ângulos dos vetores

desses classificadores: âng med = 1,4910. Feito este cálculo, são podados todos

os classificadores cujo âng (li ) > âng med . Ao final, o ensemble P , a ser utilizado

na classificação das amostras na fase de teste será composto apenas pelos

classificadores l1 e l5, ou seja p1 = l1 e p2 = l5, e P = p1, p2.

3.4 Teste do ensemble final

Conforme apresentado no bloco mais à direita da Figura 3.1, na terceira e úl-

tima fase são feitos os testes no ensemble P , produzido na fase anterior (poda).

Na fase de teste são apresentados novos padrões (conjunto de dados DB3), di-

ferentes dos usados nas fases anteriores, a fim de se avaliar a capacidade de

generalização do ensemble produzido. É utilizado o majority vote (Kuncheva,

2004) como método de combinação das predições individuais dos classificado-

res de P .

Dado um ensemble P = p1, . . . , pm, sendo m o número de classificadores, e

um conjunto de classes Ω= w1, . . . , wc , sendo c o número de classes existentes.

Suponha que as saídas dos classificadores pi , para cada padrão classificado,

sejam dadas por vetores binários, s = [si ,1, . . . , si ,c ]T ∈ 0,1c , i = 1, . . . ,m, sendo

si , j = 1 se pi classificar o padrão x na classe w j , e 0 caso contrário. O majority

vote resultará na decisão do ensemble para a classe wk se (Kuncheva, 2004):

m∑i=1

si ,k = cmax

j=1

m∑i=1

si , j

Empates são resolvidos arbitrariamente.

A escolha do majority vote repousa sobre a decisão da arquitetura proposta

adotar a abordagem de fusão de classificadores (v. item a da Seção 2.4), na

qual todos os classificadores do ensemble contribuem para a decisão final.

Além do fato do majority vote ser um dos métodos de combinação baseados

em fusão mais usados em sistemas de múltiplos classificadores (Ponti, 2011),

50

3.5. CONSIDERAÇÕES FINAIS

especialmente quando se utiliza estratégias de amostragem como o Bagging,

devido à possibilidade de redução da variância (Wang et al., 2012).

Métodos de combinação baseado em fusão são menos afetados por métodos

de seleção de características (ex.:Random-Subspace) do que os métodos de

combinação baseados na abordagem de seleção (Santana et al., 2007). Por isso,

ao se utilizar um método de combinação baseado em fusão de classificadores,

como majority vote, espera-se uma maior estabilidade em termos de taxa de

acerto do ensemble produzido pela arquitetura proposta, mesmo que sejam

utilizados outros métodos de seleção de características que, porventura, sejam

mais adequados ao problema de classificação a ser resolvido.

3.5 Considerações finais

Considerando a arquitetura proposta como um modelo de uso geral, sobre

o qual poderão ser aplicados diversos métodos, entendemos ser necessário

destacar alguns fundamentos sobre sistemas de múltiplos classificadores (MCS)

nos quais a mesma se baseou.

Primeiramente, o modelo aqui proposto seguiu o conceito de Arquitetura

Paralela. Neste conceito, todos os classificadores do ensemble opinam sobre

o padrão a ser classificado. Em seguida, as predições dos classificadores são

combinadas para definir a classificação final do padrão. Metodologias de gera-

ção de ensembles mais gerais usam este conceito de arquitetura, pelo fato de

ser mais simples de implementar e mais fácil de analisar (Ponti (2011);Wozniak

et al. (2014)).

Em relação ao projeto do MCS, adotou-se o conceito de otimização da

cobertura (v. seção 2.2), pois a estratégia da arquitetura proposta busca me-

lhores taxas de generalização por meio da melhor reunião de classificadores

possível, considerando critérios de desempenho, diversidade e complementa-

ridade entre eles, usando um método relativamente simples de combinação

dos classificadores. A abordagem baseada na otimização da decisão não se

aplicaria à arquitetura proposta, porque seu foco está na utilização de métodos

mais elaborados de combinação das predições individuais dos classificadores

componentes do ensemble.

Por fim, dentre os 4 níveis de abordagem para geração de ensembles descritos

51

3.5. CONSIDERAÇÕES FINAIS

em Kuncheva (2004) — A - Nível de Combinação, B - Nível de Classificador, C

- Nível de Atributos, D- Nível de Dados, a arquitetura proposta mantém seu

foco nos níveis C e D, devido à eficácia de métodos como Bagging (Breiman,

1996), que atua no nível D, e de métodos de seleção de atributos como Random-

Subspace (Ho, 1998), que atua no nível C. Além disso, como comentado na seção

2.5, esses métodos são eficazes no caso de aplicações com ruídos e redundância

de informação entre os atributos, respectivamente, a exemplo de sistemas de

credit-scoring.

52

4Experimentos e resultados

A ciência é a tentativa de fazer com que a diversidade caótica da

nossa experiência sensível corresponda a um sistema lógico

uniforme de pensamento.

—EINSTEIN (1950)

Este capítulo detalha os experimentos realizados usando a arquitetura pro-

posta, assim como os resultados obtidos. Na seção 4.1 são descritas as ca-

racterísticas das bases de dados utilizadas nos experimentos; na seção 4.2 é

apresentada a metodologia utilizada nos experimentos, inclusive no que se

refere à preparação das bases de dados, visando dar maior alcance conclusivo

aos resultados dos experimentos realizados; na seção 4.3 é definida a parame-

trização usada na configuração dos cenários adotados nos experimentos; e,

finalmente, na seção 4.4 são relacionados os resultados obtidos.

4.1 Bases de dados

Para efeito de validação da eficácia da arquitetura proposta, utilizou-se as

seguintes bases de dados de análise de crédito: Australian e German, ambas

disponíveis no UCI Machine Learning Repository (Bache e Lichman, 2013), e

que vêm sendo usadas em diversas pesquisas relacionadas a aprendizagem de

máquina em aplicações de credit scoring. As bases estão configuradas conforme

apresentado na Tabela 4.1.

A base de dados Australian possui 690 instâncias, sendo 307 (44,5%) de

bons clientes (avaliação de crédito positiva), e 383 (55,5%) de maus clientes

53

4.2. METODOLOGIA

Base de Dados Instâncias Atributos Classes

Categóricos Numéricos Positivos Negativos

Australian 690 8 6 307 383

German 1000 24 - 700 300

Tabela 4.1: Descrição das bases de dados utilizadas nos experimentos.

(avaliação de crédito negativa). Essa base possui 14 atributos de entrada mais o

atributo de classificação. Dentre os atributos de entrada, 6 são númericos con-

tínuos e 8 categóricos. Os atributos categóricos foram modificados para valores

numéricos inteiros em função da conveniência dos algoritmos estatísticos, por

exemplo, o atributo de ordem 4 originalmente tinha 3 rótulos: ’p’, ’g’, ’gg’, esses

foram trocados para: ’1’, ’2’, ’3’. Para 37 instâncias alguns atributos não haviam

sido preenchidos originalmente, nestes casos o preenchimento foi feito artifici-

almente conforme a seguinte regra: para os atributos categóricos utilizou-se a

moda das demais instâncias, e para os atributos contínuos utilizou-se a média

das demais instâncias.

A base German possui 1000 instâncias, das quais 700 (70%) são de bons

clientes e 300 (30%) de maus clientes. Esta base é fornecida em dois formatos:

a) o conjunto de dados original com 20 atributos, sendo 7 numéricos e 13

categóricos; b) e um conjunto de dados com 24 atributos apenas numéricos

para atender algoritmos que conseguem lidar apenas com variáveis categóricas.

Além dos atributos de entrada, em ambos os formatos, há ainda o atributo de

classificação. Estes experimentos usaram o segundo formato desta base de

dados.

4.2 Metodologia

Para realização dos experimentos, foi adotado o método 10-fold cross-validation

(10-fold CV) como forma de diversificação dos dados usados nas 3 fases da

arquitetura - treinamento, poda e teste, produzindo assim uma maior variedade

de classificadores, e consequentemente de ensembles a serem analisados. Os

experimentos foram conduzidos seguindo as etapas abaixo descritas:

ETP1 Normalização: em ambas as bases, os atributos numéricos, contínuos

ou com maior intervalo de variação, são normalizados no intervalo [0;1]

54

4.2. METODOLOGIA

evitando-se eventuais distorções na análise dos padrões.

ETP2 Particionamento: cada base de dados original é, aleatoriamente, divi-

dida em 10 subconjuntos de dados (folds) com quantidades iguais de

instâncias, mantendo a mesma proporção em relação aos percentuais de

classes existente na base original: 44,5% / 55,5% para a base Australian e

70% / 30% para a base German

ETP3 Agrupamento: os folds são agrupados em 3 blocos, conforme a regra

7-2-1, ou seja: a) O primeiro bloco, composto por 7 folds, é usado na fase

de treinamento dos classificadores e geração do pool de classificadores L;

b) o segundo bloco, composto por 2 folds, é usado no processamento da

fase de poda da arquitetura, produzindo o ensemble final P ; e o terceiro

bloco, contendo 1 fold, é usado na fase de testes de P . São produzidos e

armazendas 10 combinações diferentes desses folds, sempre seguindo a

regra 7-2-1, de modo que todos os folds sejam utilizados nas 3 fases da

arquitetura: treinamento, poda, e teste.

ETP4 Parametrização 1: na primeira parte da parametrização é definido o

tamanho do pool de classificadores que será gerado durante a fase de

treinamento. A arquitetura proposta é avaliada em variados tamanhos

de pool, conforme definido na Tabela 4.3. Logo, todas as etapas a seguir

são repetidas 9 vezes, uma para cada tamanho.

ETP5 Parametrização 2: nesta segunda parte da parametrização é definido

um conjunto de parâmetros de entrada que define um dos cenários sob

os quais a arquitetura será avaliada, de acordo com o apresentado na

Tabela 4.2.

ETP6 Processamento: as fases da arquitetura são executadas em 10 iterações,

usando como base de dados, em cada iteração, um dos 10 (dez) agrupa-

mentos definidos na ETP3. Dessa forma, em cada iteração um ensemble

é gerado e testado, armazenando-se a respectiva taxa de acerto.

ETP7 Cálculo do desempenho: ao final do último ciclo, é calculado a taxa

média de acerto a partir das taxas de acerto de cada um dos 10 ensembles,

produzidos na ETP6. Em seguida, volta-se à ETP5, a fim de fazer nova

parametrização de cenário de avaliação. Se este for o último cenário a

55

4.3. PARAMETRIZAÇÃO

ser avaliado, volta-se à ETP4, até que se esgotem todas configurações de

tamanho de ensemble.

ETP8 Avaliação do desempenho: Ao calcular todas as taxas médias de acerto

para todos os tamanhos de ensemble, em cada um dos cenários avaliados,

as mesmas são analisadas e comparadas entre si. O objetivo dessa compa-

ração é o de avaliar o desempenho da arquitetura proposta (construção

do pool de classificadores baseado numa estratégia de treinamento em 2

níveis, associado a um método estruturado de poda de ensembles, com

teste do ensemble usando um método de combinação baseado em fusão

de classificadores) em relação ao seu uso quando configurada com outros

métodos e estratégias.

Como método para realização dos testes estatísticos de significância, foi

adotada a distribuição t-Student, considerando um nível de significância α igual

a 5%, e (n −1) graus de liberdade, sendo n igual ao tamanho da amostra.

4.3 Parametrização

Os experimentos aqui descritos foram realizados utilizando-se um notebook

com um processador Intel Core 2 Duo de 2.20 GHz, RAM de 3 GB, e sistema ope-

racional MS-Windows 7 Ultimate. Os testes foram implementados no MATLAB,

versão 7.6.0.324 (R2008).

Para cada uma das duas bases de dados usadas nos experimentos, foram

configuradas 21 possibilidades de cenários diferentes a partir das combinações

dos parâmetros de entrada descritos abaixo, consolidados no quadro resumo


1. Estratégia de treinamento do pool de classificadores: Foram usadas 3

estratégias durante a fase treinamento da arquitetura proposta: 2 delas

consideram a própria estratégia de treinamento em dois níveis (estratégia

dual): Bagging-RS e RS-Bagging. A terceira estratégia utiliza apenas o

método Bagging, referenciada neste trabalho como estratégia em 1 nível,

sendo esta implementada ao se considerar o parâmetro de taxa de seleção

de atributos do RS igual a 1,0 (Tabela 4.2).

56


2. Taxa de seleção de atributos: Foram avaliadas 3 variações deste parâ-

metro: 0,5,0,6 e 0,7. Esses valores indicam a porcentagem do espaço de

características que será usado na fase de treinamento dos classificadores

componentes do pool. Por exemplo, quando a taxa de seleção for igual

a 0,6, significa que o espaço de características será reduzido, aleatoria-

mente, a 60% das características originais. Conforme apresentado no

item 1 acima, este parâmetro assume o valor 1,0 para indicar que será

considerado 100% do espaço original de características. Neste caso, o

treinamento não se dará em dois níveis, e sim em um único nível, usando

apenas o Bagging como estratégia de treinamento;

3. Método usado na fase de poda: Foram avaliadas 3 possibilidades de varia-

ção deste parâmetro: a) Poda usando integralmente o método estruturado

Orientation-Ordering (OO); b) Uso do Single Best, que significa escolher

como predição final a saída do classificador que ficar no topo da lista

ordenada, conforme os critérios de ordenação do algoritmo do OO; c)

Sem poda, isto é, o ensemble utilizado na fase de testes da arquitetura será

o mesmo produzido na fase de treinamento;

Estratégia de

Treinamento

Taxa de Seleção de

Atributos

Métodos de

Poda

Cenários

Possíveis

RS-Bagging ou

Bagging-RS

0,5; 0,6; 0,7 OO; Single Best ;

Sem Poda

18

Bagging 1,0 (sem RS) OO; Single Best ;

Sem Poda

3

Tabela 4.2: Parâmetros informados na configuração dos cenários experimentos.

Conforme citado na Seção 4.2 (etapa 4 da metodologia), para cada um dos

21 cenários avaliados, foram aplicadas 9 possibilidades de tamanho (Tabela 4.3)

para o pool de classificadores produzido, podado e testado pela arquitetura

proposta. Estes tamanhos variaram em função do produto das quantidades de

iterações que cada um dos métodos usados na fase de treinamento (estratégia

dual ou em 2 níves – Bagging e RS).

Portanto, considerando os 21 cenários acima apresentados, e os 9 tamanhos

de ensembles diferentes para cada uma desses cenários, foram analisadas 189

57


taxas de acerto obtidas por cada uma dessas configurações, às quais foram

submetidas a arquitetura proposta.

No treinamento em 2 níveis, visando reduzir a eventual predominância de

um método de treinamento sobre o outro, adotou-se o mesmo número de

iterações para ambos os métodos usados nessa fase. No caso da estratégia em

apenas 1 nível, como foi realizado o treinamento usando apenas um método,

o Bagging, o número de iterações para geração dos bootstraps foi elevado à

segunda potência, mantendo assim a compatibilidade com o treinamento em 2

níveis.

Martínez-Muñoz e Suárez (2006) constataram a eficácia do algoritmo do

OO em ensembles com quantidades entre 100 e 200 classificadores do tipo

árvores de decisão, inclusive sobre as bases usadas nestes experimentos. Por

isso, na avaliação desta arquitetura foi arbitrado um intervalo de tamanhos de

ensembles que possibilitasse, com razoável margem de segurança, que o OO

pudesse realizar todo seu potencial. Assim, os experimentos foram realizados

com pools de classficadores com tamanhos variando entre 25 e 441, conforme


# Iterações Tamanho do poolBagging RS

5 5 257 7 499 9 81

11 11 12113 13 16915 15 22517 17 28919 19 36121 21 441

Tabela 4.3: Tamanho dos pools de classificadores usados em cada cenário

Adotou-se como classificador base para criação dos ensembles a árvore de

decisão. Essa escolha deve-se ao fato desse tipo de classificador ser ampla-

mente utilizado na construção de MCS (Kuncheva, 2004), principalmente em

função de sua característica de instabilidade, o que propicia a diversidade na

composição dos ensembles a partir de variações na base de dados usada em seu

treinamento propiciadas pelos algoritmos Bagging e RS.

Para a geração das árvores de decisão foi utilizada a função classregtree do

58

4.4. RESULTADOS

MATLAB utilizando-se apenas atributos categóricos, com os parâmetros default

da função, dentre o eles, o critério de split utilizado foi o Índice de Diversidade

de Gini (GDI - Gini Diversity Index).

4.4 Resultados

Nesta seção são detalhados os resultados dos experimentos realizados. As

principais diretrizes dos experimentos são:

(1) Avaliar a influência de alguns dos parâmetros de entrada usados pelos mé-

todos adotados na arquitetura proposta, visando identificar configurações

que contribuam para um melhor desempenho do modelo;

(2) Comparar o desempenho da arquitetura proposta com outros modelos

usados em sistema de múltiplos classificadores.

O experimento realizado avaliou o comportamento da arquitetura proposta

a partir da variação do tamanho do pool de classificadores produzido na fase

de treinamento, da estratégia de treinamento adotada, da variação da taxas de

seleção de subespaços de características, quando do uso do Random Subspace,

e dos métodos utilizados durante a fase de poda.

Importante enfatizar, mais uma vez, que a arquitetura proposta considera

o uso de: uma das estratégias de treinamento em 2 níveis (dual) na fase de

treinamento; de um método estruturado de poda de ensembles na fase de poda,

no caso o Orientation-Ordering ; e de uma estratégia de combinação baseada

em fusão de classificadores. É necessário que isso seja destacado para que se

possa diferenciar os resultados dessa configuração das demais configurações,

ou seja, quando os métodos usados na arquitetura não são compatíveis com

a configuração proposta, como por exemplo: usar na fase de treinamento um

método em apenas 1 nível (ex.: Bagging ), ou não utilizar na fase de poda um

método estruturado de poda de ensembles, ou ainda usar o conceito Single Best.

Para iniciar a análise dos resultados, verificou-se o comportamento da ar-

quitetura variando-se a taxa de seleção do RS, e o método usado na fase de

poda, considerando-se apenas a estratégia de treinamento em 2 níveis (dual),

em ambas as possibilidades: Bagging-RS e RS-Bagging.

Como pode ser observado nas Figuras 4.1, 4.2 e 4.3, a arquitetura proposta

apresentou melhores taxas de acerto quando adotado o valor de 0,5 como taxa

59

4.4. RESULTADOS

de seleção no RS. Esses resultados podem ser melhor analisados nos 2 primei-

ros gráficos das Figuras 4.1 e 4.2. Na base de dados German esses resultados

parecem estar mais evidenciados.

Em relação à taxa de seleção, o resultado acima vem ao encontro do que

é sugerido em Ho (1998): bons resultados são obtidos para árvores de decisão

construídas sobre espaços de características cuja dimensão é metade do espaço

total. E, em relação ao tamanho do ensemble, pode-se observar que para a

arquitetura proposta, independentemente da taxa de seleção usada, há uma

maior estabilidade na taxa de acerto, na medida em que o tamanho do ensem-

ble produzido na fase de treinamento aumenta. Esta evidência, também está

em consonância com o que diz a literatura de MCS quanto à queda monotô-

nica da taxa de erro de predição na medida em que se aumenta o número de

classificadores agregados ao ensembles.

Nas demais configurações da arquitetura, nas quais não é adotado o critério

de poda usado no OO, há uma grande variação tanto em relação ao tamanho

do ensemble como em relação à taxa de seleção, não se constatando o mesmo

nível de estabilidade obtida quando da arquitetura proposta.

É interessante perceber que, quando do uso da arquitetura proposta, a

Taxa Média de Poda (TMP) alcançada pelo OO para ambas as estratégias de

treinamento, em ambas as bases de dados, mantém-se em torno de 20 a 21%

(Figuras 4.1 e 4.2). Isto mostra que, a arquitetura proposta, com taxa de seleção

igual a 0,5, além alcançar taxas médias de acerto equivalentes, e até melhores

do que as das demais configurações, o fez usando ensembles de tamanho 80%

menor do que seus equivalentes nas demais configurações.

Na Figura 4.3 são apresentadas as taxas média de acerto, para cada uma das

taxas de seleção utilizadas, independentemente da quantidade de classificado-

res. Nesta figura é possível perceber que, de uma maneira geral, à medida que

o percentual de seleção de características aumenta, o desempenho diminui,

o que é compreensível, uma vez ser comum a incidência de redundância de

atributos em aplicações de credit-scoring. Mais uma vez, pode-se notar que a

arquitetura proposta, e a taxa de seleção igual a 0,5 tem maior predominância

entre as melhores taxas de acerto.

Estes resultados são mais evidentes na base dados German (Figura 4.3b), tal-

vez pela conjugação de 3 fatores: maior quantidade de atributos (24) em relação

à base Australian (14), maior desbalanceamento entre as classes, positivos(70%)

60

4.4. RESULTADOS

Fig

ura

4.1:

Bas

ed

ed

ado

sA

ust

rali

an

-D

esem

pen

ho

da

arq

uit

etu

raem

fun

ção

do

tam

anh

od

op

ool

ori

gin

ald

ecl

assi

fica

do

res

ed

ata

xad

ese

leçã

od

eca

ract

erís

tica

s.O

sgr

áfico

sva

riam

qu

anto

:àes

trat

égia

du

alad

otad

ae

àta

xad

ese

leçã

oad

ota

da

pel

oR

and

omSu

bsp

ace

na

fase

de

trei

nam

ento

;e,a

om

éto

do

usa

do

na

fase

de

po

da.

Ata

xam

édia

de

po

da

(TM

P)

ind

ica

par

aq

uan

tofo

ired

uzi

do

ota

man

ho

do

Poo

lo

rigi

nal

.

61

4.4. RESULTADOS

Figu

ra4.

2:B

ase

de

dad

os

Ger

ma

n-

Des

emp

enh

od

aar

qu

itet

ura

emfu

nçã

od

ota

man

ho

do

poo

lo

rigi

nal

de

clas

sifi

-ca

do

res

ed

ata

xad

ese

leçã

od

eca

ract

erís

tica

s.O

sgr

áfico

sva

riam

qu

anto

:àes

trat

égia

du

alad

otad

ae

àta

xad

ese

leçã

oad

ota

da

pel

oR

an

dom

Sub

spa

cen

afa

sed

etr

ein

amen

to;e

,ao

mét

od

ou

sad

on

afa

sed

ep

od

a.A

taxa

méd

iad

ep

od

a(T

MP

)in

dic

ap

ara

qu

anto

foir

edu

zid

oo

tam

anh

od

oP

ool

ori

gin

al.

62

4.4. RESULTADOS

(a) Base de dados Australiana

(b) Base de dados Germânica

Figura 4.3: Desempenho preditivo da arquitetura em função da taxa de sele-ção. Os gráficos variam quanto: à estratégia em dois níves (dual) - Bagging-RSe RS-Bagging, adotada na fase de treinamento; e, ao método usado na fase depoda. O desempenho é avaliado com base na taxa média de acerto, calculadacomo sendo a média das taxas de acerto obtidas por cada um dos ensemble,independente de tamanho, para cada uma determinada taxa de seleção.

63

4.4. RESULTADOS

e negativos (30%), e pela maior quantidade de padrões.

Na sequência da análise dos resultados, foi verificado o desempenho da

arquitetura adotando-se como estratégia de treinamento o tradicional método

Bagging, ou seja, treinamento em 1 nível, variando-se o tamanho do ensemble

e o método utilizado na fase de poda.

Observa-se na Figura 4.4 um comportamento no qual as taxas de acerto dos

ensembles produzidos pela arquitetura configurada sem o processamento da

poda, apresenta-se ligeiramente superior em relação às demais configurações,

inclusive a que usa o OO como método de poda. Contudo, a taxa média de

poda (TMP) se mantem no patamar de 20%, o que significa que apesar de taxas

de acerto menores, a redução do custo computacional existe. Em princípio, é

possível inferir que sem a extração da redundância dos atributos, o algoritmo

de poda do OO não contribui tanto quanto na arquitetura proposta.

Vale a pena chamar a atenção de que, para ambos os cenários quanto à

estratégia de treinamento – 1 ou 2 níveis, o desempenho da arquitetura ao

utilizar o conceito do Single Best ficou bastante abaixo dos resultados obtidos

pelas configurações que usam em sua fase de teste um ensemble, podado ou

não, o que demonstra a superioridade, na aplicação de credit-scoring, do uso

de sistemas de múltiplos classificadores (MCS) em relação ao uso de um único

classificador.

As observações acima estão resumidas na Tabela 4.4, na qual encontram-se

detalhadas os valores das taxas médias para cada um dos 21 cenários possíveis

de configuração da arquitetura, assim como uma taxa média de acerto da

arquitetura proposta. Essas taxas médias foram calculadas considerando os

resultados individuais de todas as 189 combinações de configuração possíveis.

Para ambas as base de dados, a taxa de seleção igual a 0,5 aparece com o

melhor resultado em 4 das 6 possibilidades de variação de métodos na fase de

poda, o que ratifica as observações anteriores de que, independente de como é

processada a fase de poda, o uso da taxa de seleção 0,5 aumenta a probabilidade

de alcançar melhores resultados em termos de predição.

Ainda quanto ao desempenho da arquitetura proposta, pode-se perceber

pela Tabela 4.4 que esta apresenta as melhores taxas de acerto, tanto quando a

taxa de seleção do RS é igual a 0,5, como na média de todas as taxas de seleção.

A Tabela 4.5 apresenta os 10 melhores resultados obtidos, para cada estraté-

gia dual treinamento (Bagging-RS e RS-Bagging). É possível observar a forte

64

4.4. RESULTADOS

(a) Base de dados Australian

(b) Base de dados German

Figura 4.4: Desempenho da arquitetura em função da quantidade de classi-ficadores, considerando estratégia de treinamento em apenas 1 nível (Bag-ging ). As curvas referem-se ao método usado na fase de poda. A taxa média depoda (TMP) indica para quanto foi reduzido o tamanho do pool original.

65

4.4. RESULTADOS

Fase

de

Po

da

Trei

nam

ento

em1

nív

elTr

ein

amen

toem

2n

ívei

s

(Mét

od

o)

(Bag

gin

g)B

aggi

ng

-R

S(T

x.d

ese

leçã

o)

RS

-B

aggi

ng

(Tx.

de

sele

ção

)M

édia

0,5

0,6

0,7

0,5

0,6

0,7

(2n

ívei

s)

Po

da

com

OO

84,7

42±1

,552

87,2

46±1

,001

86,9

73±0

,865

86,3

60±1

,533

86,2

32±1

,120

86,2

80±0

,750

86,2

48±1

,196

86,5

57±0

,439

Sin

gle

Bes

t82

,955

±1,3

6485

,512

±0,9

1782

,705

±1,0

0482

,738

±1,2

8182

,496

±0,8

1982

,711

±0,9

1381

,851

±1,2

1485

,502

±0,3

36

Sem

Po

da

85,9

74±0

,557

86,5

86±0

,441

86,9

40±0

,303

85,5

86±0

,858

86,2

64±0

,474

86,1

67±0

,640

86,2

32±0

,829

86,4

63±0

,296

(a)

Bas

ed

ed

ado

sA

ust

rali

an

Fase

de

Po

da

Trei

nam

ento

em1

nív

elTr

ein

amen

toem

2n

ívei

s

(Mét

od

o)

(Bag

gin

g)B

aggi

ng

-R

S(T

x.d

ese

leçã

o)

RS

-B

aggi

ng

(Tx.

de

sele

ção

)M

édia

0,5

0,6

0,7

0,5

0,6

0,7

(2n

ívei

s)

Po

da

com

OO

66,7

16±2

,383

73,2

77±1

,301

71,8

44±1

,464

71,1

44±2

,130

72,4

22±1

,419

71,3

77±2

,015

70,7

33±1

,781

71,8

00±0

,929

Sin

gle

Bes

t63

,766

±1,2

2066

,600

±1,7

4066

,989

±1,3

2466

,522

±1,4

8666

,300

±1,0

4966

,411

±1,4

9666

,667

±2,1

3266

,582

±0,2

39

Sem

Po

da

68,0

94±1

,205

69,9

00±0

,606

69,8

89±0

,362

68,9

00±0

,497

71,3

78±0

,452

70,6

89±0

,468

70,5

00±0

,550

70,2

09±0

,848

(b)

Bas

ed

ed

ado

sG

erm

an

Tab

ela

4.4:

Taxa

sm

édia

sd

eac

erto

(%)

calc

ula

das

ap

arti

rd

asta

xas

de

acer

toal

can

çad

asp

elo

sen

sem

bles

de

tam

anh

ova

riad

op

ara

cad

au

md

os

21ce

nár

ios

aval

iad

os

no

sex

per

imen

tos

66

4.4. RESULTADOS

predominância do uso da arquitetura proposta, na qual o uso do método de

poda OO está presente, entre todos os resultados, chegando a 85% para a base

Australian e 100% dos melhores resultados para a base German (Tabela 4.5b).

Ao final de cada um dos quadros na Tabela 4.5 é apresentado um valor

médio de taxa de acerto para esses 10 melhores resultados. Na Tabela 4.6 são

apresentadas as médias dos 10 melhores resultados de todas as configurações

da arquitetura, considerando as 3 estratégias usadas na fase de treinamento

(em 1 ou 2 níveis), e os métodos usados na fase de poda. Quando a fase de poda

é considerada ativada significa que foram considerados para entrar no cálculo

os resultados obtidos por qualquer uma das 3 possibilidades de parametrização

da fase de poda: OO, Single Best, Sem Poda, desde que alguns destes estejam

entre os 10 melhores. Quando a fase de poda está como desativada significa

que foram considerados apenas os 10 melhores resultados da parametrização

"Sem Poda". Na escolha desses resultados para cálculo da taxa média não foram

considerados como filtro, nem as taxas de seleção nem o tamanho do pool de

classificadores.

Em princípio, nota-se que entre os resultados apresentados na Tabela 4.6,

as melhores taxas de acerto são aquelas alcançadas pela arquitetura proposta

quando usada a estratégia treinamento dual Bagging-RS. Essa observação é

válida tanto para a base Australian – 87,870±0,368 (Tabela 4.6a), como para a

base German – 73,590±0,530 (Tabela 4.6b). Aplicou-se então o teste estatístico

baseado na distribuição t-Student, considerando um nível de significância

igual 5%, e constatou-se que essas duas taxas eram, de fato, significativamente

superiores às das demais configurações nas respectivas bases de dados. Ainda

na Tabela 4.6, verificou-se, pelo mesmo teste estatístico, que a segunda melhor

taxa de acerto também foi apresentada pela arquitetura proposta, sendo que,

dessa vez, a estratégia dual usada foi o RS-Bagging, ou seja: 87,130±0,191 e

73,030±0,058, para as bases Australian e German, respectivamente.

É ainda de se observar que, há 3 situações de predomínio parcial de um

dos métodos usados na fase de poda. Foi constatado nos experimentos que

para nenhum deles os resultados que complementam os 100% dos 10 melhores,

a poda acontece por meio do conceito Single Best. Isto signfica que este mé-

todo não aparece em nenhuma lista dos 10 melhores resultados em qualquer

configuração de parâmetros da arquitetura.

67

4.4. RESULTADOSB

aggi

ng-

RS

RS-

Bag

gin

gTa

m.d

oP

ool

Tx.

Sel.

Mét

.Po

da

Tx.

Ace

rto

(%)

Tx.

Po

da(

%)

Tam

.do

Poo

lT

x.Se

l.M

ét.P

od

aT

x.A

cert

o(%

)T

x.P

od

a(%

)28

90,

5O

O88

,696

±4,5

7322

,526

±1,7

2212

10,

6O

O87

,391

±4,7

3620

,992

±2,2

7828

90,

7O

O88

,116

±3,1

9021

,488

±1,3

9849

0,5

OO

87,3

91±5

,205

23,0

61±3

,972

121

0,6

OO

87,9

71±3

,280

22,4

79±2

,608

225

0,7

OO

87,3

91±6

,188

20,9

78±1

,537

169

0,6

OO

87,9

71±3

,487

21,7

16±2

,572

169

0,6

OO

87,1

01±5

,087

21,5

98±2

,371

121

0,5

OO

87,8

26±4

,053

22,5

62±1

,870

810,

7Se

mPo

da

87,1

01±5

,312

N/A

490,

5O

O87

,826

±3,9

9522

,653

±3,3

9516

90,

6Se

mPo

da

87,1

01±5

,734

N/A

361

0,7

OO

87,8

26±4

,111

21,9

94±1

,352

810,

7O

O86

,957

±5,0

2020

,988

±2,2

5428

90,

6O

O87

,536

±3,8

1622

,353

±2,2

4416

90,

5O

O86

,957

±5,7

1621

,479

±1,5

0344

10,

5O

O87

,536

±3,8

1623

,061

±2,3

6622

50,

5Se

mPo

da

86,9

57±4

,099

N/A

441

0,6

OO

87,3

91±3

,553

21,7

46±1

,928

121

0,5

OO

86,9

57±4

,831

21,7

36±2

,943

Taxa

sM

édia

s=

==

>87

,870

±0,3

6822

,258

±0,4

9987

,130

±0,1

9121

,547

±0,7

39

(a)

Bas

ed

ed

ado

sA

ust

rali

an

Bag

gin

g-R

SR

S-B

aggi

ng

Tam

.do

Poo

lT

x.Se

l.M

ét.P

od

aT

x.A

cert

o(%

)T

x.P

od

a(%

)Ta

m.d

oP

ool

Tx.

Sel.

Mét

.Po

da

Tx.

Ace

rto

(%)

Tx.

Po

da(

%)

810,

5O

O74

,500

±2,0

1420

,123

±2,0

2028

90,

5O

O73

,700

±2,0

5821

,972

±1,3

1836

10,

5O

O74

,300

±2,7

9120

,693

±1,4

0744

10,

5O

O73

,700

±2,7

9121

,134

±1,5

6344

10,

5O

O74

,000

±2,8

6720

,748

±0,5

7836

10,

6O

O73

,500

±2,7

5920

,886

±1,2

4049

0,5

OO

73,8

00±2

,860

20,8

16±3

,574

810,

5O

O73

,400

±2,5

0320

,494

±2,9

2212

10,

5O

O73

,400

±2,8

7521

,653

±2,9

1012

10,

5O

O73

,400

±3,6

2720

,826

±2,9

3628

90,

6O

O73

,400

±1,8

9720

,000

±1,4

1122

50,

5O

O73

,000

±3,5

5920

,089

±1,4

9322

50,

6O

O73

,300

±2,8

6921

,156

±0,9

1822

50,

6O

O72

,600

±4,0

8820

,622

±1,3

2828

90,

5O

O73

,100

±3,3

8120

,415

±1,5

9844

10,

6O

O72

,400

±2,0

6619

,660

±1,0

0336

10,

6O

O73

,100

±2,6

0120

,693

±1,1

0122

50,

7O

O72

,300

±2,0

5819

,556

±2,2

3716

90,

6O

O73

,000

±3,4

6421

,065

±1,8

7544

10,

7O

O72

,300

±3,1

2920

,159

±1,7

74Ta

xas

Méd

ias

==

=>

73,5

90±0

,530

20,7

36±0

,489

73,0

30±0

,581

20,5

40±0

,723

(b)

Bas

ed

ed

ado

sG

erm

an

Tab

ela

4.5:

10M

elh

ore

sTa

xas

de

Ace

rto

ob

tid

asen

tre

tod

asas

con

figu

raçõ

esu

tiliz

adas

na

arq

uit

etu

ra,c

on

sid

eran

do

afa

sed

etr

ein

amen

toem

2n

ívei

s

68

4.4. RESULTADOS

Fase de Estratégia de Fase de Método Predominante Tx. Média de Tx. Média de

Treinamento Treinamento Poda na Fase de Poda Acerto(%) Poda(%)

2 Níveis Bagging-RS Ativada 100% OO 87,870±0,368 22,258±0,499

2 Níveis Bagging-RS Desativada N/A 87,188±0,170(−) N/A

2 Níveis RS-Bagging Ativada 70% OO 87,130±0,191(−) 21,547±0,739

2 Níveis RS-Bagging Desativada N/A 86,797±0,210(−) N/A

1 Nível Bagging Ativada 60% Sem Poda 86,507±0,241(−) 20,391±0,137

1 Nível Bagging Desativada N/A 86,362±0,383(−) N/A

(a) Base de dados Australian

Fase de Estratégia de Fase de Método Predominante Tx. Média de Tx. Média de

Treinamento Treinamento Poda na Fase de Poda Acerto(%) Poda(%)

2 Níveis Bagging-RS Ativada 100% OO 73,590±0,530 20,736±0,489

2 Níveis Bagging-RS Desativada N/A 70,250±0,292(−) N/A

2 Níveis RS-Bagging Ativada 100% OO 73,030±0,058(−) 20,540±0,723

2 Níveis RS-Bagging Desativada N/A 71,500±0,323(−) N/A

1 Nível Bagging Ativada 60% Sem Poda 69,160±0,276(−) 21,978±1,727

1 Nível Bagging Desativada N/A 68,950±0,450(−) N/A

(b) Base de dados German

Tabela 4.6: Taxas médias de acerto dos 10 melhores resultados obtidos emcada uma das configurações utilizadas pela arquitetura, usando na fase detreinamento estratégias em 1 ou 2 níveis, independentemente da taxa de seleçãoutilizada no Random Subspace e tamanho do pool de classificadores, e variandona fase de poda o método utilizado, isto é: OO, Single Best, Sem poda. Emnegrito, a taxa de acerto usada como base de comparação para o teste estatístico(t-Student). O símbolo (−) indica que cada uma dessas taxas é significativamentemenor do que a taxa em negrito.

Na Tabela 4.7 são apresentadas as médias dos 10 melhores resultados quando

a arquitetura é processada tendo como método de poda o conceito de single

best, no qual a classificação na fase de teste se dá pela predição de um único clas-

sificador, escolhido como sendo aquele classificado no topo da lista ordenada

produzida pelo algoritmo Orientation-Ordering.

As taxas médias de acerto alcançadas pelo Single Best encontram-se muito

abaixo de suas equivalentes descritas na Tabela 4.6, indo ao encontro da li-

teratura, como apresentado no capítulo 2, que vem demonstrando a maior

eficiência de técnicas de combinação de classificadores em relação às predições

realizadas por um único classificador.

69

4.4. RESULTADOS

Fase de Estratégia de Taxa Média de Acerto(%)

Treinamento Treinamento Base Australian Base German

2 níveis Bagging-RS 82,652±1,041 66,704±1,482

2 níveis RS-Bagging 82,356±1,028 66,459±1,566

1 nível Bagging 83,956±0,842 64,610±0,613

Tabela 4.7: Taxas médias de acerto dos 10 melhores resultados obtidos pelaarquitetura ao usar o conceito do Single Best na fase de poda.

Após toda a análise de resultados acima realizada, é possível chegar-se ao

entendimento de que as taxas de acerto obtidas pela arquitetura proposta su-

peraram as alcançadas quando da utilização de estratégia de treinamento em

1 nível, no caso do Bagging, com ou sem poda, além de superar os resultados

obtidos pelo conceito de single best. A arquitetura proposta alcançou ainda

taxas de acertos equivalentes ou superiores às obtidas mesmo quando foi apli-

cada a estratégia de treinamento em 2 níveis, mas sem o processamento da

poda. Neste último caso, é relevante ressaltar que os resultados da arquitetura

proposta sempre foram obtidos com ensembles de tamanho em torno de 20%

dos seus equivalentes nas demais configurações.

Comparamos nossos resultados com os apresentados por Wang et al. (2012)

e Martínez-Muñoz e Suárez (2006). O primeiro propôs o uso da estratégia de

treinamento dual, ou em 2 níveis, usando Bagging e Random-Subspace sem

uso de métodos de poda, e o segundo apresentou o OO -Orientation-Ordering

como método de poda de ensembles, usando apenas o Bagging como estratégia

de treinamento.

Embora haja diferenças de metodologias usadas nos experimentos e da

forma de apresentação dos resultados, esta comparação pode servir como mais

um referencial para avaliação da eficiência da arquitetura proposta. Ambos os

trabalhos também usaram as bases Australian e German em suas análises.

Wang et al. (2012) apresentaram como melhores resultados para a base de

dados Australian a estratégia Bagging-RS, com taxa de acerto 88,01%, taxa de

seleção de 0,7, e ensemble com 150 classificadores. Para a base German as

estratégias e taxa de seleção foram as mesmas, porém com taxa de acerto de

78,52% e 100 classificadores por emsemble.

70

4.4. RESULTADOS

Martínez-Muñoz e Suárez (2006) apresentaram seus resultados na forma de

taxa de erro. A menor taxa de erro obtida na base Australian foi de 14,1%±2,2, o

que corresponderia a uma taxa de acerto em torno de 85,9%. O procedimento de

poda reduziu o ensemble a 19% da sua dimensão original. Para a base German

a menor taxa de erro foi de 25,4%±1,7%, correspondendo a um taxa de acerto

em torno de 74.6%. A poda reduziu o ensemble a 16,5% do seu tamanho original.

Para ambas as bases, o ensemble original continha 200 classificadores.

Como pode ser observado na Tabela 4.5, a arquitetura proposta alcançou

para a base Australian taxas de acerto superiores ou similares a ambos os

trabalhos acima. Na comparação específica com os resultados de Wang et al.

(2012), é importante observar ainda que: i) as taxas da obtidas pela arquitetura

proposta foram alcançadas por ensembles com 40% do tamanho do ensemble

de melhor resultado de Wang et al. (2012); ii) os melhores resultados também

aparecem na sequência Bagging-RS. Na comparação com os resultados de

Martínez-Muñoz e Suárez (2006), observa-se que as reduções na dimensão dos

ensembles decorrente da poda encontram-se na mesma ordem de grandeza,

próximas a 20%.

Para a base de dados German, observando ainda a Tabela 4.5 e considerando

o desvio padrão ali apresentado, as taxas de acerto de Wang et al. (2012) apa-

recem ligeiramente superiores às obtidas pela arquitetura proposta. Contudo,

esta última alcançou seus melhores resultados com ensembles de tamanho

50% menor do que o tamanho do ensemble de melhor resultado de Wang et al.

(2012). Na comparação com os resultados de Martínez-Muñoz e Suárez (2006),

as taxas de acerto praticamente se equivalem, com um pequena superioridade

da taxa de poda alcançada por Martínez-Muñoz e Suárez (2006).

71

5Conclusões e trabalhos futuros

Acima de tudo é preciso saber como terminar . . . .

—ROUSSEAU (1745)

Os estudos realizados neste trabalho buscaram estruturar um modelo que

possibilitasse associar métodos desenvolvidos no campo da combinação de

classificadores. A ideia fundamental foi a de criar uma arquitetura que orga-

nizasse a associação de alguns desses métodos, com foco no treinamento e

na poda de ensembles, visando potencializar seus pontos fortes, de maneira a

se obter ganhos no desempenho preditivo do sistema de classificação, a cus-

tos computacionais menores do que quando processados sem a utilização do

processamento da poda.

Para validar a eficácia deste modelo de arquitetura, a mesma foi aplicada

na área de credit-scoring, uma vez que as bases de dados relacionadas a esta

aplicação são caracterizadas por dados com ruído e redundância de atributos,

possibillitando assim uma avaliação com um maior grau de exigência quanto

aos métodos utilizados. Foram utilizadas nos experimentos 2 bases de dados

do UCI Machine Learning Repository – Australian e German.

O modelo desenvolvido, descrito em detalhes no capítulo 3, é composto

por 3 fases - Treinamento, Poda e Teste. Em cada uma dessas fases é possível a

utilização de determinados métodos, cuja eficiência já tenha sido comprovada.

Para a aplicação escolhida, foi adotada a árvore de decisão como classifi-

cador base para construção dos ensembles. A arquitetura proposta empregou

na fase de treinamento um método baseado no conceito de treinamento em 2

níveis, também conhecido como estratégia dual de treinamento, na qual dois

72

métodos especializados em tratar as questões de ruído nos dados (Bagging ) e

de redundância de atributos (Random Subspace) são combinados a fim de trei-

narem os classificadores, formando assim um pool de classificadores inicial. Os

métodos foram combinados tanto na ordem em que primeiro trata-se o ruído e

depois a redundância, como na ordem inversa - Bagging-RS e RS-Bagging.

Uma vez treinado este pool de classificadores, o mesmo passa à fase de poda

da arquitetura. Nesta fase o pool é submetido a um método de poda baseado

no conceito de ranqueamento (ranking ), no qual os classificadores do pool são

ordenados conforme uma função de avaliação de importância dos mesmos,

sendo selecionados aqueles que estejam melhor posicionados na ordenação,

segundo determinado critério de corte. O método usado na fase de poda foi o

Orientation-Ordering (OO). Após a poda então o ensemble é testado, utilizando

o majority vote como método de combinação das predições dos classificadores.

Como forma de comparar a eficiência da arquitetura, utilizando os métodos

acima descritos, a mesma foi configurada variando-se um conjunto de parâ-

metros como: a) a estratégia de treinamento – se em 1 nível (Bagging ) ou 2

níveis (Bagging-RS e RS-Bagging ); b) o tamanho do pool de classificadores a

ser treinado; c) a taxa de seleção de características usada pelo algoritmo do

Random-Subspace; d) a estratégia de poda utilizada - OO, Single Best, e Sem

Poda. No capítulo 4 os resultados obtidos a partir destas configurações dos

parâmetros são apresentadas.

A partir das variações dos métodos em cada uma das fases, foi possível

avaliar a eficiência da arquitetura proposta, isto é, composta pelos métodos

recomendados: estratégia de treinamento dual (em 2 níveis), poda usando um

método especializado, no caso o OO, e método de combinação majority vote.

Os resultados obtidos mostraram uma forte predominância dos resultados

da arquitetura proposta, obtendo as melhores taxas médias de acerto em rela-

ção a outras configurações da mesma, onde não foram adotados os métodos

adequados. No que se refere às taxas médias de poda alcançadas pelo OO, as

mesmas orbitaram em torno de 20 a 21%. A arquitetura, em sua forma com-

pleta, usando o valor de 0,5 como taxa de seleção de características, chegou

a alcançar taxas médias de acerto de 87,246±1,001 para a base Australian, e

de 73,277±1,301 para a base German. Esse desempenho foi superior aos das

demais configurações da arquitetura, acrescido ainda do fato de que a mesma

operou com ensembles de tamanhos da ordem de 20% dos seus equivalentes

73

5.1. CONTRIBUIÇÕES

nas demais configurações.

Sendo assim, para a solução de problemas de credit-scoring usando árvores

de decisão como classificador base, a arquitetura proposta pode ser uma alter-

nativa eficiente e de custo computacional menor quando comparadas a outros

modelos que usam:

• uma estratégia de treinamento em 1 nível (Bagging ), associada ou não

um processo de poda;

• uma estratégia de treinamento em 2 níveis, mas não usam um processo

de poda de ensembles específico;

• uma estratégia de treinamento em 2 níveis, porém, adotando modelos

com um único classificador(Single Classifier).

Por fim, é possível que, a depender da aplicação, outros métodos de treina-

mento, poda e combinação possam ser aplicados a esta arquitetura, criando

assim a possibilidade de se alcançar desempenhos preditivos ainda superiores

aos obtidos neste trabalho.

5.1 Contribuições

Este trabalho traz como principais contribuições:

• A formulação de um modelo que torna possível o uso conjugado e com-

plementar de métodos de treinamento e poda de ensembles de eficácias

já comprovadas. Este modelo possibilita a potencialização dos pontos

fortes desses métodos em favor de um melhor desempenho preditivo do

sistema sobre o problema ao qual este foi aplicado;

• Experimentos que mostraram a eficácia dessa arquitetura em uma apli-

cação de credit-scoring, utilizando uma estratégia de treinamento em 2

níveis, associada a um processo de poda de ensembles baseado no con-

ceito de ranking ;

• Experimentos que contribuiram para validar o desempenho superior de

sistemas de múltiplos classificadores sobre métodos de classificação de

padrões baseados em um único classificador base;

74

5.2. TRABALHOS FUTUROS

• Experimentos que demonstraram a criação de mais um método que possi-

bilita o uso de ensembles compostos por árvores de decisão em aplicações

de credit-scoring ;

5.2 Trabalhos futuros

Pela possibilidade de variação dos métodos adotados em cada uma das fases da

arquitetura proposta, é possível configurá-la de uma forma muito diversificada.

Por isso, alguns trabalhos que poderiam ser desenvolvidos a partir de agora

seriam:

• Estudar o uso da arquitetura proposta, adotando na fase de poda o mé-

todo Ensemble Pruning via Individual Contribution Ordering (EPIC) (Lu

et al., 2010). O EPIC utiliza como critérios de seleção dos classificadores

que formarão o subensemble algumas de suas características individuais,

além de medidas de diversidade entre eles. O EPIC superou em desempe-

nho o método Orientation-Ordering em experimentos realizados sobre

26 bases de dados UCI, considerando problemas de aprendizagem en-

volvendo classificação binária. Embora, dentre estas bases, não estejam

relacionadas as utilizadas nos experimentos deste estudo – Australian e

German, é possível que, ao se aplicar este método na arquitetura proposta

neste trabalho, a mesma apresente ainda um melhor desempenho do que

com o OO;

• Investigar o desempenho da arquitetura na solução de outros tipos de

aplicações, inclusive aquelas que envolvam problemas com múltiplas clas-

ses, adotando outros modelos de classificadores base, como por exemplo:

redes neurais artificiais ou máquinas de vetor de suporte. É possível que,

neste caso, seja interessante ajustar o método de combinação na fase de

teste da arquitetura, saindo de uma abordagem no nível abstrato, como

o Majority Vote, para outros métodos que possuam abordagens de rank

ou medição;

• Avaliar, como alternativa para tratar a questão de redundância de atri-

butos, a possibilidade de combinação de outros métodos de seleção de

características, aleatórios ou não, ou ainda métodos de extração de carac-

terísticas durante a fase de treinamento.

75

Referências

Abrahams, C. R. e Zhang, M. (2008). Fair lending compliance: intelligence and

implications for credit risk management , volume 13. Wiley. com.

Bache, K. e Lichman, M. (2013). UCI machine learning repository.

Breiman, L. (1996). Bagging predictors. Machine Learning , 24(2), 123–140.

Breve, F., Ponti-Junior, M., e Mascarenhas, N. (2007). Multilayer perceptron

classifier combination for identification of materials on noisy soil science

multispectral images. In Brazilian Symposium on Computer Graphics and

Image Processing , pp. 239–244.

Dai, Q. (2013). A competitive ensemble pruning approach based on cross-

validation technique. Knowledge-Based Systems, 37(0), 394 – 414.

Dietterich, T. (2000). Ensemble methods in machine learning. In Multiple

Classifier Systems, volume 1857 of Lecture Notes in Computer Science, pp. 1–15.

Springer Berlin Heidelberg.

Dietterich, T. G. e Bakiri, G. (1995). Solving multiclass learning problems via

error-correcting output codes. CoRR, cs.AI/9501101.

Freund, Y. e Schapire, R. E. (1997). A decision-theoretic generalization of on-

line learning and an application to boosting. Journal of Computer and System

Sciences, 55(1), 119 – 139.

Fumera, G. e Roli, F. (2005). A theoretical and experimental analysis of li-

near combiners for multiple classifier systems. IEEE Transactions on Pattern

Analysis and Machine Intelligence, 27(6), 942–956.

Hand, D. J. e Henley, W. E. (1997). Statistical classification methods in consu-

mer credit scoring: a review. Journal of the Royal Statistical Society: Series A

(Statistics in Society), 160(3), 523–541.

Ho, T. K. (1998). The random subspace method for constructing decision

forests. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 20(8),

832–844.

76


Ho, T. K. (2001). Data complexity analysis for classifier combination. In

Multiple Classifier Systems, pp. 53–67. Springer.

Ko, A. H., Sabourin, R., Britto, A. S., e Jr. (2008). From dynamic classifier

selection to dynamic ensemble selection. Pattern Recognition, 41(5), 1718 –

1731.

Kuncheva, L. I. (2004). Combining Pattern Classifiers: methods and algorithms.

Wiley-Interscience.

Lu, Z., Wu, X., Zhu, X., e Bongard, J. (2010). Ensemble pruning via individual

contribution ordering. In ACM SIGKDD International Conference on Knowledge

Discovery and Data Mining , pp. 871–880.

Margineantu, D. D. e Dietterich, T. G. (1997). Pruning adaptive boosting. In

International Conference on Machine Learning (ICML), volume 97, pp. 211–218.

Marqués, A., García, V., e Sánchez, J. (2012a). Exploring the behaviour of

base classifiers in credit scoring ensembles. Expert Systems with Applications,

39(11), 10244 – 10250.

Marqués, A., García, V., e Sánchez, J. (2012b). Two-level classifier ensembles

for credit risk assessment. Expert Systems with Applications, 39(12), 10916 –

10922.

Martınez-Munoz, G. e Suárez, A. (2004). Aggregation ordering in bagging. In

IASTED International Conference on Artificial Intelligence and Applications,

pp. 258–263.

Martinez-Muñoz, G., Hernandez-Lobato, D., e Suarez, A. (2009). An analysis of

ensemble pruning techniques based on ordered aggregation. IEEE Transacti-

ons on Pattern Analysis and Machine Intelligence, 31(2), 245–259.

Martínez-Muñoz, G. e Suárez, A. (2006). Pruning in ordered bagging ensembles.

In International Conference on Machine Learning , pp. 609–616.

Nanni, L. e Lumini, A. (2009). An experimental comparison of ensemble of

classifiers for bankruptcy prediction and credit scoring. Expert Systems with

Applications, 36, 3028 – 3033.

77


Ponti, M. P. (2011). Combining classifiers: from the creation of ensembles to

the decision fusion. In Conference on Graphics, Patterns and Images Tutorials,

pp. 1–10.

Rodriguez, J., Kuncheva, L., e Alonso, C. (2006). Rotation forest: A new classifier

ensemble method. Pattern Analysis and Machine Intelligence, IEEE Transacti-

ons on, 28(10), 1619–1630.

Rosenberg, E. e Gleit, A. (1994). Quantitative methods in credit management:

a survey. Operations research, 42(4), 589–613.

Santana, L. E. A., de Oliveira, D. F., Canuto, A. M., e de Souto, M. C. P. (2007). A

comparative analysis of feature selection methods for ensembles with different

combination methods. In International Joint Conference on Neural Networks,

pp. 643–648.

Schapire, R. E. (1990). The strength of weak learnability. Machine learning ,

5(2), 197–227.

Selfridge, O. G. (1958). Pandemonium: a paradigm for learning in mecha-

nisation of thought processes. In Symposium Held at the National Physical

Laboratory, pp. 513–526.

Soares, R., Santana, A., Canuto, A., e De Souto, M. C. P. (2006). Using accuracy

and diversity to select classifiers to build ensembles. In International Joint

Conference on Neural Networks, pp. 1310–1316.

Thomas, L. C., Edelman, D. B., e Crook, J. N. (2002). Credit scoring and its

applications. SIAM Mathematical Modeling and Computation.

Tsoumakas, G., Partalas, I., e Vlahavas, I. (2009). An ensemble pruning primer.

In O. Okun e G. Valentini, editors, Applications of Supervised and Unsupervised

Ensemble Methods, volume 245 of Studies in Computational Intelligence, pp.

1–13. Springer Berlin Heidelberg.

Tumer, K. e Ghosh, J. (1996). Error correlation and error reduction in ensemble

classifiers. Connection science, 8(3-4), 385–404.

Wang, G., Ma, J., Huang, L., e Xu, K. (2012). Two credit scoring models based

on dual strategy ensemble trees. Knowledge-Based Systems, 26(0), 61–68.

78


Wolpert, D. e Macready, W. (1997). No free lunch theorems for optimization.

IEEE Transactions on Evolutionary Computation, 1(1), 67–82.

Wozniak, M., Graña, M., e Corchado, E. (2014). A survey of multiple classifier

systems as hybrid systems. Information Fusion, 16(0), 3 – 17. Special Issue on

Information Fusion in Hybrid Intelligent Fusion Systems.

Xu, L., Krzyzak, A., e Suen, C. (1992). Methods of combining multiple classifiers

and their applications to handwriting recognition. , IEEE Transactions on

Systems, Man and Cybernetics, 22(3), 418–435.

Zhou, Z.-H. e Tang, W. (2003). Selective ensemble of decision trees. In G. Wang,

Q. Liu, Y. Yao, e A. Skowron, editors, Rough Sets, Fuzzy Sets, Data Mining, and

Granular Computing , volume 2639 of Lecture Notes in Computer Science, pp.

476–483. Springer Berlin Heidelberg.

Zhou, Z.-H., Wu, J., e Tang, W. (2002). Ensembling neural networks: Many

could be better than all. Artificial Intelligence, 137(1–2), 239 – 263.

79

luiz vieira e silva filho - repositorio.ufpe.br · pós-graduação em ciência da computação...

Documents