Comparação de desempenho entre classificadores
SIN5000 - Metodologia de Pesquisa em Sistemas de Informação
Jaqueline Brito - 5874731
Passo 0: Conjuntos de dados
(1) Internet advertisements
– Remoção de instâncias com dados faltantes
– 2359 instâncias
– 1558 atributos
– 2 classes ● Ad (16.2%)● Non-ad (83.8%)
(2) Spambase – 4601 instâncias
– 57 atributos
– 2 classes ● 1 - Spam (39.4% )● 0 - Non-spam (60.6%)
Passo 1: Avaliação e Comparação
● Algoritmos de classificação:– Naive Bayes (Aprendizado Probabilístico):
configuração default do WEKA– J48 (Aprendizado Simbólico - Árvores de Decisão):
configuração default do WEKA
● Método de amostragem:– 10-fold cross-validation
● Intervalo de confiança de 95%
Passo 1: Avaliação e Comparação1º conjunto – Naive Bayes
● Matriz de confusão:
Instâncias classificadas corretamente = 96.2696 %
Instâncias classificadas incorretamente = 3.7304 %
Erro padrão = 0.0039
Erro verdadeiro (95% de confiança) = entre 0.0297 e 0.0450
A B Classificação
307 74 A = ad
14 1964 B = nonad
Passo 1: Avaliação e Comparação1º conjunto – J48
● Matriz de confusão:
Instâncias classificadas corretamente = 96.8631 %
Instâncias classificadas incorretamente = 3.1369 %
Erro padrão = 0.0036
Erro verdadeiro (95% de confiança) = entre 0.0243 e 0.0384
A B Classificação
332 49 A = ad
25 1953 B = nonad
Passo 1: Avaliação e Comparação1º conjunto
● Qual dos algoritmos foi considerado o melhor para a tarefa de classificação do 1º conjunto?
> J48● Experimenter do WEKA (abordagem teste t
pareado com 95% de confiança):
Acurácia Erro Desvio Padrão Classificadores
96.28 3.72 1.16 Naive Bayes
96.91 3.09 1.08 J48
Passo 1: Avaliação e Comparação2º conjunto – Naive Bayes
● Matriz de confusão:
Instâncias classificadas corretamente = 79.2871 %
Instâncias classificadas incorretamente = 20.7129 %
Erro padrão = 0.0060
Erro verdadeiro (95% de confiança) = entre 0.1954 e 0.2188
A B Classificação
1725 88 A = 1
865 1923 B = 0
Passo 1: Avaliação e Comparação2º conjunto – J48
● Matriz de confusão:
Instâncias classificadas corretamente = 92.9798 %
Instâncias classificadas incorretamente = 7.0202 %
Erro padrão = 0.0038
Erro verdadeiro (95% de confiança) = entre 0.0628 e 0.0776
A B Classificação
1646 167 A = 1
156 2632 B = 0
Passo 1: Avaliação e Comparação2º conjunto
● Qual dos algoritmos foi considerado o melhor para a tarefa de classificação do 2º conjunto?
> J48 ● Experimenter do WEKA (abordagem teste t
pareado com 95% de confiança):
Acurácia Erro Desvio Padrão Classificadores
79.56 20.44 1.56 Naive Bayes
92.68 7.32 1.08 J48
Passo 2: Análise das curvas ROC1º conjunto
● Naive Bayes – classe ad
Passo 2: Análise das curvas ROC1º conjunto
● J48 – classe ad
Passo 2: Análise das curvas ROC1º conjunto
● Naive Bayes e J48 - classe ad
O modelo Naive Bayes é melhor do que o J48. Curva mais próxima do ponto (0, 1)
Passo 2: Análise das curvas ROC1º conjunto
● Naive Bayes – classe nonad
Passo 2: Análise das curvas ROC1º conjunto
● J48 – classe nonad
Passo 2: Análise das curvas ROC1º conjunto
● Naive Bayes e J48 - classe nonad
O modelo Naive Bayes é melhor do que o J48. Curva mais próxima do ponto (0, 1)
Passo 2: Análise das curvas ROC1º conjunto
● Apesar da diferença de desempenho entre os modelos J48 e Naive Bayes ser pouca (0.63% - de acordo com o teste t pareado com 95% de confiança), o modelo Naive Bayes obteve um destaque maior frente às curvas ROCs geradas para cada classe do conjunto
> maior taxa de TP e menor taxa de FP
Passo 2: Análise das curvas ROC2º conjunto
● Naive Bayes – classe 1
Passo 2: Análise das curvas ROC2º conjunto
● J48 – classe 1
Passo 2: Análise das curvas ROC2º conjunto
● Naive Bayes e J48 – classe 1
O modelo J48 é melhor do que o Naive Bayes. Curva mais próxima do ponto (0, 1)
Passo 2: Análise das curvas ROC2º conjunto
● Naive Bayes – classe 0
Passo 2: Análise das curvas ROC2º conjunto
● J48 – classe 0
Passo 2: Análise das curvas ROC2º conjunto
● Naive Bayes e J48 – classe 0
O modelo J48 é melhor do que o Naive Bayes. Curva mais próxima do ponto (0, 1)
Passo 2: Análise das curvas ROC2º conjunto
● De acordo com o teste t pareado com 95% de confiança, a diferença de desempenho entre os modelos J48 e Naive Bayes foi significativa (13.12%)
● O modelo J48 também obteve um destaque maior frente às curvas ROCs geradas para cada classe do conjunto
> maior taxa de TP e menor taxa de FP