mÉtodos multivariados - mec.ita.brrodrigo/disciplinas/mb213/s15.pdf · crisp-dm (cross industry...
TRANSCRIPT
Rodrigo A. ScarpelRodrigo A. ScarpelRodrigo A. ScarpelRodrigo A. Scarpel
[email protected]@[email protected]@ita.br
www.mec.ita.br/~rodrigowww.mec.ita.br/~rodrigowww.mec.ita.br/~rodrigowww.mec.ita.br/~rodrigo
MÉTODOS
MULTIVARIADOS
INTRODUÇÃO
Semana ConteúdoIntrodução aos métodos multivariadosAnálise de componentes principais
2 Aplicações de análise de componentes principais3 Princípios de análise fatorial exploratória4 Análise fatorial exploratória e aplicações5 Métodos de visualização de dados e escalonamento multidimensional6 Análise de agrupamentos: métodos hierárquicos7 Análise de agrupamentos: métodos não-hierarquicos8 Prova
9Análise de agrupamentos: método da mistura (baseados em densidade).Métodos avançados de formação de agrupamentos.Introdução aos modelos de classificaçãoMétodos de detecção de iterações
11 Classificadores lineares e análise discriminante paramétrica12 Regressão Logística13 FERIADO (11/6)
Métodos de classificação baseados em programação matemáticaSupport Vector MachineMétodos de avaliação da performance de modelos de classificaçãoMistura de especialistas
16 Prova
15
1
10
14
INTRODUÇÃO
CLASS-CONDITIONAL DENSITIES
CONHECIDA DESCONHECIDA
TEORIA BAYESIANA DE
DECISÃO
APRENDIZAGEM SUPERVISIONADA
PARAMÉTRICOS NÃO PARAMÉTRICOS
ANÁLISE DISCRIMINANTE:
-LINEAR
-QUADRÁTICA
ESTIM. DENSIDADE: KERNELS, KNN
CONSTR. FRONTEIRA DECISÃO:
RNEURAIS, SVM, AID,…
• Métodos de classificação :
MODELOS DE CLASSIFICAÇÃO
INTRODUÇÃO
• Métodos de classificação - tendências :
– Modelos dinâmicos
Leitura do artigo: Sequential Dynamic Classificatio n Using Latent
Variable Models (S.M. Lee and S.J. Roberts)
– Combinação de abordagens (ex: AID + SVM)
Leitura do artigo: Global Tree Optimization: A Non- greedy Decision
Tree Algorithm (Kristin P. Bennett)
– MLEM e outras formas de combinação de modelos (lidar com
populações heterogêneas)
Leitura dos artigos: Combination of multiple classi fiers for the
customer’s purchase behavior prediction (E. Kim, W. Kim, Y. Lee)
MODELOS DE CLASSIFICAÇÃO
PROCESSO DE DM / KDD / ...
• Métodos Multivariados :
Problemspecification
Data Prospecting
Methodologyidentification
Data preprocessing
Building themodel
Knowledgepostprocessing
METODOLOGIAS
CRISP-DM (Cross Industry Standard
Process for Data Mining)
SEMMA (Sample, Explore, Modify, Model and Assess)
Conjuntos: Treinamento, Teste e Validação
SEMMA: SAMPLE
Better Fitting:Training Set Test SetTraining Set Test Set
Training Set Test SetTraining Set Test Set
Overfitting:
SEMMA: SAMPLE
VERIFICAÇÃO DA QUALIDADE DOS DADOS
Fatores que degradam a qualidade dos dados:
• Dados com erro : respostas falsas, erros na tabulaçãodas respostas,…
• Outliers : observações que aparentemente sãoinconsistentes quando comparadas às outrasobservações.
• Dados faltantes (missing values)
SEMMA: EXPLORE
VERIFICAÇÃO DA QUALIDADE DOS DADOS
DETECÇÃO (ELIMINAÇÃO) DE OUTLIERS
Origem: dados com erro ou observação pertencente a outra população.
Critério: O critério para a definição de outliers variamuito conforme os autores. De maneira geral, considera-se outlier uma medida acima ouabaixo de 2,5 desvios-padrão da média.
Forma de detecção: estatísticas de sumarização, histogramas, distância de Mahalanobis.
SEMMA: EXPLORE
VERIFICAÇÃO DA QUALIDADE DOS DADOS
DADOS FALTANTES (MISSING VALUES)
Importante: descobrir como e porque os missing values estão presentes.
• Missing values é zero (não ocorreu) ou é falta de informação (não sei se ocorreu)?
• Deve-se tomar cuidado no tratamento dos missing values.
• Tratar? Eliminar a variável? Eliminar a observação?
SEMMA: EXPLORE
TRATAMENTO DOS MISSING VALUES
A forma de tratamento dos missing values depende de quantos dados estão faltando (percentual de missing values ) e de sua distribuição . Alternativas de tratamento:
• Omitir as observações com missing values: essa alternativa é aceitável em algumas ciscunstâncias (quando o percentual de missing values é baixo e concentrado em algumas variáveis ou observações).
?
?? ?
??
??
observações
variáveis
Apenas 8 dos 144 valoressão missing (5,55%), porém apenas 5 observações seriamutilizadas.
SEMMA: EXPLORE
TRATAMENTO DOS MISSING VALUES
Métodos utilizados para imputar valores:
• Substituir pela média : é o método mais utilizado (pela suasimplicidade).
• Método analítico : por esse método atribui-se um valor emfunção da relação entre a variável com missing value e as outas variáveis, cujos valores são conhecidos (porregressão, por árvore de decisão).
SEMMA: EXPLORE
SEMMA: MODIFY and MODEL
MODIFY: Eliminar redundância, reduzir dimensão
MODEL: Métodos de dependência, métodos de interdependência
Etapa de avaliação dos modelos (ASSESS):
– Matriz de confusão (Eficiência Global, Kappa, …)
– Estatística KS (Kolmogorov-Smirnov)
– ROC chart (Receiver Operating Characteristic)
– Percentual de resposta
Esses métodos são utilizados não apenas para selecionar
modelos como também para gerenciar a política de sua
utilização.
SEMMA: ASSESS
92,37,1-
7,792,9+DE
-+
PARATREINO
92,2%7,6%-
7,8%92,4%+DE
-+
PARAVALIDAÇÃO
EFICIÊNCIA GLOBAL = 92,6%
PONTO DE CORTE = 0,5
EFICIÊNCIA GLOBAL = 92,3%
PONTO DE CORTE = 0,5
ASSESS: MATRIZ DE CONFUSÃO
Acerto global = (X11+X22+…+Xcc)/N
Kappa = (P0 – Pc) / (1-Pc)
em que Pc é a taxa de acerto aleatória
ASSESS: KOLMOGOROV-SMIRNOV
ANÁLISE KS
0,0%
30,0%
46,6%
56,3%
63,9%
71,6%74,6%
78,0%80,6%
83,1%84,7%
86,9%89,1% 90,5% 91,7%
94,0% 94,8% 95,4%97,0% 98,2%
100,0%
0,0% 0,0% 0,6% 1,8% 2,8% 4,2%6,9% 8,3%
11,3%13,5%
16,9%
20,6%23,8%
26,4%
30,8%
35,3%
38,9%
46,0%
53,2%
64,9%
100,0%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0,00
- 0
,00
0,00
- 0
,05
0,05
- 0
,10
0,10
- 0
,15
0,15
- 0
,20
0,20
- 0
,25
0,25
- 0
,30
0,30
- 0
,35
0,35
- 0
,40
0,40
- 0
,45
0,45
- 0
,50
0,50
- 0
,55
0,55
- 0
,60
0,60
- 0
,65
0,65
- 0
,70
0,70
- 0
,75
0,75
- 0
,80
0,80
- 0
,85
0,85
- 0
,90
0,90
- 0
,95
0,95
- 1
,00
FAIXAS DE SCORE
% 0,69
ANÁLISE KS
0,0%
30,0%
46,6%
56,3%
63,9%
71,6%74,6%
78,0%80,6%
83,1%84,7%
86,9%89,1% 90,5% 91,7%
94,0% 94,8% 95,4%97,0% 98,2%
100,0%
0,0% 0,0% 0,6% 1,8% 2,8% 4,2%6,9% 8,3%
11,3%13,5%
16,9%
20,6%23,8%
26,4%
30,8%
35,3%
38,9%
46,0%
53,2%
64,9%
100,0%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0,00
- 0
,00
0,00
- 0
,05
0,05
- 0
,10
0,10
- 0
,15
0,15
- 0
,20
0,20
- 0
,25
0,25
- 0
,30
0,30
- 0
,35
0,35
- 0
,40
0,40
- 0
,45
0,45
- 0
,50
0,50
- 0
,55
0,55
- 0
,60
0,60
- 0
,65
0,65
- 0
,70
0,70
- 0
,75
0,75
- 0
,80
0,80
- 0
,85
0,85
- 0
,90
0,90
- 0
,95
0,95
- 1
,00
FAIXAS DE SCORE
% 0,69
Classe 0
(acumulada)
Classe 1
(acumulada)
ASSESS: ROC Chart
COMPOSIÇÃO DE ESPECIALISTAS
1
2 3
COMPOSIÇÃO DE ESPECIALISTAS
A
B
K
A
B
B
A
MLEM - Composição de especialistas locais [Jacobs et al ., 1991]:
∑=
=k
iii ygY
1
( )( )
∑=
=k
i
i
e
exg
1
)(xv
xv
Ti
Ti
R.A. Jacobs, M. I. Jordan, S. J. Nowlan, G. E. Hint on, Adaptive Mixture of Local Experts. Neural Computation. Vol. 3, No. 1, 1991, pages 79-87, MIT Press.
• Para casa:
– Leitura do artigo: Sequential Dynamic Classificatio n Using Latent
Variable Models (S.M. Lee and S.J. Roberts)
– Leitura do artigo: Global Tree Optimization: A Non- greedy
Decision Tree Algorithm (Kristin P. Bennett)
– Leitura dos artigos: Combination of multiple classi fiers for the
customer’s purchase behavior prediction (E. Kim, W. Kim, Y. Lee)
MODELOS DE CLASSIFICAÇÃO