classificação/categorização christian diego – cdad icamaan viegas – ibvs
TRANSCRIPT
![Page 1: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/1.jpg)
Classificação/Categorização
Christian Diego – cdadIcamaan Viegas – ibvs
![Page 2: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/2.jpg)
Roteiro
Introdução Construção de classificadores Aplicações Algoritmos
Relevance Feedback (Rocchio) K-Nearest Neighbors Template Matching
Avaliação de Classificadores K-Fold Cross Validation Curva ROC
Referências
![Page 3: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/3.jpg)
Classificação
Definição Classificar um documento de acordo com
classes previamente definidas
Objetivos Organizar documentos Facilitar sua busca automática Facilitar sua visualização
![Page 4: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/4.jpg)
Classificação
Documentos
Classe 1
Classe 2
Classe 3
![Page 5: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/5.jpg)
Clustering X Classificação
Clustering Criar grupos de documentos Classes geradas automaticamente
Classificação Definir a que grupo pertence um documento Classes pré-definidas
![Page 6: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/6.jpg)
Construção de Classificadores
Classificação Manual Realizada por um especialista
Construção Manual do Classificador Regras escritas manualmente
Construção Automática do Classificador Algoritmos de aprendizagem automática
![Page 7: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/7.jpg)
Construção Automática
Conjunto de Treinamento Treinamento do algoritmo
Conjunto de Validação Ajuste do sistema
Conjunto de Teste Avaliação do desempenho do sistema
![Page 8: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/8.jpg)
Construção Automática
DocumentosRepresentação Inicial
Redução da Dimensãoou
Seleção de Termos
Representação FinalIndução
ConhecimentoAdicional
Categorização
![Page 9: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/9.jpg)
Aplicações
Sites Recomendação
Emails Filtro de Spam
Base de documentosRSS Feed’sReconhecimento de AssinaturaReconhecimento de voz
![Page 10: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/10.jpg)
Atributos
Categóricos Nomes ou rótulos
Verde, casado, muito, baixo, pequeno Operações
Igualdade, diferençaNuméricos
Número Inteiros, Reais
Operações Igualdade, diferença, adição, subtração...
![Page 11: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/11.jpg)
Distâncias
Diversas maneiras de calcular Euclidiana, Manhattan, Quadrática, Co-seno...
Problemas Atributos Categóricos Um atributo numérico pode ter um peso
excessivo em relação aos demais
![Page 12: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/12.jpg)
Algoritmos
Relevance Feedback (Rocchio)
K-Nearrest Neighbor (k-NN)
Template Matching
![Page 13: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/13.jpg)
Relevance Feedback (Rocchio)
Adaptação para Categorização de Texto Modelo Vetorial Utilizando vetores ponderados do TF/IDF Para cada categoria cria um vetor de
“protótipo”, somando todos os vetores dos documentos desta categoria
Similaridade por Cosseno
![Page 14: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/14.jpg)
Relevance Feedback (Rocchio)
Classe 1
Classe 2
![Page 15: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/15.jpg)
Relevance Feedback (Rocchio)
Protótipo:Classe 1
Protótipo:Classe 2
![Page 16: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/16.jpg)
k-NN
Processo de aprendizagem baseado em instâncias
Classificação baseado nos k vizinhos mais próximos
Simplesmente armazena os exemplos de treinamento
Se utiliza de todos os atributos disponíveis
![Page 17: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/17.jpg)
k-NN
Para 1-NN classifica como +Para 5-NN classifica como -
![Page 18: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/18.jpg)
k-NN
![Page 19: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/19.jpg)
k-NN
Ponderar o peso de cada vizinho de acordo com a distância Robusto a ruído Maior efetividade quando há uma grande
quantidade de dados de treinamento
![Page 20: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/20.jpg)
k-NN
Desvantagens O custo de classificação de novos padrões
pode ser alto Considera todos os atributos, quando apenas
alguns deles podem ser importantes
![Page 21: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/21.jpg)
Template Matching
Utiliza um conjunto de templates para definir qual mais se aproxima de uma nova entrada
Aplicações Reconhecimento de assinatura, voz, faces, etc. Bioinformática Estimação de Movimento
![Page 22: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/22.jpg)
Template Matching
![Page 23: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/23.jpg)
Template Matching
![Page 24: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/24.jpg)
Avaliação de Classificadores
É necessário ter métricas para avaliar a eficácia de um classificador
Como dividir o conjunto de exemplos em treinamento, validação e testes
![Page 25: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/25.jpg)
K-Fold Cross Validation
O conjunto de exemplos é dividido em K partes 1 é utilizada para testes K – 1 é utilizada para treinamento e validação
Iterativo A parte selecionada para testes é trocada até
que todas tenham sido escolhidas
![Page 26: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/26.jpg)
K-Fold Cross Validation
Example Set
![Page 27: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/27.jpg)
K-Fold Cross Validation
Análise Estatística Hipótese Nula Hipótese Alternativa Nível de confiabilidade - Significância
Utiliza-se após a aplicação do K-Fold Cross Validation
![Page 28: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/28.jpg)
Curva ROC
Reciever Operating Characteristics
Curva ROC é um método para visualização e comparação da performance de classificadores
Não é afetado pelo desbalanceamento das classes nos exemplos
![Page 29: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/29.jpg)
Curva ROC
![Page 30: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/30.jpg)
Curva ROC
![Page 31: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/31.jpg)
Curva ROC
Área sob a curva Comparação de dois
algoritmos
![Page 32: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/32.jpg)
Curva ROC
Desvantagens Problemas com mais de duas classes
Separar em várias Curvas ROC Problema de desbalanceamento
Cálculo das Áreas Associar pesos a cada classe
Não é possível visualizar as áreas calculadas
![Page 33: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/33.jpg)
Referências
Tom Fawcett. An introduction to ROC analysis. Pattern. Recognition Letters, Vol. 27, No. 8., pp. 861-874, 2006.
Slides de George Darmiton e Tsang Ren: Aprendizagem de Máquina
Slide de Flávia Barros: Mineração da Web
![Page 34: Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs](https://reader036.vdocuments.mx/reader036/viewer/2022062411/570638451a28abb8238f2cf3/html5/thumbnails/34.jpg)
Classificação/Categorização
Christian Diego – cdadIcamaan Viegas – ibvs