sistemas de informação inteligentes aula 1 nadilma nunes [email protected] [email protected]
TRANSCRIPT
Aula Passada...
• Data Mining: processo de exploração de grandes quantidades de dados a fim de detectar novos subconjuntos de dados.• Compreender o domínio da aplicação • Entender as expectativas do usuário final do
processo.• Criar/selecionar uma coleção de dados para
aplicação• Transformar os dados (encontrar atributos úteis e
interessantes).
Aula passada...
• Tarefas principais:– Classificação: aprendizado de uma função que
mapeia um dado em uma de várias classes conhecidas.
– Regressão (predição): aprendizado de uma função mapeia um dado em um valor real.
– Deteção de desvios: identificação de dados que deveriam seguir um padrão mas não o fazem
Hoje...
• A ferramenta WEKA • Exemplo prático de Data Mining
WEKA
• Weka é um Software livre do tipo open source para mineração de dados, desenvolvido em Java, dentro das especificações da GPL (General Public License).
• O sistema foi desenvolvido por um grupo de pesquisadores da Universidade de Waikato, Nova Zelândia.
• Ao longo dos anos se consolidou como a ferramenta de data mining mais utilizada em ambiente acadêmico.
• Seu ponto forte é a tarefa de classificação, mas também é capaz de minerar regras de associação e clusters de dados.
WEKA
• Livro para conhecer melhor a ferramenta
• Agora mostraremos um exemplo prático de utilização da Weka:– Será realizada a mineração de um classificador!
Porém... antes é preciso falar um pouquinho sobre classificação...
Classificação
• Objetivo: a partir de um banco de dados contendo objetos pré-classificados (objetos cuja classe é conhecida), construir um modelo que seja capaz de classificar automaticamente novos objetos (objetos cuja a classe é desconhecida) em função de suas características.
• Exemplo - Mineração do BD de uma seguradora:– Sexo feminino : “não se envolve em acidente”– Sexo masculino e idade superior a 25 anos : “não se envolve em acidente”.– Sexo masculino e idade igual ou inferior a 25 anos: “se envolve em acidente”
O modelo pode ser usado para a empresa
prever a classe de um futuro
cliente. A classificação é uma tarefa
preditiva.
Como Minerar Dados? (Técnicas de Data Mining)
• O conceito de técnica de mineração de dados é diferente do conceito de tarefa.– Cada tarefa de mineração de dados possui um conjunto de técnicas
associadas, que representam os algoritmos que podem ser empregados para a sua execução.
Como utilizar a WEKA?
• Primeiro, ter uma base de dados no formato arff.– O formato arff é utilizado como padrão para
estruturar as bases de dados manipuladas pela Weka
Como utilizar a WEKA?• Base de dados WEKA: corresponde a um arquivo texto
contendo um conjunto de registros, precedido por um pequeno cabeçalho.
Como utilizar a WEKA?
• Exemplo: weather.arff
Como utilizar a WEKA?
Como utilizar a WEKA?
Como utilizar a WEKA?
• A base de dados para classificação deve conter:– um ou mais atributos preditivos.– um atributo especial, denominado atributo classe
(ou atributo alvo), sempre do tipo discreto.– Exemplo - BD de uma locadora de veículos– A ideia é minerar um modelo que classifique o
cliente como “cliente de carro nacional” ou “cliente de carro importado” em função de sua “idade” e “renda”.
Classificador
• Mostraremos agora como minerar um classificador, sobre a base de dados da locadora de veículos, usando a técnica de árvores de decisão.– Domínio da aplicação: Locadora de Veículos– Expectativas do usuário: Redirecionar os clientes
para maiores lucros
Classificador
• PASSO 1: antes de começar o processo, precisamos gerar uma versão arff da base que iremos minerar.
Classificador• PASSO 2: abrir a Weka Explorer (GUI para mineração de
dados)
Classificador
• PASSO 3: abrir a base de dados
Classificador
• PASSO 3: abrir a base de dados
Classificador
Classificador• Podemos explorar a base de dados antes de minerá-la.
Classificador
Classificador• PASSO 4: Seleção da aba “Classify” para a mineração do
classificador.
Classificador
• PASSO 5: Escolha do algoritmo de classificação– Dentre as técnicas que podem ser utilizadas,
encontram-se: • Naïve Bayes • Árvores de Decisão (nossa escolha nessa
apresentação!)• Redes Neurais• k-Nearest Neighbor • Support Vector Machines.
Classificador
• PASSO 5: Escolha do algoritmo de classificação. – Optamos pelo algoritmo J48 para mineração de árvores de
decisão
Classificador
• PASSO 6: Configurar parâmetros e disparar o algoritmo!
Classificador
Classificador
Classificador
Classificador
Sobre a WEKA
• Embora seja normalmente utilizada para fins didáticos, possibilita a mineração de bases reais.
• Muitos papers científicos relatam experiências onde a ferramenta foi aplicada de forma bem sucedida sobre bases de diferentes domínios.
Sobre a WEKA
• Mostramos apenas um exemplo, usando um algoritmo!– A Weka tem dezenas de algoritmos
implementados!– E pode minerar regras de associação e clusters de
dados, além de classificadores.• Outra coisa muito boa é que você pode
integrar os algoritmos implementados na Weka nos programas Java criados por você.
Projeto para NP2
• 06/09: Definir o grupo (no máximo 4 pessoas), definir o domínio do problema e a expectativa do usuário final.
• 27/09: Qual tarefa e qual técnica será utilizada e por quê?
• 01/11: Criar uma base de dados (com pelo menos 5 atributos preditivos) e imprimir a visualização da árvore.
• 29/11: Entrega de um relatório escrito com passo a passo do trabalho.