material elaborado pelos profs. jacques robin e francisco de a. t. de carvalho – ufpe / cin...

41
Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da Aplicações práticas da descoberta de conhecimento em descoberta de conhecimento em BD BD

Upload: internet

Post on 17-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn

Aplicações práticas daAplicações práticas dadescoberta de conhecimento em descoberta de conhecimento em

BDBD

Page 2: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Aplicações da Mineração de Aplicações da Mineração de DadosDados

Page 3: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Marketing e comércioMarketing e comércio Gerenciamento de relação com clientes

• descrição multi-dimensional, agrupamento e classificação de clientes, associações entre produtos ou serviços, para otimização e personalização de:

campanhas de propaganda e de promoções sugestões de produtos e serviços

• mineração comparativa de evolução de compras, produtos ou serviços oferecidos e preços para:

promover retenção de clientes definir política de preço altamente dinâmica (ex,

passagem aérea)

Page 4: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Marketing e comércioMarketing e comércio Gerenciamento de relação com clientes

• ambos a partir de: Transações com cartões de fidelidade, de

requisitos de programa a la carte (TV, vídeo, música), de reservas (passagens, hotéis, ingressos)

Log de servidor Web para comércio eletrônico

Page 5: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Finanças e segurançaFinanças e segurança Serviços financeiros:

• mineração de séries temporais de valores na bolsa para especulação

• mineração de associação e grupos de valores para definição de portfolio de investimento e planos de aposentadoria

• previsão de inadimplência para definir política de empréstimo

Detecção de fraude: • descrição multi-dimensional e mineração de séries

excepcionais de: uso de cartão de créditos para serviços financeiros pedidos de acesso a sites para segurança de sistemas transferências de fundos para lavagem de dinheiro sujo e

sonegação de imposto chamadas para telecomunicações

Page 6: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Finanças e segurançaFinanças e segurança Detecção de tentativas de intrusão

• mineração de padrões temporais de comandos de protocolos em arquivos de log de servidores

• batch e tempo real

Page 7: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Jogos, esportes e Jogos, esportes e recursos humanosrecursos humanos

Jogos:• mineração de regras estratégicas e táticas a

partir de BD de partidas (xadrez, futebol de robôs) Jogos, esportes e re-engenharia de

organizações:• OLAP, agrupamento e mineração multi-

dimensional de séries de resultados para identificar fatores internos (ex: composição do time, tática usada) e externos (ex: tipo de adversário, local do jogo) contribuindo a vitórias e a derrotas

Page 8: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Jogos, esportes e Jogos, esportes e recursos humanosrecursos humanos

Jogos de esportes virtuais, esportes e recrutamento:• previsão do desempenho e popularidade futura de

atletas, artistas e funcionários para contratação e transferência

Page 9: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Serviços de infra-estrutura: Serviços de infra-estrutura: energia, água, transporte, energia, água, transporte, telecomunicação, Internettelecomunicação, Internet

descrição multi-dimensional e previsão comparativa

de demanda e da capacidade das fontes ou equipamentos

para:• planejar investimentos e otimizar rotas para

evitar interrupção de serviços e congestionamento

• definir vários níveis de qualidade de serviços, seus preços e seus clientes potenciais

• detecção de fraudes

Page 10: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Serviços de infra-estrutura: Serviços de infra-estrutura: energia, água, transporte, energia, água, transporte, telecomunicação, Internettelecomunicação, Internet

previsão de falha de equipamento para definir política de prevenção de falha

mineração de regras de diagnóstico para análise de falha

Page 11: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

SaúdeSaúde

Indústria farmacêutica:• previsão dos efeitos de um novo remédio

composto a partir dos efeitos dos seus componentes em remédios testados

Medicina e epidemiologia: • mineração de regras de diagnóstico • previsão de predisposição a doenças e resposta a

tratamento• a partir de BD de órgãos de saúde (CDC,

ministério da saúde)

Page 12: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

SaúdeSaúde

Pesquisa em genética e biologia molecular: • mineração comparativa de seqüências de genes

em células sadias e doentes (adaptação da mineração de séries temporais para dados categóricos)

• mineração de associações e grupos de genes baseada na sua co-ocorrência em várias classes de células

• previsão da forma 3D de uma proteína a partir da sua seqüência de ácidos-amidos

Page 13: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Conclusão sobre a aplicabilidade de Conclusão sobre a aplicabilidade de KDDKDD

Ainda existe muito mais tarefas e domínios de aplicação prática da descoberta de conhecimento em BD não mencionadas

Ubiqüidade da necessidade por mineração de dados e descoberta de conhecimento em BD

O mais difícil não é identificar setores de atividade que precisam dessa tecnologia e sim identificar setores que não podem beneficiar-se dela

Page 14: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Sistemas e ProtótiposSistemas e Protótiposde Data Miningde Data Mining

Page 15: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Como escolher um Sistema de Como escolher um Sistema de Data Mining?Data Mining?

Os sistemas comerciais de data mining tem pouco em comum• Diferentes funcionalidades ou metodologias de

data mining• Podem trabalhar com conjuntos de dados de

tipos completamente diferentes Tipos de dados: relacional, transacional,

texto, seqüência temporal, espacial? Questões sobre o sistema

• execução em um ou vários sistemas operacionais?

• arquitetura cliente/servidor?• Fornece interfaces baseadas na Web e permite

dados XML como entrada e/ou saída?

Page 16: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Como escolher um Sistema de Como escolher um Sistema de Data Mining? (2)Data Mining? (2)

Fontes de dados• arquivos texto ASCII, fontes de dados relacionais

múltiplas• suporte de conexões ODBC (OLE DB, JDBC)?

Funções e metodologias de Data mining• Única vs. múltiplas funções de data mining• Único vs. vários metodos por função

Mais funções e métodos por função fornece ao usuário grande flexibilidade e poder de análise

Page 17: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Como escolher um Sistema de Como escolher um Sistema de Data Mining? (2)Data Mining? (2)

Acoplamento com BD e/ou data warehouse• Quatro formas de acoplamento: sem acoplamento,

acoplamento “frouxo”, acoplamento semifirme, e acoplamento firme

Idealmente, um sistema de data mining deve ser firmemente acoplado com um sistema de bases de dados

Page 18: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Como escolher um Sistema deComo escolher um Sistema de Data Mining? (3) Data Mining? (3)

Escalabilidade• Escalabilidade por linhas • Escalabilidade por coluna• realizar um sistema com escalabilidade por

coluna é um desafio muito maior do que realizar um sistema com escalabilidade por linha

Ferramentas de Visualização• “Uma figura vale milhares de palavras”• Categorias de visualização: visualização de

dados, visualização dos resultados da mineração, vizualização do processo de mineração, e visual data mining

Interface gráfica e linguagem de interrogação (query) de Data mining• Interface gráfica de alta qualidade e fácil de

usar

Page 19: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Exemplos de Sistemas de Exemplos de Sistemas de Data Mining (1)Data Mining (1)

IBM Intelligent Miner• Uma ampla faixa de algoritmos de data mining• Algoritmos de mineração escaláveis• Kit de ferramentas: algoritmos de redes neurais,

métodos estatísticos, preparação de dados, ferramentas de visualização

• Firme integração com o sistema de bases de dados relacionais IBM's DB2

SAS Enterprise Miner • Grande variedade de ferramentas de análise

estatística• Ferramentas de Data warehouse e múltiplos

algoritmos de data mining Microsoft SQLServer 2000

• Integração de BD e OLAP com mineração

Page 20: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Exemplos de Sistemas deExemplos de Sistemas deData Mining (2)Data Mining (2)

SGI MineSet • Múltiplos algoritmos de data mining e métodos

estatísticos avançados• Ferramentas de visualização avançadas

Clementine (SPSS)• Meio ambiente de desenvolvimento integrado de

data mining para usuários e programadores• Múltiplos algoritmos de data mining e ferramentas

de visualização

Page 21: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Exemplos de Sistemas deExemplos de Sistemas deData Mining (2)Data Mining (2)

DBMiner (DBMiner Technology Inc.)• Múltiplos módulos de data mining: análise OLAP,

associação, classificação, agrupamento • Funções eficientes de mineração de padrões

seqüenciais e associação, ferramentas de classificação visual

• Mineração de bases de dados relacionais e de data warehouses

Page 22: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Temas Adicionais emTemas Adicionais emMineração de DadosMineração de Dados

Page 23: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Data Mining VisualData Mining Visual Visualização: uso de computação gráfica para criar

imagens visuais que ajudam a entender representações massivas e complexas de dados

Data Mining Visual: processo de descoberta de conhecimento implícito a partir de grandes conjuntos de dados usando técnicas de visualização

Computação Gráfica

Computação de alto desempenho

Reconhecimento de Padrões

Interface Homem Máquina

Multimídia

Page 24: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

VisualizaçãoVisualização

Propósito da Visualização• Fornecer uma visão geral qualitativa de

grandes conjuntos de dados• Busca de padrões, tendências, estrutura,

irregularidades, relações entre dados.• Ajuda para encontrar regiões interessantes e

parâmetros apropriados para posterior análise qualitativa.

Page 25: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Data MiningVisual & Data MiningVisual & Visualização de DadosVisualização de Dados

Integração da visualização e do data mining• visualização de dados• visualização dos resultados de data mining• visualização do processo de data mining• data mining visual interativo

Visualização de dados• Dados em um BD ou em um data warehouse

podem ser visualizados em diferentes níveis de abstração via diferentes combinações de atributos (ou

dimensões)• Os dados podem ser apresentados em várias

formas visuais

Page 26: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Visualização dos Resultados Visualização dos Resultados do Data Miningdo Data Mining

Apresentação visual dos resultados (ou conhecimento) obtidos da mineração de dados

Exemplos• Scatter plots e boxplots (obtidos de data mining

descritivo)

• Árvores de Decisão

• Regras de Associação

• Agrupamentos

• Outliers

• Regras de generalização

Page 27: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Boxplots (Boxplots (Statsoft): Múltiplas Statsoft): Múltiplas Combinações de VariáveisCombinações de Variáveis

Page 28: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Visualização dos resultados de Data Visualização dos resultados de Data Mining (SAS Enterprise Miner):Mining (SAS Enterprise Miner): Scatter Scatter

PlotsPlots

Page 29: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Visualização de Regras de Visualização de Regras de Associação (SGI/MineSet 3.0)Associação (SGI/MineSet 3.0)

Page 30: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Visualização de umaVisualização de uma Árvore de Árvore de decisãodecisão (SGI/MineSet 3.0) (SGI/MineSet 3.0)

Page 31: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Visualização do ProcessoVisualização do Processode Data Miningde Data Mining

Apresentação dos vários processos de data mining em formas visuais de modo que o usuário pode ver

• O processo de extração de dados

• Onde os dados são extraídos

• Como os dados são limpados, integrados, processados e minerados

• O método selecionado para data mining

• Onde os resultados são armazenados

• Como eles podem ser vistos

Page 32: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Data Mining Visual InterativoData Mining Visual Interativo

Uso de ferramentas de visualização no processo de mineração para ajudar os usuários a realizarem decisões locais astuciosas para a mineração

Exemplo• Mostrar a distribuição dos dados em um

conjunto de atributos usando setores coloridos

• Usar o resultado para decidir qual setor deve ser selecionado para a classificação e onde fica um “bom” ponto de corte desse setor

Page 33: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Áudio Data MiningÁudio Data Mining

Usar sinais de áudio para ressaltar padrões de dados ou características dos resultados da mineração

Alternativa a mineração visual Data mining visual pode ressaltar padrões

interessantes usando gráficos, mas exige que o usuário se concentre na busca visual de padrões

Em vez disso: transformar padrões em sons e música e ouvir ritmos, tons, e melodias para identificar algo interessante ou não usual

Page 34: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Impactos sociais daImpactos sociais daMineração de DadosMineração de Dados

Page 35: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Data Mining é uma moda ou é Data Mining é uma moda ou é algo persistente?algo persistente?

Data mining é uma tecnologia Ciclo de vida tecnológico

• Inovação

• Adesão inicial

• Ruptura

• Maioridade inicial

• Maioridade tardia

• Legado

Page 36: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Cilco de vida de adoção Cilco de vida de adoção tecnológicatecnológica

Data mining está na ruptura!?• Os sistemas de data mining existentes são

muito genéricos• É necessário soluções de data mining

específicas e integração da lógica das organizações com as funções da mineração

Page 37: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Impactos Sociais: Ameaça a Impactos Sociais: Ameaça a privacidade e a segurança dos privacidade e a segurança dos

dados?dados?

Data mining é uma ameaça para a privacidade e segurança dos dados?• “Big Brother”, “Big Banker”, e “Big Business”

estão vigiando você cuidadosamente• Informações de perfil são coletadas o tempo todo

cartão de crédito, cartão de fidelidade, etc Surfar na Web, alugar um vídeo, preencher um

formulário,

• Coletar dados pessoais pode ser benéfico para as organizações e as pessoas, mas existe o perigo de uso indevido

Registros médicos, Avaliação do empregado, Etc.

Page 38: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Proteção da Privacidade e Proteção da Privacidade e da Segurança dos Dadosda Segurança dos Dados

Práticas corretas• Regras internacionais para a proteção da

privacidade de dados• Cobre aspectos relacionados a coleta de dados,

propósito, uso, qualidade, acesso, participação individual, etc

• Especificação do propósito e Limitação do Uso• Acesso: Indivíduos tem o direito de conhecer

que informação é coletada sobre ele, quem tem acesso aos dados, e como os dados são usados

Desenvolvimento de técnicas de segurança• criptografia• bases de dados anônimas

Page 39: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Tendências em Mineração de Tendências em Mineração de DadosDados

Page 40: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Tendências em Data Mining Tendências em Data Mining (1)(1)

Aplicações• desenvolvimento de sistemas de data mining

para aplicações específicas• Data mining invisível (mineração como função

interna) Métodos de data mining com escalabilidade

• Constraint-based mining: uso de restrições para guiar os sistemas de data mining na busca por padrões interessantes

Integração de data mining com bases de dados, data warehouse e bases de dados na Web

Data mining invisível

Page 41: Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações práticas da descoberta de conhecimento em BD

Tendências em Data Mining Tendências em Data Mining (2)(2)

Padronização da linguagem de data mining• A padronização facilitará o desenvolvimento

sistemático, melhorará a interoperabilidade, e promoverá a instrução e o uso de sistemas de data mining na indústria e na sociedade

Data mining Visual Novos métodos para minerar tipos de dados

complexos• Maior esforço de pesquisa para a integração de

métodos de mineração de dados com técnicas existentes da análise de dados para os tipos complexos de dados

Web mining Proteção da privacidade e segurança da

informação na mineração dos dados