data mining: conceitos e técnicas. dm, dw e olap

22
Data Mining: Conceitos e Técnicas

Upload: internet

Post on 21-Apr-2015

116 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Data Mining: Conceitos e Técnicas

Page 2: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

DM, DW e OLAP

Page 3: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Data Warehousing e OLAP para Data Mining

• O que é data warehouse?

• De data warehousing para data mining

Page 4: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Data Warehousing e OLAP para Data Mining

• Data Warehouse: A Memória da Empresa

• Data Mining: A Inteligência da Empresa

Page 5: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

O que é Data Warehouse?

• Definido de diversas formas, mas não rigorosamente:– É uma base de dados de suporte que é

mantida separadamente da base de dados operacional da organização;

– Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;

Page 6: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

O que é Data Warehouse?

• “Um data warehouse é uma coleção de dados:

1. orientada a assunto (subject-oriented);2. integrada;3. variante no tempo, e4. não-volátil

para suporte a decisões de gerenciamento”.—W. H. Inmon

• Data warehousing: o processo de construção e uso de data warehouses.

Page 7: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Usos do data warehouse

• Processamento de Informações:– Suporta consultas, análise estatística básica e

relatórios usando tabelas, gráficos, etc.

• Processamento analítico:– Análise multi-dimensional doas dados contidos no

data warehouse;

– Suporta operações OLAP básicas (slice-dice, drilling, pivoting);

Page 8: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Usos do data warehouse

• Data mining:– Descoberta de conhecimento em padrões;

– Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.

Page 9: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

De OLAP para OLAM

Por que OLAM?• Alta qualidade dos dados nos data warehouses;

– DW contem dados integrados, consistentes e limpos.

• Estrutura para o tratamento de informação disponível no ambiente de DW:– ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e

ferramentas OLAP;

• Análise de dados exploratória baseada em OLAP;– Mineração com drilling, dicing, pivoting, etc.

• Seleção on-line das funções de data mining:– Integração e intercâmbio de múltiplas funções de mineração,

algoritmos e tarefas.

Page 10: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Uma arquitetura OLAM

Data Warehouse

Meta Data

MDDB

OLAMEngine

OLAPEngine

User GUI API

Data Cube API

Database API

Data cleaning

Data integration

Layer3

OLAP/OLAM

Layer2

MDDB

Layer1

Data Repository

Layer4

User Interface

Filtering&Integration Filtering

Databases

Mining query Mining result

Page 11: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Pré-processamento de dados

Page 12: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Por que pré-processar os dados ?

• Dados reais são “sujos”:– Incompletos: falta de valores de atributos, falta de

atributos de interesse ou existência de atributos agregados;

– Ruidosos: contem erros e desvios;– Inconsistentes: contem discrepâncias em nomes e na

codificação.

• Sem dados de qualidade, sem resultados de qualidade em DM:– Decisões de qualidade devem estar baseadas em dados

de qualidade;– DW necessita da integração consistente de dados de

qualidade.

Page 13: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Medida multidimensional da qualidade dos dados

• Uma visão multidimensional bem aceita:– Correção;– Completude;– Consistência;– Atualidade (timeliness);– Credibilidade;– Valor adicionado;– Interpretabilidade;– Acessibilidade.

• Categorias abrangentes:– Intrínseca, contextual, representacional e acessibilidade.

Page 14: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Principais tarefas no pré-processamento dos dados

• Limpeza dos dados:– Preenchimento de valores inexistentes, atenuação de

dados ruidosos, identificação e remoção de desvios, resolução de inconsistências;

• Integração de dados:– Integração de múltiplos DB, data cubos, e arquivos;

• Transformações nos dados:– normalização e agregação;

• Redução de dados:– Obtenção de uma representação reduzida em volume

mas que produz resultados de análise idênticos ou similares.

Page 15: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Principais tarefas no pré-processamento dos dados

• Limpeza dos dados: Valores faltantes

1. Ignorar a tupla;2. Preencher o valor manualmente;3. Usar uma constante global;4. Usar o valor médio do atributo na base;5. Usar o valor médio do atributo na classe;6. Usar o valor mais provável.

Page 16: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Principais tarefas no pré-processamento dos dados

• Limpeza dos dados: Atenuação de dados ruidosos

1. Discretização;2. Agrupamento;3. Interação humana;4. Regressão.

Page 17: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Principais tarefas no pré-processamento dos dados

• Limpeza dos dados: Inconsistências

1. Eliminar dados;2. Corrigir manualmente;3. Ignorar.

Page 18: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Principais tarefas no pré-processamento dos dados

• Integração de dados:– Integração de esquemas de BD: problema

da identificação de entidades;– Redundâncias;– Detecção e resolução de valores

conflitantes nos dados.

Page 19: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Principais tarefas no pré-processamento dos dados

• Transformações nos dados:– Suavização (smooting);– Agregação;– Generalização;– Normalização (entre 0 e 1);– Construção de atributos.

Page 20: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Principais tarefas no pré-processamento dos dados

• Redução de dados:– Agregação de data cubes;– Redução de dimensionalidade;– Compressão de dados;– Redução de instâncias;– Geração de hierarquias de conceitos.

Page 21: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Formas de pré-processamento de dados

Page 22: Data Mining: Conceitos e Técnicas. DM, DW e OLAP

Sumário

• A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining;

• A preparação de dados inclui:– Limpeza e Integração de dados;– Redução de dados e seleção de características;– Discretização: intervalos iguais, freqüências iguais,

agrupamento.

• Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.