data mining, data warehousing e olap

37
Data Mining, Data Warehousing e OLAP Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares

Upload: nigel-white

Post on 31-Dec-2015

43 views

Category:

Documents


6 download

DESCRIPTION

Data Mining, Data Warehousing e OLAP. Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares. Data Warehouse. Banco de dados de informações empresariais. Processamento de consulta e não de transações. Torna informações acessíveis e claras para o uso. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Data Mining, Data  Warehousing  e OLAP

Data Mining, Data Warehousing e OLAP

Kamila T. LyraKarina C. S. Nishimura

Thiago P. ColonheziWilliam S. Soares

Page 2: Data Mining, Data  Warehousing  e OLAP

Data Warehouse Banco de dados de informações

empresariais. Processamento de consulta e não de

transações. Torna informações acessíveis e claras para o

uso. Consultas sem impacto nos dados

operacionais. Maneira de obter informações corporativas

para tomada de decisões.

Page 3: Data Mining, Data  Warehousing  e OLAP

Data WarehouseOrigem Anos 80 Bancos de dados comerciais para SADs No inicio eram apenas subconjuntos dos

dados operacionais que eram copiados para o banco de apoio a decisões regularmente.

Page 4: Data Mining, Data  Warehousing  e OLAP

Data WarehouseDefinições

“Data Warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não

volátil que tem por objetivo dar suporte aos processos de tomada de decisão.”

Inmon(1997)“Poder faz dinheiro. Conhecimento é poder. Data

Warehouse aumenta o conhecimento. Portanto, Data Warehouse faz dinheiro.”

Knowles (1996)

Page 5: Data Mining, Data  Warehousing  e OLAP

Data Warehouse X BD Operacional

Page 6: Data Mining, Data  Warehousing  e OLAP

Data warehouseArquitetura

Page 7: Data Mining, Data  Warehousing  e OLAP

Data WarehouseData Marts

Os Data Marts são subconjuntos de dados, dentro de um Data Warehouse, projetados para dar suporte a negócios de unidade organizacionais especificas (NIMER, 1998).

Page 8: Data Mining, Data  Warehousing  e OLAP

Data Warehouse Finalizando Data Warehouse é um ambiente adaptado

para apenas um objetivo. Desafios:

◦ Consultas claras e rápidas.◦ Disponibilizar metadados.

Sistemas de gestão: Business Intelligence◦ Núcleo do apoio á decisões.

Page 9: Data Mining, Data  Warehousing  e OLAP

OLAP (Online AnalyticalProcessing)

Page 10: Data Mining, Data  Warehousing  e OLAP

Keneth Iverson – 1962 “A Programming Language” - APL Necessidade de relatórios dinâmicos Tecnologia OLAP – década de 90. Popularidade

OLAP -Origem

Page 11: Data Mining, Data  Warehousing  e OLAP

Processamento Analítico Online◦ Manipular e analisar um grande volume de dados

sob múltiplas perspectivas Otimização de consulta e relatório BI- síntese de informações corporativas

◦ visões comparativas e personalizadas: Apresenta as informações via um modelo de dados

natural e intuitivo.◦ análises históricas; e ◦ elaboração de cenários.

OLAP - Definição

Page 12: Data Mining, Data  Warehousing  e OLAP

Tipos básicos de dados: ◦ Medidas:

Dados numéricos, como quantidades e médias Parâmetros utilizados na tomada de decisões dimensão especial utilizada para realizar

comparações.◦ Dimensões:

Uma unidade de análise que agrupa dados de negócio relacionados.

OLAP - Definição

Page 13: Data Mining, Data  Warehousing  e OLAP

Conceitos – chave:◦ Cubo: estrutura multidimensional de dados do

negócio.◦ Membro: subconjunto de uma dimensão.◦ Hierarquia: Uma estrutura em árvore lógica que

organiza os membros de uma dimensão.

OLAP - Definição

Page 14: Data Mining, Data  Warehousing  e OLAP

OLAP – Representação dos Dados

Page 15: Data Mining, Data  Warehousing  e OLAP

Conceitos-chave◦ Drill-up: diminuir o nível de detalhamento◦ Drill-down: aumentar o nível de detalhamento◦ Slice and Dice: reorganizar os dados

OLAP - Definição

Page 16: Data Mining, Data  Warehousing  e OLAP

OLAP - Multidimensionalidade Uma dimensão

Duas Dimensões

Page 17: Data Mining, Data  Warehousing  e OLAP

Três Dimensões

OLAP - Multidimensionalidade

Page 18: Data Mining, Data  Warehousing  e OLAP

Quatro Dimensões

OLAP - Multidimensionalidade

Page 19: Data Mining, Data  Warehousing  e OLAP

Exemplo: aplicações bancárias OLTP: Ponto de vista do cliente.

◦ inserção, alteração, remoção de dados individuais.

OLAP: Ponto de vista do Gerente.◦ Análise global de contas correntes com diversas

visões. Ex: Saber qual é o desempenho de contas correntes que

tenham cheque especial e tenham utilizado o valor máximo dos mesmos em um determinado período de tempo em algumas regiões.

OLAP e OLTP

Page 20: Data Mining, Data  Warehousing  e OLAP

MOLAP: os dados são armazenados em cubos multimensionais.

ROLAP: manipula os dados armazenados no banco de dados relacional para dar a aparência de funcionalidade slice and dice do OLAP tradicional.

HOLAP: combinação do MOLAP e ROLAP.

OLAP – Principais Tipos

Page 21: Data Mining, Data  Warehousing  e OLAP

São utilizados por gestores de qualquer nível da organização;

Análise, navegação e visualização de dados corporativos:◦ Alto desempenho◦ Consistente◦ Interativa◦ Dinâmica◦ Perspectivas diferentes

OLAP - Vantagens

Page 22: Data Mining, Data  Warehousing  e OLAP

Escolha de uma ferramenta OLAP inadequada pode ocasionar severas consequências para um projeto de datawarehouse.

Não existe nenhuma característica peculiar que dite como a ferramenta deve ser construída, qual tecnologia deva ser usada e que funcionalidades devem ser implementadas

OLAP - Desvantagens

Page 23: Data Mining, Data  Warehousing  e OLAP

Data Mining

Page 24: Data Mining, Data  Warehousing  e OLAP

◦ Grande disponibilidade de dados armazenados eletronicamente

◦ Existem informações úteis, invisíveis, nesses grandes volumes de dados;

◦ Aproveitar para prever um conhecimento futuro (ir além do armazenamento explícito de dados).

Introdução - Data Mining

Page 25: Data Mining, Data  Warehousing  e OLAP

◦ Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não.

◦ Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados.

◦ Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados.

Data Mining

Page 26: Data Mining, Data  Warehousing  e OLAP

Evolução do Data MiningEvolução Perguntas Tecnologia disponível Características

Coleção de dados 1960

“Qual foi meu rendimento total nos últimos cinco anos ?”

Computadores, Fitas, discos

Retrospectiva, Dados estáticos como resposta

Acessos aos dados 1980

“Qual foi meu rendimento no Brasil no

último janeiro ?”

RDBMS, SQL,

ODBC

Restropectiva, dados dinâmicos a nível de registos como resposta

Data warehousing & suporte a

decisão 1990

“Qual foi meu rendimento no Brasil no último janeiro? Do sul

até o nordeste

Processamento analítico on-line, banco de dados multidimencionais, data

warehousing

Retrospectiva, dados dinâmicos

em múltiplos níveis como resposta

Data Mining Atualmente

“Porque alguns produtos são mais vendidos na

região sul ?”

Algoritmos avançados, computadores

multiprocessados, B.D. grandes e poderosos

Prospectivo, Informações

(perspectivas) como resposta.

Page 27: Data Mining, Data  Warehousing  e OLAP

◦ Seleção.

◦ Pré-processamento.

◦ Transformação.

◦ Data mining.

◦ Interpretação e Avaliação.

Processo – Data Mining

Page 28: Data Mining, Data  Warehousing  e OLAP

Processo - Data Mining• Seleção

• Selecionar ou segmentar dados de acordo com critérios definidos:

• Ex.: Todas pessoas que possuem ensino superior.

• Pré-processamento • Estágio de limpeza dos dados, onde informações julgadas

desnecessárias são removidas.• Reconfiguração dos dados para assegurar formatos

consistentes (identificação)•Ex. : graduação: “Graduação”, “Mestrado” ou

Doutorado.

Page 29: Data Mining, Data  Warehousing  e OLAP

Processo - Data Mining• Transformação

• Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada.• Ex: rede neural converter valor literal em

valor numérico • Disponibilizar os dados de maneira usável e

navegável.

• Data mining• É a verdadeira extração dos padrões de

comportamento dos dados• Utilizando a definição de fatos, medidas de

padrões, estados e o relacionamento entre eles.

Page 30: Data Mining, Data  Warehousing  e OLAP

Processo – Data Mining• Interpretação e Avaliação• Identificado os padrões pelo sistema, estes são

interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas• Ex.: Tarefas de previsões e classificações

Page 31: Data Mining, Data  Warehousing  e OLAP

Indução◦ Regras indutivas

É o processo de olhar uma série de dados e, a partir dela gerar padrões;

Pode-se trabalhar com dados numéricos ou não; Hipóteses;

Técnicas

Page 32: Data Mining, Data  Warehousing  e OLAP

Árvores de decisão◦ Representação simples do conhecimento;◦ Utilização de regras condicionais;◦ A partir de um conjunto de valores decide SIM ou

NÃO.

Técnicas

Page 33: Data Mining, Data  Warehousing  e OLAP

Redes Neurais◦ É uma abordagem computacional que envolve

estruturas matemáticas com a habilidade de aprender;

◦ Elementos interconectados e possuem entrada e saída do processamento;

◦ São organizados em camadas que aprendem pela modificação da conexão

Técnicas

Page 34: Data Mining, Data  Warehousing  e OLAP

Redes Neurais

Técnicas

Page 35: Data Mining, Data  Warehousing  e OLAP

• Open Source: Implementada na linguagem JAVA.

• Classificação• Um classificador (ou modelo de classificação) é

utilizado para identificar a classe à qual pertence uma determinada observação de uma base de dados, a partir de suas características (seus atributos).

Ferramenta WEKA

Page 36: Data Mining, Data  Warehousing  e OLAP

Exemplo – Entrada de dados• O Software WEKA utiliza o arquivo .arff para a entrada de dados o qual

possui a seguinte estrutura:

@relation Censo @attribute Escolaridade {Graduacao, Mestrado, Doutorado}@attribute Idade {>30, <=30}@attribute Rido {Sim, Nao} @dataMestrado,>30,SimDoutorado,<=30,SimMestrado,<=30,NaoDoutorado,>30,SimGraduacao,<=30,NaoGraduacao,>30,Nao

Page 37: Data Mining, Data  Warehousing  e OLAP

Exemplo – Saida de dados

Arvore de Decisão

Matriz de Confusão=== Confusion Matrix ===

a b <-- classified as 4 5 | a = Sim 6 3 | b = Nao