j oÃo c arvalho data warehouses. d efiniÇÃo um data warehouse é um sistema de computação...

23
JOÃO CARVALHO Data Warehouses

Upload: internet

Post on 21-Apr-2015

104 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

JOÃO CARVALHO

Data Warehouses

Page 2: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

DEFINIÇÃO

Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades de uma organização em bases de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão.

Page 3: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

FUNCIONAMENTO

O Data Warehouse possibilita a análise de grandes volumes de dados, recolhidos dos sistemas transaccionais.

São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados.

Por definição, os dados num Data Warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correcções de dados previamente carregados.

Os dados estão disponíveis somente para leitura e não podem ser alterados.

Page 4: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

ARQUITECTURA

Um data warehouse é constituído por 3 partes:

Armazenamento

Modelagem

Metadado

Page 5: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

ARMAZENAMENTO

É feito num depósito único mas que seja de rápido acesso para as análises.

Tal armazenamento tem que possuir um histórico com todos os dados possíveis para que possa se ter uma análise mais apurada.

Page 6: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

MODELAGEM

Os sistemas de base de dados tradicionais utilizam a normalização no formato de dados para garantir consistência dos dados e uma minimização do espaço de armazenamento necessário.

Algumas transacções e consultas em bases de dados normalizadas podem se tornar lentas devido às operações de junção entre tabelas.

Um Data Warehouse utiliza dados num formato sem padrão definido.

Essa maneira de reordenar os dados chama-se Modelagem Dimensional, e o resultado da modelagem é o Modelo Dimensional, ou MD.

Page 7: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

METADADO

O conceito Metadado é considerado como sendo os "dados sobre dados", isto é, os dados sobre os sistemas que operam com estes dados.

Um repositório de metadados é uma ferramenta essencial para a gestão de um Data Warehouse no momento de converter dados em informações para o negócio.

Entre outras coisas, um repositório de metadados bem construído deve conter informações sobre a origem dos dados, regras de transformação, nomes e alias, formatos de dados, etc.

Page 8: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

ACESSO

O Data Warehouse é normalmente acedido através de Data Marts, que são pontos específicos de acesso a subconjuntos do Data Warehouse.

Os Data Marts são construídos para responder prováveis perguntas de um tipo específico de utilizador.

um Data Mart financeiro poderia armazenar informações consolidadas dia-a-dia para um gestor e em periodicidades maiores (semana, mês, ano) para um utilizador no nível da directoria.

Page 9: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

EXTRACÇÃO DE DADOS

Os dados introduzidos num Data Warehouse geralmente passam por uma área conhecida como área de estágio.

O estágio de dados ocorre quando existem processos periódicos de leitura de dados.

Os dados podem passar então por um processo de qualidade, de normalização e gravação dos dados no Data Warehouse.

Page 10: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

FERRAMENTAS

OLAP

Data mining

Page 11: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

OLAP

As ferramentas OLAP (do inglês, Online Analytical Processing) são geralmente desenvolvidas para trabalhar com bases de dados desnormalizados (sem padrões pré-definidos), embora existam ferramentas que trabalham com esquemas especiais de armazenamento, com dados (informações) normalizados.

Page 12: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

OLAP

Essas ferramentas são capazes de navegar

pelos dados de um Data Warehouse, possuindo uma estrutura adequada tanto para a realização de pesquisas como para a apresentação de informações

Page 13: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

OLAP

Nas ferramentas de navegação OLAP, é possível navegar entre diferentes níveis de granularidades (detalhe) de um cubo de dados.

Através de um processo chamado Drill o utilizador pode aumentar (Drill down) ou diminuir (Drill up) o nível de detalhe dos dados.

Page 14: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

OLAP

Outra possibilidade apresentada pela maioria das ferramentas de navegação OLAP é o recurso chamado Slice and dice.

Esse recurso é usado para criar visões dos dados por meio da sua reorganização, de forma que eles possam ser examinados sob diferentes perspectivas.

Page 15: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

DATA MINING

Data Mining ou mineração de dados, é o processo de descoberta de padrões existentes em grandes massas de dados.

Apesar de existir ferramentas que ajudam na execução do processo, o Data mining não tem automatização simples (muitos discutem se é sequer factível) e precisa ser conduzido por uma pessoa, preferencialmente com formação em Estatística ou áreas afins.

Page 16: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

CARACTERÍSTICAS DE UM DATA WAREHOUSE

Orientado a assunto

Integrado

Não volátil

É variável consoante o tempo

Page 17: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

ORIENTADO A ASSUNTO

Os warehouse são feitos para responder abordagens sobre certos assuntos como, saber mais sobre as vendas da empresa, ou sobre os resultados das actuações das equipas de marketing em determinadas regiões.

O warehouse é feito para responder perguntas sobre certos assuntos como: “Quais foram os melhores clientes em um determinado período?”, “Qual foi o lucro obtido sobre uma campanha de em uma determinada região?”.

Page 18: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

INTEGRADO

Um Data Warehouse, armazena dados de várias fontes de dados, mas é comum que as informações sejam cadastradas em formatos e padrões diferentes nas diversas fontes de dados, para ser possível relacionar informações entre os sistemas, estas informações devem ser previamente tratadas antes de serem armazenadas no warehouse, neste processo diversas actividades são feitas, tais como:

Page 19: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

INTEGRADO

Conversão de datas para um formato único

Resolução de conflitos entre nomes

Conversão de medidas

Page 20: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

NÃO VOLÁTIL

Num warehouse somente existem duas operações a serem feitas:

Carregamento de dados

Consulta.

Page 21: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

NÃO VOLÁTIL

Dizer que um Data Warehouse não é volátil significa que as informações registadas não são actualizadas, o que é feito é que um novo registo é gravado e este passa a ser utilizado de um certo tempo em diante.

Isto possibilita que consultas realizadas para um certo período retornam sempre o mesmo resultado, pois os registos não foram actualizados.

Page 22: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

VARIÁVEL COM O TEMPO

Ser variável com o tempo significa somente que os Data Warehouses mantêm um histórico por muito mais tempo que um sistema de dados operacional ou transaccional, enquanto os sistemas OLTP (online transaction processing) guardam históricos por um curto período, para não reduzir a performance do sistema, os warehouses guardam um histórico por muito tempo, assim possibilitando que análises de tendências ao longo do tempo sejam feitas com suas informações.

Page 23: J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades

?