metodologia para implantação de data warehouse
TRANSCRIPT
-
8/14/2019 Metodologia para Implantao de Data Warehouse
1/32
METODOLOGIA
PARA
IMPLEMENTAO DE PROJETOS
DE
DATA WAREHOUSE
Autor: Felipe Ferreira
E-mail:[email protected]
Rio de Janeiro, 6 de dezembro de 2004
mailto:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected] -
8/14/2019 Metodologia para Implantao de Data Warehouse
2/32
ii
RESUMO
Motivado pelo interesse nas diversas tecnologias e ferramentas de apoio
deciso, este trabalho foi desenvolvido com o objetivo de organizar uma metodologiaeficiente no desenvolvimento evolutivo de data warehouse, baseado nos conceitos e
tcnicas existentes.
Implementar um data warehouse est longe de ser uma tarefa fcil, mesmo
considerando o desenvolvimento por assuntos (Data Marts). Faz-se necessria uma
ateno especial para o mtodo de desenvolvimento. Este trabalho apresenta as fases do
projeto de implementao do data warehouse: levantamento, modelagem, extrao,
modelagem multidimensional, anlise de resultados, vises pr-definidas e segurana.
-
8/14/2019 Metodologia para Implantao de Data Warehouse
3/32
iii
SUMRIO
Resumo ii
1. Introduo 12. Tecnologias 3
3. Infra-estrutura 5
4. Metodologia 9
4.1. Levantamento 9
4.2. Modelagem 11
4.3. Extrao de dados 14
4.4. Modelagem Multidimensional 17
4.5. Anlise de Resultados 19
4.6. Vises Pr-definidas 20
4.7. Segurana da Informao 21
6. Estudo de Caso 24
7. Concluso 27
8. Lista de Abreviaes e Siglas 28
9. Referncias Bibliogrficas 29
-
8/14/2019 Metodologia para Implantao de Data Warehouse
4/32
1. INTRODUO
Com o advento da computao, surgiram os primeiros programas para
transformao de dados em informao. Junto vieram alguns complicadores, como:
tempo de processamento, volume de dados, formas de acesso, meios fsicos etc. As
tecnologias evoluram, porm o conceito permanece. Transformar dados em informao
a principal razo da existncia da informtica.
Os primeiros programas comerciais foram criados para auxiliar os processos
organizacionais, tais como folhas de pagamento, contabilizao e controles de estoque.
Apesar da evoluo das tecnologias estes aplicativos ainda so to essenciais quanto os
sistemas especialistas.
Com o passar do tempo muitos aplicativos foram desenvolvidos para
automatizar os processos. Como conseqncia o volume de dados crescia ainda mais,
dificultando a obteno de informaes para anlise e tomada de deciso.
Na dcada de 80 surgiram os primeiros sistemas comerciais para auxlio
tomada de deciso. Tinham como objetivo resumir os dados essncias e organiz-los. O
crescente volume e a complexidade para obter os dados, de diferentes fontes, tornaram
estes aplicativos ineficientes medida que no disponibilizavam as informaes
necessrias para tomada de deciso em tempo hbil. Observa-se que no importa ter
apenas os dados se a informao no est disponibilizada em momentos decisivos.
Surgiram na dcada seguinte os sistemas integrados (ERP) que agilizaram
processos, otimizando recursos. Como promessa destes mega-sistemas, todas as
informaes necessrias seriam obtidas a partir deles. Porm, outros sistemas
especialistas ainda permaneciam por serem estratgicos e mais eficientes. Permanecia
tambm o problema da disponibilizao da informao no momento certo. Aconcorrncia de transaes da operao das empresas com busca de informaes em
altos volumes de dados comearam a comprometer o ambiente. Ficando bem
caracterizado a que se destinavam os sistemas integrados: otimizar as transaes das
empresas.
A evoluo das tecnologias de busca de informao para tomada de deciso e a
necessidade de organizar os dados motivaram o estudo cientfico do problema. Segundo
INMON Um data warehouse um conjunto de dados baseado em assuntos, integrado,
-
8/14/2019 Metodologia para Implantao de Data Warehouse
5/32
2
no voltil e varivel em relao ao tempo, de apoio s decises. (1997, pg 33) Ele
demonstra em sua obra as principais tcnicas para construo de um data warehouse.
A integrao dos dados, associadas a tcnicas e ferramentas, no data warehouse
proporcionam um ambiente de dados organizados por assuntos para obteno deinformaes para tomada de deciso. Imagina-se ento que o DW seja um ambiente
onde todas as informaes, para tomada de deciso, so obtidas.
Construir um DW est longe de ser uma tarefa fcil. As tcnicas e as
ferramentas no so suficientes para garantir o xito na construo. necessria uma
metodologia capaz de levar sua implementao. INMON acrescenta que a tentativa
de aplicar ferramentas e tcnicas de desenvolvimento inadequadas conduz apenas a
desperdcio e confuso. Por exemplo, no mundo CASE predomina a anlise baseada emrequisitos. Tentar aplicar as ferramentas e tcnicas CASE ao mundo do Data warehouse
no aconselhvel e vice-versa. (1997, pg 24) No ciclo de vida do DW predominam
os dados e a informao resultante da organizao da base de dados.
Mesmo considerando seu desenvolvimento em partes (Data Marts) deve-se ter
a viso do todo para garantir a integrao das informaes. O armazm de dados (DW)
no pode ser apenas um repositrio, onde os dados de diferentes aplicaes esto na
mesma base de dados centralizada. Os dados devem estar organizados para refletir aviso do negcio de forma integrada.
A metodologia descrita a seguir tem como objetivo uma orientao para
desenvolvimento evolutivo do data warehouse. Dividida em fases bem caracterizadas
pelo agrupamento das principais tcnicas relacionadas. Ela descreve a finalidade de
cada fase, identificando os pontos crticos e descrevendo sucintamente as principais
tcnicas.
As fases do projeto de implementao do data warehouse, por assunto, so:
levantamento de dados, modelagem de dados, extrao de dados, modelagem
multidimensional, anlise de resultados, vises pr-definidas e segurana da
informao. Alm da descrio das fases do projeto tambm so abordadas neste
trabalho as tecnologias relacionadas ao data warehouse, a infra-estrutura necessria e
administrao do data warehouse.
Numa definio singular, para este trabalho, o data warehouse considerado
como: o repositrio de dados para tomada de deciso.
-
8/14/2019 Metodologia para Implantao de Data Warehouse
6/32
3
2. TECNOLOGIAS
Em parte o data warehouse a evoluo de algumas tecnologias. Outras que
surgiram em paralelo ao conceito de DW tambm evoluram e possuem grandes
benefcios se estiverem integradas. Tambm existe um grupo de tecnologias mais
recente que foram influenciadas pela deficincia ou amadurecimento do conceito. A
seguir so definidas algumas das tcnicas e ferramentas relacionadas com o data
warehouse.
Os Sistemas de Informaes Gerenciais (SIGs) foram uma das primeiras
tentativas de criao de um ambiente nico de informaes para tomada de deciso.
Eles foram desenvolvidos para disponibilizar relatrios que atendessem ao corpo
gerencial das organizaes. Porm, estes sistemas ainda no utilizavam tcnicas de
organizao de dados especficas que suportassem um ambiente com crescimento
escalar.
Como evoluo dos SIGs os Executive Information Systems (EIS) foram
desenvolvidos para melhorar a interface com os executivos e solucionar alguns
problemas de performance. De acordo com INMON por meio dos EIS o analista
executivo pode localizar problemas com preciso e detectar tendncias que so de vital
importncia para a gerncia.(1997, pg 237) Estes sistemas tambm eram suportados
pela tecnologia OLAP.
A tecnologia OLAP (On-Line Analytical Process) constitui um sistema de
armazenamento de dados agregados. Determinadas informaes so obtidas a partir de
dados pr-calculados disponveis para consulta direta, sem a necessidade da pesquisa
dos dados elementares e consolidao em tempo de execuo, otimizando assim o
processo de consulta de dados. Estes sistemas tambm so conhecidos como
multidimensionais ou cubos, por permitirem a consulta de informaes por mltiplas
vises.
O armazm de dados (DW), em si, suportado por um Sistema Gerenciador de
Banco de Dados (SGBD), onde os dados extrados dos sistemas transacionais so
armazenados. O DW tambm utiliza a tecnologia OLAP para permitir as consultas
analticas On-Line.
-
8/14/2019 Metodologia para Implantao de Data Warehouse
7/32
4
importante contextualizar algumas tecnologias que so influenciadas ou
dependentes do DW para preparao de um ambiente que suporte de forma eficaz tais
tecnologias.
Atualmente os EISs, associados com o data warehouse, podem serconsiderados como sistemas de BI (Business Intelligence). Outras tecnologias como
Data Mining tambm influenciam o BI, na descoberta de conhecimento.
Obter informao de uma grande base de informaes (DW) pode se tornar
uma tarefa difcil, mesmo que organizada por assuntos. Explorar as informaes, por
meio de ferramentas analticas, pode no ser eficaz quando no se tem a certeza do que
se est procurando. A tecnologia de Data Mining, com seus algoritmos e tcnicas pode
ser facilitada se existir uma fonte de dados organizada. CARVALHO relata que emuma empresa que deseja analisar o contedo da massa de dados criada por suas
atividades, um processo de unificao precisa ser efetuado de forma a possibilitar o
acesso de um indivduo (analista) s mltiplas faces desta informao. Para que o data
mining seja realizado, necessrio o acesso a uma massa de dados limpa, consistente e
unificada em sua linguagem e lgica. Certamente que analistas vm realizando data
mining h muitos anos, utilizando ferramentas simples e bancos de dados separados,
porm a construo de um data warehouse em muito facilita o processo de minerao dedados e de deciso. (2001, pg 193)
SWIFT define que CRM totalmente dependente de um local centralizado de
dados detalhados sobre clientes, seus comportamentos e suas preferncias, incluindo
detalhes especficos sobre privacidade de dados: o data warehouse. (2001, pg 65)
Analisar as informaes contidas no data warehouse, com crescente volume de
dados, pode no ser eficiente com relatrios, books, grficos etc. So muitas
informaes a serem analisadas. Algumas corporaes esto adotando o Balanced
Scorecard (BSC) como uma metodologia de gesto, onde so definidos indicadores de
performance. Para estes indicadores so definidas metas e aes dentro da organizao.
Sistemas de BSC disponveis no mercado tm maior eficincia se integrados ao data
warehouse, caso contrrio tero que buscar os dados para os indicadores diretamente
nos sistemas transacionais.
Outro sistema relacionado ao BSC o de Performance Management (PM),
tambm conhecido como Business (BPM), Corporate (CPM) ou Enterprise Performance
-
8/14/2019 Metodologia para Implantao de Data Warehouse
8/32
5
Management (EPM), que definem as metas dos indicadores. Estes sistemas, muitas
vezes, utilizam o histrico dos indicadores como fonte para clculo das metas.
Fica evidente assim que a construo do data warehouse deve levar em
considerao como as informaes sero utilizadas e integradas a outros sistemas eprocessos das instituies.
A metodologia de implementao de data warehouse, por assuntos, descrita
neste trabalho pelas fases de:
Definio da infra-estrutura
Levantamento de dados
Modelagem de dados
Extrao de dados
Modelagem multidimensional
Anlise de resultados
Vises pr-definidas
Segurana da informao
Administrao
3. INFRA-ESTRUTURA
A infra-estrutura dever suportar o ambiente projetado, com alto crescimento
de dados, consultas complexas e no previstas (ad-hoc), diversidade de integrao,
diferentes tipos de tecnologias etc. O produto final do DW sero os dados, organizados
e de fcil entendimento.As ferramentas a serem utilizadas para a construo do data warehouse sejam,
talvez, uma das menores preocupaes que o arquiteto tenha. Integrar os sistemas,
organizar os dados e disponibilizar as informaes sero preocupaes constantes.
Desta forma, no importa muito qual o fornecedor ou marca devemos escolher, porm
algumas caractersticas devem ser levadas em considerao.
Como dito anteriormente, a principal ferramenta de um data warehouse o
Banco de dados (SGBD), onde os dados extrados dos sistemas transacionais ficaro
-
8/14/2019 Metodologia para Implantao de Data Warehouse
9/32
6
armazenados. Ele dever suportar: grandes volumes de dados, alta performance para
carga de dados e consulta de informaes, flexibilidade para alterao de estruturas,
fcil administrao e operao, baixo custo por usurio, integrao com diferentes
plataformas e sistemas, etc. Devem-se evitar utilizar caractersticas que dificultem a
migrao para outra plataforma. Em longo prazo, por questes de custo, pode ser
necessria uma mudana de plataforma. Com tanta integrao e a utilizao do DW por
toda organizao o custo de licena de uso, por usurio, deve ser considerado desde o
incio como um fator crtico. Sendo os dados o mais importante, a estrutura de
organizao dos dados deve ser muito bem conhecida, documentada e de fcil acesso.
Para suportar consultas complexas e no previstas (ad-hoc) necessrio que
tanto dados detalhados quanto totalizadores, frmulas e conjuntos de dados possam serconsultados com o menor tempo de resposta possvel. A infra-estrutura do data
warehouse deve possuir uma ferramenta que suporte este tipo de consulta. As
ferramentas OLAP possuem tais caractersticas, simplificando assim o trabalho de
agregao e visualizao das informaes.
THOMSEN define que os conceitos de OLAP incluem a noo ou idia de
mltiplas dimenses hierrquicas e podem ser usados por qualquer um para que se
pense mais claramente a respeito do mundo, seja o mundo material da escala atmica escala galctica, o mundo econmico dos micros agentes macro economias, ou o
mundo social dos relacionamentos interpessoais aos internacionais. Em outras palavras,
mesmo sem qualquer tipo de linguagem formal, til apenas sermos capazes de pensar
em termos de um mundo multidimensional e com mltiplos nveis, independentes da
sua posio na vida.
Outras linguagens formais, incluindo Data Definition Language (DDL), Data
Manipulation Language (DML), Data Representation Language (DRL) e seusanalisadores associados (e compiladores opcionais), poderia ser usada para qualquer
modelagem descritiva, seja ela transacional ou de suporte tomada de deciso. Em
outras palavras, a associao de OLAP com suporte tomada de deciso mais uma
funo das caractersticas fsicas de otimizao dos produtos OLAP do que quaisquer
caractersticas inerentes das construes de linguagem do OLAP.
As camadas de produto do OLAP normalmente residem em cima dos bancos
de dados relacionais e geram SQL como sada da combinao. O armazenamento e oacesso aos dados so tratados pelo banco de dados.
-
8/14/2019 Metodologia para Implantao de Data Warehouse
10/32
7
Produtos OLAP completos, que precisam incluirum compilador e mtodos de
armazenamento e acesso, so otimizados para acesso a dados e clculos rpidos, sendo
usados para a modelagem descritiva de dados, derivada de sistemas de suporte tomada
de deciso (DSS Decision Support Systems). A fronteira entre linguagens e produtos
OLAP no demarcada com clareza.(2002, pg 5)
Resumidamente, as ferramentas OLAP fazem parte da infra-estrutura do Data
Warehouse para consolidao de dados (agregao), aplicao de regras de negcio,
clculos (frmulas) e disponibilizar a viso multidimensional.
Para obter os dados do ambiente operacional para o data warehouse, podem ser
utilizadas vrias linguagens, formas de acesso, conectores de dados e meios fsicos
diferentes (discos, fitas, rede etc). Segundo INMON, primeira vista, quando os dadosso movidos do ambiente herdado para o ambiente do data warehouse, parece que nada
alm de simples extraes de dados de um local para o prximo est ocorrendo. Em
virtude dessa enganosa simplicidade, muitas empresas comearam a construir seus data
warehouses manualmente. O programador olha para a movimentao de dados do
antigo ambiente operacional para o novo data warehouse e declara: Eu posso fazer
isso! Munido de lpis e formulrio de codificao, nos trs primeiros minutos do
projeto e desenvolvimento do data warehouse, o programador ansiosamente mergulhana criao do cdigo.
Contudo, primeiras impresses podem ser muito enganadoras. O que em um
primeiro momento parece ser nada mais do que a movimentao de dados de um local
para outro transforma-se, rapidamente, em uma grande e complexa tarefa muito maior
e mais complexa do que o programador negociou.(1997, pg 115)
Como veremos adiante, em detalhes, no tpico de extrao de dados, so
necessrias algumas tcnicas para esta tarefa. verdade que, por meio de programao,
a extrao de dados possa ser feita. Sendo assim a extrao de dados uma das camadas
da arquitetura do data warehouse. O fato da extrao de dados poder ser executada por
programao no significa que seja a mais eficiente. O alto volume de dados, a
diversidade de tecnologias envolvidas e a complexidade de transformaes podem
dificultar a manuteno dos extratores e o tempo de desenvolvimento comprometido.
Para atender a esta camada algumas empresas fornecedoras de software
desenvolveram ferramentas de ETL (Extract Transform and Load), facilitando em muito
-
8/14/2019 Metodologia para Implantao de Data Warehouse
11/32
8
a integrao e operacionalizao. Considerando que a fase de extrao pode consumir
cerca de 70% do tempo de desenvolvimento do projeto. Abrir mo de uma ferramenta
de ETL pode ser um grande risco para o projeto e compromet-lo. Investir numa
ferramenta, que garanta a integrao e atenda aos requisitos da extrao de dados, no
mnimo aconselhvel. Alm disso, usualmente os fornecedores no cobram por
conectores ou pontos de integrao e sim como um pacote, portanto investir mais nestas
ferramentas no ir aumentar os custos medida que o data warehouse se expandir.
Para que a arquitetura do data warehouse esteja completa necessrio uma
ltima camada. A consulta, anlise e visualizao das informaes compem esta
camada. Apesar dos bancos de dados possurem formas de acesso e as ferramentas
OLAP vises multidimensionais, necessrio que os usurios possam acessar asinformaes de forma integrada ao seu ambiente de trabalho. Como requisito mnimo
para a arquitetura do data warehouse deve-se considerar uma ferramenta que acesse os
dados armazenados e de forma exploratria possam analisar os dados. Outra forma de
acesso, de forma orientada, so os portais de informao, que so constitudos por
vises pr-definidas, consultas e relatrios pr-formatados.
Nas quatro camadas descritas acima (armazenamento, extrao, consolidao e
anlise) devemos considerar o alto volume de dados, mltiplos acessos simultneos ealta disponibilidade. Esta preocupao garantir a escalabilidade do ambiente do data
warehouse.
Outro fator muito importante est na flexibilidade que o ambiente deve possuir
para atender as constantes mudanas de viso do negcio. Uma empresa que opera com
apenas um produto pode passar a comercializar outros, assim como uma empresa pode
se tornar uma grande organizao composta por diferentes unidades de negcio. No
necessrio que estas mudanas estejam previstas no data warehouse, porm aimplementao delas no pode ser inviabilizada pela arquitetura utilizada.
INMON observou que outra importante diferena entre os ambientes
operacionais e de data warehouse so os padres de utilizao de hardware que ocorrem
em cada ambiente. (1997, pg 25) No processamento operacional h picos e plats no
processamento, mas h uma constante de utilizao elevada e estvel. No DW h uma
utilizao binria, ou seja, totalmente utilizado ou simplesmente no est. INMON
acrescenta que esta diferena fundamental consiste em mais uma razo para o fato deque tentar combinar os dois ambientes na mesma mquina e ao mesmo tempo no
-
8/14/2019 Metodologia para Implantao de Data Warehouse
12/32
-
8/14/2019 Metodologia para Implantao de Data Warehouse
13/32
10
A principal abordagem para construo do DW pela implementao de Data
Marts, que so assuntos especficos das reas das empresas. Os Data Marts tm sua
origem na construo de cubos, pela utilizao da tecnologia OLAP. Esta abordagem
considerada por alguns autores como ineficiente por no considerar a integrao com
outras bases de dados dentro do data warehouse. Outra caracterstica dos Data Marts, a
ser considerada, a implementao em partes para se chegar ao todo (Bottom-Up).
Mesmo considerando a construo do DW por partes, alguns Data Marts
podem ser muito complexos. Os Data Marts podem ter como origem mais de uma base
de dados e cada uma com dezenas ou centenas de tabelas. Como orientao para o
trabalho de levantamento de dados outras fontes devem ser analisadas.
Analisando as principais questes, referentes ao assunto, pode-se observar queexistir a carncia por algum tipo de informao especfica ou que a informao atual
no confivel, conflitante com dados de outra rea da empresa ou fora do tempo para
tomada de deciso. Desta forma so identificados problemas analticos que no so
solucionados pelos sistemas transacionais, como exemplo a anlise de comportamento
dos clientes ao longo do tempo. Caso o sistema transacional tente solucionar este tipo de
questo ele pode se tornar ineficaz para as transaes ou gerar a informao fora do
tempo.O direcionamento para as principais questes pode ser dado pelos gestores e
executivos da organizao, desta forma possvel traar um alinhamento com a viso
estratgica da empresa. A equipe coordenadora do Data Warehouse deve ter acesso ao
plano estratgico da empresa, bem como ter o pleno entendimento da viso da empresa.
Numa anlise mais ampla devem-se revisar os processos das reas relacionadas
com o assunto, onde so observadas as regras de negcio. Estas regras podem dar
origem s transformaes na fase de extrao de dados. Em geral as transformaes
podem ocorrer por questes tcnicas, mudanas de formatos ou uma viso de negcio.
As transformaes por viso de negcio acontecem em geral por adaptao dos
processos das empresas aos sistemas, normalmente em casos de implantao de ERPs.
Outra fonte que pode auxiliar nesta fase de levantamento de dados so
relatrios gerenciais, que muitas vezes so improvisados em planilhas eletrnicas a
partir da coleta de dados de vrias fontes. comum encontrar nestes relatrios os
principais indicadores monetrios e fsicos (quantitativos).
-
8/14/2019 Metodologia para Implantao de Data Warehouse
14/32
11
A anlise das bases de dados dos sistemas transacionais pode ser iniciada pela
pesquisa das tabelas com maior volume de dados. Estas tabelas normalmente so
referentes a eventos ou fatos que ocorrem com freqncia, indicados por campos de data
ou perodo. Comumente estas tabelas so definidas como ordens, itens, detalhamento
etc. Os atributos destas tabelas so compostos, em grande parte, por chaves estrangeiras
(foreign key) e indicadores. Os indicadores so dados quantitativos, monetrios, taxas e
medidas. As tabelas relacionadas com a tabela de eventos (ou fatos) podem dar origem
s dimenses, que so as diferentes vises que se poder ter do assunto.
Aps a anlise das bases de dados, dos relatrios e reunies de levantamento
deve ser produzida uma especificao com a definio do assunto, os objetivos da
anlise do assunto, as principais questes, a definio das regras de negcio, osindicadores, as mltiplas vises do assunto, o mapeamento dos dados das bases de
origem e a periodicidade para extrao dos dados.
O mapeamento dos dados deve ser bastante detalhado para facilitar o trabalho
na fase de extrao de dados. Neste mapeamento de dados devem ser indicados as bases
de dados, arquivos, tabelas, campos, atributos, formatos etc.
Esta especificao ser utilizada durante todo o projeto do Data Mart como
orientao para que os objetivos sejam atingidos.
4.2.MODELAGEM
Identificados os dados que devero ser extrados dos sistemas transacionais
pode-se iniciar a modelagem para armazenamento no data warehouse.
A modelagem para o DW tem grande influncia das ferramentas OLAP que,
por questes de performance e visualizao das informaes, dependem de um modelo
estrela. Este modelo, de forma resumida apresenta os fatos ao centro e todas as
dimenses relacionadas aos fatos. Existem algumas variaes desse modelo como o
modelo em cascata (snowflake), que para algumas tabelas de dimenses estaro
relacionadas com outras tabelas. Estas tabelas relacionadas s dimenses daro origem,
em grande parte, a nveis de consolidao da dimenso no modelo multidimensional,
como ser discutido mais adiante.
O modelo lgico para um Data Mart bastante simples, com algumas
restries. O relacionamento dos fatos com as dimenses no podero ter cardinalidade
-
8/14/2019 Metodologia para Implantao de Data Warehouse
15/32
12
N para N, ou seja, um fato no pode estar relacionado com mais de um elemento de uma
tabela de dimenso. Os elementos das tabelas de dimenso estaro relacionados com
vrios itens da tabela de fatos, caracterizando assim a necessidade de agregao.
A desnormalizao de dados no data warehouse aceita e em muitos casosindicada para solucionar problemas de performance e espao em disco, combinando
dados de vrias tabelas do modelo de dados dos sistemas transacionais em uma tabela
de fatos ou dimenso. INMON interessante observar que, no data warehouse, essas
circunstncias ocorrem regularmente em funo de os dados serem baseados em
parmetros de tempo. Os dados do data warehouse sempre apresentam relevncia em
relao a um determinado momento, e unidades de tempo ocorrem com grande
regularidade. Em um data warehouse, a criao de um array por ms, por exemplo, algo muito natural. Outra importante tcnica de projeto especialmente relevante para o
ambiente de data warehouse consiste na introduo intencional de dados
redundantes.(1997, pg 100) Contudo, algumas ferramentas de mercado esto cada vez
mais adaptadas aos conceitos de data warehouse. Tirando grande proveito do ambiente
relacional, sem perder o conceito, para construir bases multidimensionais (OLAP) com
maior eficincia. Sendo assim, no devemos abrir mo da desnormalizao para tudo,
mas sempre que necessrio.
Um dos aspectos mais importante na modelagem definir a granularidade dos
dados. As bases de dados transacionais possuem muitos dados de controle das
transaes que talvez no sejam relevantes para tomada de deciso. INMON A razo
pela qual a granularidade a principal questo de projeto consiste no fato de que ela
afeta profundamente o volume de dados que residem no data warehouse e, ao mesmo
tempo, afeta o tipo de consulta que pode ser atendida. O volume de dados contidos no
data warehouse balanceado de acordo com o nvel de detalhe de uma consulta.(1997,
pg 45)
Outro paradigma a ser rompido em relao aos sistemas transacionais
referente representao de acontecimentos passados. KIMBALL Os sistemas OLTP e
data warehouse tratam o tempo de forma diferente. O melhor sistema OLTP um status
instantneo dos negcios de uma organizao, atualizado constantemente medida que
as transaes so concretizadas. Os valores-chave do negcio devem mudar a cada
minuto ou segundo. O status muda continuamente e os relacionamentos entre asentidades so alterados. (1998, pg 100) No DW estes instantneos sero armazenados
-
8/14/2019 Metodologia para Implantao de Data Warehouse
16/32
13
e identificados com uma marca de tempo, onde poderemos observar as mudanas de
comportamento, seja de clientes ou produtos.
Algumas dimenses no data warehouse devem ser observadas com mais
ateno, pois possuem grande relevncia para a integrao dos dados. Quandoimportamos os fatos dos sistemas transacionais para o DW observamos sempre que
possuem o atributo de tempo. Portanto, a dimenso de tempo ter grande importncia
para o modelo de dados do data warehouse. Outra caracterstica importante podermos
definir atributos comuns para os fatos, atravs do tempo, como: feriados, acontecimento
importante (externos ou internos da organizao), dia da semana etc.
Fatos diferentes podem dar origem outra dimenso que deve ser observada
com ateno. A relao de fatos realizados com previstos ou calculados o conceito deverso, que representado usualmente nos data warehouses como uma dimenso de
verso.
Mais recentemente, com a evoluo dos conceitos de marketing, e mais
especificamente do marketing de relacionamento, o cliente tem ganhado maior ateno
dos analistas de data warehouse, com o intuito de atender as necessidades dos sistemas
de CRM (Customer Relationship Management). Modelar os dados dos clientes de forma
que seja possvel observar as mudanas do mesmo, ao longo do tempo, fundamentalpara atender a esta finalidade.
Diferentemente da modelagem de dados dos sistemas transacionais, com os
modelos de entidade e relacionamento (MER), no data warehouse o modelo de dados
fsico se apresenta muito semelhante ao lgico, seguindo o conceito estrela e suas
variaes. Porm, a preocupao ser no armazenamento, objetivando maior
performance e menor custo de espao para o armazenamento de dados.
Devemos ter maior ateno para as tabelas de fatos, pois noventa por cento dos
dados de cada Data Mart sero armazenados nestas tabelas. As tabelas de fatos sero
compostas por dois grupos de atributos chaves estrangeiras e indicadores. O
dimensionamento correto dos tipos de dados das chaves das dimenses e dos
indicadores determinar o espao necessrio para o armazenamento.
A granularidade das tabelas de fatos poder ser reavaliada aps alguns anos de
dados armazenados. INMON comenta sobre nveis duais de granularidade, onde na
maior parte do tempo, h uma grande demanda por eficincia no armazenamento de
-
8/14/2019 Metodologia para Implantao de Data Warehouse
17/32
14
dados e no acesso a eles bem como pela possibilidade de analisar dados em maior
detalhe. (Em outras palavras, a organizao quer fazer o gol e defender ao mesmo
tempo!) Quando uma organizao possui grandes quantidades de dados no data
warehouse, faz sentido pensar em dois (ou mais) nveis de granularidade na parte
detalhada do data warehouse. (1997, pg 49) Deve ser observado que, efetuando este
tipo de modelagem, alguma informao ser perdida ao longo do tempo.
Outro aspecto a ser considerado no modelo fsico o particionamento dos
dados. O particionamento permitir o gerenciamento flexvel dos dados e a distribuio
de bases de dados por unidades de negcio de forma descentralizada.
Resumidamente o modelo de dados do data warehouse refletir a organizao
dos fatos e dimenses na base de dados.
4.3.EXTRAO DE DADOS
O data warehouse dependente dos sistemas transacionais internos ou externos
das instituies. Os sistemas transacionais so a fonte de dados para o data warehouse,
como a matria-prima para a fabricao de um produto. Interligar estes ambientes to
heterogneos, com: tecnologias diversificadas, diferentes bases de dados, formatos
diferentes, conexes e distncias; torna a fase de extrao de dados a mais trabalhosa,consumindo cerca de 70% do tempo da equipe do data warehouse.
Quando a integrao entre os sistemas transacionais e o DW no possui um
suporte tecnolgico ideal, possvel subdividir esta fase em: extrao e importao dos
dados. As transformaes sero tratadas no momento da importao.
possvel extrair os dados dos sistemas transacionais no formato adequado
para simples importao no data warehouse. Porm, esta pode no ser a estratgia mais
adequada, pois as transformaes possivelmente ficariam nos ambientes transacionais,
tornando-os mais complexos. Outro fator a manutenibilidade das regras de negcio
que, desta forma, de nada agregar aos sistemas transacionais implementar as regras de
transformao. Esta situao ainda poder trazer problemas de performance para o
ambiente transacional, com processos concorrentes entre extratores e transaes ou
processos operacionais.
Deve-se manter a integrao entre estes ambientes a mais automtica possvel,
evitando a manipulao de dados pelos usurios e reduzindo risco a falhas. As
-
8/14/2019 Metodologia para Implantao de Data Warehouse
18/32
15
ferramentas de ETL (Extract Transform and Load) so de suma importncia para a
integrao dos ambientes transacionais e o data warehouse.
Com base na especificao definida no levantamento de dados sero
produzidas novas especificaes de desenvolvimento: definio dos extratores eespecificao das importaes dos dados. Tendo estas especificaes bem definidas
possvel execut-las em paralelo.
As especificaes dos extratores contero a definio da seleo dos dados,
critrios de seleo, formato de sada, objetos que devem ser criados, parmetros da
interface, script de teste e controles de erro.
A seleo dos dados e os critrios de seleo definiro quais os objetos,
campos e tabelas, dos sistemas transacionais sero manipulados e qual a relao entre
eles. Os critrios de seleo tambm podero conter restries fixas da seleo dos
dados, que sejam exclusivamente referentes complexidade de busca dos dados do
sistema transacional especfico, no sendo assim nenhuma transformao de dados.
O formato de sada basicamente define a ordem dos campos, largura de colunas
e converses elementares, tais como formato de data.
Os parmetros da interface so os critrios de seleo enviados pelo processo
principal de carga de dados que coordena as interfaces.
Os controles de erro so fundamentais para a integrao com o ambiente do
data warehouse, onde podero ser monitoradas as falhas no processo para comunicao
aos administradores dos sistemas.
O script de teste a descrio de como a extrao pode ser executada e qual o
resultado esperado. Este teste permite a validao do processo independentemente da
integrao com o data warehouse.
Como produto das especificaes de extrao so produzidos alguns objetos,
tais como: programas, arquivos, conectores etc. A especificao dever conter tambm
o local de armazenamento dos objetos.
Observa-se que as interfaces dos extratores devem ser flexveis, permitindo
assim a re-execuo dos processos para correo de erros. Deve-se ter como objetivo
primrio na definio dos extratores que qualquer processo possa ser executado a
qualquer tempo. Mesmo considerando que a definio da periodicidade de extrao
-
8/14/2019 Metodologia para Implantao de Data Warehouse
19/32
16
definida na especificao de levantamento de dados e alinhada com a necessidade da
rea de negcio, os extratores devem possuir a capacidade de serem executados a
qualquer tempo para correo de problemas adversos.
Com a periodicidade definida, deve-se buscar o menor volume de dadospossvel dos sistemas transacionais. INMON Outro importante problema diz respeito
ao acesso eficiente aos dados dos sistemas existentes. Como pode o programa que varre
os sistemas existentes saber se um arquivo j foi varrido anteriormente? H uma enorme
quantidade de dados no ambiente de sistemas existentes e a tentativa de efetuar
varreduras completas toda vez que feita uma varredura para o data warehouse
antieconmica e pouco realista. H trs tipos de carga que podem ser feitos do ambiente
operacional para o data warehouse: o carregamento de dados histricos, o carregamentode dados de valor corrente no ambiente operacional e o carregamento de alteraes do
data warehouse a partir de alteraes (atualizaes) que tenham ocorrido no ambiente
operacional desde a ltima atualizao do data warehouse.(1997, pg 76)
Para solucionar o problema do corte dos dados podem ser empregadas algumas
tcnicas: marcar de tempo, arquivo de log ou auditoria, arquivo delta, imagem anterior /
posterior e alterao da aplicao do sistema transacional.
A performance de carga de dados estar relacionada diretamente com o volumede dados extrado do sistema transacional. Podem-se empregar tcnicas de segmentao,
principalmente dos fatos, para carreg-los em paralelo.
As especificaes de importao de dados devem tratar de como os dados
devem ser carregados no data warehouse. Este processo tambm contempla a
coordenao dos sub-processos para carga de cada uma das interfaces das tabelas de
dimenses e fatos. Esta especificao deve conter as definies do: mapeamento tcnico
dos dados da origem para as tabelas do data warehouse, as transformaes de tipos de
dados, as transformaes de substituio de chaves, transformaes das regras de
negcio e verificao dos possveis erros no processo de extrao.
As interfaces com alto grau de acoplamento, ou seja, com tecnologias similares
ao data warehouse, podem ser tratadas em apenas uma especificao.
Uma particularidade da extrao dos dados a converso inicial dos dados dos
sistemas transacionais para o data warehouse. Aps o desenvolvimento dos extratores
possvel iniciar a carga de dados para o data warehouse. Porm, vale avanar para as
-
8/14/2019 Metodologia para Implantao de Data Warehouse
20/32
17
prximas fases do projeto at a anlise de resultados, onde algumas validaes podem
ser executadas e possivelmente trar modificaes para os extratores de dados. Por fim,
aps as modificaes, os dados devem ser convertidos por perodos. Tentar trazer todos
os dados de uma s vez no recomendado, podendo causar grande impacto nos
sistemas transacionais, que j esto em ambiente produtivo.
comum verificarmos que, aps a carga dos dados dos sistemas transacionais
para o data warehouse, muitas informaes no possuem o valor esperado. Aps as
primeiras cargas de dados, necessrio fazer uma anlise criteriosa das informaes.
Muitos dados podem no estar qualificados, ou seja, os dados contidos nos sistemas
transacionais no esto consistentes. Este problema de qualificao e anlise dos dados
abordado com mais detalhes na fase de anlise de resultados, onde o analista desuporte a deciso tem grande participao no processo.
4.4.MODELAGEM MULTIDIMENSIONAL
Aps a carga de dados poderamos considerar que o data warehouse est
concludo. Porm, como todo sistema pressupe a entrada, processamento e sada,
devemos considerar a anlise dos dados como sada primria do data warehouse.
O modelo de dados lgico e fsico, descrito anteriormente, do data warehouse constitudo por uma viso multidimensional, em estrela. Porm, eles representam,
respectivamente, uma viso de entendimento do negcio e como os dados estaro
armazenados no DW. A modelagem multidimensional formar uma camada
intermediria entre a base de dados e as ferramentas de consulta de dados, que sero
definidas mais frente.
Especificamente nesta fase ser tratada a questo da utilizao das ferramentas
OLAP. Os principais conceitos da tecnologia OLAP so: viso multidimensional,agregao de dados, anlise exploratria e clculos. THOMSEN define que os
requisitos funcionais para OLAP possuem um formato central e perifrico. Os requisitos
centrais, raiz, necessrios ou mnimos no lado lgico incluem suporte para mltiplas
dimenses, hierarquias, frmulas dimensionais e separao de estrutura de dados e
representao. Fisicamente, o principal requisito velocidade suficiente para oferecer
suporte anlise ocasional. Qualquer linguagem ou produto que no aceite pelo menos
esses requisitos no pode, com seriedade, ser classificado como oferecendo suporte aOLAP.(2002, pg 20)
-
8/14/2019 Metodologia para Implantao de Data Warehouse
21/32
18
A caracterstica de ser multidimensional, das ferramentas OLAP, permite que
os assuntos (Data Marts) sejam analisados por diferentes vises (prismas, ngulos etc).
Esta caracterstica est intimamente ligada a anlise exploratria que permite ao analista
de suporte a deciso investigar os dados, adquirindo conhecimento, validando
suposies, anlise de tendncias e confrontando diferentes aspectos do assunto, entre
outras anlises possveis.
Se considerssemos uma base de dados ideal que, para qualquer consulta
executada, o tempo de resposta fosse sempre imediato, uma das questes mais
importantes tratadas pelas ferramentas OLAP no seria necessria. A agregao das
informaes, executada pelo processamento das ferramentas OLAP, disponibilizar
imediatamente as informaes, independente da complexidade da consulta. Se asagregaes foram feitas por demanda deve ser de forma imperceptvel para os analistas
de suporte deciso. De forma simplista as ferramentas OLAP devem calcular (agregar)
todas as combinaes e totais possveis para que as informaes sejam consultadas em
tempo hbil para tomada de deciso, independente da quantidade de dados armazenada
na base de dados do data warehouse.
Tecnicamente a fase de modelagem multidimensional onde so
desenvolvidos os cubos, definindo as vises multidimensionais nas ferramentas OLAP.Grande parte do trabalho, para esta fase, j foi executado na fase de modelagem, com a
definio das tabelas de fatos e dimenses. Contudo, necessrio configurar a
ferramenta OLAP para definir a origem dos dados para consolidao das informaes.
Algumas das regras de negcio, identificadas no levantamento de dados, estaro
explicitadas por meio de frmulas na estrutura dos cubos, como membros calculados.
Nesta interface entre a base de dados do data warehouse e a ferramenta OLAP
importante que ela seja flexvel, permitindo a adaptao de novas regras de negcio doconstante amadurecimento das organizaes. Como importante recurso para comportar
estas adequaes os SGBDs vises (view), ou seja, consultas predefinidas que so
armazenadas na estrutura do banco de dados, reduzindo assim o esforo para
manuteno dos cubos.
Portanto, o modelo multidimensional dever refletir as possveis vises e
responder a maioria das questes identificadas na fase de levantamento de dados.
Permitindo assim que os analistas de suporte a deciso executem consultas analistas On-Line.
-
8/14/2019 Metodologia para Implantao de Data Warehouse
22/32
19
4.5.ANLISE DE RESULTADOS
Esta fase pressupe que as informaes j esto disponveis para anlise. No
necessrio que todos os dados j tenham sido carregados para o data warehouse, mas
uma parte significativa que permita a avaliao dos resultados. Neste ponto do projeto o
analista de suporte a deciso tem a responsabilidade de validar as informaes contidas
no data warehouse. O analista dever observar a conformidade das informaes
disponibilizadas com a especificao produzida na fase de levantamento de dados.
Este trabalho dever ser o mais rigoroso possvel, pois a partir das informaes
contidas no data warehouse e disponibilizadas elas sero usadas para a tomada de
deciso. Uma informao errada pode causar mais prejuzos que a falta delas.
Neste ponto o analista de suporte a deciso, com o apoio do arquiteto do data
warehouse, podero identificar falhas no processo de extrao. Tambm ser possvel
qualificar as informaes obtidas a partir das bases de dados dos sistemas transacionais,
identificando campos que no foram preenchidos corretamente ao longo dos anos de
produtividade desses sistemas. A viso macro das informaes, disponibilizada pelas
ferramentas OLAP, permitir aos analistas descobrir fatos no identificveis no
ambiente transacional. Eventualmente estas anlises serviro para definio de novas
regras de negcios e requisitos para os sistemas transacionais, tais como a
obrigatoriedade do preenchimento de determinados dados ou novas regras de
integridade.
O trabalho da anlise de resultados inicia um novo ciclo no desenvolvimento
do Data Mart, obrigando ao arquiteto do data warehouse reavaliar os dados dos sistemas
de origem, ajustar a especificao e passar pelas fases de modelagem, extrao e
modelagem multidimensional para que as informaes sejam novamente analisados.
Garantir a confiabilidade das informaes do data warehouse uma tarefa
constante, mesmo aps a implementao do Data Mart. Fatos externos, adequaes a
legislao e mudanas organizacionais podem afetar de forma direta ou indiretamente o
data warehouse. A confiabilidade das informaes do data warehouse deve ser mantida
realizado validaes peridicas e ajustando os dados da base de dados constantemente.
Caso as validaes no ocorram com freqncia comum acontecer dos usurios
deixarem de consultar as informaes, tomarem decises baseadas em dados errados ou
-
8/14/2019 Metodologia para Implantao de Data Warehouse
23/32
20
fazer com que os executivos percam a confiana nas informaes de tal modo que se
determine a descontinuidade do projeto todo.
O comprometimento dos executivos e analistas de suporte a deciso
fundamental para o sucesso do projeto, garantindo confiana nas informaes econtinuidade.
4.6.VISES PR-DEFINIDAS
Grande parte das informaes j foi disponibilizada para os usurios de suporte
a deciso, atravs da utilizao das ferramentas OLAP. Porm nem todas as consultas
devem ser feitas de forma exploratria, obrigando aos usurios a pesquisa desde o
incio.
Esta fase do projeto tratar da disponibilizao de vises direcionadas e
freqentemente extradas do DW, atravs de relatrios. Existem alguns grupos de
relatrios que sero disponibilizados: relatrios gerenciais, consultas complexas,
indicadores, consultas direcionadas etc.
Em muitos casos estes relatrios so disponibilizados por meio de portais de
informao. Onde os gestores, que no dispe de muito tempo para explorar as
informaes e em grande parte dependentes do trabalho dos analistas de suporte a
deciso, podero consultar as informaes periodicamente e norteando sua equipe, de
acordo com o alinhamento estratgico da organizao.
Os relatrios gerenciais, agora obtendo os dados pelo data warehouse, com a
garantia de que a informao estar disponvel para tomada de deciso em tempo hbil,
integrada a outras vises da empresa e a verso nica da verdade. A unicidade da
informao garantir que nenhum relatrio conflitante seja apresentado aos gestores.
Num ambiente integrado algumas anlises podem ser feitas de forma orientada,
onde os analistas de suporte a deciso e os gestores podem navegar entre relatrios
obtendo o detalhe necessrio para suas concluses e observao de comportamento de
vendas, clientes, produtos etc.
Mesmo num ambiente proporcionado pelas ferramentas OLAP algumas
consultas sero muito complexas para que os analistas de suporte a deciso possam
desenvolver seus relatrios sem o auxlio do arquiteto do data warehouse. Estesrelatrios necessitam de profissionais tecnicamente preparados para utilizao de
-
8/14/2019 Metodologia para Implantao de Data Warehouse
24/32
21
funes especficas das linguagens de consulta de dados das ferramentas OLAP ou da
utilizao de ferramentas de Data Mining.
Algumas das principais questes, documentadas na especificao do
levantamento de dados, podero ser respondidas com a criao de vises pr-definidas,j que as informaes esto disponveis.
Os indicadores da empresa podero estar disponibilizados como vises
predefinidas e possivelmente alinhados com conceitos de gesto organizacionais, como
Balanced Scorecard (BSC).
A camada de vises pr-definidas poder obter as informaes diretamente da
base de dados do data warehouse ou pela configurao de consultas aos cubos.
4.7.SEGURANA DA INFORMAO
Grande parte das informaes disponibilizadas no data warehouse refletem as
vises tticas e estratgicas das organizaes, portanto nem todos podero ter acesso a
estas informaes. Esta fase deve tratar de quem pode, quem deve, como pode e por
onde as informaes devem ser consultadas.
A poltica de segurana para o ambiente do data warehouse deve ser muito
flexvel, permitindo que pessoas com perfis macro ou mais especficos possam acessar
as informaes de sua responsabilidade ou interesse empresarial.
Cada um ao seu nvel de deciso ou de anlise deve acessar a informao,
porm existiro alguns grupos especficos da organizao que devero ter acesso quase
irrestrito ao data warehouse, so as reas de: planejamento estratgico, controladoria e
inteligncia de marketing.
Deve-se ter muito cuidado ao disponibilizar canais externos, tais comoExtranets, para consultas ao data warehouse. Estes canais, se existirem, devem ser
monitorados constantemente e com altos requisitos de segurana.
Outra questo crucial para este ambiente, em relao segurana, garantir
que as informaes contidas no data warehouse caiam em mos erradas, os
concorrentes. necessrio uma poltica de segurana rgida para a equipe de
administrao e operao do data warehouse.
-
8/14/2019 Metodologia para Implantao de Data Warehouse
25/32
-
8/14/2019 Metodologia para Implantao de Data Warehouse
26/32
23
Em alguns casos manter os padres de desenvolvimento podem ser mais
interessante que obter a melhor performance possvel. Utilizar linguagens de pouco
conhecimento da equipe, ou de profissionais do mercado, pode no ser uma estratgia
segura para a administrao do data warehouse.
O data warehouse deve possuir ao menos dois ambientes similares, um de
produo e outro de desenvolvimento. Para implementaes crticas aconselhvel um
ambiente de validao dos desenvolvimentos e de performance. Os ambientes de
validao e desenvolvimento devem ter caractersticas prximas ao de produo pois
trataro do mesmo volume de dados. Outra vantagem de possuir os ambientes similares
criar uma contingncia para o ambiente de produo.
A janela de extrao de dados dos sistemas transacionais deve ter atenoespecial dos administradores. Eles devem observar a concorrncia com os ambientes
transacionais e garantindo que as informaes sejam disponibilizadas no prazo previsto
e com a periodicidade correta.
Outro aspecto importante da administrao do data warehouse a continuidade
do projeto, verificando se as regras de negcio esto em constante validao pelos
usurios e a documentao do projeto atualizada. A questo da reviso das regras de
negcio to importante que outra caracterstica dos data warehouses possuir umabase de metadados.
Alguns papis devem estar bem definidos para a equipe de manuteno do data
warehouse. Alguns deles so: arquiteto de solues, administrador de dados, analista de
suporte a deciso, analista de negcio, administrador de banco de dados,
desenvolvedores, patrocinadores do projeto. Talvez o arquiteto de solues seja a pea
fundamental para a construo e manuteno do data warehouse. Ele dever ter a viso
do todo, desde integrar os diferentes sistemas transacionais ao data warehouse a
disponibilizao dos dados para os analistas. O administrador de dados (AD) deve ser
responsvel pelos metadados, pela integrao das bases de dados e organizao dos
dados. O AD dever ter profundo conhecimento da modelagem, tanto lgica, fsica e
multidimensional. O analista de suporte a deciso dever garantir continuamente que as
informaes esto corretas, comunicando as mudanas das regras de negcio e a viso
do negcio. Seu alinhamento com a equipe de administrao do data warehouse deve
ser o mais fiel possvel. O administrador de banco de dados (DBA) poder ser o mesmodo ambiente transacional, contanto que tenha disponibilidade para solucionar os
-
8/14/2019 Metodologia para Implantao de Data Warehouse
27/32
24
problemas emergenciais e entenda perfeitamente as caractersticas dos dois ambientes.
Os desenvolvedores sero responsveis pela codificao dos extratores de dados,
exigindo deles conhecimento de diferentes tecnologias para integrao com sistemas
transacionais, e pela programao dos relatrios e vises pr-definidas. Os
patrocinadores do projeto devero definir as prioridades, acompanhar o projeto e
garantir a continuidade.
6. ESTUDO DE CASO
A INFOGLOBO COMUNICAES LTDA uma empresa com abrangncia
nacional, atuando no mercado de Jornalismo. Seus principais produtos so o Jornal O
Globo, Jornal Extra, Jornal Dirio de So Paulo e Globo On-line.
Para se manter como lder de mercado a INFOGLOBO investiu, nos ltimos
dois anos, 70% dos seus recursos em Tecnologia de Informtica. Nos ltimos 10 anos,
desde 95, foram investidos 15% em Tecnologia. A principal mudana na linha de
investimento o direcionamento para o seu ambiente transacional, na implementao do
sistema de ERP da SAP. Antes os investimentos estavam voltados para a rea industrial.
Porm o montante investido anualmente manteve-se no mesmo patamar.
Contudo, o sistema no atende a todas as necessidades, principalmenterelacionadas a informaes para tomada de deciso. Porm, o ERP fundamental para a
estratgia da empresa em expanso para novos mercados. Mais recentemente focados na
Internet e outras regies.
Seu histrico de implementao de sistemas informao desde 94, com os
sistemas de informao gerenciais (SIGs). Em 96 a empresa adquiriu as licenas para o
ESSBASE 3.2, atualmente fornecido pela Hyperion. O ESSBASE uma ferramenta
OLAP, que atendia as necessidades da empresa at 99. Juntamente com esta ferramentafoi desenvolvido um sistema de EIS. Com a implantao do ERP os executivos
acreditavam que o sistema de EIS seria totalmente desativado. De fato ele foi, porm a
rea de tecnologia j estudava os conceitos de data warehouse. Observamos que, aps a
implantao do ERP, vrios controles em planilhas eletrnicas. Como conseqncia
informaes conflitantes e com critrios diferentes eram apresentadas em reunies
estratgicas.
-
8/14/2019 Metodologia para Implantao de Data Warehouse
28/32
25
Em 99, apoiado pelas reas financeira e comercial, inicio-se o projeto de
construo do data warehouse da empresa. Foram estudados os principais conceitos e
buscaram-se as ferramentas que teriam melhor custo benefcio para a empresa. Alinhado
aos objetivos estratgicos, procurou-se criar um ambiente integrado ao ERP e aos
sistemas legados, bem como outros sistemas especialistas. Os principais benefcios
trazidos pela implementao do data warehouse foram: maior segurana na informao,
disseminao da informao, compartilhamento da informao com outras reas,
confiabilidade na informao e agilidade para tomada de deciso.
O projeto comeou pela reavaliao das informaes existente, definindo assim
quais as necessidades imediatas. Este trabalho permitiu o dimensionamento da infra-
estrutura e escolha da ferramenta. A INFOGLOBO comparou as principais ferramentasdo mercado. Foram avaliadas: o BW, Business Object (BO), SQL Server, Cognos, IQ
Multiplex e Essbase 6.0. Foram avaliadas as seguintes caractersticas: integrao com o
ambiente tecnolgico da empresa, modelo de dados pr-definido, ferramenta prpria de
ETL, ferramenta de modelagem multidimensional, estrutura de armazenamento fsico
da base de dados OLAP, complexidade de administrao, custo de consultoria, custo de
software do servidor, custo de licenas de usurios e custo de manuteno anual.
Considerando a infra-estrutura tecnolgica e os custos de consultoria, software,licena de usurio e manuteno anual, a empresa optou pelo SQL Server. Os
conhecimentos da equipe na ferramenta eram mnimos e o mercado ainda no
acreditava na ferramenta. Sendo considerado por muitos com um banco de dados no
confivel para grandes bases de dados.
O SQL Server atendia a todos os requisitos tcnicos, por possuir as
caractersticas: repositrio de dados (SGBD), integrao com outros sistemas (ETL),
viso multidimensional, consolidao de dados, front-end integrado e escalabilidade.
Aps a definio e configurao da infra-estrutura necessria, partiu-se para
um projeto piloto de implantao dos Data Marts da rea financeira, que j era muito
bem atendida pelo EIS com ESSBASE. Com a implantao do Data Mart da rea
financeira obtivemos timos resultados de performance, modificando completamente a
dinmica dos processos da rea. Os Data Marts existentes na plataforma do ESSBASE
foram migrados para o novo ambiente, considerando os conceitos de data warehouse.
-
8/14/2019 Metodologia para Implantao de Data Warehouse
29/32
26
Com o sucesso da rea financeira e confiana na arquitetura do data
warehouse, buscou-se novas reas de interesse estratgico para a empresa. Neste ponto
ficou evidente a necessidade de uma metodologia que permitisse a expanso do data
warehouse de forma consistente e eficiente. Aliado s tcnicas dos papas do data
warehouse, como INMON e KINBALL, foi definida a metodologia que traria a
eficincia para atender a outras reas.
Seguindo a metodologia, com as fases descritas neste trabalho a empresa pode
expandir o data warehouse para as reas de publicidade, venda avulsa do Dirio de So
Paulo, jurdico e suprimentos. Recentemente foi feito um estudo para avaliao da infra-
estrutura adotada, com auxlio de consultoria da Microsoft, para garantir a
escalabilidade da arquitetura adotada.Para identificar novas oportunidades de implementao de novos Data Marts
foi definida uma mtrica que indique a prioridade para o desenvolvimento do projeto.
Nesta mtrica so levados em considerao os seguintes parmetros: importncia da
rea para o negcio, complexidade, disponibilidade da informao, conhecimento da
equipe e dos analistas de suporte a deciso.
Atualmente esto em andamento os projetos dos Data Marts de assinante,
venda avulsa dos produtos do Rio de Janeiro, distribuio e recursos humanos. Estesprojetos foram indicados para os executivos da empresa, considerando a mtrica de
identificao de oportunidades.
Com a implantao dos primeiros Data Marts foi passvel avaliar o impacto no
negcio, verificando a dinmica das reas atendidas. Na rea de planejamento e controle
foi observado que o processo oramentrio ficou mais gil e mais detalhado. Permitindo
que a rea execute simulaes a cada hora, quando s era possvel fazer uma
consolidao por dia e totalmente dependente da rea de tecnologia para executar o
processo. Na rea de contabilidade societria permitiu-se que o prazo de fechamento
fosse reduzido de 6 para 2 dias. Com isto, os executivos puderam melhor avaliar os
prazos de pagamento dos fornecedores, melhorando o controle do fluxo de caixa da
empresa.
Antes da implantao do Data Mart da rea de publicidade, ocorriam
problemas de concorrncia no SAP, entre a captao de anncios e jobs que eram
executados, durante o dia para, para anlise histrica das vendas. Com a implantao
-
8/14/2019 Metodologia para Implantao de Data Warehouse
30/32
27
deste Data Mart, a rea passou a poder executar anlises dos melhores clientes, de
diferentes formas: por produto, canal, ramo de atividade dos clientes, unidade de
negcio etc. No ERP s era possvel executar uma nica consulta de ranking de
anunciante por dia, que demorava 6 horas de processamento. Atualmente a execuo
deste processo no DW dura 2 minutos. A captao de anncios no aumentou por
conseqncia disto, porm foi possvel reduzir os investimentos de hardware para o
ambiente do ERP. Atualmente a rea de publicidade dependente do DW para tomada
de deciso, sendo necessrio um monitoramento de falhas e correo imediata caso
ocorra algum problema.
Tambm foi possvel melhorar a anlise de risco, com a viso macro dos
problemas relacionados com aes judiciais contra a empresa. Neste trabalho foinecessrio que antes da implementao do Data Mart fosse desenvolvido um sistema,
mesmo que simples, para o controle do processos, que antes eram feitos em planilhas
eletrnicas. Atualmente a rea pensa em reavaliar o sistema transacional para melhorar
o controle das provises.
Mesmo considerando a confiana nas ferramentas adotada a empresa estuda a
possibilidade de mudana da ferramenta para o BW, por consider-la mais integrada as
ferramentas de ERP e CRM. Contudo, as informaes, principal produto do datawarehouse, esto sendo organizadas para uma possvel integrao com outras
tecnologias.
7. CONCLUSO
Fundamentalmente as tcnicas foram essenciais para a definio da
metodologia. A experincia da aplicao da metodologia tambm foi essencial para que
ela realmente se mostrasse eficiente na implementao e na expanso de projetos dedata warehouse.
Fica evidente tambm que os dados e, conseqentemente, as informaes
devem ser armazenados e organizados de forma independente das ferramentas
utilizadas. Sendo assim a metodologia se enquadra a este requisito bsico do conceito de
data warehouse.
Uma das questes polmicas do conceito de data warehouse por se tratar de
um projeto utpico, pois criar uma fonte de dados nica para tomada de deciso pode
-
8/14/2019 Metodologia para Implantao de Data Warehouse
31/32
28
no se aplicar s condies da realidade. As instituies esto em constante mudana,
com novas implementaes de sistemas transacionais, mudanas de plataforma,
mtodos de trabalho diferentes e mudanas de estrutura organizacional. Porm os
benefcios da implementao do data warehouse so, comprovadamente pelo mercado,
inegveis. Diz-se que um projeto de data warehouse no tem fim, pois ele est em
constante evoluo para acompanhar as mudanas.
Contudo a metodologia ainda requer um aperfeioamento, com definies mais
rgidas das documentaes e especificaes.
8. LISTA DE ABREVIAES E SIGLAS
BIBusiness Intelligence
BSCBalanced Scorecard
BMPBusiness Performance Management
CASEComputer Aided Sotware Engineering
CLDSCiclo de vida baseado em dados
CPMCorporate Performance Management
CRMCustomer Relationshio Management
DBAData Base Administrator
DDLData Definition Language
DMLData Manipulation Language
DRLData Representation Language
DSSDecision Support Systems
EISExecutive Information System
EPMEnterprise Performance Management
ERPEnterprise Resource Planning
ETLExtract Transform and Load
MERModelo Entidade-Relacionamento
OLAPOn-Line Analytical Processing
-
8/14/2019 Metodologia para Implantao de Data Warehouse
32/32
29
OLTPOn-Line Transaction Processing
SDLCCiclo de vida do desenvolvimento de sistemas clssicos
SGBDSistema Gerenciador de Bando de Dados
SQLStructured Query Language
9. REFERNCIAS BIBLIOGRFICAS
Carvalho, Lus Alfredo Vidal deDatamining: a minerao de dados no marketing,medicina, economia, engenharia, e administrao.
Editora rica2001
Inmon, William H.Como Construir o Data WarehouseEditora Campos1997
Jacobson, ReedMicrosoft SQL Server 2000 Analysis Services Step by StepMicrosoft Press - 2000
Kimball, RalphData Warehouse ToolkitMakron Books1998
Machado, Felipe Nery RodriguesTecnologia e Projeto de Data Warehouse
Editora rica - 2004Madruga, RobertoGuia de Implementao de Marketing de Relacionamento e CRM
Editora Atlas2004
Nolan, Sean e Huguelet, TomSQL Server 7.0 Data Warehousing TrainingMicrosoft Press1999
Pyle, DorianData preparation for data miningAcademic Press1999
Seidman, ClaudeData Minnig with MS SQL Server 2000Microsoft Press2001
Swift, RonaldCRM, customer relationshio management: O Revolucionrio Marketingde Relacionamento com o Cliente
Editora Campus2001
Thomsen ErikOLAP: Construindo sistemas de informaes multidimensionaisEditora Campus2002
Ville, Barry deData Mining: integrated business for e-commerce and knowledge
managementDigital Press2001