tópicos especiais em bancos de dados multidimensionados(1)
DESCRIPTION
BANCO DE DADOS MULTIDIMENSIONAISTRANSCRIPT
• Dimensão: conjunto de dados de um campo armazenado (coluna)
• Agregação: análise conjunta de duas ou mais dimensões, de forma a gerar uma solução para um determinado problema. Uma das dimensões deve estar, neces- sariamente, relacionada ao aspecto temporal
• Fatos: são formados pelo conjunto de dimensões utilizada para tentar solucionar um determinado problema. No exemplo (cubo Meses X Região X Produto), Re- gião, Produto e Mês compõem a tabela de fatos
• Medidas ou Métricas: são cálculos obtidos através da análise dos valores individu- ais das medições
Data Warehouses
• Um Data Warehouse é um conjunto de dados armazenados de forma dispersa (ou distribuída) que, quando tratados individualmente, Podem se comportar como um sistema transacional. No entanto, quando analisados em um contexto global, sus- tentam um sistema de apoio à decisão;
• A adoção de um Data Warehouse está associado a um conjunto de objetivos a se- rem alcançados:
• Um Data Warehouse Deve fazer com que as informações armazenadas sejam facilmente acessíveis;
• Um Data Warehouse Deve apresentar as informações de forma consistente;
• Um Data Warehouse Deve ser estruturado de forma a ser tolerante a mudan- ças
• Um Data Warehouse seguir como elemento fundamental para a melhoria das tomadas de decisão
• Além disso, alguns cuidados devem ser tomados durante a estruturação de um Data Warehouse:
• Tratamento de várias fontes de dados; é confiável?
• Tratamento dos dados em relação ao contexto; manteve a integridade?
• Ajuste do nível de detalhamento dos dados; influência na quantidade de meta dados utilizados
• Tratamento de valores nulos
• Necessidade de inclusão de componentes temporais
Métodos de Construção de Data Warehouses
• Abordagem Top-Down: É adotada a partir da visão geral dos dados da empresa, isto é, quando não é conhecido o objetivo específico pelo qual se dá a necessida- de de construção do Data Warehouse. Pode ser implementado em um Tempo rela- tivamente baixo com o custo de uma baixa precisão;
• Abordagem Bottom-Up: neste caso, o Data Warehouse É construído de maneira gradual, à medida que (Data Marts)(?), cada um com um objetivo específico, são agregados. Com esta abordagem, obtém-se um Data Warehouse com informa- ções mais consolidadas, Com um custo maior de tempo para sua construção
Componentes e Etapas de Construção de um Data Warehouse
• Componente
• Sistema Operacional de Origem: sistema de onde são obtidos os dados trans- nacionais
• Etapas
• Área de preparação dos dados: etapa onde os dados são pré-processados (agre- gados, ordenados, combinados, entre outros). Momento em que os dados deixam de ser apresentados de uma forma transacional
• Área de apresentação dos dados: etapa onde os dados são associados e Estrutu- rados de acordo com O contexto (Data Marts, por exemplo). Nesta etapa, ocorrem também as eventuais associações entre os Data Marts
• Área de acesso aos dados: Etapa onde são usadas ferramentas de acesso aos dados e de geração dos relatórios a partir do Data Warehouse
Processos de Definição dos dados de um Data Warehouse
• Parte 1 - determinar Os requisitos da informação
• Identificar e analisar o que possível de se alcançar com os dados existentes no sistema
• Identificar por meio de " usuários chave "As questões que devem ser respondi- das e as métricas a serem utilizadas; decompor as métricas em sub compo- nentes para permitir uma aplicação mais específica
• Mapear estes sub componentes em relação ao modelo de informações adota- do (regra de negócio)
• Parte 2: de desenvolvimento iterativo e revolucionário:
• Começar por um assunto específico, voltado para um determinado subproble- ma
• Continuar agregando outros assuntos de acordo com Os requisitos da organi- zação, No que se refere à informação, e não à tecnologia;
• Realimentação: ajustes do modelo são feitos a partir dos resultados obtidos em execuções anteriores
• Visualização rápida do resultado(fácil entendimento);
• Os requisitos especificados pelo usuário são refinados a cada iteração
• Como base na arquitetura de um Data Warehouse e no os processos de definição dos seus dados, a sua população é realizada Segundo três passos (ETL):
1. Extract: obtenção dos dados a partir do "sistema operacional de origem” (transa- cional);
2. Transform: adaptação os dados para atender aos requisitos especificados para o Data Warehouse
3. Load: inserir Os dados "No sistema em questão”
Estudo de caso teórico: transporte aéreo (capítulo 11 traçoKimble, 2a ed.)
• Motivação: logística, roteamento de pacotes, utilização de algoritmos
• Questões a serem respondidas:
• Quais voos são mais utilizados pelos clientes?
• Quais aviões Os clientes preferem?
• Quais os valores pagos por viagem?*
• Como os clientes gastam suas milhas?
• Quanto tempo duram as viagens dos clientes?
• O Cliente prefere voo direto ou com conexão?
* -> nível granular de informação (viagem -> trecho (viagem entre 2 trechos sem es- cala) -> seguimento (parte da viagem realizada em uma única aeronave) )
Esquemas Lógicos de Data Warehouse
• Um esquema (scheme) é a forma como as tabelas de fatos E as dimensões estão logicamente estruturadas para compor As informações apresentadas por um Data Warehouse
• Os dois principais esquemas são:
• Estrela: esquema onde há uma tabela de fatos centralizada diversas dimen- sões estão associadas a ela
• Snowflake: consiste de um sistema que se aproveita da normalização existente nas dimensões, tornando o modelo mais complexo, Porém com menor custo necessário para realizar a modelagem dimensional.
Obs: O esquema Snowflake É Uma abordagem não desnormalizada do esquema Estrela, e vice-versa
• Outro esquema: Fact Constelation: esquemas Estrela associados através de suas tabelas fatos
Correção da prova:
1. O uso da dimensão temporal permite a análise histórica dos dados. Desta forma, é possível analisar o passado para buscar previsões mais precisas do futuro.
2. Letra C, pois:
A. Falso - os Data Warehouses são conhecidos pela consistência de suas informações, não pela volatilidade
B. Verdadeiro
C. Verdadeiro (ETL)
3. FALSO - O modelo Estrela é uma abordagem desnormalizada; o modelo Snow- flake é que possui abordagem não desnormalizada.
4. Letra A (OLAP)
5. Letra B, pois:
1. Falso - OLAP trabalha sobre DADOS para produzir o conhecimento!
2. Verdadeiro
3. Falso - os Data Marts utilizam sim dados externos, o que obriga a limpeza dos dados antes da carga ao Data Warehouse
4. Verdadeiro (Abordagem Bottom-up)
6.6.1. OLTP - Distribuição lógica dos dados armazenados com o objetivo de
privi- legiar escritas concorrentes
6.2. OLAP - utiliza-se da idéia de agregação de dados com objetivo de minimi- zar o uso de junções entre tabelas, maximizando-se assim o resultado de consultas sobre os dados
Mineração de Dados (Data Mining)
- Motivação: grande volume de dados existentes em diversas áreas estão à disposi- ção para a análise e extração de resultados que podem ser aproveitados para apresentar maiores benefícios para as organizações.
- Teorema de Bonferroni: existem muitas conclusões possíveis de se obter, algumas serão verdades puramente por razões estatísticas, sem nenhuma validação física.
- No contexto computacional, mineração de dados está relacionada ao processo de descoberta de extração de índices com base em padrões dos dados
- As técnicas de mineração de dados são muito utilizadas com o objetivo de definir perfis para determinados ramos, tais como segurança, logística, economia, entre outros
- Para utilizar a mineração de dados de forma a tirar melhor proveito dos dados, deve-se utilizar um sistema OLAP, com estruturação dos dados na forma de Data Warehouses
- A mineração de dados consiste na realização prévia de um conjunto de etapas para que as técnicas escolhidas possam ser aplicadas de forma plena. São elas:
- (1)Reunião dos dados de acordo com o padrão especificado
- (2)Tratamento tostados: eliminação de erros
- (3)Extração de características: Operação somente dos atributos interessantes sobre os dados
- (4)Descoberta extração de padrões: etapa onde de fato ocorre a mineração de dados
- (5)Visualização do resultado
- (6)Análise dos resultados: somente os resultados válidos são considerados
- Classes de tarefa de mineração de dados consistem da estruturação das etapas de mineração em conjuntos relacionados
- clusterização (agrupamento)(1 e 3): envolver as etapas responsáveis pelo des- cobrimento de grupos de estruturas de dados que, de alguma forma, são simi- lares
- Classificação (4, 1 e 3): conjunto de tarefas responsáveis por generalizar estrutu- ras conhecidas, permitindo aplicar novas estruturas (rótulos) a Estes dados.Exemplo: classificar um e-mail como legítimo ou spam
- Regressão(2): conjunto de tarefas responsáveis por modelar os dados com a me- nor quantidade de erros possíveis, de acordo com o padrão estabelecido
- Associação de aprendizagem(6): conjunto de etapas responsável por estabelecer a relevância entre os grupos de dados obtidos. Exemplo: identificação dos pa- drões de compra de clientes para oferecer novos produtos.
Técnica -> Classe -> Tarefa (Etapa)
Introdução às Técnicas de Mineração de Dados
- De uma forma geral, as técnica de mineração de dados que serão estudadas a seguir podem ser classificadas como técnica de:
• Aprendizado Supervisionado (preditiva): a categorização dos registros é realizada em função de uma variável alvo pré-definida, necessitando assim de uma classifi- cação prévia. Estas técnicas estão associadas à uma simulação de cenários futu- ros especificados na forma da variável alvo
• Aprendizado Não-Supervisionado (descritivo): não há a presença de uma
variável alvo, de forma a não permitir a predição de cenários. Por outro lado, é possível a descrição de um conjunto de opções com base nos registros minerados, de forma a permitir a escolha do que se apresentar mais relevante.
Técnicas de Mineração de Dados
1- Mineração de Itens Frequentes
- técnica dividida em duas etapas
• Criação de um conjunto de itens frequentes de ocorrência, respeitando um valor mínimo para a frequência dos itens;
• Geração de regras de associação para a mineração deste conjunto
- Definição das medidas de suporte e confiança
• Suporte: percentual de registros que se encaixam na regra (registros associados);
• Confiança: percentual de registros que atendem exatamente à regra (registros exatos)
Exemplo: pessoas que compram pão e manteiga
• Suporte: Pessoas que compram pão e manteiga, mas também compram LEITE
• Confiança: pessoas que compram APENAS pão e manteiga
2- Árvores de Decisão
• Método de classificação definido como um fluxograma em forma de árvore
• Cada vértice não-folha da árvore representa um teste feito sobre um valor
• Cada nível da árvore pode envolver condições com diferentes dados
• As arestas entre os vértices representam os valores do vértice superior
• Os vértices-folha indicam a categoria à qual o registro pertence
• A sequência seguida da raiz até os vértices-folha representam as decisões que podem ser convertidas em regras de classificação
3- Classificação Bayessiana
• É uma técnica estatística (probabilidade condicional) baseada no teorema de Bayes. De acordo com este teorema, é possível encontrar a probabilidade de um evento ocorrer dada a probabilidade de outro evento que já ocorreu. Em sua forma convencional (Naive Bayes), a técnica considera que não há relação de depen- dência entre os atributos analisados. No entanto, existem variações da técnica que consideram tal dependência.
4- Classificação Baseada em Regras
• Considera a estrutura [ SE condição ENTÃO conclusão ]
• Tipo de construção geralmente obtido a partir de árvores de decisão
• É mais simples de ser interpretada do que árvores de decisão quando são utiliza- das estruturas com muitas variáveis (árvores N-árias)
• O processo de classificação se torna mais simples do que através de decisão
5- Redes Neurais
• Técnica originada da Psicologia e da Neurobiologia, consistindo na simulação do comportamento de neurônios
• De maneira geral, uma rede neural pode ser vista como sendo um conjunto de unidades de entrada (conjunto de dados) e saídas (conclusões), conectadas atra- vés de camadas intermediárias (aprendizado)
• Cada ligação (aresta) entre as unidades possui um peso associado
• Durante o processo de aprendizagem, os pesos são ajustados de forma a classifi- car corretamente os objetos
• Quanto maior o período de treinamento(iterações intermediárias), maior a proba- bilidade de uma classificação mais precisa
• Dependendo da quantidade de iterações, é possível que a interpretação do resul- tado se torne extremamente complexa devido à baixa relação entre as entradas e as saídas
• No entanto, como resultado, uma rede neural pode apresentar resultados não pre- vistos e para os quais não havia sido treinada
- Algoritmos genéticos (preditiva)
Ideia que explora a teoria da evolução aplicada ao aprendizado a partir da analise de dados históricos
Consiste de um estágio inicial, onde uma população (conjunto de dados) é definida de maneira aleatória;
Uma vez estipulado o objetivo, a técnica associa os dados da população inicial entre si e com outros dados correlatos, de maneira a criar novas gerações mais “fortes” ou mais “fracas” do que a anterior;
As gerações mais “fracas” são eliminadas a cada nova interação; A técnica segue sendo executada até que alguém resultado seja obtido ou até
que algum outro critério de parada seja atingido;
- Conjuntos aproximados (descritiva)
Técnica que é capa de realizar classificações mesmo com dados imprecisos ou errados;
A técnica trabalha com a ideia de classes de aproximação para a criação das categorias;
Exemplo ; admite-se a existência de um grupo de dados que forma uma classe C. Esta classe é vizinha de outras duas classes (conjunto de aproximação).
1) Conjunto de alta aproximação de C => contem registros que não podem ser definidos com não pertencentes à classe C
2) Conjunto de baixa aproximação de C => contem registros que certamente pertencem a classe C
Um novo registro é classificado de acordo com a sua aproximação a um dos dois conjuntos.
- Conjuntos nebulosos (Fuzzy set) : (descritiva)
As técnicas baseadas em regras de classificação apresentam problemas ao tratarem valores contínuos, pois necessitam de pontos de corte bem definidos;
A ideia dos conjuntos nebulosos é tratar os valores discretos de forma mais analítica, de maneira a considerar outros aspectos para realizar a classificação;
Com esta aplicação é possível inserir graus de flexibilidade onde antes as opções admitiam apenas valores “verdadeiro” e “falso”;
1) Pode ser chamado também de agrupamento e como o nome já diz diferente de classificar, ele agrupa os dados sem se focar nos atributos que os definem
2) a
3) Errado, pois na mineração de dados não é obrigatório utilizar de um sistema olap e estruturar o data warehousing
4) A) são técnicas que se utilizam de uma variável e podem através de uma simulação projetar cenários futuros
5) Mineração de Itens Frequentestécnica dividida em duas etapasCriação de um conjunto de itens frequentes de ocorrência, respeitando um valor mínimo para a frequência dos itens;
6) b