integração de dados web e warehouse aluno:bruno correia – bcs2 data grid

32
Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Upload: internet

Post on 19-Apr-2015

106 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Integração de Dados Web e Warehouse

Aluno:Bruno Correia – bcs2Data grid

Page 2: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Introdução e Origem– Metáfora: Power grids -> grids.• Poder Computacional.

– Computação em Grid:• É uma forma de computação distribuída.• Visa compartilha poder computacional,

armazenamento e acesso de informações.

Page 3: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Introdução e Origem– Surgiu com a necessidade das aplicações

cientificas (áreas da física e biologia molecular).• Simulação populacional.• Estudos de proteínas.• Modelagem climática.

– Seu objetivo é tratar uma grande quantidade de informações em simulações ou experimentos.

Page 4: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Introdução e Origem– Necessidade de resolução rápida de problemas

com grande quantidade de dados.

– Área de HPC (High Performance Computer).

– Avanço de softwares e hardwares permite a possibilidade de almejar objetivos maiores.

Page 5: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Conceitos– Grid Computacional (do inglês Grid Computing) é

um modelo computacional capaz de processar uma alta taxa de processamento divididos em diversas máquinas, podendo ser em rede local ou rede de longa distância, que em conjunto formam uma máquina virtual que está alocada em uma ou várias tarefas.

Page 6: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Conceitos– Data grid se baseia na tecnologia de grid

computacional mas não é necessário ser um.– Data grid é uma plataforma para “comunidades

científicas” que necessitam acessar, transferir, compartilhar, processar e gerenciar grandes quantidades de dados distribuídos geograficamente.

Page 7: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Pontos de estudo:– Proliferação de dados

• Como a aplicação distribui os dados.

– Distribuição geográfica• Como é distribuido a informação geograficamente.

– Gerenciamento de réplicas• Cópias de um único dado em outras fonte.

– Autonomia das fontes• Controle dos recursos das fontes, políticas de acesso.

Page 8: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Pontos de estudo:– Recursos limitados

• Alocação de atividades para ponto com pouca recursividade.

– Paralelização• Problemas de paralelização no gerenciamento da informação.

– Imagem atrasada• Dados que teoricamente estaria em outra fonte já foi modificado.

Page 9: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Topologia e Arquitetura– Hierárquica

• tem uma fonte central de dados, os quais devem ser distribuídos através

de colaboração pela rede.

– Federacional• esta topologia prevalece em Data Grids criados que querem compartilhar

informações presentes em bases de dados já existentes.

– Híbrida• esta topologia combina as topologias explicadas anteriormente, de modo

a adaptar os modelos de acordo com as características específicas do

Grid.

Page 10: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Topologia e Arquitetura– Hierárquica

Page 11: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Topologia e Arquitetura– Federacional

Page 12: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Topologia e Arquitetura– Híbrida

Page 13: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Cyberinfrastructure

– Se trata da tecnologia de informação (de suporte a aplicação), que o sistema precisa oferecer para dar ao usuário uma infra-estrutura. Alguns desses itens: virtualidade, compartilhamento de recursos e colaboração das fontes.

Page 14: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Ferramentas

– Criação de softwares que estejam utilizando a ontologia e o data grid de maneira eficiente.

– Esses precisam ser especializados na área, permitindo o usuário manipulação profunda do gerenciamento e análise dos dados para que faça justiça a co-colaboração dos dados.

Page 15: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Informações (data)

– Confiança no usuário do data grid é necessária.

– O compartilhamento de informações não (deveria ser) são reguladas.

– Qualquer tipo de mídia pode trafegar e também pode ser manipulada.

Page 16: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Integração de dados

– Além de lidar com quantidade imensa de dados é preciso conseguir distribuir entre os bancos de dados contando com a heterogeneidade dos dados.

– A consulta pode precisar da junção de vários bancos de dados relacionais diferentes, nas ontologias, nas ordenação e agregação no resultado das consultas ou nas formas de coleções de informações extraídas de ficheiros de imagem ou outro tipo de arquivos.

Page 17: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Integração de dados

– Capacidade de navegar sobre os vários esquemas de dados (incluir aqui características OLAP) de maneira flexível, escalável e poderosa.

Page 18: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Ontologia

– Todos as fontes precisam conhecer no mínimo uma ontologia (Complexidade e integridade)

Page 19: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Colaboração entre fontes

– Precisa do auxilio da Infra-estrutura para dessa rede para promover a colaboração entre todas as fontes de dados

– Problemas de grande escala, escalabilidade e aplicações que possam utilizar esses dados e suas heterogeneidades

Page 20: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Fatores relacionados ao Gerenciamento de Dados:

– Meta-dados• Como, quando e por quem um conjunto particular de dados foi coletado,

e como os dado se encontram formatados.

• Estes dados são gerenciados por um serviço de gerenciamento de meta-dados, através de catálogos contendo nomes e localizações de arquivos replicados, históricos de erros e padrões de busca dos dados e ainda informações sobre a configuração do Data Grid: estado da rede, switches, clusters, nós e softwares.

Page 21: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Fatores relacionados ao Gerenciamento de Dados:

– Acesso aos Dados• Heterogeneidade dos repositórios é um dos grandes problemas. Por isso

criar um identificador ou algum tipo de processo que catalogue, facilita na hora de trazer para o grid um único dado, sem repetições.

• A maneira de acessar os dados é transparente para os aplicativos que usam o Data Grid.

Page 22: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Fatores relacionados ao Gerenciamento de Dados:

– Segurança• Garante segurança nas transações efetuadas nos Data

Grid.

• Estratégias de replicação síncrona.

• Nível de acesso dos dados.

Page 23: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Fatores relacionados ao Gerenciamento de Dados:

– Replicação• Estratégia na qual arquivos idênticos são disponíveis

em vários locais diferentes do ambiente Data Grid, pensando em tempo de resposta menor.• Tolerância a falhas, disponibilidade de dados e meta-

dados.

Page 24: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Fatores relacionados ao Gerenciamento de Dados:– Replicação• Problema de copiar os dados entre as fontes

– Velocidade e esquemas de bancos.

Page 25: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Fatores relacionados ao Gerenciamento de Dados:– Otimização da busca• A busca pode ser otimizada ao se escolher uma cópia

que minimize o tempo de acesso ao dado.

• Maneiras de mostrar a busca.

• Sobrecarregamento do servidor.

• Largura de banda, distância e tráfego no Grid.

Page 26: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Projetos– Biomedical informatics Research Network ( BIRN )

• is a geographically distributed virtual community of shared resources offering tremendous potential to advance the diagnosis and treatment of disease.

• hosts a collaborative environment rich with tools that permit uniform access to hundreds of researchers, enabling cooperation on multi-institutional investigations.

• synchronizes developments in wide area networking, multiple data sources, and distributed computing.

Page 27: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Projetos– Oracle and Tangosol • Tangosol provides a proven reliable in-memory data

grid technology designed to meet the new demands for real-time data analytics, compute intensive middleware and high performance transactions—often referred to as Extreme Transaction Processing (XTP). Coupled with Oracle Fusion Middleware, Oracle TimesTen, and Oracle Database, the combination will create the first integrated platform that enables extreme transaction processing.

Page 28: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Projetos– GigaSpaces eXtreme Application Platform (XAP)• GigaSpaces' eXtreme Application Platform is an

application server built to scale that provides you a way to see your entire set of computers as one single, simple runtime environment in which both your processes and your data can reside, enabling predictable improvement of application performance while you increase the volume of data, transactions, and number of users, with no real need to rearchitect.

Page 29: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Projetos– Hazelcast (JAVA)

Hazelcast is a clustering and highly scalable data distribution platform for Java

• share data/state among many servers (e.g. web session sharing)cache your data (distributed cache).

• cluster your application.• partition your in-memory data.• distribute workload onto many servers.• take advantage of parallel processing.• provide fail-safe data management.

Page 30: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Estado da Arte

– Já há programas e máquinas que ofereçam suporte sustentável.

– Já existe um nicho de mercado para a área de data grid.

Page 31: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid

• Referências– http://gilda-forge.ct.infn.it/frs/?group_id=6, GridOur– http://eu-datagrid.web.cern.ch/eu-datagrid/– http://www.infn.it/indexen.php– https://gilda.ct.infn.it/video.html– http://www.bioinfogrid.eu/– http://grid.infn.it/modules/IG_history/– http://grid2win.gilda-forge.ct.infn.it/

onlineDocumentation/

Page 32: Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid

Data grid– www.nbirn.net– http://www.oracle.com/tangosol/index.html– http://www.gigaspaces.com/xap– http://www.hazelcast.com/