archiwizowanie danych i odtwarzanie bazy danych po awarii

16
Robert Wrembel Politechnika Poznańska Instytut Informatyki [email protected] www.cs.put.poznan.pl/rwrembel Hurtownie Danych i Business Intelligence: przegląd technologii 2 R.Wrembel - Politechnika Poznańska, Instytut Informatyki Architektury systemu hurtowni danych Business Intelligence Przetwarzanie OLTP vs. OLAP Wstęp do technologii BigData Tematyka

Upload: dangthu

Post on 11-Jan-2017

256 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Robert Wrembel

Politechnika Poznańska

Instytut Informatyki

[email protected]

www.cs.put.poznan.pl/rwrembel

Hurtownie Danych i Business Intelligence: przegląd

technologii

2 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Architektury systemu hurtowni danych

Business Intelligence

Przetwarzanie OLTP vs. OLAP

Wstęp do technologii BigData

Tematyka

Page 2: Archiwizowanie danych i odtwarzanie bazy danych po awarii

3 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Cele stosowania HD

1. Zapewnienie jednolitego dostępu do wszystkich danych gromadzonych w ramach przedsiębiorstwa

2. Dostarczenie technologii (platformy) przetwarzania analitycznego - technologii OLAP/BI

Business Intelligence

OLAP - On-Line Analytical Processing

klasyczna analiza danych (dane historyczne, predykcja - what if analysis)

• analiza trendów sprzedaży

• analiza nakładów reklamowych i zysków

• analiza ruchu telefonicznego

• credit scoring

• churn analysis

• customer profiling

najczęściej SQL

4 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Page 3: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Business Intelligence

BI = OLAP+

eksploracja danych

• reguły asocjacyjne, profile zachowań

analiza tekstów (Facebook, Tweeter, ...)

• hot topics, bezpieczeństwo narodowe

analiza sieci powiązań

• liderzy, zależności

analiza logów przeglądarek

5 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

6 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

OLTP a OLAP

użytkownik

funkcja

dane

aplikacje

dostęp

transakcja

l. przetwarzanych rek.

l. użytkowników

DB size

metric

"zwykły"

bieżące operacje, kluczowe dla działania firmy

bieżące, elementarne

powtarzalność działań

odczyt/zapis

krótka

kilka, kilkadziesiąt

kilkudzies., tysiące, setki tys.

kilka - setki TB

przepustowość (l. transakcji w jednostce czasu)

analityk

wspomaganie decyzji

elementarne, zagregowane, historyczne

ad hoc

odczyt

długa (godziny)

miliony lub więcej

kilku, kilkunastu

> setki TB

czas odpowiedzi

OLTP OLAP

Page 4: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Aplikacje BI

Zapytania ad-hoc (okolo 10% aplikacji firmowych)

prosty interfejs prezentacji wyników

obliczenia ad-hoc

drill-down, drill-accross

Raporty firmowe (około 90% aplikacji firmowych)

zaawansowany układ graficzny

biblioteka predefiniowanych raportów

subskrypcja raportów, harmonogram odświeżania raportów i ich dystrybucji

uprawnienia użytkowników do raportów

7 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Aplikacje BI

Dedykowane aplikacje analityczne

analiza przychodów i promocji

przewidywanie trendów, symulacje

zawierają specjalizowane algorytmy dla dziedziny zastosowań

Pulpity (dashboards), karty wynikowe (scorecards), kokpity menadżerskie (management cockpits)

interaktywny interfejs

prezentacja zbiorcza najważniejszych danych

miary jakości przedsięwzięcia (KPI - key performance indicators)

alerty

8 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Page 5: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Aplikacje BI

Eksploracja danych

złożone obliczeniowo algorytmy

dedykowane algorytmy dla dziedziny zastosowań

wizualizacja wyników

9 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Użytkownicy

Aktywni: 10% wszystkich użytkowników systemu BI

Równocześnie pracujący: 1% użytkowników systemu BI

10 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

storyborads

Page 6: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Wielkość systemu

Mały system HD

HD: kilkaset MB

kilkadziesiąt tabel

kilka mln rekordów w tabeli faktów

300 użytkowników

kilkadziesiąt raportów, kilka kostek

Duży system HD

HD: kilkaset TB

kilkaset tabel

kilkaset mln rekordów w tabeli faktów

kilka tysięcy użytkowników

ponad 1000 raportów, kilkaset kostek

11 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Business Intelligence

Dwie kategorie danych

wewnątrzfirmowe

zewnętrzne (Internet)

Dwie różne architektury/technologie analizy danych

klasyczne

BigData

12 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Page 7: Archiwizowanie danych i odtwarzanie bazy danych po awarii

13 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Architektura 1 (podstawowa)

HURTOWNIA

DANYCH

model wielowymiarowy

dane elementarne i

zagregowane

ŹRÓDŁA DANYCH WARSTWA POŚREDNIA OPROGRAMOWANIE ETL

HURTOWNIA DANYCH WARSTWA ANALITYCZNA

Zalety

dane zintegrowane (spójna struktura i wartości)

szybkość dostępu do danych

niezależność od awarii źródeł

Wady

redundancja danych

odświeżanie danych

Ekstrakcja

Transformacja

Czyszczenie

Agregacja

14 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Architektura 2

Ekstrakcja

Transformacja

Czyszczenie

Agregacja

HURTOWNIA

DANYCH

model wielowymiarowy

dane elementarne i

zagregowane

ŹRÓDŁA DANYCH WARSTWA POŚREDNIA OPROGRAMOWANIE ETL OPERACYJNA SKŁADNICA DANYCH

HURTOWNIA DANYCH

dane znormalizowane

(3NF)

dane elementarne

możliwość

przeszukiwania/analizow

ania

WARSTWA ANALITYCZNA

Page 8: Archiwizowanie danych i odtwarzanie bazy danych po awarii

15 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Architektura 3

Ekstrakcja

Transformacja

Czyszczenie

Agregacja

HURTOWNIA

DANYCH

Hurtownie

tematyczne

ŹRÓDŁA DANYCH HURTOWNIA DANYCH

model wielowymiarowy

dane elementarne i

zagregowane

WARSTWA POŚREDNIA OPROGRAMOWANIE ETL OPERACYJNA SKŁADNICA DANYCH

dane znormalizowane

(3NF)

dane elementarne

możliwość

przeszukiwania/analizow

ania

WARSTWA ANALITYCZNA

16 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

HD Allegro

C. Maar, R. Kudliński: Allegro on the way from XLS based controlling to a modern BI environment. National conference on Data Warehousing and Business Intelligence, Warsaw, 2008

Page 9: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Architektura ELT

17 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

ŹRÓDŁA DANYCH WARSTWA ANALITYCZNA

HD ODS

T+L

E+L

Architektura ELT

Efektywność

dane w bazie danych możliwość przetwarzania za

pomocą dedykowanych języków (PL/SQL, SQL PL, Transact SQL)

jeden serwer dla ODS i HD większe obciążenie

Data provenance

Drill through

18 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Page 10: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Experiment I

P. Wróblewski, M. Wojdowski: Implementacja i porównanie wydajności architektur ETL i ELT. Master thesis, Poznan University of Technology, 2014

Data sources

Internet auctions

Oracle11g (Object-Relational model)

MySQL

PostgreSQL

XML

a collection/table composed of 11 attributes

Data warehouse: Oracle11g

19 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Experiment I

DW schema

20 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Page 11: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Experiment I

Transformations

dimensions

fact table

Tools and architectures

ETL Oracle Data Integrator (ODI)

• ETL in a staging area on a separate server

ELT ODI

• TL in a staging area on the same server as a DW

ELT ODI + materialized views (MVs)

• TL in a staging area on the same server as a DW

ELT stored packages (SPs)

• TL in a staging area on the same server as a DW

ELT SPs + MVs

• TL in a staging area on the same server as a DW

21 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Experiment I

22 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

ela

pse

d t

ime

ET

L +

(M

V c

rea

tio

n)

[se

c]

# of rows

Page 12: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Experiment II

K. Prałat, T. Skrzypczak, G. Stolarek: Efektywność ETL i ELT. Postrgaduate studies, term project, Poznan University of Technology, 2014

Data source

flight and weather data in the US, from 1986 until 2008

6 tables in Oracle11g

Data warehouse: Oracle11g

23 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Experiment II

Data source schema

24 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Page 13: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Experiment II

DW schema

25 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Experiment II

Architecture

26 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Page 14: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Experiment II

ETL Informatica

ELT Informatica (load), DB views (transform)

27 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

28 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Systemy komercyjne

Tradycyjne

Oracle11g, Hypersion Essbase - Oracle Corporation

DB2 UDB - IBM

Sybase IQ - Sybase

MS SQL Server - Microsoft

SAP Business Warehouse - SAP

Teradata - Teradata

Main memory (in-memory)

Netezza - IBM

Exadata - Oracle

SAP Hana - SAP

Teradata DW Appliance - Teradata

Page 15: Archiwizowanie danych i odtwarzanie bazy danych po awarii

Gartner Report

29 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Gartner Report

http://www.gartner.com/technology/reprints.do?id=1-1DZLPEP&ct=130207&st=sb

Assessment criteria

Integration

BI infrastructure

Metadata management

Development tools

Collaboration

Information Delivery

Reporting

Dashboards

Ad hoc query

Microsoft Office integration

Mobile BI

30 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

Analysis

Online analytical processing (OLAP) - multidimensional analysis, what-if

Interactive visualization

Predictive modeling and data mining

Scorecards- aligining KPIs with a strategic objective

Prescriptive modeling, simulation and optimization

Page 16: Archiwizowanie danych i odtwarzanie bazy danych po awarii

OLAP/BI - technologie

Modele

ROLAP

MOLAP

HOLAP

Składowanie danych

indeksy

perspektywy zmaterializowane

partycjonowanie

column storage / row storage

kompresja danych i indeksów

Przetwarzanie zapytań

top-n

gwiaździste

Przetwarzanie równoległe i rozproszone

Jakość danych i ETL/ELT 31 R.Wrembel - Politechnika Poznańska, Instytut Informatyki

OLAP/BI

Trends

Big Data

mobile BI

in-memory BI

real-time /right-time /active BI

cloud computing

32 R.Wrembel - Politechnika Poznańska, Instytut Informatyki