archiwizowanie danych i odtwarzanie bazy danych po awarii
Post on 11-Jan-2017
257 Views
Preview:
TRANSCRIPT
Robert Wrembel
Politechnika Poznańska
Instytut Informatyki
Robert.Wrembel@cs.put.poznan.pl
www.cs.put.poznan.pl/rwrembel
Hurtownie Danych i Business Intelligence: przegląd
technologii
2 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Architektury systemu hurtowni danych
Business Intelligence
Przetwarzanie OLTP vs. OLAP
Wstęp do technologii BigData
Tematyka
3 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Cele stosowania HD
1. Zapewnienie jednolitego dostępu do wszystkich danych gromadzonych w ramach przedsiębiorstwa
2. Dostarczenie technologii (platformy) przetwarzania analitycznego - technologii OLAP/BI
Business Intelligence
OLAP - On-Line Analytical Processing
klasyczna analiza danych (dane historyczne, predykcja - what if analysis)
• analiza trendów sprzedaży
• analiza nakładów reklamowych i zysków
• analiza ruchu telefonicznego
• credit scoring
• churn analysis
• customer profiling
najczęściej SQL
4 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Business Intelligence
BI = OLAP+
eksploracja danych
• reguły asocjacyjne, profile zachowań
analiza tekstów (Facebook, Tweeter, ...)
• hot topics, bezpieczeństwo narodowe
analiza sieci powiązań
• liderzy, zależności
analiza logów przeglądarek
5 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
6 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
OLTP a OLAP
użytkownik
funkcja
dane
aplikacje
dostęp
transakcja
l. przetwarzanych rek.
l. użytkowników
DB size
metric
"zwykły"
bieżące operacje, kluczowe dla działania firmy
bieżące, elementarne
powtarzalność działań
odczyt/zapis
krótka
kilka, kilkadziesiąt
kilkudzies., tysiące, setki tys.
kilka - setki TB
przepustowość (l. transakcji w jednostce czasu)
analityk
wspomaganie decyzji
elementarne, zagregowane, historyczne
ad hoc
odczyt
długa (godziny)
miliony lub więcej
kilku, kilkunastu
> setki TB
czas odpowiedzi
OLTP OLAP
Aplikacje BI
Zapytania ad-hoc (okolo 10% aplikacji firmowych)
prosty interfejs prezentacji wyników
obliczenia ad-hoc
drill-down, drill-accross
Raporty firmowe (około 90% aplikacji firmowych)
zaawansowany układ graficzny
biblioteka predefiniowanych raportów
subskrypcja raportów, harmonogram odświeżania raportów i ich dystrybucji
uprawnienia użytkowników do raportów
7 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Aplikacje BI
Dedykowane aplikacje analityczne
analiza przychodów i promocji
przewidywanie trendów, symulacje
zawierają specjalizowane algorytmy dla dziedziny zastosowań
Pulpity (dashboards), karty wynikowe (scorecards), kokpity menadżerskie (management cockpits)
interaktywny interfejs
prezentacja zbiorcza najważniejszych danych
miary jakości przedsięwzięcia (KPI - key performance indicators)
alerty
8 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Aplikacje BI
Eksploracja danych
złożone obliczeniowo algorytmy
dedykowane algorytmy dla dziedziny zastosowań
wizualizacja wyników
9 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Użytkownicy
Aktywni: 10% wszystkich użytkowników systemu BI
Równocześnie pracujący: 1% użytkowników systemu BI
10 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
storyborads
Wielkość systemu
Mały system HD
HD: kilkaset MB
kilkadziesiąt tabel
kilka mln rekordów w tabeli faktów
300 użytkowników
kilkadziesiąt raportów, kilka kostek
Duży system HD
HD: kilkaset TB
kilkaset tabel
kilkaset mln rekordów w tabeli faktów
kilka tysięcy użytkowników
ponad 1000 raportów, kilkaset kostek
11 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Business Intelligence
Dwie kategorie danych
wewnątrzfirmowe
zewnętrzne (Internet)
Dwie różne architektury/technologie analizy danych
klasyczne
BigData
12 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
13 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Architektura 1 (podstawowa)
HURTOWNIA
DANYCH
model wielowymiarowy
dane elementarne i
zagregowane
ŹRÓDŁA DANYCH WARSTWA POŚREDNIA OPROGRAMOWANIE ETL
HURTOWNIA DANYCH WARSTWA ANALITYCZNA
Zalety
dane zintegrowane (spójna struktura i wartości)
szybkość dostępu do danych
niezależność od awarii źródeł
Wady
redundancja danych
odświeżanie danych
Ekstrakcja
Transformacja
Czyszczenie
Agregacja
14 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Architektura 2
Ekstrakcja
Transformacja
Czyszczenie
Agregacja
HURTOWNIA
DANYCH
model wielowymiarowy
dane elementarne i
zagregowane
ŹRÓDŁA DANYCH WARSTWA POŚREDNIA OPROGRAMOWANIE ETL OPERACYJNA SKŁADNICA DANYCH
HURTOWNIA DANYCH
dane znormalizowane
(3NF)
dane elementarne
możliwość
przeszukiwania/analizow
ania
WARSTWA ANALITYCZNA
15 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Architektura 3
Ekstrakcja
Transformacja
Czyszczenie
Agregacja
HURTOWNIA
DANYCH
Hurtownie
tematyczne
ŹRÓDŁA DANYCH HURTOWNIA DANYCH
model wielowymiarowy
dane elementarne i
zagregowane
WARSTWA POŚREDNIA OPROGRAMOWANIE ETL OPERACYJNA SKŁADNICA DANYCH
dane znormalizowane
(3NF)
dane elementarne
możliwość
przeszukiwania/analizow
ania
WARSTWA ANALITYCZNA
16 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
HD Allegro
C. Maar, R. Kudliński: Allegro on the way from XLS based controlling to a modern BI environment. National conference on Data Warehousing and Business Intelligence, Warsaw, 2008
Architektura ELT
17 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
ŹRÓDŁA DANYCH WARSTWA ANALITYCZNA
HD ODS
T+L
E+L
Architektura ELT
Efektywność
dane w bazie danych możliwość przetwarzania za
pomocą dedykowanych języków (PL/SQL, SQL PL, Transact SQL)
jeden serwer dla ODS i HD większe obciążenie
Data provenance
Drill through
18 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Experiment I
P. Wróblewski, M. Wojdowski: Implementacja i porównanie wydajności architektur ETL i ELT. Master thesis, Poznan University of Technology, 2014
Data sources
Internet auctions
Oracle11g (Object-Relational model)
MySQL
PostgreSQL
XML
a collection/table composed of 11 attributes
Data warehouse: Oracle11g
19 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Experiment I
DW schema
20 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Experiment I
Transformations
dimensions
fact table
Tools and architectures
ETL Oracle Data Integrator (ODI)
• ETL in a staging area on a separate server
ELT ODI
• TL in a staging area on the same server as a DW
ELT ODI + materialized views (MVs)
• TL in a staging area on the same server as a DW
ELT stored packages (SPs)
• TL in a staging area on the same server as a DW
ELT SPs + MVs
• TL in a staging area on the same server as a DW
21 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Experiment I
22 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
ela
pse
d t
ime
ET
L +
(M
V c
rea
tio
n)
[se
c]
# of rows
Experiment II
K. Prałat, T. Skrzypczak, G. Stolarek: Efektywność ETL i ELT. Postrgaduate studies, term project, Poznan University of Technology, 2014
Data source
flight and weather data in the US, from 1986 until 2008
6 tables in Oracle11g
Data warehouse: Oracle11g
23 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Experiment II
Data source schema
24 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Experiment II
DW schema
25 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Experiment II
Architecture
26 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Experiment II
ETL Informatica
ELT Informatica (load), DB views (transform)
27 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
28 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Systemy komercyjne
Tradycyjne
Oracle11g, Hypersion Essbase - Oracle Corporation
DB2 UDB - IBM
Sybase IQ - Sybase
MS SQL Server - Microsoft
SAP Business Warehouse - SAP
Teradata - Teradata
Main memory (in-memory)
Netezza - IBM
Exadata - Oracle
SAP Hana - SAP
Teradata DW Appliance - Teradata
Gartner Report
29 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Gartner Report
http://www.gartner.com/technology/reprints.do?id=1-1DZLPEP&ct=130207&st=sb
Assessment criteria
Integration
BI infrastructure
Metadata management
Development tools
Collaboration
Information Delivery
Reporting
Dashboards
Ad hoc query
Microsoft Office integration
Mobile BI
30 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
Analysis
Online analytical processing (OLAP) - multidimensional analysis, what-if
Interactive visualization
Predictive modeling and data mining
Scorecards- aligining KPIs with a strategic objective
Prescriptive modeling, simulation and optimization
OLAP/BI - technologie
Modele
ROLAP
MOLAP
HOLAP
Składowanie danych
indeksy
perspektywy zmaterializowane
partycjonowanie
column storage / row storage
kompresja danych i indeksów
Przetwarzanie zapytań
top-n
gwiaździste
Przetwarzanie równoległe i rozproszone
Jakość danych i ETL/ELT 31 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
OLAP/BI
Trends
Big Data
mobile BI
in-memory BI
real-time /right-time /active BI
cloud computing
32 R.Wrembel - Politechnika Poznańska, Instytut Informatyki
top related