data lake architektur: von den anforderungen zur technologie
TRANSCRIPT
Prof. Dr. Jens [email protected]
Data Lake ArchitekturVon den Anforderungen zur Technologie
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 7
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 8
>
Data Lake verstehen
Prof. Dr. Jens Albrecht Big Data 9
Appliance
Systemarchitektur im Wandel
Gestern und heute
Strukturierte Daten
Moderate Größe (S-XL)
"General Purpose"
RDBMS
Heute und morgen
Polystrukturierte Daten
in allen Größen (S-XXXL) {json}
<xml/>
InMemory
RDBMSHadoop
Streaming
NoSQL
Zweckoptimierte
Spezialisten
Prof. Dr. Jens Albrecht Big Data 10
Business Cases
Requirements of Big Data Technologies
Agility
Data Exploration
Schema-on-Read
Integration
on Demand
Efficient
Development
DataVirtualization
Real-timeDecisions
SimplifiedData Access
AdvancedAnalytics
Cost Efficiency
Scalability
Throughput
(Velocity)
Computing
Power
Data Volume
Prof. Dr. Jens Albrecht Big Data 11
StorageLayer
IngestionLayer
Serving Layer
Referenzarchitektur für BI
End-UserLayer
Data Sources
Reporting OLAP
OLTP Systems
In-Memory
RDBMSData Marts
Staging Area
Enterprise
DWH
Prof. Dr. Jens Albrecht Big Data 12
StorageLayer
IngestionLayer
Serving Layer
Referenzarchitektur für BI und Big Data
End-UserLayer
Data Sources
Reporting OLAPOperational
Analytics
Data
Discovery
Data LakeHadoop, NoSQL
Prediction
OLTP Systems
In-Memory
RDBMSData Marts
Staging Area
Enterprise
DWH
Search
Prof. Dr. Jens Albrecht Big Data 14
Enterprise Data Lake / Hub / Reservoir
Internal
Applications
External
Data Sources0
10
1
0
10
1
01
0
1
0 1
Comprehensive
Data Pool
Business Analytics
Tool
Collect data as it is generated, process data when it is needed.
Prof. Dr. Jens Albrecht Big Data 15
Wozu ein Data Lake?
� Daten in Originalformat gespeichert
� Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read)
� Alle Daten werden gespeichert
� Einfache Adaption von Änderungen
� Agile Einbindung neuer Daten
� Einfacher Zugriff für alle Benutzer
Prof. Dr. Jens Albrecht Big Data 16
>
Anforderungsmuster verstehen
Prof. Dr. Jens Albrecht Big Data 18
Nifi
Flink Storm
Samza
Apex …Real-Time/Stream
Kafka Spark
Fixing the Requirements: Ingestion
For
ea
ch D
ata
So
urc
eData Types
(Variety)
Frequency (Velocity)
Latency (Batch or Stream)
Volume
Quality (Veracity)
Consistent Timeline
CDCPush/Pull
Hive
Sqoop Spark
…
Batch
Beam
Prof. Dr. Jens Albrecht Big Data 19
Lambda und Kappa Architektur
Streaming Data
Speed LayerKafka, Storm
Batch LayerHadoop, Spark
Serving LayerLambda
Streaming DataMessage Buffer
and BrokerKafka
Stream
ProcessorFlink, Spark
Serving Layer
Kappa
Speed Table
Batch Table
Prof. Dr. Jens Albrecht Big Data 20
Fixing the Requirements: Storage & Process
Sto
rage
3V's
Query Patterns
Update Patterns
SQL Support
Data Linkage
Schema Evolution
Historical Queries (as-is vs. as-was)
Security
Retention Policy
Accumulo
HBase Cassandra
Mongo
Neo4j …
NoSQL
In-Memory
SMP MPP
Open
Source
Kudu …
Relational
Parquet
Flat Files JSON
ORC
Avro …
HDFS+ Hive/Spark
Cloud?
Prof. Dr. Jens Albrecht Big Data 21
Apache Spark – Swiss Army Knife of Big Data
☛ Agilität und Skalierbarkeit mit und ohne Hadoop▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)
▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung
▸ Einheitliches System für Batch- und Stream-Processing
Batch Processing
Machine Learning
JavaPython
Scala R
Data Streaming
Graph Processing
SQL
Apache Spark
Prof. Dr. Jens Albrecht Big Data 22
Fixing the Requirements: Curation & Governance
Cu
rati
on
Quality
Policies & Standards
Security & Privacy
Lifecycle Management
Lineage
Metadata Management
Data Tagging
Data Lake
Landing
ZoneRaw Zone
Discovery
Sandbox
Curated
Zone
Work
Zone
Da
ta I
nve
nto
ry
Se
curity
Sensitive
Zone
Waterline
Atlas
Cloudera
Navigator
Sentry
Ranger
Prof. Dr. Jens Albrecht Big Data 24
Anwendungsfälle
Data LakeHadoop, NoSQL
EnterpriseDWH
Use
Ca
ses
Advanced Analytics
Self-Service Data Discovery
Stream Processing
ETL Migration
Data Offloading
Virtual Data Hub
Kafka
Sqoop
Spark
Datasource API
SQL, R, ML, StreamingHive, Drill,
Impala
Prof. Dr. Jens Albrecht Big Data 25
>
Risiken verstehen
Prof. Dr. Jens Albrecht Big Data 26
Risiken
Wer billig kauft, kauft zweimal
CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)
Prof. Dr. Jens Albrecht Big Data 27
Risiken
Falsches Werkzeug für die Aufgabe
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 28
Risiken
Unterschätzung der technologischen
Komplexität
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 29
Risiken
Unterschätzung des Personalbedarfs und
-aufwands
www.pixabay.com
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 30
Risiken
Mangelnde Automatisierung
und Wieder-verwendbarkeit
www.pixabay.com
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 31
Risiken
Abhängigkeit von der IT
www.pixabay.com
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 32
>
Fazit
Prof. Dr. Jens Albrecht Big Data 33
Fazit
1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen
2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl
3. Komplexität kontrollieren
4. Gesundes Maß für Data Governance und Security finden
5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts