data lake architektur: von den anforderungen zur technologie

Prof. Dr. Jens [email protected]

Data Lake ArchitekturVon den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 6

www.pixabay.com


www.pixabay.com


>

Data Lake verstehen


Appliance

Systemarchitektur im Wandel

Gestern und heute

Strukturierte Daten

Moderate Größe (S-XL)

"General Purpose"

RDBMS

Heute und morgen

Polystrukturierte Daten

in allen Größen (S-XXXL) {json}

<xml/>

InMemory

RDBMSHadoop

Streaming

NoSQL

Zweckoptimierte

Spezialisten


Business Cases

Requirements of Big Data Technologies

Agility

Data Exploration

Schema-on-Read

Integration

on Demand

Efficient

Development

DataVirtualization

Real-timeDecisions

SimplifiedData Access

AdvancedAnalytics

Cost Efficiency

Scalability

Throughput

(Velocity)

Computing

Power

Data Volume


StorageLayer

IngestionLayer

Serving Layer

Referenzarchitektur für BI

End-UserLayer

Data Sources

Reporting OLAP

OLTP Systems

In-Memory

RDBMSData Marts

Staging Area

Enterprise

DWH


StorageLayer

IngestionLayer

Serving Layer

Referenzarchitektur für BI und Big Data

End-UserLayer

Data Sources

Reporting OLAPOperational

Analytics

Data

Discovery

Data LakeHadoop, NoSQL

Prediction

OLTP Systems

In-Memory

RDBMSData Marts

Staging Area

Enterprise

DWH

Search


Enterprise Data Lake / Hub / Reservoir

Internal

Applications

External

Data Sources0

10

1

0

10

1

01

0

1

0 1

Comprehensive

Data Pool

Business Analytics

Tool

Collect data as it is generated, process data when it is needed.


Wozu ein Data Lake?

� Daten in Originalformat gespeichert

� Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read)

� Alle Daten werden gespeichert

� Einfache Adaption von Änderungen

� Agile Einbindung neuer Daten

� Einfacher Zugriff für alle Benutzer


>

Anforderungsmuster verstehen


Nifi

Flink Storm

Samza

Apex …Real-Time/Stream

Kafka Spark

Fixing the Requirements: Ingestion

For

ea

ch D

ata

So

urc

eData Types

(Variety)

Frequency (Velocity)

Latency (Batch or Stream)

Volume

Quality (Veracity)

Consistent Timeline

CDCPush/Pull

Hive

Sqoop Spark

…

Batch

Beam


Lambda und Kappa Architektur

Streaming Data

Speed LayerKafka, Storm

Batch LayerHadoop, Spark

Serving LayerLambda

Streaming DataMessage Buffer

and BrokerKafka

Stream

ProcessorFlink, Spark

Serving Layer

Kappa

Speed Table

Batch Table


Fixing the Requirements: Storage & Process

Sto

rage

3V's

Query Patterns

Update Patterns

SQL Support

Data Linkage

Schema Evolution

Historical Queries (as-is vs. as-was)

Security

Retention Policy

Accumulo

HBase Cassandra

Mongo

Neo4j …

NoSQL

In-Memory

SMP MPP

Open

Source

Kudu …

Relational

Parquet

Flat Files JSON

ORC

Avro …

HDFS+ Hive/Spark

Cloud?


Apache Spark – Swiss Army Knife of Big Data

☛ Agilität und Skalierbarkeit mit und ohne Hadoop▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)

▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung

▸ Einheitliches System für Batch- und Stream-Processing

Batch Processing

Machine Learning

JavaPython

Scala R

Data Streaming

Graph Processing

SQL

Apache Spark


Fixing the Requirements: Curation & Governance

Cu

rati

on

Quality

Policies & Standards

Security & Privacy

Lifecycle Management

Lineage

Metadata Management

Data Tagging

Data Lake

Landing

ZoneRaw Zone

Discovery

Sandbox

Curated

Zone

Work

Zone

Da

ta I

nve

nto

ry

Se

curity

Sensitive

Zone

Waterline

Atlas

Cloudera

Navigator

Sentry

Ranger


Anwendungsfälle

Data LakeHadoop, NoSQL

EnterpriseDWH

Use

Ca

ses

Advanced Analytics

Self-Service Data Discovery

Stream Processing

ETL Migration

Data Offloading

Virtual Data Hub

Kafka

Sqoop

Spark

Datasource API

SQL, R, ML, StreamingHive, Drill,

Impala


>

Risiken verstehen


Risiken

Wer billig kauft, kauft zweimal

CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)


Risiken

Falsches Werkzeug für die Aufgabe

www.pixabay.com


Risiken

Unterschätzung der technologischen

Komplexität

www.pixabay.com


Risiken

Unterschätzung des Personalbedarfs und

-aufwands

www.pixabay.com

www.pixabay.com


Risiken

Mangelnde Automatisierung

und Wieder-verwendbarkeit

www.pixabay.com

www.pixabay.com


Risiken

Abhängigkeit von der IT

www.pixabay.com

www.pixabay.com


>

Fazit


Fazit

1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen

2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl

3. Komplexität kontrollieren

4. Gesundes Maß für Data Governance und Security finden

5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts


>

Vielen [email protected]

data lake architektur: von den anforderungen zur technologie

Data & Analytics