cloud data management - uni-leipzig.de...cdm ss 19, dr. eric peukert hive-ql query wird in dag...

Universität Leipzig, Institut für Informatikhttp://dbs.uni-leipzig.de

Cloud Data ManagementKapitel 5: MapReduce und

Datenbanken (Teil2)

Dr. Eric PeukertSommersemester 2019

CDM SS 19, Dr. Eric Peukert

https://www.datanami.com/2019/06/13/big-data-meltdown-how-unclean-unlabeled-and-poorly-managed-data-dooms-ai/

Hive-QL Query wird in DAG (directed acyclic graph) übersetztKnoten: Operatoren

TableScanSelect, ExtractFilterJoin, MapJoin, Sorted Merge Map JoinGroupBy, LimitUnion, CollectFileSink, HashTableSink, ReduceSinkUDTF

Graph repräsentiert DatenflussMehrere (parallele) Map/Reduce Phasen möglich

Hive-QL: Anfrageübersetzung

Beispiel

SELECT *

FROM status_updates

WHERE status

LIKE ‘michael jackson’

Hive-QL: Anfrageübersetzung (Beispiel)

SELECT COUNT(*)

FROM status_updates

WHERE ds=‘2009-08-01’

Hive: Anfrageübersetzung (2)

Updates/Nutzer

Alle Updates

Zwischenspeicherndes Map-Outputs

Anfragepläne können sehr komplex werdenAnfrageoptimierung

Verwerfen nicht benötigter SpaltenBerücksichtigung von (Outer-)Join-und Selektionsattributen

Frühes Anwenden von SelektionsprädikatenVerwerfen nicht benötigter Partitionen

Hive: Anfrageübersetzung und -optimierung

Hive: Join

userid age ...

111 25 ...

222 32 ...

pageId userId ...

1 111 ...

2 111 ...

1 222 ...

key value111 <R,1>

111 <R,2>

222 <R,1>

key value111 <S,25>

222 <S,32>

key value111 <R,1>

111 <R,2>

111 <S,25>

key value222 <R,1>

222 <S,32>

pageId age

page_view

user map

INSERT INTO TABLE pv_users SELECT pv.pageid, u.ageFROM page_view pv JOIN user u ON (pv.userid = u.userid)

pv_users

• Key = Join-Key, Value mit Flag (R oder S) zur Unterscheidung d. Tabellen• Mehrweg-Join mit selbem Join-Key ® 1 MapReduce job• Mehrweg-Join mit n Join-Keys ® n MapReduce job

= Shuffle Join (reduce-side join)

also look at:http://henning.kropponline.de/2016/10/09/hive-join-strategies/

MapJoin (aka Broadcast Join)kleine Tabelle als zusätzlicher Map-Input kann vorher zu Hash-Tabelle umgewandelt werden (ggf. zusätzlich komprimiert)kein Reduce notwendig

Dynamische Join-EntscheidungBestimmung großer/kleiner Tabelle zur LaufzeitAnwendung von MapJoin falls kleine Tabelle(n) “klein genug”

Join: Performanzsteigerung durch MapJoin

pageId userId ...

1 111 ...

2 111 ...

1 222 ...

page_view

userId pageIds

111 [1,2]

222 [1]

HashTable

userid age ...111 25 ...

222 32 ...

pageId age

pv_users

Key = Gruppierungsattribute Reduce = Aggregationsfunktion

“Voraggregation” durch Combiner in Map möglich (z.B(<1,25>,2))

Hive: Group ByINSERT INTO TABLE pageid_age_sumSELECT pageid, age, count(*)FROM pv_usersGROUP BY pageid, age

pageId age

pv_users

pageId age

key value

pageId age count

pageid_age_sum

pageId age

pv_users

pageId age

key value(1,25) 2

key value(1,25) 1

(2,32)1

key value

pageId age count

pageid_age_sum

pageId age

pv_users

pageId age

key value(1,25) 2

key value(1,25) 1

(2,32)1

key value(1,25) 2

(1,25) 1

key value(2,32) 1

pageId age count

1 25 3

pageId age count

2 32 1

pageid_age_sum

Verwendung von Skripten in HiveQL-Anfragen mittels TRANSFORM-Operator

Daten(de-)serialisierungAustausch per stdin/stdout

Nutzer-definierte Skripte

firstletter.py

import sys for line in sys.stdin:

line = line.strip() id, title = line.split('\t') firstl = title[:1] print '\t'.join([id, title, firstl])

ADD FILE firstletter.py;SELECT firstl, count(id) AS nFROM (SELECT TRANSFORM (id, title) USING 'python firstletter.py'AS id, title, firstl

FROM item ) fGROUP BY firstl;

id title1 Body Snatcher

2 Armageddon

firstl nB 1

Sortierung durch zusätzlichen Reduce-StepSORT BY = Sortierung pro ReducerORDER BY = globale Sortierung = SORT BY mit nur einem Reducer

Hive: Sortierung

id title

1 Body Snatcher

2 Armageddon

4 Vegas Vacation

5 Vermin

6 The Visitors

key val

SELECT firstl, count(id) AS nFROM ... GROUP BY firstlSORT BY | ORDER BY n DESC

SORT BY

ORDER BY

System zur Verarbeitung großer, semi-strukturierter Daten auf Basis von Hadoop/MapReduceProzedurale High-Level-Skriptsprache: PigLatin

Nutzung von Variablen mit komplexe Datentypen (Tupel, Bag, Map)Skript-Ausführung

Pig-Skript wird geparst und ggf. optimiertTransformierung in MapReduce-WorkflowAusführung mittels Hadoop

VorteileVereinfachte Definition komplexer WorkflowsAutomatische Konfiguration/Tuning vom MR-Jobs / -WorkflowsOptionales Type-Checking falls Schema vorhanden

Pig: Übersicht

Quellen: Diese und nachfolgende Folien:http://www.slideshare.net/hadoop/practical-problem-solving-with-apache-hadoop-pighttp://www.slideshare.net/xefyr/pig-making-hadoop-easyhttp://pig.apache.org/docs/r0.10.0/

Webnutzungs-Analyse: „Die fünf am meisten besuchten Webseiten junger Nutzer (18-25 Jahre)“

Pig-Skript:

Pig: Beispiel

Users = load ‘users’ as (name, age);Fltrd = filter Users by age >= 18 and age <= 25; Pages = load ‘pages’ as (user, url);Jnd = join Fltrd by name, Pages by user;Grpd = group Jnd by url;Smmd = foreach Grpd generate group, COUNT(Jnd) as clicks;Srtd = order Smmd by clicks desc;Top5 = limit Srtd 5;store Top5 into ‘top5sites’;

Load / Store / DumpDaten von File System lesen / in FS schreiben / auf stdout ausgeben

Foreach … GenerateAnwendung auf jeden Datensatz ® Generierung neuer DatensätzeÄhnlich: map

Group Gruppierung von Datensätzen nach Schlüssel

JoinJoin zweier oder mehr EingabedateienUnterstützung verschiedener Join-Implementierungen inkl. Skew-Behandlung

Weitere: Stream, Order, Filter, Distinct, Sample, Split, … Zusätzlich: String-Funktionen, mathematische Funktionen (count, avg, …), Diagnose-Methoden, UDF-Handling, …

Pig: Relationale Operatoren

AnwendungsdomänenPig: Datenpipelines, Iterative Berechnungen, …Hive: OLAP-artige Anfragen, BI Tools, …

Pig geeignet zur Programmierung von ETL-StreckenDatenvorverarbeitung für Data Warehousing

Pig: Abgrenzung SQL und HivePig SQL

Definition Prozedural Deklarativ

Schema Optional Voraussetzung

Workloads „Scan“-orientiert OLTP+OLAP

Query-Performanz

mittel, geringe Optimierungen ++, Optimierungen

MapReduce ist kein DBMS, kann aber zur “datenbank-artigen” Verarbeitung großer Datenmengen genutzt werden

SQL-Anfragen können automatisch in MapReduce-Programme transformiert werdenMR kann flexibel auf die (semi-strukturierten) Originaldaten (d.h. Dateien) zugreifen

RDBMS sind “pro Knoten” effizienter als MapReduce... aber MapReduce skaliert deutlich besser und ist fehlertoleranter

Kombination der Stärken von RDBMS und MapReducesinnvoll

Zusammenfassung

[MRJoin] Blanas et al.: A Comparison of Join Algorithms for Log Processing in MapReduce. SIGMOD 2010[Hive] http://hadoop.apache.org/hive/[Hive1] http://www.slideshare.net/zshao/hive-data-warehousing-analytics-on-hadoop-presentation[Hive2] http://www.slideshare.net/ragho/hive-user-meeting-august-2009-facebook[Hive3] http://www.slideshare.net/jsichi/hive-evolution-apachecon-2010

Quellen & Literatur

cloud data management - uni-leipzig.de...cdm ss 19, dr. eric peukert hive-ql query wird in dag...

Documents

2 baum wurzel knoten ohne vorgänger knoten beinhalten daten...

vorlesung knoten - uni-paderborn.de

federaal agentschap van de voedselketen jaarverslag 2017...

angaben für das streckenbuch - fahrweg.dbnetze.com ·...

wolfang peukert at basf science symposium 2015

mit angehörigen hilfreich umgehen prof. dr. r. peukert lv...

leinen und knoten erstellt von: billert karsten1...

form: morphologische operatoren

mathematische methoden der physik lineare operatoren ·...

flash knoten

01.2'/)+$.3$ !&4.5$#/4$)/+6.,7knoten existiert, meldet er...

politik-wirtschaft -...

knoten am hals

durchgängige sprachbildung am beispiel der operatoren ·...

die wichtigsten knoten - blinker · die wichtigsten knoten...

„knoten tabor / posthof“

einführung in die...

Übung datenbanksysteme i relationale...

cliquen in graphen -...

php: operatoren und kontrollstrukturen