big data discovery - doag.org · pdf filehive, hue, oozie, solr nodemanager odi agent puppet...

37
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Big Data Discovery Analysen auf Hadoop. DOAG Konferenz Nürnberg, 17.-19. November 2015 Harald Erb ORACLE Business Analytics, EMEA ++ Neuer Film ++ Carmageddon 2013 ++

Upload: trinhque

Post on 06-Feb-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Face/Off – Big Data Discovery Analysen auf Hadoop.

DOAG Konferenz Nürnberg, 17.-19. November 2015 Harald Erb ORACLE Business Analytics, EMEA

++ Neuer Film ++ Carmageddon 2013 ++

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

• Harald Erb • Principal Sales Consultant

• Business Analytics Architecture Domain Lead - DE/CH Cluster

• Kontakt

+49 (0)6103 397-403

[email protected]

Referent

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Safe Harbor Statement

The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.

Safe Harbor Statement

The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.

3

Konzept: Data Lab

Werkzeuge unc Mittel zur interaktiven Datenanalyse von

beliebigen Kombinationen strukturierter und

unstrukturierter Datenquellen

Enthält alle für das Daten-Projekt benötigten Kopien vorhandener Unternehmensdaten und extern

beschafften Data Sets

Anwendung geeigneter statistischer Verfahren , Optimierung der

Parameter und Auswahl eines Modells, das die Aufgabenstellung

am besten erfüllt

Data Discovery

Analytical Sandbox Data Science

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 5

Oracle Information Management Referenzarchitektur – Konzeptansicht

Data Lab = Arbeitsumgebung für Datenprojekte

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 6

Aktivitäten im Rahmen des Analyseprozesses

Data Discovery

Quelle: O’Reilly Article : ”Data Analysis: Just one component of the Data Science workflow”

Data Discovery Modeling Analytical

Apps

Ingest & Clean

Manage & Update

Aquire

Store & Expose

Visual Analysis

Wrangle

Featurize

Interactive Queries

Train

Update

Model

Evaluate

Deploy

Monitor

Build

Train

Data Insights Models

Enrichments Features Vectors

Zeitaufwändig (50...80% von der Gesamtzeit)

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 7

Mit Hadoop-Bordmitteln: HDFS und Hive Command Line Tools

Data Discovery

Unix / Linux – ähnliche Befehle für Dateioperationen im Hadoop Distributed File System (HDFS) SQL-Abfragen mit der Hive Command Line (Hive CLI)

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 8

Mit Cloudera-Bordmitteln: Impala MPP*) SQL Engine und HUE **)

Data Discovery

**) Grafische Benutzeroberfläche HUE (Hadoop User Experience) von Cloudera: SQL Abfrage einer Hive-Tabelle mit Ergebnisdarstellung als Diagramm

*) Impala erlaubt interaktive Ad-hoc-Abfragen mit SQL-Syntax. Anstelle von MapReduce wird eine massive Parallelverarbeitungs- (Massive Parallel Processing – MPP) Engine verwendet, die derjenigen in herkömmlichen relationalen (RDBMS) ähnelt. Bei dieser Architektur können die Daten in HDFS- oder HBase-Tabellen schneller als mit Hive abgefragt werden

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 9

Oracle Big Data Discovery: “The Visual Face of Hadoop”

Find Explore Transform Discover Share

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle Big Data Discovery

10

Unterstützt den Team-Ansatz – anstatt von Data Scientists allein abhängig zu sein

DWH / OLTP

Databases

Database Administrator

(Enterprise IT)

Hadoop

ETL/ELT Specialist

(Enterprise IT , member of

Data Factory)

Data Engineer

Data Science

Discovery Output

Business Analyst

New KPI, Report Requirement

Data Scientist

New Data Set (cleaned / enriched)

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 11

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 12

„Carmageddon“ – UK, 2013

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 13

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 14

Per Datei-Upload und Direktzugriff auf Datenbanken aus der Analytical Sandbox

Oracle Big Data Discovery mit Daten versorgen

data.gov.uk

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 15

Automatisiertes/manuelles Laden mit dem BDD Command Line Tool (EDP_CLI)

Oracle Big Data Discovery mit Daten versorgen

19

20

; ; ;

Dateien liegen im Hadoop Distributed File System, passend dazu wird eine Hive Tabelle angelegt und mit Daten geladen (z.B. via HUE)

Beispiel für einen manuellen Aufruf des Ladeprozesses mit dem Oracle Big Data Discovery Command Line Tool

Ergebnis: Nach erfolgreichem Ladeprozess mit dem Oracle Big Data Discovery Command Line Tool ist das neue Data Set in der BDD Studio Anwendung verwendbar

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 16

Data Sets aus der Analytical Sandbox – gut organisiert und leicht auffindbar

Oracle Big Data Discovery

Copyright © 2014, Oracle and/or its affiliates. All rights reserved. |

Find Explore Transform Discover Share

Oracle Big Data Discovery by Example Teil 1

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Find

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Explore

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Transform

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Transform

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 22

Wie Daten(-Samples) aus Hadoop verarbeitet werden

Oracle Big Data Discovery – Blick hinter die Kulissen

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 23

Oracle Big Data Discovery – Deployment (Variante #1)

Diagram adopted from RittmannMead 2015

Commodity Hadoop Cluster

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 24

Direkt installierbar auf der Oracle Big Data Appliance

Oracle Big Data Discovery – Deployment (Variante #2)

B

Node 1 Node 2 Node 3 Node 4 Node 5 Node 6 … n Balancer

CM Agent

DataNode

Failover Controller

JournalNode

NameNode

NodeManager

Puppet

Puppet Master

ZooKeeper

CM Agent

DataNode

Failover Controller

JournalNode

MySQL Backup

NameNode

NodeManager

Puppet

ZooKeeper

CM Server

CM Agent

DataNode

JobHistory

JournalNode

MySQL Primary

NodeManager

Puppet

ResourceManager

ZooKeeper

CM Agent

DataNode

Hive, Hue, Oozie, Solr

NodeManager

ODI Agent

Puppet

ResourceManager

Weblogic Server

Dgraph

HDFS Agent

CM Agent

Puppet

CM Agent

DataNode

NodeManager

Puppet

• One Dedicated Big Data Discovery Node: Runs BDD-specific processes only, no Hadoop services run on this node, provides storage for Dgraph

• Ab Big Data Appliance Softwareversion 4.3 automatisch mit Mammoth installierbar

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 25

Big Data Appliance

» Exalytics Steckbrief (Modell X5-4) – 4 Intel Xeon© E7-8895 v3 Serie, 8- 72 CPU-Kerne

– 2…3 TB RAM, 4,8TB PCI Flash

– Zwei 40 GB/s infiniband ports und Ethernet port

» Das Beste aus beiden Welten: – Exalytics beschleunigt explorative Analysen

– Hadoop skaliert bei Datentransformationen und Datenanreicherungsprozessen

» Skalierbar – Zusätzliche User und Daten können störungsfrei

hinzugenommen werden

» Einfache Bereitstellung – Big Data Discovery auf Exalytics = Analyse-Engine

– Mit Oracle Big Data Appliance kombinierbar

B

Oracle Exalytics = Edge Server mit Infiniband-Anbindung an Oracle Big Data Appliance

Oracle Big Data Discovery – Deployment (Variante #3)

Copyright © 2014, Oracle and/or its affiliates. All rights reserved. |

Find Explore Transform Discover Share

Oracle Big Data Discovery by Example Teil 2

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Discover

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

!

Discover Share

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Data Lab: Data Discovery und Analytics im Zusammenspiel

Oracle Advanced Analytics

Oracle Big Data Discovery

Statistische Modelle entwickeln/testen

Keine unnötige Datenbewegung; die Algorithmen zu den Daten bringen

Oracle R und Data Mining für massiv-parallele Berechnungen in Hadoop oder in der Oracle Datenbank

Direkt abfragbar via SQL und mit Oracle BI Werkzeugen

Unbekannte Datensets für Analytics & Datenprojekte auffinden

Art und Qualität der Daten inspizieren

Daten für weitere analytische Aufgaben transformieren und anreichern

Zusammenhänge in den Daten erkennen

Erkenntnisse mit Fachkollegen teilen

Ergebnisse in das Tagesgeschäft

übertragen

Interpretieren & Evaluieren

Selektion, Aufbereitung & Transformation

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Oracle R Enterprise (ORE)

» Erlaubt verteilte Verarbeiung großer Datenmengen

» Profitiert von DB Funktionen, z.B. Security & SQL-Zugriff

» R Studio = GUI für Data Analysten

32

Oracle Data Mining (ODM)

» Implementiert im Oracle Databank-Kernel

» Direkter Zugriff via PL/SQL API & SQL-Operatoren

» Oracle Data Miner GUI ist Bestandteil vom SQL Developer

Data Science mit Oracle Advanced Analytics

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 33

Big Data mit dem Oracle Exa* Product Stack selbst erleben!

Wie weiter?

www.ise-informatik.de

ISE Information Systems Engineering

Hauptsitz in Gräfenberg, NL in München und Nürnberg

IT-Services / Consulting für Großunternehmen und den Mittelstand

Schwerpunkte:

Oracle Core Technology Database (RAC), Application Server (WebLogic)

Oracle Exadata / Big Data Appliance / Exalytics eXtreme Performance

Oracle Data Warehousing, Business Intelligence und Analytics

Oracle Exadata Migrations

Performance Analysis & Optimization

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

Wie weiter? Get Your Hands Dirty mit Oracle‘s Big Data Lite Developer VM

www.oracle.com/technetwork/community/developer-vm Imaginary company example

Free

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |

» BI Community Event im Rahmen der DOAG K+A Di. 17.11.2015 ab 18:30, Landbierparadies Nürnberg Wodanstr. 15

» Unconference: OWB – Was Nun? Di. 17.11.2015 / 15 Uhr

» Data Vault Forum Heute: Mi. 18.11.2015 / 15 Uhr Galileo Lounge, Ebene 3

» Data Integration Day 2015 Mi. 9.12.2015 / 10 Uhr, Sulzbach (Taunus)

» DOAG BI Konferenz 8.-9.6.2016, Bonn, Kameha

DOAG BI Community - Veranstaltungen

35

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 36

Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |