hadoop eine erweiterung für die oracle db? - doag.org · oracle certified professional exadata...

Hadoop Eine Erweiterung für die Oracle DB?

Nürnberg, 18.11.2015, Matthias Fuchs

Sensitive

Über mich

10+ Jahre Erfahrung mit Oracle

Oracle Certified Professional

Exadata Certified

Oracle Engineered Systems

• Exadata

• Exalytics

• Big Data

• Exalogic

DWH, Hadoop, Monitoring, Audit

Senior Solution Architect [email protected]

Twitter: @hias222

Copyright © Capgemini 2015. All Rights Reserved

3 Hadoop_DB_Erweiterung_15_11.pptx

Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop

Demo Performance Oracle and Hadoop



Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop


Capgemini – eine starke Gruppe

Umsatz nach Branchen* Umsatz nach Geschäftsbereichen*

Telecom, Media

& Entertainment

Other Managed

Services

Local

Professional

Services

Consulting Services

Application

Services

Energy, Utilities

& Chemicals

Others

Public Sector

Manufacturing,

Automotive &

Life Sciences

14%

4%

7% 19%

16%

23%

4%

58% 23%

15%

“Cap Gemini S.A.” ist im CAC 40 gelistet;

Paris, ISIN code: FR0000125338

Unsere Marke ist Capgemini, an der Pariser Börse sind

wir unter “Cap Gemini S.A.” gelistet.

Financial

Services



17%

Customer Products,

Retail, Distribution &

Transportation

Operative Marge : 970 Mio. €

Operativer Gewinn : 853 Mio. €

Jahresgewinn : 580 Mio. €

Netto-Barmittel und bargleiche Mittel : 1.22 Mrd. €

Umsatz 2014: 10,57 Mrd. €

* Stand: 1. Halbjahr 2015 * Stand: 1. Halbjahr 2015

In über 40 Ländern engagieren sich 180.000 Mitarbeiter für unsere Kunden (Stand Juli 2015)

Kanada

USA

Mexico

Brasilien

Argentinien

Europa

Marokko

Australien

China

Indien

Chile

Guatemala

Singapur

Philippinen

Taiwan

Vereinigte Arabische

Emirate

Mitarbeiter Offshore 96.000

Malaysia

Neuseeland

Japan

Südafrika

Kolumbien

Vietnam



Capgemini kombiniert seine hohe fachliche Kompetenz mit fundiertem Branchen-Know-how

Ausgewählte Referenzkunden



Automotive Public Sector

Telecom, Media & Entertainment

Manufacturing, Retail &

Distribution

Financial Services

Energy, Utilities & Chemicals

http://www.de.capgemini.com/insights/referenzen/bundesagentur-arbeit-it-beratung-arbeitslosengeld/

http://www.de.capgemini.com/insights/referenzen/bayerische-versorgungskammer-altersvorsorge/

http://www.de.capgemini.com/insights/referenzen/aok-aufbau-softwarehaus/

http://www.de.capgemini.com/insights/referenzen/deutsche-telekom-t-online/

http://www.de.capgemini.com/insights/referenzen/vodafone-netherlands-customer-management/

http://www.de.capgemini.com/insights/referenzen/telefonica-o2-go-to-market-geo-marketing/

http://www.de.capgemini.com/insights/referenzen/bmw-data-warehouse/

http://www.de.capgemini.com/insights/referenzen/daimler-global-ordering/

http://www.de.capgemini.com/insights/referenzen/volkswagen-gruppe-service42/

http://www.de.capgemini.com/insights/referenzen/johnson-controls-operational-forecasting/

http://www.de.capgemini.com/insights/referenzen/allianz-insurance-customer-service/

http://www.de.capgemini.com/insights/referenzen/thyssen-krupp-anlagenplanung/

http://www.de.capgemini.com/insights/referenzen/tchibo-internationale-handelsplanung-platin/

http://www.de.capgemini.com/insights/referenzen/schenker-transportmanagement-luft-see/

http://www.de.capgemini.com/insights/referenzen/dhl-business-mobile-communications-devices/

http://www.de.capgemini.com/insights/referenzen/syngenta-b2b-portal-sap-crm-sap-bw-sap-erp/

http://www.de.capgemini.com/insights/referenzen/lanxess-globales-reporting-sap/

http://www.de.capgemini.com/insights/referenzen/deutsche-post-elektronisches-auftragsmanagement/

http://www.de.capgemini.com/insights/referenzen/raiffeisenbank-post-merger-integration/



Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop


Warm up – Beispiel Uber Architektur



Quelle: http://de.slideshare.net/databricksspark-meetup-at-uber

Warm up – Oracle and Cloudera



RDBMS

Warm up



Quelle: http://de.slideshare.net/databricks/spark-meetup-at-uber

RDBMS



Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop


Hadoop Überblick



Storage Layer

Filesystem (HDFS)

Resource Management YARN + MapReduce

Processing Layer

Big Data SQL

Hadoop Überblick



Hive

MapReduce Spark* Tez

Hadoop Storage HDFS HBase, Kudu **

HA

WQ

Imp

ala

Drill

Processing Layer

SQL Queries

SQL Engines Auswahl

Storage Managers

* Spark SQL über Hive, Hive Spark nicht für Produktion ** Kudu beta

Big

Da

ta S

QL

Query HCatalog

SerDes OTA4H

Hadoop

External Tools

Process Engines



General Purpose Processing Frameworks, Apache Projekte

• MapReduce Erstes Process Framework auf Hadoop, Batchverarbeitung

• Tez schneller als MapReduce, interaktive Datenverarbeitung, in Memory Verarbeitung, Integration in YARN

• Spark Performance ähnlich Tez, auch Standalone möglich

• Weitere wie z.B. Flink – Humboldt Uni Berlin

Auf Basis der Engines laufen viele SQL Frameworks, das wichtigste Hive

Es gibt auch SQL Frameworks mit eigener Process Engine wie z.B. Impala



Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop


Beispiel Hadoop Auslagern von Rechenlast



Mit Oracle Big Data SQL/Connectoren



Details

Oracle Big Data SQL

Aggregates

Part Demands

Vorteile Oracle Integration Hadoop - Datenbank



Big Data SQL

Big Data Appliance

Exadata (!)

Datenfluss mit

Oracle Table Access for Hadoop and Spark (OTA4H)

Big Data SQL

Ein Einstiegspunkt

Sicherheit Analog Datenbank

Höhere Performance durch Verwendung optimierter Zugriffslayer

Keine Änderungen in der Applikation



Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop


Big Data SQL und Hadoop



Oracle Big Data SQL

Cloudera

Hadoop

NOSQL

R Advanced

Analytics

Exadata

Advanced

Analytics

Advanced

Security

Connectors

ODI

Was ist Big Data SQL?



CREATE TABLE OEM_DATA (target_name VARCHAR2(4000), target_guid ….. key_value6 VARCHAR2(4000), collection_timestamp VARCHAR2(4000)) ORGANIZATION EXTERNAL

(TYPE ORACLE_HIVE

DEFAULT DIRECTORY DEFAULT_DIR

ACCESS PARAMETERS (

com.oracle.bigdata.cluster=bigdatalite

com.oracle.bigdata.tablename=default.oem_data)

) ;

Externe Tabelle

Hive

HDFS

DBMS_HADOOP Paket für Automatischen Import

Schema-for-read

Parallelität

Big Data SQL - Schritte



Detail

Use scan and row methods to query “any” data format

• Smart Scn

• Storage Index

Use data definition and column deserializations as exist in Hadoop

RecordReader => Scans data (keys and values)

InputFormat => Defines parallelism

SerDe => Makes columns

Metastore => Maps DDL to Java access classes

Third level

Übersicht

Data Node

Scan

Create Rows and Columns

Big Data SQL

Oracle and Hadoop – Big Data SQL



Big Data SQL

1.x - 2014

Erste Version mit Smart Scan auf Hadoop und NoSQL

Optimierte Joins - Bloom filter mit Hadoop Daten

Fan-out Parallelität auf Hadoop

2.0 – 09/2015

Storage Indexes für Big Data SQL

Reduzierter IO – auslassen von HDFS Blöcken aufgrund des Storage Index

Minimierung User Administration

Future

Optimizer – Columnar – Parquet – Partition pruning - Exadata?

Copy To BDA



• Big Data Appliance and Exadata?

• Export data pump file aus der Datenbank

• Kopieren des Files auf die BDA (hdfs put)

• Externe Tabelle in Hive einrichten auf das Data Pump File

• Abfrage als Hive Tabelle

Oracle Table Access for Hadoop and Spark (OTA4H)



CREATE[TEMPORARY] EXTERNAL TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENTcol_comment],...)] [COMMENT table_comment] STORED BY 'oracle.hcat.osh.OracleStorageHandler' [WITHSERDEPROPERTIES(...)] [TBLPROPERTIES (property_name=property_value,...)]

OTA4H

AD Hoc Abfragen, direkte Abfragen

Security Features der Datenbank bleiben erhalten Management, Column Masking, and Label and Row Security.

Direkter Zugriff von Hadoop and Spark APIs sowie bei Tools wie Pig oder MapReduce

Oracle SQL Connector for HDFS



Connetoren

Daten Data Pump files in HDFS Delimited text files in HDFS Delimited text files in Apache Hive tables Systeme BDA Hadoop Apache Cluster

Mehr Connectoren



• Oracle Loader for Hadoop

Daten nach Hadoop Laden (ODI)

• Oracle XQuery for Hadoop:

Auswertung XML Queries in Parallel Hadoop

• Oracle R Advanced Analytics for Hadoop

R analog wie in der DB in Hadoop

• Oracle Data Integrator

Jobs können im Hadoop Cluster laufen



Agenda

Über Capgemini

Warmup

Hadoop

RDBMS und Hadoop

Oracle and Hadoop


Demo BDA and Exadata



DB

HDFS

HIVE

Big Data

SQL

BDA Exadata

Generating CSV Files, DB Monitoring DATA

Load



DB

HIVE

External

Table Big

Data

SQL

BDA Exadata

Calculation



DB

HIVE

External

Table

BDA

Exadata

2. Hash creation

inside BDA

1. Hash creation

inside EXA

The information contained in this presentation is proprietary.

Copyright © 2015 Capgemini. All rights reserved.

http://www.facebook.com/Capgemini

http://www.linkedin.com/company/capgemini

http://www.twitter.com/capgemini

http://www.youtube.com/user/capgeminimedia

http://www.slideshare.net/capgemini

hadoop eine erweiterung für die oracle db? - doag.org · oracle certified professional exadata...

Documents