hadoop eine erweiterung für die oracle db? - doag.org · oracle certified professional exadata...
TRANSCRIPT
Über mich
10+ Jahre Erfahrung mit Oracle
Oracle Certified Professional
Exadata Certified
Oracle Engineered Systems
• Exadata
• Exalytics
• Big Data
• Exalogic
DWH, Hadoop, Monitoring, Audit
Senior Solution Architect [email protected]
Twitter: @hias222
Copyright © Capgemini 2015. All Rights Reserved
3 Hadoop_DB_Erweiterung_15_11.pptx
Agenda
Über Capgemini
Warmup
Hadoop
RDBMS und Hadoop
Oracle and Hadoop
Demo Performance Oracle and Hadoop
Copyright © Capgemini 2015. All Rights Reserved
4 Hadoop_DB_Erweiterung_15_11.pptx
Agenda
Über Capgemini
Warmup
Hadoop
RDBMS und Hadoop
Oracle and Hadoop
Demo Performance Oracle and Hadoop
Capgemini – eine starke Gruppe
Umsatz nach Branchen* Umsatz nach Geschäftsbereichen*
Telecom, Media
& Entertainment
Other Managed
Services
Local
Professional
Services
Consulting Services
Application
Services
Energy, Utilities
& Chemicals
Others
Public Sector
Manufacturing,
Automotive &
Life Sciences
14%
4%
7% 19%
16%
23%
4%
58% 23%
15%
“Cap Gemini S.A.” ist im CAC 40 gelistet;
Paris, ISIN code: FR0000125338
Unsere Marke ist Capgemini, an der Pariser Börse sind
wir unter “Cap Gemini S.A.” gelistet.
Financial
Services
Copyright © Capgemini 2015. All Rights Reserved
5 Hadoop_DB_Erweiterung_15_11.pptx
17%
Customer Products,
Retail, Distribution &
Transportation
Operative Marge : 970 Mio. €
Operativer Gewinn : 853 Mio. €
Jahresgewinn : 580 Mio. €
Netto-Barmittel und bargleiche Mittel : 1.22 Mrd. €
Umsatz 2014: 10,57 Mrd. €
* Stand: 1. Halbjahr 2015 * Stand: 1. Halbjahr 2015
In über 40 Ländern engagieren sich 180.000 Mitarbeiter für unsere Kunden (Stand Juli 2015)
Kanada
USA
Mexico
Brasilien
Argentinien
Europa
Marokko
Australien
China
Indien
Chile
Guatemala
Singapur
Philippinen
Taiwan
Vereinigte Arabische
Emirate
Mitarbeiter Offshore 96.000
Malaysia
Neuseeland
Japan
Südafrika
Kolumbien
Vietnam
Copyright © Capgemini 2015. All Rights Reserved
6 Hadoop_DB_Erweiterung_15_11.pptx
Capgemini kombiniert seine hohe fachliche Kompetenz mit fundiertem Branchen-Know-how
Ausgewählte Referenzkunden
Copyright © Capgemini 2015. All Rights Reserved
7 Hadoop_DB_Erweiterung_15_11.pptx
Automotive Public Sector
Telecom, Media & Entertainment
Manufacturing, Retail &
Distribution
Financial Services
Energy, Utilities & Chemicals
Copyright © Capgemini 2015. All Rights Reserved
8 Hadoop_DB_Erweiterung_15_11.pptx
Agenda
Über Capgemini
Warmup
Hadoop
RDBMS und Hadoop
Oracle and Hadoop
Demo Performance Oracle and Hadoop
Warm up – Beispiel Uber Architektur
Copyright © Capgemini 2015. All Rights Reserved
9 Hadoop_DB_Erweiterung_15_11.pptx
Quelle: http://de.slideshare.net/databricksspark-meetup-at-uber
Warm up – Oracle and Cloudera
Copyright © Capgemini 2015. All Rights Reserved
10 Hadoop_DB_Erweiterung_15_11.pptx
RDBMS
Warm up
Copyright © Capgemini 2015. All Rights Reserved
11 Hadoop_DB_Erweiterung_15_11.pptx
Quelle: http://de.slideshare.net/databricks/spark-meetup-at-uber
RDBMS
Copyright © Capgemini 2015. All Rights Reserved
12 Hadoop_DB_Erweiterung_15_11.pptx
Agenda
Über Capgemini
Warmup
Hadoop
RDBMS und Hadoop
Oracle and Hadoop
Demo Performance Oracle and Hadoop
Hadoop Überblick
Copyright © Capgemini 2015. All Rights Reserved
13 Hadoop_DB_Erweiterung_15_11.pptx
Storage Layer
Filesystem (HDFS)
Resource Management YARN + MapReduce
Processing Layer
Big Data SQL
Hadoop Überblick
Copyright © Capgemini 2015. All Rights Reserved
14 Hadoop_DB_Erweiterung_15_11.pptx
Hive
MapReduce Spark* Tez
Hadoop Storage HDFS HBase, Kudu **
HA
WQ
Imp
ala
Drill
Processing Layer
SQL Queries
SQL Engines Auswahl
Storage Managers
* Spark SQL über Hive, Hive Spark nicht für Produktion ** Kudu beta
Big
Da
ta S
QL
Query HCatalog
SerDes OTA4H
Hadoop
External Tools
Process Engines
Copyright © Capgemini 2015. All Rights Reserved
15 Hadoop_DB_Erweiterung_15_11.pptx
General Purpose Processing Frameworks, Apache Projekte
• MapReduce Erstes Process Framework auf Hadoop, Batchverarbeitung
• Tez schneller als MapReduce, interaktive Datenverarbeitung, in Memory Verarbeitung, Integration in YARN
• Spark Performance ähnlich Tez, auch Standalone möglich
• Weitere wie z.B. Flink – Humboldt Uni Berlin
Auf Basis der Engines laufen viele SQL Frameworks, das wichtigste Hive
Es gibt auch SQL Frameworks mit eigener Process Engine wie z.B. Impala
Copyright © Capgemini 2015. All Rights Reserved
16 Hadoop_DB_Erweiterung_15_11.pptx
Agenda
Über Capgemini
Warmup
Hadoop
RDBMS und Hadoop
Oracle and Hadoop
Demo Performance Oracle and Hadoop
Beispiel Hadoop Auslagern von Rechenlast
Copyright © Capgemini 2015. All Rights Reserved
17 Hadoop_DB_Erweiterung_15_11.pptx
Mit Oracle Big Data SQL/Connectoren
Copyright © Capgemini 2015. All Rights Reserved
18 Hadoop_DB_Erweiterung_15_11.pptx
Details
Oracle Big Data SQL
Aggregates
Part Demands
Vorteile Oracle Integration Hadoop - Datenbank
Copyright © Capgemini 2015. All Rights Reserved
19 Hadoop_DB_Erweiterung_15_11.pptx
Big Data SQL
Big Data Appliance
Exadata (!)
Datenfluss mit
Oracle Table Access for Hadoop and Spark (OTA4H)
Big Data SQL
Ein Einstiegspunkt
Sicherheit Analog Datenbank
Höhere Performance durch Verwendung optimierter Zugriffslayer
Keine Änderungen in der Applikation
Copyright © Capgemini 2015. All Rights Reserved
20 Hadoop_DB_Erweiterung_15_11.pptx
Agenda
Über Capgemini
Warmup
Hadoop
RDBMS und Hadoop
Oracle and Hadoop
Demo Performance Oracle and Hadoop
Big Data SQL und Hadoop
Copyright © Capgemini 2015. All Rights Reserved
21 Hadoop_DB_Erweiterung_15_11.pptx
Oracle Big Data SQL
Cloudera
Hadoop
NOSQL
R Advanced
Analytics
Exadata
Advanced
Analytics
Advanced
Security
Connectors
ODI
Was ist Big Data SQL?
Copyright © Capgemini 2015. All Rights Reserved
22 Hadoop_DB_Erweiterung_15_11.pptx
CREATE TABLE OEM_DATA (target_name VARCHAR2(4000), target_guid ….. key_value6 VARCHAR2(4000), collection_timestamp VARCHAR2(4000)) ORGANIZATION EXTERNAL
(TYPE ORACLE_HIVE
DEFAULT DIRECTORY DEFAULT_DIR
ACCESS PARAMETERS (
com.oracle.bigdata.cluster=bigdatalite
com.oracle.bigdata.tablename=default.oem_data)
) ;
Externe Tabelle
Hive
HDFS
DBMS_HADOOP Paket für Automatischen Import
Schema-for-read
Parallelität
Big Data SQL - Schritte
Copyright © Capgemini 2015. All Rights Reserved
23 Hadoop_DB_Erweiterung_15_11.pptx
Detail
Use scan and row methods to query “any” data format
• Smart Scn
• Storage Index
Use data definition and column deserializations as exist in Hadoop
RecordReader => Scans data (keys and values)
InputFormat => Defines parallelism
SerDe => Makes columns
Metastore => Maps DDL to Java access classes
Third level
Übersicht
Data Node
Scan
Create Rows and Columns
Big Data SQL
Oracle and Hadoop – Big Data SQL
Copyright © Capgemini 2015. All Rights Reserved
24 Hadoop_DB_Erweiterung_15_11.pptx
Big Data SQL
1.x - 2014
Erste Version mit Smart Scan auf Hadoop und NoSQL
Optimierte Joins - Bloom filter mit Hadoop Daten
Fan-out Parallelität auf Hadoop
2.0 – 09/2015
Storage Indexes für Big Data SQL
Reduzierter IO – auslassen von HDFS Blöcken aufgrund des Storage Index
Minimierung User Administration
Future
Optimizer – Columnar – Parquet – Partition pruning - Exadata?
Copy To BDA
Copyright © Capgemini 2015. All Rights Reserved
25 Hadoop_DB_Erweiterung_15_11.pptx
• Big Data Appliance and Exadata?
• Export data pump file aus der Datenbank
• Kopieren des Files auf die BDA (hdfs put)
• Externe Tabelle in Hive einrichten auf das Data Pump File
• Abfrage als Hive Tabelle
Oracle Table Access for Hadoop and Spark (OTA4H)
Copyright © Capgemini 2015. All Rights Reserved
26 Hadoop_DB_Erweiterung_15_11.pptx
CREATE[TEMPORARY] EXTERNAL TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENTcol_comment],...)] [COMMENT table_comment] STORED BY 'oracle.hcat.osh.OracleStorageHandler' [WITHSERDEPROPERTIES(...)] [TBLPROPERTIES (property_name=property_value,...)]
OTA4H
AD Hoc Abfragen, direkte Abfragen
Security Features der Datenbank bleiben erhalten Management, Column Masking, and Label and Row Security.
Direkter Zugriff von Hadoop and Spark APIs sowie bei Tools wie Pig oder MapReduce
Oracle SQL Connector for HDFS
Copyright © Capgemini 2015. All Rights Reserved
27 Hadoop_DB_Erweiterung_15_11.pptx
Connetoren
Daten Data Pump files in HDFS Delimited text files in HDFS Delimited text files in Apache Hive tables Systeme BDA Hadoop Apache Cluster
Mehr Connectoren
Copyright © Capgemini 2015. All Rights Reserved
28 Hadoop_DB_Erweiterung_15_11.pptx
• Oracle Loader for Hadoop
Daten nach Hadoop Laden (ODI)
• Oracle XQuery for Hadoop:
Auswertung XML Queries in Parallel Hadoop
• Oracle R Advanced Analytics for Hadoop
R analog wie in der DB in Hadoop
• Oracle Data Integrator
Jobs können im Hadoop Cluster laufen
Copyright © Capgemini 2015. All Rights Reserved
29 Hadoop_DB_Erweiterung_15_11.pptx
Agenda
Über Capgemini
Warmup
Hadoop
RDBMS und Hadoop
Oracle and Hadoop
Demo Performance Oracle and Hadoop
Demo BDA and Exadata
Copyright © Capgemini 2015. All Rights Reserved
30 Hadoop_DB_Erweiterung_15_11.pptx
DB
HDFS
HIVE
Big Data
SQL
BDA Exadata
Generating CSV Files, DB Monitoring DATA
Load
Copyright © Capgemini 2015. All Rights Reserved
31 Hadoop_DB_Erweiterung_15_11.pptx
DB
HIVE
External
Table Big
Data
SQL
BDA Exadata
Calculation
Copyright © Capgemini 2015. All Rights Reserved
32 Hadoop_DB_Erweiterung_15_11.pptx
DB
HIVE
External
Table
BDA
Exadata
2. Hash creation
inside BDA
1. Hash creation
inside EXA
The information contained in this presentation is proprietary.
Copyright © 2015 Capgemini. All rights reserved.