webinar big data - enterprise readiness mit hadoop
DESCRIPTION
Im Webinar Enterprise Readiness mit Hadoop - Infrastrukturen für Big Data wird unter anderem Hadoop als etablierte Basis-Technologie für Industrie 4.0 und Big Data-Anforderungen beleuchtet. Erfahren Sie, wie Ihre Infrastruktur für die Verarbeitung und Analyse großer und polystrukturierter Datenmengen aus unterschiedlichen Quellsystemen aufgebaut sein muss.TRANSCRIPT
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten!
Aus unserer Webinarreihe Exzellenz in Big Data: Aus unserer Webinarreihe
Exzellenz in Big Data:
Wie kann ich Hadoop in meinem Unternehmen einsetzen und sicher betreiben?
Uwe Neumann, Senior Sales Manager
„Enterprise Readiness mit Hadoop“
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Uwe Neumann Senior Sales Manager
+49 721 96448-165
Michael Weiß Prokurist, Vertriebsleiter
+49 721 96448-145
Ihre Ansprechpartner
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Unsere Ziele heute
• Verstehen: Was ist Hadoop ?
• Erkennen: Hadoop bringt mir Mehrwerte in meinem Business
• Verstehen: Welche Plattformen sind für Hadoop geeignet
• Erkennen: Hadoop ist im professionellen Umgang eine Chance
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
3
4
„Data Exploration Toolbox“
für die Automotive Industry
„Big Data im Industrie 4.0 –
Kontext“
2 „Enterprise Readiness mit
Hadoop“ – Infrastrukturen für
Big Data
Heute:
27.11.14
Exzellenz in Big Data
Unsere Big Data
Webinarreihe
16.01.15
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
1
Log Management
2 Analyse-Lösungen für
Maschinen Daten
Unser Know-how
Unabhängiges
Beratungs- und
Lösungshaus für
3 Industrie 4.0 & Big Data
Anwendungen
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Solides Fundament
Die solide Basis für IT-Infrastruktur
Enterprise ready
Offene Standards
für Interoperabilität
Hohe Performance
Mandantenfähig
Security &
Compliance Betrieb &
Analyse
Neue Anwendungen Vertrauenswürdige Informationen Wertvolle Erkenntnisse
SLAs
Kostengünstig
Die Basis für den Erfolg Ihres Unternehmens
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Hadoop speichert
jede Art von Daten,
analysiert und
transformiert
Was ist Hadoop?
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
… Daten
in kleinere Teile aufbricht und
diese in einem Server-Cluster
zur Parallel-Verarbeitung
verteilt
namenodes
datanodes
hdfs client
Node
Metadata
Anwendung
Was ist Hadoop ?
Ein Open Source Framework welches …
Daten
… datenintensive Anwendungen
unterstützt
… große, strukturierte wie
unstrukturierte Daten
auf einer Vielzahl von Knoten
bearbeitet.
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Teilt Dateien in kleinere Blöcke
Standardeinstellung ist 64MB Blockgröße
Reduzierte Suchzeiten
HDFS repliziert automatisch die Datenblöcke
auf unterschiedliche Server
Ausfallsicherheit
Basiert auf einem typischen Liunx Filesystem
Investitionssicherheit
Die Kernelemente von Hadoop
HDFS – Hadoop Distributed File System
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Speichert Blöcke von Dateien auf dem nativen
Filesystem
Bedient direkt die Schreib-/Lesezugriffe des
Clients
Führt die Block Erzeugung, Löschung und
Duplizierung aus und speichert den gleichen
Block mehrfach
Redundanz
Führt die Berechnung auf den einzelnen
Blöcken aus
Parallele Bearbeitung
Die Kernelemente von Hadoop
HDFS – Datenknoten - datanode
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Koordiniert die Daten Speicherung
Verwaltet die Dateitabelle (namespace)
Speichert alle Metadaten im RAM
Weist den Datenknoten die Blöcke zu
Koordiniert die Replikation der Datenblöcke
Die Kernelemente von Hadoop
HDFS – namenode
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Bringt die Anwendung zu den Daten …
Verteilt die Bearbeitungsaufgaben (Tasks) auf
die datanodes.
Steuert die Auslastung der Rechenkapazitäten
Bringt bei Ausfall eines datanodes seine Tasks
automatisch auf einen anderen Knoten
Ermöglichst somit die parallele
Datenverarbeitung im Cluster
Die Kernelemente von Hadoop
Hadoop – job tracker
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Ein Einblick in eine auf Hadoop basierte
Data Management Plattform
Quelle
DATEN ZUGRIFF
Data Workflow,
Lifecycle &
Governance
Falcon
Sqoop
Flume
NFS
WebHDFS
GOVERNANCE &
INTEGRATION SICHERHEIT
Authentication
Authorization
Accounting
Data Protection
Storage: HDFS
Resources: YARN
Access: Hive, …
Pipeline: Falcon
Cluster: Knox
Provision,
Manage &
Monitor
Ambari
Zookeeper
Scheduling
Oozie
BETRIEB
Script
Pig
Search
Solr
SQL
Hive/Tez,
HCatalog
NoSQL
HBase
Accumulo
Stream
Storm
Others
Spark, In-
Memory,
ISV engines
DATA MANAGEMENT
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS (Hadoop Distributed File System)
Batch
Map
Reduce
YARN: Data Operating System
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Viele Mitarbeiter greifen
auf unterschiedliche
Systeme zu
Historisch gewachsene
Systemlandschaft
und Spezialsysteme
Silos mit vielfältig
strukturierten und
unstrukturierten
Daten
EDWs Marts Storage Search Servers Documents
ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten
Archives
Produktion
Management Controlling Vertrieb Produktion Logistik Analyse
Quelle:
Die Big Data Herausforderung
in herkömmlichen Systemen
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
EDWs Marts Storage Search Documents
ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten
Archives
Produktion
Management Controlling Vertrieb Produktion Logistik Analyse
Aktives, einheitliches Archiv • Vollständige Originaldaten
• Unbegrenzte Zeit, jede Quelle
Niedrige Speicherkosten
Persistente Datenhaltung • Eine Datenquelle für jedwede
Analyse
• Schneller und kostengünstiger
Self-Service BI • Einfache Such- und BI-Tools
• Reduziert Anfragen an die interne
IT
Vielfältige Analyse Plattform • Bringt die Anwendung zu den
Daten
• Echtzeit Analytik
Quelle:
Der neue Weg:
Die Anwendung zu den Daten bringen
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Hadoop ist eine der kostengünstigsten
Big Data Plattformen
Hadoop ist für alle Arten von Daten
geeignet
4
Value
Hadoop verarbeitet beliebig große Datenmengen
3
Volume
!
2
Variety
?
Hadoop skaliert linear mit der Anzahl
der Datenknoten
Velocity
1
Warum Hadoop?
Unterstützt die vier Kernaspekte von Big Data
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
2
3
… bieten professionelle Wartungspakete und
Support
1 … liefern validierte, Enterprise-fähige
Distributionen und sind international vertreten
… entwickeln zusammen mit der OpenSource
Community Hadoop ständig weiter
Welches Hadoop?
cloudera und Hortonworks …
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Preisgünstige Plattform in Hinsicht TCO (Total Cost of
Ownership)
Anschaffungskosten
Kosten für Installation und Validierung
Kosten für Betrieb und Wartung
Welche Hardware für Hadoop?
Grundanforderungen
Auf aktuelle Hardware setzen
Hochverfügbarkeit
Redundanz aller Komponenten (Netzteile, Switches etc)
Namenodes immer redundant auslegen
Mit der Anzahl der Datenknoten steigt die Fehlertoleranz
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Grundanforderungen an die Hardware
Grundanforderungen
Typische „Enterprise class“ Server
Ausgelegt für Hochverfügbarkeit und Betriebssicherheit
Die Mehrkosten hierfür sind gerechtfertigt, da nur wenige
Rechner dieser Klasse benötigt werden
Master
z.B namenode
Slaves
z.B. datanodes
Grundanforderungen
Standardserver von namhaften Herstellern
Kein Auslegung auf Hochverfügbarkeit
Jedoch: Möglichst hohe I/O pro Sekunde
Ausfallsicherheit wird durch Software abgebildet
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Beispiel für konkrete Hardware für Hadoop
„einzelne Rechenknoten“ mit lokalem Storage
Cisco Rackserver
2 CPU “sandy bridge”, 128 GB RAM, 8 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC
Speicherkapazität [DAS] pro Server
8 TB brutto, RAID 0, n=3 2,66 TB ‘netto’
100 I/Os pro HDD, n=3 266 I/Os pro Server
Speicherkapazität gesamt
2,66 TB * 4 == 10,64 TB
266 I/Os * 4 == 1064 I/Os
1 Namenode [Management Server]
4 Datanodes mit Festplatten [DAS]
Quelle
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Cisco Rackserver
2 CPU “sandy bridge”, 128 GB RAM, 1 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC
Speicherkapazität [NetApp E5560] gesamt max Ausbau 60 HDD
30 * 2 TB 60 TB brutto, n=2, 24 TB ‘netto’
300 I/Os *4 == 1200 I/Os gesamt
Speicherkapazität [LUN] pro Server
15 TB brutto, RAID 5, n=2 6 TB ‘netto’
300 I/Os pro Server
Beispiel für konkrete Hardware für Hadoop
„einzelne Rechenknoten“ mit Storageeinheiten
1 Namenode [Management Server]
4 Datanodes mit zentr. Storage
Quelle
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Hadoop storage mit E-series
Hohe Speicherdichte u. Kapazität
180TB in 4 Höheneinheiten
Geringe Standfläche
Replikationsfaktor von 2 statt 3
Geringere Netzwerk-Last
Besserer Durchsatz
Hochverfügbarkeit für Hadoop
Zuverlässiger NameNode
Schnellere cluster recovery
Eine konkrete Hardware für Hadoop
NetApp Solutions for Hadoop
Quelle
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Wächst mit Ihren
Anforderungen
Maximale Flexibilität: Die Unified Architektur stellt sicher, dass der FlexPod
auch in bestehende IT-Umgebungen eingebunden werden kann.
RZ konforme BigData
Analytics Plattform
Skalierbare und
hochverfügbare
Architektur
Schnelle, risikolose
Implementierung
Optimierter und
standardisierter Betrieb
24x7 Hotline für
Gesamtinfrastruktur
Alle Komponenten sind perfekt aufeinander abgestimmt
Schneller beschafft
Schneller implementiert
Geringerer
Managementaufwand
Eine Hotline für alles
Modulare
Referenzarchitektur –
“Building Blocks” passen
immer optimal zusammen
FlexPod Select =
Speziell optimiert für
Big Data Workloads
Mehr Betriebssicherheit mit
weniger Aufwand
Plug and Play für Ihre Hadoop Installation
NetApp Flexpod Select
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1-
latest/bk_cluster-planning-guide/content/ch_hardware-
recommendations.html
http://www.netapp.com/us/media/ar-esg-netapp-
open-solution.pdf
http://www.cloudera.com/content/cloudera/en/re
sources/library/whitepaper/evaluating-hardware-
platforms-for-cloudera.html
Mehr zum Thema „Hardware für Hadoop“
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Und was mache ich damit … ?
Analytics Tools … eine Auswahl
3rd Party Tools
Pentaho
Talend
R
KNIME
Informatica
SAS
Hunk
Rapidminer
Hadoop Tools
Hive, PIG, Mahout …
Quelle
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
2
3
Industrie 4.0
1 Leistungsfähige Big Data Infrastruktur und
Innovative Speichertechnologie
Enterprise fähige Hadoop-Distributionen
Unsere Partner für Ihren Erfolg
Infrastruktur, Big Data Technologie und Know How
Fraunhofer IOSB-INA
Anwendungszentrum Industrial Automation
Lemgo
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de www.fun.de
Weg frei für Ihre Big Data Infrastruktur
Konkreten Usecase wählen
Präsentations-termin der geplanten
Vorgehensweise
Mit allen Beteiligten Abteilungen
Workshop und gemeinsame
Durchführung
Proof of Concept
Businesscase/
Durchführbarkeit
Umsetzung / Produktiv
1 2 3 4 5
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Exzellenz in Big Data – coming next
3 3. „Data Exploration Toolbox“
für die Automotive Industry
Unsere Big Data Webinarreihe
4 „Big Data im Industrie 4.0 –
Kontext“
2 2. „Enterprise Readiness mit
Hadoop“ – Infrastrukturen für
Big Data
Heute:
27.11.14
16.01.15
www.fun.de Machen Sie mehr aus Ihren Daten www.fun.de Machen Sie mehr aus Ihren Daten! www.fun.de
Uwe Neumann Senior Sales Manager
+49 721 96448-165
www.fun.de
Michael Weiß Prokurist, Vertriebsleiter
+49 721 96448-145 www.fun.de