doag news 2013 - aufbau agiler discovery-applikationen mit oracle endeca

of 15 /15
Aufbau agiler BI- und Discovery-Applikationen mit Oracle Endeca Harald Erb ORACLE Deutschland B.V. & Co. KG, Frankfurt/Main Schlüsselworte Business Analytics, Social Media Monitoring, Endeca, Information Discovery, Data Warehouse, Business Intelligence, Big Data, Exalytics, In-Memory, Faceted Data Model, geführte Navigation Einleitung Seit Jahrzehnten stützen sich Unternehmen bei ihren Geschäftsentscheidungen auf Transaktionsdaten, die in relationalen Datenbanken gespeichert sind. Neben diesen kritischen Daten gibt es aber noch eine Vielzahl an weiteren Quellen mit zum Teil weniger streng strukturierten Daten wie Dokumenten, Social Media Daten, Sensordaten, Internet Foren, Blogs, etc., die nützliche Zusatzinformationen darstellen und erst ein ganzheitliches Bild auf geschäftliche Zusammenhänge geben können. Immer mehr Unternehmen sind daher bemüht, neben ihren herkömmlichen Unternehmensdaten auch die nicht traditionellen, aber potenziell ebenso wertvollen Daten für ihre Business Intelligence-Analysen zu nutzen. In Ergänzung zu dem DOAG-Vortrag stellt dieser Artikel nicht nur das neue Produkt Oracle Endeca Information Discovery (OEID) vor, sondern setzt es in den Gesamtkontext der Business Analytics Strategie von Oracle. Denn mit der Big Data Appliance (BDA), Exadata und Exalytics bietet Oracle ein umfassendes und eng integriertes Produktportfolio an, dass die Gewinnung und Organisation unterschiedlicher Datentypen unterstützt und gemeinsam mit den vorhandenen Unternehmensdaten auf neue Erkenntnisse und versteckte Zusammenhänge hin analysierbar macht. Endeca Information Discovery unterstützt dabei auf neuartige Weise, in dem diese Lösung die Funktionen einer Suchmaschine mit der Leistungsfähigkeit eines Business Intelligence-Werkzeugs kombiniert. Social Media Monitoring im Laborbeispiel Liest oder hört man über Big Data Applikationen, so gehört zu den häufig diskutierten Anwendungs- bereichen das systematische Beobachten und Analysieren von Social Media Beiträgen und Dialogen in Diskussionsforen, Weblogs, Communitys, etc., um u.a. die Zustimmung oder Ablehnung der Konsumenten zu Produkten, Services besser verstehen zu lernen. Fragt man etwas genauer nach, wie z.B. Sentiment Analysen praktisch umgesetzt werden sollen, dann hört man eher unkonkrete Lösungsansätze. Die Oracle Business Analytics Plattform bietet die passende Infrastruktur für die Umsetzung solcher Vorhaben. Bestehend aus der Big Data Appliance zur Bereitstellung von un- bzw. semi-strukturierten Ursprungsdaten; Exadata für die kombinierte Analyse von Big Data und traditionellen Unternehmensdaten; Exalytics für den Aufbau analytischer In-Memory Applikationen, enthält sie alle notwendigen Funktionen für die Entwicklung von Big Data (Warehouse) Applikationen. Alle Engineered Systems der Business Analytics Plattform sind per InfiniBand Netzwerkanbindung miteinander gekoppelt und erzielen zusammen eine herausragende Performance, sind äußerst skalierbar und sicher.

Author: harald-erb

Post on 03-Aug-2015

95 views

Category:

Data & Analytics


2 download

Embed Size (px)

TRANSCRIPT

1. Aufbau agiler BI- und Discovery-Applikationen mit Oracle Endeca Harald Erb ORACLE Deutschland B.V. & Co. KG, Frankfurt/Main Schlsselworte Business Analytics, Social Media Monitoring, Endeca, Information Discovery, Data Warehouse, Business Intelligence, Big Data, Exalytics, In-Memory, Faceted Data Model, gefhrte Navigation Einleitung Seit Jahrzehnten sttzen sich Unternehmen bei ihren Geschftsentscheidungen auf Transaktionsdaten, die in relationalen Datenbanken gespeichert sind. Neben diesen kritischen Daten gibt es aber noch eine Vielzahl an weiteren Quellen mit zum Teil weniger streng strukturierten Daten wie Dokumenten, Social Media Daten, Sensordaten, Internet Foren, Blogs, etc., die ntzliche Zusatzinformationen darstellen und erst ein ganzheitliches Bild auf geschftliche Zusammenhnge geben knnen. Immer mehr Unternehmen sind daher bemht, neben ihren herkmmlichen Unternehmensdaten auch die nicht traditionellen, aber potenziell ebenso wertvollen Daten fr ihre Business Intelligence-Analysen zu nutzen. In Ergnzung zu dem DOAG-Vortrag stellt dieser Artikel nicht nur das neue Produkt Oracle Endeca Information Discovery (OEID) vor, sondern setzt es in den Gesamtkontext der Business Analytics Strategie von Oracle. Denn mit der Big Data Appliance (BDA), Exadata und Exalytics bietet Oracle ein umfassendes und eng integriertes Produktportfolio an, dass die Gewinnung und Organisation unterschiedlicher Datentypen untersttzt und gemeinsam mit den vorhandenen Unternehmensdaten auf neue Erkenntnisse und versteckte Zusammenhnge hin analysierbar macht. Endeca Information Discovery untersttzt dabei auf neuartige Weise, in dem diese Lsung die Funktionen einer Suchmaschine mit der Leistungsfhigkeit eines Business Intelligence-Werkzeugs kombiniert. Social Media Monitoring im Laborbeispiel Liest oder hrt man ber Big Data Applikationen, so gehrt zu den hufig diskutierten Anwendungs- bereichen das systematische Beobachten und Analysieren von Social Media Beitrgen und Dialogen in Diskussionsforen, Weblogs, Communitys, etc., um u.a. die Zustimmung oder Ablehnung der Konsumenten zu Produkten, Services besser verstehen zu lernen. Fragt man etwas genauer nach, wie z.B. Sentiment Analysen praktisch umgesetzt werden sollen, dann hrt man eher unkonkrete Lsungsanstze. Die Oracle Business Analytics Plattform bietet die passende Infrastruktur fr die Umsetzung solcher Vorhaben. Bestehend aus der Big Data Appliance zur Bereitstellung von un- bzw. semi-strukturierten Ursprungsdaten; Exadata fr die kombinierte Analyse von Big Data und traditionellen Unternehmensdaten; Exalytics fr den Aufbau analytischer In-Memory Applikationen, enthlt sie alle notwendigen Funktionen fr die Entwicklung von Big Data (Warehouse) Applikationen. Alle Engineered Systems der Business Analytics Plattform sind per InfiniBand Netzwerkanbindung miteinander gekoppelt und erzielen zusammen eine herausragende Performance, sind uerst skalierbar und sicher. 2. Dieser Artikel beschreibt nachfolgend anhand eines Beispielszenarios (Thema: Mobilfunk) die vier wichtigsten Schritte, die fr die Entwicklung einer Analyse-Applikation im auf Basis der Oracle Business Analytics Plattform notwendig sind: Aquire Organize Analyze Decide (siehe Abb. 1). Abb. 1: Oracle Business Analytics Plattform vs. Entwicklungsschritte Neben vorhandenen Unternehmensdatenquellen (Data Warehouse, PLM-System, etc.) sollen Twitter Kurznachrichten die Datenbasis fr Social Media Analysen bilden, die spter in unserem Beispiels- zenario mit Oracle Endeca Information Discovery umgesetzt werden. 1. Aquire In unserem Beispiel mssen zunchst Twitter-Daten, eingeschrnkt nach eigenen Suchbegriffen, beschafft und direkt in die Hadoop Welt der Big Data Appliance (BDA) bertragen werden. Abb. 2 zeigt den Aufbau und die Bestandteile eines Tweets: Abb. 2: Aufbau und Inhalt einer Twitter Nachricht 3. Twitter stellt hierzu diverse Web Services APIs bereit (siehe Details zu den Schnittstellen unter http://dev.twitter.com), die es uns entweder erlauben, per Bulk-Collect (REST API) historische Tweets ber einen Zeitraum von 7 bis 10 Tagen zu erhalten, oder durch Nutzung der Streaming APIs kontinuierlich Tweets zu vorgegebenen Suchbegriffen oder einzelnen Usern in die Big Data Appliance zu laden. Voraussetzung fr das Abrufen der Twitter-Daten ist das Einrichten eines Twitter Developer Accounts, die Registrierung der eigenen lokalen Applikation bei Twitter und schlielich das Hinterlegen des Access Tokens innerhalb der BDA Umgebung. Twitter stellt die angeforderten Daten im XML-/JSON-Dateiformat bereit, daher bietet sich fr unser Szenario die dateiorientierte Speicherung der Twitter-Inhalte im Hadoop Distributed Filesystem (HDFS) der BDA an. Alternativ steht in der BDA fr die satzorientierte Speicherung der Social Media Daten die Oracle NoSQL Datenbank als Universal-Key-Value-Speicher zur Verfgung, die technisch auf Oracles Berkeley DB basiert. Abb. 3 zeigt berblicksweise, wie die Beschaffung der Twitter-Daten - hier im Beispiel mit dem Java- Programm twitter_search.jar - programmatisch umgesetzt werden kann: Mchte man nahezu in Echtzeit User-Statusmeldungen oder die Ergebnisse von eigenen Suchanfragen aus dem globalen Twitter-Stream abrufen, dann startet man mit Aufruf (Stream) einen Twitter Streaming Job, der die resultierenden Tweets in ein XML-Dateiformat wandelt und anschlieend fr die Weiterverarbeitung in ein Eingangsverzeichnis im verteilten Dateisystem (HDFS) der BDA speichert. ber diesen Weg erhlt man zusammen mit der Twitter Nachricht den Namen des Users, den Zeitstempel der Nachricht sowie einige User Metriken (Anzahl Follower und Anzahl Freunde). Alternativ lassen sich per Aufruf (Search) ltere Twitter-Daten mit eigenen Schlagworten durchsuchen. Im Ergebnis erhlt man zustzlich zu den gefundenen Tweets nur die Zeitangabe und den User Namen des Verfassers. Die o.g. User Metriken (social importance metrics), die wichtig fr die Bestimmung des Einflusses des Users in der Netzwelt sind, fehlen allerdings. ber einen User Lookup (Aufruf ) lt sich dieses Informationsdefizit allerdings beheben, in dem nachtrglich die Ergebisse der Twitter Suche (Aufruf ) um die User Metriken ergnzt werden. Abb. 3: Beispielszenario Einsammeln von Twitter Daten mit beteiligten Komponenten und Prozessflssen 4. Abb. 4: Konfiguration des Twitter Streaming/Search Jobs und Kategorisierung wichtiger Suchbegriffe Fr unser Beispielszenario werden rund um das Thema Mobilfunk die wichtigsten Suchbegriffe in einer einfachen Konfigurationsdatei hinterlegt und kategorisiert (Abb. 4). Z.B. bilden die Begriffe @iPhone, @iPhone3, @iPhone4 eine Kategorie IP. Die vom Twitter Streaming Job abgerufenen Ergebnisse werden dann bei der Umformatierung in ein XML-Ausgabeformat noch zustzlich um eine entsprechende Kategorieinformation erweitert. Dieser Verabeitungsschritt ermglicht spter das Organisieren der Daten mittels des Hadoop-Frameworks MapReduce. 2. Organize Nach der gezielten Beschaffung der Twitter-Daten findet in unserem Beispielszenario nun das Programmier-Framework MapReduce seine Anwendung. Ziel ist dabei die Durchfhrung einer Sentiment Analyse, um aus den Twitter Nachrichten systematisch die Konsumentenzustimmung bzw. -ablehnung zu Produkten oder Services ermitteln zu knnen (siehe Abb. 5). Die Sentiment Analyse selbst ist simpel gehalten: der Text eines Tweets wird tokenisiert, ein Fuzzy-Match-Algorithmus durchsucht dafr hinterlegte Wrterbcher nach passenden positiven oder negativen Wrtern. Wird ein positives Wort gefunden, erhht sich der Sentiment Score um ein Inkrement, bei negativen Treffern reduziert sich der Score entsprechend. Fr die Anwendung anspruchsvollerer Methoden bietet die Oracle Big Data Appliance zustzliche In-Database Funktionen, wie z.B. Text Mining, Data Mining, die Statistikumgebung Project R oder untersttzt auch Semantikanalysen. Abb. 5: Beispielszenario Sentiment Score der Tweet Nachrichten berechnen 5. Die MapReduce Jobs fassen bei unserem Mobilfunkbeispiel in der Mapper-Phase die Tweets und ihre errechneten Sentiment Scores nach bestimmten Kriterien zusammen: z.B. auf Tagesbasis, nach Telekommunikationsprovidern (VF = Vodafone), nach den im Aquire-Schritt festgelegten Tweet- Kategorien (Staff, Contracts, iPhone, etc.), nach Twitter Usern, usw. Im Ergebnis produziert der Mapper Key-Value-Paare (siehe Abb. 6), die im Anschluss die Shuffle & Sort Phase durchlaufen bevor sie an den Reducer bergeben werden. Abb. 6: Beispielszenario Map Filtern und Interpretieren der Twitter Daten Fr unser Beispielszenario fasst Abb. 7 die beteiligten Komponenten (reprsentiert durch das Java- Programm mobile_mr.jar) und die in der Mapper-Phase zu erledigenden Aufgaben zusammen. Abb. 7: Zugehrigen Komponenten fr das Map Beispielszenario In der Reducer-Phase erfolgt schlielich die Weiterverarbeitung der sortierten Schlssel und Werte- Arrays. Im Beispielszenario entstehen dabei neue Key-Value-Paare mit nun zwei Metriken: dem aufsummierten Sentiment Score und die Anzahl der Vorkommnisse pro Schlssel (vgl. hierzu Abb. 8). Der letzte Schritt ist wiederum die Ausgabe der vom Reducer generierten finalen Key-Value-Paare, die nun als Textdateien im HDFS abgelegt werden (pro MapReduce Job ein eigenes Verzeichnis). 6. Abb.8: Beispielszenario Reduce mit den beteiligten Komponenten An dieser Stelle knnte man in der Big Data Appliance mit Hive, einem mchtigen MapReduce-Job, erste Auswertungen durchfhren, ohne eine Oracle Datenbank dazu zu verwenden. Hive erweitert Hadoop mit einer eigenen Anfragesprache HQL um Data-Warehouse-Funktionalitten. HQL basiert auf SQL und ermglicht dem Entwickler somit die Verwendung einer SQL-hnlichen Syntax. In unserem Beispiel soll spter einmal der Marketing-Bereich eines Telekomunikationsanbieters mit Oracle Endeca Information Discovery die Tonalitt der Twitter-Posts seiner Konsumenten fr eine gezielte Kundenansprache nutzen knnen. Dafr werden die Ergebisse der MapReduce-Jobs mit dem Oracle Direct Connector for HDFS (ODCH) via InfiniBand Netzwerkverbindung in eine Oracle Datenbank geladen, siehe hierzu Abb. 9. Abb. 9: Beispielszenario Laden der MapReduce Ergebnisse in das Exadata Data Warehouse Die im verteilten Dateisystem der BDA abgelegten Key-Value-Paare knnen somit im Exadata Data Warehouse ber eine externe Tabelle bequem mit SQL abgefragt und weiterverarbeitet werden. Fr unser Beispielszenario ist das ein wichtiger Punkt, denn es gilt die neuen Erkenntnisse aus dem Social Media Monitoring mit den Kundeninformationen im Enterprise Data Warehouse zu verknpfen. Rein praktisch wre dies mglich, wenn die Kunden unseres Telekommunikationsanbieters z.B. ber eine Opt-in Manahme gegen eine kleine Belohnung ihren Twitter User Namen bekanntgeben. Aufgrund dieser Verknpfung knnen nun auch technisch die Unternehmensdaten mit den aufbereiteten Social Media Daten vereint und mit Hilfe der Exadata In-Database Analytik fr eine groe Anzahl von Anwendern genutzt werden (Abb. 10). 7. Abb. 10: Merge der MapReduce Ergebnisse mit den Unternehmensdaten im Enterprise Data Warehouse 3. Analyze In unserem Beispielszenario haben wir nun die Sentimente zu allen Tweets errechnet, die wir zu diesem Zweck vom globalen Twitter Stream in die Big Data Appliance bertragen und anschlieend nach verschiedenen Kategorien (auf Tagesbasis, nach Hersteller, Mobilfunkkunden, Service Aspekte) aggregiert haben. Ferner kennen wir aufgrund einiger Metriken (Anzahl Freunde, Anzahl Follower) die Social Importance der Verfasser zu den von uns untersuchten Tweets. Durch das Laden der veredelten Twitter-Daten in das Enterprise Data Warehouse (Exadata) und die Verknpfung mit den vorhandenen Unternehmensdaten, lt sich nun beispielsweise ber die Zeit die Kundenzufriedenheit darstellen. Es knnen aber auch Trends ermittelt und die Kundenzufriedenheit der eigenen Kunden mit denen des Wettbewerbs verglichen werden. Mit den bekannten analytischen Fhigkeiten der Oracle Datenbank lt sich also nun herausfinden: Welche knomisch wichtigen Kunden sind aufgrund bestimmter Mistnde zunehmend frustriert? Oder: Bei welchen Kunden- vertrgen ist mit hherer Wahrscheinlichkeit mit einer Kndigung zu rechnen? Welche Kunden sind, im Social Media Kontext betrachtet, die Meinungsmacher und nehmen Einfluss auf mein Geschft? Zur Umsetzung der meisten o.g. Fragestellungen wrde man vermutlich den klassischen Data Warehouse- und Business Intelligence Ansatz whlen und fr die Fachanwender, vom zentralen Entprise Data Warehouse (Datenmodell) ausgehend, themenspezifische Data Marts (relational / multidimensional) ableiten, die fr einen definierten Zeitbereich verdichtete Informationen enthalten. Auf diesen auswerteoptimierten Datenquellen lt sich dann mit der Exalytics BI Machine und der Business Intelligence Foundation Suite eine unternehmensweit einsetzbare BI-Plattform aufbauen, die es den Fachanwendern erlaubt, per Self-Service BI alle relevanten Geschftsinformationen abzurufen oder graphisch untersttzt eigene Analysen durchzufhren. Hier kann man sich nun die Frage stellen: Wozu also jetzt Endeca einsetzen? Wozu der Artikel ber agile BI und Discovery Applikationen? Aus Oracle Sicht kann man zwischen zwei Arten von Fragestellungen unterscheiden, mit denen analytische Applikationen umgehen mssen. Zum einen gibt es den Typ von Business Fragestellungen, bei denen im Voraus die entsprechenden Geschftsprozesse und die dazu bentigten Daten durch die Fachseite bekannt sind: Wie stellt sich die Umsatzprognose nach Region fr eine 8. bestimmten Zeitraum dar? Oder: Wie ist die Performance meiner Organisation im Vergleich zu den gesetzten Zielen? Zum anderen gibt es Fragestellungen, bei denen weder der entsprechende Geschftsprozess noch die bentigten Daten vorab durch die Fachseite definiert werden knnen: Auf welche Kunden sollen wir uns fokussieren? Warum gehen meine Verkaufszahlen zurck? Interessant ist dabei zu sehen, dass der zweite Fragentyp aufgrund seines offenen Charakters im Vergleich zum ersten Typ viel kurzlebiger ist und eher neue Fragen hervorbringt, als abschlieend beantwortet zu werden. Das Interaktionsmodell fr die bekannten Fragestellungen kann man ganz gut mit dem Nachsehen von aufbereiteten Informationen beschreiben, z.B. mittels eines Standardberichts oder eines BI Dashboards so wie es heute mit traditionellen Business Intelligence Mitteln umgesetzt wird. Bei den heute noch unbekannten aber morgen schon von den Fachanwendern nachgefragten Analysen ist dagegen ein Interaktionsmodell erforderlich, das eher die Datenerkundung bzw. das Entdecken neuer Zusammenhnge (Data Discovery) untersttzt. Siehe hierzu Abb. 11. Abb. 11: Komplementre Lsungen: Data Discovery vs. Business Intelligence Betrachtet man in Abb. 11 zustzlich den Aspekt der Datenmodellierung, so finden wir bei Business Intelligence Lsungen in der Regel den allumfassenden Semantischen Layer vor, dessen Aufbau und Pflege Zeit und Geld kostet. Investitionen dieser Art werden von Unternehmen nur gettigt, wenn sich die Anstrengungen durch Effizienzgewinne bei der Informationsbeschaffung wieder amortisieren. Gleichzeitig sinken weiterhin die Kosten fr Speichermedien und mit der Popularisierung von Hadoop steigen die Aussichten, dass aus nicht-modellierten Daten Nutzen gezogen werden kann. Das Ergebnis ist eine Explosion bei der Erfassung nicht-modellierter Daten (also Social Media Daten, Sensordaten, usw.) durch die Unternehmen. Aus diesen beiden Blickwinkeln erkennt man, dass sich traditionelle Business Intelligence Lsungen und Data Discovery Lsungen ergnzen knnen: Die nach den Anforderungen der Fachseite aufgebaute Business Intelligence Anwendung liefert qualittsgesicherte Ergebnisse fr bekannte Fragestellungen. Es knnen aber auch neue Fragen aufgeworfen werden, deren Beantwortung unter Umstnden erst mit einem neuen Release der BI Anwendung oder gar des Data Warehouses mglich ist im schlimmsten Fall ist die Anforderung bis dahin schon obsolet geworden. Mit einer Data Discovery Lsung von Endeca sind dagegen neue fachliche Fragestellungen schneller beantwortbar. Inbesondere dann, wenn die dafr notwendigen Informationen in den unterschiedlichsten Formaten vorliegen (strukturiert, semi-strukturiert,unstrukturiert) und in den verschiedensten Systemen gespeichert sind (Data Warehouse, operativ genutzte Datenbanken, Office-Dokumente). Stellt sich bei 9. der Arbeit mit Endeca Information Discovery heraus, dass die beantworteten Fragestellungen regelmig bentigt werden, kann dies als Anforderung in die Releaseplanung fr die nchste Data Warehouse Version bzw. Version der Business Intelligence Applikation einflieen. Zurck zu unserem Beispielszenario: In Abb. 12 wird der oben beschriebene typische Endeca Fall dargestellt. Ein Groteil der zu analysierenden Daten (inkl. der aufbereiteten Tweets) stammen aus dem Entprise Data Warehouse (Exadata), weitere Zusatzinformationen liefern in strukurierter Form die Datenbank eines Product Lifecycle Management Systems (detailierte Gertebeschreibungen) und in semi-strukturierter Form (Vertragsdokumente) ein Content Management oder CRM System. Abb. 12: Model As You Go Ansatz mit Endeca Information Discovery In einem Datenintegrationsschritt werden die Informationen aus den unterschiedlichen Quellen miteinander verknpft und in der Exalytics-Umgebung als denormalisierter Endeca Record im Endeca Server, einer spaltenorientierten In-Memory-Datenbank, gespeichert (siehe Abb. 13). Abb. 13: Aufbau eines denormalisierten Endeca Records 10. Die facettierte Datenhaltung im Endeca Server kommt ohne Tabellen und vordefiniertes Datenmodell (Schema) aus. Die Datenstze selbst werden als Sammlung von Key-Value-Paaren gespeichert, dabei kann jeder Datensatz anders aufgebaut sein das Facetten Datenmodell leitet sich automatisch aus den geladenen Daten ab. Das bedeutet in Abb. 14 zum Beispiel, dass es Datenattribute gibt, die exklusiv nur im Data Warehouse, im Product Lifecycle Management System (PLM) oder in den (Meta-)Daten der geladenen Dokumente vorkommen. Andere (globale) Attribute finden sich in mehreren oder allen Datenquellen wieder. Ferner lt der Endeca Server auch die Speicherung von semi-strukturierten Daten und Multi-Value Feldern zu. Abb. 14: Endeca Daten Modell Aufgrund dieser Charakteristik knnen analytische Anwendungen schnell implementiert und iterativ weiterentwickelt werden. Z.B. kann sich die Erweiterung der Produkt Dimension in einem relationalen Data Warehouse Schema (Abb. 15) beim stndigen Hinzufgen neuer Produkt-Facetten auf die Dauer als komplex erweisen. Der Endeca Data Store kann hingegen mit einer flachen, XML-hnlichen Struktur bestehend aus sich selbst beschreibenden Key-Value-Paaren verglichen werden, die sich beliebig erweitern lsst. Abb. 15: Relationales Star Schema vs. XML-hnlich strukturierter Datenhaltung im Endeca Server 11. Abb. 16: Oracle Endeca Information Discovery Integrator Fr das Laden der Daten aus den verschiedenen Quellsystemen kommt die Endeca Integration Suite zum Einsatz, die aus einem leistungsfhigen Werkzeug CloverETL (siehe Abb. 16), System- Konnektoren und Content-Enrichment-Bibliotheken fr die Zusammenfhrung und Anreicherung vielfltiger Informationen besteht. Sie ermglicht die effiziente Vernetzung von strukturierten und unstrukturierten Daten zu einer einheitlichen, integrierten Sicht. Die Kommunikation mit dem Endeca- Server erfolgt ber Webservices, fr groe Datenmengen gibt es ein Bulk-Loader-Interface. Whrend des Betriebs knnen neue Daten zum Endeca Data Store hinzugefgt oder bereits gespeicherte Informationen aktualisiert werden, ohne dass eine Neuindexierung aller Daten erforderlich ist. Fr unser Beispielszenario ist das zur Integration Suite zugehrige Content Acquisition System (CAS) interessant. Dabei handelt es sich um eine Crawling-Umgebung, die verschiedene Konnektoren zur Integration unstrukturierter Daten bietet in unserem Fall zum Erfassen der Vertragsdokumente im MS Office oder PDF-Format geeignet. Zum weiteren Leistungsumfang zhlt auch ein Webcrawler zur Anbindung von Internet-Foren, Twitter oder Facebook. Die Endeca Integration Suite ermglicht optional auch die Einbindung von Text-Analyse- und Text- Mining-Produkten von Drittanbietern. Auf diesem Weg lassen sich wichtige Begriffe (wie Personen-, Orts- und Firmen-Namen) aus textbasierten Informationsquellen extrahieren oder Sentiment-Analysen durchgefhren, um die positive/negative Tonalitt eines Forenbeitrags oder die Produktzustimmung/ - ablehnung von Konsumenten erkennen zu knnen. Fr unser Beispielszenario wre dies also eine Alternative zu unserer selbstprogrammierten Sentiment Analyse in der Big Data Appliance. 12. Abb. 17: Oracle Endeca Information Discovery Integrators 4. Decide Wie im vorigen Abschnitt fr den Endeca Server schon beschrieben, kann auf der Exalytics BI Machine neben der Business Intelligence Foundation Suite auch die gesamte Endeca Infrastruktur betrieben werden (siehe Abb. 17). Dazu gehrt als Middleware-Komponente Oracle Endeca Studio, eine webgesttzte Infrastruktur, auf die Endanwender ber einen Browser zugreifen knnen. Fr die Anwender steht eine Bibliothek mit zahlreichen vorgefertigten Portlets zur Verfgung, die per Drag & Drop auf die Anwenderoberflche gezogen und dort konfiguriert werden knnen eine Auswahl an Portlets zeigt Abb. 18. In kurzer Zeit lassen sich so von Beginn an neue BI Anwendungen mit der vollumfnglichen Auswahl an Attributen erstellen, die im Endeca Datenmodell vorhanden sind (das knnen hunderte oder gar tausende von Attributen sein). Eine Java-API erlaubt zudem die Entwicklung weiterer Visualisierungs- und Filterkomponenten. Abb. 18: Auswahl vorgefertigter Portlets in Endeca Studio 13. Die Funktionsweise von Endeca Studio erlaubt eine Vielzahl von Abfragemglichkeiten. Neben interaktiven Visualisierungen, Analysen, Bereichsfiltern, Tag Clouds, etc. sind die beiden Portlets Guided Navigation und Search Box unverzichtbare Schlsselfunktionen einer agilen Endeca BI Applikation. Denn insbesondere die umfassende Volltextsuche in den semi- bzw. unstruktierten Daten des Endeca Data Stores (siehe Abb. 19) ergibt am Ende, kombiniert mit einem leistungsfhigen BI- Tool, die Mglichkeit neue Zusammenhnge in den Daten zu erkennen. Abb. 19: Endeca Studio Portlets Search Box und Metrics Bar Abb. 19 zeigt ferner, dass der Endeca-Server fr die Berechnung und Darstellung von Metriken oder fr Ad-hoc-Abfragen ber eine Analyse-Sprache, der Endeca Query Language (EQL), verfgt. EQL ist mit SQL-hnlicher Syntax verwendbar. Ein weiteres Highlight sind die Geodatenfilter, die Umkreissuchen und das Festlegen von Bereichsfiltern in Karten ermglichen. Abb. 20: Blick hinter die Kulissen des Endeca Studio Portlets Map Und so kann eine agile BI Applikation fr unser Social Media Beispielszenario aussehen: Eine Anwenderoberflche, in der jedes Attribut, das in den Endeca-Datenstzen enthalten ist, als Filter-Kriterium 14. dienen kann. Alle Charts und Filtermglichkeiten berechnen sich direkt nach jedem Filter neu und die Faceted Navigation zeigt dabei stets die aktuell gltigen Navigationsoptionen an. So werden Ergebnisse immer neu zusammengefasst prsentiert, die Nutzer bekommen so einen Anhaltspunkt, wie sie die Ergebnisse weiter verfeinern und erkunden knnen. Abb. 21: Social Media Monitoring mit Oracle Endeca Information Discovery 15. Fazit Der Artikel hat anhand eines Beispiels beschrieben, wie die enorme Menge und Vielfalt an Daten, die heutzutage in unserer Informationsgesellschaft entstehen, mit einer End-to-End Lsung von Oracle, bestehend aus der Big Data Appliance, Exadata und Exlytics, bewltigt und mit Unternehmensdaten kombiniert ausgewertet werden kann. Agile BI-Anwendungen lassen sich insbesondere mit Oracle Endeca Information Discovery schnell realisieren, siehe zusammenfassend dazu Abb. 22: Abb. 22: Model As You Go Applikationen sind in Wochen oder Monaten realisierbar Weiterfhrende Informationen [1] Jean-Pierre Dijcks: Oracle: Big Data for the Enterprise, An Oracle White Paper, Januar 2012, http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/1453236.pdf [2] V. Murthy, M. Goel, A. Lee, D. Granholm, S. Cheung: Oracle Exalytics In-Memory Machine: A brief introduction, An Oracle White Paper, Oktober 2011, http://www.oracle.com/us/solutions/ent-performance-bi/business-intelligence/exalytics-bi- machine/overview/exalytics-introduction-1372418.pdf [3] o.V.: A Technical Overview of Oracle Endeca Information Discovery, An Oracle White Paper, Mai 2012, http://www.oracle.com/us/solutions/ent-performance-bi/oeid-tech-overview-1674380.pdf [4] M. Klein: Informationen mit Oracle Endeca Information Discovery entdecken, DOAG News 4- 2012 [5] C. Czarski: Big Data: Eine Einfhrung, Oracle Dojo Nr. 2, Mnchen 2012, http://www.oracle.com/webfolder/technetwork/de/community/dojo/index.html Kontaktadresse: Harald Erb ORACLE Deutschland B.V. & Co. KG Robert-Bosch-Strae 5 D-63303 Dreieich Telefon: +49 (0) 6103-397 403 Fax: +49 (0) 6103-397 397 E-Mail: [email protected] Internet: www.oracle.com