dutch datacenter and hosting summit 2012 – a’dam
DESCRIPTION
Presentatie van AnchorMen op het Dutch Datacenter & Hosting Summit 2012 – A’dam. In deze presentatie wordt ingegaan op een gerealiseerde Cloudera Hadoop - Twitter Big Dataoplossing. AnchorMen licht toe uit welke componenten een Big Data oplossing bestaat, daarnaast wordt aangeven op welke wijze dit geïntegreerd kan worden in organisaties gebruikmakend van AnchorMen ANANSI. Via ANANSI wordt Big Data gekoppeld aan bestaande processen en informatiesystemen waardoor organisaties klantgerichter kunnen ondernemen. Big Data draagt bij aan een optimale afstemming tussen klanttevredenheid en klantrendement.TRANSCRIPT
AnchorMen DUTCH DATACENTER AND HOSTING SUMMIT 2012 – A’DAM
PRAKTIJK CASE TWIT TER – CLOUDERA HADOOP
RUTGER WETZELS EN JARCO SCHUTRUP
Business Web Apps◦ Producten en maatwerk
◦ Technisch gedreven JAVA
◦ Koppelpartner CRM, ERP
◦ Consultancy, development en beheer
Business Flow oplossingen◦ Online beheren en bestellen van producten of diensten
◦ Kennis en informatie over bedrijven of personen
◦ Ondersteuning CRM Strategie om klantgericht te ondernemen
AnchorMen
Technische klantvragen Grote data sets;
◦ Miljoenen artikelen doorzoekbaar maken
◦ Petabytes aan data met veel toename
Variëteit en complex◦ Ongestructureerd, Social Media
◦ Analyse over verschillende structuren
Behoefte aan realtime ◦ Inspelen op actuele data
◦ Snelle verwerking/ analyse van de data
Organisatorische klantvragenBig Data in mijn organisatie?
◦ Best practices of exploratie?
◦ IT of Business?
◦ Wat is het doel?
◦ Nieuwe behoeften of bestaande problemen?
◦ Wanneer starten?
◦ Wat kan Big Data toevoegen aan CRM strategie?
◦ Hoe integreert Big Data in de processen?
◦ Hoe kan ik starten met Big Data?
ANCHORMEN ANANSI
Praktijk case: Twitter –Cloudera HadoopSocial Media integratie voor Big Data opslag en analyse
◦ Externe data◦ Twitter
◦ Interne data◦ CRM
◦ Campagne Management Tool
Toepasbaar maken van Big Data
Certificering van Cloudera Hadoop
ArchitectuurSociale media
◦ Twitter◦ 300 miljoen tweets per dag
Tweets◦ Opslaan
◦ Lange periode
◦ Relateren
◦ Analyseren◦ Periodiek
◦ Verschillende soorten informatie
◦ Resultaten◦ Lichtgewicht
Platform◦ Hadoop
Dashboard◦ MySQL
◦ Visualisatie
Hadoop
MySQL
Flume
MapReduce
Sqoop
Dashboard
HadoopInput: Twitter APIStreaming API
"text": "#Twitterbird, Guidelines:",
"retweet_count": 66,
"in_reply_to_status_id_str": null,
“id": 210462857140252672,
"geo": null,
"retweeted": true,
"possibly_sensitive": false,
"in_reply_to_user_id": null,
…
> 50 eigenschappen
1…miljoenen tweets
Twitter API
MySQL
Flume
MapReduce
Sqoop
Dashboard
HadoopInput: FlumeService voor verzamelen en verplaatsen van gegevens
Schrijft de tweets naar het Hadoop File System (HDFS)
Twitter API
MySQL
Flume
MapReduce
Sqoop
Dashboard
Dataset verspreid over de nodes
Node NNode 2Node 1
HadoopAnalyseren: MapReduce
Batchverwerking
Eenvoudig
Twitter API
MySQL
Flume
MapReduce
Sqoop
Dashboard
Map 2Map n..
Start
Reduce
Eind
Map 1
HadoopOutput: SqoopSqoop
◦ Verplaats informatie van Hadoop naar een RDBMS en vice versa
Twitter API
MySQL
Flume
MapReduce
Sqoop
Dashboard
HadoopAnalyse: WorkflowOozie
◦ Workflow scheduler◦ Manage Hadoop jobs
◦ Triggert MapReduce jobs en Sqoop jobs
Twitter API
MySQL
Flume
MapReduce
Sqoop
Dashboard
Twitter API
MySQL
Flume
MapReduce
Sqoop
Dashboard
Webinterface
Productpopulariteit per product per dag
Retweets, Mediaurls, Afbeeldingen
Cloudera HadoopRelatief eenvoudig op te zetten
Enterprise ready
Cloudera manager
Componenten◦ Flume
◦ Service voor verzamelen en verplaatsen van gegevens
◦ Impala◦ Query Engine
◦ MapReduce ◦ Framework voor het processen van data
◦ Oozie◦ Workflow Scheduler
◦ Hive◦ Query Engine
◦ Sqoop◦ Verplaats informatie van Hadoop naar een RDBMS en Vice versa
PlatformSchaalbaar
Beheersbaar
Cloud1 Cloud server, virtual nodes
Cloud nodes, dedicated
storage
Gecertificeerd CDH4 cluster
Big Data projectBig Data = Big Project?!
Durf grote vragen te stellen
Denk groot én begin klein
Discovery Workshop◦ Big Data concept◦ Demo met echte Big Data toepassing en klant herkenbare data◦ Concrete stappen
Proof of Concept◦ Snel◦ Relatief goedkoop◦ Gezamenlijk inspanning◦ Concrete en herkenbare data
Klaar voor het echte werk!
AfsluitingVragen?
[email protected] en [email protected]
http://bigdata.anchormen.nl of http://www.anchormen.nl