ia innovatieve marketingcommunicatie. sessie 6. werk met big data voor wijze strategische...

21
Big Data: Business, not as usual Dr. Ir. Patrick A. De Mazière

Upload: ikinnoveer

Post on 29-Jul-2015

98 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Big Data: Business, not as usualDr. Ir. Patrick A. De Mazière

Page 2: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Structuur Workshop

• 1.5u Big Data: wat, spelers en analysetechnieken big data analyses at your service…

• 30’ Pauze• 1.5u Jullie & Big Data, interactief How-to Tips & tricks Weetjes

Page 3: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Bio• Patrick De Mazière, °1973

• Burg. Ir. Computerwetenschappen, Programmatuur (KU Leuven, 1998)

• PhD Biomedische wetenschappen (KU Leuven, 2007)

• Masterclass High-Tech Entrepreneurship (KU Leuven-LRD, 2010)

• Postdoc, Neurofysiologie/Fac. Geneeskunde (KU Leuven, 2007 -)

Lid stuurgroep KU Leuven HPC (2005 - 2010)

Data/Text Mining (~ HPC)

Hersenonderzoek via mathematische modellen (~ HPC + Data Mining)

Statistiek

Onderwijsprojecten

• Lector TI & Onderzoekscoördinator Zorg & ICT (UCLL, 2012 -)

Page 4: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Terminologie: big, deep, broad data• Big Data ~ data wetenschap:

Gigantische datasets (on)gestructureerd en bijhorende algoritmes om patronen, trends etcte detecteren in die datasets. Meestal gerelateerd aan het menselijke gedrag. Big data is om anderen te observeren

• Deep Data: Combinatie van een expert zijn domeinkennis met data wetenschap. Gevorderde interpretaties en pre-processing mogelijkheden. Deep data is meestal ook gecollecteerd met een bepaalde bedoeling/analyse in het achterhoofd. Deep data is om te reflecteren

• Broad data: Niet noodzakelijk big data, maar eerder gestratificeerde & diverse data (bronnen). Zoveel mogelijk weten vanuit verschillende standpunten, invalshoeken in plaats van veel te weten vanuit 1 invalshoek. Is dus om bestaande data te verrijken.

Page 5: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Big Data

Refereert aan 3,5 zaken• Big• Data

• Analyse

• Interpretatie resultaten

Page 6: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Wat is BigSchaal: Byte Kb Mb Gb Tb Pb Exab Zettab Yottab

• 8 keer 0 of 1 8 bit of 1 byte

• Deze presentatie ± 15 Megabyte

• DVD (= ± 6.5CDs) 4.5 Gigabyte

• Een doorsnee univ-bib 1 Terabyte of 3j lang muziek aan CD kwaliteit

• Ons menselijk functionele geheugen ± 1.25 Tb

• UZ Leuven, PACS systeem (2015) 1.6 Petabyte

Anno 2014: Rijstkorrels / jaar opgegeten = 27.5 quadriljoen (27.5 peta korrels)

Wereldwijd data-verbruik / 30 minuten = 40.4 petabytes

Page 7: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Wat is DataAlles wat ge kunt “bedenken”• Hopen cijfertjes (CERN, bevolkingsdata, …)• Gouden Gids• Medisch (fMRI, MRI, PET, CT scanners, EMD/GMD, …)• Biomedisch (omeomics: genomics, proteomics, ….)• Verkeersinformatie (~ Google Maps + traffic info)• Social Media Interacties (FB, Google+, Twitter, LinkedIn, …)• …

Page 8: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Wie is/levert Big Data (2012)fMRI data (hersenscan /1u @ 1.5M res/2s) 80 Gb

Database Google Earth (2014) > 20 Pb

Dropbox > 50 Pb

Facebook Cloud > 300 Pb

Microsoft Cloud (Azure + Hotmail) > 300 Pb

CERN Data cloud (Budapest + Geneva) 340 Pb

Google Cloud > 600 Pb

Amazon’s cloud > 900 Pb

Bronnen: http://www.extremetech.com/computing/129183-how-big-is-the-cloud, 2012

Kostprijs voor 40Pb /maand = ± $100.000Google betaalde in 2007 2.4 mia$ voor zijn datacenters

Big data = big business

Page 9: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

FB in detail (2012)• 9% dagelijkse internet-verkeer

• > 1 000 000 000 000 (1T) webpage views/maand

• 300 miljoen foto’s extra /dag

• > 1 miljoen websites

• > 550 000 applicaties gelinkt aan FB (Candy Crush, Farmville, ….)

• > 10 data centers; 60.000 servers

• 845 miljoen gebruikers / maand

• De echte grootte ? Company secret

FB Data center in North Carolina; 2.8 hectare; 60 MegaWatt

Bron: http://www.datacenterknowledge.com/the-facebook-data-center-faq/

Page 10: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Google in detail (2014)• 425 mio Gmail gebruikers

• Google (Dremel) scant ±70 mia items/sec; 2 mio zoekopdrachten/sec

• 16 data centers (900k servers): US/EU: 9/7; 260MW of 0.01% wereldverbruik E

• Google zal alle boeken (129 mio) gescand hebben voor 2020

• Slechts 16% van de dagelijkse internet searches zijn nieuw voor Google

• Google int 60 mia$/jaar door zijn advertising in 2014

• Op 16/8/2013 was Google offline gedurende 5 minuten => internet trafiek -40%

• 1 Google zoekopdracht vereist meer rekenkracht > Apollo 11 maanlanding

• Google Maps Traffic info ? Google traceert alle online Android devices continu

Bron: https://storageservers.wordpress.com/2013/07/17/facts-and-stats-of-worlds-largest-data-centers/http://www.factslides.com/s-Google

Page 11: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Analysemethoden in Big Data Teaser• Aandachtspunten• Numerieke & Visuele analysetechnieken

Computerkracht vs realiteit• Wet van Moore: computerkracht x2 / 18 maanden• Wet van Carlson: complexiteit/cost groeit exponentieel

Page 12: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

2. “Numerieke” analysemethodes• Summatieve statistiek (gemiddelde, variantie, sd, …)• (Multivariate) analyses: ANOVA, MANOVA, ANCOVA, …• Model-gebaseerde technieken

~ Fitten van data aan een functie (rechte, polynoom, …)~ (Lineaire) Regressie modellen

• Unsupervised categorisatie >> predictie• Feature extractie (prototypes)

Vaak weet je op voorhand wat je zoekt, ga je uit van een bepaald model. Bruikbaarheid is beperkt, al levert het indicaties.

Page 13: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

3. Visuele analysemethodes

Ook numeriek uiteraard, maar beter interpreteerbaar

• Parallelle coördinaten

• Supervised clustering (k-means, Fuzzy clustering, …)

• Projectie technieken (PCA, MDS, …)

• AI/Machine Learning: Self-organising maps (SOM), U-maps

Meestal vrij complexe berekeningen (die veeeeel tijd & CPU vragen), maar wel zeer verhelderend zijn en meestal niet-model gebaseerd

Page 14: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Text mining

• Elk document wordt voorgesteld in functie van aanwezige woorden (elk woord-stam is een dimensie). Aantal voorkomens wordt bijgehouden

• Verzameling documenten kan je dan mappen op de unie van al deze dimensies van de verschillende documenten.

= veel getallekes (teveel om te vatten)=> Visualiseren (MultiDimensional Scaling bijvoorbeeld)

Page 15: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Text Mining – MDS voorbeeld

Page 16: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Genoeg theorie, toepassingen nu

Boost your business !• Ken uw concurrenten en hun producten !• Ken uw product. Positionering !• Ken uw klanten !

=> Deze info is op social media/internet te vinden

Page 17: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Social Media gebruiken ? Ja, maar…

• FB, Google+, … hebben data zat over jou, je klanten en je concurrenten, maar ze (ver)sturen je die uiteraard niet op (simpel) verzoek

• Oplossing: methodisch, indirect werken en de social media voor jou laten werken en eventueel zelf data verzamelen

Page 18: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Strategie: 1. Definieer InfluencersDefinieer je influencers : zij die jouw kar gaan trekken

1. Relevantie/Context: • In welk domein wil je actief worden ?• Wie is daar nog actief ?

2. Wat is hun bereik ? • Hoeveel followers, readers, likes, connecties moeten ze hebben? • In welk domein moeten die mensen voornamelijk zitten ?

3. Wat moet hun activiteitsgraad/resonantie zijn ?• Followers moeten niet alleen lezen maar ook het product kopen• Zijn het echte beïnvloeders of gewoon goede cursiefjes schrijvers• Zijn het mensen met gezag/aanzien/naam

Page 19: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Strategie: 2. Zoek die InfluencersZoek die influencers

1. Search Engine Optimisation (SEO)• Gewoon goed googlen, bingen, …• Search Engines gebruiken social media invloed in hun pageranks• Google alerts (https://www.google.com/alerts)

2. Gebruik je eigen netwerk (uiteraard)

3. Gebruik Social Media crawlers : 1. www.klout.com, 2. www.traackr.com3. www.kred.com4. www.kissmetrics.com5. www.appinions.com6. buzzsumo.com7. www.brandwatch.com

4. Werk je in, in de social media (bijv. hashtag research > hootsuite) om meer van hen te weten of gebruik www.pipl.com.

Page 20: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

Strategie: 3. Bind die InfluencersBind de gevonden influencers aan je; maak er een win-win van

1. Renumeratie

2. Nog beter: betrek ze, maak ze actief in je proces:• Product verbetering• Verbeterde product-plaatsing• Promoveer ze tot early-adopters

3. Onderhoud die relaties: geen single action, maar luister ook naar hun ideeën: zij kennen dat domein misschien beter dan jij

Optimiseer je eigen website ook! (google analytics, kissmetrics)

Page 21: IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze strategische beslissingen deel 1. Patrick De Mazière. UCLeuven-Limburg

En nu jullie !

Na de pauze….