ia innovatieve marketingcommunicatie. sessie 6. werk met big data voor wijze strategische...

Post on 29-Jul-2015

98 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Big Data: Business, not as usualDr. Ir. Patrick A. De Mazière

Structuur Workshop

• 1.5u Big Data: wat, spelers en analysetechnieken big data analyses at your service…

• 30’ Pauze• 1.5u Jullie & Big Data, interactief How-to Tips & tricks Weetjes

Bio• Patrick De Mazière, °1973

• Burg. Ir. Computerwetenschappen, Programmatuur (KU Leuven, 1998)

• PhD Biomedische wetenschappen (KU Leuven, 2007)

• Masterclass High-Tech Entrepreneurship (KU Leuven-LRD, 2010)

• Postdoc, Neurofysiologie/Fac. Geneeskunde (KU Leuven, 2007 -)

Lid stuurgroep KU Leuven HPC (2005 - 2010)

Data/Text Mining (~ HPC)

Hersenonderzoek via mathematische modellen (~ HPC + Data Mining)

Statistiek

Onderwijsprojecten

• Lector TI & Onderzoekscoördinator Zorg & ICT (UCLL, 2012 -)

Terminologie: big, deep, broad data• Big Data ~ data wetenschap:

Gigantische datasets (on)gestructureerd en bijhorende algoritmes om patronen, trends etcte detecteren in die datasets. Meestal gerelateerd aan het menselijke gedrag. Big data is om anderen te observeren

• Deep Data: Combinatie van een expert zijn domeinkennis met data wetenschap. Gevorderde interpretaties en pre-processing mogelijkheden. Deep data is meestal ook gecollecteerd met een bepaalde bedoeling/analyse in het achterhoofd. Deep data is om te reflecteren

• Broad data: Niet noodzakelijk big data, maar eerder gestratificeerde & diverse data (bronnen). Zoveel mogelijk weten vanuit verschillende standpunten, invalshoeken in plaats van veel te weten vanuit 1 invalshoek. Is dus om bestaande data te verrijken.

Big Data

Refereert aan 3,5 zaken• Big• Data

• Analyse

• Interpretatie resultaten

Wat is BigSchaal: Byte Kb Mb Gb Tb Pb Exab Zettab Yottab

• 8 keer 0 of 1 8 bit of 1 byte

• Deze presentatie ± 15 Megabyte

• DVD (= ± 6.5CDs) 4.5 Gigabyte

• Een doorsnee univ-bib 1 Terabyte of 3j lang muziek aan CD kwaliteit

• Ons menselijk functionele geheugen ± 1.25 Tb

• UZ Leuven, PACS systeem (2015) 1.6 Petabyte

Anno 2014: Rijstkorrels / jaar opgegeten = 27.5 quadriljoen (27.5 peta korrels)

Wereldwijd data-verbruik / 30 minuten = 40.4 petabytes

Wat is DataAlles wat ge kunt “bedenken”• Hopen cijfertjes (CERN, bevolkingsdata, …)• Gouden Gids• Medisch (fMRI, MRI, PET, CT scanners, EMD/GMD, …)• Biomedisch (omeomics: genomics, proteomics, ….)• Verkeersinformatie (~ Google Maps + traffic info)• Social Media Interacties (FB, Google+, Twitter, LinkedIn, …)• …

Wie is/levert Big Data (2012)fMRI data (hersenscan /1u @ 1.5M res/2s) 80 Gb

Database Google Earth (2014) > 20 Pb

Dropbox > 50 Pb

Facebook Cloud > 300 Pb

Microsoft Cloud (Azure + Hotmail) > 300 Pb

CERN Data cloud (Budapest + Geneva) 340 Pb

Google Cloud > 600 Pb

Amazon’s cloud > 900 Pb

Bronnen: http://www.extremetech.com/computing/129183-how-big-is-the-cloud, 2012

Kostprijs voor 40Pb /maand = ± $100.000Google betaalde in 2007 2.4 mia$ voor zijn datacenters

Big data = big business

FB in detail (2012)• 9% dagelijkse internet-verkeer

• > 1 000 000 000 000 (1T) webpage views/maand

• 300 miljoen foto’s extra /dag

• > 1 miljoen websites

• > 550 000 applicaties gelinkt aan FB (Candy Crush, Farmville, ….)

• > 10 data centers; 60.000 servers

• 845 miljoen gebruikers / maand

• De echte grootte ? Company secret

FB Data center in North Carolina; 2.8 hectare; 60 MegaWatt

Bron: http://www.datacenterknowledge.com/the-facebook-data-center-faq/

Google in detail (2014)• 425 mio Gmail gebruikers

• Google (Dremel) scant ±70 mia items/sec; 2 mio zoekopdrachten/sec

• 16 data centers (900k servers): US/EU: 9/7; 260MW of 0.01% wereldverbruik E

• Google zal alle boeken (129 mio) gescand hebben voor 2020

• Slechts 16% van de dagelijkse internet searches zijn nieuw voor Google

• Google int 60 mia$/jaar door zijn advertising in 2014

• Op 16/8/2013 was Google offline gedurende 5 minuten => internet trafiek -40%

• 1 Google zoekopdracht vereist meer rekenkracht > Apollo 11 maanlanding

• Google Maps Traffic info ? Google traceert alle online Android devices continu

Bron: https://storageservers.wordpress.com/2013/07/17/facts-and-stats-of-worlds-largest-data-centers/http://www.factslides.com/s-Google

Analysemethoden in Big Data Teaser• Aandachtspunten• Numerieke & Visuele analysetechnieken

Computerkracht vs realiteit• Wet van Moore: computerkracht x2 / 18 maanden• Wet van Carlson: complexiteit/cost groeit exponentieel

2. “Numerieke” analysemethodes• Summatieve statistiek (gemiddelde, variantie, sd, …)• (Multivariate) analyses: ANOVA, MANOVA, ANCOVA, …• Model-gebaseerde technieken

~ Fitten van data aan een functie (rechte, polynoom, …)~ (Lineaire) Regressie modellen

• Unsupervised categorisatie >> predictie• Feature extractie (prototypes)

Vaak weet je op voorhand wat je zoekt, ga je uit van een bepaald model. Bruikbaarheid is beperkt, al levert het indicaties.

3. Visuele analysemethodes

Ook numeriek uiteraard, maar beter interpreteerbaar

• Parallelle coördinaten

• Supervised clustering (k-means, Fuzzy clustering, …)

• Projectie technieken (PCA, MDS, …)

• AI/Machine Learning: Self-organising maps (SOM), U-maps

Meestal vrij complexe berekeningen (die veeeeel tijd & CPU vragen), maar wel zeer verhelderend zijn en meestal niet-model gebaseerd

Text mining

• Elk document wordt voorgesteld in functie van aanwezige woorden (elk woord-stam is een dimensie). Aantal voorkomens wordt bijgehouden

• Verzameling documenten kan je dan mappen op de unie van al deze dimensies van de verschillende documenten.

= veel getallekes (teveel om te vatten)=> Visualiseren (MultiDimensional Scaling bijvoorbeeld)

Text Mining – MDS voorbeeld

Genoeg theorie, toepassingen nu

Boost your business !• Ken uw concurrenten en hun producten !• Ken uw product. Positionering !• Ken uw klanten !

=> Deze info is op social media/internet te vinden

Social Media gebruiken ? Ja, maar…

• FB, Google+, … hebben data zat over jou, je klanten en je concurrenten, maar ze (ver)sturen je die uiteraard niet op (simpel) verzoek

• Oplossing: methodisch, indirect werken en de social media voor jou laten werken en eventueel zelf data verzamelen

Strategie: 1. Definieer InfluencersDefinieer je influencers : zij die jouw kar gaan trekken

1. Relevantie/Context: • In welk domein wil je actief worden ?• Wie is daar nog actief ?

2. Wat is hun bereik ? • Hoeveel followers, readers, likes, connecties moeten ze hebben? • In welk domein moeten die mensen voornamelijk zitten ?

3. Wat moet hun activiteitsgraad/resonantie zijn ?• Followers moeten niet alleen lezen maar ook het product kopen• Zijn het echte beïnvloeders of gewoon goede cursiefjes schrijvers• Zijn het mensen met gezag/aanzien/naam

Strategie: 2. Zoek die InfluencersZoek die influencers

1. Search Engine Optimisation (SEO)• Gewoon goed googlen, bingen, …• Search Engines gebruiken social media invloed in hun pageranks• Google alerts (https://www.google.com/alerts)

2. Gebruik je eigen netwerk (uiteraard)

3. Gebruik Social Media crawlers : 1. www.klout.com, 2. www.traackr.com3. www.kred.com4. www.kissmetrics.com5. www.appinions.com6. buzzsumo.com7. www.brandwatch.com

4. Werk je in, in de social media (bijv. hashtag research > hootsuite) om meer van hen te weten of gebruik www.pipl.com.

Strategie: 3. Bind die InfluencersBind de gevonden influencers aan je; maak er een win-win van

1. Renumeratie

2. Nog beter: betrek ze, maak ze actief in je proces:• Product verbetering• Verbeterde product-plaatsing• Promoveer ze tot early-adopters

3. Onderhoud die relaties: geen single action, maar luister ook naar hun ideeën: zij kennen dat domein misschien beter dan jij

Optimiseer je eigen website ook! (google analytics, kissmetrics)

En nu jullie !

Na de pauze….

top related