& data science marketing intelligence data science.pdf · zelf. introductie de hype rondom data...

FourPoints Business Intelligence

Marketing Intelligence& Data ScienceEen verzameling van Blogs door Gerrit Versteeg geschreven

made with

http://beacon.by/welcome/?utm_source=freemium&utm_medium=badge&utm_campaign=Beacon Badge&ref=marketing-intelligence-data-science

https://youtu.be/dPbxYsWxp8A

http://beacon.by/welcome/?utm_source=freemium&utm_medium=badge&utm_campaign=Beacon Badge&ref=marketing-intelligence-data-science

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

Data Science - Intro

Big Data heeft Data Sciencenodig

Het Marketing Data Lake

Het Marketing Data Lake (2)

Marketing Data ScienceBronnen

De Marketing Data Scientist

Het Data Science Proces

Data Science ExploratoryAnalysis

Data Science ExploratoryAnalysis (2)

Call to Action

Table of Contents

Marketing en data science worden steeds vaker in één adem genoemd. Daarom

lijkt het mij goed om het onderwerp data science - bekeken vanuit de marketing-

discipline - eens wat nader te beschrijven in deze no-nonsense blogreeks over

Marketing Intelligence. Ik begin daarom maar met een introductie van het begrip

zelf.

Introductie

De hype rondom data science concentreert zich veelal om twee aspecten: de data

en de tools. Discussies rond nog grotere volumes, nog snellere of nog meer

gevarieerde data – onder de kapstok-term Big Data – laaien op, als indicatie voor

het belang van Data Science. En dan meestal hand in hand met het tweede brede

discussieonderwerp “tools”, met termen als Hadoop, NoSQL, MapReduce en Data

Lakes en heftige debatten over R versus Python.

Toch draait Data Science meer om de ‘science’ dan om de data of de tools. Voor

bedrijven zou data science geen hobby moeten zijn. Het nut van data science ligt in

het beantwoorden van bedrijfsvragen. De science ligt in het doen van gedegen,

navolgbaar en herhaalbaar onderzoek naar de antwoorden. Welke data en tools

daarbij nodig zijn, is instrumenteel. Zo kan het zijn dat je uit een data lake van 3

TeraByte, slechts 10kb aan data nodig hebt om die

specifieke vraag te beantwoorden en kun je met behulp van MS/Excel die 10 kb

makkelijk analyseren voor correlatie of regressie

Data Science - IntroGerrit Versteeg

/blog/marketing-intelligence-voor-managers-big-data-voor-mkb

/blog/marketing-intelligence-voor-managers-stappenplan-voor-toolkeuze

/blog/business-intelligence-voor-managers-need-to-know-8-big-data

/blog/bid/306567/Heeft-corporate-performance-real-time-BI-nodig

Maar een discipline data science die zichzelf beschrijft als “wij gebruiken data om

onze bedrijfsvragen te beantwoorden” klinkt veel minder spannend, dan “wij

hebben met onze 3 TB de meeste data vergeleken met onze concurrenten binnen

de branche” en “wij werken al met een data lake gebaseerd op Hadoop,

gecombineerd met R en Tableau”.

Science, en niet Data of Tools

Als je begint met de vraag die je wilt beantwoorden als belangrijkste motivatie, kom

je er vaak achter dat je nieuwe data nodig hebt of dat dat je een nieuw experiment

nodig hebt om tot het juiste antwoord te komen. Je moet je ook realiseren dat het

eenvoudig is om structuur of verbanden in een data lake te vinden. Er is immers -

op basis van allerlei redenen - vaak correlatie te vinden, als je maar genoeg data

hebt. Het begrijpen of deze correlaties er toe doen voor bepaalde interessante

vragen, is veel lastiger. Vaak wordt de structuur die je vindt in een eerste

analysefase veroorzaakt door fouten in de metingen of de dataverwerking of door

het hanteren van artefacten die geen rol spelen bij voor marketing nuttige vragen.

Het zal niet lang meer duren of de hypes rond veel data en geavanceerde tools

verdwijnen naar achtergrond. Het werkelijke effect van data science zal worden

gemeten aan de hand van het vermogen om vragen met een duidelijk omlijnde

bedrijfswaarde, middels een gedegen wetenschappelijk onderzoek op basis van

data, te kunnen beantwoorden.

Marketing en data science

Marketing heeft als discipline van nature allerlei vragen. Welke klanten passen bij

mijn nieuwe producten? Hoe kan ik het risico van churn inzichtelijk maken? Hoe

meet ik het netto effect van mijn campagnes?

Moderne marketing vereist een goed passende en snelle reactie op het vaak

‘onduidelijke’ gedrag van je klanten en bezoekers. Dat genereert weer nieuwe, vaak

complexere vragen, bijvoorbeeld: Hoe kan ik voorspellen in welke van mijn

producten deze bezoeker geïnteresseerd zal zijn, gezien zijn gedrag tot nu toe?

Vooral moderne marketing, waarbij je de buyer journey zo goed mogelijk wilt

faciliteren, heeft behoefte aan allerlei voorspelmodellen die we pas na goed

onderzoek kunnen opstellen. Dat onderzoek is afhankelijk van data. Denk aan

gegevens over klanten, productgebruik, bezoekersgedrag, concurrenten,

merkbeleving, naamsbekendheid, sentimenten op sociale media, enzovoorts. Vaak

wordt het pas gedurende het onderzoek duidelijk welke data precies de hoogste

/blog/marketing-intelligence-voor-managers-data-lake-of-data-warehouse

/blog/marketing-intelligence-voor-managers-van-outbound-naar-inbound

voorspellingswaarde geeft en welke data dus nodig is in het model. Ook voor

marketing geldt dus dat data science gedreven wordt vanuit de vraagstelling en

niet vanuit een vooraf verzamelde set van gegevens of vanuit de beschikbare

functionaliteit die moderne tools je kunnen bieden.

De data science reeks

Na deze introductie, zal ik in de komende blogs het onderwerp data science voor

marketing wat verder gaan toelichten. Denk bijvoorbeeld aan het data science

proces, de rol van de data scientist en mogelijke databronnen.

Even iets over mijzelf.

Ik ben principal architect en managing partner bij FourPoints Business Intelligence.

Naast het regelmatig publiceren van artikelen, geef ik gastcolleges rond het

onderwerp op universiteiten en hoge scholen. Met meer dan twintig jaar ervaring

in het effectief positioneren en inrichten van business intelligence, word ik door

veel organisaties betrokken bij het oplossen van BI-vraagstukken. Je kunt me

bereiken via [email protected] of op LinkedIn.

In twee eerdere blogs (“Wat is Big Data?”) zijn we ingegaan op de vraag wat Big

Data is en of je er als manager al iets mee zou moeten. Als je besluit om ook in

jouw bedrijf iets te gaan doen met Big Data, dan kom je gelijk bij de vraag: “Moet ik

dan ook iets met Data Science?”. Daarom ga ik in deze blog iets dieper in op de

relatie tussen Big Data en Data Science.

De essentie van Big Data

Zoals in mijn vorige blog aangegeven, gaat het bij Big Data voor een manager aan

de ‘business’-kant niet zozeer om de technische definitie van Big Data, maar meer

om de gebruiksmogelijkheden ervan. Vanuit die invalshoek bekeken, vertolkt Big

Data de kans (of bedreiging) om een massale hoeveelheid data uit een sterk

groeiend aantal, niet-beïnvloedbare externe bronnen zinvol te gaan gebruiken. Als

je tot de ontdekking komt dat Big Data een nieuwe kans betekent - of bedreiging

als al je concurrenten er wel brood in zien - dan is het verstandig om op korte

termijn te gaan starten met het ‘spelen’ met Big Data zodat je je leerproces op tijd

opstart.

Nieuwe data

Zoals eerder gezegd kent Big Data een tweetal essentiële factoren: enerzijds het

grote volume en de variëteit van die nieuwe data, anderzijds het afwijkende

karakter van die data. Dat laatste gaat vooral om het feit dat Big Data hoofdzakelijk

bestaat uit data uit externe, niet-beïnvloedbare databronnen. Dat in tegenstelling

tot de hoofdzakelijk interne data waarmee Business Intelligence pleegt te werken.

Om te leren werken met deze nieuwe data en deze op een goede manier te kunnen

analyseren is Data Science nodig.

Big Data heeft Data SciencenodigGerrit Versteeg

http://www.fourpoints.nl/blog/topic/big-data

http://www.fourpoints.nl/blog/bid/314085/Wat-is-Big-Data-En-moeten-we-er-wat-mee

Data Science op Big Data

Zoals gezegd bestaat Big Data voor het grootste deel uit veel nieuwe data die

afkomstig is uit veel nieuwe externe bronnen. De meeste data is niet relevant voor

jouw bedrijf. Maar hoe kom je erachter welk deel van die data wel voor jouw

bedrijf interessant is? Deze vraag is in eerste instantie eenvoudig te beantwoorden

door de Big Data weg te strepen die totaal niets met jouw business case te maken

heeft. Daarna verzeil je al snel in de situatie dat je de potentieel wel interessante

data moet gaan onderzoeken op de waarde voor jouw bedrijf. Juist bij die

vraagstelling is het hebben van een Data Science discipline van groot belang.

De waarde van Big Data

De technieken en methodes binnen het vakgebied Data Science helpen je om van

mogelijk relevante data de waarde voor jouw bedrijf vast te stellen. Zo kun je

kijken naar de voorspellende waarde van bepaalde externe data op klantgedrag

(denk aan sociale media) of de verklarende waarde van externe data op de stand

van zaken rond het milieu binnen jouw land of gemeente (denk aan CO2-metingen

uit Duitsland gecombineerd met meteo-gegevens over windrichting en –sterkte).

“Big Data heeft Data science nodig, maar DataScience beperkt zich niet tot Big data”

De Data Science discipline

Data Science speelt niet alleen een rol bij het initieel vaststellen welke externe data

voor jou relevant zijn. Juist het karakter van die nieuwe data maakt het

noodzakelijk dat je Data Science blijft uitvoeren. Er ontstaat immers in een

groeiend tempo steeds meer nieuwe data. Daarnaast zal de data die je al hebt

geselecteerd veranderen qua inhoud en betekenis – de data komen immers uit

niet-beïnvloedbare databronnen. Het is jouw verantwoordelijkheid om die

veranderlijke stroom externe data te ‘borgen’, want de externe leverancier voelt

zich daarvoor wellicht minder of totaal niet verplicht.

Conclusie

Zoals eerder gezegd: “Als je tot de conclusie komt dat Big Data ook voor jou

nieuwe mogelijkheden biedt, dan is het verstandig om te gaan starten met leren”.

Dat betekent ook dat je een Data Science discipline nodig zal hebben. Het is een

onvermijdelijk deel van je leerproces als organisatie. Ga er niet vanuit dat je direct

een ervaren data scientist kunt aannemen, die zijn immers dun gezaaid. Het Data

Science werkveld is niet erg jong, maar de bredere uitrol van deze kennis over de

wereld van bedrijven is dat wel. Hou er dus rekening mee dat je zelf moet gaan

leren. Een goede startplek daarvoor zijn je bestaande BI-professionals. Ze kennen

jouw bedrijf, zijn al opgeleid en gewend aan het werken met data, en zijn snel bij te

scholen op de ins en outs van Data Science.

Zijn er vragen die opkomen na het lezen van deze blog, schrijf dan een reply. Dan

heb je grote kans dat we jouw vraag in een volgend blog behandelen (als je dat

tenminste wilt).

Ben je nieuwsgierig naar de komende blogs over BI, Big Data en Data Science

vanuit de manager bekeken? Abonneer je via onderstaande knop dan op het thema

‘Management & BI’. Zodra er een nieuwe blog in de reeks verschijnt, krijg je

automatisch een seintje (per e-mail) met een link.

Big Data en Data Science gaan een steeds grotere rol spelen binnen Marketing

Intelligence. Het benutten van data uit open data sources, uit sociale media en zelfs

uit sensoren in het veld (IoT) wordt snel interessanter. Het leren uit dit soort data

kan positieve effecten hebben op het succes van je marketing efforts, daar hebben

we het in deze blogreeks al vaker over gehad. Ik krijg daarbij vaak de vraag “Maar

hoe richt ik dat in? Heb ik een data lake nodig en waar positioneer ik die dan?”.

Daarom leek het me goed om een ruwe, high-level schets te geven van de

mogelijke positie van een marketing data lake. Daarin vind je big marketing data

terug en geef ik gelijk aan waar data science een rol speelt in de BI-omgeving van

Marketing.

De positie van het Marketing Data Lake

Hieronder staat een high-level schets van een BI-omgeving voor Marketing, met

daarin aangegeven de positie van zowel het Marketing Data Lake als Marketing

Data Science.

Het Marketing Data LakeGerrit Versteeg

http://www.fourpoints.nl/blog/topic/data-science

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-data-lake-of-data-warehouse

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-data-science-intro

Data bronnen voor het Marketing Data Lake

Het marketing data lake is onderdeel van het werkveld van de data engineer. Hij

zorgt voor de correcte verzameling van alle data, de column-based opslag in het

lake en de distributie van data uit het lake naar afnemers. De belangrijkste vier,

potentiële bronnen voor big data zijn:

Interne bronnen, denk bijvoorbeeld aan website tracking data, klantgedrag in

winkels, productgebruik. Deze data kan soms heel gedetailleerd worden

verzameld en daardoor snel groeien.

Sociale media, zoals tweets, likes, messages, enzovoorts.

Sensory data uit het Internet of Things (IoT). Indien relevant kan dit een

constante stroom aan gegevens over klantgedrag en productgebruik opleveren.

Open sources met data uit allerlei openbare bronnen, bijvoorbeeld de (semi-

)overheid, onderzoeksinstellingen en publieke websites. Het aanbod van dit

soort open data groeit gestaag. Onze eigen overheid heeft al aangegeven dat

veel van haar gegevens openbaar moet worden gemaakt (zolang de privacy

maar niet geschaad wordt).

Flexibele data opslag voor Marketing

In principe is het mogelijk om alle data eerst te verzamelen in een data lake. Het

gaat dan om zowel de geborgde en gestructureerde data, als de nog te modelleren,

ongestructureerde data. Je kunt er ook voor kiezen om het data lake alleen voor

ongestructureerde marketing data te gebruiken. Zo vermijd je mogelijke

verstoringen van de reguliere, geborgde datastromen door het marketing data

warehouse. Het andere uiterste is om een data lake voor de hele organisatie in te

richten van waaruit – naast Marketing - alle disciplines de voor hun relevante data

onttrekken.

Een discipline als Marketing hecht meestal grote waarde aan flexibiliteit waarbij

nieuw gevonden, interessante data snel moeten kunnen worden geborgd in de

managementinformatie. Bij bijvoorbeeld Financiën zou dat juist minder belangrijk

zijn. Voor Marketing is vaak zinvol om het data lake te vullen met zowel

gestructureerde als ongestructureerde data – zoals in de afbeelding hierboven

weergegeven. Als je dan binnen marketing research dan ontdekt dat bepaalde data

waardevol zijn, dan kun je deze data sneller in je reguliere marketing data

warehouse krijgen, omdat je data warehouse ook is aangesloten op hetzelfde data

lake en je dus de data niet opnieuw hoeft te ontsluiten. Op deze manier voorzie je

vanuit het data lake twee grote gebieden van data:

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-marketing-data-science-bronnen

De reguliere en goed geborgde data verwerking via het data warehouse

Het research gedeelte van marketing. Hier zit het data science hart van

marketing.

De positie van Marketing Data Science

Veel van de nieuwe data sources zoals open data, social data en sensory data

worden eerst in het marketing research lab onderzocht. We kijken hierbij vooral

naar de bedrijfswaarde van de data in de context van marketing. Welke data zijn

verklarend, heeft voorspellende waarde? Waarvan is prospect/klantgedrag

afhankelijk? Kan ik naar aanleiding van het werkelijk gebruik van mijn producten of

diensten, verbeteringen aanbrengen in mijn proposities? Kan ik voorspellen

wanneer een klant churn vertoont en wat zijn daarbij de belangrijkste indicatoren?

De data scientist die deze vragen adresseert, heeft – naast een goede

onderzoeksvraag – ook allerlei data nodig die hij zelfstandig uit het data lake haalt.

Zijn de benodigde data nog niet aanwezig dan stopt hij die er zelf in - eventueel

met hulp van de data engineer.

De inzichten uit marketing data science kun je delen met product marketers en

segment marketers. Nieuwe voorspellende modellen kun je doorgeven aan

campaign management om na kalibratie te worden gebruikt voor segmentatie en

next best actions. Het zal blijken dat veel data na onderzoek niet van toegevoegde

waarde blijken te zijn. Maar de data die wel bijdragen aan het succes zullen in

aanmerking komen om geborgd te worden in het marketing data warehouse.

Daarmee komen deze nieuwe data als informatie tevoorschijn in de dashboards en

BI-tools van je marketing managers.

Conclusie

Natuurlijk is dit een high-level schets en deze opzet hoeft voor jouw

marketingdiscipline niet perse de meest optimale inrichting te zijn. Toch leek het

me handig om eens een plaatje op te stellen aan de hand waarvan je de

positionering van big data, data lakes en data science bespreekbaar kunt maken.

Op onze vorige blog zijn veel vragen binnen gekomen over de mogelijke synergie

tussen het Marketing Data Lake en het Marketing Data Warehouse. Begrijpelijk,

want dat is een interessante vraag in het licht van dataconsistentie,

kostenefficiëntie en toekomstvastheid. Daarom ben ik achter de tekentafel gaan

zitten om een plaat te maken die de plekken van samenwerking tussen de ‘drukke,

rumoerige’ research kant en de ‘rustig zoemende’ dataproductie kant weergeeft.

Deze afbeelding wordt in deze blog nader toegelicht.

Data Science en Data Productie in samenhang

Hieronder staat een ontwerpschets van een BI-omgeving voor Marketing, met

daarin de centrale positie van het Marketing Data Lake als voedingsbodem voor

zowel Marketing Data Science als Marketing Data Warehousing.

Databronnen voor het Marketing Data Lake

In de afbeelding heb ik een wat omvangrijker lijst van mogelijke databronnen

opgenomen. Daarmee wil ik laten zien dat het tijdperk waarin alle

managementinformatie uit standaard interne bronnen komt, wel zo’n beetje voorbij

Het Marketing Data Lake (2)Gerrit Versteeg

is. Het Data Lake is bij uitstek geschikt om allerlei data uit de meest uiteenlopende

bronnen op te nemen. De variëteit van deze data neemt sterk toe door de steeds

toenemende beschikbaarheid van open data, sensordata (IoT) en dark data. Dat

laatste heeft betrekking op data die achter de schermen (bijvoorbeeld logs) in de

interne systemen en in de infrastructuurtechniek (bijvoorbeeld messages en proces

statussen) zijn ‘verborgen’. Als een soort interne sensor-data. Het is weliswaar

meestal hoog-volume data, maar de tegenwoordige techniek maakt het makkelijker

om deze te verwerken. Dark data bevat nu eenmaal veel basiswaarnemingen

(vastgelegde events binnen de bedrijfprocessen) en heeft daardoor veel potentie

als stuurinformatie.

Het Marketing Data Lake als centrale bron

Het data lake is gekoppeld met zowel de data science kant (marketing research) als

de reguliere, geborgde data warehousing kant. Beide omgevingen voeden ruwe

(raw) data en geschoonde (tidy) data in het data lake. Ook het reguliere marketing

data warehouse wordt via ‘mappings’ (transformatie- en integratielogica) gevoed

vanuit het lake. Dit werkt consistentie en synergie in de hand.

Samenhang tussen research en productie

Alle nieuw ontgonnen data zal eerst door de research kant heen lopen om te

worden onderzocht op waarde. Hier wordt de betekenis van de data, de kwaliteit

en de syntax duidelijk. De data engineer (of bij kleinere bedrijven; de data scientist

zelf) zal de data ophalen, bekijken en opschonen (cleaning data). Als hij dit een

beetje netjes doet, zal hij een code book opstellen waarin precies staat hoe hij de

ruwe data ophaalt, interpreteert en bewerkt tot schone data.

De tidy data wordt door exploratory data analysis bekeken op potentiële waarde

en relevantie voor Marketing. Dit geeft een soort eerste leidraad voor verder

onderzoek. Explanatory data analysis – gericht op beantwoording van de

onderzoeksvraag – is het hart van data science en bedoeld om de meest-

verklarende variabelen te vinden. Daarmee kun je onder andere adequaat

voorspellende modellen maken. Hiermee wil ik natuurlijk niet zeggen dat alle

research altijd verklarend van aard is, we kennen immers bijvoorbeeld ook

beschrijvend onderzoek.

Als uit het onderzoek blijkt dat de data inderdaad een hoge marketingwaarde heeft,

is het mogelijk om deze data regulier op te nemen in de geborgde dataverwerking

in het data warehouse. Het verklarend onderzoek heeft ons inmiddels voldoende

begrip over de data gegeven in de vorm van syntax, semantiek, relaties en

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-marketing-data-science-bronnen

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-het-data-science-proces

http://www.fourpoints.nl/blog/bid/263104/Data-warehousing-het-combineren-van-meerdere-managementdisciplines

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-data-science-exploratory-analysis

structuren. Deze informatie uit het onderzoek, kan door de ontwikkelaars van de

reguliere data warehouse tak worden gebruikt om:

de informatie op het dashboard of rapport in begrijpelijke vorm te tonen

de datamodellering uit te voeren voor het data warehouse

de mappings te maken om van tidy data, via het data warehouse, betekenisvolle

informatie op de dashboards of in de data marts te kunnen genereren

de extractie en cleansing van de ruwe data in nette productieprocedures te

kunnen vormgeven (op basis van het code book)

De rollen rond het Marketing Data Lake enWarehouse

Bij non-multinationals (zeg MKB en National Enterprises) zal al het werk voor data

science door de Data Scientist worden uitgevoerd. Hij is getraind om data uit

bronnen te halen en op te schonen. Bij multinationals zien we tegenwoordig echter

steeds meer een splitsing tussen getting & cleaning data en de onderzoeksmatige

data-analyse zelf. Het eerste wordt dan opgepakt door een gespecialiseerde data

engineer en het tweede door de data scientist. De data engineer lijkt ook steeds

meer de geëigende term voor de back-end BI-professional binnen de data

warehouse omgeving. Het is functioneel gelijk werk, alleen de tools en databases

kunnen wat verschillen. Het feit dat het Data Lake alleen niet-geïntegreerde data

bevat, maakt het leven van de professionele data engineer er alleen maar

makkelijker op, omdat hij bij het vullen van het data lake (nog) geen gegevens hoeft

te integreren.

Als het zover is dat de data engineer voor het onderzoek ook de integratie van

gegevens in een samenhangend datamodel moet gaan doen, dan zijn de functies

vergelijkbaar en zullen de termen in elkaar overgaan. Zoals wellicht bekend is de

plek van data integratie het belangrijkste onderscheid tussen data science en data

warehousing:

Voor data warehousing geldt de volgorde: 1. extraction, 2. cleansing, 3.

transformation/integration, en 4. storing. Dit heet in vaktermen ‘ETL’

(Extraction, Transformation, Loading) of ‘schema on write’ (we integreren de

data in een model vóórdat we het wegschrijven in de database).

Voor data science (of big data) geldt de volgorde: 1. getting, 2. cleaning, 3.

storing en daarna pas 4. transformation/integration. Dit heet ‘ELT’ (Extraction,

Loading, Transformation) of ‘schema on read’ (we gaan de data pas integreren

als we de data gaan gebruiken, dus de opslag zelf - het data lake - bevat nog

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-de-marketing-data-scientist

niet-geïntegreerde data).

De data scientist heeft – op basis van zijn onderzoeksvraag – ook allerlei data nodig

die hij zelfstandig uit het data lake haalt. Zijn de benodigde data nog niet aanwezig

dan stopt hij die er zelf in - eventueel met hulp van de data engineer.

De front-end BI-professional maakt management dashboards en reports,

gebaseerd op de behoeften van de managers. Nieuwe data die binnenkomt vanuit

marketingonderzoek (de data science kant) is altijd een antwoord op een

onderzoeksvraag. De plaatjes die daarbij horen (meestal plots) zijn bedoeld om het

antwoord inzichtelijk te maken. Als blijkt dat dat antwoord een continu karakter

heeft (als je bijvoorbeeld de trend in de gaten wil blijven houden) dan kan een

dergelijke visualisatie (plot) goed hergebruikt worden in een management

dashboard. Ook hier werken de resultaten uit het voorafgaande onderzoek als

mooie input voor de front-end BI-professional.

Conclusie

Er is veel samenhang en synergie te bereiken door de koppeling van data science

en big data met data warehousing, waarbij het marketing data lake een centrale

voedingsbodem kan zijn voor beide takken van sport. Ook is het zo dat de

resultaten van een onderzoek in de marketing research kant vaak goed gebruikt

kunnen worden bij de ontwikkeling en borging van de MI-levering in de data

warehouse kant. Het is te verwachten dat deze omgevingen dichter naar elkaar toe

kruipen en dat ook de rollen van de betrokken professionals gaan overlappen.

Waar je je ook bevindt in de groeifasen van Marketing Intelligence; een plekje

reserveren voor je Marketing Data Lake kan dus geen kwaad.

http://www.fourpoints.nl/blog/8-bi-groeisignalen-voor-managers-situatie-2-front-end-bi-tools-clients

In de vorige blogs heb ik nader toegelicht wat data science is en hoe het voor

marketing waardevol kan zijn. Ook heb ik de rol van de data scientist en het proces

van data science wat nader beschreven. Daarin werd duidelijk dat de data scientist

uitgaat van een onderzoeksmodel met duidelijk benoemde variabelen. Waarna hij

op zoek gaat naar databronnen die hem die variabelen kunnen geven.

Naast voor de hand liggende data bronnen binnen de eigen organisatie (interne

brondata), zal een data scientist voor de variabelen uit zijn model vaak gebruik

maken van data uit externe bronnen. In deze blogreeks rond data science voor

marketing leek het me daarom aardig om eens wat meer voorbeelden te geven van

types van databronnen waaruit zinvolle data kan worden gehaald. Zo krijg je een

idee van de variatie aan bronnen die je potentieel kunt ontsluiten. Het is goed om

je te realiseren dat je de data gebruikt voor onderzoek. Als daaruit blijkt dat de bron

zinvolle data oplevert, kun je gaan kijken hoe je zo’n externe bron kunt stabiliseren

voor reguliere data-extractie.

Introductie

Natuurlijk zijn interne bronnen de meest voor de hand liggende plaats om goed

geborgde, stabiele en relevante (‘tidy’) bedrijfsdata uit te halen. Toch blijkt er,

uitgaande van het type onderzoeksvragen die marketing vaak stelt, vaak behoefte

te zijn aan data die (nog) niet beschikbaar is in de interne bedrijfshuishouding. In

dat geval zal de data scientist gaan zoeken naar representatieve data uit externe

bronnen. Er is een schat aan data publiek beschikbaar op het internet die vaak

onvoldoende onderkend wordt. Data science tools (bijv. R met allerlei handige en

snelle ‘packages’) zijn heel krachtig in het inlezen en voorbewerken van ruwe data

uit verschillende bronnen. Laten we eens gaan kijken naar de soorten bronnen die

potentieel beschikbaar zijn.

Marketing Data ScienceBronnenGerrit Versteeg





Soorten interne databronnen voor marketing datascience

De in het onderzoeksmodel bepaalde variabelen kunnen vaak voor een deel

worden ingevuld met reeds beschikbare data uit de eigen bedrijfssystemen. Denk

bijvoorbeeld aan contractgegevens, factuurgegevens, gebruiksgegevens of

contactgegevens uit je klant- of financiële administraties. Voor de ontsluiting van

die gegevens wordt vaak een data warehouse of data lake gebruikt. Het is voor de

data scientist natuurlijk een ‘piece of cake’ als hij zijn data zo netjes geformatteerd

en beschreven aantreft in een beschikbare interne bron.

Maar niet alle data die vanuit het bedrijf zou moeten komen, is al beschikbaar in

een data warehouse of data lake . Soms moet de data scientist zelf op zoek naar

bedrijfsdata, bijvoorbeeld in databases onder bedrijfsapplicaties of in logfiles. Het

kan bijvoorbeeld blijken dat niet alle klantgegevens uit het CRM in het dwh zitten,

waardoor hij zelf op zoek moet gaan naar klantattributen die in de database van

het CRM zitten. Met voldoende mandaat, zijn feitelijk alle data uit alle databases

binnen het bedrijf in principe beschikbaar voor de data scientist. Zelfs de data die

verstopt zit in de bedrijfswebsite of in de outlook-mailbox van de bedrijfsaccounts.

Zie daar, waar de ‘hacking skills’ voor nodig zijn.

Soorten externe databronnen voor marketingdata science

Als blijkt dat het onderzoeksmodel van de data scientist dicteert dat er variabelen

nodig zijn waarvoor de data niet wordt geregistreerd binnen het bedrijf, dan moet

hij de data extern betrekken. Hiervoor zijn twee mogelijkheden beschikbaar: het

bedrijf maakt gebruik van ‘cloud’ applicaties, waarbij de gegevens dus ook ‘extern’

staan of de data is geen eigendom van het bedrijf, maar is publiekelijk beschikbaar

op het internet.

Eigen data in de cloud

Het komt steeds vaker voor dat bedrijven hun eigen data in de cloud hebben staan.

Gebruik maken van cloud-applicaties (Software as a Service) betekent automatisch

dat de data die bij die applicatie hoort, ook in de cloud is. Denk bijvoorbeeld aan

gehoste applicaties zoals: Salesforce, Exact, Hubspot, Marketo, Magenta, Zendesk

enzovoorts. Deze applicaties hebben als een schaalbaar ‘pay-as-you-go’ licentie-

model wat enorm helpt om moderne software te kunnen gebruiken tegen lage

kosten. Dat betekent ook dat heel veel bedrijven tegenwoordig cloud-oplossingen

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-data-lake-of-data-warehouse

http://www.fourpoints.nl/blog/cloud-bi-iets-voor-jou

gebruiken en dat hun data daardoor niet direct intern beschikbaar is (tenzij je al een

ontsluiting hebt gebouwd).

Als de data scientist deze data nodig heeft (en dat zal al snel zo zijn) dan moet hij

die dus bij de cloud-applicatie gaan ophalen. Gelukkig is het zo dat een – zichzelf

respecterende – cloud-supplier altijd een ‘API’ (Application Programming Interface)

op zijn cloud-applicatie heeft gebouwd waarmee de klant zijn gegevens ‘eenvoudig’

kan ophalen. Als dat onverhoopt niet zo, kies dan voor een cloud-applicatie van

een concurrent die zich beter gedraagt. Een goede API is zo beschreven, dat een

data scientist er met behulp van R-scripts snel data mee kan extraheren. Elke

cloud-applicatie heeft zijn eigen API gedefinieerd, dus daar moet de data scientist

wel verschillende R-scripts voor maken. Waarschijnlijk moet hij die data ook nog

opschonen en omvormen tot de tidy data, waarna hij er mee kan gaan werken. Je

ziet, de data scientist is een beetje van alle markten thuis.

Publieke data van anderen

Algemeen wordt onderschat hoeveel data er beschikbaar is online. Vrijwel alle

regeringen en veel onderzoeksinstellingen van ontwikkelde landen stellen hun data

(soms tegen een relatief kleine vergoeding) online ter beschikking voor hergebruik.

Denk bijvoorbeeld aan het CBS, de RDW, de KvK, de overheid met de BAG, de

postcodegegevens en nog veel meer. Het Internet vormt een rijke bron van data

die je kunt gebruiken in marketingonderzoek rond bijvoorbeeld demografische

gegevens, internetgebruik, smartphone gebruik of surf- en kijkgedrag. Ook data die

gebruikt is voor ander wetenschappelijk onderzoek is vaak online beschikbaar. Er

wordt steeds meer gedeeld en met het IoT (Internet of Things) zal deze trend alleen

maar sterk toenemen. De aanbieders dragen zelf zorg voor de beschikbaarheid van

die data in allerlei vormen. Data kan beschikbaar zijn als:

Databases, zoals MySQL en HDF5

Downloadable bestand, zoals XML, JSON (Javascript Object Notation), CSV,

XLSX, PDF, gzip, tar, enzovoorts

Website in HTML-formaat

Specifiek toepassingsformaat, zoals Minitab, S, SAS, SPSS, Stat, Systat

Image in jpeg, bmp, png of specifieke formaten vanuit allerlei visuele apparatuur

GIS-data, te lezen met packages als rdgal, rgeos en raster

Muziek, bijvoorbeeld mp3 met tuneR en seewave

Alvast ter verontschuldiging; de opsomming (afgeleid van J.F. Leek “getting and

cleaning data”) is bedoeld om een indruk te geven rond de vele mogelijkheden,

zonder elke mogelijkheid apart te behandelen.

https://www.coursera.org/learn/data-cleaning

Je ziet, zo gek als de aanbieders het nog niet hebben bedacht of er bestaat wel een

R-package voor het lezen ervan. Jouw data scientist is redelijk ingevoerd in de

bronnen die zoal beschikbaar zijn en anders gaat hij ernaar op zoek voor jouw

specifiek vraag. Onthoud, veel is al beschikbaar. Bekijk dat eerst voordat je moeite,

tijd en geld gaat stoppen in het zelf genereren van data door bijvoorbeeld eigen

onderzoek (hoewel dat soms natuurlijk onvermijdelijk is).

Marketing en data voor data science

Typerend voor het vak data science is het vermogen om allerlei data uit allerlei

bronnen te kunnen onttrekken en gebruiken. Soms kan het marketing niet gek

genoeg zijn als het gaat om de vragen die ze stellen. Met de combinatie van data uit

interne eigen bronnen, externe eigen bronnen en externe publieke bronnen kan

marketing met data science een goed stuk research binnenhalen, waar waardevolle

onderzoeksresultaten uit gehaald kunnen worden. En goede research helpt het

marketingbedrijf binnen de organisatie weer een stuk verder.

Als vervolg op de introductie blog over Data Science binnen Marketing heb ik het

deze keer over de functie van data scientist. Wat typeert een data scientist binnen

het vakgebied marketing? Welke kwaliteiten heeft hij?

Introductie

De data scientist binnen marketing werkt aan de bedrijfsvragen die marketing

heeft. Naarmate marketing moderner en daarmee meer customer-centric werkt,

worden die vragen lastiger te beantwoorden. Het vaak grillige gedrag van klanten,

prospects of anonieme bezoekers veroorzaakt dit. Wat zijn precies de data die

helpen om betekenisvolle voorspellingen te kunnen doen rond aankoopgedrag? Of

nog lastiger; welke data spelen een rol om bezoekers door de verschillende stadia

van de buyer journey heen te helpen?

Een data scientist helpt om deze vragen zo specifiek mogelijk te maken, om een

goed onderzoeksmodel op te stellen, om er tijdens het wetenschappelijke

geborgde onderzoek (gaandeweg) de juiste data bij te vinden, om de verbanden te

leggen en om de conclusies op een juiste manier te presenteren aan de

besluitnemers.

Voor een marketing data scientist zijn drie hoofdkwaliteiten van belang:

Hacking skills

Math & statistics knowledge

Marketing expertise

Deze skills zijn afkomstig uit Jeff Leeks Data Scientist’s Toolbox. Hieronder licht ik

ze toe.

De Marketing Data ScientistGerrit Versteeg


http://www.fourpoints.nl/blog/bid/273486/Customer-centric-marketing-techniek-of-organisatie

https://s3.amazonaws.com/accredible_card_attachments/attachments/67572/original/DS1-TheDataScientistsToolbox.pdf

Hacking Skills

Hacking kent vaak een wat negatieve lading, omdat het doel van hacking helaas

niet altijd even waardevol is voor een bedrijf. Toch kun je de vaardigheden die

nodig zijn om succesvol data science te beoefenen, vergelijken met de skills die

hackers gebruiken bij hun activiteiten.

Het gaat hier om skills op twee belangrijke gebieden: enerzijds het gebruik van een

programmeertaal om toegang te krijgen tot data, om ermee te spelen, om de data

te analyseren en om de uitkomsten te presenteren (plotten). Anderzijds het

vermogen om zelf oplossingen te vinden voor problemen die je tegen komt tijdens

het onderzoek.

Programmeervaardigheden

Vaak wordt hierbij gebruik gemaakt van R of van Python. Hoewel Python prima

voldoet, heeft R toch vaak de voorkeur omdat het in steeds sterkere mate de

algemeen gebruikte taal is in het data science vakgebied. R is gebaseerd is op het

oudere S – een statistics language – en is gebouwd om ‘programmeren’

toegankelijker te maken voor minder officiële of volwaardige programmeurs. Op R

zijn inmiddels een grote hoeveelheid uitbreidingen (packages) gebouwd die ervoor

zorgen dat je van de ruwste data naar het meest interactieve rapport kunt komen.

De kracht van de taal en het brede gebruik van R, is de reden voor het ontstaan

van een bewonderenswaardige club van ontwikkelaars die R. Zij maken R steeds

rijker en zorgen ervoor dat de frequente functionele uitbreidingen onderling toch

goed blijven samenspelen. Tegenwoordig valt of staat een open source taal als R bij

haar ecosysteem.

Zelf-oplossend vermogen

Dit is het vermogen om er zelf op uit te gaan en oplossingen te vinden voor de

(onverwachte) problemen die je altijd tegenkomt tijdens het uitvoeren van een

onderzoek op basis van data. Er is immers veel nieuws onder de zon in het

werkveld van de marketing data scientist. Het meeste hiervan is niet in een

schoolboek terug te vinden. Het gebruiken van informatie waarvoor je zelf op zoek

moet gaan bij andere data scientists en professionals in belendende vakgebieden

en om met die informatie volhardend uit te zoeken hoe het jouw probleem kan

oplossen, is een sleutelkwaliteit voor de data scientist. Hij moet dus niet alleen

volhardend zijn in het vinden van een goede oplossing, hij moet ook bekend zijn in

het data science ecosysteem van ontwikkelaars en collega’s.

Kennis van Mathematica en Statistiek

Het werk van de klassieke campaign developer was al verweven met statistiek. Dat

is met de komst van moderne marketing alleen maar sterker geworden.

Tegenwoordig hebben de vragen vanuit marketing voor de data scientist steeds

vaker betrekking op het vinden van structuren en verbanden in de data. Daarbij

spelen zaken als correlatie op basis van allerlei distributiemodellen een belangrijke

rol. Ook voor het doen van goed aansluitende voorspellingen is een goede

statistische basiskennis een vereiste. Het werk van een marketing data scientist is

daarom doorspekt met het gebruik van statistische modellen.

Marketing kennis

Een goede marketing data scientist is ook een beetje marketer. Marketing is meer

dan ‘root mean square error’. Met andere woorden: “it does not suffice to throw

statistics at a marketing problem”. Het wordt lastig werken voor de data scientist

als hij de basisterminologie van de marketing discipline niet goed kent en daardoor

de vraagstelling niet in de juiste bedrijfscontext plaatst. Begrippen als treatment,

target cell, retentie, churn, control group, A/B-testing, response, net sales, et

cetera. moet hij goed kunnen plaatsen. Anders gaat hij op zoek naar de verkeerde

data of onjuiste statistische methoden. Met als gevolg dat hij een verkeerd

antwoord geeft op een onjuist geïnterpreteerde vraagstelling.

Marketing en de data scientist

Juist de combinatie van de drie genoemde hoofdgebieden onderscheidt de goede

marketing data scientist. Let er daarbij goed op dat de terminologie voor marketing

sterk in beweging is. Zeker in het licht van moderne marketing komen er

tegenwoordig regelmatig nieuwe begrippen bij. Hierbij is het zelf-oplossend

vermogen van de data scientist dus opnieuw van belang.

Naast zijn kennis en ervaring op de drie hierboven genoemde gebieden is het ook

van groot belang voor een data scientist om een zekere wetenschappelijke

discipline in zijn werk te hebben. De navolgbaarheid van onderzoek, het doen van

objectieve observaties voordat conclusies getrokken worden en het goed

vastleggen van het gevolgde pad ten behoeve van herhaalbaarheid, zullen zijn werk

een stuk effectiever maken.

Wat voor activiteiten gaat de data scientist - zoals ik die in een vorig blog heb

beschreven - nu eigenlijk uitvoeren? Welke proces wordt er typisch binnen data

science uitgevoerd?

Deze blog gaat eens wat dieper in op het data science proces, zodat je daar een

beeld van kunt vormen.

Introductie

Data science is voor een groot deel een ‘trial and error’ proces, omdat je van

tevoren gewoonweg niet alles kunt voorzien. Het lukt misschien niet om meteen de

juiste data te vinden en als je data vindt kan het zijn dat deze bijna onbruikbaar is

door vervuiling. Bij het zoeken naar verbanden of structuren is het mogelijk dat je

wel tientallen modellen moet onderzoeken om er uiteindelijk één te vinden die het

beste aansluit bij jouw data (en vraagstelling). Misschien blijkt het dat je algoritmes

nodig hebt die nog niet bestaan. Die moet je dan eerst samenstellen uit allerlei

informatie die je bij Stack Overflow of Rbloggers inwint.

Ook al is het proces zo onvoorspelbaar en zullen er onvermijdelijk fouten gemaakt

worden die leervermogen en volharding vereisen, uiteindelijk zijn er wel een aantal

distincte activiteiten te onderkennen.

Stap 1. Van vraag naar onderzoeksmodel

De data scientist start altijd met het opzetten van een onderzoeksmodel. De

gestelde vraag moet worden vertaald naar een model waarin de gebruikte

concepten en onderzoeksvragen goed zijn gedefinieerd. Hieruit leid je door

operationalisatie de afhankelijke en onafhankelijke variabelen en hypotheses af.

Deze stap verhoogt de mate waarin het onderzoek controleerbaar en herhaalbaar

is. Het blijft immers science.

Het Data Science ProcesGerrit Versteeg


Stap 2. Van raw data naar tidy data

De in het onderzoeksmodel bepaalde variabelen helpen de data scientist beslissen

welke data hij nodig gaat hebben tijdens zijn onderzoek. Met die kennis gaat hij op

zoek naar die data, want die kan in principe overal vandaan komen. Denk

bijvoorbeeld naast interne bronnen ook aan data van externe partijen zoals Twitter,

Facebook, LinkedIn, Webpages, enzovoorts. Daarover lees je meer in de volgende

blog.

Veel werk gaat zitten in het verkrijgen en schoonmaken van data. Vaak is de data

die de data scientist binnenhaalt in ruwe vorm opgeslagen (raw data). Dat kan

bijvoorbeeld data uit het ’scrapen’ van een webpage zijn. Hij moet die raw data dan

nog op allerlei manieren bewerken om er nette R-objecten van te maken (tidy data)

voordat hij ermee kan gaan werken.

Zonder er formeel dieper op in te gaan - maar om een beetje gevoel te krijgen voor

wat ‘tidy’ is - geef ik hieronder de vaak gehanteerde criteria:

Elke variabele heeft zijn eigen kolom in de data tabel.

Elke verschillende observatie moet in een verschillende rij staan.

Er is één data tabel voor één soort variabele.

Als er meerdere data tabellen zijn, moeten ze onderling koppelbaar zijn middels

een sleutelkolom.

De uitleg van de precieze bedoeling van deze criteria strekt een beetje te ver voor

deze blog, maar ben je geïnteresseerd dan kan ik je deze paper (PDF) van Hadley

Wickham aanraden.

Tidy data is een noodzakelijke voorwaarde voor het starten met het inhoudelijk

onderzoeken van die data. Het proces van raw data naar tidy data moet goed

gestructureerd plaatsvinden. Data scientists gebruiken daar vaak een ‘code book’

voor. Daarin staat bijvoorbeeld:

Het onderzoeksmodel waarin naast een beschrijving van (de reden voor) het

onderzoek, ook staat aangegeven hoe je de ruwe data hebt gevonden en

binnengehaald.

De data beschrijving (een sectie die soms zelf weer code book wordt genoemd),

met daarin een beschrijving van alle variabelen en eenheden die gebruikt

worden, zowel voor de tidy data als voor de variabelen die niet in de tidy data

terecht zijn gekomen.

Een recept dat aangeeft welke bewerking de data scientist heeft gebruikt om

http://vita.had.co.nz/papers/tidy-data.pdf

van de raw data, tidy data te maken, inclusief handmatige stappen en eventuele

R- of Python-scripts.

Met behulp van dit codebook zou elke willekeurige data scientist, uit de ruwe data,

precies dezelfde tidy data moeten kunnen genereren. Zie hier de opnieuw de

herhaalbaarheid en controleerbaarheid van ‘science’. Dat dat zinvol is blijkt

bijvoorbeeld uit

Stap 3: Exploratieve Data Analyse

De data scientist zal de uiteindelijk voorbereide tidy data eerst gaan onderzoeken

met exploratieve data analyse. Hiermee kan hij de waarde van de data voor het

onderzoek vaststellen. Ook deze stap kent allerlei statistische analyses. Het kan zijn

dat de data scientist toch weer op zoek moet naar nieuwe, betere databronnen en

dus de vorige stap herhaald moet uitvoeren. Maar dat is allemaal onderdeel van de

‘trial and error’ aanpak binnen het strak omlijnde onderzoeksmodel. Ook hier zie je

de volhardendheid van de data scientist terugkomen.

Stap 4. Het onderzoek uitvoeren

Uiteindelijk heeft de data scientist de juiste tidy data en kan het werkelijke

onderzoek zoals gesteld in het onderzoeksmodel beginnen. Het uitvoeren van het

ten principale reproduceerbare onderzoek, behelst zaken als statistical inference,

regressiemodellen, machine learning en het ontwikkelen van data producten. Alles

om de hypotheses in het model te onderzoeken. In principe kunnen uit dit

onderzoek weer redenen ontstaan om terug te keren naar nieuwe of betere

databronnen en dus de iteratie van voorgaande stappen, waarbij het codebook

natuurlijk navenant wordt bijgewerkt.

Vaak is het zo dat allerlei modellen en algoritmes experimenteel worden toegepast

en weer verworpen voor nieuwe modellen. Dat is een repeterend proces totdat de

juiste, best aansluitende modellen bepaald zijn, waardoor de data scientist tot een

sluitend, betekenisvol onderzoeksresultaat kan komen. Ook hier is vindingrijkheid

en volhardendheid een vereiste.

Stap 5. Resultaten presenteren

Het presenteren van de onderzoeksresultaten kan in allerlei vormen. Veelal zullen

hierbij ‘plots’ gebruikt worden, grafieken die de gevonden correlatie of regressie

duidelijk zichtbaar maken. Inhoudelijk gezien worden hypotheses verworpen of

geaccepteerd. Voor marketing betekent dit bijvoorbeeld dat aangetoond wordt

welke variabelen een invloed uitoefenen op bijvoorbeeld koopgedrag of churn. Uit

die constateringen kunnen dan weer voorspellende modellen worden afgeleid, die

weer gebruikt kunnen worden voor campagnes of voor NBA-engines.

Belangrijk is dat je begrijpt dat elke simulatie maar een simulatie is en dat dergelijke

voorspellende modellen op basis van de werkelijke resultaten moeten worden

bijgesteld om tot goede resultaten te komen.

Marketing en het data science proces

De marketing discipline zit vaak verlegen om antwoorden op allerlei vragen. Soms

kunnen deze vragen op een goede manier door data science worden geadresseerd.

Het data science proces wordt vrijwel altijd buiten het marketing productieproces

geplaatst als een soort research laboratorium. Dit voor het vinden van

voorspellende modellen met bruikbare, onafhankelijke variabelen die afhankelijke

variabelen in voldoende mate verklaren. Zo kan marketing erachter komen dat

mannen met snorren en baarden meer bier drinken. Of dat 60% van de bezoekers

die de blog rond de OLED-technologie uit eigener beweging kiezen en langer dan

30 seconden lezen, de nieuwe TV van Samsung binnen 30 dagen aanschaffen als ze

tussen de 20 en 25 jaar zijn.

Welk klantgedrag voorspelt een aankoop? Welke bezoekerseigenschappen zijn

bepalend voor het kiezen van een nurture path voor een bepaalde bezoeker? Laat

je data science lab het eens uitzoeken.

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-de-next-best-action

In vorige blogs heb ik nader toegelicht wat data science is en hoe het voor

marketing waardevol kan zijn. Ook heb ik de rol van de data scientist , het proces

van data science en de databronnen voor data science wat nader beschreven.

Interne en externe databronnen leveren data op. Data die de data scientist wellicht

eerst eens wil bekijken op eventueel verklarende verbanden. Daarom leek het me

goed om deze keer eens te kijken naar exploratieve data analyse. Anders gezegd:

het analyseren van data om te onderzoeken of daarin verbanden zijn te vinden.

Introductie

Exploratory Data Analysis (EDA) is een eerste stap in het bekijken van de

geëxtraheerde en schoongemaakte data. Meestal doe je dat door deze data visueel

te maken in wat genoemd worden: Exploratory Graphs.

Met exploratieve data analyse wil je een eerste indruk krijgen van de data door

deze op verschillende manieren aan elkaar te relateren. Het is mogelijk dat

sommige ‘variabelen’ een onderling verband laten zien en sommige juist niet. Met

de gevonden verbanden tussen bepaalde variabelen kun je dan proberen

statistische modellen te vinden die het best aansluiten bij dat mogelijke verband.

Data Science ExploratoryAnalysisGerrit Versteeg




Principes van Exploratieve Data Analyse

In paar zaken zijn kenmerkend voor EDA:

Vergelijkend onderzoek

Het vinden van bewijs voor een bepaalde hypothese is altijd relatief tegenover

een alternatieve hypothese. Je stelt je dus altijd de vraag: “maar vergeleken met

wat dan?”. Binnen marketing gebruik je daarvoor meestal een ‘control groep’.

Bijvoorbeeld een groep prospects die niet wordt blootgesteld aan bepaalde

reclame-uitingen. Hiermee krijg je een soort ‘ceteris paribus’ (alle andere

omstandigheden gelijkblijvend). De control groep vertoont het ‘normale’ gedrag

zonder de invloed van prikkels. De target groep krijgt wel prikkels, waardoor je

het resulterend gedrag tussen target en control groep met elkaar kunt

vergelijken.

Causaliteit

Binnen EDA wordt altijd gezocht naar een mogelijke onderliggende verklaring

van een (ogenschijnlijk) verband. Je zoekt naar een oorzaak-gevolg relatie, naar

een logisch verklarend mechanisme of naar een systematische structuur. Veelal

probeer je ‘tussenliggende’ variabelen te vinden die hetzelfde verband laten zien

en die bijdragen aan de logische verklaring van het fenomeen.

Multivariate data

De data scientist werkt meestal met meerdere variabelen tegelijkertijd, omdat

er vaak meerdere variabelen tegelijk van invloed kunnen zijn op het verband dat

we proberen te vinden. Ook al helpt de control/target-groep-constructie om

één ‘onafhankelijke’ variabele beïnvloedend te laten zijn, het is vrijwel

onmogelijk om de werkelijke tegenwoordige wereld te temmen. Om ons heen

bestaan zoveel prikkels, dat het zeer onwaarschijnlijk is dat slechts één variabele

zo netjes valt te separeren. Daarom werkt de data scientist in veel gevallen met

veel meer variabelen. Stel dat je een jaar lang meet hoe een wekelijks geplaatste

advertentie het aankoopgedrag van het geadverteerde product beïnvloedt. Als

je deze tegenover elkaar zet in een exploratieve grafiek dan zou je een aflopend

verband kunnen vinden en tot de conclusie kunnen komen dat die advertentie

geen positief effect heeft. Stel dat je diezelfde data eens in vier grafieken naast

elkaar zet voor elk van de vier seizoenen, dan kan het blijken dat alle seizoenen

een stijgende verkoop laten zien! Dus: houden, die advertentie. Je zal zeggen:

“dat is onmogelijk”. Maar dat is niet zo! Voor de liefhebbers: het is een

voorbeeld van Simpson’s paradox (go check a funny youTube of kijk even op

Wikipedia). Feitelijk verstoort de variabele ‘seizoen’ (confounding variable) de

relatie tussen advertentie en koopgedrag. Daarom is het van belang om veel

variabelen mee te nemen als je verbanden probeert te ontdekken.

Bewijsvoering

Bij EDA is het belangrijk om de bewijsvoering van je gevonden verbanden niet

alleen als grafiek te tonen met duidelijke labels, grootheden en gebruikte

bronnen, maar om die te combineren met beschrijvingen van de logica, in

woorden, cijfers en plaatjes. Hierbij geldt: de analyse is zo sterk als haar

kwaliteit, relevantie en integriteit. Ook hier dus ‘content is king’.

Visualisatie van Exploratieve Data Analyse

Bij EDA wordt veel gebruik gemaakt van het visualiseren van data in zogenoemde

‘Exploratory Graphs’. Dit zijn snel opgestelde ‘plots’ van tegenover elkaar gezette

variabelen om patronen inzichtelijk te maken. De toolbox van de data scientist kent

daarvoor bijvoorbeeld in R, drie algemeen gebruikte graphing-packages namelijk:

base, lattice of ggplot2. Naast deze standaard tools, kun je tegenwoordig echter

ook gebruik maken van betaalde visualisatie-tools, zoals Tableau of QlikSense.

Explorative graphing wordt niet gebruikt om resultaten te presenteren, maar om de

https://youtu.be/wgLUDw8eLB4

https://nl.wikipedia.org/wiki/Simpsons_paradox

eigenschappen van je data te begrijpen, om patronen te vinden in de data, om

suggesties te verkrijgen voor manieren om de data te modelleren en om fouten uit

je analyse te detecteren. Explorative graphs worden dan ook quick & dirty gemaakt,

als een soort try-out en je zal er tijdens de EDA-fase veel van maken. Ze zijn

bedoeld voor persoonlijk inzicht en ze worden niet fraai gemaakt voor presentatie

van de resultaten of voor communicatie.

Voor het weergeven van eendimensionale data worden meestal boxplots,

histograms, density plots of barplots gebruikt. Voor tweedimensionale data zijn dat

meestal multiple 1D-plots of (smooth) scatterplots. Meer dan twee dimensies doet

de data scientist vaak in multiple 2D-plots, door het variëren van grootte, kleur of

vorm van de meetpunten of zelfs door spinning plots en echte 3D-plots. Maar die

laatste zijn in de praktijk minder bruikbaar.

http://www.fourpoints.nl/blog/de-pie-chart-veel-gebruikte-bi-visualisatie-maar-niet-altijd-nuttig

n de vorige blog ben ik ingegaan op data science’s exploratory analysis en ik

realiseerde me dat ik een trendy, maar erg handige techniek bij het onderzoeken

van data vergeten ben te vermelden. Dat is namelijk: ‘Principal Component

Analysis’ of ‘PCA’. Deze techniek is superhandig bij het analyseren van een grote

set met ‘onduidelijke’ data. Laten we er eens wat verder in duiken….

Introductie van PCA, Principal ComponentAnalysis

PCA is een methode die inzicht geeft in welke variabelen in een dataset de meeste

verklarende waarde hebben. Het gebruikt techniek die zwaar leunt op lineaire

algebra met veel gemanipuleer van matrices en vectoren.

Ik ga in deze blog geen uitleg geven over de achterliggende algebra, want dat zou

te ver strekken en deze blogreeks is immers bedoeld voor managers en niet voor

statistici. Dus ik zal mij na een korte beschrijving hieronder, beperken tot wat het

doet en waar je het voor kunt gebruiken.

In essentie onderzoekt Principal Component Analysis de relatie tussen alle

variabelen en alle observaties en geeft weer welke variabelen de grootste

verklarende waarde hebben voor welke observaties. Hierbij gebruikt PCA

onderliggend meestal ‘Singular Value Decomposition (SVD)’ en in sommige gevallen

‘Eigenvector Decomposition’. Beide technieken analyseren:

De variantie: hoeveel varieert een variabel, dus in welke mate draagt hij bij aan de

observatie en is daarmee het meest verklarend voor het gedrag van die observatie?

De covariantie: hoe relateren (‘correleren’) de variabelen en observaties onderling?

Anders gezegd: in welke mate beïnvloeden zij elkaar of in welke mate zijn zij

onafhankelijk van elkaar?

Data Science ExploratoryAnalysis (2)Gerrit Versteeg

http://www.fourpoints.nl/blog/marketing-intelligence-voor-managers-data-science-exploratory-analysis


Wat doet PCA?

Een dataset met metingen wordt door data scientists meestal omgevormd tot een

matrix (een ‘dataframe’ of ‘tibble’). Dat betekent dat we er allerlei mooie

matrixtechnieken op los kunnen laten. De techniek (SVD) haalt de originele dataset

(in matrixvorm) uiteen in een drietal veelzeggende componenten. Zie afbeelding

hieronder.

De middelste matrix geeft op de diagonaal van links naar rechts weer welke

variabelen de meeste variantie vertonen en daarmee dus de meest verklarende

waarde hebben. Voor managers lijkt het mij normaal gesproken voldoende om te

weten dat er een goede techniek bestaat voor dit probleem. Als je toch meer over

het SVD en PCA-proces wilt weten, verwijs ik graag naar een goede video in twee

delen.

https://youtu.be/EokL7E6o1AE

Wat doet PCA voor mij?

Stel je een matrix voor met prospect-data (bijvoorbeeld het gedrag en de

eigenschappen van je prospect-database). En je bent op zoek naar welke

eigenschappen bijvoorbeeld aankoopgedrag of churn beïnvloeden. Dan kun je met

behulp van deze SVD/PCA-technieken de eigenschappen vaststellen die het meest

verklarend zijn voor aankoop of churn.

PCA helpt hierbij zo goed, omdat het vrijwel nooit voorkomt dat alle

eigenschappen van de prospects in je dataset onafhankelijk zijn. Daarom is het juist

zo lastig om een goede uitspraak te doen over welke variabele of combinatie van

variabelen er nu echt toe doet. Met behulp van PCA kun je dat veel beter doen. Je

schoont als het ware je dataset op van onderling beïnvloedende variabelen en kijkt

dan welke unieke set van eigenschappen gecombineerd met welke unieke set van

gedrag het meest verklarend is.

Als je de best verklarende variabelen kunt aanwijzen tijdens je exploratory data

analysis, dan kun je in de fasen daarop precies gaan vaststellen welk model dat

verband het best weergeeft. Met die kennis kun je beter voorspellen welke

prospects waarschijnlijk gaan aankopen en voor welke klanten je waarschijnlijk een

retentie-aanpak moet bedenken. Daarmee kun je je NBA’s (Next Best Actions)

beter bepalen of kun je target groups voor outbound campagnes beter selecteren.

Conclusie

De Data Scientist heeft een toolbox met technieken, die jou als manager met al je

vragen vooruit kunnen helpen. SVD en PCA zijn voorbeelden van dat soort

technieken. Je kunt er veel voorkomende vragen over data mee beantwoorden en

ze maken dus vaak een vast onderdeel uit zijn van het DataScience proces.

© 2016 Alle rechten voorbehouden FourPoints

Call to ActionZijn er vragen die opkomen na het lezen van dit e-Book.

Stuur dan een bericht of bel ons.

Ben je nieuwsgierig naar de komende blogs over BI, BigData en Data Science vanuit de manager bekeken?

Abonneer je via onderstaande knop dan op het thema‘Management & BI’. Zodra er een nieuwe blog in de reeks

verschijnt, krijg je automatisch een seintje (per e-mail)met een link.

Abonnement op "Management & BI"

made with

http://www.fourpoints.nl/thema-management-bi?hsCtaTracking=2ec27609-44f6-428a-849a-ce2745051820%7Cdd3972c3-17e8-4753-840a-fee3f7a7cfc3&__hstc=237817119.cbda816476200a7217d27c3fb516d98a.1484062064124.1484820483435.1485152211135.9&__hssc=237817119.3.14851522

& data science marketing intelligence data science.pdf · zelf. introductie de hype rondom data...

Documents