& data science marketing intelligence data science.pdf · zelf. introductie de hype rondom data...
TRANSCRIPT
FourPoints Business Intelligence
Marketing Intelligence& Data ScienceEen verzameling van Blogs door Gerrit Versteeg geschreven
made with
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Data Science - Intro
Big Data heeft Data Sciencenodig
Het Marketing Data Lake
Het Marketing Data Lake (2)
Marketing Data ScienceBronnen
De Marketing Data Scientist
Het Data Science Proces
Data Science ExploratoryAnalysis
Data Science ExploratoryAnalysis (2)
Call to Action
Table of Contents
Marketing en data science worden steeds vaker in één adem genoemd. Daarom
lijkt het mij goed om het onderwerp data science - bekeken vanuit de marketing-
discipline - eens wat nader te beschrijven in deze no-nonsense blogreeks over
Marketing Intelligence. Ik begin daarom maar met een introductie van het begrip
zelf.
Introductie
De hype rondom data science concentreert zich veelal om twee aspecten: de data
en de tools. Discussies rond nog grotere volumes, nog snellere of nog meer
gevarieerde data – onder de kapstok-term Big Data – laaien op, als indicatie voor
het belang van Data Science. En dan meestal hand in hand met het tweede brede
discussieonderwerp “tools”, met termen als Hadoop, NoSQL, MapReduce en Data
Lakes en heftige debatten over R versus Python.
Toch draait Data Science meer om de ‘science’ dan om de data of de tools. Voor
bedrijven zou data science geen hobby moeten zijn. Het nut van data science ligt in
het beantwoorden van bedrijfsvragen. De science ligt in het doen van gedegen,
navolgbaar en herhaalbaar onderzoek naar de antwoorden. Welke data en tools
daarbij nodig zijn, is instrumenteel. Zo kan het zijn dat je uit een data lake van 3
TeraByte, slechts 10kb aan data nodig hebt om die
specifieke vraag te beantwoorden en kun je met behulp van MS/Excel die 10 kb
makkelijk analyseren voor correlatie of regressie
Data Science - IntroGerrit Versteeg
Maar een discipline data science die zichzelf beschrijft als “wij gebruiken data om
onze bedrijfsvragen te beantwoorden” klinkt veel minder spannend, dan “wij
hebben met onze 3 TB de meeste data vergeleken met onze concurrenten binnen
de branche” en “wij werken al met een data lake gebaseerd op Hadoop,
gecombineerd met R en Tableau”.
Science, en niet Data of Tools
Als je begint met de vraag die je wilt beantwoorden als belangrijkste motivatie, kom
je er vaak achter dat je nieuwe data nodig hebt of dat dat je een nieuw experiment
nodig hebt om tot het juiste antwoord te komen. Je moet je ook realiseren dat het
eenvoudig is om structuur of verbanden in een data lake te vinden. Er is immers -
op basis van allerlei redenen - vaak correlatie te vinden, als je maar genoeg data
hebt. Het begrijpen of deze correlaties er toe doen voor bepaalde interessante
vragen, is veel lastiger. Vaak wordt de structuur die je vindt in een eerste
analysefase veroorzaakt door fouten in de metingen of de dataverwerking of door
het hanteren van artefacten die geen rol spelen bij voor marketing nuttige vragen.
Het zal niet lang meer duren of de hypes rond veel data en geavanceerde tools
verdwijnen naar achtergrond. Het werkelijke effect van data science zal worden
gemeten aan de hand van het vermogen om vragen met een duidelijk omlijnde
bedrijfswaarde, middels een gedegen wetenschappelijk onderzoek op basis van
data, te kunnen beantwoorden.
Marketing en data science
Marketing heeft als discipline van nature allerlei vragen. Welke klanten passen bij
mijn nieuwe producten? Hoe kan ik het risico van churn inzichtelijk maken? Hoe
meet ik het netto effect van mijn campagnes?
Moderne marketing vereist een goed passende en snelle reactie op het vaak
‘onduidelijke’ gedrag van je klanten en bezoekers. Dat genereert weer nieuwe, vaak
complexere vragen, bijvoorbeeld: Hoe kan ik voorspellen in welke van mijn
producten deze bezoeker geïnteresseerd zal zijn, gezien zijn gedrag tot nu toe?
Vooral moderne marketing, waarbij je de buyer journey zo goed mogelijk wilt
faciliteren, heeft behoefte aan allerlei voorspelmodellen die we pas na goed
onderzoek kunnen opstellen. Dat onderzoek is afhankelijk van data. Denk aan
gegevens over klanten, productgebruik, bezoekersgedrag, concurrenten,
merkbeleving, naamsbekendheid, sentimenten op sociale media, enzovoorts. Vaak
wordt het pas gedurende het onderzoek duidelijk welke data precies de hoogste
voorspellingswaarde geeft en welke data dus nodig is in het model. Ook voor
marketing geldt dus dat data science gedreven wordt vanuit de vraagstelling en
niet vanuit een vooraf verzamelde set van gegevens of vanuit de beschikbare
functionaliteit die moderne tools je kunnen bieden.
De data science reeks
Na deze introductie, zal ik in de komende blogs het onderwerp data science voor
marketing wat verder gaan toelichten. Denk bijvoorbeeld aan het data science
proces, de rol van de data scientist en mogelijke databronnen.
Even iets over mijzelf.
Ik ben principal architect en managing partner bij FourPoints Business Intelligence.
Naast het regelmatig publiceren van artikelen, geef ik gastcolleges rond het
onderwerp op universiteiten en hoge scholen. Met meer dan twintig jaar ervaring
in het effectief positioneren en inrichten van business intelligence, word ik door
veel organisaties betrokken bij het oplossen van BI-vraagstukken. Je kunt me
bereiken via [email protected] of op LinkedIn.
In twee eerdere blogs (“Wat is Big Data?”) zijn we ingegaan op de vraag wat Big
Data is en of je er als manager al iets mee zou moeten. Als je besluit om ook in
jouw bedrijf iets te gaan doen met Big Data, dan kom je gelijk bij de vraag: “Moet ik
dan ook iets met Data Science?”. Daarom ga ik in deze blog iets dieper in op de
relatie tussen Big Data en Data Science.
De essentie van Big Data
Zoals in mijn vorige blog aangegeven, gaat het bij Big Data voor een manager aan
de ‘business’-kant niet zozeer om de technische definitie van Big Data, maar meer
om de gebruiksmogelijkheden ervan. Vanuit die invalshoek bekeken, vertolkt Big
Data de kans (of bedreiging) om een massale hoeveelheid data uit een sterk
groeiend aantal, niet-beïnvloedbare externe bronnen zinvol te gaan gebruiken. Als
je tot de ontdekking komt dat Big Data een nieuwe kans betekent - of bedreiging
als al je concurrenten er wel brood in zien - dan is het verstandig om op korte
termijn te gaan starten met het ‘spelen’ met Big Data zodat je je leerproces op tijd
opstart.
Nieuwe data
Zoals eerder gezegd kent Big Data een tweetal essentiële factoren: enerzijds het
grote volume en de variëteit van die nieuwe data, anderzijds het afwijkende
karakter van die data. Dat laatste gaat vooral om het feit dat Big Data hoofdzakelijk
bestaat uit data uit externe, niet-beïnvloedbare databronnen. Dat in tegenstelling
tot de hoofdzakelijk interne data waarmee Business Intelligence pleegt te werken.
Om te leren werken met deze nieuwe data en deze op een goede manier te kunnen
analyseren is Data Science nodig.
Big Data heeft Data SciencenodigGerrit Versteeg
Data Science op Big Data
Zoals gezegd bestaat Big Data voor het grootste deel uit veel nieuwe data die
afkomstig is uit veel nieuwe externe bronnen. De meeste data is niet relevant voor
jouw bedrijf. Maar hoe kom je erachter welk deel van die data wel voor jouw
bedrijf interessant is? Deze vraag is in eerste instantie eenvoudig te beantwoorden
door de Big Data weg te strepen die totaal niets met jouw business case te maken
heeft. Daarna verzeil je al snel in de situatie dat je de potentieel wel interessante
data moet gaan onderzoeken op de waarde voor jouw bedrijf. Juist bij die
vraagstelling is het hebben van een Data Science discipline van groot belang.
De waarde van Big Data
De technieken en methodes binnen het vakgebied Data Science helpen je om van
mogelijk relevante data de waarde voor jouw bedrijf vast te stellen. Zo kun je
kijken naar de voorspellende waarde van bepaalde externe data op klantgedrag
(denk aan sociale media) of de verklarende waarde van externe data op de stand
van zaken rond het milieu binnen jouw land of gemeente (denk aan CO2-metingen
uit Duitsland gecombineerd met meteo-gegevens over windrichting en –sterkte).
“Big Data heeft Data science nodig, maar DataScience beperkt zich niet tot Big data”
De Data Science discipline
Data Science speelt niet alleen een rol bij het initieel vaststellen welke externe data
voor jou relevant zijn. Juist het karakter van die nieuwe data maakt het
noodzakelijk dat je Data Science blijft uitvoeren. Er ontstaat immers in een
groeiend tempo steeds meer nieuwe data. Daarnaast zal de data die je al hebt
geselecteerd veranderen qua inhoud en betekenis – de data komen immers uit
niet-beïnvloedbare databronnen. Het is jouw verantwoordelijkheid om die
veranderlijke stroom externe data te ‘borgen’, want de externe leverancier voelt
zich daarvoor wellicht minder of totaal niet verplicht.
Conclusie
Zoals eerder gezegd: “Als je tot de conclusie komt dat Big Data ook voor jou
nieuwe mogelijkheden biedt, dan is het verstandig om te gaan starten met leren”.
Dat betekent ook dat je een Data Science discipline nodig zal hebben. Het is een
onvermijdelijk deel van je leerproces als organisatie. Ga er niet vanuit dat je direct
een ervaren data scientist kunt aannemen, die zijn immers dun gezaaid. Het Data
Science werkveld is niet erg jong, maar de bredere uitrol van deze kennis over de
wereld van bedrijven is dat wel. Hou er dus rekening mee dat je zelf moet gaan
leren. Een goede startplek daarvoor zijn je bestaande BI-professionals. Ze kennen
jouw bedrijf, zijn al opgeleid en gewend aan het werken met data, en zijn snel bij te
scholen op de ins en outs van Data Science.
Zijn er vragen die opkomen na het lezen van deze blog, schrijf dan een reply. Dan
heb je grote kans dat we jouw vraag in een volgend blog behandelen (als je dat
tenminste wilt).
Ben je nieuwsgierig naar de komende blogs over BI, Big Data en Data Science
vanuit de manager bekeken? Abonneer je via onderstaande knop dan op het thema
‘Management & BI’. Zodra er een nieuwe blog in de reeks verschijnt, krijg je
automatisch een seintje (per e-mail) met een link.
Big Data en Data Science gaan een steeds grotere rol spelen binnen Marketing
Intelligence. Het benutten van data uit open data sources, uit sociale media en zelfs
uit sensoren in het veld (IoT) wordt snel interessanter. Het leren uit dit soort data
kan positieve effecten hebben op het succes van je marketing efforts, daar hebben
we het in deze blogreeks al vaker over gehad. Ik krijg daarbij vaak de vraag “Maar
hoe richt ik dat in? Heb ik een data lake nodig en waar positioneer ik die dan?”.
Daarom leek het me goed om een ruwe, high-level schets te geven van de
mogelijke positie van een marketing data lake. Daarin vind je big marketing data
terug en geef ik gelijk aan waar data science een rol speelt in de BI-omgeving van
Marketing.
De positie van het Marketing Data Lake
Hieronder staat een high-level schets van een BI-omgeving voor Marketing, met
daarin aangegeven de positie van zowel het Marketing Data Lake als Marketing
Data Science.
Het Marketing Data LakeGerrit Versteeg
Data bronnen voor het Marketing Data Lake
Het marketing data lake is onderdeel van het werkveld van de data engineer. Hij
zorgt voor de correcte verzameling van alle data, de column-based opslag in het
lake en de distributie van data uit het lake naar afnemers. De belangrijkste vier,
potentiële bronnen voor big data zijn:
Interne bronnen, denk bijvoorbeeld aan website tracking data, klantgedrag in
winkels, productgebruik. Deze data kan soms heel gedetailleerd worden
verzameld en daardoor snel groeien.
Sociale media, zoals tweets, likes, messages, enzovoorts.
Sensory data uit het Internet of Things (IoT). Indien relevant kan dit een
constante stroom aan gegevens over klantgedrag en productgebruik opleveren.
Open sources met data uit allerlei openbare bronnen, bijvoorbeeld de (semi-
)overheid, onderzoeksinstellingen en publieke websites. Het aanbod van dit
soort open data groeit gestaag. Onze eigen overheid heeft al aangegeven dat
veel van haar gegevens openbaar moet worden gemaakt (zolang de privacy
maar niet geschaad wordt).
Flexibele data opslag voor Marketing
In principe is het mogelijk om alle data eerst te verzamelen in een data lake. Het
gaat dan om zowel de geborgde en gestructureerde data, als de nog te modelleren,
ongestructureerde data. Je kunt er ook voor kiezen om het data lake alleen voor
ongestructureerde marketing data te gebruiken. Zo vermijd je mogelijke
verstoringen van de reguliere, geborgde datastromen door het marketing data
warehouse. Het andere uiterste is om een data lake voor de hele organisatie in te
richten van waaruit – naast Marketing - alle disciplines de voor hun relevante data
onttrekken.
Een discipline als Marketing hecht meestal grote waarde aan flexibiliteit waarbij
nieuw gevonden, interessante data snel moeten kunnen worden geborgd in de
managementinformatie. Bij bijvoorbeeld Financiën zou dat juist minder belangrijk
zijn. Voor Marketing is vaak zinvol om het data lake te vullen met zowel
gestructureerde als ongestructureerde data – zoals in de afbeelding hierboven
weergegeven. Als je dan binnen marketing research dan ontdekt dat bepaalde data
waardevol zijn, dan kun je deze data sneller in je reguliere marketing data
warehouse krijgen, omdat je data warehouse ook is aangesloten op hetzelfde data
lake en je dus de data niet opnieuw hoeft te ontsluiten. Op deze manier voorzie je
vanuit het data lake twee grote gebieden van data:
De reguliere en goed geborgde data verwerking via het data warehouse
Het research gedeelte van marketing. Hier zit het data science hart van
marketing.
De positie van Marketing Data Science
Veel van de nieuwe data sources zoals open data, social data en sensory data
worden eerst in het marketing research lab onderzocht. We kijken hierbij vooral
naar de bedrijfswaarde van de data in de context van marketing. Welke data zijn
verklarend, heeft voorspellende waarde? Waarvan is prospect/klantgedrag
afhankelijk? Kan ik naar aanleiding van het werkelijk gebruik van mijn producten of
diensten, verbeteringen aanbrengen in mijn proposities? Kan ik voorspellen
wanneer een klant churn vertoont en wat zijn daarbij de belangrijkste indicatoren?
De data scientist die deze vragen adresseert, heeft – naast een goede
onderzoeksvraag – ook allerlei data nodig die hij zelfstandig uit het data lake haalt.
Zijn de benodigde data nog niet aanwezig dan stopt hij die er zelf in - eventueel
met hulp van de data engineer.
De inzichten uit marketing data science kun je delen met product marketers en
segment marketers. Nieuwe voorspellende modellen kun je doorgeven aan
campaign management om na kalibratie te worden gebruikt voor segmentatie en
next best actions. Het zal blijken dat veel data na onderzoek niet van toegevoegde
waarde blijken te zijn. Maar de data die wel bijdragen aan het succes zullen in
aanmerking komen om geborgd te worden in het marketing data warehouse.
Daarmee komen deze nieuwe data als informatie tevoorschijn in de dashboards en
BI-tools van je marketing managers.
Conclusie
Natuurlijk is dit een high-level schets en deze opzet hoeft voor jouw
marketingdiscipline niet perse de meest optimale inrichting te zijn. Toch leek het
me handig om eens een plaatje op te stellen aan de hand waarvan je de
positionering van big data, data lakes en data science bespreekbaar kunt maken.
Op onze vorige blog zijn veel vragen binnen gekomen over de mogelijke synergie
tussen het Marketing Data Lake en het Marketing Data Warehouse. Begrijpelijk,
want dat is een interessante vraag in het licht van dataconsistentie,
kostenefficiëntie en toekomstvastheid. Daarom ben ik achter de tekentafel gaan
zitten om een plaat te maken die de plekken van samenwerking tussen de ‘drukke,
rumoerige’ research kant en de ‘rustig zoemende’ dataproductie kant weergeeft.
Deze afbeelding wordt in deze blog nader toegelicht.
Data Science en Data Productie in samenhang
Hieronder staat een ontwerpschets van een BI-omgeving voor Marketing, met
daarin de centrale positie van het Marketing Data Lake als voedingsbodem voor
zowel Marketing Data Science als Marketing Data Warehousing.
Databronnen voor het Marketing Data Lake
In de afbeelding heb ik een wat omvangrijker lijst van mogelijke databronnen
opgenomen. Daarmee wil ik laten zien dat het tijdperk waarin alle
managementinformatie uit standaard interne bronnen komt, wel zo’n beetje voorbij
Het Marketing Data Lake (2)Gerrit Versteeg
is. Het Data Lake is bij uitstek geschikt om allerlei data uit de meest uiteenlopende
bronnen op te nemen. De variëteit van deze data neemt sterk toe door de steeds
toenemende beschikbaarheid van open data, sensordata (IoT) en dark data. Dat
laatste heeft betrekking op data die achter de schermen (bijvoorbeeld logs) in de
interne systemen en in de infrastructuurtechniek (bijvoorbeeld messages en proces
statussen) zijn ‘verborgen’. Als een soort interne sensor-data. Het is weliswaar
meestal hoog-volume data, maar de tegenwoordige techniek maakt het makkelijker
om deze te verwerken. Dark data bevat nu eenmaal veel basiswaarnemingen
(vastgelegde events binnen de bedrijfprocessen) en heeft daardoor veel potentie
als stuurinformatie.
Het Marketing Data Lake als centrale bron
Het data lake is gekoppeld met zowel de data science kant (marketing research) als
de reguliere, geborgde data warehousing kant. Beide omgevingen voeden ruwe
(raw) data en geschoonde (tidy) data in het data lake. Ook het reguliere marketing
data warehouse wordt via ‘mappings’ (transformatie- en integratielogica) gevoed
vanuit het lake. Dit werkt consistentie en synergie in de hand.
Samenhang tussen research en productie
Alle nieuw ontgonnen data zal eerst door de research kant heen lopen om te
worden onderzocht op waarde. Hier wordt de betekenis van de data, de kwaliteit
en de syntax duidelijk. De data engineer (of bij kleinere bedrijven; de data scientist
zelf) zal de data ophalen, bekijken en opschonen (cleaning data). Als hij dit een
beetje netjes doet, zal hij een code book opstellen waarin precies staat hoe hij de
ruwe data ophaalt, interpreteert en bewerkt tot schone data.
De tidy data wordt door exploratory data analysis bekeken op potentiële waarde
en relevantie voor Marketing. Dit geeft een soort eerste leidraad voor verder
onderzoek. Explanatory data analysis – gericht op beantwoording van de
onderzoeksvraag – is het hart van data science en bedoeld om de meest-
verklarende variabelen te vinden. Daarmee kun je onder andere adequaat
voorspellende modellen maken. Hiermee wil ik natuurlijk niet zeggen dat alle
research altijd verklarend van aard is, we kennen immers bijvoorbeeld ook
beschrijvend onderzoek.
Als uit het onderzoek blijkt dat de data inderdaad een hoge marketingwaarde heeft,
is het mogelijk om deze data regulier op te nemen in de geborgde dataverwerking
in het data warehouse. Het verklarend onderzoek heeft ons inmiddels voldoende
begrip over de data gegeven in de vorm van syntax, semantiek, relaties en
structuren. Deze informatie uit het onderzoek, kan door de ontwikkelaars van de
reguliere data warehouse tak worden gebruikt om:
de informatie op het dashboard of rapport in begrijpelijke vorm te tonen
de datamodellering uit te voeren voor het data warehouse
de mappings te maken om van tidy data, via het data warehouse, betekenisvolle
informatie op de dashboards of in de data marts te kunnen genereren
de extractie en cleansing van de ruwe data in nette productieprocedures te
kunnen vormgeven (op basis van het code book)
De rollen rond het Marketing Data Lake enWarehouse
Bij non-multinationals (zeg MKB en National Enterprises) zal al het werk voor data
science door de Data Scientist worden uitgevoerd. Hij is getraind om data uit
bronnen te halen en op te schonen. Bij multinationals zien we tegenwoordig echter
steeds meer een splitsing tussen getting & cleaning data en de onderzoeksmatige
data-analyse zelf. Het eerste wordt dan opgepakt door een gespecialiseerde data
engineer en het tweede door de data scientist. De data engineer lijkt ook steeds
meer de geëigende term voor de back-end BI-professional binnen de data
warehouse omgeving. Het is functioneel gelijk werk, alleen de tools en databases
kunnen wat verschillen. Het feit dat het Data Lake alleen niet-geïntegreerde data
bevat, maakt het leven van de professionele data engineer er alleen maar
makkelijker op, omdat hij bij het vullen van het data lake (nog) geen gegevens hoeft
te integreren.
Als het zover is dat de data engineer voor het onderzoek ook de integratie van
gegevens in een samenhangend datamodel moet gaan doen, dan zijn de functies
vergelijkbaar en zullen de termen in elkaar overgaan. Zoals wellicht bekend is de
plek van data integratie het belangrijkste onderscheid tussen data science en data
warehousing:
Voor data warehousing geldt de volgorde: 1. extraction, 2. cleansing, 3.
transformation/integration, en 4. storing. Dit heet in vaktermen ‘ETL’
(Extraction, Transformation, Loading) of ‘schema on write’ (we integreren de
data in een model vóórdat we het wegschrijven in de database).
Voor data science (of big data) geldt de volgorde: 1. getting, 2. cleaning, 3.
storing en daarna pas 4. transformation/integration. Dit heet ‘ELT’ (Extraction,
Loading, Transformation) of ‘schema on read’ (we gaan de data pas integreren
als we de data gaan gebruiken, dus de opslag zelf - het data lake - bevat nog
niet-geïntegreerde data).
De data scientist heeft – op basis van zijn onderzoeksvraag – ook allerlei data nodig
die hij zelfstandig uit het data lake haalt. Zijn de benodigde data nog niet aanwezig
dan stopt hij die er zelf in - eventueel met hulp van de data engineer.
De front-end BI-professional maakt management dashboards en reports,
gebaseerd op de behoeften van de managers. Nieuwe data die binnenkomt vanuit
marketingonderzoek (de data science kant) is altijd een antwoord op een
onderzoeksvraag. De plaatjes die daarbij horen (meestal plots) zijn bedoeld om het
antwoord inzichtelijk te maken. Als blijkt dat dat antwoord een continu karakter
heeft (als je bijvoorbeeld de trend in de gaten wil blijven houden) dan kan een
dergelijke visualisatie (plot) goed hergebruikt worden in een management
dashboard. Ook hier werken de resultaten uit het voorafgaande onderzoek als
mooie input voor de front-end BI-professional.
Conclusie
Er is veel samenhang en synergie te bereiken door de koppeling van data science
en big data met data warehousing, waarbij het marketing data lake een centrale
voedingsbodem kan zijn voor beide takken van sport. Ook is het zo dat de
resultaten van een onderzoek in de marketing research kant vaak goed gebruikt
kunnen worden bij de ontwikkeling en borging van de MI-levering in de data
warehouse kant. Het is te verwachten dat deze omgevingen dichter naar elkaar toe
kruipen en dat ook de rollen van de betrokken professionals gaan overlappen.
Waar je je ook bevindt in de groeifasen van Marketing Intelligence; een plekje
reserveren voor je Marketing Data Lake kan dus geen kwaad.
In de vorige blogs heb ik nader toegelicht wat data science is en hoe het voor
marketing waardevol kan zijn. Ook heb ik de rol van de data scientist en het proces
van data science wat nader beschreven. Daarin werd duidelijk dat de data scientist
uitgaat van een onderzoeksmodel met duidelijk benoemde variabelen. Waarna hij
op zoek gaat naar databronnen die hem die variabelen kunnen geven.
Naast voor de hand liggende data bronnen binnen de eigen organisatie (interne
brondata), zal een data scientist voor de variabelen uit zijn model vaak gebruik
maken van data uit externe bronnen. In deze blogreeks rond data science voor
marketing leek het me daarom aardig om eens wat meer voorbeelden te geven van
types van databronnen waaruit zinvolle data kan worden gehaald. Zo krijg je een
idee van de variatie aan bronnen die je potentieel kunt ontsluiten. Het is goed om
je te realiseren dat je de data gebruikt voor onderzoek. Als daaruit blijkt dat de bron
zinvolle data oplevert, kun je gaan kijken hoe je zo’n externe bron kunt stabiliseren
voor reguliere data-extractie.
Introductie
Natuurlijk zijn interne bronnen de meest voor de hand liggende plaats om goed
geborgde, stabiele en relevante (‘tidy’) bedrijfsdata uit te halen. Toch blijkt er,
uitgaande van het type onderzoeksvragen die marketing vaak stelt, vaak behoefte
te zijn aan data die (nog) niet beschikbaar is in de interne bedrijfshuishouding. In
dat geval zal de data scientist gaan zoeken naar representatieve data uit externe
bronnen. Er is een schat aan data publiek beschikbaar op het internet die vaak
onvoldoende onderkend wordt. Data science tools (bijv. R met allerlei handige en
snelle ‘packages’) zijn heel krachtig in het inlezen en voorbewerken van ruwe data
uit verschillende bronnen. Laten we eens gaan kijken naar de soorten bronnen die
potentieel beschikbaar zijn.
Marketing Data ScienceBronnenGerrit Versteeg
Soorten interne databronnen voor marketing datascience
De in het onderzoeksmodel bepaalde variabelen kunnen vaak voor een deel
worden ingevuld met reeds beschikbare data uit de eigen bedrijfssystemen. Denk
bijvoorbeeld aan contractgegevens, factuurgegevens, gebruiksgegevens of
contactgegevens uit je klant- of financiële administraties. Voor de ontsluiting van
die gegevens wordt vaak een data warehouse of data lake gebruikt. Het is voor de
data scientist natuurlijk een ‘piece of cake’ als hij zijn data zo netjes geformatteerd
en beschreven aantreft in een beschikbare interne bron.
Maar niet alle data die vanuit het bedrijf zou moeten komen, is al beschikbaar in
een data warehouse of data lake . Soms moet de data scientist zelf op zoek naar
bedrijfsdata, bijvoorbeeld in databases onder bedrijfsapplicaties of in logfiles. Het
kan bijvoorbeeld blijken dat niet alle klantgegevens uit het CRM in het dwh zitten,
waardoor hij zelf op zoek moet gaan naar klantattributen die in de database van
het CRM zitten. Met voldoende mandaat, zijn feitelijk alle data uit alle databases
binnen het bedrijf in principe beschikbaar voor de data scientist. Zelfs de data die
verstopt zit in de bedrijfswebsite of in de outlook-mailbox van de bedrijfsaccounts.
Zie daar, waar de ‘hacking skills’ voor nodig zijn.
Soorten externe databronnen voor marketingdata science
Als blijkt dat het onderzoeksmodel van de data scientist dicteert dat er variabelen
nodig zijn waarvoor de data niet wordt geregistreerd binnen het bedrijf, dan moet
hij de data extern betrekken. Hiervoor zijn twee mogelijkheden beschikbaar: het
bedrijf maakt gebruik van ‘cloud’ applicaties, waarbij de gegevens dus ook ‘extern’
staan of de data is geen eigendom van het bedrijf, maar is publiekelijk beschikbaar
op het internet.
Eigen data in de cloud
Het komt steeds vaker voor dat bedrijven hun eigen data in de cloud hebben staan.
Gebruik maken van cloud-applicaties (Software as a Service) betekent automatisch
dat de data die bij die applicatie hoort, ook in de cloud is. Denk bijvoorbeeld aan
gehoste applicaties zoals: Salesforce, Exact, Hubspot, Marketo, Magenta, Zendesk
enzovoorts. Deze applicaties hebben als een schaalbaar ‘pay-as-you-go’ licentie-
model wat enorm helpt om moderne software te kunnen gebruiken tegen lage
kosten. Dat betekent ook dat heel veel bedrijven tegenwoordig cloud-oplossingen
gebruiken en dat hun data daardoor niet direct intern beschikbaar is (tenzij je al een
ontsluiting hebt gebouwd).
Als de data scientist deze data nodig heeft (en dat zal al snel zo zijn) dan moet hij
die dus bij de cloud-applicatie gaan ophalen. Gelukkig is het zo dat een – zichzelf
respecterende – cloud-supplier altijd een ‘API’ (Application Programming Interface)
op zijn cloud-applicatie heeft gebouwd waarmee de klant zijn gegevens ‘eenvoudig’
kan ophalen. Als dat onverhoopt niet zo, kies dan voor een cloud-applicatie van
een concurrent die zich beter gedraagt. Een goede API is zo beschreven, dat een
data scientist er met behulp van R-scripts snel data mee kan extraheren. Elke
cloud-applicatie heeft zijn eigen API gedefinieerd, dus daar moet de data scientist
wel verschillende R-scripts voor maken. Waarschijnlijk moet hij die data ook nog
opschonen en omvormen tot de tidy data, waarna hij er mee kan gaan werken. Je
ziet, de data scientist is een beetje van alle markten thuis.
Publieke data van anderen
Algemeen wordt onderschat hoeveel data er beschikbaar is online. Vrijwel alle
regeringen en veel onderzoeksinstellingen van ontwikkelde landen stellen hun data
(soms tegen een relatief kleine vergoeding) online ter beschikking voor hergebruik.
Denk bijvoorbeeld aan het CBS, de RDW, de KvK, de overheid met de BAG, de
postcodegegevens en nog veel meer. Het Internet vormt een rijke bron van data
die je kunt gebruiken in marketingonderzoek rond bijvoorbeeld demografische
gegevens, internetgebruik, smartphone gebruik of surf- en kijkgedrag. Ook data die
gebruikt is voor ander wetenschappelijk onderzoek is vaak online beschikbaar. Er
wordt steeds meer gedeeld en met het IoT (Internet of Things) zal deze trend alleen
maar sterk toenemen. De aanbieders dragen zelf zorg voor de beschikbaarheid van
die data in allerlei vormen. Data kan beschikbaar zijn als:
Databases, zoals MySQL en HDF5
Downloadable bestand, zoals XML, JSON (Javascript Object Notation), CSV,
XLSX, PDF, gzip, tar, enzovoorts
Website in HTML-formaat
Specifiek toepassingsformaat, zoals Minitab, S, SAS, SPSS, Stat, Systat
Image in jpeg, bmp, png of specifieke formaten vanuit allerlei visuele apparatuur
GIS-data, te lezen met packages als rdgal, rgeos en raster
Muziek, bijvoorbeeld mp3 met tuneR en seewave
Alvast ter verontschuldiging; de opsomming (afgeleid van J.F. Leek “getting and
cleaning data”) is bedoeld om een indruk te geven rond de vele mogelijkheden,
zonder elke mogelijkheid apart te behandelen.
Je ziet, zo gek als de aanbieders het nog niet hebben bedacht of er bestaat wel een
R-package voor het lezen ervan. Jouw data scientist is redelijk ingevoerd in de
bronnen die zoal beschikbaar zijn en anders gaat hij ernaar op zoek voor jouw
specifiek vraag. Onthoud, veel is al beschikbaar. Bekijk dat eerst voordat je moeite,
tijd en geld gaat stoppen in het zelf genereren van data door bijvoorbeeld eigen
onderzoek (hoewel dat soms natuurlijk onvermijdelijk is).
Marketing en data voor data science
Typerend voor het vak data science is het vermogen om allerlei data uit allerlei
bronnen te kunnen onttrekken en gebruiken. Soms kan het marketing niet gek
genoeg zijn als het gaat om de vragen die ze stellen. Met de combinatie van data uit
interne eigen bronnen, externe eigen bronnen en externe publieke bronnen kan
marketing met data science een goed stuk research binnenhalen, waar waardevolle
onderzoeksresultaten uit gehaald kunnen worden. En goede research helpt het
marketingbedrijf binnen de organisatie weer een stuk verder.
Als vervolg op de introductie blog over Data Science binnen Marketing heb ik het
deze keer over de functie van data scientist. Wat typeert een data scientist binnen
het vakgebied marketing? Welke kwaliteiten heeft hij?
Introductie
De data scientist binnen marketing werkt aan de bedrijfsvragen die marketing
heeft. Naarmate marketing moderner en daarmee meer customer-centric werkt,
worden die vragen lastiger te beantwoorden. Het vaak grillige gedrag van klanten,
prospects of anonieme bezoekers veroorzaakt dit. Wat zijn precies de data die
helpen om betekenisvolle voorspellingen te kunnen doen rond aankoopgedrag? Of
nog lastiger; welke data spelen een rol om bezoekers door de verschillende stadia
van de buyer journey heen te helpen?
Een data scientist helpt om deze vragen zo specifiek mogelijk te maken, om een
goed onderzoeksmodel op te stellen, om er tijdens het wetenschappelijke
geborgde onderzoek (gaandeweg) de juiste data bij te vinden, om de verbanden te
leggen en om de conclusies op een juiste manier te presenteren aan de
besluitnemers.
Voor een marketing data scientist zijn drie hoofdkwaliteiten van belang:
Hacking skills
Math & statistics knowledge
Marketing expertise
Deze skills zijn afkomstig uit Jeff Leeks Data Scientist’s Toolbox. Hieronder licht ik
ze toe.
De Marketing Data ScientistGerrit Versteeg
Hacking Skills
Hacking kent vaak een wat negatieve lading, omdat het doel van hacking helaas
niet altijd even waardevol is voor een bedrijf. Toch kun je de vaardigheden die
nodig zijn om succesvol data science te beoefenen, vergelijken met de skills die
hackers gebruiken bij hun activiteiten.
Het gaat hier om skills op twee belangrijke gebieden: enerzijds het gebruik van een
programmeertaal om toegang te krijgen tot data, om ermee te spelen, om de data
te analyseren en om de uitkomsten te presenteren (plotten). Anderzijds het
vermogen om zelf oplossingen te vinden voor problemen die je tegen komt tijdens
het onderzoek.
Programmeervaardigheden
Vaak wordt hierbij gebruik gemaakt van R of van Python. Hoewel Python prima
voldoet, heeft R toch vaak de voorkeur omdat het in steeds sterkere mate de
algemeen gebruikte taal is in het data science vakgebied. R is gebaseerd is op het
oudere S – een statistics language – en is gebouwd om ‘programmeren’
toegankelijker te maken voor minder officiële of volwaardige programmeurs. Op R
zijn inmiddels een grote hoeveelheid uitbreidingen (packages) gebouwd die ervoor
zorgen dat je van de ruwste data naar het meest interactieve rapport kunt komen.
De kracht van de taal en het brede gebruik van R, is de reden voor het ontstaan
van een bewonderenswaardige club van ontwikkelaars die R. Zij maken R steeds
rijker en zorgen ervoor dat de frequente functionele uitbreidingen onderling toch
goed blijven samenspelen. Tegenwoordig valt of staat een open source taal als R bij
haar ecosysteem.
Zelf-oplossend vermogen
Dit is het vermogen om er zelf op uit te gaan en oplossingen te vinden voor de
(onverwachte) problemen die je altijd tegenkomt tijdens het uitvoeren van een
onderzoek op basis van data. Er is immers veel nieuws onder de zon in het
werkveld van de marketing data scientist. Het meeste hiervan is niet in een
schoolboek terug te vinden. Het gebruiken van informatie waarvoor je zelf op zoek
moet gaan bij andere data scientists en professionals in belendende vakgebieden
en om met die informatie volhardend uit te zoeken hoe het jouw probleem kan
oplossen, is een sleutelkwaliteit voor de data scientist. Hij moet dus niet alleen
volhardend zijn in het vinden van een goede oplossing, hij moet ook bekend zijn in
het data science ecosysteem van ontwikkelaars en collega’s.
Kennis van Mathematica en Statistiek
Het werk van de klassieke campaign developer was al verweven met statistiek. Dat
is met de komst van moderne marketing alleen maar sterker geworden.
Tegenwoordig hebben de vragen vanuit marketing voor de data scientist steeds
vaker betrekking op het vinden van structuren en verbanden in de data. Daarbij
spelen zaken als correlatie op basis van allerlei distributiemodellen een belangrijke
rol. Ook voor het doen van goed aansluitende voorspellingen is een goede
statistische basiskennis een vereiste. Het werk van een marketing data scientist is
daarom doorspekt met het gebruik van statistische modellen.
Marketing kennis
Een goede marketing data scientist is ook een beetje marketer. Marketing is meer
dan ‘root mean square error’. Met andere woorden: “it does not suffice to throw
statistics at a marketing problem”. Het wordt lastig werken voor de data scientist
als hij de basisterminologie van de marketing discipline niet goed kent en daardoor
de vraagstelling niet in de juiste bedrijfscontext plaatst. Begrippen als treatment,
target cell, retentie, churn, control group, A/B-testing, response, net sales, et
cetera. moet hij goed kunnen plaatsen. Anders gaat hij op zoek naar de verkeerde
data of onjuiste statistische methoden. Met als gevolg dat hij een verkeerd
antwoord geeft op een onjuist geïnterpreteerde vraagstelling.
Marketing en de data scientist
Juist de combinatie van de drie genoemde hoofdgebieden onderscheidt de goede
marketing data scientist. Let er daarbij goed op dat de terminologie voor marketing
sterk in beweging is. Zeker in het licht van moderne marketing komen er
tegenwoordig regelmatig nieuwe begrippen bij. Hierbij is het zelf-oplossend
vermogen van de data scientist dus opnieuw van belang.
Naast zijn kennis en ervaring op de drie hierboven genoemde gebieden is het ook
van groot belang voor een data scientist om een zekere wetenschappelijke
discipline in zijn werk te hebben. De navolgbaarheid van onderzoek, het doen van
objectieve observaties voordat conclusies getrokken worden en het goed
vastleggen van het gevolgde pad ten behoeve van herhaalbaarheid, zullen zijn werk
een stuk effectiever maken.
Wat voor activiteiten gaat de data scientist - zoals ik die in een vorig blog heb
beschreven - nu eigenlijk uitvoeren? Welke proces wordt er typisch binnen data
science uitgevoerd?
Deze blog gaat eens wat dieper in op het data science proces, zodat je daar een
beeld van kunt vormen.
Introductie
Data science is voor een groot deel een ‘trial and error’ proces, omdat je van
tevoren gewoonweg niet alles kunt voorzien. Het lukt misschien niet om meteen de
juiste data te vinden en als je data vindt kan het zijn dat deze bijna onbruikbaar is
door vervuiling. Bij het zoeken naar verbanden of structuren is het mogelijk dat je
wel tientallen modellen moet onderzoeken om er uiteindelijk één te vinden die het
beste aansluit bij jouw data (en vraagstelling). Misschien blijkt het dat je algoritmes
nodig hebt die nog niet bestaan. Die moet je dan eerst samenstellen uit allerlei
informatie die je bij Stack Overflow of Rbloggers inwint.
Ook al is het proces zo onvoorspelbaar en zullen er onvermijdelijk fouten gemaakt
worden die leervermogen en volharding vereisen, uiteindelijk zijn er wel een aantal
distincte activiteiten te onderkennen.
Stap 1. Van vraag naar onderzoeksmodel
De data scientist start altijd met het opzetten van een onderzoeksmodel. De
gestelde vraag moet worden vertaald naar een model waarin de gebruikte
concepten en onderzoeksvragen goed zijn gedefinieerd. Hieruit leid je door
operationalisatie de afhankelijke en onafhankelijke variabelen en hypotheses af.
Deze stap verhoogt de mate waarin het onderzoek controleerbaar en herhaalbaar
is. Het blijft immers science.
Het Data Science ProcesGerrit Versteeg
Stap 2. Van raw data naar tidy data
De in het onderzoeksmodel bepaalde variabelen helpen de data scientist beslissen
welke data hij nodig gaat hebben tijdens zijn onderzoek. Met die kennis gaat hij op
zoek naar die data, want die kan in principe overal vandaan komen. Denk
bijvoorbeeld naast interne bronnen ook aan data van externe partijen zoals Twitter,
Facebook, LinkedIn, Webpages, enzovoorts. Daarover lees je meer in de volgende
blog.
Veel werk gaat zitten in het verkrijgen en schoonmaken van data. Vaak is de data
die de data scientist binnenhaalt in ruwe vorm opgeslagen (raw data). Dat kan
bijvoorbeeld data uit het ’scrapen’ van een webpage zijn. Hij moet die raw data dan
nog op allerlei manieren bewerken om er nette R-objecten van te maken (tidy data)
voordat hij ermee kan gaan werken.
Zonder er formeel dieper op in te gaan - maar om een beetje gevoel te krijgen voor
wat ‘tidy’ is - geef ik hieronder de vaak gehanteerde criteria:
Elke variabele heeft zijn eigen kolom in de data tabel.
Elke verschillende observatie moet in een verschillende rij staan.
Er is één data tabel voor één soort variabele.
Als er meerdere data tabellen zijn, moeten ze onderling koppelbaar zijn middels
een sleutelkolom.
De uitleg van de precieze bedoeling van deze criteria strekt een beetje te ver voor
deze blog, maar ben je geïnteresseerd dan kan ik je deze paper (PDF) van Hadley
Wickham aanraden.
Tidy data is een noodzakelijke voorwaarde voor het starten met het inhoudelijk
onderzoeken van die data. Het proces van raw data naar tidy data moet goed
gestructureerd plaatsvinden. Data scientists gebruiken daar vaak een ‘code book’
voor. Daarin staat bijvoorbeeld:
Het onderzoeksmodel waarin naast een beschrijving van (de reden voor) het
onderzoek, ook staat aangegeven hoe je de ruwe data hebt gevonden en
binnengehaald.
De data beschrijving (een sectie die soms zelf weer code book wordt genoemd),
met daarin een beschrijving van alle variabelen en eenheden die gebruikt
worden, zowel voor de tidy data als voor de variabelen die niet in de tidy data
terecht zijn gekomen.
Een recept dat aangeeft welke bewerking de data scientist heeft gebruikt om
van de raw data, tidy data te maken, inclusief handmatige stappen en eventuele
R- of Python-scripts.
Met behulp van dit codebook zou elke willekeurige data scientist, uit de ruwe data,
precies dezelfde tidy data moeten kunnen genereren. Zie hier de opnieuw de
herhaalbaarheid en controleerbaarheid van ‘science’. Dat dat zinvol is blijkt
bijvoorbeeld uit
Stap 3: Exploratieve Data Analyse
De data scientist zal de uiteindelijk voorbereide tidy data eerst gaan onderzoeken
met exploratieve data analyse. Hiermee kan hij de waarde van de data voor het
onderzoek vaststellen. Ook deze stap kent allerlei statistische analyses. Het kan zijn
dat de data scientist toch weer op zoek moet naar nieuwe, betere databronnen en
dus de vorige stap herhaald moet uitvoeren. Maar dat is allemaal onderdeel van de
‘trial and error’ aanpak binnen het strak omlijnde onderzoeksmodel. Ook hier zie je
de volhardendheid van de data scientist terugkomen.
Stap 4. Het onderzoek uitvoeren
Uiteindelijk heeft de data scientist de juiste tidy data en kan het werkelijke
onderzoek zoals gesteld in het onderzoeksmodel beginnen. Het uitvoeren van het
ten principale reproduceerbare onderzoek, behelst zaken als statistical inference,
regressiemodellen, machine learning en het ontwikkelen van data producten. Alles
om de hypotheses in het model te onderzoeken. In principe kunnen uit dit
onderzoek weer redenen ontstaan om terug te keren naar nieuwe of betere
databronnen en dus de iteratie van voorgaande stappen, waarbij het codebook
natuurlijk navenant wordt bijgewerkt.
Vaak is het zo dat allerlei modellen en algoritmes experimenteel worden toegepast
en weer verworpen voor nieuwe modellen. Dat is een repeterend proces totdat de
juiste, best aansluitende modellen bepaald zijn, waardoor de data scientist tot een
sluitend, betekenisvol onderzoeksresultaat kan komen. Ook hier is vindingrijkheid
en volhardendheid een vereiste.
Stap 5. Resultaten presenteren
Het presenteren van de onderzoeksresultaten kan in allerlei vormen. Veelal zullen
hierbij ‘plots’ gebruikt worden, grafieken die de gevonden correlatie of regressie
duidelijk zichtbaar maken. Inhoudelijk gezien worden hypotheses verworpen of
geaccepteerd. Voor marketing betekent dit bijvoorbeeld dat aangetoond wordt
welke variabelen een invloed uitoefenen op bijvoorbeeld koopgedrag of churn. Uit
die constateringen kunnen dan weer voorspellende modellen worden afgeleid, die
weer gebruikt kunnen worden voor campagnes of voor NBA-engines.
Belangrijk is dat je begrijpt dat elke simulatie maar een simulatie is en dat dergelijke
voorspellende modellen op basis van de werkelijke resultaten moeten worden
bijgesteld om tot goede resultaten te komen.
Marketing en het data science proces
De marketing discipline zit vaak verlegen om antwoorden op allerlei vragen. Soms
kunnen deze vragen op een goede manier door data science worden geadresseerd.
Het data science proces wordt vrijwel altijd buiten het marketing productieproces
geplaatst als een soort research laboratorium. Dit voor het vinden van
voorspellende modellen met bruikbare, onafhankelijke variabelen die afhankelijke
variabelen in voldoende mate verklaren. Zo kan marketing erachter komen dat
mannen met snorren en baarden meer bier drinken. Of dat 60% van de bezoekers
die de blog rond de OLED-technologie uit eigener beweging kiezen en langer dan
30 seconden lezen, de nieuwe TV van Samsung binnen 30 dagen aanschaffen als ze
tussen de 20 en 25 jaar zijn.
Welk klantgedrag voorspelt een aankoop? Welke bezoekerseigenschappen zijn
bepalend voor het kiezen van een nurture path voor een bepaalde bezoeker? Laat
je data science lab het eens uitzoeken.
In vorige blogs heb ik nader toegelicht wat data science is en hoe het voor
marketing waardevol kan zijn. Ook heb ik de rol van de data scientist , het proces
van data science en de databronnen voor data science wat nader beschreven.
Interne en externe databronnen leveren data op. Data die de data scientist wellicht
eerst eens wil bekijken op eventueel verklarende verbanden. Daarom leek het me
goed om deze keer eens te kijken naar exploratieve data analyse. Anders gezegd:
het analyseren van data om te onderzoeken of daarin verbanden zijn te vinden.
Introductie
Exploratory Data Analysis (EDA) is een eerste stap in het bekijken van de
geëxtraheerde en schoongemaakte data. Meestal doe je dat door deze data visueel
te maken in wat genoemd worden: Exploratory Graphs.
Met exploratieve data analyse wil je een eerste indruk krijgen van de data door
deze op verschillende manieren aan elkaar te relateren. Het is mogelijk dat
sommige ‘variabelen’ een onderling verband laten zien en sommige juist niet. Met
de gevonden verbanden tussen bepaalde variabelen kun je dan proberen
statistische modellen te vinden die het best aansluiten bij dat mogelijke verband.
Data Science ExploratoryAnalysisGerrit Versteeg
Principes van Exploratieve Data Analyse
In paar zaken zijn kenmerkend voor EDA:
Vergelijkend onderzoek
Het vinden van bewijs voor een bepaalde hypothese is altijd relatief tegenover
een alternatieve hypothese. Je stelt je dus altijd de vraag: “maar vergeleken met
wat dan?”. Binnen marketing gebruik je daarvoor meestal een ‘control groep’.
Bijvoorbeeld een groep prospects die niet wordt blootgesteld aan bepaalde
reclame-uitingen. Hiermee krijg je een soort ‘ceteris paribus’ (alle andere
omstandigheden gelijkblijvend). De control groep vertoont het ‘normale’ gedrag
zonder de invloed van prikkels. De target groep krijgt wel prikkels, waardoor je
het resulterend gedrag tussen target en control groep met elkaar kunt
vergelijken.
Causaliteit
Binnen EDA wordt altijd gezocht naar een mogelijke onderliggende verklaring
van een (ogenschijnlijk) verband. Je zoekt naar een oorzaak-gevolg relatie, naar
een logisch verklarend mechanisme of naar een systematische structuur. Veelal
probeer je ‘tussenliggende’ variabelen te vinden die hetzelfde verband laten zien
en die bijdragen aan de logische verklaring van het fenomeen.
Multivariate data
De data scientist werkt meestal met meerdere variabelen tegelijkertijd, omdat
er vaak meerdere variabelen tegelijk van invloed kunnen zijn op het verband dat
we proberen te vinden. Ook al helpt de control/target-groep-constructie om
één ‘onafhankelijke’ variabele beïnvloedend te laten zijn, het is vrijwel
onmogelijk om de werkelijke tegenwoordige wereld te temmen. Om ons heen
bestaan zoveel prikkels, dat het zeer onwaarschijnlijk is dat slechts één variabele
zo netjes valt te separeren. Daarom werkt de data scientist in veel gevallen met
veel meer variabelen. Stel dat je een jaar lang meet hoe een wekelijks geplaatste
advertentie het aankoopgedrag van het geadverteerde product beïnvloedt. Als
je deze tegenover elkaar zet in een exploratieve grafiek dan zou je een aflopend
verband kunnen vinden en tot de conclusie kunnen komen dat die advertentie
geen positief effect heeft. Stel dat je diezelfde data eens in vier grafieken naast
elkaar zet voor elk van de vier seizoenen, dan kan het blijken dat alle seizoenen
een stijgende verkoop laten zien! Dus: houden, die advertentie. Je zal zeggen:
“dat is onmogelijk”. Maar dat is niet zo! Voor de liefhebbers: het is een
voorbeeld van Simpson’s paradox (go check a funny youTube of kijk even op
Wikipedia). Feitelijk verstoort de variabele ‘seizoen’ (confounding variable) de
relatie tussen advertentie en koopgedrag. Daarom is het van belang om veel
variabelen mee te nemen als je verbanden probeert te ontdekken.
Bewijsvoering
Bij EDA is het belangrijk om de bewijsvoering van je gevonden verbanden niet
alleen als grafiek te tonen met duidelijke labels, grootheden en gebruikte
bronnen, maar om die te combineren met beschrijvingen van de logica, in
woorden, cijfers en plaatjes. Hierbij geldt: de analyse is zo sterk als haar
kwaliteit, relevantie en integriteit. Ook hier dus ‘content is king’.
Visualisatie van Exploratieve Data Analyse
Bij EDA wordt veel gebruik gemaakt van het visualiseren van data in zogenoemde
‘Exploratory Graphs’. Dit zijn snel opgestelde ‘plots’ van tegenover elkaar gezette
variabelen om patronen inzichtelijk te maken. De toolbox van de data scientist kent
daarvoor bijvoorbeeld in R, drie algemeen gebruikte graphing-packages namelijk:
base, lattice of ggplot2. Naast deze standaard tools, kun je tegenwoordig echter
ook gebruik maken van betaalde visualisatie-tools, zoals Tableau of QlikSense.
Explorative graphing wordt niet gebruikt om resultaten te presenteren, maar om de
eigenschappen van je data te begrijpen, om patronen te vinden in de data, om
suggesties te verkrijgen voor manieren om de data te modelleren en om fouten uit
je analyse te detecteren. Explorative graphs worden dan ook quick & dirty gemaakt,
als een soort try-out en je zal er tijdens de EDA-fase veel van maken. Ze zijn
bedoeld voor persoonlijk inzicht en ze worden niet fraai gemaakt voor presentatie
van de resultaten of voor communicatie.
Voor het weergeven van eendimensionale data worden meestal boxplots,
histograms, density plots of barplots gebruikt. Voor tweedimensionale data zijn dat
meestal multiple 1D-plots of (smooth) scatterplots. Meer dan twee dimensies doet
de data scientist vaak in multiple 2D-plots, door het variëren van grootte, kleur of
vorm van de meetpunten of zelfs door spinning plots en echte 3D-plots. Maar die
laatste zijn in de praktijk minder bruikbaar.
n de vorige blog ben ik ingegaan op data science’s exploratory analysis en ik
realiseerde me dat ik een trendy, maar erg handige techniek bij het onderzoeken
van data vergeten ben te vermelden. Dat is namelijk: ‘Principal Component
Analysis’ of ‘PCA’. Deze techniek is superhandig bij het analyseren van een grote
set met ‘onduidelijke’ data. Laten we er eens wat verder in duiken….
Introductie van PCA, Principal ComponentAnalysis
PCA is een methode die inzicht geeft in welke variabelen in een dataset de meeste
verklarende waarde hebben. Het gebruikt techniek die zwaar leunt op lineaire
algebra met veel gemanipuleer van matrices en vectoren.
Ik ga in deze blog geen uitleg geven over de achterliggende algebra, want dat zou
te ver strekken en deze blogreeks is immers bedoeld voor managers en niet voor
statistici. Dus ik zal mij na een korte beschrijving hieronder, beperken tot wat het
doet en waar je het voor kunt gebruiken.
In essentie onderzoekt Principal Component Analysis de relatie tussen alle
variabelen en alle observaties en geeft weer welke variabelen de grootste
verklarende waarde hebben voor welke observaties. Hierbij gebruikt PCA
onderliggend meestal ‘Singular Value Decomposition (SVD)’ en in sommige gevallen
‘Eigenvector Decomposition’. Beide technieken analyseren:
De variantie: hoeveel varieert een variabel, dus in welke mate draagt hij bij aan de
observatie en is daarmee het meest verklarend voor het gedrag van die observatie?
De covariantie: hoe relateren (‘correleren’) de variabelen en observaties onderling?
Anders gezegd: in welke mate beïnvloeden zij elkaar of in welke mate zijn zij
onafhankelijk van elkaar?
Data Science ExploratoryAnalysis (2)Gerrit Versteeg
Wat doet PCA?
Een dataset met metingen wordt door data scientists meestal omgevormd tot een
matrix (een ‘dataframe’ of ‘tibble’). Dat betekent dat we er allerlei mooie
matrixtechnieken op los kunnen laten. De techniek (SVD) haalt de originele dataset
(in matrixvorm) uiteen in een drietal veelzeggende componenten. Zie afbeelding
hieronder.
De middelste matrix geeft op de diagonaal van links naar rechts weer welke
variabelen de meeste variantie vertonen en daarmee dus de meest verklarende
waarde hebben. Voor managers lijkt het mij normaal gesproken voldoende om te
weten dat er een goede techniek bestaat voor dit probleem. Als je toch meer over
het SVD en PCA-proces wilt weten, verwijs ik graag naar een goede video in twee
delen.
Wat doet PCA voor mij?
Stel je een matrix voor met prospect-data (bijvoorbeeld het gedrag en de
eigenschappen van je prospect-database). En je bent op zoek naar welke
eigenschappen bijvoorbeeld aankoopgedrag of churn beïnvloeden. Dan kun je met
behulp van deze SVD/PCA-technieken de eigenschappen vaststellen die het meest
verklarend zijn voor aankoop of churn.
PCA helpt hierbij zo goed, omdat het vrijwel nooit voorkomt dat alle
eigenschappen van de prospects in je dataset onafhankelijk zijn. Daarom is het juist
zo lastig om een goede uitspraak te doen over welke variabele of combinatie van
variabelen er nu echt toe doet. Met behulp van PCA kun je dat veel beter doen. Je
schoont als het ware je dataset op van onderling beïnvloedende variabelen en kijkt
dan welke unieke set van eigenschappen gecombineerd met welke unieke set van
gedrag het meest verklarend is.
Als je de best verklarende variabelen kunt aanwijzen tijdens je exploratory data
analysis, dan kun je in de fasen daarop precies gaan vaststellen welk model dat
verband het best weergeeft. Met die kennis kun je beter voorspellen welke
prospects waarschijnlijk gaan aankopen en voor welke klanten je waarschijnlijk een
retentie-aanpak moet bedenken. Daarmee kun je je NBA’s (Next Best Actions)
beter bepalen of kun je target groups voor outbound campagnes beter selecteren.
Conclusie
De Data Scientist heeft een toolbox met technieken, die jou als manager met al je
vragen vooruit kunnen helpen. SVD en PCA zijn voorbeelden van dat soort
technieken. Je kunt er veel voorkomende vragen over data mee beantwoorden en
ze maken dus vaak een vast onderdeel uit zijn van het DataScience proces.
© 2016 Alle rechten voorbehouden FourPoints
Call to ActionZijn er vragen die opkomen na het lezen van dit e-Book.
Stuur dan een bericht of bel ons.
Ben je nieuwsgierig naar de komende blogs over BI, BigData en Data Science vanuit de manager bekeken?
Abonneer je via onderstaande knop dan op het thema‘Management & BI’. Zodra er een nieuwe blog in de reeks
verschijnt, krijg je automatisch een seintje (per e-mail)met een link.
Abonnement op "Management & BI"
made with