analytiikka bisneksessä
TRANSCRIPT
ANALYTIIKKA BISNEKSESSÄNIKO VUOKKO, SHARPER SHAPE26.10. 2015
MITÄ ON ANALYTIIKKA?
MITÄ ON ANALYTIIKKA?Analytiikka on bisneksen silmät• ”Näytä mihin astun”• ”Auta päättämään mihin haluan mennä”
• Analytiikka on digitalisaation ydin
”Software is eating the world” – tämä on vasta alkanut…
MISSÄ ANALYTIIKKA TOIMII?Jokaisella yrityksen osastolla:• Tehtaasta logistiikkaan• Markkinoinnista HR:ään
Jokaisella yhteiskunnan alueella:• Ammattilaisurheilusta lääketutkimukseen• Mobiilipeleistä maanjäristysten
paikannukseen• Vaateliikkeen hyllyistä rikostutkintaan
ESIMERKKI: FREEMIUM-PELIN ANALYTIIKKA
”Tarjotaan tätä ostoa tälle pelaajalle juuri tähän kellonaikaan, tähän hintaan, tässä paikassa, tässä pelitilanteessa, tällä sanamuodolla ja animaatiolla, tässä kohtaa ruutua”
Ai miksi?
”No koska samassa paikassa eilen yhtä toista peliä pelannut saksankielinen, mutta kanadalaiseksi itseään väittävä 23-vuotias Pokemoneja harrastava TTY:n opiskelija kävi Espanjassa kuukausi sitten, käyttää Facebookia paljon juuri lauantaisin, on aika nopea mutta samoja kielivirheitä toistava kirjoittaja ja tarkistaa usein pelin kaveritilastoja, joissa viettää keskimäärin 2.3 sekuntia kerralla”
MITÄ ON BIG DATA?
Suurta ja monimutkaista
• Teknologiapohja ja laskentateho mahdollistaa hyvin heikkojen signaalien arvioinnin hyvin suuresta datasta• Big Data on välttämätöntä kaikkein arvokkaimmille
analytiikkaratkaisuille• Osaajia ei ole tarpeeksi luomaan kaikkea analytiikkaa, johon
pystyisimme• Tämä epäsuhta selittää hypen ja Big Datan nopean nousun esille
ANALYTIIKAN MENETELMÄT
DATAN LAATUBig Data on:• Suurta harvinaisetkin ilmiöt toteutuvat usein• Monimutkaista dataa ja sen laatua vaikeaa arvioida• Kasvavaa ei aikaa pysähtyä
Analytiikan onnistuminen riippuu suoraan datan laadusta ja kyvystä hallita sitäBisneksen onnistuminen riippuu analytiikan onnistumisesta
DATAN LAATU
• Dataa yhdistellään hyvin erilaisista lähteistä
• Muuttujan määritelmä riippuu siitä, keneltä kysytään ja mistä luetaan
• Datakehitys ripeää ja nykytilanteen hahmotus siksi hankalaa
• Uutta dataa haalitaan laadun kustannuksella
• Poikkeusten, virheiden ja hyppyjen havaitseminen suuresta massasta vaikeaa
DATAN LAATU
Dokumentaation puute tai sen virheet (usein väärä yksinkertaistus)
Muuttujan merkityksen
muutos
Uudet muuttujat, vanhojen
katoaminen
Väärät tai vaihtelevat
yksiköt
Puuttuvat arvot
Teksti ja numerot sekaisin
Käsittämättömät aikaleimat
Tilapäiset, vaihtuvat,
kopioituneet ID:t ilman vastineita
Rikkinäiset ID:t
Korruptoituneet kentät
Valehtelu ja petos
OIKEAN TAVOITTEEN VALINTAAnalytiikan tavoitteet eivät muodostu tyhjiössä:• Bisnestavoitteet• Virheiden kustannukset• Datan ominaisuudet
• Jokaisella analytiikalla on onnistumisen mittari• Esimerkki: Millä mittarilla etsitään asiakkaiden lupaavinta promillea?• Paras mittari on bisnesarvo: raha, strateginen edistys,
yhteiskunnallinen vaikutus
OIKEAN LAADUN VALINTAVirheiden kustannukset ovat tapauskohtaisia:• Maanjäristyksen riskiarviointi• Lääkemolekyylin lupaavuus vs. potilasturvallisuus• Asiakkaalle epämiellyttävän tuote-ehdotuksen teko• Asiakkaan jo ostaman tuotteen ehdottaminen• Kaasuturbiinin virheellinen säätö
Analytiikka elää tasapainossa hyötyjen ja haittojen keskellä
SOVELLUKSIA: OHJAAMATON OPPIMINEN
• Varhainen konerikon tai tietomurron havaitseminen
• Kuluttajan yksityiskohtaisen elokuvamaun määrittely
• Yhteisöjen ja nousevien aiheiden tunnistaminen sosiaalisessa verkossa
• Hakukone
• Zombie-epidemian mallintaminen
SOVELLUKSIA: LÄHDE-EROTTELU
• Kielen mallinnus
• Aivotutkimus
• Ilmastonmuutoksen syiden tunnistaminen
• Teollisuusprosessin dynamiikan hallinta
• Riskitunnistus itseajavassa autossa
SOVELLUKSIA: OHJATTU OPPIMINEN
• Roskapostin tunnistus
• Betonin lujuuden säätö
• Parhaan mainoksen ja sen hinnan valinta kuluttajalle
Puoliohjattu oppiminen
• Hahmontunnistus videokuvasta
• Mielipideanalyysi webbifoorumeilta
EKSPONENTTILAIT• Koulu opettaa meille, että kaikki seuraa normaalijakaumaa• Todellisuudessa hyvin moni data seuraa eksponenttilakia – ”the long tail”Maailma on täynnä eksponenttilakeja:
Asiakkaiden arvo ja aktiivisuusAivotoimintaMaanjäristysten voimakkuusVarallisuuden jakoHiekanjyvien kokoIhmisten sosiaalinen käytös
Jokien pituusOsakepörssien aktiivisuus ja heilahteluSähköinen kohinaKaupunkien koko
Ihmiset eivät käyttäydy niin kuin kuvittelet
EKSPONENTTILAIT• ”Kenellä on, sille annetaan” suuret verkostovaikutukset• Esimerkki: nettisivuille linkitetään suhteessa niiden suosioon• Esimerkki: tunnetut näyttelijät saavat enemmän rooleja
• Äärimmäisen vino jakauma: valtava huippu, mutta lähes kaikki pohjalla• Keskiarvot ovat rikollisen huonoja mittareita• Useimmat analyyttiset menetelmät sekoavat tästä täysin• Eksponenttikäyrän eri osat käyttäytyvät hyvin eri tavoin
Tyypillisen freemium-pelin tuotot/aktiivisuus/tms. per pelaaja näyttävät tältä
Poistetaan tästä ensin ei-maksavat käyttäjät
… mutta tulos ei olekaan tämä normaalijakauma …
… vaan näyttää itse asiassa tältä
Valtavat huippuarvot, mutta lähes kaikki ovat pohjalla
Käyrä seuraa eksponenttilakia
Logaritmiakselit tuovat esille suoran viivan
Toinen esimerkki
Käyttäjämäärä
Tuotot per käyttäjä
TILASTOLLINEN MERKITSEVYYSBig Data on• Suurta mikä tahansa erikoinen ilmiö löytyy kun etsii• Monimutkaista mahdollisuus tehdä runsaasti monimutkaisia
kysymyksiä
Ihmiset ovat tavattoman huonoja tulkitsemaan tilastojaSinä et ole poikkeus
Big Data tarjoaa täydellisen ympäristön tämän todistamiseen
TILASTOLLINEN MERKITSEVYYS
• Päättäjä: ”Voinko luottaa näihin numeroihin? Onko päätökseni perusteltu?”
• Tilastollinen merkitsevyys on eri asia kuin tosimaailman merkitsevyys
• Järjestelmien pitää toimia varman päälle riskien suhteen
• Luottamus analytiikkaan rakentuu hitaasti, mutta romahtaa nopeasti
TILASTOLLINEN MERKITSEVYYSMerkitsevyysarvion luotettavuudelle on kriittistä:• Datalähteen ja haetun ilmiön mallinnuksen oikeellisuus• Etsityn ilmiön rajaaminen tiukasti etukäteen
Esimerkki bioinformatiikasta:• Geenien toiminta ei ole normaalijakautunutta kohinaa• Testattavana on samanaikaisesti tuhansia eri geenejä ja olosuhteita• Eri tapoja etsiä poikkeuksia on tuhansia
KORRELAATIO JA SYY-SEURAUSSUHDE
• Korrelaatio ei ole syy-seuraussuhde• Mutta analytiikassa korrelaatio usein riittää
• Korrelaatio voi kätkeä mielivaltaisen totuuden• Tulipaloja syttyy enemmän kun palomiehiä on enemmän• Enemmän markkinointiin investoivilla yhtiöillä on suurempi
liikevaihto
ANALYYTTINEN TESTAUS• Automaattinen analytiikka mullistaa tiedonkeruun ja innovoinnin• Ei vain teknologiaa vaan ideologiaa
• ”Miten muotoilemme käyttöliittymän logiikan ja palikat?”• ”Kumpi algoritmi tuottaa käyttäjien mielestä parempia tuloksia?”• ”Millä hinnoittelustrategialla saamme maksimoitua lennon tuoton?”
• Lähtökohtana A/B-testaus• Modernina rakenteena bandit-testaus
METAILUA ANALYTIIKASTA
MITKÄ OVAT TÄRKEITÄ METRIIKOITA?Älä valitse metriikoita vaan bisnesongelmia
• Näkyvä muutos metriikoissa näkyvä muutos bisneksessä• Bisnesongelmat muuttuvat ja vaihtuvat jatkuvasti• Internet ei kerro sinulle ongelmaasi
Ongelmien ymmärtäminen ei riitä, analytiikan tulee tarjota keinot ratkaisuun
ESIMERKKI: KAKSI MOBIILISOVELLUSTAUusi sovellus
• Tehokkain käyttäjien hankintakanava?• Tehokkain orgaanisen kasvun keino?
• Miten korjata uusien käyttäjien alkukokemus?• Mitä ominaisuuksia ei käytetä?• Tehdäänkö ”erikoistarjous” 2 vai 5
päivän jälkeen?
Vakiintunut sovellus
• Mikä käyttäjäsegmentti on vielä ammentamatta?• Mikä saa käyttäjät lähtemään?
• Millainen sisältö on parasta monetisoinnille?• Onko käyttäjiä, jotka ovat
saturoituneet nykysisällölle?
ANALYYTIKON TEHTÄVÄ
Ei tiedon, vaan bisneksen mallintaminen
• Analyytikko muuntaa bisnesongelmia dataratkaisuiksi
• Maailma on täynnä ongelmia ja analytiikka täynnä ratkaisuja
• Miten rakennetaan siltoja puolelta toiselle?
MITÄ TAITOJA DATA SCIENCE VAATII?• Todennäköisyysmatematiikka• Ohjelmointi ja skriptaus• Laskentatieteet• Datajärjestelmät
• Kyky kiertää ongelmia ja hallita monimutkaisuutta• Intuitio (nopeasti poista väärät + valitse oikea lähestymistapa)• Kyky nähdä yksityiskohdat, mutta luoda yleiskuva• Bisnes-ymmärrys
OPERATIIVINEN ANALYTIIKKA
• Yleensä analytiikka nähdään kivoina kuvina kalvoilla ja nettisivuilla
• Analytiikan vaikutus ja hyöty 1000x, kun se automoidaan osaksi operaatioita
• Operatiivinen analytiikka analysoi ja reagoi dataan jatkuvasti, ympäri kellon, ilman ihmisiä
OPERATIIVINEN ANALYTIIKKA: ESIMERKKEJÄ• Markkinointi ei tutki mainonnan vaikutuksia, vaan kone
automaattisesti ennustaa ja painottaa budjetin uusiksi joka hetki
• Tuotantoketju tasapainottuu satojen yksiköiden ja tuhansien SKU:iden välillä automaattisesti
• Kone ei vain tarjoa tietoa potilaan tilasta, vaan jatkuvasti arvioi mahdollisten komplikaatioiden todennäköisyyttä ja ehdottaa lisätoimenpiteitä
OPERATIIVISEN ANALYTIIKAN HAASTEET• Analytiikan automaattinen käyttö on 10x vaikeampaa• Valtavat vaatimukset datan laadulle, algoritmien tarkalle
ymmärtämiselle ja järjestelmien luotettavuudelle• ”Outo” data ei saa aiheuttaa ”pahoja” reaktioita
• Datan saatavuus on bisneskriittistä• Analytiikan saatavuus on bisneskriittistä• Analytiikan luotettavuus on bisneskriittistä
MITÄ ON REAALIAIKAINEN ANALYTIIKKA?• Analyytikko: ”Mikä on käyttäjien määrä tänään? Lähteittäin? Entä
nyt? Ranskassa?”
• Järjestelmänvalvoja: ”Verkkoliikenteessä erikoinen piikki viime 10 sekunnin aikana, miksi?”
• Mainospörssi: ”Mitä tarjoat tästä mainostilasta? Sinulla on 50 ms”
• Moottorikontrolleri: ”Näiden 12 sensorin data viimeisen 10 mikrosekunnin ajalta kertoo, että minun tulee käskeä ohjaimia muuttamaan toimintaansa”
TARVITSEEKO ANALYTIIKAN OLLA MONIMUTKAISTA?• Keskiverto yrityksellä on valtavasti ongelmia, jotka voi ratkoa
hyvin yksinkertaisella analytiikalla• Näiden ratkominen ja automointi on monien vuosien työ
• Laajemman automaattisen analytiikan kehittäminen vie paljon pitempään kuin kukaan alkuun kuvittelee• Monimutkaisen analytiikan kehittäminen turhaa, jos taustalla
olevia perusasioita ei kunnolla hallita
ANALYTIIKAN KÄYTTÖLIITTYMÄAnalytiikkaa ei oteta käyttöön, ellei se tee käyttäjiensä työstähelpompaa, laadukkaampaa ja tehokkaampaa
Visualisointi on kriittistä sekä hyödylle että hyväksynnälle organisaatiossa, konseptoinnista lopputuloksiin asti
Pääosa analytiikan investoinneista kuluu toimivan käyttöliittymän tarjoamiseen
ANALYTIIKAN KÄYTTÖLIITTYMÄ
• ”Mitä tietoa näiden käyttäjien tulee nähdä?”
• ”Mitä tietoa tämä päätöksenteko tarvitsee?”
• ”Miten esittää tieto selkeästi, mutta kaiken oleellisen näyttäen?”
• ”Miten esittää tieto niin, että siitä ei voi tehdä virheellisiä tulkintoja?”
YLEISET ONGELMAT ANALYTIIKAN KÄYTÖSSÄ• Vähäinen huomio datan laatuun ja sen kompensointiin• Metriikoiden huono ymmärrys ja valinta• Metriikoiden virheellinen tulkinta• Väärä yksinkertaistus (esim. keskiarvojen käyttö)• Merkitsevyyden unohtaminen
• Virhelähteiden puutteellinen tunnistaminen• Puutteelliset alkuperäiset tavoitteet• Keskeinen data puuttuu (joskus hyvin vaikeaa korjata)• Löydöt jäävät infotasolle, niitä ei automoida osaksi operaatioita• Liian monimutkaisen tekeminen
DATA
KONEDATA JA IHMISTEN LUOMA DATAIhmisten luomaa dataa:• 6K twiittiä / s• 40K tapahtumaa / s mobiilipelistä (~200 Gt / pv)• 50K Google-hakua / s
Konedataa:• 5M tarjousta / s USA:n optiomarkkinoilla• 120 Mt / s diagnostiikkaa kaasuturbiinista• 1 Pt / s törmäyshetkellä CERNin LHC-kiihdyttimestä
KONEDATA JA IHMISTEN LUOMA DATA• Ihmisten luoma data tulee kasvamaan, mutta pääosin
yksityiskohtaisuudeltaan• Lähes kaikki ihmisten luoma data on ”pientä”
• Konedataa on valtavasti ja vain tallennuskapasiteetti rajoittaa sen kasvua• Konedatan kerääminen mullistuu asioiden internetin myötä
entisestään
DATA VERSUS ALGORITMI• ”Yksinkertaiset mallit ja enemmän dataa voittavat vähempään
dataan perustuvat monimutkaisemmat mallit” – Peter Norvig
Perusteita:• Lisää muuttujia laskee vinoumaa, lisää datapisteitä laskee varianssia• Yksinkertaiset metodit helpompia hallita, erityisesti operaatioissa• Laskenta-ajalla on merkitystä suuressa skaalassa
Viime aikoina sääntöön on ilmestynyt poikkeus
”DEEP LEARNING” – SYVÄT NEUROVERKOT• Pohjimmiltaan vain hyvin monikerroksinen tavanomainen neuroverkko• Pitkä sarja pieniä läpimurtoja nostaneet menetelmän valtavan
tehokkaaksi• Poikkeus, missä ”valtavasti dataa ja monimutkainen malli” voittaa
Erityisominaisuuksia:• Toimii erityisesti jatkuvarakenteiselle datalle (aikasarjat, kuvat, ääni)• Automoi pois osan tarpeesta ymmärtää datan ominaisuuksia• Vaatii valtavat määrät sekä dataa että laskentaa• Hyvä alusta ohjatun ja ohjaamattoman oppimisen yhdistämiseen
ESIMERKKI: GOOGLENET• 27 kerrosta, 5M parametria, näitä verkkoja 7 rinnan•Oppiminen vaatii viikon (nopeaa) GPU-aikaa• Kuvantunnistus ihmisen tasolla
Huskyvs.
Malamuutti
DATAJÄRJESTELMÄT
DATAJÄRJESTELMÄT MURROKSESSA• Vanhat järjestelmät soveltuvat transaktioihin, ei analytiikkaan• Erilainen data ja erilainen tarkoitus tarvitsevat hyvin erilaisen
järjestelmän
Datan pitää olla• heti saatavilla ympäri maailmaa• käytettävissä laajasti ja samanaikaisesti• vapaasti yhdisteltävissä
UUDET DATAJÄRJESTELMÄT – HADOOP• Hadoop toi halvan, luotettavan datan tallennuksen ja kyvyn
edes teoreettisesti käsitellä valtavaa dataa
• Ei ole yhtä Hadoopia – vain yleinen heterogeenisen laskennan alusta ja kokoelma järjestelmiä ja sovelluksia
Hadoop on oikea vastaus vain hyvin harvoille
ESIMERKKI – FACEBOOKIN ANALYTIIKKA-HADOOP
300 Pt
600 Tt / päivä
UUDET DATAJÄRJESTELMÄT - PILVIVanhat tavat säilöä ja käyttää dataa sopivat huonosti uusiin tarpeisiin
Pilvi ratkaisee monia ongelmia• Luotettavuus ja säilyvyys• Skaalautuvuus, hajautus, samanaikaisuus• Sama yksinkertainen saatavuus kaikkialta
Pilvi on ainoa oikea ratkaisu lähes kaikille
UUDET DATAJÄRJESTELMÄT – DATA ON JATKUVAA• Ennen data nähtiin staattisena tilana, jota päivitettiin• Nyt data nähdään jatkuvana virtana yksittäisiä muutoksia• Mikään data ei ikinä katoa, se vain kertyy
Data pitää analysoidaan sitä mukaa kuin se tuleeDatan ”parasta ennen”-päiväys aikaistuu:• ”Miksi katsoa kuukauden vanhaa dataa, kun sitä tulee tänään 10
gigaa lisää?”• ”Eilisen data pitää hyödyntää nyt ennen kuin se on turhaa”
ASIOIDEN INTERNET• Ymmärrämme elinympäristöämme lopulta aika vähän• Asioiden internet muuttaa tämän niin ihmisille kuin koneille• Suunnaton määrä hyvin monimutkaista dataa
• Mahdollisuudet ovat valtavat, mutta vielä epäselvät• Teknologia on olemassa, mutta ei vielä kypsää• Kuka analysoi ja tuo käyttöön kaiken tämän datan?
ANALYTIIKKA BISNEKSESSÄ
MITÄ BIG DATA TARKOITTAA BISNEKSELLE?Asioiden arvoa ei mitata vain rahassa, vaan myös datassa
• Maksavat asiakkaat ovat aina pieni vähemmistö• Ei-maksavat asiakkaat tuottavat elintärkeää dataa
Esimerkki: Google tekee $15B voittoa, vaikka tarjoaa kaikille ”ilmaisen” sähköpostin, Officen, pilvitallennuksen, videokirjaston, hakukoneen, jne.
ANALYTIIKAN KÄYTÖN ASKELEET
1. Hallitsematonta – kaoottista, rikkinäistä dataa, ad-hoc käyttö
2. Reaktiivista – Paikallisia käyttötarpeita, tieto ei siirry
3. Hallittua – Strategian mukaista, suunniteltua
4. Osaamisen ydin – Datan käyttö on kaiken toiminnan ytimessä
5. Strategista – Datalle on oma strategia, sen arvoa ja investointeja suunnitellaan ylimmillä tasoilla
ANALYTIIKKA JA YRITYSKULTTUURISuurin haaste analytiikan käytössä ei ole teknologia vaan ihmiset
• Miten saada organisaatio luottamaan dataan eikä statukseen, konsensukseen, kokemukseen, intuitioon tai ennakkoluuloihin?• Miten saada organisaatio vaatimaan dataa ja kyseenalaistamaan vanhat
totuudet?• Muutoksen täytyy lähteä huipulta, muutosten taas pohjalta• Yhteistyö analytiikan osaajien ja osaamattomien välillä auttaa tukemaan
muutosta• Hyödyt vaativat suuren esipanoksen kärkihankkeet tärkeitä
ANALYTIIKKA JA YRITYSORGANISAATIO• Miten rakentaa organisaatio ja sen prosessit hyödyntämään dataa
joka vaiheessa?• Dataa ja korkean tason analytiikkaosaamista on kriittistä hallita ja
kehittää keskitetysti
• Vaihtoehto 1: Voimakas keskitetty osaaminen yhteistyössä bisnesyksiköiden kanssa• Vaihtoehto 2: Keskitetty yksikkö tarjoaa teknologiaa ja
erikoisosaamista bisnesyksiköihin hajautetuille analyytikoille, joilla bisnestuntemus
DATASTRATEGIAData on pääomaa
• Mikä on datan capex, arvon alenema ja kuoletus?• Miten investoidaan datapääomaan?• Miten data muunnetaan tuloiksi?• Voiko dataa ostaa ja myydä?• Miten datapääoma kirjataan?• Keskeinen teknologia tarvitsee strategian, mikä on datastrategia?
ANALYTIIKKA JA YRITYSSTRATEGIA”Mitä peliä pelaamme?”
• Oikea analytiikka tuo merkittäviä kilpailuetuja• Monet rakentavat strategiansa sen datan varaan, johon heillä on
yksinoikeus
”Miten pidämme kirjaa pistetilanteesta?”
• Analytiikalla arvioidaan yritysstrategian menestystä• Analytiikka ei vain kerro pistetilannetta vaan keinot sen
parantamiseen
YHTEENVETO
KIITOS!Ota yhteyttä: [email protected], linkedin.com/in/nikovuokko