big data -esitys, joulukuu 2014
TRANSCRIPT
Big DataMEGATRENDI 2011 ⇒
"The next frontier for innovation, competition and productivity"
“Cloud Computing” ja “Big Data”
cloud co
mputing
big data
Google-haut vuosina 2009-2014
Määritelmä ja viitekehys
Mitä tarkoittaa big data?1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelevat suuresti
2. Haastetta hallita ja hyödyntää tuota tietomäärää perinteisten järjestelmien ja ratkaisujen avulla
3. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan
Big datan 3 V:täVolume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.
Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.
Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin.
Veracity, Value, Virality, Validity, Viscosity, Vulnerability… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
= paljon nopeasti lisääntyvää monimuotoista dataa
Big datan 3 V:tä
velocity →vo
lum
e →
variety →
Big data
● IDC sanoo (04/2014), että vuonna 2014 markkinat ovat 14 mrd $ ja kasvavat vuonna 2017 tasolle 32 mrd $
● Gartner sanoo (10/2012), että vuonna 2012 big data -markkinat olivat jo 28 mrd $
● McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen jo vuonna 2011 arviolta 1 000 mrd €
Big data -markkinoiden koko
Muita käsitteitä?
Ilmiöllä on monta nimeä● Internet of Things + Social Media
○ esineiden internet + ihmisten internet
● Big data○ massadata yms. (mm. McKinsey)
● Internet of Everything○ kaiken internet (Gartner → ihmiset, esineet, informaatio, paikat)
● Industrial Internet○ teollinen internet (General Electric)
● Industrial Internet of Things○ asioiden teollinen internet (Accenture)
Data on öljy?
Datan määrä maailmassa
v 2011
2 ZB
v 2020
v 2030
44 ZB 1 333 ZB
Esimerkkejä määrästä ja tiedon lähteistä
PB
TB
GB
MB
Monimuotoisuus
Big data
Web
CRM
ERP Purchase detailPurchase recordPayment record
SegmentationOffer detailsCustomer touchesSupport contacts
Web logsOffer historyA/B testingDynamic pricingAffiliate networksSearch marketingBehavioral targetingDynamic funnels
Sensors / RFID / DevicesMobile WebUser click streamSentimentUser generated contentSocial interactions & feedsSpatial & GPS coordinatesExternal demographicsBusiness data feedsHD video, audio, imagesSpeech to textProduct / service logsSMS / MMS
Määrä
Lähde: mukaillen Yli-Pietilä, Backman & Ahlgren
Data
Informaatio
Tietämys
Älykkyys
Näkemys
Ymmärrys
Viisaus
ARVO
Tiedon tasot
Lähde: mukaillen Laihonen et al. Tuomi, Thierauf Ackoff
Analytiikan askeleet kohti kilpailuetua
kohti reaaliaikaisuutta
Raportointi Ennustaminen Automatisointi
Datan lähteet
Mistä sitä dataa oikein tulee?
Saatavilla olevat datavarannot
(avoin data, datamarkkinat)
Potentiaalinen data(ei vielä kerätä)
Digitaalinen todellisuus(internet, sosiaalinen media)
Fyysinen todellisuus(sensorit, esineiden internet)
Organisaation hallussa tai saatavilla oleva data
(ERP, CRM, DW, RDBMS)
Suppein näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 0,2 % maailman organisaatioista
“Eihän meillä edes ole big dataa!”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Suppeahko näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista
“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista
“Voisimmeko kerätä enemmän dataa toiminnastamme?”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista
“Verkottunut yritys ei voi piilotella dataansa!”
Organisaatio
Kumppani Kumppani
Kumppani Kumppani
Kumppani Kumppani
Kokonaisvaltainen näkökulma dataan“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”
Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista
Avoin data
Datamarkkinat
Tietosuoja?
● Avoimuuteen patistetaan○ Esim. PSI-direktiivi (julk 06/2013, implementointi 07/2015)
● Tietosuoja huolettaa○ Esim. oikeus poistaa omat tietonsa Googlesta
● Henkilötietojen omistajuus?○ Lue LVM:n MyData-selvitys
Tietosuoja ja yksityisyys iso huoli
My Data on henkilötietojen osajoukkoMikäli yksilöllä ei ole mahdollisuutta hyödyntää ja hallinnoida jonkun muun hänestä keräämää henkilötietoa, niin sitä ei voida kutsua my dataksi.
Jos hyödyntämisen ja hallinnan mahdollisuudet ovat kaikkiin henkilötietoihin, voivat my data ja henkilötiedot olla myös sama asia.
Uusi ammatti:datatieteilijä
Toistaiseksi datatieteen osaamisvaatimuksia voidaan harvoin täyttää vain yhden työntekijän voimin. Organisaation data-analyysi -toiminnot ovatkin tavallisimmin koottu tiimeihin.
Datatieteilijän rooli big datassa
Lähde: NIST / USA
Big datan teknologiat● Hadoop (tunnetuin yksittäinen uusi teknologia)● NoSQL (uudenlaiset tietokannat)● Appliance (valmisratkaisut)● In-memory -analytics
● Pilvipalvelut○ Amazon○ Google○ IBM○ Microsoft
Big DataLandscape
Teknologiakirjo kasvaa..
ERP
SCM
Images
Audio
Video
Logs
Text
Web & Social
Input
Marketing Analytics
Applicatios
Business Intelligence
Data Mining
Math & Stats
Analytic toolsMarketing Executives
Frontline Employees
Business Analysts
Statisticians
Data Scientists
Engineers
Event ProcessingReal Time
Data PlatformStore and Refine
Integrated Data Warehouse
Operationalize
Discovery PlatformExploration
Lähde: mukaillen Teradata
HadoopBig datan teollisuusstandardi
Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?
GFS ja MapReduce
2003,2004 Hadoop 2006 Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)
Spanner 2012 ? ???? Transaktiot
Innoittajana Google
Mitä Hadoop tekee?Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.
Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa (mikä vaan x86-palvelin käy)- tehokasta prosessointia (rinnakkaisuus)- toimintavarmuutta (moninkertainen tallennus)- skaalautuvuutta (klusteria helppo laajentaa)- ekosysteemit, lisäosia ja laajennoksia!
Klusteri?Klusteri = joukko toisiinsa kytkettyjä palvelimia (nodes), jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä
Hadoop sopii datan tallentamiseen
Hadoop Distributed File System: HDFS
Node 1
data piece
Big Data(= 1 or more files)
data piecedata piece
Node 2
data piecedata piecedata piece
Node 3
data piecedata piecedata piece
Node 4
data piecedata piecedata piece
HDFS
Lähde: mukaillen www.glennklockwood.com
Hadoop sopii datan prosessointiin
Hadoop: Prosessoinnin logiikkaMapReduce: Viedään prosessointi datan luo!
Lähde: www.glennklockwood.com
“Map/reduce is ideally suited for trivially parallel calculations on large quantities of data.”
Hadoopin roolin ennustetaan olevan keskeinen
Hadoopin asema big data -ilmiössä
Hadoop
Datan määrä
Dat
an r
aken
teis
uus
2 Tb1 Gb 20 Tb 200 Tb
HadoopMistä sellaisen saa?
Neljä vaihtoehtoa1. hadoop.apache.org2. Valmis jakelu3. Hadoop osana laajempaa kokonaisuutta4. Pilvipalvelu
Hadoopin käyttöönotto
1. hadoop.apache.org
“Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
2. Valmis jakelu
Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii vahvaa kehitystiimiä.”
3. Hadoop osana kokonaisuutta
Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin, joilla on voimakas toimittajasuhde. Hadoop osana isompaa kokonaisuutta.”
Vahvuudet (+) Nopea käyttöönotto, joustavuus, kustannusten ennakointi
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”
3. Hadoop pilvipalveluna
Pilvipalvelut“Vuokrataan tallennustila ja laskentateho”
2008
2009
2010
2011
2012
2013
2014
Cloud computing in GartnerHype Cycle for Emerging Technologies2008-2014
2015
Aika
Odo
tuks
et
Pilvipalvelut vahvassa kasvussa!Company Market Share Growth-% (Q1 2014)
Amazon 28 % 67 %
Microsoft 8 % 154 %
IBM 7 % 80 %
Salesforce 6 % 37 %
Google 5 % 60 %
Synergy Research Group
Datan analysoiminen pilvessäTerasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.”
joustavuudesta!
Tästä on kysymys:
$ 9 vs. $ 5 000 000
Big data SuomessaIvorio toteutti Liikenne- ja viestintäministeriölle selvityksen suomalaisesta big data -markkinasta. Mukana olivat julkishallinnon, yritysten, palveluntarjoajien ja oppilaitosten edustajat.
http://www.lvm.fi/julkaisu/4156840/big-data-suomessa-keskustelualoite
Big data hyödyntäminenLiikenne- ja viestintäministeriön big datan käyttö -työryhmän raportissa esitetään luonnos kansalliseksi strategiaksi ja ehdotuksia kansallisiksi strategisiksi toimenpiteiksi, joiden avulla voidaan lisätä suurten tietoaineistojen hyödyntämistä Suomessa.http://www.lvm.fi/julkaisu/4417803/big-datan-hyodyntaminen