big data -esitys, joulukuu 2014

54

Upload: ivoriofinland

Post on 18-Jul-2015

1.365 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Big data -esitys, joulukuu 2014
Page 2: Big data -esitys, joulukuu 2014

Big DataMEGATRENDI 2011 ⇒

"The next frontier for innovation, competition and productivity"

Page 3: Big data -esitys, joulukuu 2014

“Cloud Computing” ja “Big Data”

cloud co

mputing

big data

Google-haut vuosina 2009-2014

Page 4: Big data -esitys, joulukuu 2014

Määritelmä ja viitekehys

Page 5: Big data -esitys, joulukuu 2014

Mitä tarkoittaa big data?1. Havaintoa siitä, että dataa on koko ajan määrällisesti

enemmän ja sen muoto ja laatu vaihtelevat suuresti

2. Haastetta hallita ja hyödyntää tuota tietomäärää perinteisten järjestelmien ja ratkaisujen avulla

3. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan

Page 6: Big data -esitys, joulukuu 2014

Big datan 3 V:täVolume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.

Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.

Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin.

Veracity, Value, Virality, Validity, Viscosity, Vulnerability… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.

Page 7: Big data -esitys, joulukuu 2014

= paljon nopeasti lisääntyvää monimuotoista dataa

Big datan 3 V:tä

velocity →vo

lum

e →

variety →

Big data

Page 8: Big data -esitys, joulukuu 2014

● IDC sanoo (04/2014), että vuonna 2014 markkinat ovat 14 mrd $ ja kasvavat vuonna 2017 tasolle 32 mrd $

● Gartner sanoo (10/2012), että vuonna 2012 big data -markkinat olivat jo 28 mrd $

● McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen jo vuonna 2011 arviolta 1 000 mrd €

Big data -markkinoiden koko

Page 9: Big data -esitys, joulukuu 2014

Muita käsitteitä?

Page 10: Big data -esitys, joulukuu 2014

Ilmiöllä on monta nimeä● Internet of Things + Social Media

○ esineiden internet + ihmisten internet

● Big data○ massadata yms. (mm. McKinsey)

● Internet of Everything○ kaiken internet (Gartner → ihmiset, esineet, informaatio, paikat)

● Industrial Internet○ teollinen internet (General Electric)

● Industrial Internet of Things○ asioiden teollinen internet (Accenture)

Page 11: Big data -esitys, joulukuu 2014

Data on öljy?

Page 12: Big data -esitys, joulukuu 2014

Datan määrä maailmassa

v 2011

2 ZB

v 2020

v 2030

44 ZB 1 333 ZB

Page 13: Big data -esitys, joulukuu 2014

Esimerkkejä määrästä ja tiedon lähteistä

PB

TB

GB

MB

Monimuotoisuus

Big data

Web

CRM

ERP Purchase detailPurchase recordPayment record

SegmentationOffer detailsCustomer touchesSupport contacts

Web logsOffer historyA/B testingDynamic pricingAffiliate networksSearch marketingBehavioral targetingDynamic funnels

Sensors / RFID / DevicesMobile WebUser click streamSentimentUser generated contentSocial interactions & feedsSpatial & GPS coordinatesExternal demographicsBusiness data feedsHD video, audio, imagesSpeech to textProduct / service logsSMS / MMS

Määrä

Lähde: mukaillen Yli-Pietilä, Backman & Ahlgren

Page 14: Big data -esitys, joulukuu 2014

Data

Informaatio

Tietämys

Älykkyys

Näkemys

Ymmärrys

Viisaus

ARVO

Tiedon tasot

Lähde: mukaillen Laihonen et al. Tuomi, Thierauf Ackoff

Page 15: Big data -esitys, joulukuu 2014

Analytiikan askeleet kohti kilpailuetua

kohti reaaliaikaisuutta

Raportointi Ennustaminen Automatisointi

Page 16: Big data -esitys, joulukuu 2014

Datan lähteet

Page 17: Big data -esitys, joulukuu 2014

Mistä sitä dataa oikein tulee?

Saatavilla olevat datavarannot

(avoin data, datamarkkinat)

Potentiaalinen data(ei vielä kerätä)

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)

Organisaation hallussa tai saatavilla oleva data

(ERP, CRM, DW, RDBMS)

Page 18: Big data -esitys, joulukuu 2014

Suppein näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 0,2 % maailman organisaatioista

“Eihän meillä edes ole big dataa!”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Page 19: Big data -esitys, joulukuu 2014

Suppeahko näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista

“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Page 20: Big data -esitys, joulukuu 2014

Verkostoitunut näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista

“Voisimmeko kerätä enemmän dataa toiminnastamme?”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Page 21: Big data -esitys, joulukuu 2014

Verkostoitunut näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista

“Verkottunut yritys ei voi piilotella dataansa!”

Organisaatio

Kumppani Kumppani

Kumppani Kumppani

Kumppani Kumppani

Page 22: Big data -esitys, joulukuu 2014

Kokonaisvaltainen näkökulma dataan“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”

Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista

Avoin data

Datamarkkinat

Page 23: Big data -esitys, joulukuu 2014

Tietosuoja?

Page 24: Big data -esitys, joulukuu 2014

● Avoimuuteen patistetaan○ Esim. PSI-direktiivi (julk 06/2013, implementointi 07/2015)

● Tietosuoja huolettaa○ Esim. oikeus poistaa omat tietonsa Googlesta

● Henkilötietojen omistajuus?○ Lue LVM:n MyData-selvitys

Tietosuoja ja yksityisyys iso huoli

Page 25: Big data -esitys, joulukuu 2014

My Data on henkilötietojen osajoukkoMikäli yksilöllä ei ole mahdollisuutta hyödyntää ja hallinnoida jonkun muun hänestä keräämää henkilötietoa, niin sitä ei voida kutsua my dataksi.

Jos hyödyntämisen ja hallinnan mahdollisuudet ovat kaikkiin henkilötietoihin, voivat my data ja henkilötiedot olla myös sama asia.

Page 26: Big data -esitys, joulukuu 2014

Uusi ammatti:datatieteilijä

Page 27: Big data -esitys, joulukuu 2014

Toistaiseksi datatieteen osaamisvaatimuksia voidaan harvoin täyttää vain yhden työntekijän voimin. Organisaation data-analyysi -toiminnot ovatkin tavallisimmin koottu tiimeihin.

Datatieteilijän rooli big datassa

Lähde: NIST / USA

Page 28: Big data -esitys, joulukuu 2014

Big datan teknologiat● Hadoop (tunnetuin yksittäinen uusi teknologia)● NoSQL (uudenlaiset tietokannat)● Appliance (valmisratkaisut)● In-memory -analytics

● Pilvipalvelut○ Amazon○ Google○ IBM○ Microsoft

Page 29: Big data -esitys, joulukuu 2014

Big DataLandscape

Page 30: Big data -esitys, joulukuu 2014

Teknologiakirjo kasvaa..

ERP

SCM

Images

Audio

Video

Logs

Text

Web & Social

Input

Marketing Analytics

Applicatios

Business Intelligence

Data Mining

Math & Stats

Analytic toolsMarketing Executives

Frontline Employees

Business Analysts

Statisticians

Data Scientists

Engineers

Event ProcessingReal Time

Data PlatformStore and Refine

Integrated Data Warehouse

Operationalize

Discovery PlatformExploration

Lähde: mukaillen Teradata

Page 31: Big data -esitys, joulukuu 2014

HadoopBig datan teollisuusstandardi

Page 32: Big data -esitys, joulukuu 2014

Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?

GFS ja MapReduce

2003,2004 Hadoop 2006 Datan tallentaminen ja analysointi

(klusteri)

Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka

BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)

Pregel 2010 Giraph 2011 Graph-tietokanta

Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)

Spanner 2012 ? ???? Transaktiot

Innoittajana Google

Page 33: Big data -esitys, joulukuu 2014

Mitä Hadoop tekee?Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.

Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa (mikä vaan x86-palvelin käy)- tehokasta prosessointia (rinnakkaisuus)- toimintavarmuutta (moninkertainen tallennus)- skaalautuvuutta (klusteria helppo laajentaa)- ekosysteemit, lisäosia ja laajennoksia!

Page 34: Big data -esitys, joulukuu 2014

Klusteri?Klusteri = joukko toisiinsa kytkettyjä palvelimia (nodes), jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä

Page 35: Big data -esitys, joulukuu 2014

Hadoop sopii datan tallentamiseen

Page 36: Big data -esitys, joulukuu 2014

Hadoop Distributed File System: HDFS

Node 1

data piece

Big Data(= 1 or more files)

data piecedata piece

Node 2

data piecedata piecedata piece

Node 3

data piecedata piecedata piece

Node 4

data piecedata piecedata piece

HDFS

Lähde: mukaillen www.glennklockwood.com

Page 37: Big data -esitys, joulukuu 2014

Hadoop sopii datan prosessointiin

Page 38: Big data -esitys, joulukuu 2014

Hadoop: Prosessoinnin logiikkaMapReduce: Viedään prosessointi datan luo!

Lähde: www.glennklockwood.com

“Map/reduce is ideally suited for trivially parallel calculations on large quantities of data.”

Page 39: Big data -esitys, joulukuu 2014

Hadoopin roolin ennustetaan olevan keskeinen

Page 40: Big data -esitys, joulukuu 2014

Hadoopin asema big data -ilmiössä

Hadoop

Datan määrä

Dat

an r

aken

teis

uus

2 Tb1 Gb 20 Tb 200 Tb

Page 41: Big data -esitys, joulukuu 2014

HadoopMistä sellaisen saa?

Page 42: Big data -esitys, joulukuu 2014

Neljä vaihtoehtoa1. hadoop.apache.org2. Valmis jakelu3. Hadoop osana laajempaa kokonaisuutta4. Pilvipalvelu

Hadoopin käyttöönotto

Page 43: Big data -esitys, joulukuu 2014

1. hadoop.apache.org

“Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”

Vahvuudet (+) Ilmainen

Heikkoudet (-) Joutuu tekemään kaiken itse

Page 44: Big data -esitys, joulukuu 2014

2. Valmis jakelu

Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky

Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen

“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii vahvaa kehitystiimiä.”

Page 45: Big data -esitys, joulukuu 2014

3. Hadoop osana kokonaisuutta

Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto

Heikkoudet (-) Kallis, vendor lock-in

“Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin, joilla on voimakas toimittajasuhde. Hadoop osana isompaa kokonaisuutta.”

Page 46: Big data -esitys, joulukuu 2014

Vahvuudet (+) Nopea käyttöönotto, joustavuus, kustannusten ennakointi

Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia

“Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”

3. Hadoop pilvipalveluna

Page 47: Big data -esitys, joulukuu 2014

Pilvipalvelut“Vuokrataan tallennustila ja laskentateho”

Page 48: Big data -esitys, joulukuu 2014

2008

2009

2010

2011

2012

2013

2014

Cloud computing in GartnerHype Cycle for Emerging Technologies2008-2014

2015

Aika

Odo

tuks

et

Page 49: Big data -esitys, joulukuu 2014
Page 50: Big data -esitys, joulukuu 2014

Pilvipalvelut vahvassa kasvussa!Company Market Share Growth-% (Q1 2014)

Amazon 28 % 67 %

Microsoft 8 % 154 %

IBM 7 % 80 %

Salesforce 6 % 37 %

Google 5 % 60 %

Synergy Research Group

Page 51: Big data -esitys, joulukuu 2014

Datan analysoiminen pilvessäTerasortin maailmanennätys Googlen pilvipalvelussa:

“Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.”

joustavuudesta!

Tästä on kysymys:

$ 9 vs. $ 5 000 000

Page 52: Big data -esitys, joulukuu 2014

Big data SuomessaIvorio toteutti Liikenne- ja viestintäministeriölle selvityksen suomalaisesta big data -markkinasta. Mukana olivat julkishallinnon, yritysten, palveluntarjoajien ja oppilaitosten edustajat.

http://www.lvm.fi/julkaisu/4156840/big-data-suomessa-keskustelualoite

Page 53: Big data -esitys, joulukuu 2014

Big data hyödyntäminenLiikenne- ja viestintäministeriön big datan käyttö -työryhmän raportissa esitetään luonnos kansalliseksi strategiaksi ja ehdotuksia kansallisiksi strategisiksi toimenpiteiksi, joiden avulla voidaan lisätä suurten tietoaineistojen hyödyntämistä Suomessa.http://www.lvm.fi/julkaisu/4417803/big-datan-hyodyntaminen