mal12 datan hyödyntäminen yrityksissä · 23.3.2017 2 3 datan hyödyntäminen… informaatiota ja...

17
23.3.2017 1 MAL12 Datan hyödyntäminen yrityksissä 23.3.2017 Maatalous-metsätieteellinen tiedekunta Digitalisaatio Nykyään ollaan aiempaa riippuvaisempia netistä ja erilaisista älykkäistä laitteista 1. Kerätyn ja tallennetun datan määrän räjähdys 2. Laskentatehon lisäys (viimeksi rinnakkaislaskenta: klusterit ja multicore & GPU-laskenta) 3. Edistys teoreettisessa tutkimuksessa Data now at the center of almost every business function, developing practices for working with data is critical regardless of your company’s size or industry23.3.2017 2

Upload: others

Post on 13-Sep-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

1

MAL12

Datan hyödyntäminen yrityksissä

23.3.2017

Maatalous-metsätieteellinen tiedekunta

Digitalisaatio

Nykyään ollaan aiempaa riippuvaisempia netistä ja

erilaisista älykkäistä laitteista

1. Kerätyn ja tallennetun datan määrän räjähdys

2. Laskentatehon lisäys (viimeksi rinnakkaislaskenta:

klusterit ja multicore & GPU-laskenta)

3. Edistys teoreettisessa tutkimuksessa

“Data now at the center of almost every business function,

developing practices for working with data is critical

regardless of your company’s size or industry”

23.3.2017 2

Page 2: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

2

3

Datan hyödyntäminen…

Informaatiota ja (lisä)arvoa yrityksille

Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

Harvard Business Review:

Myös suomalaiset suuryritykset rekrytoivat voimakkaasti:

Valio, Op, Fazer leipomot, jne…

23.3.2017

Informaatiota ja (lisä)arvoa yrityksille

Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

Harvard Business Review:

Myös suomalaiset suuryritykset rekrytoivat voimakkaasti:

Valio, Op, Fazer leipomot, jne…

Työnäkymistä

Konsulttiyhtiö McKinseyn mukaan yksin USA:ssa puuttuu

>150 000 eri tasojen datatieteilijää

Vuotuinen keskipalkka USA:ssa $118 000

“The ability to take data—to be able to understand it,

process it, to extract value from it, to visualize it, to

communicate it

—that’s going to be a hugely important skill in the next

decades.”

Hal Varian, Google’s Chief Economist23.3.2017 4

Page 3: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

3

Roolit

Datatietelijä / data scientist

Kuuluisa määritelmä: tietää enemmän ohjelmoinnista kuin

tilastotieteilijä ja tilastotieteestä enemmän kuin ohjelmoija

Monitieteisyys: math & stat, ohjelmointi, algoritmit,

liiketalous & substanssiosaaminen

Data-analyytikko (businessanalyytikko)

Raportointi ja visualisointi

Datan tarjoamien havaintojen selittäminen ja kommunikointi

”juniori datatieteilijä”

Data Engineer

Ohjelmoija / insinööri

Tietokantojen ylläpito

23.3.2017 5

Monitieteisyys

23.3.2017 6

DATATIEDEAlgoritmitTietokannat

Til

asto

tied

eK

on

eop

pim

inen

Page 4: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

4

Miksi? (tätä ei kysytä tarpeeksi usein)

Data science = extraction of knowledge from data

Keskeinen päämäärä on tuottaa käytännöllisiä ja

toimenpiteiksi jalostettavia tuoreita havaintoja

yritykselle

Datatieteilijöiden tulee voittaa datan kompleksisuudesta

aiheutuvat haasteet:

Parantaakseen operationaalisia päätöksiä

Prosessien optimoimiseksi

Tuotteiden kehittämiseksi

23.3.2017 7

Esimerkkejä

Markkinoinnin suunnittelu

Asiakkaiden segmentointi

Kohdentaminen (mm. kanta-asiakas järjestelmät)

Ennustaminen big datan avulla

ETLAnow (https://www.etla.fi/etlanow/)

“Reliable AI system predicts Trump will win” NY Post

28.10.2016 (ennen vaaleja) (http://nypost.com/2016/10/28/reliable-ai-system-

predicts-trump-will-win/)

Sosiaalifysiikka: Alex “Sandy” Pendland MIT

http://socialphysics.media.mit.edu/

23.3.2017 8

Page 5: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

5

Esimerkkejä maa- ja metsätaloudessa

Puuston määrän arviointi kaukokartoituksen avulla

Metsään.fi

Satokartat

Lypsyrobotin keräämä data

Sovellettu maatalousekonomiassa:

Sulkava, M. ym. 2015. Clustering of the self-organizing map reveals profiles of

farm profitability and upscaling weights. Neurocomputing 147: 197-206.

Yli-Heikkilä, M. ym. 2015. Predicting the profitability of agricultural enterprises in

dairy farming. Predicting the profitability of agricultural enterprises in dairy

farming. ESANN 2015 proceedings, European Symposium on Artificial Neural

Networks, Computational Intelligence and Machine Learning.

Hyvärinen, A. 2016. Investoinnit

23.3.2017 9

fundamental question: What would it take for businesses

to realize the full potential of their data repositories

with machine learning?

23.3.2017 10

Harvard Business Review Joulukuu 2016:

Page 6: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

6

Ongelmia

“we have a lot of data and we are not doing anything with it.”

As we worked to design machine learning–based solutions with a variety of

industry partners, we were surprised to find that the existing answers to

this question often didn’t apply. Why?

machine learning experts often instead focus on the later parts of the

pipeline—trying different models, or tuning the hyperparameters of the

model once a problem is formulated, rather than formulating newer

predictive questions for different business problems.

machine learning experts often didn’t build their work around the final

objective—deriving business value.

If companies want to get value from their data, they need to focus on

accelerating human understanding of data23.3.2017 11

Ehdotettu ratkaisu

Stick with simple models

Explore more problems

Learn from a sample of data—not all the data

Focus on automation

23.3.2017 12

Lähde: Kalyan Veeramachaneni is a Principal research scientist at the Laboratory for

Information and Decision systems (LIDS) at MIT

Page 7: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

7

Data-analyysi prosessina 1/2

1. Määrittele ratkaistava ongelma / kysymys, johon

halutaan vastaus

Mistä datatieteilijälle maksetaan palkka?

Tässä tarvitaan kontekstitietoa – suunnittelussa kannattaa

hyödyntää yrityksen henkilöstön monialaista osaamista

2. Etsi tarvittava raakadata

Se voi olla olemassa tai täytyy kerätä/ hankkia

3. Datan muokkaus analyysia varten

Hyvin hallittukin raakadata kaipaa siistimistä

Raakadata sisältää usein virheitä, puuttuvia arvoja,

kaksinkertaisia kirjauksia23.3.2017 13Lähde: Spingboard, Getting your first data science job

Data-analyysi prosessina 2/2

4. Datan kuvaileva analyysi

Tavoitteena on paljastaa, mihin suuntaa jatkoanalyyseissä

kannattaa edetä

5. VARSINAISET SYVENTÄVÄT ANALYYSIT

Vasta tässä varsinaisesti sovelletaan tilastollista, ohjelmointi

ja muuta asiantuntijaosaamista

Ennustemallit, koneoppimisalgoritmit jne..

6. Tulosten viestiminen eteenpäin

Tarvitaan kykyä viestiä löydöksistä, jotta tulokset johtavat

toimenpiteisiin

Perustelu: miksi havainnot tärkeitä yritykselle?

23.3.2017 14Lähde: Spingboard, Getting your first data science job

Page 8: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

8

Kaaviona

23.3.2017 15

Ratkaistava

ongelmaKuvaileva

analyysi

Mallit ja

algoritmit

Datan

esikäsittely Tulokset

Vienti käytäntöön,

toimenpiteet,

muutokset yrityksen

toiminnassa

Datatieteilijät tahtovat keskittyä liikaa/ liian pian

algoritmeihin ja ohjelmointiin

Mitä datatiede on…

Raportointi: Mitä tapahtui?

Diagnoosi: Miksi niin tapahtui?

Ennustaminen: Mitä tulee tapahtumaan?

Suositusten antaminen: Mikä on parasta, mitä voi

tapahtua?

23.3.2017 16

Page 9: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

9

Työkalut

Excel

SQL (Structured Query Language)

Tietokantojen hyödyntäminen

Haut ja muutokset relaatiotietokantoihin

Python

Monipuolinen korkean tason ohjelmointikieli

R

Datatieteeseen kehitetty ohjelmointiympäristö

Mallinnus ja mallien tulosten esittäminen

Julia, Matlab, SPSS,….

23.3.2017 17

Big data työkalut

Eräs määritelmä: mikä tahansa perinteisille menetelmille

liian suuri aineisto = Big Data

Massiiviset aineistot vaativat omat työkalut

Apache Hadoop

Hyödyntävät Googlen MapReduce teknologiaa

Varastoidaan aineisto useille palvelimille ja kontrolloidaan

sitä silti yhdeltä niistä

jatkojalostus esim. Apache Spark klusterit

NoSQL (Not only SQL)

Skaalautuvuus ja hajauttaminen

suoriutuu suuresta määrästä samanaikaisia luku- ja

kirjoitusoperaatioita23.3.2017 18

Page 10: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

10

23.3.2017 19Lähde: Robert A. Muenchen, The Popularity of Data Science Software

Akateemiset julkaisut:Avoimien työpaikkojen

perusteella:

Suosituimmuus…

Suosituimmuus avoimien työpaikkojen

perusteella

23.3.2017 20

Python = oranssi, R = sininen

Lähde: Robert A. Muenchen, The Popularity of Data Science Software

A programmer goes to the shop to buy some milk. His wife calls and says

"While you're out, get some eggs." He never returns.

Page 11: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

11

Yhteisöt

GitHub

Ohjelmistojen kehitysalusta

https://github.com/

Verkkoyhteisöt esimerkiksi:

Stack Overflow

Reddit

Quora

KDNuggets

Akateemiset yhteisöt, esim.

IEEE (Institute of Electrical and Electronics Engineers)

HICT (Helsinki ICT)23.3.2017 21

Big data - neljä V:tä

1. Volume

2. Velocity

Muutosten nopeus

3. Variety

Eri lähteet, eri tyyppinen data

4. Veracity

Epävarmuus, datan luotettavuus

23.3.2017 22

Page 12: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

12

Koneoppiminen / Machine Learning

Algoritmi voi oppia datasta samaan tapaan kuin ihmiset

oppivat aiemmista kokemuksista

Tyypillisiä ongelmat, joissa syöte-vaste yhteydet (input-

output correspondence) eivät entuudestaan hyvin

tunnettuja tai pääteltävistä

Induktiivista oppimista:

Menet lomalle vieraaseen maahan ja paikallisista lehdistä

päättelet, kuinka on sopivaa pukeutua

induktio on päättelymuoto, joka lähtee liikkeelle

yksittäisestä havaintojoukosta ja muodostaa niistä

yleistyksen tai teorian23.3.2017 23

Koneoppiminen / Machine Learning

Vertaa: ekonometrisessa mallissa tutkija valitsee selittävät muuttujat

ja mallin muodon. ML algoritmi valitsee itse parhaat (ainakin pyrkimys

näin)

Tyypillisesti:

Enemmän dataa = parempi malli

Mutta:

Monipuolisempi data (enemmän muuttujia) ≠ parempi malli

Opetusaineisto / testausaineisto

Malli rakennetaan opetusaineiston avulla

Yleistyskelpoisuutta testataan testausaineistolla

- Mm. ylisovittamisen välttäminen

Ristiinvalidointi23.3.2017 24

Page 13: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

13

Koneoppiminen / Machine Learning (ML)

Ohjattu oppiminen (Supervised L.)

Oppiminen ”ohjaajan” tarjoamista esimerkeistä

Opetusdata sisältää sekä syötteen että vasteen

Esimerkiksi neuroverkot (Artificial NN alalajeinaan CNN,

RNN), puumallit ja näiden yhdistelmät (ensemble, random

forest)

Ohjaamaton oppiminen (Unsupervised L.)

Data ei kerro vastearvoa (response/ label)

Etsitään yhtenäisiä rakenteita tai ”hahmoja”

Klusterointi, aineiston tiivistäminen (dimensionality

reduction)

Semi-supervised & reinforcement learning23.3.2017 25

Koneoppimismallin rakentaminen

23.3.2017 26

Lähde:

TPOT: A Python Tool for Automating Data Science

Page 14: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

14

Talousesimerkki: Reinforcement Learning

osakekauppasovellus

Reinforcement Learning (RL):

Taking ”actions” in ”situations” to receive ”rewards”

RL algoritmi = agentti joka toimii vuorovaikutuksessa

ympäristönsä kanssa

Hyötyfunktio:

ℎ𝑦ö𝑡𝑦 𝑜𝑛 𝑠𝑖𝑖𝑠 𝑡𝑖𝑙𝑎𝑛 (𝑠) 𝑗𝑎 𝑡𝑜𝑖𝑚𝑒𝑛𝑝𝑖𝑡𝑒𝑒𝑛 𝑎𝑐𝑡𝑖𝑜𝑛 𝑓𝑢𝑛𝑘𝑡𝑖𝑜

𝑈 𝑠, 𝑎27

UState (s)

Action (a)

Lähde: Shukla, Machine learning with TensorFlow MEAP

Utility (U)

Talousesimerkki: RL osakekauppasovellus

Kokonaishyötyyn vaikuttaa paitsi välitön palkinto

r(s,a), myös mahdollisuudet tulevaisuuden

palkintoihin

Ts. nyt hyötyfunktio on normaali yli-ajan

hyötyfunktio:

𝑈 𝑠, 𝑎 = 𝑟 𝑠, 𝑎 + 𝛽 max𝑈(𝑠′, 𝑎′)

Missä a’ ja s’ ovat seuraavan periodin action ja state ja

beeta on diskonttokerroin

23.3.2017 28

Lähde: Shukla, Machine learning with TensorFlow MEAP

Page 15: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

15

RL esimerkki

Yksinkertaisuuden vuoksi jätetään osinkotuotot huomiotta

(samoin välityspalkkiot)

Nyt on kolme mahdollista toimenpidettä (action):

1. Osta: kassa pienenee, mutta osakkeiden määrä lisääntyy

2. Myy: Kassa lisääntyy osakkeen myyntihinnalla

(osakkeiden määrä pienenee)

3. Pidä: ei palkintoa, vaan osakkeet siirtyvät seuraavalle

periodille

Tavoite algoritmille: opettele kaupankäyntipolitiikka, joka

maksimoi varallisuuden (palkinto = varallisuus)

23.3.2017 29

RL esimerkki

Opetusdata (ja myös testidata) ladataan yahoo-

finance:sta, koska ollaan laiskoja – esim. Microsoft 1992-

2016

23.3.2017 30Lähde: Shukla, Machine learning with TensorFlow MEAP

Page 16: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

16

Neural Net esimerkissä

23.3.2017 31

Esimerkin läpikäynti

23.3.2017 32

https://www.youtube.com/watch?v=SsoOG6ZeyUI

Tarkastellaan esimerkkiä Python koodin avulla ja

hyödynnetään Googlen TensorFlow

koneoppimiskirjastoa…..

Käytetty IDE (ohjelmointiympäristö) oli Rodeo (by yhat)

Python koodaajille (koodin sisennykset määrittävät blokit koodissa):

Page 17: MAL12 Datan hyödyntäminen yrityksissä · 23.3.2017 2 3 Datan hyödyntäminen… Informaatiota ja (lisä)arvoa yrityksille Kiinnostus datatiedettä kohtaan on kasvanut voimakkaasti:

23.3.2017

17

Kotitehtävä

Mieti maataloussovellus, jossa voidaan käyttää

koneoppimista?

23.3.2017 33