tiedonlouhinta ja sen mahdollisuudet...johdantotiedonlouhintakoneoppiminen ja...

43
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus Tiedonlouhinta ja sen mahdollisuudet Henry Joutsijoki

Upload: others

Post on 17-Dec-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Tiedonlouhinta ja sen mahdollisuudet

Henry Joutsijoki

Page 2: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Sisältö

Johdanto

Tiedonlouhinta

Koneoppiminen ja tiedonlouhinta

Tiedonlouhinnan tulevaisuus

Page 3: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Alustusta

• Nyky-yhteiskunnassamme käsitteet tehokkuus, nopeus,tarkkuus, maksimointi ja minimointi korostuvat yhä useamminmonissa asiayhteyksissä.

• Taloudellinen tilanteemme johtaa siihen, että olemassaoleviaresursseja pitää käyttää mahdollisimman monipuolisesti.

• Tästä seuraa edelleen, että uusia aluevaltauksia ja innovaatioitatulee kehittää perinteisten alojen rinnalle.

• Kilpailu kovenee kuitenkin jatkuvasti joka sektorilla, silläsamankaltaisia ideoita syntyy ympäri maailmaa.

Page 4: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Alustusta

• Viimeisen vuosikymmenen aikana ympäri maailmaa on kasvanutsuurta kiinnostusta erilaisten datojen analysointiin.

• Digitaalisessa muodossa olevan tiedon määrä on valtava jakasvaa erittäin nopeasti vuosi vuodelta.

• Teknologian kehittymisen myötä dataa kertyy lukuisista erilähteistä ja kerätyt aineistot muodostavat muun muassa hyvinsuuria tietokantoja.

• Viime vuosina erityisesti big data on noussut pinnalle ja senympärillä tehdään aktiivisesti tutkimusta.

Page 5: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Mistä saamme dataa?

• Esimerkkejä datalähteistä:1. Pankkien maksutapahtumat2. Kännykkäkamera ym. muut kamerat3. Supermarkettien ostotapahtumatiedot4. Terveydenhuollon potilaiden mittaukset5. Liikenne6. Ilmasto7. Sensorit yleisesti ottaen8. Teollisuusprosessit9. Lokitiedot

10. Sosiaalinen media ja muut web-aineistot11. Hakukoneiden keräämä data

Page 6: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Datan luonne

• Data voidaan jakaa karkeasti kahteen eri tyyppiin riippuen senlähteestä:

1. Järjestetty data (esimerkiksi kyselylomake) rajoittuu tietylletoimialalle ja data on luonteeltaan diskreettiä. Järjestettyä dataasäilytetään monesti Excel-tiedostossa tai relaatiotietokannassa.

2. Järjestämätöntä dataa ei voida suoraviivaisesti lokeroida johonkinluokkaan. Järjestämätöntä dataa ovat esimerkiksi kuvat, videot,pdf-tiedostot, sähköpostit ja sosiaalisen median tuottamat aineistot.

Page 7: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Miksi keräämme dataa?

• Datan sisältämässä informaatiossa nähdään potentiaalia jamahdollista taloudellista hyötyä muun muassa uusienpalveluiden ja liiketoiminnan muodossa.

• Datan käsittelymenetelmien kehittäminen luo uusiatyömahdollisuuksia. Suurten tietomassojen käsittely vaatiiuudenlaisia teknisiä toteutustapoja.

• Datasta voidaan löytää uusia yhteyksiä eri asioiden välille.• Datasta saatavan tietämyksen avulla pystytään vahvistamaan

olemassaolevia ennakkokäsityksiä.

Page 8: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Sisältö

Johdanto

Tiedonlouhinta

Koneoppiminen ja tiedonlouhinta

Tiedonlouhinnan tulevaisuus

Page 9: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Lähtökohta

• Peruslähtökohtana tiedonlouhinnalle on, että kerätty datamuokataan havaintomatriisiksi (taulukoksi).

• Havaintomatriisissa rivit edustavat havaintoja (esim. asiakas) jasarakkeet mitattavaa ilmiötä kuvaavia muuttujia (esim. ikä,sukupuoli tai tieto siitä, kuinka montaa e-aineistoa asiakas onkäyttänyt).

• Havaintomatriisin yleinen muoto:x11 x12 · · · x1nx21 x22 · · · x2n...

.... . .

...xm1 xm2 · · · xmn

Page 10: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Datasta tiedonlouhintaan

• Kerätyn “raakatiedon” suuren määrän vuoksi on pitänyt kehittäätietojenkäsittelymenetelmiä (erityisesti tiedonlouhinnanmenetelmiä [data mining]), jotta oleellinen informaatio saadaanesille datasta [4].

• Tiedonlouhinnalle on olemassa lukuisia määritelmiä.• Yksi mahdollinen määritelmä tiedonlouhinnalle [4]:

Tiedonlouhinta on (usein laajojen) havaintotietojen,datajoukkojen tietojen välisten suhteiden etsimistä jadatan ominaisuuksien yhteenvedon tuottamista uusintavoin, jotka ovat sekä ymmärrettäviä että hyödyllisiäkäyttäjän näkökulmasta.

Page 11: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Tiedonlouhinta

• Tiedonlouhinnalla saatuja ominaisuuksia ja yhteenvetojakutsutaan yleensä malleiksi tai hahmoiksi [4]. Esimerkkejämalleista ovat assosiaatiosäännöt, klusterit (rypäs, ryväs), graafitja puurakenteet [4].

• Tiedonlouhinta käsittelee monesti dataa, joka on kerätty muuhuntarkoitukseen kuin itse tiedonlouhintaan (esim. lokitiedot) [4].

• Tiedonlouhinta eroaa tilastotieteestä, jossa aineistoa kerätäänerityisesti vastaamaan tiettyihin kysymyksiin [4].

Page 12: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Tiedonlouhinta ja data-analyysi

• Tiedonlouhinnan määritelmän perusteella datajoukot voivat ollausein hyvinkin laajoja (vrt. big data).

• Tiedonlouhinta on data-analyysin yksi osa-alue, joka onkeskittynyt ilmiön mallintamiseen ja tietämyksenmuodostamiseen erityisesti ennustamisen näkökulmasta [4].

• Tiedonlouhinta ei suinkaan ole ainoa data-analyysin osa-alue,vaan data-analyysi on monipuolinen kokonaisuus lähtien datankeräämisestä ja datan siivoamisesta ulottuen datanvisualisointiin ja tulosten analysointiin.

Page 13: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Datasta tietämykseen

• Tiedonlouhinta on yksi vaihe tietämyksen muodostamisessa.• Lopullinen tavoite käytännössä on, että ymmärryksemme datasta

lisääntyy ja pystymme hyödyntämään dataa uusilla tavoilla.• Tietämyksen muodostaminen on monivaiheinen prosessi, joka

alkaa datasta ja ongelman määrittämisestä päättyen tulostenhyödyntämiseen ja tietämyksen muodostamiseen.

• Käytännössä suurten tietomassojen analysointi ja niistäsaatavan uuden tietämyksen muodostaminen ei ole helppotehtävä ja se voi viedä huomattavan paljon aikaa.

Page 14: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Datasta tietämykseen

Kuva : Tietämyksen muodostamisen prosessi. Kuva mukailee lähdettä [1].

Page 15: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Tiedonlouhinnan tehtäviä

• Tiedonlouhinnan tehtävät voidaan jakaa viiteen ryhmään [4]:1. Tutkiva data-analyysi2. Deskriptiivinen eli kuvaava mallintaminen3. Ennustava mallintaminen4. Hahmojen ja sääntöjen etsiminen5. Haku sisällön perusteella

Page 16: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Tutkiva data-analyysi

• Perusideana on tarkastella dataa ilman tarkkaa suunnitelmaaetsittävästä [4].

• Tutkiva data-analyysi on luonteeltaan vuorovaikutteista javisuaalista [4].

• Pieniä aineistoja varten on olemassa monipuolisia graafisiaesitystapoja (histogrammi, sirontakuviot, laatikkokaavio).

• Kun muuttujien lukumäärä kasvaa, datan visualisointi tuleehankalammaksi. Tähän tarkoitukseen on olemassa menetelmiä,jotka tiivistävät alkuperäisen aineiston sisältävän informaationpienempään määrään muuttujia.

Page 17: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Esimerkki

Kuva : Esimerkki muuttujastamääritetystä laatikkokaavio.

Kuva : Esimerkki kahdestamuuttujasta määritetystäsirontakuviosta.

Page 18: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Kuvaava mallintaminen

• Perusideana kuvaavassa mallintamisessa on kuvata koko data(tai sen generoiva prosessi) [4].

• Esimerkkejä kuvaavasta mallintamisesta ovatklusterit/segmentointi ja muuttujien välisten suhteidenkuvausmallit (riippuvuuden mallintaminen) [4].

• Esimerkiksi klusteroinnissa tavoitteena on löytää “luonnollisetryhmät datasta”.

• Klusterointia voidaan hyödyntää esimerkiksi asiakasprofiilienlöytämisessä ja lehtien tai kirjojen ryhmittelyssä, kun niistä onerotettu niitä kuvaavia numeerisia muuttujia.

Page 19: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Esimerkki

Kuva : Alkuperäinen data. Kuva : Data on klusteroitu kolmeenklusteriin. Klusterit on erotettutoisistaan värikoodauksella.

Page 20: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Ennustava mallintaminen

• Tavoitteena muodostaa malli, jonka avulla pystytäänennustamaan yhden muuttujan luokka tai kvantitatiivinen arvodatassa olevien muiden muuttujien arvojen perusteella [4].

• Ennustavassa mallintamisessa erotetaan kaksi tapausta:1. luokittelu2. regressio.

• Luokittelussa ennustettava muuttuja on luokkatyyppinen jaregressiossa kvantitatiivinen.

• Ennustavaa mallintamista varten on olemassa laaja kokoelmatilastollisia menetelmiä sekä koneoppimismenetelmiä.

Page 21: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Esimerkkejä ennustavasta mallintamisesta

• Oletetaan, että palvelua käyttävät asiakkaat on jaettu kolmeenryhmään profiilien perusteella.

• Luokittelutehtävässä palvelua käyttävän uuden asiakkaan ryhmävoidaan ennustaa muodostamalla ennustava malliolemassaolevan datan perusteella.

• Potilaan diagnoosin ennustaminen on myös luokittelutehtävä.• Yksinkertainen esimerkki regressio-ongelmasta on tutkia

pituuden ja painon välistä suhdetta ja osoittaa, kuinka muutospituudessa vaikuttaa painoon.

Page 22: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Esimerkki ennustavasta mallista

Kuva : Esimerkki paatöspuualgoritmin antamasta mallista.

Page 23: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Hahmojen ja sääntöjen etsiminen

• Tavoitteena on muodostaa hahmoja ja sääntöjä laajoistadatajoukoista.

• Hahmolla tarkoitetaan lokaalia käsitettä, joka kuvaa datanjostakin erityisestä näkökulmasta, kun taas malli antaa globaalinkokonaiskuvauksen datasta [4].

• Esimerkki: Jos palvelun käyttäjät on jaettu erillisiin ryhmiinheidän profiiliensa perusteella, voidaan tutkia, millaisiae-aineistoja kunkin ryhmän sisällä luetaan. Löytyykö kullekinryhmälle oma hahmo/sääntö?

• Ostoskoridata on hyvä esimerkki sääntöjen etsimisestä, jotakäytetään käytännössäkin.

Page 24: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Haku sisällön perusteella

• Tavoitteena on löytää käyttäjän antaman hahmon (esim. joukkoavainsanoja) perusteella samanlaisia hahmoja tietojoukosta [4].

• Hakua sisällön perusteella esiintyy erityisesti teksti- jakuva-aineistojen tapauksessa.

• Esimerkiksi tekstiaineistojen tapauksessa käyttäjä voi etsiäannettujen avainsanojen (hahmon) avulla keskeisiädokumentteja verkosta/palvelusta.

Page 25: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Sisältö

Johdanto

Tiedonlouhinta

Koneoppiminen ja tiedonlouhinta

Tiedonlouhinnan tulevaisuus

Page 26: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Koneoppimisen suhde tiedonlouhintaan

• Koneoppimisen suosio on noussut valtavasti viime vuosina ja seon keskeisessä roolissa tiedonlouhintaprosessin onnistumisenkannalta.

• Suurista tietomassoista saatava tietämys perustuukin usemmitenkoneoppimisalgoritmien “älykkyyteen”.

• Koneoppiminen ja tiedonlouhinta ovat hyvin läheisiä käsitteitäkeskenään. Tiedonlouhinta voidaan käsittää koneoppimisensovellusalaksi. [4]

• Koneoppimisen piirissä kehiteltyjä menetelmiä (algoritmeja)voidaan hyödyntää tiedonlouhinnassa [4].

• Keskeisintä koneoppimismenetelmien kohdalla on niidenyleispätevyys. Koneoppimisalgoritmien käyttäminen ei olekiinnitetty johonkin tiettyyn alaan, vaan niitä voidaan hyödyntääkaikkialla, missä dataa on saatavilla.

Page 27: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Koneoppiminen

• Koneoppimiselle on olemassa lukuisia määritelmiä riippuentarkasteltavasta lähteestä.

• Koneoppimisen lähtökohta on, että kone/tietokone suorittaaoppimisprosessin ihmisten asemesta.

• Mitä on oppiminen?• Oppimiselle voidaan antaa seuraava määrittely [4]:

Oppiminen on algoritmin kyky parantaa sensuorituskykyä aikaisemman kokemuksen perusteella.

• Toisin sanoen oppiminen on opetetun algoritmin kyky tehdäennustuksia.

Page 28: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Koneoppiminen

• Koneoppiminen puolestaan voidaan määritellä seuraavasti [5]:Koneoppiminen on sellaisten algoritmien jamenetelmien systemaattista tutkimista, jotka parantavatniiden tietämystä tai suoritusta kokemuksen perusteella.

• Mitä tarkoitetaan kokemuksella?• Aikaisempi kokemus koneoppimisalgoritmien tapauksessa on

olemassaolevaa (“historiallista”) dataa, joka on talletettunaesimerkiksi tietokantaan [4].

Page 29: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Koneoppimisalgoritmien pääjaottelu

1. Ohjattu oppiminen2. Ohjaamaton oppiminen3. Vahvistusoppiminen

Page 30: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Ohjattu oppiminen

• Ohjatussa oppimisessa datan havaintojen luokat ovat etukäteentiedossa.

• Jokainen aineiston havainto on siis asetettu kuuluvaksiennaltamäärättyyn luokkaan/kategoriaan.

• Jos luokkia ei ole etukäteen tiedossa, voidaan ohjatun oppimisenalgoritmeja käyttää, jos datassa on klusteroituva (ryhmittyvä)rakenne [4]. Tällöin datalle ensin suoritetaan klusterointi, jonkajälkeen sovellusalan asiantuntija määrittää kullekin klusterille jasen sisältämille havainnoille luokkaleiman. Tämän jälkeenohjatun oppimisen algoritmeja voidaan hyödyntää.

Page 31: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Ohjattu oppiminen

• Jokaisen ohjatun oppimisen piiriin kuuluvallekoneoppimisalgoritmille täytyy antaa opetusjoukko, jota käyttäenalgoritmi muodostaa mallin ennustamista varten [2].

• Opetusjoukko koostetaan olemassaolevasta datasta.• Opetusvaiheen jälkeen algoritmille syötetään testijoukko, joka on

riippumaton opetusjoukosta.• Testijoukon perusteella määritämme, kuinka hyvin algoritmi on

onnistunut uusien havaintojen ennustamisessa eli mikä onalgoritmin yleistämiskyky.

• Koneoppimismenetelmien kohdalla yleistämiskyky on keskeistä,jotta menetelmää voidaan hyödyntää sovelluksessa nyt jatulevaisuudessa luotettavasti.

Page 32: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Ohjatun oppimisen menetelmiä

• K :n lähimmän naapurin menetelmä• Naiivi Bayes -luokittelija• Lineaarinen diskriminanttianalyysi• Tukivektorikone• Neuroverkot (mm. syväoppiminen)• Päätöspuut ja satunnaismetsät

Page 33: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Esimerkki ohjatun oppimisen ongelmasta

Kuva : Kantasolukoloniakuvia kolmestaluokasta: Hyvä (ylin), puolihyvä (keskimmäinen),huono (alin).

• Luokkien määrä: 3• Piirteet: Kuvista irrotettuja

intensiteettihistogrammeja• Luokkatieto: hyvä, puolihyvä,

huono• Tavoite: Ennusta oikea

luokkatieto uusillekantasolukoloniakuville.

• H. Joutsijoki et al., “Histogram-basedclassification of iPSC colony images usingmachine learning methods,” Proceedingsof the 2014 IEEE Conference on Systems,Man, and Cybernetics, pp. 2611-2617,2014.

Page 34: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Ohjaamaton oppiminen

• Ohjaamatonta oppimista usein sanotaan klusteroinniksi, muttamyös assosiaatiosääntöjen etsiminen kuuluu ohjaamattomanoppimisen piiriin [3].

• Klusteroinnissa luokkatietoja havainnoille ei tarvita, vaan dataavoidaan analysoida ilman niitä.

• Klusteroinnin tavoitteena on löytää datasta ryhmät, joidensisäinen samankaltaisuus on suuri ja eri ryhmien välinensamankaltaisuus on mahdollisimman pientä.

Page 35: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Ohjaamattoman oppimisen menetelmiä

• Itseorganisoituvat kartat• K-Means-algoritmi• Hierarkkinen klusterointi• EM-algoritmi

Page 36: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Esimerkki

Kuva : Esimerkki hierarkkisen klusteroinnin lopputuloksena syntyvästädendrogrammista.

Page 37: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Vahvistusoppiminen

• Vahvistusoppiminen sijoittuu ohjatun ja ohjaamattomanoppimisen välimaastoon.

• Vahvistusoppimisessa käyttäjä antaa palautetta(positiivista/negatiivista) algoritmille ja saadun palautteenperusteella algoritmi muokkaa nykyistä ratkaisua ja pyrkiilöytämään paremman ratkaisun.

• Q-oppimisalgoritmi on kuuluisin vahvistusoppimiseen kuuluvamenetelmä.

• Vahvistusoppimista voidaan hyödyntää esimerkiksipeliohjelmoinnissa.

Page 38: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Tiedonlouhintamenetelmien jaottelu

Kuva : Hierarkkinen esitys tiedonlouhintamenetelmistä. Kuva mukaileelähdettä [1].

Page 39: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Sisältö

Johdanto

Tiedonlouhinta

Koneoppiminen ja tiedonlouhinta

Tiedonlouhinnan tulevaisuus

Page 40: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Tulevaisuus

• Tiedonlouhinnan, koneoppimisen, data-analyysin tai yleisestiottaen tekoälyn tulevaisuus näyttää varsin valoisalta, sillädigitaalisessa muodossa olevan tiedon määrä kasvaa erittäinnopeasti.

• Yhä useampi sovellusala tulee hyödyntämään oppiviaalgoritmeja, joiden avulla mekaaniset työtehtävät pystytäänautomatisoimaan ja monissa paikoin myös turvallisuuttapystytään lisäämään.

• Koneoppimisalgoritmeja tullaan hyödyntämään jatkossaenenevässä määrin eri laitteissa ja kulkuneuvoissa (autot,puhelimet, televisiot,...).

Page 41: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Tulevaisuus

• Suurten tietomassojen tiedonlouhinnan myötä pystytäänasiakasryhmiä kohdentamaan paremmin sekä tarjoamaankuluttajille tarkemmin kohdennettuja palveluja, informaatiota jamainontaa.

• Tiedonlouhintaan, koneoppimiseen ja tekoälyyn liittyy paljonmyös uhkakuvia, joista osa juontaa juurensa elokuvista jatieteiskirjallisuudesta. Tulevatko menetelmät “liian älykkäiksi”?Rikkovatko älykkäät algoritmit yksityisyyden rajat? Voimmekoluottaa älykkäisiin menetelmiin tarpeeksi? Kenellä on vastuu, josesimerkiksi koneoppimisalgoritmeja hyödyntävä itseohjautuvaauto ajaa kolarin?

Page 42: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

Kiitos!

Kysymyksiä?

Page 43: Tiedonlouhinta ja sen mahdollisuudet...JohdantoTiedonlouhintaKoneoppiminen ja tiedonlouhintaTiedonlouhinnan tulevaisuus Datan luonne Data voidaan jakaa karkeasti kahteen eri tyyppiin

Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus

S. Garcia et al., Data Preprocessing in Data Mining,Springer-Verlag, 2015.

J. Han et al., Data Mining: Concepts and Techniques, 3rd edition,Morgan Kaufmann, (Elsevier), 2012.

K.J. Cios et al., Data Mining: A Knowledge Discovery Approach,Springer, 2007.

M. Juhola, Tiedonlouhinta kurssin luentomateriaali, Tampereenyliopisto, 2014.

T.M. Mitchell. Machine Learning. Mcgraw-Hill, New York, USA,1997.