tiedonlouhinta ja sen mahdollisuudet...johdantotiedonlouhintakoneoppiminen ja...
TRANSCRIPT
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Tiedonlouhinta ja sen mahdollisuudet
Henry Joutsijoki
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Sisältö
Johdanto
Tiedonlouhinta
Koneoppiminen ja tiedonlouhinta
Tiedonlouhinnan tulevaisuus
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Alustusta
• Nyky-yhteiskunnassamme käsitteet tehokkuus, nopeus,tarkkuus, maksimointi ja minimointi korostuvat yhä useamminmonissa asiayhteyksissä.
• Taloudellinen tilanteemme johtaa siihen, että olemassaoleviaresursseja pitää käyttää mahdollisimman monipuolisesti.
• Tästä seuraa edelleen, että uusia aluevaltauksia ja innovaatioitatulee kehittää perinteisten alojen rinnalle.
• Kilpailu kovenee kuitenkin jatkuvasti joka sektorilla, silläsamankaltaisia ideoita syntyy ympäri maailmaa.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Alustusta
• Viimeisen vuosikymmenen aikana ympäri maailmaa on kasvanutsuurta kiinnostusta erilaisten datojen analysointiin.
• Digitaalisessa muodossa olevan tiedon määrä on valtava jakasvaa erittäin nopeasti vuosi vuodelta.
• Teknologian kehittymisen myötä dataa kertyy lukuisista erilähteistä ja kerätyt aineistot muodostavat muun muassa hyvinsuuria tietokantoja.
• Viime vuosina erityisesti big data on noussut pinnalle ja senympärillä tehdään aktiivisesti tutkimusta.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Mistä saamme dataa?
• Esimerkkejä datalähteistä:1. Pankkien maksutapahtumat2. Kännykkäkamera ym. muut kamerat3. Supermarkettien ostotapahtumatiedot4. Terveydenhuollon potilaiden mittaukset5. Liikenne6. Ilmasto7. Sensorit yleisesti ottaen8. Teollisuusprosessit9. Lokitiedot
10. Sosiaalinen media ja muut web-aineistot11. Hakukoneiden keräämä data
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Datan luonne
• Data voidaan jakaa karkeasti kahteen eri tyyppiin riippuen senlähteestä:
1. Järjestetty data (esimerkiksi kyselylomake) rajoittuu tietylletoimialalle ja data on luonteeltaan diskreettiä. Järjestettyä dataasäilytetään monesti Excel-tiedostossa tai relaatiotietokannassa.
2. Järjestämätöntä dataa ei voida suoraviivaisesti lokeroida johonkinluokkaan. Järjestämätöntä dataa ovat esimerkiksi kuvat, videot,pdf-tiedostot, sähköpostit ja sosiaalisen median tuottamat aineistot.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Miksi keräämme dataa?
• Datan sisältämässä informaatiossa nähdään potentiaalia jamahdollista taloudellista hyötyä muun muassa uusienpalveluiden ja liiketoiminnan muodossa.
• Datan käsittelymenetelmien kehittäminen luo uusiatyömahdollisuuksia. Suurten tietomassojen käsittely vaatiiuudenlaisia teknisiä toteutustapoja.
• Datasta voidaan löytää uusia yhteyksiä eri asioiden välille.• Datasta saatavan tietämyksen avulla pystytään vahvistamaan
olemassaolevia ennakkokäsityksiä.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Sisältö
Johdanto
Tiedonlouhinta
Koneoppiminen ja tiedonlouhinta
Tiedonlouhinnan tulevaisuus
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Lähtökohta
• Peruslähtökohtana tiedonlouhinnalle on, että kerätty datamuokataan havaintomatriisiksi (taulukoksi).
• Havaintomatriisissa rivit edustavat havaintoja (esim. asiakas) jasarakkeet mitattavaa ilmiötä kuvaavia muuttujia (esim. ikä,sukupuoli tai tieto siitä, kuinka montaa e-aineistoa asiakas onkäyttänyt).
• Havaintomatriisin yleinen muoto:x11 x12 · · · x1nx21 x22 · · · x2n...
.... . .
...xm1 xm2 · · · xmn
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Datasta tiedonlouhintaan
• Kerätyn “raakatiedon” suuren määrän vuoksi on pitänyt kehittäätietojenkäsittelymenetelmiä (erityisesti tiedonlouhinnanmenetelmiä [data mining]), jotta oleellinen informaatio saadaanesille datasta [4].
• Tiedonlouhinnalle on olemassa lukuisia määritelmiä.• Yksi mahdollinen määritelmä tiedonlouhinnalle [4]:
Tiedonlouhinta on (usein laajojen) havaintotietojen,datajoukkojen tietojen välisten suhteiden etsimistä jadatan ominaisuuksien yhteenvedon tuottamista uusintavoin, jotka ovat sekä ymmärrettäviä että hyödyllisiäkäyttäjän näkökulmasta.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Tiedonlouhinta
• Tiedonlouhinnalla saatuja ominaisuuksia ja yhteenvetojakutsutaan yleensä malleiksi tai hahmoiksi [4]. Esimerkkejämalleista ovat assosiaatiosäännöt, klusterit (rypäs, ryväs), graafitja puurakenteet [4].
• Tiedonlouhinta käsittelee monesti dataa, joka on kerätty muuhuntarkoitukseen kuin itse tiedonlouhintaan (esim. lokitiedot) [4].
• Tiedonlouhinta eroaa tilastotieteestä, jossa aineistoa kerätäänerityisesti vastaamaan tiettyihin kysymyksiin [4].
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Tiedonlouhinta ja data-analyysi
• Tiedonlouhinnan määritelmän perusteella datajoukot voivat ollausein hyvinkin laajoja (vrt. big data).
• Tiedonlouhinta on data-analyysin yksi osa-alue, joka onkeskittynyt ilmiön mallintamiseen ja tietämyksenmuodostamiseen erityisesti ennustamisen näkökulmasta [4].
• Tiedonlouhinta ei suinkaan ole ainoa data-analyysin osa-alue,vaan data-analyysi on monipuolinen kokonaisuus lähtien datankeräämisestä ja datan siivoamisesta ulottuen datanvisualisointiin ja tulosten analysointiin.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Datasta tietämykseen
• Tiedonlouhinta on yksi vaihe tietämyksen muodostamisessa.• Lopullinen tavoite käytännössä on, että ymmärryksemme datasta
lisääntyy ja pystymme hyödyntämään dataa uusilla tavoilla.• Tietämyksen muodostaminen on monivaiheinen prosessi, joka
alkaa datasta ja ongelman määrittämisestä päättyen tulostenhyödyntämiseen ja tietämyksen muodostamiseen.
• Käytännössä suurten tietomassojen analysointi ja niistäsaatavan uuden tietämyksen muodostaminen ei ole helppotehtävä ja se voi viedä huomattavan paljon aikaa.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Datasta tietämykseen
Kuva : Tietämyksen muodostamisen prosessi. Kuva mukailee lähdettä [1].
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Tiedonlouhinnan tehtäviä
• Tiedonlouhinnan tehtävät voidaan jakaa viiteen ryhmään [4]:1. Tutkiva data-analyysi2. Deskriptiivinen eli kuvaava mallintaminen3. Ennustava mallintaminen4. Hahmojen ja sääntöjen etsiminen5. Haku sisällön perusteella
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Tutkiva data-analyysi
• Perusideana on tarkastella dataa ilman tarkkaa suunnitelmaaetsittävästä [4].
• Tutkiva data-analyysi on luonteeltaan vuorovaikutteista javisuaalista [4].
• Pieniä aineistoja varten on olemassa monipuolisia graafisiaesitystapoja (histogrammi, sirontakuviot, laatikkokaavio).
• Kun muuttujien lukumäärä kasvaa, datan visualisointi tuleehankalammaksi. Tähän tarkoitukseen on olemassa menetelmiä,jotka tiivistävät alkuperäisen aineiston sisältävän informaationpienempään määrään muuttujia.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Esimerkki
Kuva : Esimerkki muuttujastamääritetystä laatikkokaavio.
Kuva : Esimerkki kahdestamuuttujasta määritetystäsirontakuviosta.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Kuvaava mallintaminen
• Perusideana kuvaavassa mallintamisessa on kuvata koko data(tai sen generoiva prosessi) [4].
• Esimerkkejä kuvaavasta mallintamisesta ovatklusterit/segmentointi ja muuttujien välisten suhteidenkuvausmallit (riippuvuuden mallintaminen) [4].
• Esimerkiksi klusteroinnissa tavoitteena on löytää “luonnollisetryhmät datasta”.
• Klusterointia voidaan hyödyntää esimerkiksi asiakasprofiilienlöytämisessä ja lehtien tai kirjojen ryhmittelyssä, kun niistä onerotettu niitä kuvaavia numeerisia muuttujia.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Esimerkki
Kuva : Alkuperäinen data. Kuva : Data on klusteroitu kolmeenklusteriin. Klusterit on erotettutoisistaan värikoodauksella.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Ennustava mallintaminen
• Tavoitteena muodostaa malli, jonka avulla pystytäänennustamaan yhden muuttujan luokka tai kvantitatiivinen arvodatassa olevien muiden muuttujien arvojen perusteella [4].
• Ennustavassa mallintamisessa erotetaan kaksi tapausta:1. luokittelu2. regressio.
• Luokittelussa ennustettava muuttuja on luokkatyyppinen jaregressiossa kvantitatiivinen.
• Ennustavaa mallintamista varten on olemassa laaja kokoelmatilastollisia menetelmiä sekä koneoppimismenetelmiä.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Esimerkkejä ennustavasta mallintamisesta
• Oletetaan, että palvelua käyttävät asiakkaat on jaettu kolmeenryhmään profiilien perusteella.
• Luokittelutehtävässä palvelua käyttävän uuden asiakkaan ryhmävoidaan ennustaa muodostamalla ennustava malliolemassaolevan datan perusteella.
• Potilaan diagnoosin ennustaminen on myös luokittelutehtävä.• Yksinkertainen esimerkki regressio-ongelmasta on tutkia
pituuden ja painon välistä suhdetta ja osoittaa, kuinka muutospituudessa vaikuttaa painoon.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Esimerkki ennustavasta mallista
Kuva : Esimerkki paatöspuualgoritmin antamasta mallista.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Hahmojen ja sääntöjen etsiminen
• Tavoitteena on muodostaa hahmoja ja sääntöjä laajoistadatajoukoista.
• Hahmolla tarkoitetaan lokaalia käsitettä, joka kuvaa datanjostakin erityisestä näkökulmasta, kun taas malli antaa globaalinkokonaiskuvauksen datasta [4].
• Esimerkki: Jos palvelun käyttäjät on jaettu erillisiin ryhmiinheidän profiiliensa perusteella, voidaan tutkia, millaisiae-aineistoja kunkin ryhmän sisällä luetaan. Löytyykö kullekinryhmälle oma hahmo/sääntö?
• Ostoskoridata on hyvä esimerkki sääntöjen etsimisestä, jotakäytetään käytännössäkin.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Haku sisällön perusteella
• Tavoitteena on löytää käyttäjän antaman hahmon (esim. joukkoavainsanoja) perusteella samanlaisia hahmoja tietojoukosta [4].
• Hakua sisällön perusteella esiintyy erityisesti teksti- jakuva-aineistojen tapauksessa.
• Esimerkiksi tekstiaineistojen tapauksessa käyttäjä voi etsiäannettujen avainsanojen (hahmon) avulla keskeisiädokumentteja verkosta/palvelusta.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Sisältö
Johdanto
Tiedonlouhinta
Koneoppiminen ja tiedonlouhinta
Tiedonlouhinnan tulevaisuus
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Koneoppimisen suhde tiedonlouhintaan
• Koneoppimisen suosio on noussut valtavasti viime vuosina ja seon keskeisessä roolissa tiedonlouhintaprosessin onnistumisenkannalta.
• Suurista tietomassoista saatava tietämys perustuukin usemmitenkoneoppimisalgoritmien “älykkyyteen”.
• Koneoppiminen ja tiedonlouhinta ovat hyvin läheisiä käsitteitäkeskenään. Tiedonlouhinta voidaan käsittää koneoppimisensovellusalaksi. [4]
• Koneoppimisen piirissä kehiteltyjä menetelmiä (algoritmeja)voidaan hyödyntää tiedonlouhinnassa [4].
• Keskeisintä koneoppimismenetelmien kohdalla on niidenyleispätevyys. Koneoppimisalgoritmien käyttäminen ei olekiinnitetty johonkin tiettyyn alaan, vaan niitä voidaan hyödyntääkaikkialla, missä dataa on saatavilla.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Koneoppiminen
• Koneoppimiselle on olemassa lukuisia määritelmiä riippuentarkasteltavasta lähteestä.
• Koneoppimisen lähtökohta on, että kone/tietokone suorittaaoppimisprosessin ihmisten asemesta.
• Mitä on oppiminen?• Oppimiselle voidaan antaa seuraava määrittely [4]:
Oppiminen on algoritmin kyky parantaa sensuorituskykyä aikaisemman kokemuksen perusteella.
• Toisin sanoen oppiminen on opetetun algoritmin kyky tehdäennustuksia.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Koneoppiminen
• Koneoppiminen puolestaan voidaan määritellä seuraavasti [5]:Koneoppiminen on sellaisten algoritmien jamenetelmien systemaattista tutkimista, jotka parantavatniiden tietämystä tai suoritusta kokemuksen perusteella.
• Mitä tarkoitetaan kokemuksella?• Aikaisempi kokemus koneoppimisalgoritmien tapauksessa on
olemassaolevaa (“historiallista”) dataa, joka on talletettunaesimerkiksi tietokantaan [4].
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Koneoppimisalgoritmien pääjaottelu
1. Ohjattu oppiminen2. Ohjaamaton oppiminen3. Vahvistusoppiminen
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Ohjattu oppiminen
• Ohjatussa oppimisessa datan havaintojen luokat ovat etukäteentiedossa.
• Jokainen aineiston havainto on siis asetettu kuuluvaksiennaltamäärättyyn luokkaan/kategoriaan.
• Jos luokkia ei ole etukäteen tiedossa, voidaan ohjatun oppimisenalgoritmeja käyttää, jos datassa on klusteroituva (ryhmittyvä)rakenne [4]. Tällöin datalle ensin suoritetaan klusterointi, jonkajälkeen sovellusalan asiantuntija määrittää kullekin klusterille jasen sisältämille havainnoille luokkaleiman. Tämän jälkeenohjatun oppimisen algoritmeja voidaan hyödyntää.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Ohjattu oppiminen
• Jokaisen ohjatun oppimisen piiriin kuuluvallekoneoppimisalgoritmille täytyy antaa opetusjoukko, jota käyttäenalgoritmi muodostaa mallin ennustamista varten [2].
• Opetusjoukko koostetaan olemassaolevasta datasta.• Opetusvaiheen jälkeen algoritmille syötetään testijoukko, joka on
riippumaton opetusjoukosta.• Testijoukon perusteella määritämme, kuinka hyvin algoritmi on
onnistunut uusien havaintojen ennustamisessa eli mikä onalgoritmin yleistämiskyky.
• Koneoppimismenetelmien kohdalla yleistämiskyky on keskeistä,jotta menetelmää voidaan hyödyntää sovelluksessa nyt jatulevaisuudessa luotettavasti.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Ohjatun oppimisen menetelmiä
• K :n lähimmän naapurin menetelmä• Naiivi Bayes -luokittelija• Lineaarinen diskriminanttianalyysi• Tukivektorikone• Neuroverkot (mm. syväoppiminen)• Päätöspuut ja satunnaismetsät
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Esimerkki ohjatun oppimisen ongelmasta
Kuva : Kantasolukoloniakuvia kolmestaluokasta: Hyvä (ylin), puolihyvä (keskimmäinen),huono (alin).
• Luokkien määrä: 3• Piirteet: Kuvista irrotettuja
intensiteettihistogrammeja• Luokkatieto: hyvä, puolihyvä,
huono• Tavoite: Ennusta oikea
luokkatieto uusillekantasolukoloniakuville.
• H. Joutsijoki et al., “Histogram-basedclassification of iPSC colony images usingmachine learning methods,” Proceedingsof the 2014 IEEE Conference on Systems,Man, and Cybernetics, pp. 2611-2617,2014.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Ohjaamaton oppiminen
• Ohjaamatonta oppimista usein sanotaan klusteroinniksi, muttamyös assosiaatiosääntöjen etsiminen kuuluu ohjaamattomanoppimisen piiriin [3].
• Klusteroinnissa luokkatietoja havainnoille ei tarvita, vaan dataavoidaan analysoida ilman niitä.
• Klusteroinnin tavoitteena on löytää datasta ryhmät, joidensisäinen samankaltaisuus on suuri ja eri ryhmien välinensamankaltaisuus on mahdollisimman pientä.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Ohjaamattoman oppimisen menetelmiä
• Itseorganisoituvat kartat• K-Means-algoritmi• Hierarkkinen klusterointi• EM-algoritmi
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Esimerkki
Kuva : Esimerkki hierarkkisen klusteroinnin lopputuloksena syntyvästädendrogrammista.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Vahvistusoppiminen
• Vahvistusoppiminen sijoittuu ohjatun ja ohjaamattomanoppimisen välimaastoon.
• Vahvistusoppimisessa käyttäjä antaa palautetta(positiivista/negatiivista) algoritmille ja saadun palautteenperusteella algoritmi muokkaa nykyistä ratkaisua ja pyrkiilöytämään paremman ratkaisun.
• Q-oppimisalgoritmi on kuuluisin vahvistusoppimiseen kuuluvamenetelmä.
• Vahvistusoppimista voidaan hyödyntää esimerkiksipeliohjelmoinnissa.
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Tiedonlouhintamenetelmien jaottelu
Kuva : Hierarkkinen esitys tiedonlouhintamenetelmistä. Kuva mukaileelähdettä [1].
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Sisältö
Johdanto
Tiedonlouhinta
Koneoppiminen ja tiedonlouhinta
Tiedonlouhinnan tulevaisuus
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Tulevaisuus
• Tiedonlouhinnan, koneoppimisen, data-analyysin tai yleisestiottaen tekoälyn tulevaisuus näyttää varsin valoisalta, sillädigitaalisessa muodossa olevan tiedon määrä kasvaa erittäinnopeasti.
• Yhä useampi sovellusala tulee hyödyntämään oppiviaalgoritmeja, joiden avulla mekaaniset työtehtävät pystytäänautomatisoimaan ja monissa paikoin myös turvallisuuttapystytään lisäämään.
• Koneoppimisalgoritmeja tullaan hyödyntämään jatkossaenenevässä määrin eri laitteissa ja kulkuneuvoissa (autot,puhelimet, televisiot,...).
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Tulevaisuus
• Suurten tietomassojen tiedonlouhinnan myötä pystytäänasiakasryhmiä kohdentamaan paremmin sekä tarjoamaankuluttajille tarkemmin kohdennettuja palveluja, informaatiota jamainontaa.
• Tiedonlouhintaan, koneoppimiseen ja tekoälyyn liittyy paljonmyös uhkakuvia, joista osa juontaa juurensa elokuvista jatieteiskirjallisuudesta. Tulevatko menetelmät “liian älykkäiksi”?Rikkovatko älykkäät algoritmit yksityisyyden rajat? Voimmekoluottaa älykkäisiin menetelmiin tarpeeksi? Kenellä on vastuu, josesimerkiksi koneoppimisalgoritmeja hyödyntävä itseohjautuvaauto ajaa kolarin?
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
Kiitos!
Kysymyksiä?
Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus
S. Garcia et al., Data Preprocessing in Data Mining,Springer-Verlag, 2015.
J. Han et al., Data Mining: Concepts and Techniques, 3rd edition,Morgan Kaufmann, (Elsevier), 2012.
K.J. Cios et al., Data Mining: A Knowledge Discovery Approach,Springer, 2007.
M. Juhola, Tiedonlouhinta kurssin luentomateriaali, Tampereenyliopisto, 2014.
T.M. Mitchell. Machine Learning. Mcgraw-Hill, New York, USA,1997.