konsep data mining - gunadarma...

12
Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES Bertalya Universitas Gunadarma 2009

Upload: hoangliem

Post on 20-May-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Konsep Data Mining

DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES

BertalyaUniversitas Gunadarma

2009

Data Mining (DM)

• DM merupakan suatu proses penjelajahan otomatisuntuk mendapatkan informasi berguna dalam suaturepositori data yang sangat besar.

• DM merupakan bagian yg terintegrasi dari Knowledge Discovery in Databases (KDD).

• KDD terbagi atas 3 tahap secara global yakni

– Data preprocessing

– Data mining

– Postprocessing

DM dan KDD 2

Tahap-tahap pada KDD

• Data preprocessing, bertujuan mentransformasikandata mentah ke format yg sesuai utk analisis.

• Terdiri atas proses seleksi fitur, reduksi dimensionalitas, normalisasi dan subsetting data

• Postprocessing, bertujuan untuk menjamin bahwa hasilproses data mining yg diintegrasikan pada sistempenunjang keputusan, benar2 hasil yg valid.

• Terdiri atas proses penapisan pola, visualisasi daninterpretasi pola

DM dan KDD 3

(KDD) – Proses transformasi data mentah menjadiinformasi berguna

DM dan KDD 4

Tahap-tahap Detail pada KDD

• Seleksi – proses penyeleksian atau segmentasi data menurut beberapa kriteria, – mis. Orang-orang yang mempunyai mobil

• Preprocessing – proses pembersihan data, dimanainformasi yg tidak dibutuhkan dibuang,– Mis. Jenis kelamin pasien utk analisis kehamilan

Data dikonfigurasi ulang untuk memastikan format ygkonsisten krn berasal dari berbagai sumber.– Mis. Jenis kelamin disimpan dgn bentuk f atau m dan

1 atau 0

DM dan KDD 5

Tahap2 pada KDD (lanj.)

• Transformasi – proses transformasi sehingga data menjadi berguna dan dapat ditelusuri.

• Data Mining – proses yg berfokus pada ekstraksi pola2 data. Pola dapat didefinisikan sebagai sekumpulanfakta2 (data) F, bahasa L, dan beberapa measure of certainty (pengukuran kepastian) C.

Suatu pola dinyatakan S dalam L menggambarkanketerhubungan antara subset Fs dari F dgn kepastian c dimana S adalah simpel dibandingkan perhitungansemua fakta dalam Fs.

DM dan KDD 6

Tahap2 pada KDD (lanj.)

• Interpretasi & Evaluasi – pola diidentifikasi sistem, lalu diinterpretasikan sebagai pengetahuan yg dapatdigunakan utk mendukung pengambilan keputusanmanusia, contoh– tugas prediksi & klasifikasi,– meringkas konten suatu database– menjelaskan fenomena yg diamati

DM dan KDD 7

Isu / Masalah DM

Sistem data mining bertumpu pada database2 ygmemasok data mentah sebagai masukan. Masalah ygtimbul a.l :– Informasi yg terbatas

Database dirancang utk tujuan berbeda dgn DM. Atribut2nya sederhana. Data yg tidak lengkap menimbulkan masalahkarena apabila tidak terdapat atribut2 penting utkpengetahuan domain aplikasi tertentu, hal ini akanmengakibatkan kesulitan utk mendapatkan pengetahuan ygtepat utk domain tertentu.Contoh, tidak dapat mendiagnosa penyakit malaria daridatabase pasien apabila database tersebut tidak terdapathasil pengukuran sel darah merah pasien

DM dan KDD 8

Isu / Masalah DM (lanj.)

– Nilai data yg hilang atau noiseBiasanya database terkontaminasi oleh kesalahansehingga tidak dapat sepenuhnya dinyatakan bahwadatabase mempunyai data yg benar.

– KetidakpastianKetidakpastian merujuk pada tingkat kesalahan dan noise pada data

– Bidang yg tidak relevan & termodifikasi sertaukurannyaDatabase cenderung sangat besar & dinamis, dimanakontennya selalu berubah2 (ditambah, dimodifikasi & dihapus).

DM dan KDD 9

Isu / Masalah DM (lanj.)

Masalahnya bagaimana menyakinkan bahwa aturan ygada tetap up-to-date & konsisten dgn informasi yg ada.

Selain itu, bidang database terkadang tidak relevan dgnfokus pencarian data.Contoh, kode pos merupakan hal dasar utk menyatakanhubungan mengenai sesuatu secara geografis, sepertipenjualan produk.

DM dan KDD 10

Arsitektur DM

DM dan KDD 11

Graphical user interface

Pattern evaluation

Data mining engine

Database or data warehouse server

Knowledge-base

DatabasesDatabasesData

Warehouse

Data cleaning & data integration Filtering

Data pada DM

• Database relasional• Data warehouse• Database transaksi• Database lanjut & repositori informasi

– Database berorientasi objek & database relasional– Database Spasial– DataTime-series & data temporal– Database teks & database multimedia– Database heterogen & database legal– WWW

DM dan KDD 12