konsep data mining - gunadarma...
TRANSCRIPT
Konsep Data Mining
DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES
BertalyaUniversitas Gunadarma
2009
Data Mining (DM)
• DM merupakan suatu proses penjelajahan otomatisuntuk mendapatkan informasi berguna dalam suaturepositori data yang sangat besar.
• DM merupakan bagian yg terintegrasi dari Knowledge Discovery in Databases (KDD).
• KDD terbagi atas 3 tahap secara global yakni
– Data preprocessing
– Data mining
– Postprocessing
DM dan KDD 2
Tahap-tahap pada KDD
• Data preprocessing, bertujuan mentransformasikandata mentah ke format yg sesuai utk analisis.
• Terdiri atas proses seleksi fitur, reduksi dimensionalitas, normalisasi dan subsetting data
• Postprocessing, bertujuan untuk menjamin bahwa hasilproses data mining yg diintegrasikan pada sistempenunjang keputusan, benar2 hasil yg valid.
• Terdiri atas proses penapisan pola, visualisasi daninterpretasi pola
DM dan KDD 3
Tahap-tahap Detail pada KDD
• Seleksi – proses penyeleksian atau segmentasi data menurut beberapa kriteria, – mis. Orang-orang yang mempunyai mobil
• Preprocessing – proses pembersihan data, dimanainformasi yg tidak dibutuhkan dibuang,– Mis. Jenis kelamin pasien utk analisis kehamilan
Data dikonfigurasi ulang untuk memastikan format ygkonsisten krn berasal dari berbagai sumber.– Mis. Jenis kelamin disimpan dgn bentuk f atau m dan
1 atau 0
DM dan KDD 5
Tahap2 pada KDD (lanj.)
• Transformasi – proses transformasi sehingga data menjadi berguna dan dapat ditelusuri.
• Data Mining – proses yg berfokus pada ekstraksi pola2 data. Pola dapat didefinisikan sebagai sekumpulanfakta2 (data) F, bahasa L, dan beberapa measure of certainty (pengukuran kepastian) C.
Suatu pola dinyatakan S dalam L menggambarkanketerhubungan antara subset Fs dari F dgn kepastian c dimana S adalah simpel dibandingkan perhitungansemua fakta dalam Fs.
DM dan KDD 6
Tahap2 pada KDD (lanj.)
• Interpretasi & Evaluasi – pola diidentifikasi sistem, lalu diinterpretasikan sebagai pengetahuan yg dapatdigunakan utk mendukung pengambilan keputusanmanusia, contoh– tugas prediksi & klasifikasi,– meringkas konten suatu database– menjelaskan fenomena yg diamati
DM dan KDD 7
Isu / Masalah DM
Sistem data mining bertumpu pada database2 ygmemasok data mentah sebagai masukan. Masalah ygtimbul a.l :– Informasi yg terbatas
Database dirancang utk tujuan berbeda dgn DM. Atribut2nya sederhana. Data yg tidak lengkap menimbulkan masalahkarena apabila tidak terdapat atribut2 penting utkpengetahuan domain aplikasi tertentu, hal ini akanmengakibatkan kesulitan utk mendapatkan pengetahuan ygtepat utk domain tertentu.Contoh, tidak dapat mendiagnosa penyakit malaria daridatabase pasien apabila database tersebut tidak terdapathasil pengukuran sel darah merah pasien
DM dan KDD 8
Isu / Masalah DM (lanj.)
– Nilai data yg hilang atau noiseBiasanya database terkontaminasi oleh kesalahansehingga tidak dapat sepenuhnya dinyatakan bahwadatabase mempunyai data yg benar.
– KetidakpastianKetidakpastian merujuk pada tingkat kesalahan dan noise pada data
– Bidang yg tidak relevan & termodifikasi sertaukurannyaDatabase cenderung sangat besar & dinamis, dimanakontennya selalu berubah2 (ditambah, dimodifikasi & dihapus).
DM dan KDD 9
Isu / Masalah DM (lanj.)
Masalahnya bagaimana menyakinkan bahwa aturan ygada tetap up-to-date & konsisten dgn informasi yg ada.
Selain itu, bidang database terkadang tidak relevan dgnfokus pencarian data.Contoh, kode pos merupakan hal dasar utk menyatakanhubungan mengenai sesuatu secara geografis, sepertipenjualan produk.
DM dan KDD 10
Arsitektur DM
DM dan KDD 11
Graphical user interface
Pattern evaluation
Data mining engine
Database or data warehouse server
Knowledge-base
DatabasesDatabasesData
Warehouse
Data cleaning & data integration Filtering
Data pada DM
• Database relasional• Data warehouse• Database transaksi• Database lanjut & repositori informasi
– Database berorientasi objek & database relasional– Database Spasial– DataTime-series & data temporal– Database teks & database multimedia– Database heterogen & database legal– WWW
DM dan KDD 12