crisp-dm dan naive bayes
Post on 26-Dec-2015
207 Views
Preview:
DESCRIPTION
TRANSCRIPT
Cross Industry Standard Process for Data Mining
(CRISP-DM)
Nama : Siti Maskuroh
NIM : A11.2011.06038
Kel : A11.4812
CRISP-DM
• CRISP - DM adalah metodologi data mining komprehensif dan Model proses untuk siapa pun (dari pemula sampai ahli data mining) dengan blueprint untuk melakukan proyek data mining.
• CRISP - DM breaks down siklus hidup proyek data mining dibagi menjadi 6 fase .
Sejarah
• CRISP-DM – diusulkan pada pertengahan 1990an oleh konsorsium perusahaan-perusahaan eropa untuk dijadikan methodology standard nonproprietary bagi DM (CRISP-DM, 2009)
• Diluncurkan pada pertengahan tahun 1996• Dikembangakan dan disempurnakan dari workshops
(1997-1999) yang didukung oleh 300 lebih perusahaan.• CRISP - DM 1.0 diterbitkan ( 1999) • Lebih dari 200 anggota SIG CRISP - DM di seluruh
dunia • Vendor DM - SPSS , NCR , IBM , SAS , SGI , Data
Distilleries , Syllogic , Magnify
Standart data mining CRISP-DM
6 fase CRISP-DM
1. Fase Pemahaman Bisnis (Business Understanding Phase)
2. Fase Pemahaman Data (Data Understanding Phase)
3. Fase Pengolahan Data (Data Preparation Phase)
4. Fase Pemodelan (Modeling Phase)
5. Fase Evaluasi (Evaluation Phase)
6. Fase Penyebaran (Deployment Phase)
Fase Pemahaman Bisnis(1)
• Rencana projek untuk menemukan knowledge sehingga menetapkan orang-orang yang bertanggaungjawab untuk koleksi data, analisa, melaporkan temuan-temuan
• Penentuan tujuan proyek dan kebutuhan secara detail • Menerjemahkan tujuan dan batasan permasalahan data
mining• Menyiapkan strategi awal untuk mencapai tujuan • Perlunya menentukan budget untuk mendukung kajian
ini.
Fase Pemahaman Data(2)
• Mengidentifikasi data yang relevan dari berbagai database yang ada.
• Analisa data agar dapat mengenali data lebih lanjut.• Mengevaluasi kualitas data. • Jika diinginkan, pilih sebagian kecil kelompok data
yang mungkin mengandung pola dari permasalahan • Contoh : project DM untuk retail mungkin ingin
mengetahui mengenai perilaku belanja para wanita penggemar belanja yang membeli baju-baju untuk musiman berdasarkan demografis mereka, transaksi kartu kredit mereka, dan ciri-ciri sosioekonomi mereka.
Fase Pengolahan Data(3)
• Pemrosesan data menyita waktu dan usaha paling banyak. Sekitar 80% dari total waktu yang dibutuhkan dalam pengerjaan proyek.
• Pilih kasus dan variabel sesuai analisis yang akan dilakukan.
• Lakukan perubahan pada beberapa variabel jika dibutuhkan.
• Siapkan data awal sehingga siap untuk perangkat pemodelan.
• Contoh : mengkonversi data rill yang pada umumnya tidak lengkap, noisy(berisi data error), data tidak konsisten agar bisa menjadi dataset yang bisa digali
Fase Pemodelan(4)
• Tahap pembuatan model juga mencakup penilaian dan analisa komparatif dari berbagai model yang dibangun. Karena tidak ada satupun model yang secara universal dianggap sebagai metode / algoritma yang terbaik.
• Pilih dan aplikasikan teknik pemodelan yang sesuai. • Beberapa teknik mungkin dapat digunakan pada
permasalahan yang sama. • Proses dapat kembali ke fase pengolahan data jika
diperlukan.• Contoh : beberapa metode DM seperti decision
tree,classification, k-means untuk clustering, dan Apriori untuk association rule mining
Fase Evaluasi(5)• Tahap ini mengukur sejauh mana model yang sudah
dipilih memenuhi sasaran-sasaran bisnis• Mengevaluasi satu atau lebih model sebelum
disebarkan. • Menetapkan apakah terdapat model yang memenuhi
tujuan pada fase awal.• Menentukan apakah terdapat permasalahan penting dari
bisnis atau penelitian yang tidak tertangani dengan baik. • Contoh : menginterpretasikan hasil-hasil solusi
matematis yang canggih maka seringkali digunakan berbagai macam tabulasi dan teknik-teknik visualisasi (misalnya table-tabel pivot, tabulasi silang dari berbagai temuan,diagram pie,diagram batang,scatterplots).
Fase Penyebaran(6)
• Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.
• Tahap ‘deployment’ mungkin juga meliputi berbagai aktivitas ‘maintenance’ pada model yang sudah digunakan. Karena semua yang terkait dengan bisnis pasti mengalami perubahan
• Contoh sederhana penyebaran: Pembuatan laporan. • Contoh kompleks Penyebaran: Penerapan proses data
mining secara paralel pada departemen lain.
Referensi
• http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/2360/13.%20BAB%20II.pdf?sequence=14
• http://paginas.fe.up.pt/~ec/files_0405/slides/02%20CRISP.pdf
• http://beritati.blogspot.com/2013/08/seri-data-mining-for-business_19.html diakses 7/10/2014
Naive bayesian classifier
• Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence)
• Mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain
• Karena asumsi atribut tidak saling terkait (conditionally independent), maka:
• Bila P(X|Ci) dapat diketahui melalui perhitungan di atas, maka klas (label) dari data sampel X adalah klas (label) yang memiliki P(X|Ci)*P(Ci) maksimum
Contoh soalNO JENIS KELAMIN STATUS MAHASISWA STATUS PRENIKAHAN IPK Semester 1-6 STATUS KELULUSAN
1 LAKI - LAKI MAHASISWA BELUM 3.17 TEPAT
2 LAKI - LAKI BEKERJA BELUM 3.30 TEPAT
3 PEREMPUAN MAHASISWA BELUM 3.01 TEPAT
4 PEREMPUAN MAHASISWA MENIKAH 3.25 TEPAT
5 LAKI - LAKI BEKERJA MENIKAH 3.20 TEPAT
6 LAKI - LAKI BEKERJA MENIKAH 2.50 TERLAMBAT
7 PEREMPUAN BEKERJA MENIKAH 3.00 TERLAMBAT
8 PEREMPUAN BEKERJA BELUM 2.70 TERLAMBAT
9 LAKI - LAKI BEKERJA BELUM 2.40 TERLAMBAT
10 PEREMPUAN MAHASISWA MENIKAH 2.50 TERLAMBAT
11 PEREMPUAN MAHASISWA BELUM 2.50 TERLAMBAT
12 PEREMPUAN MAHASISWA BELUM 3.50 TEPAT
13 LAKI - LAKI BEKERJA MENIKAH 3.30 TEPAT
14 LAKI - LAKI MAHASISWA MENIKAH 3.25 TEPAT
15 LAKI - LAKI MAHASISWA BELUM 2.30 TERLAMBAT
Tentukan “keterangan”
KELAMIN STATUS PRENIKAHAN IPKKETERANGA
N
LAKI – LAKI MAHASISWA BELUM 2.70 ???
Tahap penyelesaian
Hasil
KELAMIN STATUS PRENIKAHAN IPK KETERANGAN
LAKI - LAKI MAHASISWA BELUM 2.70 TERLAMBAT
Kelebihan dan kelemahan
Kelebihan :• Mudah diimplementasi • Memberikan hasil yang baik untuk banyak • kasus
Kelemahan:• Harus mengasumsi bahwa antar fitur tidak terkait
(independent) Dalam realita, keterkaitan itu ada • Keterkaitan tersebut tidak dapat dimodelkan oleh Naïve
Bayesian Classifier
Referensi
• http://charitasfibriani.files.wordpress.com/2010/11/pertemuan_82.doc
• http://education-programmer.blogspot.com/search/label/Data%20Mining
• http://www.informatika.unsyiah.ac.id/tfa/dm/dm-bayesian-classifier.pdf
top related