crisp-dm dan naive bayes

Cross Industry Standard Process for Data Mining

(CRISP-DM)

Nama : Siti Maskuroh

NIM : A11.2011.06038

Kel : A11.4812

CRISP-DM

• CRISP - DM adalah metodologi data mining komprehensif dan Model proses untuk siapa pun (dari pemula sampai ahli data mining) dengan blueprint untuk melakukan proyek data mining.

• CRISP - DM breaks down siklus hidup proyek data mining dibagi menjadi 6 fase .

Sejarah

• CRISP-DM – diusulkan pada pertengahan 1990an oleh konsorsium perusahaan-perusahaan eropa untuk dijadikan methodology standard nonproprietary bagi DM (CRISP-DM, 2009)

• Diluncurkan pada pertengahan tahun 1996• Dikembangakan dan disempurnakan dari workshops

(1997-1999) yang didukung oleh 300 lebih perusahaan.• CRISP - DM 1.0 diterbitkan ( 1999) • Lebih dari 200 anggota SIG CRISP - DM di seluruh

dunia • Vendor DM - SPSS , NCR , IBM , SAS , SGI , Data

Distilleries , Syllogic , Magnify

Standart data mining CRISP-DM

6 fase CRISP-DM

1. Fase Pemahaman Bisnis (Business Understanding Phase)

2. Fase Pemahaman Data (Data Understanding Phase)

3. Fase Pengolahan Data (Data Preparation Phase)

4. Fase Pemodelan (Modeling Phase)

5. Fase Evaluasi (Evaluation Phase)

6. Fase Penyebaran (Deployment Phase)

Fase Pemahaman Bisnis(1)

• Rencana projek untuk menemukan knowledge sehingga menetapkan orang-orang yang bertanggaungjawab untuk koleksi data, analisa, melaporkan temuan-temuan

• Penentuan tujuan proyek dan kebutuhan secara detail • Menerjemahkan tujuan dan batasan permasalahan data

mining• Menyiapkan strategi awal untuk mencapai tujuan • Perlunya menentukan budget untuk mendukung kajian

Fase Pemahaman Data(2)

• Mengidentifikasi data yang relevan dari berbagai database yang ada.

• Analisa data agar dapat mengenali data lebih lanjut.• Mengevaluasi kualitas data. • Jika diinginkan, pilih sebagian kecil kelompok data

yang mungkin mengandung pola dari permasalahan • Contoh : project DM untuk retail mungkin ingin

mengetahui mengenai perilaku belanja para wanita penggemar belanja yang membeli baju-baju untuk musiman berdasarkan demografis mereka, transaksi kartu kredit mereka, dan ciri-ciri sosioekonomi mereka.

Fase Pengolahan Data(3)

• Pemrosesan data menyita waktu dan usaha paling banyak. Sekitar 80% dari total waktu yang dibutuhkan dalam pengerjaan proyek.

• Pilih kasus dan variabel sesuai analisis yang akan dilakukan.

• Lakukan perubahan pada beberapa variabel jika dibutuhkan.

• Siapkan data awal sehingga siap untuk perangkat pemodelan.

• Contoh : mengkonversi data rill yang pada umumnya tidak lengkap, noisy(berisi data error), data tidak konsisten agar bisa menjadi dataset yang bisa digali

Fase Pemodelan(4)

• Tahap pembuatan model juga mencakup penilaian dan analisa komparatif dari berbagai model yang dibangun. Karena tidak ada satupun model yang secara universal dianggap sebagai metode / algoritma yang terbaik.

• Pilih dan aplikasikan teknik pemodelan yang sesuai. • Beberapa teknik mungkin dapat digunakan pada

permasalahan yang sama. • Proses dapat kembali ke fase pengolahan data jika

diperlukan.• Contoh : beberapa metode DM seperti decision

tree,classification, k-means untuk clustering, dan Apriori untuk association rule mining

Fase Evaluasi(5)• Tahap ini mengukur sejauh mana model yang sudah

dipilih memenuhi sasaran-sasaran bisnis• Mengevaluasi satu atau lebih model sebelum

disebarkan. • Menetapkan apakah terdapat model yang memenuhi

tujuan pada fase awal.• Menentukan apakah terdapat permasalahan penting dari

bisnis atau penelitian yang tidak tertangani dengan baik. • Contoh : menginterpretasikan hasil-hasil solusi

matematis yang canggih maka seringkali digunakan berbagai macam tabulasi dan teknik-teknik visualisasi (misalnya table-tabel pivot, tabulasi silang dari berbagai temuan,diagram pie,diagram batang,scatterplots).

Fase Penyebaran(6)

• Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.

• Tahap ‘deployment’ mungkin juga meliputi berbagai aktivitas ‘maintenance’ pada model yang sudah digunakan. Karena semua yang terkait dengan bisnis pasti mengalami perubahan

• Contoh sederhana penyebaran: Pembuatan laporan. • Contoh kompleks Penyebaran: Penerapan proses data

mining secara paralel pada departemen lain.

Referensi

• http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/2360/13.%20BAB%20II.pdf?sequence=14

• http://paginas.fe.up.pt/~ec/files_0405/slides/02%20CRISP.pdf

• http://beritati.blogspot.com/2013/08/seri-data-mining-for-business_19.html diakses 7/10/2014

Naive bayesian classifier

• Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence)

• Mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain

• Karena asumsi atribut tidak saling terkait (conditionally independent), maka:

• Bila P(X|Ci) dapat diketahui melalui perhitungan di atas, maka klas (label) dari data sampel X adalah klas (label) yang memiliki P(X|Ci)*P(Ci) maksimum

Contoh soalNO JENIS KELAMIN STATUS MAHASISWA STATUS PRENIKAHAN IPK Semester 1-6 STATUS KELULUSAN

1 LAKI - LAKI MAHASISWA BELUM 3.17 TEPAT

2 LAKI - LAKI BEKERJA BELUM 3.30 TEPAT

3 PEREMPUAN MAHASISWA BELUM 3.01 TEPAT

4 PEREMPUAN MAHASISWA MENIKAH 3.25 TEPAT

5 LAKI - LAKI BEKERJA MENIKAH 3.20 TEPAT

6 LAKI - LAKI BEKERJA MENIKAH 2.50 TERLAMBAT

7 PEREMPUAN BEKERJA MENIKAH 3.00 TERLAMBAT

8 PEREMPUAN BEKERJA BELUM 2.70 TERLAMBAT

9 LAKI - LAKI BEKERJA BELUM 2.40 TERLAMBAT

10 PEREMPUAN MAHASISWA MENIKAH 2.50 TERLAMBAT

11 PEREMPUAN MAHASISWA BELUM 2.50 TERLAMBAT

12 PEREMPUAN MAHASISWA BELUM 3.50 TEPAT

13 LAKI - LAKI BEKERJA MENIKAH 3.30 TEPAT

14 LAKI - LAKI MAHASISWA MENIKAH 3.25 TEPAT

15 LAKI - LAKI MAHASISWA BELUM 2.30 TERLAMBAT

Tentukan “keterangan”

KELAMIN STATUS PRENIKAHAN IPKKETERANGA

LAKI – LAKI MAHASISWA BELUM 2.70 ???

Tahap penyelesaian

KELAMIN STATUS PRENIKAHAN IPK KETERANGAN

LAKI - LAKI MAHASISWA BELUM 2.70 TERLAMBAT

Kelebihan dan kelemahan

Kelebihan :• Mudah diimplementasi • Memberikan hasil yang baik untuk banyak • kasus

Kelemahan:• Harus mengasumsi bahwa antar fitur tidak terkait

(independent) Dalam realita, keterkaitan itu ada • Keterkaitan tersebut tidak dapat dimodelkan oleh Naïve

Bayesian Classifier

Referensi

• http://charitasfibriani.files.wordpress.com/2010/11/pertemuan_82.doc

• http://education-programmer.blogspot.com/search/label/Data%20Mining

• http://www.informatika.unsyiah.ac.id/tfa/dm/dm-bayesian-classifier.pdf

crisp-dm dan naive bayes

Documents

spam filtering with naive bayes - which naive bayes? · pdf...

naive bayes classifier

bayesian machine learning - naive bayes

naive bayes

naive bayes text classification · naive bayes text...

generative models; naive bayes

clustered naive bayes

naive bayes and gaussian bayes classifier -...

naive bayes document classification - university of...

41 j48 naive bayes weka

naive bayes - mran.microsoft.com

naive bayes document classification

classification: naïve bayes - university of...

spam filtering with naive bayes – which naive bayes? ·...

classificação: naive bayes - folivetti.github.io · naive...

naive bayes by seo

keoptimalan naive bayes karya tulis

robust naive bayes

naive bayes classi cation

spam filtering with naive bayes – which naive...