keoptimalan naive bayes karya tulis

Upload: fitriyanti-suleman

Post on 24-Feb-2018

233 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    1/31

    i | P a g e

    KEOPTIMALAN NAVE BAYES DALAM KLASIFIKASI

    SEMINAR

    Diajukan sebagai syarat akhir mata kuliah seminar

    Di Program Studi Ilmu Komputer

    diajukan oleh:MUHAMMAD AMMAR SHADIQ

    056946/PS/IK/05

    Kepada

    TIM SEMINAR PROGRAM STUDI ILMU KOMPUTER

    PROGRAM STUDI ILMU KOMPUTERFAKULTAS PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM

    UNIVERSITAS PENDIDIKAN INDONESIA

    JUNI, 2009

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    2/31

    ii | P a g e

    KEOPTIMALAN NAVE BAYES DALAM KLASIFIKASI

    SEMINAR

    yang telah dipersiapkan dan disusun oleh

    diajukan oleh:MUHAMMAD AMMAR SHADIQ

    056946/PS/IK/05

    telah siap dipertahankan di depan Dewan Pengujipada tanggal 26 Juni 2009

    telah disetujui oleh:

    Pembimbing Utama

    Eddy Prasetyo Nugroho

    Mengetahui,Ketua Jurusan/Program Studi Ketua Tim SeminarIlmu Komputer Jurusan/Program StudiFPMIPA UPI FPMIPA UPI Ilmu Komputer

    Heri Sutarno M.T Dr. Wawan Setiawan M.KomNIP. 131 410 892 NIP. 131 946 757

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    3/31

    iii | P a g e

    KATA PENGANTAR

    Klasifikasi adalah salah satu tugas yang penting dalam data mining, dalam klasifikasi

    sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah di

    tentukan sebelumnya Naive Bayes adalah salah satu Algoritma Klasifikasi yang

    populer, Performa nave bayes yang kompetitif dalam proses klasifikasi walaupun

    menggunakan asumsi keidependenan atribut (tidak ada kaitan antar atribut). Asumsi

    keidependenan atribut ini pada data sebenarnya jarang terjadi, namun walaupun

    asumsi keidependenan atirbut tersebut dilanggar performa pengklasifikasian nave

    bayes cukup tinggi, hal ini dibuktikan pada berbagai penelitian empiris.

    Pada karya tulis ini penulis mencoba mengesplorasi alasan mengapa performa

    Algoritma Klasifikasi Nave Bayes memiliki performa yang bersaing dibandingkan

    dengan Algoritma-algoritma klasifikasi lainnya dengan cara melakukan penelitian

    teoritis terhadap algoritma Nave Bayes dalam tugas klasifikasi.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    4/31

    iv | P a g e

    DAFTAR ISI

    KATA PENGANTAR............................................................................................... iii

    DAFTAR ISI ................................................................................................................ iv

    ABSTRAKSI ................................................................................................................ 1

    BAB I PENDAHULUAN ............................................................................................. 2

    1.1 Latar Belakang .................................................................................................... 2

    1.2 Rumusan Masalah ............................................................................................... 5

    1.3 Batasan Masalah.................................................................................................. 5

    1.4 Tujuan dan Manfaat Penelitian ........................................................................... 5

    BAB II TELAAH PUSTAKA ...................................................................................... 6

    2.1 Pengklasifikasian dalamData Mining&Machine Learning............................. 6

    2.1.1 Pendefinisian istilah dalam klasifikasi ......................................................... 6

    2.1.2 Proses pembentukan model .......................................................................... 7

    2.2 Peluang Bersyarat dalam Statistika ..................................................................... 8

    2.3 Teorema Bayes dalam statistika ........................................................................ 10

    2.4 Teorema Bayes dalam Klasifikasi padaData Mining&Machine Learning.... 13

    2.4.1 Perkalian Kartesius(cartesian product) ...................................................... 14

    2.4.2 Contoh Teorema Bayes dalam Klasifikasi ................................................. 15

    2.4.3 Kekurangan Teorema Bayes dalam Klasifikasi ......................................... 16

    2.5 Algoritma Nave Bayes dalamData Mining&Machine Learning.................. 16

    2.5.1 Contoh Teorema Bayes dalam Klasifikasi ................................................. 17

    2.5.2 Perbandingan Teorema Bayes dan Nave Bayes dalam Nilai Probabilitasdan Nilai Klasifikasi ............................................................................................ 17

    BAB III METODOLOGI PENULISAN ..................................................................... 18

    BAB IV ANALISIS INTESIS .................................................................................... 19

    4.1 Bukti Nave Bayes tidak saja optimal pada asumsi idependen ......................... 19

    4.2 Keoptimalan Lokal ............................................................................................ 21

    4.3 Keoptimalan global ........................................................................................... 25

    BAB V KESIMPULAN .............................................................................................. 26

    DAFTAR PUSTAKA ................................................................................................. 27

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    5/31

    1 | P a g e

    ABSTRAKSI

    Nave Bayes adalah salah satu algoritma pembelajaran induktif yang paling efektif

    dan efisien untuk machine learning dan data mining. Performa nave bayes yang

    kompetitif dalam proses klasifikasi walaupun menggunakan asumsi keidependenan

    atribut (tidak ada kaitan antar atribut). Asumsi keidependenan atribut ini pada data

    sebenarnya jarang terjadi, namun walaupun asumsi keidependenan atirbut tersebut

    dilanggar performa pengklasifikasian nave bayes cukup tinggi, hal ini dibuktikan

    pada berbagai penelitian empiris.

    Pada paper ini, penulis akan memaparkan penggunaan nave bayes dalam tugas

    klasifikasi data, membuktikan potensi nave bayes untuk digunakan dalam data yang

    memiliki korelasi antara atribut dan mengajukan penjelasan mengenai keoptimalan

    nave bayes dalam kondisi tertentu.

    Kata Kunci : Bayesian Theorem, Nave Bayes, Data Mining, Classification, OptimalClassification.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    6/31

    2 | P a g e

    BAB I PENDAHULUAN

    1.1 Latar Belakang

    Klasifikasi adalah salah satu tugas yang penting dalam data mining, dalam klasifikasi

    sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah di

    tentukan sebelumnya. Performa pengklasifikasi biasanya diukur dengan ketepatan

    (atau tingkat galat) [6].Teorema Bayes adalah teorema yang digunakan dalam statistika untuk menghitung

    peluang untuk suatu hipotesis, Bayes Optimal Classifier [2] menghitung peluang dari

    suatu kelas dari masing-masing kelompok atribut yang ada, dan menentukan kelas

    mana yang paling optimal.

    Umumnya kelompok atributEdirepresentasikan dengan sekumpulan nilai atribut

    (x1,x2,x3,.,xn) dimanaxiadalah nilai atributXi. Cadalah variable klasifikasi dan c

    adalah nilai dari C.

    Pengklasifikasian adalah sebuah fungsi yang menugaskan data tertentu kedalam

    sebuah kelas. Dari sudut pandang peluang [7], berdasarkan aturan Bayes kedalam

    kelas cadalah :

    Untuk menentukan pilihan kelas, digunakan peluang maksimal dari seluruh cdalam

    C, dengan fungsi :

    Karena nilai konstan untuk semua kelas, maka dapat diabaikan. sehingga

    menghasilkan fungsi :

    (1)

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    7/31

    3 | P a g e

    Gambar 1 : Ilustrasi Teorema Bayes.

    Pengklasifikasian menggunakan Teorema Bayes ini membutuhkan biaya komputasi

    yang mahal (waktu prosessor dan ukuran memory yang besar) karena kebutuhan

    untuk menghitung nilai probabilitas untuk tiap nilai dari perkalian kartesius untuk

    tiap nilai atribut dan tiap nilai kelas.

    Data latih untuk Teorema Bayes membutuhkan paling tidak perkalian kartesius dari

    seluruh kelompok atribut yang mungkin, jika misalkan ada 16 atribut yang masing-

    masingnya berjenis Boolean tanpa missing value, maka data latih minimal yang

    dibutuhkan oleh Teorema Bayes untuk digunakan dalam klasifikasi adalah 216=

    65.536 data, sehingga ada 3 masalah yang dihadapi untuk menggunakan teoremaBayes dalam pengklasifikasian, yaitu :

    (1)kebanyakan data latih tidak memiliki varian klasifikasi sebanyak itu (oleh

    karenanya sering diambil sample)

    (2)jumlah atribut dalam data sample dapat berjumlah lebih banyak (lebih dari 16)

    (3)jenis nilai atribut dapat berjumlah lebih banyak [lebih dari 2Boolean]

    terlebih lagi untuk jenis nilai atribut yang bersifat tidak terbatas 1 - seperti

    numeric dan kontiniu.

    (4)jika suatu dataXtidak ada dalam data latih, maka dataXtidak dapat di

    klasifikasikan, karena peluang untuk dataXdi klasifikasikan kedalam suatu

    kelas adalah sama untuk tiap kelas yang ada.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    8/31

    4 | P a g e

    Untuk mengatasi berbagai permasalahan diatas, berbagai varian dari

    pengklasifikasian yang menggunakan Teorema Bayes diajukan, salah satunya adalah

    Nave Bayes, yaitu penggunaan Teorema Bayes dengan asumsi keidependenan

    atribut. Asumsi keidependenan atribut akan menghilangkan kebutuhan banyaknya

    jumlah data latih dari perkalian kartesius seluruh atribut yang dibutuhkan untuk

    mengklasifikasikan suatu data [4].

    (2)

    Gambar 2 : Ilustrasi Nave Bayes.

    Dampak negative dari asumsi Nave tersebut adalah keterkaitan yang ada antara nilai-nilai atribut diabaikan sepenuhnya. Dampak ini secara intuitif akan berpengaruh

    dalam pengklasifikasian, namun percobaan empiris mengatakan sebaliknya. Hal ini

    tentu saja cukup mengejutkan, karena dalam pengaplikasian dunia nyata, asumsi

    diabaikannya keterkaitan antara atribut selalu dilanggar [1].

    Pertanyaan yang muncul adalah apakah yang menyebabkan baiknya performa yang

    didapatkan dari pengaplikasian asumsi Nave ini? Karena secara intuitif, asumsi

    keidependenan atribut dalam dunia nyata hampir tidak pernah terjadi. Seharusnya

    dengan asumsi tersebut performa yang dihasilkan akan buruk.

    Domingos dan Pazzani (1997) pada papernya untuk menjelaskan performa Nave

    Bayes dalam fungsi zero-one loss. Fungsi zero-one loss ini mendefinisikan error

    hanya sebagai pengklasifikasian yang salah. Tidak seperti fungsi error yang lain

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    9/31

    5 | P a g e

    seperti squared error, fungsi zero-one loss tidak memberi nilai suatu kesalahan

    perhitungan peluang selama peluang maksimum ditugaskan kedalam kelas yang

    benar. Ini berarti bahwa Nave Bayes dapat mengubah peluang posterior dari tiap

    kelas, tetapi kelas dengan nilai peluang posterior maksimum jarang diubah. Sebagai

    contoh, diasumsikan peluang sebenarnya dari dan ,

    sedangkan peluang yang dihasilkan oleh Nave Bayes adalah dan

    . nilai peluang tersebut tentu saja berbeda jauh, namun pilihan kelas

    tetap tidak terpengaruh.

    1.2 Rumusan MasalahMenentukan metode yang sesuai dalam mengklasifikasikan nasabah yang

    good credit risk.

    1.3 Batasan MasalahBatasan masalah dari penelitian ini adalah bahwa penelitian ini sebatas

    analisis area keoptimalan algoritma pengklasifikasi Nave Bayes tidak terbatas

    kepada jenis data yang akan di klasifikasikan.

    1.4 Tujuan dan Manfaat PenelitianTujuan dari penelitian ini adalah untuk mengesplorasi batasan-batasan

    keoptimalan algoritma klasifikasi Nave Bayes dan mencoba menjelaskan mengenai

    alasan mengapa algoritma klasifikasi Nave Bayes berfungsi dengan baik pada

    berbagai jenis data.

    Manfaat dari penelitian ini adalah: Menjelaskan keoptimalan algoritma klasifikasi

    Nave Bayes.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    10/31

    6 | P a g e

    BAB II TELAAH PUSTAKA

    Untuk memulai penelitian ini, kajian pustaka dilakukan terhadap seluruh aspek yang

    berhubungan dengan penelitian yang dilakukan, aspek-aspek tersebut adalah :

    1. Pengklasifikasian dalamData Mining&Machine Learning

    2. Peluang Bersyarat dalam Statistika

    3. Teorema Bayes dalam Statistika

    4. Teorema Bayes dalam Klasifikasi padaData Mining&Machine Learning

    5. Algoritma Nave Bayes dalamData Mining&Machine Learning

    Asdf

    2.1 Pengklasifikasian dalam Data Mining& Machine Learning

    Klasifikasi adalah salah satu tugas yang penting dalam data mining, dalam klasifikasi,

    sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah ditentukan

    sebelumnya.

    Klasifikasi data adalah proses dua langkah. Pada langkah pertama, sebuah model

    dibangun menggambarkan sebuah kumpulan kelas data atau konsep dari populasi data yang telah

    ditentukan sebelumnya (misalkan data pengajuan pinjaman bank). Model tersebut dibangun

    dengan menganalisa data latih yang digambarkan oleh atribut-atribut. Tiap tuple di asumsikan

    untuk dimiliki oleh kelas yang telah di tentukan, seperti di tentukan oleh salah satu atribut, yang

    dinamakan class label attri bute. Langkah kedua adalah menguji model yang telah dibangun

    kepada data uji untuk mengukur ketepatan atau performa model dalam mengklasifikasi data uji.

    Setelah pengukuran performa selesai dilakukan, pengambil keputusan dapat memutuskan untuk

    menggunakan model tersebut atau mengulang pembuatan model dengan data latih atau metode

    yang berbeda untuk menghasilkan model klasifikasi yang lebih baik.

    2.1.1 Pendefinisian istilah dalam klasifikasi

    Pada gambar 1, contoh yang digunakan adalah data pengajuan pinjaman bank, dengan

    atribut-atribut nama, umur, pendapatan dan rating kredit dengan nama, umur, pendapatan

    sebagai data tuple dan seterusnya akan disebut sebagai atribut saja, sedangkan atribut rating

    kreditsebagai class label atributedimana seterusnya akan disebut sebagai kelas. Nilai-nilai yang

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    11/31

    7 | P a g e

    terdapat dalam data (seperti nama = Frank Jones, umur = >40, pendapatan = Tinggi, dan

    rating_kredit = baik) disebut sebagai kumpulan nilai atribut, dimana seterusnya akan disebut

    sebagai kumpulan atribut saja. Aturan Klasifikasiyang dibuat dari kumpulan-kumpulan atribut

    pada data pelatihandanAlgoritma Klasifikasidisebut sebagai model klasifikasi.

    2.1.2 Proses pembentukan model

    Motode-metode klasifikasi dan prediksi dapat di bandingkan dan dievaluasi berdasarkan kriteria-

    kriteria berikut :

    Predictive accuracy: adalah kemampuan model untuk secara benar memprediksikan label

    kelas dari data baru atau yang belum pernah di temui sebellumnya.

    Speed: adalah biaya komputasi yang dilibatkan dalam menggenerate dan menggunakan

    model.

    Robustness: adalah kemampuan model untuk membuat prediksi yang tepat terhadap data

    yang cacat atau data dengan nilai yang hilang.

    Scalability: adalah kemampuan untuk membuat model secara efisien terhadap data yang

    berjumlah banyak.

    Gambar 1: Ilustrasi proses klasifikasi.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    12/31

    8 | P a g e

    Interpretability: adalah tingkat kejelasan dan kemengertian yang di berikan oleh model.

    Hal-hal tersebut diatas akan didiskusikan dalam bab ini. Kontribusi komunitas peneliti

    database kepada klasifikasi dan prediksi untuk data mining menegaskan pada aspek skalabilitas,

    khususnya pada induksi pohon keputusan.

    2.2 Peluang Bersyarat dalam Statistika

    Dua peristiwa dikatakan mempunyai hubungan bersyarat jika peristiwa yang satu menjadi

    syarat peristiwa yang lain. Contohnya adalah peluang suatu kejadian c bila diketahui bahwa

    kejadian E telah terjadi, dinyatakan dengan P(c|E), atau dengan kata lain peluang bersyarat untuk

    terjadinya peristiwa c dengan syarat E. Lambang P(c|E) biasanya dibaca peluang c terjadi bila

    diketahui E terjadi atau lebih sederhana lagi peluang c, bila E diketahui.

    Dari penjelasan singkat diatas mungkin anda telah mengetahui bahwa penghitungan dilakukan

    dengan operasi Irisan Himpunan (intersection) dengan lambang , ataudengan operator logika

    konjungsi (dan) dengan lambang , irisan dan konjungsi dilakukan terhadap nilai himpunan c

    dan E.

    Diagram Venn untuk E c

    Gambar 3: Diagram Venn untuk E c

    Table 1: Tabel kebenaran untuk E c.

    E c E c1 1 1

    1 0 0

    0 1 0

    0 0 0

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    13/31

    9 | P a g e

    Namun jika hanya dengan operator-operator tersebut, penghitungan peluang yang terjadi

    bukanlah penghitungan peluang bersyarat, untuk penghitungan peluang bersyarat kita

    membutuhkan peluang nisbi dari E, yaitu peluang E dan c muncul ditambah peluang E dan

    cmuncul, ditambah E dan c muncul, dst. Atau dengan kata lain peluang E muncul pada masing-

    masing kasus c. Rumusnya dapat di tuliskan sebagai berikut :

    (P(E c)+P(E c)+P(E c)+..+P(E cn)).

    Nilai peluang bersyarat P(c|E) di dapatkan dari nilai irisan atau konjungsi dari E dan c dibagi

    dengan Peluang nisbi dari E. didapatkanlah rumus :

    Catatan : Karena pada kasus data mining kebanyakan data yang dikomputasi berbentuk himpunan, maka disini dan seterusnya akan digunakan

    operator irisan himpunan untuk mendefinisikan rumus peluang bersyarat.

    Contoh Peluang Bersyarat

    Untuk mempermudah pemahaman perhatikan contoh

    soal jika data-datanya sebagai berikut,

    Carilah peluang seorang pelanggan membeli

    komputer dengan syarat Pendapatan pelanggan

    tersebut Sedang.

    Jawaban :

    c : Beli Komputer = Ya.

    c : Beli Komputer = Tidak.

    E : Pendapatan = sedang.

    P(c|E) = P(membeli komputer = ya | pendapatan = sedang).

    ID Pendapatan Beli Komputer

    1 Tinggi Tidak

    2 Tinggi Tidak

    3 Tinggi Ya

    4 Sedang Ya

    5 Rendah Ya

    6 Rendah Tidak

    7 Rendah Ya

    8 Sedang Tidak

    9 Rendah Ya

    10 Sedang Ya

    11 Sedang Ya

    12 Sedang Ya

    13 Tinggi Ya

    14 Sedang Tidak

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    14/31

    10 | P a g e

    P(E) adalah peluang nisbi pelanggan berpendapatan sedang, yaitu peluang pelanggan

    berpendapatan sedang yang membeli komputer ditambah pelanggan berpendapatan

    sedang yang tidak membeli komputer. P(E c)+P(E c) = (4/14)+(2/14) = 6/14.

    P(E c) adalah pelanggan yang berpendapatan sedang membeli komputer = 4/14.

    Yaitu pelanggan yang berpendapatan sedang 2/3-nya akan membeli komputer, yaitu 66.6%

    kemungkinan bahwa pelanggan berpendapatan sedang membeli komputer.

    Untuk peluang pelanggan berpendapatan sedang Tidak membeli komputer, peluangnya dihitung

    dengan :

    Sedangkan untuk peluang pelanggan yang berpendapatan tinggi dan rendah membeli komputer,

    nilainya secara berurut adalah 2/4 dan 3/4.

    2.3 Teorema Bayes dalam statistikaTeorema bayes dinamakan berdasarkan Thomas Bayes yang pertama kali mengemukakan

    teorema ini.

    MisalkanEadalah kumpulan atribut. Dalam sudut pandang Bayesian,E diartikan sebagai

    Bukti. Seperti biasaEdi deskripsikan oleh pengukuran yang dibuat dari sebuah kumpulan

    atribut berjumlah n.

    Misalkan Cadalah beberapa kelas. Untuk masalah klasifikasi, kita ingin menentukanP(c|E),

    yaitu probabilitas bahwa hipotesis kelas cadalah benaruntuk bukti atau data observasi

    kumpulan atribut dataE. dengan kata lain, kita mencari probabilitas bahwa kumpulan atributE

    termasuk kepada kelas C, dengan kita mengetahui gambaran atribut dariE.

    P(c|E) adalahProbabilitas Posterior*, atau sebuahProbabilitas Posteriori, dari c yang diujikan

    padaE. sebagai contoh, misalkan dunia tuple data kita dibatasi oleh data pelanggan dengan

    atribut umur dan pendapatan, danEadalah pelanggan dengan umur 35 tahun dengan pendapatan

    Rp 4.000.000. Misalkan cadalah Hypotesis bahwa pelanggan akan membeli sebuah komputer.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    15/31

    11 | P a g e

    Maka P(c|E) merefleksikan probabilitas bahwa pelanggan E (dengan atribut umur=35 thn,

    pendapatan Rp 4.000.000) akan membeli sebuah komputer dengan informasi yang didapatkan

    berupa umur dan pendapatan pelanggan.

    Secara kontras, P(c) adalahProbabilitas Prior***, atauProbabilitas Priori, dari c. sebagai

    contoh, ini adalah probabilitas bahwa pelanggan manapun akan membeli sebuah komputer atau

    tidak, tidak memandang dari umur, pendapatan ataupun informasi lainnya :

    Jumlah data = 14

    c1 = Membeli Komputer = ya

    c2 = Membeli Komputer = tidak

    Dari 14 data, yang membeli_komputer=ya= 9 orang, dan yang t idak membeli_komputer = tidak = 5 orang. Maka P(C) adalah :

    P(c1) = P(Membeli_Komputer = ya) = 9 /14 = 0.643

    P(c2) = P(Membeli_Komputer = tidak) = 5/14 = 0.357

    Sama halnya, P(E|c) adalah Probabilitas Posteriori dari E yang diujicobakan dengan Kelas c.

    yaitu probabilitas bahwa sebuah pelanggan, E, berumur 35 thn(3140) dengan pendapatan

    $40K (sedang) :

    Jumlah data = 14

    c1 = Membeli Komputer = ya

    c2 = Membeli Komputer = tidak

    Dari 14 data, yang membeli_komputer=ya= 9 orang, dan yang t idak membeli_komputer = tidak = 5 orang

    E1 = Pelanggan berumur 3140 thn yang Membeli_komputer = ya berjumlah 4 orang.

    E2 = Pelanggan berumur 3140 thn yang Membeli_komputer = tidakberjumlah 0 orang.

    E3 = Pelanggan dengan pendapatan sedang yang membeli_komputer = ya berjumlah 4 orang.

    E4 = Pelanggan dengan pendapatan sedang yang membeli_komputer = tidak berjumlah 2 orang.

    Maka P(E|C) adalah :P(E1|c1) = P( umur = 3140 | beli_komputer = ya) = 4/9 = 0.444

    P(E2|c2) = P( umur = 3140 | beli_komputer = tidak) = 0/5 = 0

    P(E3|c1) = P( pendapatan = sedang | beli_komputer = ya) = 4/9 = 0.444

    P(E4|c2) = P( pendapatan = sedang | beli_komputer = tidak) = 2/5 = 0.4

    P(X) adalah Probabilitas Prior dari X. menggunakan contoh diatas, adalah probabilitas bahwa

    seseorang dari kumpulan pelanggan adalah berumur 35 thn dan berpenghasilan $40K :

    Jumlah Data = 14

    Dari 14 data, pelanggan dengan umur 3140 = 4 orang, 40 = 5 orang.

    Pelanggan dengan pendapatan sedang = 6 orang, rendah = 4 orang dan tinggi = 4 orang.

    P(X11) = P( umur = 3140 ) = 4/14 = 0.285P(X21) = P( Pendapatan = sedang) = 6/14 = 0.428

    Untuk nilai atribut lain (selain diatas), dihitung dengan cara yang sama:

    P(X12) = P( umur = 40 ) = 5/14 = 0.537

    P(X22) = P( pendapatan = rendah ) = 4/14 = 0.285

    P(X23) = P( pendapatan = tinggi ) = 4/14 = 0.285

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    16/31

    12 | P a g e

    Bagaimanakan probabilitas-probabilitas tersebut di estimasi? P(H), P(X|H) dan P(X) dapat di

    estimasi dari data yang diberikan, seperti akan kita lihat di bawah. Teorema Bayes berguna

    dalam menyediakan sebuah cara untuk mengkalkulasi Probabilitas Posterior P(H|X) dari P(H),

    P(X) dan P(H|X). Teorema bayes adalah :

    Untuk lebih memahami pengertian-pengertian yang sulit diatas, mari kita amati sebuah contoh

    kasus.

    Contoh Pengklasifikasian 2 kelas:

    Pada suatu universitas, mahasiswanya terdiri dari 60% Laki-laki dan 40% Perempuan.

    Mahasiswa perempuan menggunakan rok atau celana panjang dengan perbandingan yang sama.

    Sedangkan seluruh mahasiswa Laki-laki menggunakan celana panjang. Seorang pengamatmelihat seorang mahasiswa (acak) dari kejauhan. Yang dapat di lihat pengamat tersebut adalah

    bahwa mahasiswa tersebut menggunakan celana panjang. Berapakah probabilitas mahasiswa

    yang dilihat oleh pengamat tersebut adalah mahasiswa perempuan?

    Jawaban :

    Jelas bahwa probabilitasnya kurang dari 40%, tetapi berapakah tepatnya? Apakah setengahnya,

    karena hanya setengah mahasiswa Perempuan yang menggunakan celana panjang? Jawaban

    yang benar dapat dihitung dengan teorema bayes.

    Hipotesis H adalah mahasiswa yang diamati adalah Perempuan, dan bukti X adalah mahasiswa

    yang diamati menggunakan celana panjang. Untuk menghitung P(H|X), pertama-tama kita harus

    mengetahui:

    P(H), atau probabilitas bahwa mahasiswa tersebut adalah perempuan, tanpa memandang

    informasi lainnya. Karena pengamat mengamati seorang mahasiswa secara acak, artinya

    seluruh mahasiswa memiliki probabilitas yang sama untuk diamati, dan banyaknya

    mahasiswa perempuan adalah 40%, maka probabilitasnya adalah 0.4.

    P(H), atau probabilitas bahwa mahasiswa tersebut adalah Laki-laki, tanpa memandang

    informasi lainnya (H adalah komplemen dari H). Banyaknya mahasiswa laki-laki adalah

    60%, maka probabilitasnya adalah 0.6.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    17/31

    13 | P a g e

    P(X|H), atau probabilitas bahwa mahasiswa yang diamati menggunakan celana panjang

    adalah perempuan. Karena mahasiswa perempuan menggunakan Rok dan celana panjang

    dengan perbandingan yang sama(50%), maka probabilitasnya adalah 0.5.

    P(X|H), atau probabilitas bahwa mahasiswa yang diamati menggunakan celana panjang

    adalah laki-laki. Karena seluruh laki-laki di universitas tersebut menggunakan celana

    panjang(100%), maka probabilitasnya adalah 1.

    P(X), atau probabilitas dari seorang mahasiwa (yang dipilih secara acak) menggunakan

    celana panjang, tanpa memandang informasi lainnya. Karena P(X) =

    P(X|H)P(H)+P(X|H)P(H), maka nilainya adalah (0.5 0.4) + (1 0.6) = 0.8.

    Seperti yang telah di ramalkan sebelumnya, probabilitasnya kurang dari 40%. Tepatnya 25%.

    Cara lainnya untuk mendapatkan hasil yang sama sebagai berikut.

    Dimisalkan pada universitas tersebut ada 100 orang mahasiswa, 60 mahasiswa laki-laki dan 40

    mahasiswa perempuan. Diantara seluruh mahasiswa ini, 60 mahasiswa laki-laki dan 20

    mahasiswa perempuan menggunakan celana panjang, berarti yang menggunakan celana panjang

    berjumlah 80 orang, dengan 20 diantaranya perempuan. Oleh karenanya kemungkinan

    mahasiswa yang menggunakan celana panjang adalah perempuan sama dengan 20/80 = 0.25

    2.4 Teorema Bayes dalam Klasifikasi pada Data Mining& Machine LearningPengklasifikasian adalah sebuah fungsi yang menugaskan data atau kelompok atribut tertentu

    kedalam sebuah kelas. Dari sudut pandang peluang [7], berdasarkan aturan Bayes kedalam kelas

    cadalah :

    Untuk menentukan pilihan kelas, digunakan peluang maksimal dari seluruh cdalam C, dengan

    fungsi :

    Karena nilai konstan untuk semua kelas, maka dapat diabaikan. sehingga

    menghasilkan fungsi :

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    18/31

    14 | P a g e

    (1)

    Gambar 4 : Ilustrasi Teorema Bayes.

    Pengklasifikasian menggunakan Teorema Bayes ini membutuhkan biaya komputasi yang mahal

    (waktu prosessor dan ukuran memory yang besar) karena kebutuhan untuk menghitung nilai

    probabilitas untuk tiap nilai dari perkalian kartesius untuk tiap nilai atribut dan tiap nilai kelas.

    2.4.1 Perkalian Kartesius(cartesian product)

    Perkalian Kartresian digunakan karena merupakan salah satu operasi dasar dalam

    Himpunan.

    Himpunan digunakan untuk mengelompokkan objek secara bersama-sama. [Matematika

    Diskrit, Rinaldi Munir 2005]

    Operasi dari Perkalian Kartesius adalah operasi menghubungkan tiap elemen dari suatuhimpunan atribut dengan tiap elemen dari himpunan atribut lainnya.

    Contoh :

    Himpunan atribut A memiliki anggota : {1,2}

    Himpunan atribut B memiliki anggota : {a, b, c}

    Himpunan atribut C memiliki anggota : {x, y}

    Kardinalitas A x B x C, yaitu |A x B x C| = |A|.|B|.|C| = 2.3.2 = 12.

    Semua anggota dari elemen A x B x C dapat di peroleh dengan bantuan pohon berikut :

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    19/31

    15 | P a g e

    Jadi, A x B x C = {(1, a, x), (1, a, y), (1, b, x), (1, b, y), (1, c, x), (1, c, y), (2, a, x), (2, a,

    y), (2, b, x), (2, b, y), (2, c, x) , (2, c, y)}

    2.4.2 Contoh Teorema Bayes dalam Klasifikasi

    Pelamar IPK Psikologi Wawancara Diterima

    P1 Bagus Tinggi Baik Ya

    P2 Bagus Tinggi Baik Ya

    P3 Bagus Tinggi Baik Tidak

    P4 Bagus Sedang Baik Ya

    P5 Bagus Sedang Buruk YaP6 Bagus Rendah Buruk Tidak

    P7 Cukup Tinggi Baik Ya

    P8 Cukup Sedang Baik Ya

    P9 Cukup Sedang Buruk Ya

    P10 Cukup Rendah Buruk Tidak

    P11 Kurang Tinggi Baik Ya

    P12 Kurang Sedang Buruk Tidak

    P13 Kurang Rendah Baik YaTable 2 : Data Latih Wawancara

    Kelompok Atribut E adalah IPK = Bagus, Psikologi = Tinggi, Wawancara = Baik, Kelas-kelas C

    adalah c1 = diterima, c2 = ditolak. maka kelas kelompok atribut E adalah :

    Class Name =Penerimaan Pegawai

    Class label attribute =Diterima [ Ya | Tidak ]

    Identifier =Pelamar

    Atribut dan Anggota atribut =1.IPK [ Bagus | Cukup | Kurang ]

    2.

    Psikologi [ Rendah | Sedang | Tinggi

    3.

    Wawancara [ Baik | Buruk ]

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    20/31

    16 | P a g e

    Karena yang dipilih adalah nilai yang terbesar, maka kelompok atribut E ditugaskan pada kelas

    c1.

    2.4.3 Kekurangan Teorema Bayes dalam KlasifikasiData latih untuk Teorema Bayes membutuhkan paling tidak perkalian kartesius dari seluruh

    kelompok atribut yang mungkin, jika misalkan ada 16 atribut yang masing-masingnya berjenis

    Boolean [0,1] tanpa missing value, maka data latih minimal yang dibutuhkan oleh Teorema

    Bayes untuk digunakan dalam klasifikasi adalah 216= 65.536 data, sehingga ada 3 masalah yang

    dihadapi untuk menggunakan teorema Bayes dalam pengklasifikasian, yaitu :

    (1)kebanyakan data latih tidak memiliki varian klasifikasi sebanyak itu (oleh karenanya

    sering diambil sample)

    (2)jumlah atribut dalam data sample dapat berjumlah lebih banyak (lebih dari 16)

    (3)

    jenis nilai atribut dapat berjumlah lebih banyak [lebih dari 2Boolean] terlebih lagi

    untuk jenis nilai atribut yang bersifat tidak terbatas 1 - seperti numeric dan kontiniu.

    jika suatu dataXtidak ada dalam data latih, maka dataXtidak dapat di klasifikasikan, karena

    peluang untuk dataXdi klasifikasikan kedalam suatu kelas adalah sama untuk tiap kelas yang

    ada.

    2.5 Algoritma Nave Bayes dalam Data Mining& Machine Learning

    Untuk mengatasi berbagai permasalahan diatas, berbagai varian dari pengklasifikasian

    yang menggunakan Teorema Bayes diajukan, salah satunya adalah Nave Bayes, yaitu

    penggunaan Teorema Bayes dengan asumsi keidependenan atribut. Asumsi keidependenan

    atribut akan menghilangkan kebutuhan banyaknya jumlah data latih dari perkalian kartesius

    seluruh atribut yang dibutuhkan untuk mengklasifikasikan suatu data [4].

    (2)

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    21/31

    17 | P a g e

    Gambar 5 : Ilustrasi Nave Bayes.

    2.5.1 Contoh Teorema Bayes dalam Klasifikasi

    Pada table 2, Kelompok Atribut E adalah e1 IPK = Bagus, e2 Psikologi = Tinggi, e3 Wawancara

    = Baik, Kelas-kelas C adalah c1 = diterima, c2 = ditolak. maka kelas kelompok atribut E adalah :

    Karena yang dipilih adalah nilai yang terbesar, maka kelompok atribut E ditugaskan pada c1.

    2.5.2 Perbandingan Teorema Bayes dan Nave Bayes dalam Nilai Probabilitas dan

    Nilai Klasifikasi

    Nilai Peluang atau probabilitas biasanya digunakan sebagai nilai acuan didalam pengambilan

    keputusan, namun berbeda halnya dengan klasifikasi. Pada klasifikasi nilai probabilitas kelas

    yang terbesar yang dipilih untuk mengklasifikasikan suatu kelompok atribut terhadap kelas-kelas

    lainnya.

    Kelas c1 = Diterima Kelas c2 = Ditolak

    Teorema Bayes= 72/468= (72/468)/(72/468+36/468)= 2/3 = 66.666%

    = 36/468= (36/468)/(72/468+36/468)= 1/3 = 33.333%

    Nave Bayes2160/28561=(2160/28561)/( 2160/28561+960/28561)= 2160/3120 = 9/13 = 69.230%

    960/28561=(960/28561)/( 2160/28561+960/28561)=960/3120 = 4/13 = 30.769%

    Tabel 3 menunjukkan perbandingan nilai probabilitas pada data latih di table 2 untuk Kelompok

    Atribut E untuk e1 IPK = Bagus, e2 Psikologi = Tinggi, e3 Wawancara = Baik, Kelas-kelas C

    adalah c1 = diterima, c2 = ditolak. Walaupun nilai peluang yang diperhitungkan bernilai salah,

    namun pemilihan kelas tetap sama, yaitu ditunjukkan untuk nilai probabilitas yang terbesar pada

    kelas c1.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    22/31

    18 | P a g e

    BAB III METODOLOGI PENULISAN

    Metode peneleitian dilakukan dengan cara studi pustaka secara menyeluruh dan komprehensif.

    Dalam menganalisis nilai keoptimalan, dilakukan pembandingan studi empiris dengan

    membandingkan 28 test set yang diambil dari repository data latih UCI (Hans 2000) untuk

    pembuktian perbandingan nilai keoptimalan algoritma Nave Bayes dibandingkan dengan

    Algoritma Klasifikasi Data Mining yang lain.

    Untuk niali keoptimalan sendiri, telah dinyatakan bahwa Nave Bayes Bersifat optimal dalam

    kondisi atribut bersifat Independen penuh [2,4,5], untuk itu dilakuakan perbandingan dengan

    cara mengemulasi kondisi Keindependenan Atribut penuh dengan kondisi Atribut yang tidak

    Independen, hasil dari pembandingan ini membuktikan bahwa Kondisi keoptimalan Nave Bayes

    lebih luas daripada yang dikira sebelumnya.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    23/31

    19 | P a g e

    BAB IV ANALISIS INTESIS

    4.1 Bukti Nave Bayes tidak saja optimal pada asumsi idependen

    Seperti yang telah di ketahui bahwa nave Bayes bernilai optimal ketika seluruh atribut

    bernilai independen terhadap atribut lainnya. Pada bagian ini akan dibandingkan antara

    nilai nave bayes yang seluruh atribut independen terhadap atribut lainnya dan nilai

    nave bayes yang tidak seluruh atributnya independen.

    Misalkan sebuah data latih, dengan atributA,Bdan Cyang bersifat Boolean, dan kelas

    dan , dengan peluang yang sebanding untuk tiap kelas . Adan

    Bberkorelasi penuh (A=B), sehinggaBdapat diabaikan.

    Prosedur klasifikasi optimal untuk sebuah data tuple adalah untuk menugaskan data

    tuple tersebut kedalam kelas jika :

    Kelas positif :

    Dan sebaliknya, menugaskan kelompok atribut kepada kelas jika :

    Kelas negatif :

    Kelas acak :

    Sedangkan prosedur klasifikasi Nave Bayes yang tidak optimal memperhitungkan juga

    nilaiBseperti halnya nilaiBsama sekali tidak berkorelasi dengan nilaiA. hal ini sama

    dengan menghitung nilaiAdua kali. Untuk nave bayes rumusnya adalah :

    Kelas positif :

    Kelas negatif :

    Kelas Acak :

    Dengan mengaplikasikan nave bayes untuk pengklasifikasian yang optimal, maka

    dapat di representasikan sebagai

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    24/31

    20 | P a g e

    Karena , maka nilai dan tidak perlu dihitung dan dapat

    diabaikan dalam perhitungan, nilaiP(A)danP(C)juga mengeliminasi satu sama lainnya

    dalam operasi pengurangan, sehingga nilaiP(A)dan nilaiP(C)tidak perlu di hitung,

    sehingga setelah pengeliminasian perhitungan yang tidak di perlukan dan didapatkan :

    Untuk perhitungan korelasi optimal.

    Sedangkan untuk perhitungan korelasi dengan Nave Bayes :

    Karena dalam peluang nilai peluang maksimal adalah 1, maka dapat dituliskan

    P( |A) + P( |C) = 1

    P( |A) =1 - P( |C)

    Misalkan P( |A) = p dan P( |C) = q

    Sehingga rumusnya menjadi

    untuk nilai peluang optimal dengan asumsi keidependenan atribut.

    untuk nilai peluang nave bayes tanpa

    keidependenan atribut.

    Kedua kurva fungsi diatas digambarkan sebagai berikut :

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    25/31

    21 | P a g e

    Gambar : Kurva Perbandingan Naive Bayes

    Kurva diatas memperlihatkan bahwa walaupun asumsi keidependenan atribut dilanggar,

    karenaB=A, pengklasifikasian nave bayes dengan asumsi atribut yang tidak independen

    tidak sama dengan pengklasifikasian naive bayes optimal dengan keidependenan atribut

    hanya di dua bagian sempit, satu diatas kurva dan satu lagi dibawah, di tempat lain,

    nave bayes menghasilkan klasifikasi yang benar, yaitu pada (0,1) ( , ,) (1,0) ini

    menunjukkan bahwa penggunaan klasifikasi nave bayes bisa lebih luas daripada yang

    dikira sebelumnya.

    4.2 Keoptimalan Lokal

    Keoptimalan lokal adalah nilai keoptimalan yang didapatkan untuk sebuah kumpulan

    atribut saja, sedangkan keoptimalan global adalah untuk seluruh kumpulan atribut.

    Sebelumnya didefinisikan beberapa hal :

    Definisi 1

    Misalkan C(E) adalah kelas sebenarnya dari contoh E, dan Cx(E) adalah kelas

    yang di tugaskan oleh pengklasifikasi X, maka zero-one loss dari Xpada E,

    didefinisakan sebagai :

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    26/31

    22 | P a g e

    (3)

    Zero-one lossadalah ukuran yang tepat jika tugas yang harus dilakukan adalah

    klasifikasi. Dimanazero-one lossmemberikan ukuran nilai 1 kepada kesalahan

    pengklasifikasian. Pada situasi tertentu, kesalahan pengklasifikasian memiliki ukuran

    prioritas yang berbeda, sebagai contohnya, pada diagnosa medis, ukuran kesalahan

    mengklasifikasikan seorang pasien yang sakit sebagai sehat berbeda dengan

    mengklasifikasikan pasian sehat sebagai sakit.

    Umumnya, seringkali muncul data latih dengan nilai kelompok atribut yang sama tetapi

    memiliki kelas yang berbeda. Ini merefleksikan fakta bahwa atribut-atribut tersebut

    tidak mengandung seluruh informasi untuk menentukan kelas. Maka, secara umum,

    sebuah data latihEtidak akan dihubungkan dengan suatu kelas saja, tetapi denganpeluang kelasP(Ci|E)yang berbentuk vektor, dimana komponen keImerepresentasikan

    perbandingan nilai munculnyaEpada kelas Ci. Ukuran Kesalahan zero-one loss dariX

    padaEadalah :

    Dimana adalah kelas yang ditugaskanXkepadaEdan adalah

    keakuratan dariXpadaE. definisi ini disederhanakan menjadi persamaan 3 saat sebuah

    kelas memiliki probabilitas 1 diberikanE.

    Definisi 2 :

    Ukuran bayes untuk sebuah data latih adalah nilai galat zero-one lossyang

    terendah yang didapatkan dari pengklasifikasian manapun pada data latih

    tersebut [1].

    Definisi 3:

    sebuah pengklasifikai adalah optimal secara lokal untuk sample jika dan hanya

    jika nilai zero-one loss pada sample tersebut adalah sama dengan ukuran bayes.

    Definisi 4:

    Sebuah pengklasifikasi adalah optimal secara global untuk sample jika dan hanya

    jika pengklasifikasian tersebut bernilai optimal untuk tiap sample pada kumpulan

    sample tersebut. Sebuah pengklasifikasi adalah optimal secara global untuk sebuah

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    27/31

    23 | P a g e

    masalah jika dan hanya jika pengklasifikasi tersebut optimal secara lokal untuk

    tiap sample yang mungkin dari masalah tersebut.

    Zero one lossharus dibedakan dengansquared error lossuntuk perhitungan galat

    peluang, perbedaan ini didifenisikan sebagai :

    DimanaXadalah prosedur hampiran dan Cadalah variable kelas dimana peluangnya

    ingin dicari. Jika ada ketidakpastian yang berhubungan denganP(C|E),square error

    lossdidefinisikan sebagai nilai yang diharapkan dari expresi diatas. Fikiran utama dari

    paper ini, di deskripsikan pada bagian ini, yang dapat dijelaskan sebagai berikut. Saat

    asumsi independen dilanggar, persamaan 2 akan menjadi suboptimal sebagai

    probabilitas.

    Sebagai contoh, misalkan ada dua kelas, yaitu kelas dan , dan dan

    sebagai nilai peluang kedua kelas yang sebenarnya. Klasifikasi optimal

    adalah menugaskanEkepada kelas . Misalkan nave bayes mendapatkan

    dan . asumsi independen dilanggar dengan sangat jauh, dan square

    error loss sangat besar, tetapi nave bayes masih mendapatkan keputusan klasifikasi

    yang benar, dan meminimalisir zero-one loss.

    Misalkan ada dua kelas secara umum, yaitu kelas dan seperti sebelumnya,

    Sekarang kita akan menciptakan kondisi yang dibutuhkan untuk keoptimalan local dari

    nave bayes dan memperlihatkan bahwa volume dari daerah keoptimalan nave bayes

    adalah setengah dari volume .

    Teorema 1

    Nave bayes optimal secara local dibawah zero-one loss untuk data E jika dan

    hanya jika untuk E.

    Bukti :Pengklasifikasian nave bayes optimal saat zero-one loss memiliki nilai yang

    paling minimum. Saat minimum loss adalah didapatkan dari

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    28/31

    24 | P a g e

    menugaskan ke kelas . Pengklasifikasi nave bayes menugaskan ke kelas saat

    berdasarkan persamaan 2, yaitu saat . Oleh karenanya jika

    , maka nave bayes adalah optimal. Sebaliknya, saat ,

    zero-one loss minimum didapatkan dengan menugaskan E ke kelas , dimana

    pengklasifikasian nave bayes lakukan saat . Olehkarenanya pengklasifikasian

    nave bayes optimal saat . Saat keputusan manapun akan optimal,

    sehingga pertidaksamaan dapat di representasikan sebagai berikut:

    Pengklasifikasian nave bayes optimal di bawah zero-one loss pada setengah dari

    volume dari seluruh ruang nilai yang mungkin dari

    Bukti :Karena adalah sebuah peluang, dan dan adalah produk dari peluang,

    hanya menempati nilai dalam kubus [0,1]3. Daerah dari kubus tersebut yang

    memuaskan kondisi pada teorema 1 ditunjukkan oleh daerah abu-abu pada gambar 4.

    Dapat di perhatikan bahwa daerah abu-abu menempati setengah dari volume total

    kubus. Tetapi tidak seluruh pasangan dan mewakili kobinasi peluang yang benar.

    Karena tidak dibatasi, maka projeksi dari ruang semesta dari kombinasi peluang

    yang valid pada seluruh bidang adalah sama. Dengan teorema 1, daerah

    keoptimalan dari bidang dan sebaliknya. Oleh karenanya, jika adalah area

    dari projeksi dan adalah daerah optimal dari , daerah optimal untuk

    adalah , dan volume total dari keoptimalan adalah .

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    29/31

    25 | P a g e

    Secara kontras dibawahsquared error loss, persamaan 2 optimal sebagai kumpulan

    estimasi peluang P(Ci|E) hanya pada saat asumsi independen bertahan, yaitu pada

    bidang dan bertemu. Oleh karenanya daerah dari keoptimalan

    persamaan 2 dibawahsquared error lossadalah sangat kecil dibandingkan dengan

    zero-one loss. Pengklasifikasian nave bayes efektif sebagai pemprediksi optimal

    untuk kelas yang paling sering muncul pada sebuah kondisi yang lebih besar dimana

    asumsi independen dilanggar. Notasi sebelumnya dari keterbatasan pengklasifikasi

    nave bayes sekarang dapat dilihat sebagai kesalahan pengaplikasian intuisi

    berdasarkan keterbatasansquared error losspada performa pengklasifikasi nave

    bayes padazero-one loss.

    4.3 Keoptimalan global

    Ekstensi dari teorema 1 pada keoptimalan global adalah langsung. Misalkan p,r dan s

    pada data E di indexkan sebagai .

    Teorema 2

    Pengklasifikasian nave bayes optimal secara global pada zero-one loss untuk

    sebuah sample (data set) jika dan hanya jika

    Bukti :dengan definisi 4 dan teorema 1

    Membuktikan kondisi ini secara langsung pada test sample secara umum tidak dapat

    dilakukan, karena pembuktian membutuhkan penemuan peluang kelas yang

    sebenarnya dari setiap kelompok atribut tersebut pada sample. Lebih jauh,

    membuktikannya pada sebuah permasalahan membutuhkan komputasi yang seukuran

    dengan banyaknya kumpulan atribut yang dimungkinkan.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    30/31

    26 | P a g e

    BAB V KESIMPULAN

    Pada paper ini telah ditunjukkan bahwa pengklasifikasian Nave Bayes

    dibawahpengukuran galat zero-one lossmemiliki potensi pengaplikasian yang lebih

    luas dari yang dikira sebelumnya dan menunjukkan perbedaan pengaplikasian zero-

    one lossdansquared error lossdalam pengklasifikasian data, walaupun pembuktian

    secara mendalam belum dapat dilakukan karena sifat abstraksi data yang sangat

    tinggi, asumsi-asumsi keoptimalan yang telah dijabarkan diatas paling tidak dapat

    memberikan acuan untuk pengaplikasian pada data untuk klasifikasi pada sebuah

    permasalahan tertentu.

  • 7/24/2019 Keoptimalan Naive Bayes Karya Tulis

    31/31

    DAFTAR PUSTAKA

    [1] Domingos, P., and Pazzani, M. (1997). On the optimality of the Simple Bayesian

    Classifier under Zero-One Loss.

    [2] Tom M. Mitchell (1997).Machine Learning. New York, NY: McGraw-Hill.

    [3] Duda, R.O., and Hart, P.E. (1973).Pattern classification and scene analysis.New

    York, NY: Wiley.

    [4] Berson, A., and Smith S. J. (2001).Data Warehousing, Data Mining, & OLAP.

    New York, NY : McGraw-Hill.

    [5] Han, J., and Kamber M. (2000). Data Mining, Concept and Techniques. New

    York, NY : Morgan Kaufmann.

    [6] Walpole, E. R., Myers, R. H. (1995). Ilmu Peluang dan Statistika untuk Insinyur

    dan Ilmuan, Edisi ke-4. Bandung, ITB.

    [7] Prof. DR. Sudjana., M.A., M.Sc (1996). Metoda Statistika, Edisi ke-6. Bandung,

    Tarsito.