programstudi teknik informatika fmipa universitas syiah kuala fileklasifikasi perlu training set...
TRANSCRIPT
![Page 1: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/1.jpg)
NaNaïïve ve Bayesian ClassifierBayesian Classifier
Dr. Taufik Fuadi Abidin, S.Si., M.Tech
Program Studi Teknik InformatikaFMIPA Universitas Syiah Kuala
www.informatika.unsyiah.ac.id/tfa
Bahan Kuliah Data Mining
![Page 2: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/2.jpg)
Outline Pertemuan
Dasar Teori Bayesian
Naïve Bayesian Classifier
Asumsi yang Diberikan
Dataset (Categorical?)
Contoh Klasifikasi Menggunakan Naïve Bayesian
![Page 3: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/3.jpg)
Klasifikasi Perlu Training Set
Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning)
Untuk melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran
Setiap sampel dari training set memiliki atribut dan klas label
![Page 4: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/4.jpg)
Dua Tahapan Klasifikasi
Learning (training): Pembelajaran menggunakan data training (untuk Naïve Bayesian Classifier, nilai probabilitas dihitung dalam proses pembelajaran)
Testing: Menguji model menggunakan data testing
Sumber: Bing Liu, Web Data Mining
![Page 5: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/5.jpg)
Teori Bayesian: Sebagai Dasar
X adalah data sampel dengan klas (label) yang tidak diketahui
H merupakan hipotesa bahwa X adalah data dengan klas (label) C. P(H) adalah peluang dari hipotesa H
P(X) adalah peluang data sampel yang diamati
P(X|H) adalah peluang data sampel X, bila diasumsikan bahwa hipotesa benar (valid)
![Page 6: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/6.jpg)
Teori Bayesian: Sebagai Dasar
Untuk masalah klasifikasi, yang dihitung adalah P(H|X), yaitu peluang bahwa hipotesa benar (valid) untuk data sample X yang diamati:
)()()|()|(
XPHPHXPXHP =
![Page 7: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/7.jpg)
Naïve Bayesian Classifier
Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence)
Dengan kata lain, Naïve Bayesian Classifier mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain
Warna Bentuk Diameter Jenis Buah
Merah Bulat 5 cm Apel
Kuning Bulat 4 cm Jeruk
Kuning Panjang 15 cm Pisang
![Page 8: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/8.jpg)
Naïve Bayesian Classifier
Karena asumsi atribut tidak saling terkait (conditionally independent), maka:
Bila P(X|Ci) dapat diketahui melalui perhitungan di atas, maka klas (label) dari data sampel X adalah klas (label) yang memiliki
P(X|Ci)*P(Ci) maksimum
∏=
=n
kCixkPCiXP
1)|()|(
![Page 9: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/9.jpg)
Datasetage income student credit_rating buys_computer
<=30 high no fair no<=30 high no excellent no30…40 high no fair yes>40 medium no fair yes>40 low yes fair yes>40 low yes excellent no31…40 low yes excellent yes<=30 medium no fair no<=30 low yes fair yes>40 medium yes fair yes<=30 medium yes excellent yes31…40 medium no excellent yes31…40 high yes fair yes>40 medium no excellent no
Class:
C1: buys_computer = ‘yes’
C2:buys_computer= ‘no’
Bila data baru yang belum memiliki class adalah:
X =(age<=30, Income=medium, Student=yes, Credit_rating= Fair)
![Page 10: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/10.jpg)
Naïve Bayesian Classifier: Contoh
Hitung P(xk|Ci) untuk setiap Class i:
P(age=“<30” | buys_computer=“yes”) = 2/9=0.222
P(age=“<30” | buys_computer=“no”) = 3/5 =0.6
P(income=“medium” | buys_computer=“yes”)= 4/9 =0.444
P(income=“medium” | buys_computer=“no”) = 2/5 = 0.4
P(student=“yes” | buys_computer=“yes)= 6/9 =0.667
P(student=“yes” | buys_computer=“no”)= 1/5=0.2
P(credit_rating=“fair” | buys_computer=“yes”)=6/9=0.667
P(credit_rating=“fair” | buys_computer=“no”)=2/5=0.4
X=(age<=30 ,income =medium, student=yes,credit_rating=fair)
![Page 11: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/11.jpg)
Naïve Bayesian Classifier: Contoh
Hitung P(X|Ci) untuk setiap Class:
P(X|buys_computer=“yes”) =
0.222 x 0.444 x 0.667 x 0.0.667 = 0.044
P(X|buys_computer=“no”) =
0.6 x 0.4 x 0.2 x 0.4 =0.019
∏=
=n
kCixkPCiXP
1)|()|(
![Page 12: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/12.jpg)
Naïve Bayesian Classifier: Contoh
P(X|Ci)*P(Ci ):
P(X|buys_computer=“yes”) * P(buys_computer=“yes”) = 0.028
P(X|buys_computer=“no”) * P(buys_computer=“no”) = 0.007
X memiliki klas “buys_computer=yes” karena P(X|buys_computer=“yes”) memiliki nilai maksimum pada perhitungan di atas
![Page 13: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/13.jpg)
Naïve Bayesian: SummaryKekuatan:
Mudah diimplementasi
Memberikan hasil yang baik untuk banyak kasus
Kelemahan:
Harus mengasumsi bahwa antar fitur tidak terkait (independent) Dalam realita, keterkaitan itu ada
Keterkaitan tersebut tidak dapat dimodelkan oleh Naïve Bayesian Classifier
![Page 14: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/14.jpg)
Latihan
Class:
C1: buys_computer = ‘yes’
C2:buys_computer= ‘no’
Tentukan klas label dari X:
X =(Outlook<=Rain, Temperature=Cool, Humidity=High, Wind=Weak)
![Page 15: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/15.jpg)
Praktikum: Naïve Bayesian Classifier Menggunakan Weka
![Page 16: ProgramStudi Teknik Informatika FMIPA Universitas Syiah Kuala fileKlasifikasi Perlu Training Set Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) Untuk](https://reader031.vdocuments.mx/reader031/viewer/2022020319/5cc8c56a88c993733b8b93aa/html5/thumbnails/16.jpg)
Questions &
Discussion