analisis algoritme klasifikasi random forest, decision tree c4.5 dan simple cart pada data pasien...
TRANSCRIPT
Analisis Algoritme Klasifikasi Random Forest, Decision Tree C4.5 dan Simple Cart pada Data Pasien Donor Darah Menggunakan Model RFMTC
disusun oleh Kelompok 6 - Grup Praktikum 1:Shofyan NRP: G64134009Resa Rukmigayatri NRP: G64134011D’trio Arno Priasaji NRP: G64134004
Departemen Ilmu KompputerFakultas Ilmu Pengetahuan Alam dan MatematikaInstitut Pertanian Bogor2015
Indonesia kekurangan 1.3 juta kantong darah pertahun (Antara News 2014).
Pendonor yang loyal sedikit
Persediaan darah berkurang 80% dari persediaan normal ketika lebaran (Metro Tempo 2014)
Kebutuhan darah tetap ada walaupun tidak banyak ketika ramadhan
Bagaimana Memodelkan Pendonor yang akan Mendonorkan darahnya Kembali?
Data
Ilustrasi Data di WEKA
RFMTC (Yeh 2008)
metode analisis nilai pelanggan terkenal luas diterapkan untuk segmen pelanggan
Recency (bulan sejak donasi terakhir)Frequency, (total banyaknya donasi) Monetary value,(total darah yang didonasikan)Time, (bulan sejak donasi pertama)Churn probability (representasi dari mendonasikan darah/tidak)
K Fold Validation-------------------------- | K1 | K2 | K3 | K4 | K5 | --------------------------
------------------------------------------- | Eksperimen Ke | Data Latih | Data Test | ------------------------------------------- | 1 | K2,K3,K4,K5 | K1 | ------------------------------------------- | 2 | K1,K3,K4,K5 | K2 | ------------------------------------------- | 3 | K1,K2,K4,K5 | K3 | ------------------------------------------- | 4 | K1,K2,K3,K5 | K4 | ------------------------------------------- | 5 | K1,K2,K3,K4 | K5 | -------------------------------------------
CART(Breiman 1984)
Pohon biner tiap simpul wajib memiliki 2 cabang.
mengembangkan decision tree dengan memilih percabangan yang paling optimal tiap simpul.
Information Gain Measures the expected reduction in entropy.
The higher the IG, more is the expected reduction in entropy.
where
Values(A) is the set of all possible values for attribute A,
Sv is the subset of S for which attribute A has value v.
Entropy Entropy measures the impurity of an arbitrary collection of examples.
For a collection S, entropy is given as:
For a collection S having positive and negative examples
Entropy(S) = -p+log2p+ - p-log2p-
where p+ is the proportion of positive examples
and p- is the proportion of negative examples
In general, Entropy(S) = 0 if all members of S belong to the same class.
Entropy(S) = 1 (maximum) when all members are split equally.
C4.5 (Quinlan 1993)
pengembangan dari algoritma ID3 membangun suatu pohon keputusan menggunakan informasi gain/entropy
Random Forest (Breiman 2005)
pengembangan metode CART
tree yang dihasilkan tidak hanya satu seperti Single Decision Tree
Tahapan enelitian
Hasil C4.5 Tree
Hasil
C4.5 CART Random Forest0
100
200
300
400
500
600
700
582 580544
166 168204
Grafik Hasil Klasifikasi
Correctly Classified Instances Incorrectly Classified Instances
Hasil
C4.5 CART Random Forest70.00%
71.00%
72.00%
73.00%
74.00%
75.00%
76.00%
77.00%
78.00%
79.00%77.81% 77.54%
72.73%
Grafik Akurasi
Classification Accuracy (%)
Kamulah Pendonor yang Loyal (76.83%)
Terima Kasih