tanagra dan c45
TRANSCRIPT
-
8/16/2019 Tanagra Dan c45
1/16
Tanagra
Pengenalan Tanagra
Tanagra merupakan salah satu software data mining yang didalamnya disediakan beberapa
metoda data mining mulai dari mengekplorasi analisis data, pembelajaran statistik,
pembelajaran mesin, dan database
Tidak seperti software data mining kebanyakan, tanagra merupakan suatu software berbasis
open source di mana semua orang dapat mengakses source codenya, dan menambahkan
algoritma mereka sendiri, sejauh dia setuju dan menyesuaikan dengan lisensi pendistribusian
softwarenya.
Tujuan Pembuatan Software Tanagra
• Memberi peneliti dan mahasiswa suatu software data mining yang mudah digunakan,
sesuai dengan aturan yang ada dari pengembangan software dan memperbolehkan
menganalisa data real maupun sintetis.
• Mengusulkan pada peneliti suatu arsitektur yang memperbolehkan mereka untuk
secara mudah menambah metode data mining mereka sendiri, untuk membandingkan
performannya. Tanagra bertindak lebih sebagai platform percobaan dalam hal
memperbolehkan mereka menuju ke pekerjaan pokok mereka, menyalurkan mereka
berhadapan dengan bagian yang tak menyenangkan dalam pemograman tool seperti
ini: manajeman data.
• Bertujuan untuk menyebarkan metodologi yang mungkin untuk membangun software
seperti ini. Mereka harus mengambil keuntungan dalam hal akses bebas ke source
code, melihat bagaimana software seperti ini dibangun, masalah untuk dihindari,
langkah utama dari proyek, dan tools atau libraries yang mana yang harus digunakan
dan untuk apa digunakan. Dalam hal ini, Tanagra dapat dianggap sebagai alat untuk
mendidik untuk belajar teknik pemrograman.
Tanagra merupakan sebuah software yang biasanya digunakan untuk keperluan akademik dan
riset. Sebagian besar pengguna Tanagra adalah peneliti dan mahasiswa.
Metode atau Teknik engolahan Data di Tanagra
!. A. Metode Prediksi
Teknik "lassification dan #egression
!$ Dalam Teknik "lassification tanagra meggunakan Decision Tree dengan componets
%D& dan "'.(
)$ Dalam Teknik #egression tanagra menggunakan Tabs #egression yang sudah ada pada bagian #egression components.
-
8/16/2019 Tanagra Dan c45
2/16
!. B. Metode Deskripsi
Teknik "lustering dan *ssociation #ule Disco+ery
!$ Dalam Teknik "lustering tanagra menggunakan Tabs "lustering yang sudah ada pada
bagian "lustering components.
)$ Dalam Teknik *ssociation #ule tanagra menggunakan Tabs *ssociation #ule yang
sudah ada pada bagian *ssociation #ule components.
Kelebihan dan Kelamahan Tanagra
Dalam segi fitur Tanagra cukup baik karena selain memiliki beberapa pembelajaran
terkontrol juga paradigma lain seperti clustering, analisis faktorial, statistik parametrik dan
non parametrik, aturan asosiasi, feature selection, dan construction algorithms. *kan tetapitanagra tidak memasukkan apa yang membuat semua kekuatan yang dimiliki software
komersil dalam area ini, seperti set sumber data yang luas, akses langsung ke datawarehouses
dan databases, data cleansing, dan interacti+e utiliation.
Format Data pada Software Tanagra
Data %nput dalam Software Tanagra
!$ Microssoft -cel
/ebanyakan data yang diolah oleh Tanagra bersumber dari data yang di tulis dari Microssoft
-cel.
)$ T0T
Data yang di import menggunakan format T0T berupa data yang di buat dengan
menggunakan -cel kemudian di espor nya ke tt.
&$ *#11
Data yang formatnya *rff 2*ttribute3#elation 1ile 1ormat$ ini merupakan format yangdigunakan oleh 4eka dan Tanagra juga bisa menggunakan langsung.
Data 5utput dalam Software Tanagra
!$ Binary description of the stream diagram26.bdm$.
1ile yang berformat 26.bdm$ ini hanya dapat di manfaatkan oleh Tanagra.
/euntungan utama dari format ini adalah bahwa data yang di impornya sekali dan hanya
sekali. Di sisi lain, ketidaknyamanan utama format ini adalah bahwa penyusunan analisis
diagram yang definitif yang di definisikan atas data yang diimpor. 7adi jika data berubah,dengan menambahkan beberapa catatan misalnya, data harus diimpor lagi, maka diagram
-
8/16/2019 Tanagra Dan c45
3/16
harus didefinisikan ulang. 7adi kesimpulan format ini adalah data yang di hasilkan tidak
seharusnya ada perubahan lagi.
)$ Tetual description of the stream diagram 26.TDM$.
1ormat ini, berdasarkan format file %8% 4indows, menjelaskan dalam sebuah file teks analisis penyusunan diagram. 7adi file ini dapat dibuka dan diperiksa dengan editor teks apapun.
/euntungan format ini yaitu hanya ada referensi ke data dalam file yang disimpan, jika data
nya terjadi perubahanh, maka eksekusi berikutnya akan bekerja pada +ersi baru dari data, dan
menghasilkan hasil yang diperbarui, file yang dihasilakan menghormati spesifikasi %8%,
sehingga memungkinkan untuk mendefinisikan diagram baru, tanpa membuka Tanagra.
/ekurangan utama dari format penyimpanannya adalah jika kebutuhan untuk mengimpor
data setiap kali maka *nda menjalankan diagram aliran.
Tampilan Tanagra
9ambar ! : 9% Tanagra
9ambar ) : %nput Data
9ambar & : Tab Menu
-
8/16/2019 Tanagra Dan c45
4/16
9ambar ' : #esult
"ontoh /asus : "lustering Data Menggunakan Metode /3Means di Tanagra
Dalam kasus ini kita akan mencoba men3cluster data menggunakan metode k3means dimanakita akan mempartisikan data yang ada kedalam satu atau dua kelompok
ertama yang harus kita lakukan adalah menyiapkan sampel datanya
9ambar ( : Sampel Data
Selanjutnya kita akan memasukkan data tadi kedalam software Tanagra
9ambar ; : %nput Data
Setelah kita selesai memasukkan data, kita akan mendefine status data tersebut.
-
8/16/2019 Tanagra Dan c45
5/16
9ambar ; : Define Status
9ambar = : ni+ariated Discreate Stat
ada gambar = kita harus memasukkan ni+ariated Discreate Stat 2Statistic Tabs$ agar kita
bisa melihat perbandingan dan persentanse data kita tadi.
9ambar > : Discrete Select -ample
ada gambar > kita memasukkan Discrete Select -ample 2%nstance Selection Tab$ pada
dataset kita.
-
8/16/2019 Tanagra Dan c45
6/16
9ambar > : Define Status
9ambar >.! : Multiple *nalysis
Ditahap selanjutnya kita akan membatasi analisa kita dengan Multiple "orrespondence
*nalysis 21actorial *nalysis$ dengan memberikan limit !@ pada besar parameternya nanti
9ambar A : Define Status
Ditahap ini kita kembali mendefine status dan menginputkan parameter. *kan tetapi kali ini
kita hanya akan menginputkan parameter tertentu saja. 2lihat gambar A untuk melihat
parameter apa saja yang di inputkan$
-
8/16/2019 Tanagra Dan c45
7/16
9ambar !@ : /3Means
Setelah proses tersebut selesai barulah kita menerapkan metode k3means dalam
menclustering dataset kita
9ambar !! : Define Status
Digambar !! kita akan memasukkan data mana yang akan kita cluster dengan menggunakan
metode k3means
9ambar !) : 9roup "haracteriation
Setelah data tersebut selesai dicluster kita bagi data tersebut kedalam group3group 2gambar
!)$
-
8/16/2019 Tanagra Dan c45
8/16
9ambar !& : 9roup "haracteriation
Dan jangan lupa untuk lebih mengelompokkan mereka dengan mensortir agar lebih terperinci
Selanjutnya kita tinggal men3+isualisasikan data hasil clustering tadi dengan Scatterplot 2Dataisualitation Tab. Tanagra menggunakan teknik scatterplot dalam men+isualisasikan datanya
9ambar !' : Scatterplot
Data telah selesai di clustering dengan metode k3means dan telah kita +isualisasikan dengan
teknik scatterplot
ntuk mendapatkan data hasil clustering tadi kita perlu melakuakan reco+ery data dan meng3
eksportnya nanti
erhatikan gambar3gambar berikut untuk melihat proses pengambilan data hasil clustering
tadi
-
8/16/2019 Tanagra Dan c45
9/16
-
8/16/2019 Tanagra Dan c45
10/16
https://sartika1603.wordpress.com/2011/11/02/tanagra
https://sartika1603.wordpress.com/2011/11/02/tanagrahttps://sartika1603.wordpress.com/2011/11/02/tanagra
-
8/16/2019 Tanagra Dan c45
11/16
Data Mining - Studi Kasus1! "eknik K#asi$kasi Dari pem%ahasan se%e#umn&a' da#am tahap data mining terdapat %e%erapa
teknik &ang %isa di#akukan untuk se%uah kasus. Sa#ah satu n&a ada#ah teknik
k#asi$kasi. "ahap pemi#ihan teknik da#am data mining harus sesuai dengan
tu(uan dan a#goritma untuk pencarian po#a
)erikut pem%ahasan ka#i ini :
• "ahap Data Mining : K#asi$kasi
• Metode k#asi$kasi &ang digunakan : Decision "ree
• *#goritma Decision "ree &ang dico%a : +,.
K#asi$kasi sendiri merupakan suatu proses menemukan kumpu#an po#a atau
ungsi &ang mendeskripsikan serta memisahkan ke#as data &ang satu dengan&ang #ainn&a untuk men&atakan o%(ek terse%ut masuk pada kategori tertentu
&ang sudah ditentukan.
secara umum' proses k#asi$kasi terdapat 2 tahap :
- roses %e#a(ar training data set! : %erasa# dari data pe#atihan &g sudah ada!
- Kasus %aru new case! :
+ontoh kasus &ang akan di%ahas da#am data mining teknik k#asi$kasi metode
decision tree dengan a#goritma +.,
http://materionline7tw.blogspot.co.id/2012/06/data-mining-teknik-klasifikasi.htmlhttp://materionline7tw.blogspot.co.id/2012/06/data-mining-teknik-klasifikasi.html
-
8/16/2019 Tanagra Dan c45
12/16
Dari data diatas akan di%ahas:
1. erhitungan secara manua#2. Mencocokkan hasi# perhitungan manua# dengan penggunaan too#s ap#ikasi dari
a. K*
%. apidminer
4ke..' untuk pem%ahasann&a kita #an(utkan disini
5sum%er
-#arose
-%er%agai sum%er
http://materion#inetw.%#ogspot.co.id/2012/06/data-mining-teknik-k#asi$kasi.htm#
http://www.materionline7tw.blogspot.com/http://materionline7tw.blogspot.co.id/2012/06/data-mining-teknik-klasifikasi.htmlhttp://www.materionline7tw.blogspot.com/http://materionline7tw.blogspot.co.id/2012/06/data-mining-teknik-klasifikasi.html
-
8/16/2019 Tanagra Dan c45
13/16
ohon /eputusan 2 Decision Tree$ merupakan metode klasifikasi dan prediksi yang sangat
kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. *turan dapat dengan mudah dipahami
dengan bahasa alami. *turan ini juga dapat diekspresikan dalam bentuk bahasa basis data
seperti SC< untuk mencari record pada kategori tertentu. ohon keputusan juga berguna
untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon
+ariabel input dengan sebuah +ariabel target. /arena pohon keputusan memadukan antara
eksplorasi data dan pemodelan, pohon keputusan ini sangat bagus sebagai langkah awal
dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik
lain27 # Cuinlan, !AA&$.
Dalam situasi lain kemampuan untuk menjelaskan alasan pengambilan keputusan adalah
sesuatu yang sangat penting. Misalnya pada perusahaan asuransi ada larangan resmi untukmendeskriminasi berdasarkan +ariabel3+ariabel tertentu. erusahaan asuransi dapat mencari
sendiri keadaan yang mencerminkan bahwa mereka tidak menggunakan deskriminasi yang
ilegal dalam memutuskan seseorang diterima atau ditolak. Sebuah pohon keputusan adalah
sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi
himpunan3himpunan record yang lebih kecil dengan menerapkan serangkaian aturan
keputusan. *nggota himpunan hasil menjadi mirip satu dengan yang lain dengan masing3
masing rangkaian pembagian. Sebuah model pohon keputusan terdiri dari sekumpulan aturan
untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen
dengan memperhatikan pada +ariabel tujuannya. Sebuah pohon keputusan mungkin dibangun
dengan seksama secara manual, atau dapat tumbuh secara otomatis dengan menerapkan salah
satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belumterklasifikasi 2Tan dkk, )@@'$.
ariabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih
mengarah pada perhitungan probabilitas dari masing3masing record terhadap kategori3
kategori tersebut, atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu
kelas. ohon keputusan juga dapat digunakan untuk mengestimasi nilai dari +ariabel
kontinyu, meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.
/elebihan dari metode pohon keputusan adalah:
!. Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat
diubah menjadi lebih simpel dan spesifik
). -liminasi perhitungan3perhitungan yang tidak diperlukan, karena ketika
menggunakan metode pohon keputusan maka sampel diuji hanya berdasarkan kriteria
atau kelas tertentu
&. 1leksibel untuk memilih fitur dari node internal yang berbeda, fitur yang terpilih akan
membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama.
/efleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang
dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahapyang lebih kon+ensional
-
8/16/2019 Tanagra Dan c45
14/16
'. Dalam analisis multi+arian, dengan kriteria dan kelas yang jumlahnya sangat banyak,
seorang penguji biasanya perlu mengestimasikan baik itu distribusi dimensi tinggi
ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan
dapat menghindari munculnya permasalahan ini dengan menggunakan kriteria yang
jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas
keputusan yang dihasilkan.
/ekurangan pada pohon keputusan adalah:
!. Terjadi overlapping terutama ketika kelas3kelas dan kriteria yang digunakan
jumlahnya sangat banyak. al tersebut juga dapat menyebabkan meningkatnya waktu
pengambilan keputusan dan jumlah memori yang diperlukan
). engakumulasian jumlah kesalahan dari setiap tingkat dalam sebuah pohon keputusan
yang besar
&. /esulitan dalam mendesain pohon keputusan yang optimal
'. asil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat
tergantung pada bagaimana pohon tersebut didesain.
ohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur
berhirarki. "ontoh dari pohon keputusan dapat dilihat pada 9ambar berikut :
9ambar Model ohon /eputusan 2ramudiono,)@@>$
Setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohonmenyatakan kelas data. "ontoh pada 9ambar diatas adalah identifikasi pembeli komputer.
Dari pohon keputusan tersebut diketahui bahwa salah satu kelompok yang potensial membeli
komputer adalah orang yang berusia di bawah &@ tahun dan juga pelajar. Setelah sebuah
pohon keputusan dibangun maka dapat digunakan untuk mengklasifikasikan record yang
belum ada kelasnya. Dimulai dari node root , menggunakan tes terhadap atribut
dari record yang belum ada kelasnya ini lalu mengikuti cabang yang sesuai dengan hasil dari
tes tersebut, yang akan membawa kepada internal node 2node yang memiliki satu cabang
masuk dan dua atau lebih cabang yang keluar$, dengan cara harus melakukan tes lagi
terhadap atribut atau node leaf . Record yang kelasnya tidak diketahui kemudian diberikan
kelas yang sesuai dengan kelas yang ada pada node leaf . ada pohon keputusan setiap simpul
leaf menandai label kelas. roses dalam pohon keputusan yaitu mengubah bentuk data 2tabel$menjadi model pohon 2tree$ kemudian mengubah model pohon tersebut menjadi aturan 2rule$
27 # Cuinlan, !AA&$.
Salah satu algoritma induksi pohon keputusan yaitu %D& 2 Iterative Dichotomiser &$. %D&
dikembangkan oleh 7. #oss Cuinlan. Dalam prosedur algoritma %D&, input berupa sampel
training, label training dan atribut. *lgoritma Decision Tree "'.( merupakan pengembangan
dari %D&. Sedangkan pada perangkat lunak open source 4-/* mempunyai +ersi sendiri dari
"'.( yang dikenal sebagai 7'>.
Berikut ini adalah dasar algoritma "'.( untuk proses pembentukan decision tree 2an dan
/hamber, )@@!$ :
-
8/16/2019 Tanagra Dan c45
15/16
%nput : Training samples, Atribute
5utput : Decision tree
enerate!de"ision!tree 2Training samples, *tribute$ EE decision tree function
Method :
2!$ "reate node 8F
2)$ #f samples are all of the same class " then
2&$ $eturn 8 as a leaf node labeled with the class "F
2'$ if atribute3list is empty then
2($ $eturn 8 as a leaf node labeled with the most common class in samplesF EE
majority +oting
2;$ else
2=$ select test3atribute, atribute among atribute3list with the highest information gainF
2>$ label node 8 with test3atributeF
2A$ for each known +alue ai of test3atribute EE partition the samples
2!@$ grow a branch from node 8 for the condition test3atribute ? aiF
2!!$ let si be the set of samples in samples for which test3atribute ? aiF EE a partition
2!)$ if si is empty then
2!&$ attach a leaf labeled with the most common class in samplesF
else attach the node returned by enerate!de"ision!tree2si, atribute3list3test3atribute$F
9ambar *lgoritma Decision Tree "'.( 2an dan /hamber, )@@!$
Secara umum algoritma Decision Tree "'.( untuk membangun pohon keputusan adalah
sebagai berikut 2/usrini, )@@A$ :
!. ilih atribut sebagai root
). Buat cabang untuk masing3masing nilai
&. Bagi atribut terpilih dalam cabang
-
8/16/2019 Tanagra Dan c45
16/16
'. langi proses untuk masing3masing cabang sampai semua atribut terpilih pada cabang
memiliki kelas yang sama.
ntuk menghitung gain diberikan rumus sebagai berikut:
Dimana
S ? himpunan kasus
* ? *tribut
n ? jumlah partisi
GSiG ? jumlah kasus pada partisi ke3i
GSG ? jumlah kasus dalam S
Sedangkan untuk perhitungan nilai entropi adalah sebagai berikut:
Dimana,
S ? himpunan kasus
n ? jumlah pastisi S
pi ? proposi dari Si terhadap S
sumber : Sisca Huliharyani,S.komF *lgoritma D ecision Tree "'.( ntuk /lasifikasi /eluarga
eserta 7amkesmas Berdasarkan /emiskinanF )@!!
3 See more at: http:EEblogs.itb.ac.idEaicewareE)@!)E@AE)&Ealgoritma3decision3tree3c'3
(EIsthash.mk