uas datmin

Upload: elvoteelvaie

Post on 14-Oct-2015

165 views

Category:

Documents


0 download

TRANSCRIPT

BAB IPENDAHULUAN

A.Sejarah RapidMiner

RapidMiner sebelumnya dikenal sebagai YALE (Yet Another Learning Environment), dikembangkan mulai tahun 2001 oleh Rafl Klinkenberg, Ingo mierswa, dan Simon Fischer di Unit Artificial Inteligence dari Technical University of Dortmund. Mulai tahun 2006, perkembangannya adalah didorong oleh cepat-1, sebuah perusahaan yang didirikan oleh Ingo mierswa dan Rafl Klinkenberg pada tahun yang sama. Pada tahun 2007, nama software diubah dari YALE ke RapidMiner dan perusahaan cepat-1 GmbH di dirikan. Pada akhir Mei, bebas open-source Suite data mining YALE berganti nama menjadi RapidMiner. Sekarang Rilis ini memberikan semua fungsi yang diketahui dari YALE dan menambahkan sejumlah besar fungsi-fungsi baru bersama dengan antarmuka pengguna sepenuhnya direvisi. Berharap bahwa perbaikan dari YALE ke RapidMiner lebih berguna untuk analisis pekerjaan sehari-hari.RapidMinerdan pluginyangsekarang menyediakanlebih dari400belajar danpreprocessing operatordan kombinasiyang tak terhitung jumlahnyadari.Oleh karena itu,RapidMineradalah pelengkappengetahuanpenemuanSuiteyangdapat digunakanuntuk semua tugasdata mining. Di antarafitur baru adalahruang kerjauntuk proyek yang berbedadengan meningkatkan visualisasidarikriteria kinerjasepertikurvaROCrata-rataatau plot3Ddari matriks.

B.Pengertian RapidminerRapid Mineradalah aplikasidata miningyang tidak perlu dipertanyakan lagi dan berbasis sistem open-source dunia yang terkemuka dan ternama. Tersedia sebagai aplikasi yang berdiri sendiri untuk analisis data dan sebagai mesin data mining untuk integrasi ke dalam produk sendiri. Ribuan aplikasi RapidMiner di lebih dari 40 negara memberikan pengguna mereka keunggulan yang kompetitif. Solusi yang di usung antara lain :Integrasi data, AnalitisETL, Data Analisis, dan Pelaporan dalam satu suite tunggal. Powerfull tapi memiliki antarmuka pengguna grafis yang intuitif untuk desain analisis proses.Repositori untuk proses, data dan penangananmeta dataHanya solusi dengan transformasi meta data: lupakantrial and errordan memeriksa hasil yang telah di inspeksi selama desain.

Hanya solusi yang mendukung on-the-fly kesalahan dan dapat melakukan perbaikan dengan cepatLengkap dan fleksibel: Ratusan loading data, transformasi d ata, pemodelan data, dan metode visualisasi data RapidMiner Menyediakan prosedur dataminingdanmachine learningtermasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi. Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat dengan GUI. Ditulis dalam bahasa pemrograman Java. Mengintegrasikan proyek data mining Weka dan statistika R.Terminologi Dasar Atribut dan atribut target Atribut: karakteristik atau fitur dari data yang menggambarkan sebuah proses atau situasi. ID, atribut biasa. Atribut target: atribut yang menjadi tujuan untuk diisi oleh proses data mining. Label, cluster, weight. Peran atribut (attribute role) Label, cluster, weight, ID, biasa

Terminologi Dasar Tipe nilai (value type) nominal: nilai secara kategori numeric: nilai numerik secara umum integer: bilangan bulat real: bilangan nyata text: teks bebas tanpa struktur binominal: nominal dua nilai polynominal: nominal lebih dari dua nilai date_time: tanggal dan waktu date: hanya tanggal time: hanya waktu

Terminologi Dasar Data dan metadata Data menyebutkan obyek-obyek dari sebuah konsep. Ditunjukkan sebagai baris dari tabel. Metadata menggambarkan karakteristik dari konsep tersebut. Ditunjukkan sebagai kolom dari tabel. Modelling Penggunaan metoda data mining terhadap data. Hasilnya disebut model.

Fungsi menu Process control Untuk mengontrol aliran proses, seperti loop atau conditional branch. Utility Untuk mengelompokkan subprocess, juga macro danlogger. Repository access Untuk membaca dan menulis repository. Inport Untuk membaca dari berbagai format eksternal. Export Untuk menulis data ke berbagai format eksternal.Data transformation Untuk transformasi data dan metadata.

Modelling Untuk proses data mining yang sesungguhnya. Seperti klasifikasi, regresi,clustering, aturan asosiasi dll. Evaluation Untuk menghitung kualitas dari modeling.

C.Keunggulan dan Kelemahan Rapidminer1.Keunggulan RapidminerSudah tidak diragukan lagi rapidminer memiliki keunggulan tersendiri Rapid Miner adalah aplikasidata miningyang tidak perlu dipertanyakan lagi dan berbasis sistem open-source dunia yang terkemuka dan ternama. Tersedia sebagai aplikasi yang berdiri sendiri untuk analisis data dan sebagai mesin data mining untuk integrasi ke dalam produk sendiri. Ribuan aplikasi RapidMiner di lebih dari 40 negara memberikan pengguna mereka keunggulan yang kompetitif. Solusi yang di usungantaralain :Integrasi dataAnalitisETLData Analisis, danPelaporan dalam satu suite tunggal. Powerfull tapi memiliki antarmuka pengguna grafis yang intuitif untuk desainanalisisproses.Repositori untuk proses, data dan penangananmeta dataHanya solusi dengan transformasi meta data: lupakantrial and errordan memeriksa hasil yang telah di inspeksi selama desain.Hanya solusi yang mendukung on-the-fly kesalahan dan dapat melakukan perbaikan dengan cepat Lengkap dan fleksibel: Ratusan loading data, transformasi data, pemodelan data, dan metode visualisasi data.2.Kelemahan RapidminerSecara khusus untuk memperluas RapidMiner dengan R membantu kelemahan alamat RM dalam luasnya algoritma , karena membawa ekosistem R seluruh ke RM ( mirip dengan bagaimana cepat - saya menerapkan banyak perpustakaan Weka pada awal pengembangan RM ) . Selanjutnya , karena R pengguna paket rilis masyarakat yang menerapkan teknik baru yang lebih cepat daripada vendor perusahaan, ini membantu mengubah kelemahan potensial menjadi kekuatan potensial. Namun, paket R cenderung dari berbagai kualitas , dan lebih rentan dalam dukungan perbaikan / bug . Hal ini sangat bergantung pada pengelola paket dan prevalensi penggunaan dalam komunitas R . Jadi, ketika RapidMiner memiliki peserta didik dengan implementasi asli , biasanya lebih baik untuk menggunakannya daripada R setara.D.Target Menggunakan RapidminerRapidminer telah menjadi salah satu perangkat lunak analisis open source atau bahkan analisis dianggap sebagai kata kunci di fashion. Perangkat lunak rapidminer telah menjadi perintis di banyak daerah ( seperti membangun pasar untuk Rapid Miner Ekstensi ) dan perluasan cepat Miner -R adalah salah satu enabler yang paling menjanjikan menggunakan R dalam pengaturan perusahaan . Organisasi olahraga menganggap analisis sebagai pembeda strategis , maka nama tersebut bersifat rahasia Analis - Kami dianggap sebagian besar pemain utama lainnya dalam statistik / data mining atau perusahaan. Namun, kami menemukan bahwa nilai proposisi untuk solusi open source itu terlalu menarik untuk membenarkan harga premium bahwa solusi komersial akan diperlukan . Adopsi R dan berbagai paket dan algoritma yang tersedia untuk itu , membuat pilihan yang mudah . Kami menyukai RapidMiner sebagai cara untuk merancang terstruktur, proses berulang dan kemampuan untuk mengoptimalkan parameter pelajar dengan cara yang sistematis . Hal ini juga ditangani set data besar lebih baik daripada R pada 32- bit Windows lakukan. GUI , terutama ketika 5.0 dirilis , membuatnya lebih bermanfaat daripada R untuk analis yang tidak berpengalaman programmer.

E.Cakupan Fungsional RapidminerRapidMineradalah solusidata miningdi seluruh duniaterkemukakarena kombinasidari berbagaifungsionaldan teknologiterdepannya.AplikasidariRapidMinermemiliki penyebaran yang luas dalamdata miningdi seluruh dunia.Cakupan fungsionalnya meliputi : dedicated dan berorientasi hasil Analis Analis Bisnis / Data dengan Enam tahun pengalaman di berbagai domain seperti Keuangan , asuransi, E-commerce, pemerintah dengan pengetahuan yang mendalam dalam Analisis Statistik ,Data mining ,SPSS dan Analisis Data . Mahir dalam Menciptakan dan Transformasi Bisnis Persyaratan menjadi kebutuhan perangkat lunak spesifikasi ( SRS ) menggunakan MS Word. Ahli dalam menciptakan Rencana Manajemen Risiko , kebutuhan pengguna Specification ( URS ) , Fungsional Spesifikasi Kebutuhan ( FRS ) , Kebutuhan Bisnis Dokumen ( BRDs ) . Pengalaman yang luas dalam metodologi Agile dan Waterfall . Kemahiran dalam menganalisa dan Menciptakan Gunakan kasus , Use Case Diagram , Activity diagram , Bisnis Flow Diagram dan urutan diagram menggunakan MS Visio . Keahlian dalam MS Office Suite , MS Visio , SPSS , alat statistik , Alat Keuangan , Model Diskon Dividen dan HP Pusat Kualitas . Diselenggarakan banyak perkembangan Aplikasi Bersama ( JAD ) dan sesi Bersama Perencanaan Kebutuhan ( JRP ) , Wawancara , local karya dan sesi persyaratan elisitasi dengan pemegang end-user/clients/stake dan kelompok pengembangan . ekstensif berinteraksi dengan Tim QA dalam penciptaan Rencana Uji , Uji Memberikan Data, Membuat dan Kasus Uji . Pengalaman di Black Box Testing dan Pengujian Penerimaan Pengguna ( UAT ) . ketajaman bisnis yang kuat , pemikiran strategis , kemampuan interpersonal dan presentasi , mahir menciptakan , mengedit , dan mengkoordinasikan jaringan komunikasi yang luas dengan komunikasi yang baik , kemampuan analisis dan keterampilan resolusi konflik . pengalaman komprehensif dalam merancang disesuaikan metodologi pengembangan sistem . Pengalaman yang luas dalam bekerja dengan pengumpulan data AIG metodologi yang terdiri dari kompleks Template pengumpulan data , penyimpanan data dan pembuatan laporan. System Development Life Cycle ( SDLC ) , Microsoft Access , Excel , Word, Power Point , Visio , Makro , Vlook - up , Hlook -up , meja Pivot , Waterfall Metodologi , Microsoft Visio , SPSS , Filemaker Pro , Agile Metodologi , backlog produk , Sprint Perencanaan , pertemuan retrospektif , praktek Scrum ,JAVA , SQL , EMC Documentum , Pre - UAT pengujian , Spesifikasi Fungsional , Pusat Kualitas HP , data mining , kurang

BAB IIPEMBAHASAN

Disini kita akan membahas tentang penggunaan Tools Rapid Miner. Tools ini digunakan sebagai alat bantu untuk melakukan penambangan data alias Data Minning. Untuk percobaan, penulis menggunakan data klasmen Liga Inggris:pos 10GA 10GC 10PTS 10CHAM

119824YES

220923NO

318622NO

49519NO

5201318NO

610516NO

7201215NO

8151215NO

9141315NO

10151114NO

1311226NO

216326NO

3141023YES

4181321NO

5191418NO

6181017NO

711917NO

8221916NO

9151215NO

10141315NO

128631YES

1. Langkah pertama open RapidMiner 5.0 kemudian double klik new proses untuk membuka lembaran kerja baru,

2. kemuadian langkah selanjutnya ketik read pada bagian operator kemudian double klik read excel bisa dilihat pada gambar dibawah ini :3. kemudian langkah selanjutnya klik import configuration wizard akan tampil gambar seperti dibawah ini:pada gambar diatas cari data yang akan anda klasifikasikan dan untuk percobaan, penulis menggunakan data klasmen Liga Inggris.

4. Kemudian klik tombol next sampai di step ke empat , dan prediksi klasifikasi harus ada labelnya dan langsung double klik tombol finish seperti gambar dibawah ini :

Dari langkah diatas didapat kan hasil seperti gambar dibawah ini:

5. Kemudian tambahkan metode naivebyes, kalau disini kita gak perlu lagi hitung-hitungannya, karena disini kita d anggap memakai. seperti gambar dibawah ini :

6. Jika sudah selesai output pada read excel kita gandengkan ke training (nave bayes) jika warna nya berubah menjadi warna ungu berarti benar dan jika merah itu berarti salah seperti gambar dibawah ini :

7. Kemudian langkah selanjutnya tekan F 11 dan pilih SimpleDistribution untuk melihat hasil outputnya seperti gambar dibawah ini :

dari langkah diatas kita belum mengetahui tingkat akurasi data kita. Jika kita ingin mengetahui tingkat akurasi data kita ada caranya. Ini merupakan contoh kita ada data dan menggunakan model apa? Baru kita membagi data kita, misalkan kita mempunyai data 100 dan data tersebut kita bagi dua bisa 50 atau 50 juga bisa 40 atau 50 datanya. Misalkan 40 itu data training dan 60 itu data testing dan kita ingin mengetahui tingkat akurasi data kita, kita dapat menggunakan Apply Model dan performance Clasification seperti gambar dibawah ini :

8. Kemudian langkah selanjutnya kita jalankan atau tekan F 11 akan tampil gambar output seperti dibawah ini :

9. Dari langkah diatas dapat kita ketahui hasil tingkat akurasi data kita menggunakan metode nave bayes yaitu 80,95 %. Kemudian anda uji lagi mengunakan metode decision tree dan bandingkan hasil akurasinya. Seperti gambar dibawah ini :

10. Kemudian langkah selanjutnya kita jalankan atau tekan F 11 akan tampil gambar output seperti dibawah ini :

11. Dari langkah diatas dapat kita ketahui hasil tingkat akurasi data kita menggunakan metode Decision Tree yaitu 90,48 %. Kemudian anda uji lagi mengunakan metode K-NN dan bandingkan hasil akurasinya. Seperti gambar dibawah ini :

Dari hasil perbandingan diatas dapat kita bandingkan tingkat akurasi datanya dan tingkat akurasi yang tinggi adalah menggunakan metode K-NN yaitu tingkat akurasinya mencapai 100 %. Jika anda belum puas dengan metode yang telah dicoba anda dapat menguji kembali dengan metode metode yang lainnya.

Kesimpulan1. Dari data yang telah kita uji menggunakan beberapa metode yaitu metode nave bayes, metode decision tree dan metode K-NN2. Pada pengujian data klasmen Liga Inggris yang dilakukan menggunakan sistem yang dibangun, dapat dihasilkan nilai akurasi terkecil 80,95% dengan jumlah sampel data 21 dan hasil tertinggi 100% dengan jumlah sampel 21.3. Pada pengujian data klasmen Liga Inggris yang dilakukan menggunakan aplikasi Rapid Miner 5.3 dengan algoritma Decision Tree classifiers didapatkan hasil dengan nilai akurasi terkecil 90,48 % dengan jumlah sampel 21 dan hasil tertinggi 100% dengan jumlah sampel 214. Pada pengujian data klasmen Liga Inggris yang dilakukan menggunakan aplikasi Rapid Miner 5.3 dengan algoritma K-NN classifiers didapatkan hasil dengan nilai akurasi tertinggi 100 % dengan jumlah sampel 21.5. Pada pengujian dengan menggunakan perangkat lunak Rapid Miner 5.3 maka dapat disimpulkan bahwa nilai akurasi metode K-NN classifiers lebih baik dari pada nilai akurasi metode naive bayesian classifiers dan metode Decision tree. RapidMinerPage 1