komparasi metode pre-processing data dengan menggunakan hasil klasifikasi artificial neural network...

21
KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN) I. LATAR BELAKANG Pada tahun 1996 Amerika Serikat mengadakan survey penduduk untuk mengetahui karakteristik penduduk yang mampu menghasilkan uang lebih dari $50.000. Pada saat itu rata-rata pendapatan dari penduduk United States mencapai sekitar $49.000, sehingga biro sensus Amerika Serikat menjadikan angka $50.000 menjadi acuan untuk mengetahui kondisi pendapatan penduduknya. Pemerintah Amerika Serikat mengklasifikasikan penduduknya dengan menggunakan beberapa variabel yang dapat mengelompokkannya. Variabel-variabel yang digunakan tersebut mempunyai kuantitas yang besar serta data yang dikumpulkan juga berukuran besar. Oleh karena itu, diperlukan suatu metode yang dapat mengklasifikasikan suatu observasi berdasarkan variabel-variabel yang banyak dengan ukuran data yang besar. Salah satu metode yang dapat digunakan adalah Artificial Neural Network (ANN). Metode tersebut dapat digunakan sebagai pengklasifikasian dimana pola pengklasifikasian tersebut tidak linear. Selain itu, dengan menggunakan metode tersebut unit individu akan dihubungkan bersama untuk membentuk perhitungan yang kompleks. Atribut-atribut yang digunakan dalam analisis ini mempunyai pola klasifikasi yang tidak linear, sehingga dalam ANN digunakan Multilayer Perceptron. Dalam metode ini, akan terdapat hidden layer dalam struktur ANN yang digunakan. 1

Upload: saidahzj

Post on 04-Dec-2015

58 views

Category:

Documents


12 download

DESCRIPTION

KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

TRANSCRIPT

Page 1: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

KOMPARASI METODE PRE-PROCESSING DATA

DENGAN MENGGUNAKAN HASIL KLASIFIKASI

ARTIFICIAL NEURAL NETWORK (ANN)

I. LATAR BELAKANG

Pada tahun 1996 Amerika Serikat mengadakan survey penduduk untuk mengetahui

karakteristik penduduk yang mampu menghasilkan uang lebih dari $50.000. Pada saat itu

rata-rata pendapatan dari penduduk United States mencapai sekitar $49.000, sehingga biro

sensus Amerika Serikat menjadikan angka $50.000 menjadi acuan untuk mengetahui kondisi

pendapatan penduduknya.

Pemerintah Amerika Serikat mengklasifikasikan penduduknya dengan menggunakan

beberapa variabel yang dapat mengelompokkannya. Variabel-variabel yang digunakan

tersebut mempunyai kuantitas yang besar serta data yang dikumpulkan juga berukuran besar.

Oleh karena itu, diperlukan suatu metode yang dapat mengklasifikasikan suatu observasi

berdasarkan variabel-variabel yang banyak dengan ukuran data yang besar.

Salah satu metode yang dapat digunakan adalah Artificial Neural Network (ANN).

Metode tersebut dapat digunakan sebagai pengklasifikasian dimana pola pengklasifikasian

tersebut tidak linear. Selain itu, dengan menggunakan metode tersebut unit individu akan

dihubungkan bersama untuk membentuk perhitungan yang kompleks. Atribut-atribut yang

digunakan dalam analisis ini mempunyai pola klasifikasi yang tidak linear, sehingga dalam

ANN digunakan Multilayer Perceptron. Dalam metode ini, akan terdapat hidden layer dalam

struktur ANN yang digunakan.

Data yang digunakan dalam analisis ini merupakan data yang berukuran besar,

sehingga perlu diperhatikan pre-processing data sebelum dilakukan analisis lebih lanjut. Pre-

processing ini akan membantu untuk mendapatkan hasil ketepatan klasifikasi yang lebih baik.

Untuk mendapatkan hasil pre-processing yang baik, maka dalam analisis ini akan dilakukan

perbandingan dengan menggunakan hasil ketepatan klasifikasi sebagai nilai yang

diperhatikan.

II. PERMASALAHAN

Permasalahan yang akan dibahas dalam penelitian ini adalah sebagai berikut.

1. Bagaimana deskripsi pada atribut-atribut klasifikasi pada data sensus pendapatan

United States?

1

Page 2: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

2. Bagaimana perbandingan hasil ketepatan klasifikasi pada setiap kombinasi

preprocessing yang dilakukan pada data sensus pendapatan United States?

3. Bagaimana interpretasi output neural network pada hasil ketepatan klasifikasi terbesar

yang dilakukan pada data sensus pendapatan United States?

III. TUJUAN

Berdasarkan permasalahan yang akan dibahas dalam penelitian ini, tujuan penelitian

ini adalah sebagai berikut.

1. Mendeskripsikan atribut-atribut klasifikasi pada data sensus pendapatan United

States.

2. Membandingkan hasil ketepatan klasifikasi pada setiap kombinasi preprocessing yang

dilakukan pada data sensus pendapatan United States.

3. Menginterpretasikan output neural network pada hasil ketepatan klasifikasi terbesar

yang dilakukan pada data sensus pendapatan United States.

IV. METODOLOGI PENELITIAN

4.1 SUMBER DATA

Data yang digunakan dalam penelitian ini merupakan data sekunder yang diambil dari

website University of California, Irvine, School of Information and Computer Sciences

Machine Learning Repository. Data tersebut merupakan data sensus pendapatan Amerika

Serikat yang dilakukan oleh Biro Sensus Amerika Serikat.

4.2 VARIABEL PENELITIAN

Data penelitian tersebut merupakan data sensus pendapatan yang terdiri dari 15

variabel. Berikut ini adalah variabel yang digunakan dalam penelitian ini adalah sebagai

berikut.

Tabel 4.1 Atribut PenelitianNo Atribut Keterangan Skala

1 Age Umur Responden Kontinyu

2 Workclass Jabatan PekerjaanNominal (Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked)

3 Final Weight Kontinyu

4 EducationPendidikan Terakhir Responden

Nominal (Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool)

5 Education-NumLama Menempuh Pendidikan

Kontinyu

6 Marital-Status Status Nikah Responden

Nominal (Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-

2

Page 3: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

spouse)

7 OccupationPekerjaan Responden

Nominal (Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces)

8 RelationshipHubungan Responden

Nominal (Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried)

9 Race Ras RespondenNominal (White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black)

10 SexJenis Kelamin Responden

Nominal (Female, Male)

11 Capital-Gain Modal Untung Kontinyu

12 Capital-Loss Modal Rugi Kontinyu

13 Hours-Per-WeekBanyak Jam Kerja Per Minggu Responden

Kontinyu

14 Native-Country Negara Asal

Nominal (United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands)

4.3 LANGKAH PENELITIAN

Pada penelitian ini dilakukan beberapa Langkah-langkah yang dilakukan dalam

penelitian ini adalah sebagai berikut.

1. Mendeskripsikan atribut yang digunakan dalam data.

Pada tahap ini akan dilakukan deskripsi pada atribut untuk mengetahui karakteristik

dari datanya.

2. Melakukan pre-processing data.

Setelah mengetahui karakteristik atribut yang digunakan, langkah selanjutnya

yang dilakukan adalah melakukan pre-processing data. Hal ini dilakukan untuk

mendapatkan data yang bersih sehingga akan menghasilkan ketepatan klasifikasi yang

lebih baik. Pre-processing data yang dilakukan dalam data penelitian ini dilakukan

dengan menggunakan software Weka. Adapun pre-processing yang dilakukan adalah

antara lain.

a. Missing value

Pada data penelitian tersebut terdapat missing value sebanyak 2399 instances

dari 32561 instances. Cara penanganan missing value pada data tersebut dicobakan

dengan melakukan imputasi dan menghilangkannya. Jika dilakukan imputasi pada

3

Page 4: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

tipe data numerik, maka caranya adalah dengan memasukkan rata-rata dari atribut

yang mengandung missing value tersebut. Namun jika imputasi dilakukan pada tipe

data kategori, maka caranya adalah dengan memasukkan nilai yang sering muncul

pada atribut yang mengandung missing value tersebut. kemudian jika cara

penanganan missing value tersebut dengan cara dilangkan, maka instances yang

diolah menjadi sebanyak 30162.

b. Outlier

Outlier merupakan data unik yang nilainya berbeda dari nilai-nilai data yag

lainnya. Outlier dapat menambah informasi dalam penggalian data atau dapat pula

mengurangi informasi yang ada. Oleh karena itu, dalam data penelitian ini dilakukan

dua penanganan terhadap data outlier, yaitu tetap mempertahankannya dan

menghilangkan data outliernya. Jika missing value diatasi dengan imputasi dan outlier

dihilangkan, maka akan terdapat 28876 instances. Namun jika missing value

dihilangkan dan outlier juga dihilangkan, maka akan terdapat 26933 instances.

c. Feature selection

Data sensus pendapatan yang digunakan dalam penelitian ini mempunyai 15

atribut. Oleh karena itu, diperlukan feature selection pada tahap pre-processing data

agar mendapatkan hasil klasifikasi yang lebih optimal. Metode yang digunakan dalam

feature selection ini adalah dengan menggunakan filter dan wrapper.

Pada metode wrapper akan diketahui atribut mana saja yang dapat digunakan.

Namun pada metode filter akan muncul ranking yang mengurutkan atribut-atribut

tersebut sehingga peneliti dapat menggunakan atribut tersebut sesuai dengan

rankingnya.

3. Melakukan klasifikasi

Penelitian ini menggunakan Artificial Neural Network (ANN) pada

klasifikasinya. Algoritma yang digunakan dalam ANN ini adalah backpropagation.

4. Membandingkan hasil klasifikasi yang terbentuk antar integrasi pre-processing.

Pada penelitian ini akan diketahui perbandingan dari beberapa integrasi pre-

processing yang terbentuk untuk mengatahui pre-processing mana yang akan

mendapatkan hasil ketepatan klasifikasi yang lebih baik. Berikut ini adalah beberapa

integrasi pre-processing tersebut.

No Integrasi Pre-Processing

1 Missing value diimputasi, outlier dipertahankan, dan feature selection dengan filter

2 Missing value diimputasi, outlier dihilangkan, dan feature selection dengan filter

4

Page 5: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

3 Missing value diimputasi, outlier dipertahankan, dan feature selection dengan wrapper

4 Missing value diimputasi, outlier dihilangkan, dan feature selection dengan wrapper

5 Missing value dihilangkan, outlier dipertahankan, dan feature selection dengan filter

6 Missing value dihilangkan, outlier dihilangkan, dan feature selection dengan filter

7 Missing value dihilangkan, outlier dipertahankan, dan feature selection dengan wrapper

8 Missing value dihilangkan, outlier dihilangkan, dan feature selection dengan wrapper

5. Menginterpretasikan output neural network pada hasil ketepatan klasifikasi yang

terbesar.

Setelah mengetahui hasil ketepatan yang lebih baik berdasarkan integrasi pre-

processing tersebut, dapat dilakukan interpretasi output dari hasil yang didapatkan.

6. Penarikan kesimpulan

Kesimpulan didapatkan berdasarkan hasil analisis yang telah dilakukan

V. METODE

5.1 Artificial neural Network (ANN)

Artificial Neural Network (ANN) atau Jaringan Syaraf Tiruan adalah system

pemrosesan informasi yang memiliki karakteristik menyerupai jaringan syaraf biologis yang

dibentuk sebagai generalisasi model matematis dari jaringan syaraf biologis. Sistem ini

memiliki kemampuan untuk mengenali sesuatu yang pernah dialami atau dikenal, dengan

kata lain sistem ini dapat melakukan proses pembelajaran terhadap sesuatu. Proses

pembelajaran pada ANN adalah proses penambahan pengetahuan pada sistem yang bersifat

kontinyu, yang nantinya akan digunakan sebagai referensi untuk mengenali suatu objek.

Mekanisme pemrosesan informasi yang dimiliki sistem ini dilakukan di neuron, lalu hasil

pemrosesan tersebut diteruskan dari satu neuron ke neuron yang lain melalui penghubung

sampai mencapai output yang diinginkan. Berikut ini merupakan bentuk dasar dari neuron.

Gambar 5.1 Bentuk Dasar Neuron

5

Page 6: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

Neuron diatas terdiri dari bagian-bagian :

- Input, bagian sistem yang digunakan untuk memberikan masukan pada sistem, baik untuk

proses pembelajaran maupun proses pengenalan objek.

- Weight, merupakan bobot yang diberikan pada penghubung yang berfungsi untuk

meningkatkan dan menurunkan nilai dari informasi agar sesuai dengan target

pembelajaran. Nilai dari bobot akan berubah setiap kali diberikan input untuk

pembelajaran dan akan tetap ketika output pembelajaran telah sesuai objek yang

ingin dikenali.

- Processing unit, bagian terjadinya proses komputasi pengenalan suatu objek berdasarkan

pengetahuan yang diperoleh dariinput dan bobot yang sudah ditentukan sebelumnya.

Suatu jaringan ANN dapat terdiri dari beberapa processing unit yang dapat bekerja

secara simultan dan dapat bekerja parallel

- Output, bagian yang memberikan hasil pembelajaran suatu objek atau target pembelajaran.

Setiap output dari neuron memiliki fungsi aktivasi yang menentukan apakah

informasi akan diteruskan ke neuron lain untuk diproses lagi atau tidak.

Neural network secara esensial terdiri dari tiga bagian: arsitektur atau model,

algoritma learning, dan fungsi aktivasi. neural network dapat dilatih di dataset yang sangat

besar secara iteratif. Data mining menjadi lebih berguna dengan menggabungkan

kekuatan neural network dengan perangkat statistik. Diercaya dengan gabungan ini, dapat

Menghasilkan sinergi yang penting. Neural network menyediakan benchmark model yang

baik disisi lain NN juga memiliki keunggulan lain , yaitu :

1. Akurasi yang tinggi: Neural network digunakan untuk mapping aproksimasi kompleks non

linear.

2. Toleransi terhadap noise: Neural network sangat fleksibel dengan data yang noisy.

3. Independensi dari asumsi prior:Neural network tidak membuat asumsi priori tentang

distribusi data atau bentuk interaksi dari faktorfaktor.

4. Mudah untuk dikelola: Neural network dapat diupdate dengan data yangbaru, membuat

berguna untuk lingkungan yang dinamis.

5. Neural network dapat diimplementasikan di hardware yang paralel.

6. Ketika element neural network gagal, ia dapat melanjutkan tanpa masalah karena polanya

yang paralel.

7. Neural network dapat dilatih di dataset yang sangat besar secara iteratif.

6

Page 7: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

5.2 Multilayer Perceptron Neural Network

Metode klasifikasi Multilayer Perceptron (MLP) merupakan salah satu jenis dari

algoritma jaringan saraf tiruan yang mengadopsi cara kerja jaringan saraf pada mahluk hidup.

Algoritma ini terkenal handal karena proses pembelajaran yang mampu dilakukan secara

terarah.

Model MLPNN memiliki layer neuron tambahan selain layer input dan output,

yaitu hidden layer yang terletak di antara kedua layer tersebut. Jumlah hidden layer bervariasi

tergantung dari tingkat kesulitan permasalahan yang ditangani oleh sistem, sehingga dalam

pengaplikasiannya MLPNN lebih powerful dibandungkan dengan model ANN yang lain.

Berikut ini adalah bentuk arsitektur jaringan MLPNN.

Gambar 5.2 Bentuk Arsitektur Jaringan MLPNN

5.3 Data Mining dengan NN

Data mining berdasarkan neural network disusun dengan menyiapkan data, rules

extracting, rules assessment. Disi lain kekuatan neural network adalah dengan satu layer

tersembunyi fungsi transfer logistic, neural network dapat mengaproksimasi tipe-tipe fungsi

non linear dan interaction terms.

Gambar 5.3 Proses Data Mining dengan NN

V.3.1 Data Preparing

7

Page 8: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

Data preparing merupakan tahap persiapan yang dilakukan pertama kali yang

dilakukan sebelum dilakukan analisis. Hal ini diperlukan untuk menghasilkan analisis yang

baik. Berikut terdapat beberapa langkah yang dilakukan untuk mempersiapkan data untuk

dilakukan analisis lebih lanjut.

1. Data Cleaning and selection

Pada data yang heterogen dalam database tentunya terdapat data yangi tidak lengkap,

tidak konsisten atau tidak akurat,Data ini disebut sebagai data kotor. Ketika load data ke

data warehouse, harus dilakukan cleansing data, karena NN dalam data mining adalah

GIGO (garbage in, garbage out).

2. Data Prepocessing

Data sebelum diberi perlakuan merupakan proses peningkatan kualitas dari data yang

sudah dilakukan cleaning data diatas..

3. Data expression

Sistem manajemen database dapat menentukan berbagai jenis data, dapat menyimpulkan

jenis data yang kontinyu , numerik dikrit dan menandai data yang mempunyai tiga tipe

data. Sehingga pada tahap ini dapat menentukan jenis data yang akan dianalisis lebih

lanjut.

4. Rule Extracting

Ada banyak metode untuk ekstraksi, metode yang paling umum meliputi : metode LRE

(Link Rule Extraction), metode black box, dua nilai algoritma ekstraksi meliputi input

output (BIO-RE), dari metode jaringan rekursi ekstrak dan sebagainya.

5. Rule Assesment

Secara umum, aturan dapat dinilai sesuai dengan tujuan sebagai berikut:

1. Mencari urutan ekstraksi optimal, dan mendapatkan hasil terbaik dalam satu set data

yang diberikan;

2. Menguji kebenaran aturan yang akan diambil;

3. Tes berapa banyak pengetahuan tentang nn yang belum diambil

4. Menguji ketidakkonsistensian antara aturan yang telah di extraksi dengan data NN

yang diujikan.

VI. HASIL PENELITIAN

6.1 Statistika Deskriptif Atribut

8

Page 9: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

Statistika deskriptif merupakan langkah awal yang dilakukan dalam analisis ini guna

mengetahui karakteristik dari atribut yang digunakan. Hal ini akan memberikan informasi

mengenai kepada peneliti terkait gambaran dari responden yang digunakan untuk analisis

lebih lanjut. Berikut ini adalah statistika deskriptif dari masing-masing atribut yang berskala

kontinyu.

Tabel 6.1 Statistika Deskriptif Variabel Skala KontinyuNama Variabel Minimum Maksimum Rata-rata Standar deviasi

Age 17 90 38,582 13,64

Final Weight 12285 1484705 189778,367 105549,978

Education-num 1 16 10,081 2,573

Capital-gain 0 99999 1077,649 7385,292

Capital-loss 0 4356 87,304 402,96

Hoursperweek 1 99 40,437 12,347

Berdasarkan Tabel 6.1 dapat diketahui bahwa pada variabel final weight mempunyai

nilai minmum sebesar 12285 dan maksimum sebesar 1484705. Jarak antara nilai minimum

dengan maksimum tersebut cukup jauh. Hal ini juga terlihat dari standar deviasinya yang

bernilai tinggi sebesar 105549,978 sementara rata-ratanya sebesar 189778,367. Oleh karena

itu, dapat diketahui bahwa variansi dari variabel final weight cukup besar sehingga terdapat

indikasi adanya outlier pada variabel tersebut.

Selain itu, variabel capital gain dan capital loss juga mempunyai nilai deviasi standar

yang cukup besar. Hal tersebut terlihat dari nilai minimum variabel capital gain sebesar 0

sementara nilai maksimumnya sebesar 99999. Nilai deviasi standar dari capital gain juga

sebesar 7385,292. Tidak hanya itu, variabel yang lain seperti age, educational num, dan

hoursperweek juga mempunyai ariabsi yang besar jika dilihat dari deviasi standar dannilai

minimum dan maksimumnya. Oleh karena itu, dapat diketahui bahwa terdapat indikasi

adanya outlier pada variabel-variabel tersebut.

6.2 Perbandingan Hasil Ketepatan Klasifikasi

Setelah mendapatkan karakteristik dari atribut tersebut, dilakukan pre-processing

terhadap data yang akan diolah. Pre-processing data ini akan membantu untuk mendapatkan

hasil ketepatan klasifikasi yang lebih baik. Langkah awal dalam melakukan pre-processing

tersebut adalah mengidentifikasi adanya missing value pada setiap atribut. Berikut ini adalah

tabel mengenai banyaknya missing value yang ada pada setiap atribut.

Tabel 6.2. Jumlah Missing Value Pada Setiap AtributVariabel Jenis MissingAge Kontinyu 1836

9

Page 10: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

Workclass Nominal 0Final Weight Kontinyu 0Education Nominal 0Education-Num Kontinyu 0Marital-Status Nominal 0Occupation Nominal 1843Relationship Nominal 0Race Nominal 0Sex Nominal 0Capital-Gain Kontinyu 0Capital-Loss Kontinyu 0

Hours-Per-Week Kontinyu 0

Native-Country Nominal 583

Berdasarkan Tabel 6.2 dapat diketahui bahwa pada variabel usia, terdapat nilai yang

missing sebanyak 1836 observasi. Kemudian pada atribut occupation dan native country

mempunyai nilai missing berturut-turut sebanyak 1843 dan 583 observasi. Hal ini

menunjukkan bahwa pada data tersebut terdapat data yang mempunyai nilai missing. Oleh

karena itu, perlu diatasi sebelum melakukan analisis lebih lanjut.

Selain mengatasi missing value, pada tahap pre-processing dalam analisis ini juga

mengatasi adanya outlier. Selain itu, atribut yang digunakan dalam analisis ini mempunyai

jumlah yang banyak sehingga dilakukan pula Feature Selection dalam pre-processing

datanya. Pada penelitian ini akan membandingkan beberapa integrasi pre-processing antara

cara mengatasi missing value, outlier, dan metode yang digunakan dalam feature selection.

Dalam tahap pre-processing tersebut, jumlah data yang digunakan menjadi berbeda-beda.

Berikut ini adalah jumlah data atau instances yang digunakan dalam pre-processing tersebut.

Tabel 6.3 Jumlah Data yang digunakan dalam Pre-Processingmissing Imputasi Hilang

outlier Tetap hilang Tetap Hilan

g

Featur

e

Selecti

on

wrapper

32561 28876 301622693

3

evaluati

on

Berdasarkan Tabel 6.3 dapat diketahui bahwa banyak data yang digunakan saat

preprocessing dengan melakukan imputasi pada missing value sementara outlier tetap

dimasukkan adalah sebanyak 32561, sedangkan jika outlier dihilangkan maka akan terdapat

10

Page 11: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

28876 data. Kemudian jika missing value tersebut dihilangkan dan outlier tetap dimasukkan

dalam analisis maka data yang digunakan sebanyak 30162 sementara jika outlier dihilangkan

maka terdapat sebanyak 26933 data.

Pada analisis ini juga dilakukan pre-processing dengan tahap feature selection dengan

menggunakan metode wrapper dan filter. Hasil dari metode tersebut akan menunjukkan

atribut yang baik digunakan dalam analisis guna mendapatkan ketepatan klasifikasi yang

lebih baik. Berikut ini adalah variabel-variabel yang digunakan dalam analisis berdasarkan

hasil feature selection.

Tabel 6.4 Variabel yang digunakan Berdasarkan Hasil Feature SelectionMissing Imputasi HilangOutlier Tetap Hilang Tetap Hilang

Feature Selection

Wrapper

5,6,8,11,12 5,6,8,11,12,13 5,6,8,11,12 5,6,8,11,12,13

Filter 8,6,11,1,4,5,7

8,6,11,4,5,1,7,12,13

8,6,11,1,4,7,5,13,12

8,6,11,4,5,7,1,12

Berdasarkan Tabel 6.4 dapat diketahui bahwa atribut yang digunakan pada saat pre-

processing feature selection dengan menggunakan wrapper menghasilkan atribut yang sama

meskipun missing value diatasi dengan imputasi atau dihilangkan. Perbedaannya hanya pada

cara mengatasi outliernya dengan dihilangkan atau tetap dimasukkan. Sementara itu, hasil

atribut yang dikeluarkan berdasarkan metode Filter menghasilkan atribut yang berbeda-beda

pada setiap penanganan missing value dan outliernya. Setelah dilakukan pre-processing, akan

dilakukan klasifikasi untuk mengetahui pre-processing mana yang cenderung memberikan

hasil ketepatan klasifikasi yang lebih baik. Berikut ini adalah hasil ketepatan klasifikasinya.

Tabel 6.5 Hasil Ketepatan Klasifikasi Berdasarkan Tahap Pre-processingMissing Imputasi Hilang

Outlier Tetap Hilang tetap Hilang

Feature

Selection

wrapper 84,3187 83,7581 83,6516 83,1099

Filter 85,4918 83.6508 83,8671 83,5332

Berdasarkan Tabel 6.5 dapat diketahui bahwa hasil ketepatan klasifikasi tertinggi

didapatkan dari pre-processing dengan mengimputasi missing value, tetap memasukkan

outlier, dan feature selection dengan menggunakan Filter. Nilai yang didapatkan dari pre-

processing tersebut adalah sebesar 85,4917%. Kemudian diketahui pula bahwa hasil

ketepatan klasifikasi terendah didapatkan dari pre-processing dengan menghilangkan missing

value dan menghilangkan data outlier serta menggunakan metode wrapper dalam feature

selection. Nilai yang didapatkan adalah sebesar 83,1099%.

11

Page 12: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

Pada Tabel 6.5 juga memperlihatkan bahwa hasil klasifikasi dari proses penghilangan

baik data yang missing maupun outlier akan menghasilkan ketepatan klasifikasi yang lebih

rendah dibandingkan dengan yang diimputasi atau tetap dimasukkan dalam analisis. Hal ini

menunjukkan bahwa semakin banyak data yang tidak digunakan dalam analisis, maka

informasi yang didapatkan juga akan berkurang. Selain itu, dapat dikatakan bahwa data

tersebut merupakan data yang mempunyai informasi yang penting terhadap analisis data

tersebut. Oleh karena itu, hasil ketepatan klasifikasi dengan tidak menghilangkan data

mempunyai nilai yang lebih tinggi dibandingkan dengan yang menghilangkan.

Selain itu, pada Tabel 6.5 juga diketahui bahwa tiga dari empat hasil klasifikasi yang

menggunakan metode filter mempunyai hasil ketepatan klasifikasi yang lebih tinggi

dibandingkan dengan metode wrapper. Hal ini menunjukkan bahwa metode wrapper

cenderung memberikan hasil yang lebih rendah karena dengan metode tersebut akan

langsung diperoleh variabel mana yang dapat digunakan dalam analisis tanpa mengetahui

tingkat dari masing-masing variabel tersebut.

6.3 Interpretasi Output Neural Network

Berdasarkan perbandingan tersebut, didapatkan hasil klasifikasi yang terbesar adalah

pada pre-processing mengimputasi missing value, tetap memasukkan outlier, dan feature

selection dengan menggunakan Filter dengan nilai sebesar 85,4917%. Klasifikasi dengan

menggunakan metode Artificial Neural Network (ANN) mempunyai kelemahan dalam

interpretasi modelnya. Pada klasifikasi tersebut node yang terbentuk pada hidden layer dalam

neural network ini berjumlah 25. Berikut ini adalah output yang dihasilkan dari klasifikasi

tersebut.

Berdasarkan output tersebut dapat diketahui bahwa hasil ketepatan klasifikasi sebesar

85,4918 % dengan banyak instances 27837, sedangkan sebanyak 4724 data terjadi kesalahan

klasifikasi. Nilai statistic Kappa yang didapatkan adalah sebesar 0,5715. Kemudian mean

absolute error dari model tersebut sebesar 0,1873. Semakin kecil error yang didapatkan, maka

semakin kecil pula kesalahan klasifikasi yang terjadi.

12

Correctly Classified Instances 27837 85.4918 % Incorrectly Classified Instances 4724 14.5082 % Kappa statistic 0.5715 Mean absolute error 0.1873 Root mean squared error 0.316 Relative absolute error 51.2159 % Root relative squared error 73.9069 % Total Number of Instances 32561

Page 13: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

VII. KESIMPULAN

Kesimpulan yang dapat diambil dari analisis tersebut adalah sebagai berikut.

1. Pada atribut yang berskala kontinyu terdapat range atau jangkauan yang besar antara

nilai minimum dan maksimum. Selain itu nilai deviasi standar juga tinggi, sehingga

penyebarannya masih tidak merata atau variansi yang terjadi dalam atribut tersebut

masih tinggi. Selain itu, terdapat indikasi outlier juga pada atribut tersebut.

2. Hasil ketepatan klasifikasi tertinggi didapatkan dari pre-processing dengan

mengimputasi missing value, tetap memasukkan outlier, dan feature selection dengan

menggunakan Filter dengan nilai sebesar 85,4917%. Semakin banyak data yang

dihilangkan dalam analisis, maka informasi yang didapatkan akan semakin berkurang.

Kemudian dalam analisis ini dengan menggunakan metode filter dapat menghasilkan

ketepatan klasifikasi yang lebih baik dibandingkan dengan metode wrapper.

3. Pada klasifikasi dengna hasil ketepatan klasifikasi terbesar tersebut node yang

terbentuk pada hidden layer dalam neural network ini berjumlah 25.

VIII. DAFTAR PUSTAKA

David Kriesel.A brief Introdution to Neural Network. Diunduh dari http://www.dkriesel.com/en/science/neural_networks pada 15 Desember 2014

Guoquan Jianga, C. Z. (2011). The Research of Data Mining Based on Neural Networks.

International Conference on Computer Science and Information Technology 2011.

Singapura: LACSIT Press.

Rudi hermanto. Neural Network dan Implementasinya Dalam Data Mining.Bandung.ITB

Yashpal Singh. Neural Networks In Data Mining. United Institute of Engineering

&Technology India.

IX. TUGAS TIAP MAHASISWA

Berikut ini adalah tugas dari masing-masing anggota kelompok.

No Nama Tugas1 Dwi Prasetya Mencari dan memahami referensi materi,

Mengerjakan laporan Bab 5 dan 82 Saidah Zahrotul Jannah Mencari dan memahami referensi materi,

Mengerjakan laporan Bab 1,2, 3, 4, 6, dan 73 Dio Ariadi Mencari dan memahami referensi materi, Melakukan

13

Page 14: KOMPARASI METODE PRE-PROCESSING DATA DENGAN MENGGUNAKAN HASIL KLASIFIKASI ARTIFICIAL NEURAL NETWORK (ANN)

running program dengan menggunakan Weka, Mengerjakan power point, Mengerjakan poster

14