templatesnatia - universitas brawijaya€¦ · web viewmatlab ® is a registered ... image...

SENTIMENT ANALYSIS DOKUMEN E-COMPLAINT KAMPUS MENGGUNAKAN

ADDITIVE SELECTED KERNEL SVM

Imam Cholissodin1, Budi Darma S1

1 Teknik Informatika, Program Teknologi Informasi dan Ilmu Komputer, Universitas BrawijayaJl. Veteran No.8 Malang, Informatika, Gedung A PTIIK – UB

Email : [email protected], [email protected]

ABSTRAK

Teknologi merupakan salah satu kunci utama pelayanan prima pada lembaga manapun. E-Complaint merupakan bagian dari lembaga pendidikan dalam kampus yang mengelola data keluhan sebagai tolak ukur pelayanan prima dan deteksi dini kelemahan dari semua sistem pelayanan yang ada. Data keluhan yang dikelolapun sangat beragam dan jumlahnya bertambah secara signifikan. Hal ini tidak sebanding dengan jumlah sumber daya manusia yang ada dalam lembaga tersebut. Jika dokumen tersebut dikelola dengan cara manual, maka akan membutuhkan usaha cukup besar dan waktu yang cukup lama. Selain itu, mayoritas data keluhan selalu identik dengan kata-kata yang negatif. Namun tidak semua dokumen yang mengandung kata-kata negatif termasuk dalam kelas sentiment negatif, karena bisa jadi ternyata dokumen komplain tersebut mengandung kritik yang membangun. Hal inilah yang menjadi topik utama pada penelitian ini. Dari berbagai permasalahan tersebut, maka sangat dibutuhkan proses pengelolahan dokumen komplain secara realtime, cepat dan akurat dengan sistem yang mampu melakukan filterisasi secara otomatis untuk menyeleksi dokumen komplain mana saja yang positif dan negatif sebelum dilakukan proses tindak lanjut untuk menyelesaikan komplain tersebut. SVM merupakan salah satu metode yang sangat handal dalam melakukan proses klasifikasi data yang memiliki tingkat kemiripan tinggi, karena mampu mengolah data baik linear maupun non-linear dengan menggunakan kernel trik pada dimensi tinggi dan tidak tergantung pada banyaknya fitur yang digunakan. Dalam penelitian ini, digunakan metode additive selected kernel SVM dengan menambahkan teknik density of document (DoD) untuk membantu dalam mengoptimalkan hasil pencaran titik data dari dokumen. Additive selected kernel bekerja dengan melakukan penambahan beberapa fungsi kernel untuk membuat fungsi hyperplane dengan iterasi yang singkat dan optimal. Dari hasil pengujian semua skenario percobaan dengan menggunakan metode tersebut didapatkan rata-rata akurasi sebesar 98.60%.

Kata Kunci: Sentiment Analysis, Support Vector Machine, Additive Selected Kernel, Information Retrieval, Dokumen E-Complaint.

1 PENDAHULUAN

Dalam mengajukan sebuah komplain atau saran bagi civitas akademika kampus, seseorang diharapkan memberikan informasi dengan detail terkait apa yang ingin disampaika. Sehingga lembaga E-Complaint dapat dengan mudah untuk membantu menanggapi dan menyampaikan kepada pihak-pihak yang terkait. Namun selama ini proses pengelolaan dokumen E-Complaint tersebut masih dilakukan secara manual, tanpa adanya sistem otomasi untuk melakukan pengelolaan lebih cepat menggunakan sistem komputerisasi yang dapat bekerja mirip dengan manusia. Alasan dilakukan penelitian pada topik ini karena memang kebanyakan persepsi seseorang dalam menilai dokumen E-Complaint selalu mengkategorikan sebagai dokumen yang negatif. Bagi kami, hal ini justru menarik untuk dilakukan pengkajian sebagai objek penelitian, karena bisa jadi bahwa ketika dokumen komplain

tersebut berisi kata-kata yang dianggap negatif, tetapi justru memuat kritik yang sangat membangun.

Additive kernel termasuk kernel yang banyak digunakan untuk proses klasifikasi gambar berdasarkan histogramnya [5]. Additive kernel SVM menawarkan perbaikan yang signifikan dalam akurasi dibandingkan dengan kernel lainnya. Sehingga kernel ini sangat praktis untuk mengelola klasifikasi data pada skala besar maupun yang bersifat realtime. Penelitian tersebut menyajikan percobaan pada berbagai dataset, termasuk INRIA person, Daimler-Chrysler pedestrians, UIUC Cars, Caltech-101, MNIST dan USPS digits, untuk menunjukkan efektivitas dan efisiensi dari algoritma SVM dengan additive kernel. Selain itu, additive kernel juga mampu mempersingkat proses iterasi dari algoritma pelatihan SVM.

Sentiment analysis telah dikembangkan dengan banyak cara untuk mempersepsikan isi dari suatu dokumen. Dokumen yang diambil dari forum diskusi online memungkinkan pengguna internet

1

mailto:[email protected]

mailto:[email protected]

untuk mengekspresikan pendapat mereka tentang berbagai macam topik melalui dokumen tersebut. Karena jumlah dokumen topik di internet tumbuh secara eksponensial, maka untuk membantu pengguna internet memahami dokumen topik yang banyak dengan cepat dan mudah, diperlukan metode khusus sesuai dengan basis permasalahan yang digunakan. Kemudian pada penelitian yang lain mengusulkan pendekatan berbasis ontologi untuk meningkatkan hasil klasifikasi yang dikombinasi dengan metode SVM pada dokumen yang membahas tentang review perangkat lunak [6]. Akan tetapi penelitian tersebut hanya sebatas melihat tingkat kedetailan dari deskripsi kelebihan dan kekurangan suatu perangkat lunak, tanpa mempertimbangan review sentiment negatif maupun positif dari pelanggan atau pihak terkait. Kemudian disusul penelitian tentang sentiment analysis pada teks berbahasa Indonesia menggunakan maximum entropy dan SVM [7]. Mereka mengidentifikasi bahwa seseorang cenderung untuk mengekspresikan pendapat hanya dalam bentuk teks, sementara emoticon jarang digunakan dan kadang-kadang tidak sesuai dengan apa yang dibicarakan. Mereka juga mengidentifikasi bahwa tulisan di media sosial Indonesia dapat diklasifikasikan tidak hanya untuk pertanyaan positif, negatif, netral dan tetapi juga untuk kasus khusus pada kata-kata yang sedikit alay dan sulit dimengerti oleh komputer. Penelitian tersebut mendapatkan akurasi sebesar 83.5%.

Pada penelitian ini kami mengusulkan teknik sentiment analysis dengan menggunakan metode additive selected kernel SVM dengan menambahkan teknik density of document (DoD) pada saat pengambilan fitur kata-kata positif dan negatif dari dokumen serta menyeleksi penggunaan fungsi kernel sebelum dilakukan proses additive. Hal ini untuk menjaga agar hasil mapping data dari dua fungsi kernel yang berbeda tersebut dapat dihitung tanpa menggunakan pendekatan, sehingga didapatkan solusi yang menghasilkan nilai eksak untuk setiap parameter pada fungsi hyperplane yang dibentuk. Kemudian untuk melakukan proses seleksi fungsi kernel tersebut, kami menggunakan identifikasi dari kesamaan dimensi hasil mapping datanya. Jika dimensi mapping datanya tidak sama dengan hasil mapping data kernel lainnya, maka proses additive tersebut tidak dapat dilakukan. Langkah pertama dalam metode yang diusulkan ini, sistem melakukan proses pelatihan setiap data dokumen E-Complaint dengan menggunakan beberapa kombinasi jenis kernel serta variasi besarnya rasio data training dan testing yang telah ditentukan sebelumnya. Langkah yang kedua yaitu menambahkan dua fungsi kernel polynomial pada derajat dua dan konstanta yang dinamis. Kemudian langkah yang terakhir adalah melakukan proses pengujian terhadap semua data

dokumen pada setiap kombinasi skenario untuk mendapatkan hasil klasifikasi yang optimal.2 MODEL, ANALISIS, DESAIN, DAN

IMPLEMENTASI

2.1 E-ComplaintPenjaminan mutu (quality assurance)

pendidikan tinggi sebagai proses penetapan dan pemenuhan standar mutu pendidikan secara konsisten dan berkelanjutan dimaksudkan agar pelanggan memperoleh kepuasan serta menghasilkan pengembangan berkelanjutan (continous improvement) di perguruan tinggi. Agar perbaikan dan pengembangan dapat dilakukan dengan cepat dan terus-menerus serta kepuasan pelanggan senantiasa terpenuhi, keluhan yang disampaikan oleh pelanggan sebenarnya merupakan masukan yang sangat berharga dan harus ditindaklanjuti secara tepat dan terjamin. Keluhan pelanggan juga merupakan salah satu instrumen untuk melakukan evaluasi dan deteksi dini terhadap kelemahan sistem ataupun penyimpangan terhadap pelaksanaan dokumen manual mutu. Hal ini juga sangat diperlukan untuk mencapai standar World Class University [1].

Pada Gambar 1 merupakan data statistik keluhan pelanggan dalam bentuk pie chart yang diambil pada pertengahan tahun 2013. Dari gambar tersebut terlihat bahwa urutan prosentase keluhan terbesar sampai yang terkecil adalah Visi, Misi, Tujuan dan Sasaran, serta Strategi Pencapaian sebesar 22.07%, Tata Pamong, Kepimpinan, Sistem Pengelolaan dan Penjaminan Mutu sebesar 16.72%, Mahasiswa dan Lulusan sebesar 4.35%, Sumberdaya Manusia sebesar 2.01%, Kurikulum, Pembelajaran, dan Suasana Akademik sebesar 18.39%, Pembiayaan, Sarana dan Prasarana, Sistem Informasi sebesar 24.75%, Penelitian, Pengabdian kepada Masyarakat, Kerjasama sebesar 2.01%, serta Layanan Teknologi Informasi sebesar 9.70%.

2

Imam Cholissodin, Sentiment Analysis Dokumen E-Complaint Kampus Menggunakan Additive Selected Kernel SVM

Gambar 1. Statistik E-Complaint

2.2 Text PreprocessingText Preprocessing adalah suatu proses

pengubahan bentuk data belum terstruktur menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining. Tujuan dilakukan pre-processing adalah memilih setiap kata dari dokumen dan merubahnya menjadi kata dasar yang memiliki arti sempit dan proses teks mining akan memberikan hasil yang lebih memuaskan. Tahapan text preprocessing menurut Mooney terbagi menjadi lima tahap, yaitu tokenizing, filtering, stemming, tagging, dan analyzing [8]. Dalam dokumen E-Complaint berbahasa Indonesia, kami memodifikasi tahapan text preprocessing menjadi seperti pada Gambar 2 dibawah ini.

Gambar 2. Tahap Preprocessing

2.3 Density of DocumentKepadatan dokumen atau Density of

Document (DoD) ini tanpa menggunakan konsep peluang, artinya tidak ada pembagian banyaknya kemungkinan semua kata yang ada pada semua dokumen, akan hanya tetapi menggunakan tingkat banyaknya kata yang dituliskan oleh user akan diberikan nilai 1 per 100 kata.

(1)

Semakin banyak kata yang dituliskan, maka semakin besar kemungkinan user tersebut mengeluh. dan semakin besar kemungkinan dokumen tersebut masuk kelas negatif walaupun tidak bisa dipastikan secara langsung hanya menggunakan fitur kata positif dan negatif. Oleh sebab itulah diperlukan faktor penambahan kepadatan dokumen sebagai buffer dan penyeimbang dokumen sekaligus untuk membuat unik posisi dari titik data dokumen. Alasan lainnya adalah agar titik data satu dokumen dengan dokumen yang lainnya saling berpencar dengan maksimal dan tidak overlapping. Jika menggunakan nilai peluang, maka nilai pencaran titik datanya menjadi kurang

optimal. Rumus ini kami modifikasi dari penelitian sebelumnya, yang menggunakan pendekatan Density Probabilistic Document Correlation (DPDC) [4].2.4 Sentiment Analysis

Sentiment Analysis secara umum bertujuan untuk mengekstrak sikap dan perasaan pelanggan, darinya didapatkan ulasan terstruktur dengan memisahkan informasi secara objektif dari informasi lainnya. Sentiment analysis merupakan sebuah cabang penelitian di bidang Text Mining yang mulai naik daun pada awal tahun 2002. Riset tersebut mulai marak setelah paper dari B. Pang dan L. Lee dipublikasikan keseluruh dunia [9]. Secara umum, sentiment analysis ini dibagi menjadi dua kategori besar [10] : Coarse-grained sentiment analysis. Fined-grained sentiment analysis.

Coarse-grained sentiment analysis adalah melakukan proses analisis pada level dokumen. Singkatnya adalah mencoba mengklasifikasikan dan berorientasi pada sebuah dokumen secara keseluruhan. Orientasi ini ada 3 jenis : Positif, Netral dan Negatif. Akan tetapi, ada juga yang menjadikan nilai orientasi yang bersifat kontinu atau tidak diskrit. Sedangkan Fined-grained sentiment analysis merupakan kategori yang sedang jadi trend sekarang. Maksudnya adalah para peneliti sebagian besar berfokus pada jenis ini. Obyek yang ingin diklasifikasi bukan berada pada level dokumen melainkan sebuah kalimat pada suatu dokumen, contoh : Saya tidak suka mendengar pendapat positif

dari orang lain. (negatif). Saran dan kritik tersebut terbukti sangat

membantu institusi kami. (positif).Secara garis besar, Sentiment analysis terdiri

dari 3 subproses utama [11]. Masing-masing subproses ini bisa dijadikan topik riset secara terpisah karena masing-masing subproses ini membutuhkan teknik yang tidak mudah : Subjectivity Classification (Menentukan kalimat

yang merupakan opini). Orientation Detection (Menentukan apakah

opini tersebut positif, netral atau negatif). Opinion Holder and Target Detection

(Menentukan bagian yang merupakan opini holder dan yang merupakan target utama opini).

2.5 Additive Kernel SVMInisialisasi data pelatihan yang digunakan,

diberikan label dalam bentuk , dengan

menggunakan formulasi C-SVM [12]. Untuk kasus linear, algoritma tersebut terbukti dapat menemukan hyperplane terbaik yang dapat memisahkan data dengan meminimalkan fungsi berikut :

3

TOKENIZING

FILTERING

STEMMING

TERM WEIGHTING

(2)untuk dan , dimana C > 0 adalah trade off pada constraint. Fungsi kernel pada titik data K(x,z) : Rn x Rn R merupakan hasil inner produk dari . Fungsi mapping data

dan tersebut sangat sulit sekali untuk ditemukan nilai-nilainya dari dimensi tinggi yang menghasilkan nilai inner produk sama dengan K(x,z). Karena kesulitan tersebut, maka sistem mengendalikan secara langsung dari fungsi kernel yang digunakan. Kemudian untuk mendapatkan persamaan hyperplane yang optimal, dapat digunakan persamaan berikut :

(3)

untuk : dan (4)

fungsi keputusannya adalah , dimana :

(5)

Perhatikan bahwa Persamaan 3 hanya membutuhkan akses ke fungsi kernel saja, tanpa harus melakukan mapping data dengan fungsi , m adalah banyaknya support vector. Sehingga hal ini memungkinkan seseorang untuk memecahkan formulasi dalam ruang fitur yang berdimensi tinggi dengan sangat efisien, langkah inilah yang disebut sebagai kernel trik. Untuk kernel linear, kita dapat menggunakan fungsi kernel , dan fungsi hyperplane , dimana vektor w

dapat dihitung dengan rumus dan

. Jika pada kasus non-linear

vektor w dapat dihitung dengan rumus

dan konstanta b dengan

rumus . Khusus

untuk additive selected kernel digunakan rumus

dan dapat ditulis

sebagai .

2.6 Sequential Training SVMSalah satu metode paling sederhana yang

digunakan untuk mendapatkan garis atau bidang hyperplane yang optimal dalam SVM adalah metode

sequential yang telah dikembangkan oleh Vijayakumar [3], berikut langkah-langkahnya. Pertama, inisialisasi nilai parameter yang

digunakan. Misal set , (learning rate), C=1 (variabel slack), IterMax=1000 dan

(epsilon). Kedua, set , lalu menghitung matrik Dij

(sebagai matrik Hessian). dan i,j=1,…,N.

N adalah banyaknya data. Ketiga, lakukan (a), (b) dan (c) berikut dengan

i=1 sampai N.

(a)

(b)

merupakan variabel tunggal dan bukan bentuk dari perkalian dan .

(c) Kembali ke langkah Ketiga, sampai pada

kondisi IterMax atau .

Support vector, nilai ThresholdSV ditentukan dari hasil beberapa kali percobaan. Nilai threshold tersebut adalah .

Selesai.

3 SKENARIO UJI COBA

Dalam penelitian ini, kami menggunakan kernel linear, kernel polynomial degree dan degree up. Skenario yang digunakan adalah dengan melakukan proses training dan testing secara berkesinambungan pada beberapa rasio atau perbandingan data yang dipilih secara acak. Pada kernel polynomial tersebut, kami melakukan ujicoba dengan mengkombinasikan beberapa nilai konstanta pada kernel untuk dibandingkan hasil akurasinya. Berikut detail dari skenario yang digunakan. Menggunakan metode sequential SVM untuk

melakukan proses training pada titik-titik data dokumen [3].

Kombinasi nilai konstanta yang dipilih yaitu [1,1], [1,2], [1,3], [1,4], [1,5], [2,1] dan [2,5]. Kombinasi ini digunakan untuk kernel additive yang telah diseleksi.

Rasio perbandingan data training dan testing yang digunakan adalah [80:20], [70:30], [60:40], [50:50] dan [40:60] dalam satuan persen (%).

Kemudian untuk visualisasi data, digunakan model dua dimensi dan tiga dimensi, hal ini sangat berguna dalam menganalisis mapping

4


data satu dengan data yang lainnya dalam kelas yang sama maupun yang berbeda.

Menggunakan kernel polynomial tipe degree dan up to degree untuk additive selected kernel, karena setelah kami menguraikan beberapa bentuk dari kernel tersebut, diketahui bahwa fungsi kernel polynomial ini masih relatif mudah untuk ditemukan hasil mapping data pada dimensi tinggi dari pada menggunakan kernel yang lain. Selain itu dari hasil percobaan kami pada proses testing menggunakan secara langsung hasil mapping data dan ternyata dapat lebih mengoptimalkan hasil akurasi jika dibandingkan dengan menggunakan pendekatan fungsi kernel secara langsung untuk menggantikan hasil mapping data pada dimensi tinggi yang sulit sekali untuk ditentukan pada beberapa kernel lainnya. Artinya bahwa pendekatan di sini tidak selalu memberikan solusi eksak, akan tetapi dapat mendekati solusi sebenarnya dan memang banyak yang sudah menggunakan karena alasan sulit mendapatkan mapping datanya.

Hasil mapping data dokumen E-Complaint ini awalnya hanya memanfaatkan fitur frekuensi kata yang negatif maupun yang positif, akibatnya banyak dari beberapa dokumen tersebut memiliki nilai fitur yang sama, sehingga hasil visualisasi mapping titik datanya terlihat saling overlap. Untuk mengatasi hal tersebut, kami mengambil langkah penambahan faktor density of document (DoD). Asumsinya adalah semakin padat kata-kata yang diungkapkan oleh user, maka akan semakin memperkuat point kritikan yang disampaikan. Dan point kritikan ini biasanya mengarah kepada dokumen yang bermakna kepada penekanan, baik itu kritik positif maupun negatif. Setelah kami lakukan langkah tersebut, hasil akhir dari mapping dokumen menjadi titik data pada bidang koordinat dua dimensi dapat terpisah dengan jelas dan setiap dokumen memiliki tingkat faktor kepadatan yang unik. Faktor kepadatan dokumen data ini kami tambahkan terhadap setiap nilai fitur frekuensi kata positif dan negataif, dengan analogi bahwa banyaknya uraian kata-kata dalam dokumen keluhan tersebut dapat mendukung secara langsung ke dua fitur, yaitu uraian panjang kritikan positif dan negatif. Berikut rumus faktor kepadatan dokumen yang digunakan :

(6)

(7)

TF menyatakan banyaknya kemunculan kata positif dan negatif pada suatu dokumen yang diamati. TF_Baru adalah hasil dari penambahan TF dengan DoD. Langkah ini akan dilakukan pada semua dokumen keluhan untuk dijadikan nilai fitur. Jadi

fitur yang terbentuk tersebut ada dua dimensi, yaitu fitur kata positif (TF_BaruPositif) dan fitur kata negatif (TF_BaruNegatif). Setiap keluhan memang dapat dinilai berbeda, hal ini dapat disesuaikan dengan sudut pandang seorang reviewer. Dalam menelaah data keluhan ini, sistem tersebut sangat berguna dalam membantu memberikan penilaian awal dan sekaligus sebagai salah satu bahan pertimbangan yang dapat bekerja dengan sangat cepat. Jika memang data keluhan diset ulang untuk kelas pelatihannya pun ini sangat memungkinkan, karena ini hanya sebatas perbedaan persepsi saja dan semuanya memiliki argumentasi yang sama-sama benar. Dan justru karena multi persepsi dan sangat sulitnya menyeleksi dokumen keluhan ini, apalagi membedakan mana saja dokumen keluhan yang mengandung kritik tajam tapi membangun dan sebaliknya. Oleh karena itu, permasalahan ini sangat rentan terjadi kesalahan pengklasifikasian jika hanya mengandalkan metode statistik biasa. Memang dikenyataanya, hasil mapping data keluhan pada koordinat titik data antara kelas data yang berlabel positif dan negatif pun bisa saling overlapping. Untuk itulah algoritma SVM ini digunakan, karena memang didalam algoritma tersebut terdapat kernel trik yang dapat bermanfaat untuk mentransfomasi titik-titik data keluhan yang tidak dapat dipisahkan secara linear atau bersifat non-linear dan saling overlapping berdasarkan kelasnya masing-masing. Lalu proses pengklasifikasiannya pun dilakukan pada dimensi tinggi. Proses transformasi ini dapat memisahkan semua titik koordinat data keluhan pada dimensi tinggi berdasarkan fungsi kernel yang digunakan. Hal inilah yang kemudian dapat mempermudah proses klasifikasi dengan tujuan dapat meningkatkan hasil akurasi data ujinya.

4 HASIL UJI COBA

Pada uji coba yang pertama, yaitu dengan kombinasi kernel linear dan semua variasi rasio perbandingan data training dan testing. Hal ini kami lakukan untuk menguji apakah metode yang digunakan tersebut tetap bisa handal pada berbagai situasi data keluhan. Berikut beberapa hasil proses pelatihan yang didapatkan.

5

Gambar 3. Hasil Training Data Dokumen E-Complaint Dengan SVM Kernel Linear Pada

Rasio [50:50]

Pada Gambar 3 menunjukkan bahwa metode SVM dengan kernel linear ini sangat handal dalam memisahkan data antara dua kelas. Jika memang diketahui bahwa secara kasat mata hasil mapping titik-titik data dokumen tersebut dapat terpisah secara linear. Hal ini bisa dilihat bahwa garis pemisah yang terbentuk dari fungsi hyperplane f(x), secara visualisasi dapat memisahkan dan sangat dekat dengan persepsi kita. Akan tetapi hasil dari pelatihan dari satu jenis rasio dan lainnya ternyata memberikan hasil training yang berbeda. Kita melihat sekilas sepertinya garis hyperplane yang terbentuk nampak mirip letak dan kemiringannya, tetapi sebenarnya jika dilihat lebih dekat memiliki nilai margin yang berbeda. Otomatis nilai w sebagai vektor yang tegak lurus dengan garis hyperplane dapat dipastikan berbeda. Hal ini bisa dilihat pada hasil training Gambar 4 dan Gambar 5.


Rasio [70:30]


Rasio [80:20]

6


Gambar 6. Hasil Testing Data Dokumen E-Complaint Dengan SVM Kernel Linear Pada

Rasio [50:50]

Hasil testing pada uji coba pertama ini menunjukkan bahwa ada yang semua data testing-nya terklasifikasi dengan benar seperti pada Gambar 6, dan ada pula yang beberapa datanya masih salah saat diklassifikasi seperti pada Gambar 7. Bahkan ada titik data yang tepat berada pada garis hyperplane. Pada kasus ini, kami mengasumsikan bahwa data tersebut tidak netral, akan tetapi kami memasukkan dalam kelas positif seperti ditunjukkan pada Gambar 8. Alasan kami memasukkan dalam dokumen positif adalah untuk memberikan tolerasi dan ruang tengah yang bisa membantu untuk membedakan mana saja dokumen yang benar-benar termasuk dokumen negatif dan bukan negatif. Berikut ini adalah beberapa tampilan hasil proses testing setiap titik data pada kernel linear.


Rasio [60:40]


Rasio [60:40]

Hasil akurasi yang didapatkan pada ujicoba pertama ini dapat dilihat pada Gambar 9. Pada rasio [80:20] dan [70:30] menunjukkan bahwa hasil akurasinya 100%, kemudian pada rasio [60:40], [50:50] dan [40:60] mulai terlihat beberapa variasi nilai akurasinya, yaitu kadang naik dan turun. Akan tetapi hasil akurasi yang didapatkan masih relatif di atas 90%. Salah satu faktor yang mempengaruhi besar nilai akurasi adalah semakin banyaknya data training yang digunakan dalam setiap kasus, dan rasio yang terbaiknya adalah [80:20] dan [70:30]. Kemudian untuk rata-rata keseluruhan nilai akurasinya adalah 99.21 %. Nilai rata-rata ini dapat dikatakan sangat optimal dan layak untuk digunakan sebagai rekomendasi bahwa sistem yang dibuat tersebut memiliki tingkat persepsi yang hampir mendekati dengan analisis persepsi manusia.

7

Gambar 9. Hasil Akurasi Testing Data Dokumen E-Complaint Dengan SVM Kernel Linear Pada

Semua Rasio

Pada kernel linear di atas, kami hanya dapat melakukan proses visualisasi mapping titik-titik data keluhan pada dimensi dua. Kemudian pada kernel polynomial, kami dapat melakukan proses visualisasi pada dua bidang yaitu dua dimensi maupun tiga dimensi. Hal ini dikarenakan hasil mapping data dari dimensi rendah ke dimensi tingginya menghasilkan tiga dimensi yang masih memungkinkan untuk dilakukan proses plotting. Berikut ini adalah ujicoba yang kedua menggunakan kernel polynomial sekaligus menunjukkan hasil proses visualisasinya pada dua dimensi maupun tiga dimensi.

Gambar 10. Hasil Training 2D Data Dokumen E-Complaint Dengan SVM Kernel Polynomial Pada

Rasio [50:50]


Rasio [50:50]

Pada Gambar 10 dan Gambar 12 tersebut menunjukkan bahwa garis hyperplane yang terbentuk ternyata memiliki sifat kuadratik. Artinya persamaan f(x) yang membentuk garis hyperplane tersebut berupa persamaan kuadrat. Hal ini sangat berbeda dengan hasil persamaan garis pada kernel linear. Kemudian hasil visualisasi tiga dimensi dapat dilihat pada Gambar 11 dan Gambar 13. Dari gambar tersebut dapat dinyatakan bahwa data pada dimensi tinggi dapat dipisahkan secara linear oleh sebuah bidang hyperplane yang dibentuk dari transformasi titik data dari setiap dokumen dengan rumus

yang kemudian kami uraikan menjadi bentuk persamaan kuadrat jika diimplementasikan pada bidang dua dimensi. Misal diketahui vektor w =[w1 w2 w3]t , x=[x1 x2]t dan z=[z1

z2]t. Langkah awal yang perlu dilakukan adalah mentransformasi data menjadi berikut :

dan (8)

Diketahui bahwa dan , untuk mencari nilai pada kernel polynomial, kita dapat secara langsung dengan menghitung

. Sedangkan jika menggunakan teknik mapping data, maka kita dapat menghitung dengan yang jika diuraikan didapatkan hasil sebagai berikut :

8


(9)

Pembuktian untuk menyatakan bahwa nilai dapat diamati pada

penguraian berikut.

(10)


Rasio [60:40]


Rasio [60:40]

Gambar 14. Hasil Testing 2D Data Dokumen E-Complaint Dengan SVM Kernel Polynomial Pada

Rasio [50:50]

Analisis hasil testing pada ujicoba kedua ini tidak jauh berbeda dengan ujicoba pertama. Dari hasil ujicoba kedua ini menunjukkan bahwa ada yang semua data testing-nya terklasifikasi dengan benar seperti pada Gambar 14, Gambar 15 dan Gambar 16, dan ada pula yang beberapa datanya masih salah saat diklasifikasi seperti pada Gambar 17 dan Gambar 18. Bahkan ada titik data yang tepat berada pada garis hyperplane. Pada kasus ini, kami mengasumsikan bahwa data tersebut tidak netral, akan tetapi kami memasukkan dalam kelas positif seperti ditunjukkan pada Gambar 19 dan Gambar 20. Berikut ini adalah beberapa tampilan lainnya hasil proses testing setiap titik data pada kernel polynomial.

9


Rasio [50:50]


Rasio [60:40]

Penguraian di atas pada Persamaan 10 bisa juga digunakan untuk menganalisis hasil bentuk mapping data pada dimensi tinggi dari titik data dokumen pada variasi bentuk kernel polynomial yang lainnya, dan nanti akan dibahas pada bagian additive kernel. Untuk melakukan proses plotting hyperplane pada bidang dua dimensi dari persamaan mapping pada tiga dimensi tersebut kita perlu untuk menguraikan rumus dengan pernyataan sesuai teori SVM bahwa hasil penghitungan nilai data x pada persamaan jika data x tersebut tepat berada pada garis hyperplane. Berikut ini adalah penjabarannya.

(11)

Hasil penguraian pada Persamaan 10 tersebut berupa persamaan kuadrat yang dapat diselesaikan salah satunya menggunakan rumus abc. Pada bidang dua dimensi ini, hasil penggambaran persamaan kuadrat tersebut akan secara otomatis muncul diantara kelas pada titik data. Sedangkan pada bidang tiga dimensi, garis hyperplane tersebut akan menjadi sebuah bidang linear. Misalkan kita set

, dan maka

untuk mendapatkan nilai adalah sebagai berikut.

(12)


Rasio [40:60]

10



Rasio [40:60]

Analisis hasil akurasi yang didapatkan pada skenario kedua ini dapat dilihat pada Gambar 19. Pada rasio [80:20] dan [70:30] menunjukkan bahwa hasil akurasinya 100%, kemudian pada rasio [60:40], [50:50] dan [40:60] mulai terlihat beberapa variasi nilai akurasinya, yaitu kadang naik dan turun. Akan tetapi hasil akurasi yang didapatkan masih relatif ≥ 90%. Salah satu faktor yang mempengaruhi besar kecilnya nilai akurasi adalah semakin banyaknya data training yang digunakan dalam setiap proses pengujian. Dari pengujian tersebut didapatkan rasio terbaiknya adalah [80:20] dan [70:30]. Kemudian untuk rata-rata keseluruhan nilai akurasinya adalah 98.60 %. Nilai rata-rata ini dapat dikatakan masih sangat optimal dan layak untuk digunakan sebagai rekomendasi bahwa sistem yang dibuat tersebut memiliki tingkat persepsi yang hampir mendekati dengan analisis persepsi manusia.

Gambar 19. Hasil Akurasi Testing Data Dokumen E-Complaint Dengan SVM Kernel Polynomial

Pada Semua Rasio

Pada additive selected kernel dengan derajat 2 dan konstanta yang dinamis, yaitu misal pada c1 = 1 dan c2 = 2 didapatkan hasil mapping dimensi tingginya adalah enam dimensi. Berikut ini adalah proses perhitungan transformasi dari data dua dimensi ke enam dimensi pada c1.

(13)sehingga didapatkan persamaan berikut,

(14)

atau sistem juga dapat menggunakan rumus kernel asli tanpa melakukan proses penguraian mapping dari titik data yang akan diproses seperti langkah berikut.

(15)

Kemudian untuk mendapatkan hasil mapping titik-titik data dengan additive selected kernel adalah sebagai berikut.

11

(16)Setelah itu, untuk membuat mapping titik data pada additive selected kernel ini, kami menggunakan persamaan berikut.

(17)dimana m merupakan banyaknya support vector yang didapatkan dari proses pelatihan yang kemudian digunakan untuk menghitung vektor w. Setelah mendapatkan vektor w, kami menghitung nilai b.

(18)Setelah terbentuk w dan b, kemudian dibentuk fungsi klasifikasinya .

(19)

Karena kami hanya mampu melakukan proses plotting maksimal pada tiga dimensi, maka plotting enam dimensi tersebut tidak kami lakukan berdasarkan dimensi titik data hasil transformasi pada Persamaan 13. Akan tetapi walaupun sistem tidak mampu memvisualisikan enam dimensi, dengan memanfaatkan sifat dari mapping data dimensi pada kernel, dalam hal ini kami mengambil langkah untuk mendapatkan hasil mapping data dari dua kernel atau lebih yaitu dengan cara additive. Hasil dari penambahan ini nanti dapat digunakan untuk melakukan pembuatan visualisasi dalam dua dimensi.

Berikut ini adalah ujicoba yang ketiga yang merupakan ujicoba terakhir menggunakan additive selected kernel sekaligus menunjukkan hasil proses visualisasinya pada dua dimensi. Pada ujicoba ini nanti digunakan kombinasi nilai c1 dan c2 yaitu [1,1], [1,2], [1,3], [1,4] dan [1,5] pada semua variasi rasio antara data training dan testing.

Gambar 20. Hasil Training 2D Data Dokumen E-Complaint Dengan Additive Selected Kernel SVM

C1=1 C2=1 Pada Rasio [40:60]


C1=1 C2=2 Pada Rasio [40:60]

12



C1=1 C2=3 Pada Rasio [60:40]


C1=1 C2=4 Pada Rasio [80:20]


C1=1 C2=5 Pada Rasio [80:20]

Pada Gambar 20-24, merupakan hasil dari proses pelatihan menggunakan metode SVM dengan additive selected kernel. Dari keseluruhan hasil pelatihan tersebut didapatkan bahwa secara kasat mata hasil mapping titik-titik data dokumen tersebut dapat dipisahkan secara non-linear menggunakan persamaan hyperplane. Jika dilihat dari segi kelengkungan garisnya, maka akan ada banyak sekali variasi bentuknya. Kelengkungan garis hyperplane ini sangat tergantung dari sebaran titik-titik data diantara dua kelas dokumen yang divisualisasikan dalam bidang koordinat tersebut. Kelengkungan garis yang terbentuk dari fungsi persamaan untuk hyperplane non-linier tersebut sebenarnya sangat cocok untuk titik data yang memiliki sebaran yang kemungkinan besar akan saling overlapping dengan data kelas lainnya jika jumlah data tersebut dalam skala yang cukup besar.

Gambar 25. Hasil Testing 2D Data Dokumen E-Complaint Dengan Additive Selected Kernel SVM

C1=1 C2=1 Pada Rasio [40:60]13


C1=1 C2=2 Pada Rasio [40:60]


C1=1 C2=3 Pada Rasio [60:40]


C1=1 C2=4 Pada Rasio [80:20]


C1=1 C2=5 Pada Rasio [80:20]

Jika diamati pada semua hasil pengujian dari data testing dengan additive selected kernel SVM mulai dari Gambar 25-29, dapat ditarik kesimpulan bahwa sangat wajar sekali jika hasil akurasi additive selected kernel ini masih dibawah kernel linear. Hal ini dikarenakan garis hyperplane tersebut memiliki sifat kelengkungan yang justru dapat memotong atau meniadakan titik data yang seharusnya masuk kelas tertentu namun tidak masuk kelas tersebut.

Gambar 30. Hasil Akurasi Testing Data Dokumen E-Complaint Dengan Additive Selected Kernel

SVM Pada Semua Rasio

Teknik additive selected kernel ini ternyata memberikan proses iteratif hasil training data lebih cepat jika dibandingkan dengan menggunakan kernel linear, yaitu 10 : 1000 iterasi. Hal ini sesuai dengan

14


pernyataan pada penelitian Maji [5]. Sehingga sangat menguntungkan jika data yang diolah tersebut berjumlah sangat besar, dan tidak menutup kemungkinan apalagi jika diimplementasikan pada jumlah data yang relatif kecil. Namun sayangnya nilai akurasi yang didapatkan dari hasil pengujiannya masih dibawah hasil dari pengujian kernel linear. Nilai rata-rata akurasi pada kernel linear yaitu 99.21%, sedangkan untuk kernel polynomial dan additive selected kernel secara kebetulan memiliki nilai rata-rata akurasi yang sama yaitu sebesar 98.60%. Jika dihitung selisih nilai rata-rata akurasinya didapatkan nilai sebesar 0.61%. Nilai selisih rata-rata akurasi ini tidak masuk dalam kategori signifikan. Artinya jika diberikan tolerasi tingkat perbedaan ± 5%, maka nilai rata-rata akurasi tersebut masih dalam satu kelas yang sama-sama tinggi dan optimal, apalagi skenario uji coba yang kami lakukan masih hanya sebatas pada proses additive selected kernel polynomial.

5 KESIMPULAN DAN SARAN

Pada beberapa kali percobaan, ternyata hampir kebanyakan data kelas +1 dan kelas -1 semuanya termasuk support vektor, hal ini dikarenakan data yang kami gunakan jumlahnya hanya 148 dokumen E-Complaint yang bisa dikatakan masih relatif kecil dalam skala populasi. Dan pada beberapa kali pengujian dengan additive selected kernel didapatkan hasil akurasi di bawah kernel linear, akan tetapi hal ini belum bisa digunakan untuk mengeneralisir hasil keseluruhan kombinasi additive selected kernel yang ada. Karena dalam penelitian ini, kami hanya menggunakan fungsi additive selected pada kernel polynomial. Diharapkan untuk penelitian selanjutnya dapat menambahkan data dokumen dalam jumlah yang cukup besar. Karena memang kebanyakan hasil plotting titik-titik data dokumen semestinya bersifat non-liniear. Selain itu juga diharapkan menggunakan kombinasi additive selected kernel-kernel yang lain, misalnya polynomial dengan derajat > 2, rbf, sigmoid maupun kernel invers multi kuadratik serta menggunakan density of document (DoD) yang sesuai untuk membentuk plotting titik-titik data dokumen agar lebih representatif.

6 DAFTAR PUSTAKA

[1] Website Resmi Lembaga E-Complaint UB., 2013. E-Complaint UB | Beranda, <URL:http://e-complaint.ub.ac.id>.

[2] Rafael E. Banchs. 2012. Text Mining with MATLAB®. MATLAB® is a registered trademark of The MathWorks, Inc.

[3] Sethu Vijayakumar and Si Wu. 1999 “Sequential Support Vector Classifiers and Regression”. Proceeding International Conference on Soft Computing (SOCO’99), Genoa, Italy, pp.610-619.

[4] Uma, R. Muneeswaran, K. 2013. “Efficacious Geospatial Information Retrieval Using Density Probabilistic Document Correlation Approach”. Journal of Computer Science, 9 (1): 83-93.

[5] Subhransu Maji, Alexander C. Berg, Jitendra Malik. 2013. “Efficient Classification for Additive Kernel SVMs”. IEEE, Transactions On Pattern Analysis And Machine Intelligence, Vol. 35, No. 1.

[6] Khin Phyu Phyu Shein, Thi Thi Soe Nyunt. 2010. “Sentiment Classification based on Ontology and SVM Classifier”. Second International Conference on Communication Software and Networks.

[7] Aqsath Rasyid Naradhipa, Ayu Purwarianti. 2012. “Sentiment Classification for Indonesian Message in Social Media”. IEEE.

[8] Mooney, Raymond J. 2006. “Mining Text Mining with Information Extraction”. Austin : University of Texas.

[9] B. Pang., L. Lee. 2008. “Opinion Mining and Sentiment Analysis”. Foundations and Trends® in Information Retrieval Vol. 2, Nos. 1–2 1–135 DOI: 10.1561/1500000001.

[10] Clayton R. Fink, Danielle S. Chou, Jonathon J. Kopecky, Ashley J. Llorens. 2011. “Coarse- and Fine-Grained Sentiment Analysis of Social Media Text”. Johns Hopkins Apl Technical Digest, Volume 30, Number 1.

[11] Taras Zagibalov, John Carroll. 2008. “Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Text”. Proceedings of the 22nd International Conference on Computational Linguistics pages 1073–1080 Manchester.

[12] C. Cortes., V. Vapnik, (1995), “Support-Vector Networks,” Machine Learning, vol. 20, no. 3, pp. 273-297.

Imam Cholissodin. Lahir di Lamongan pada tanggal 19 Juli 1985. Peneliti telah menyelesaikan pendidikan S2 di Teknik Informatika FTIF ITS Surabaya pada Tahun 2009-2011. Saat ini peneliti aktif sebagai dosen pengajar di jurusan Teknik Informatika Program Teknologi dan Ilmu Komputer (PTIIK) Universitas Brawijaya (UB)

Malang pada beberapa mata kuliah, seperti Information Retrieval, Pengolahan Citra Digital, Probabilitas dan Statatistika, Grafika Komputer, Decision Support System, Kecerdasan Buatan, Data Mining dan Pengenalan Pola. Bidang Keminatan yang ditekuni peneliti adalah Information Retrieval, Artificial Vision, Image Processing, dan Cryptography. Di

15

samping mengajar, peneliti juga aktif dalam Riset Group Image Processing dan Vision (IMPROV) di dalam Laboratorium Komputasi Cerdas dan Visualisasi. Selain itu peneliti juga telah melakukan beberapa publikasi pada jurnal nasional dan internasional (IEEE). Riset pada tahun 2013-2014 yang sedang dilakukan sekarang bersama dengan beberapa tim dosen dan mahasiswa semester akhir adalah berfokus pada bidang Information Retrieval untuk melakukan analisis dokumen lembaga pendidikan secara Real-time, yaitu dengan tema “Groups Decision Sentiment Analysis Untuk Klasifikasi Dokumen E-Complaint Kampus Menggunakan Additive Kernel SVM” yang merupakan kombinasi dari dua lintas bidang keilmuan antara Decision Support System (DSS) dan Information Retrieval (IR).

Motto : “We Are A Code, We Are The Best Code Of God”.

Pas Foto Ketua Kelompok + Biography.

Pas Foto Anggota Kelompok + Biography.

16

templatesnatia - universitas brawijaya€¦ · web viewmatlab ® is a registered ... image...

Documents