analisis sentimen pada twitter menggunakanrepository.usd.ac.id/35993/2/145314060_full.pdfsistem ini...
TRANSCRIPT
i
ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN
MULTINOMINAL NAIVE BAYES
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana
Komputer Program Studi Teknik Informatika
Oleh:
Servasius Dwi Harijiatno
145314060
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
SENTIMENT ANALYSIS FOR TWITTER USING MULTINOMINAL
NAIVE BAYES
A THESIS
Presented as Partial Fullfillment of Requirements to Obtain Sarjana
Komputer Degree in Informatics Engineering Department
By:
Servasius Dwi Harijiatno
145314060
INFORMATICS ENGINEERING STUDY PROGRAM
INFORMATICS ENGINEERING DEPARTMENT
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
MOTTO
“Opportunities don‟t happen, you create them” Ŕ Chris Grosser
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
KATA PENGANTAR
Puji syukur penulis haturkan kepada Tuhan karena atas segala rahmat dan
berkatNya penulis dapat menyusun tugas akhir ini dengan baik dan lancar.
Perlu diketahui bahwa tugas akhir ini merupakan salah satu syarat bagi
setiap mahasiswa prodi Teknik Informatika Universitas Sanata Dharma
Yogyakarta untuk memperoleh gelar Sarjana 1, terutama gelar Sarjana 1
Komputer.
Penulis juga mengucapkan banyak terima kasih karena berkat bimbingan
dan dukungan dari berbagai belah pihak, penulis dapat menyelesaikan tugas akhir
ini. Terima kasih ini terutama ingin disampaikan penulis kepada:
1. Sudi Mungkasi, S.Si, M.Math.Sc, Ph.D selaku Dekan Fakultas Sains dan
Teknologi Universitas Sanata Dharma.
2. Dr. Cyprianus Kuntoro Adi, S.J, M.A, M.Sc selaku Dosen Pembimbing
Tugas Akhir yang dengan sabar memberi petunjuk, bimbingan, dan
waktunya kepada penulis tugas akhir.
3. Lorencius Echo. S.Kom selaku kakak penulis yang dengan sabar
meluangkan waktu untuk memberi petunjuk pengerjaan tugas akhir
4. Orang tua penulis yang telah memberi banyak semangat dan dukungan
moral agar dapat mengerjakan tugas akhir ini dengan baik
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
ABSTRAK
Media sosial seperti Twitter, Facebook, dan Youtube merupakan beberapa
media perangkat komunikasi terpopuler di masyarakat saat ini. Twitter seringkali
digunakan untuk mengungkapkan emosi mengenai sesuatu hal, baik memuji
ataupun mencela dalam bentuk emosi. Emosi manusia dapat dikategorikan
menjadi lima emosi dasar yaitu cinta, senang, sedih, marah, dan takut. Emosi
tweet para pengguna twitter dapat dikenali dengan analisis opini atau sentimen
(opinion analysis atau sentiment analysis). Analisis sentimen juga dilakukan
untuk melihat pendapat atau kecenderungan opini terhadap sebuah masalah atau
objek oleh seseorang, apakah cenderung beropini negatif atau positif terhadap
suatu tokoh tertentu. Oleh karena itu dibutuhkan sebuah sistem yang dapat
menganalisis sentimen, terutama tweet yang berbahasa Indonesia.
Penelitian ini menghasilkan sebuah sistem yang dapat menganalisis
sentimen tweet yang berhubungan dengan tokoh publik di Indonesia dimana tweet
tersebut didapat menggunakan Twitter API. Sistem ini menggunakan metode
Multinominal Naive Bayes untuk proses klasifikasinya.
Percobaan klasifikasi tweet dengan metode Multinominal Naive Bayes
tanpa k-Fold Cross Validation menghasilkan confusion matrix dengan akurasi
72.941% dan dengan k-Fold Cross Validation sebesar 71.601%, 70.72%, dan,
70.68%.
Kata Kunci: Klasifikasi, Multinominal Naive Bayes, Analisis Sentimen, Confusion
Matrix, K-Fold Cross Validation
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
ABSTRACT
Social media such as Twitter, Facebook, and Youtube are several of well-
known communication devices upon the community nowadays. Twitter is
sometimes used for showing emotion about certain things such as praising and
censuring in form of emotions. Human emotion can be categorized into five basic
emotions; love, happiness, anger, sadness, and fear. Twitter users‟ emotions can
be recognized by using opinion analysis or sentiment analysis. Sentiment analysis
is also applied for finding out whether an opinion regarding specific public figure
is inclining to positive or negative opinion. Therefore system that is able to
analyze sentiment, especially Indonesian ones would be needed.
This research yields a system that is able to analyze sentiment on tweets
regarding Indonesian public figure which can be obtained by using Twitter API.
The system mainly uses Multinominal Naive Bayes for classifying.
The sentiment analysis experiment by using Multinominal Naive Bayes
without k-Fold Cross Validation yields a confusion matrix with 72.941% accuracy
while the experiments with k-Fold Cross Validation applied give 71.601%,
70.72%, and 70.68% accuracy.
Keywords : Classification, Multinominal Naive Bayes, Sentiment Analysis,
Confusion Matrix, k-Fold Cross Validation
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
HALAMAN JUDUL...............................................................................................i
TITLE PAGE..........................................................................................................ii
HALAMAN PERSETUJUAN.............................................................................iii
HALAMAN PENGESAHAN...............................................................................iv
MOTTO..................................................................................................................v
PERNYATAAN KEASLIAN KARYA...............................................................vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS ......................................................... vii
KATA PENGANTAR....................................................................................viii-ix
ABSTRAK..............................................................................................................x
ABSTRACT............................................................................................................xi
DAFTAR ISI..................................................................................................xii-xiv
DAFTAR TABEL..........................................................................................xv-xvi
DAFTAR GAMBAR..........................................................................................xvii
BAB I PENDAHULUAN
1.1 Latar Belakang.............................................................................................1
1.2 Rumusan Masalah........................................................................................2
1.3 Tujuan Penelitian.........................................................................................2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
1.4 Manfaat Penelitian.......................................................................................2
1.5 Luaran..........................................................................................................3
1.6 Batasan Masalah..........................................................................................3
1.7 Sistematika Penulisan..................................................................................4
BAB II LANDASAN TEORI
2.1 Analisis Sentimen.........................................................................................5
2.2 Information Retrieval System.......................................................................8
2.3 Algoritma Stemming Nazief-Adriani.........................................................11
2.4 Twitter dan Twitter API.............................................................................16
2.5 Klasifikasi Teks..........................................................................................19
2.6 Naïve Bayes................................................................................................19
2.7 Klasifikasi Multinominal Naïve Bayes.......................................................20
2.8 Confusion Matrix.......................................................................................22
2.9 k-Fold Cross Validation.............................................................................23
BAB III METODE PENELITIAN
3.1 Gambaran Jalannya Sistem........................................................................24
3.2 Metode Pengujian.......................................................................................52
3.3 Kebutuhan Sistem......................................................................................52
3.4 Perancangan Struktur Data.........................................................................53
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
3.5 Desain Interface Sistem.............................................................................53
BAB IV HASIL DAN ANALISIS HASIL
4.1 Hasil Penelitian..........................................................................................59
4.2 Analisis Hasil Penelitian............................................................................65
BAB V PENUTUP
5.1 Kesimpulan................................................................................................72
5.2 Saran...........................................................................................................73
DAFTAR PUTAKA........................................................................................74-76
LAMPIRAN..................................................................................................77-104
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR TABEL
Tabel 2.1 Kosakata Emosi.................................................................................. 7-8
Tabel 2.2 Aturan Pemenggalan Algoritma Nazief-Adriani.............................15-16
Tabel 2.3 Confusion Matrix..................................................................................22
Tabel 3.1 Contoh Data Tweet Training...........................................................25-26
Tabel 3.2 Contoh Tokenizing Tweet Cinta...........................................................27
Tabel 3.3 Contoh Tokenizing Tweet Senang........................................................28
Tabel 3.4 Contoh Tokenizing Tweet Marah.........................................................28
Tabel 3.5 Contoh Tokenizing Tweet Sedih..........................................................29
Tabel 3.6 Contoh Tokenizing Tweet Takut..........................................................30
Tabel 3.7 Kamus Kata Baku.................................................................................31
Tabel 3.8 Contoh Normalisasi Kata pada Tweet.............................................31-32
Tabel 3.9 Contoh Stemming.............................................................................32-38
Tabel 3.10 Contoh Stopword Removal............................................................39-44
Tabel 3.11 Contoh Penghitungan Frekuensi Kata...........................................45-46
Tabel 3.12 Contoh Menghitung Prior Probability...............................................47
Tabel 3.13 Contoh Penghitungan Conditional Probability.............................48-49
Tabel 3.14 Contoh Hasil Term Matching pada Data Training dan Testing....49-50
Tabel 3.15 Contoh Penghitungan Posterior Probabiliy..................................51-52
Tabel 4.1 Pembagian Data Testing Tanpa k-Fold Cross Validation.....................59
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
Tabel 4.2 Confusion Matrix Hasil Uji Sistem Tanpa k-Fold Cross
Validation...............................................................................................................60
Tabel 4.3 Pembagian Data Menggunakan 3-Fold Cross Validation.....................61
Tabel 4.4 Pembagian Data Menggunakan 5-Fold Cross Validation.....................62
Tabel 4.5 Pembagian Data Menggunakan 10-Fold Cross Validation..............62-63
Tabel 4.6 Hasil Klasifikasi Menggunakan 3-Fold Cross Validation................63-64
Tabel 4.7 Hasil Uji Sistem Menggunakan 3-Fold Cross Validation.....................64
Tabel 4.8 Hasil Uji Sistem Menggunakan 5-Fold Cross Validation.....................64
Tabel 4.9 Hasil Uji Sistem Menggunakan 10-Fold Cross Validation...................65
Tabel 4.10 Ketidakcocokan Hasil Klasifikasi Karena Kata Tidak Baku..........66-67
Tabel 4.11 Kecocokan Hasil Klasifikasi Karena Kata Baku.................................68
Tabel 4.12 Ketidakcocokan Hasil Klasifikasi Karena Underflow....................69-70
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvii
DAFTAR GAMBAR
Gambar 2.1 Model Sistem Pemrolehan Informasi................... ..............................9
Gambar 2.2 Penerapan Klasifikasi Teks................................................................19
Gambar 3.1 Diagram Blok.....................................................................................24
Gambar 3.2 Interface Sistem Secara Menyeluruh.................................................53
Gambar 3.3 Interface Untuk Memproses Data Training.......................................54
Gambar 3.4 Interface Uji Akurasi Klasifikasi Menggunakan K-Fold Cross
Validation...............................................................................................................55
Gambar 3.5 Interface Uji Akurasi Tanpa K-Fold Cross Validation......................56
Gambar 3.6 Interface Untuk Klasifikasi Data Tunggal.........................................58
Gambar 4.1 Output Jumlah Kata Pada Data Training...........................................65
Gambar 4.2 Output Sistem Ketika terjadi Underflow............................................70
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Media sosial seperti Twitter, Facebook, dan Youtube merupakan beberapa
media perangkat komunikasi terpopuler di masyarakat saat ini (Aliandu, 2012;
Kumar dan Sebastian, 2012). Salah satu media jejaring sosial yang telah
dimanfaatkan belakangan ini adalah Twitter dimana sudah sangat umum di
beberapa negara seperti Singapura, Jerman, dan Amerika (Sang dan Bos, 2012;
Choy dkk, 2012; Choy dkk, 2011). Menurut data dari lembaga Informasi dan
Komunikasi Publik (IKP) , Indonesia menempati peringkat ke-5 pengguna Twitter
terbesar di dunia setelah USA, Brazil, Jepang dan Inggris.
Twitter seringkali digunakan untuk mengungkapkan emosi mengenai
sesuatu hal, baik memuji ataupun mencela dalam bentuk emosi. Emosi itu sendiri
dapat dikelompokkan menjadi emosi positif dan emosi negatif. Emosi manusia
dapat dikategorikan menjadi lima emosi dasar yaitu cinta, senang, sedih, marah,
dan takut. Emosi cinta dan senang merupakan emosi positif. Emosi sedih, marah,
dan takut merupakan emosi negatif (Shaver, Murdaya, dan Fraley, 2001).
Menjelang pemilihan umum masyarakat sering memanfaatkan Twitter
untuk menilai para calon tokoh publik, seperti calon presiden menurut pandangan
mereka masing-masing dan diluapkan dalam bentuk emosi. Emosi tweet para
pengguna Twitter dapat dikenali dengan analisa opini atau sentimen (opinion
analysis atau sentiment analysis). Analisis sentimen juga dilakukan untuk melihat
pendapat atau kecenderungan opini terhadap sebuah masalah atau objek oleh
seseorang, apakah cenderung beropini negatif atau positif terhadap suatu tokoh
tertentu (Pang & Lee,2008). Oleh karena itu dibutuhkan sebuah sistem yang dapat
menganalisis sentimen, terutama tweet yang berbahasa Indonesia.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
Penelitian ini sebelumnya telah dilakukan oleh Gregorius (2016) dengan
judul “Analisis Sentimen Data Twitter Menggunakan K-Means Clustering” dan
Yenni (2017) dengan judul “Analisis Sentimen pada Twitter Menggunakan
Pendekatan Agglomerative Hierarchical Clustering”. Hasil penelitian mereka
memiliki akurasi sebesar 76.3% dan 81%.
Pada tugas akhir ini, peneliti akan lebih terfokus pada analisis sentimen
twitter terhadap tokok publik menjelang pemilu 2019, yaitu Jokowi dan Prabowo
dengan menggunakan metode Multinominal Naïve Bayes.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang sudah diuraikan diatas maka dapat dibuat
rumusan masalah sebagai berikut:
1. Bagaimana metode Multinominal Naive Bayes mampu secara otomatis
melakukan klasifikasi tweet pada Twitter dengan baik?
2. Berapa akurasi yang diperoleh dari metode Multinominal Naive Bayes
untuk melakukan klasifikasi tweet pada Twitter?
1.3 Tujuan Penelitian
Tujuan diadakannya penelitian ini yaitu untuk:
1. Mengetahui metode Multinominal Naive Bayes mampu secara otomatis
melakukan klasifikasi tweet pada Twitter dengan baik.
2. Mengetahui akurasi yang diperoleh dari metode Multinominal Naive Bayes
untuk melakukan klasifikasi tweet pada Twitter.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
1.4 Manfaat Penelitian
Manfaat yang dapat diberikan penelitian ini, yaitu
1. Membantu menganalisis sentimen tweet pada Twitter menggunakan
metode Multinominal Naïve Bayes.
2. Menjadi referensi bagi peneliti mendatang bila akan melakukan
penelitian dengan tema terkait.
1.5 Luaran
Luaran yang diharapkan pada penelitian ini berupa suatu sistem yang
secara otomatis mampu menganalisis sentimen tweet pada Twitter.
1.6 Batasan Masalah
Berdasarkan permasalahan yang telah didapatkan diatas maka penulis
harus membatasi masalah agar tidak keluar dari topik yang dibicarakan. Adapun
batasan masalah terebut ialah:
1. Tweet yang diambil dan dianalisis hanya tweet berbahasa Indonesia.
2. Metode yang dipakai adalah metode Multinominal Naïve Bayes.
3. Sentimen Twitter hanya sentimen yang berhubungan dengan tokoh pada
pemilu 2019, yaitu calon presiden Jokowi dan Prabowo.
4. Media yang digunakan untuk mengambil data tweet pada Twitter ialah
Twitter API.
5. Tweet hanya dikelompokkan kedalam 5 emosi, yaitu cinta, marah,
senang, sedih, dan takut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
1.7 Sistematika Penulisan
Berbagai macam pembahasan yang disajikan dalam skripsi ini secara
umum ada lima bab yang dapat dipaparkan sebagai berikut:
BAB I PENDAHULUAN
Bab ini berisi latar belakang, perumusan masalah, tujuan penulisan,
manfaat penulisan, metodologi penulisan, dan sistematika penulisan.
BAB II LANDASAN TEORI
Bab ini secara umum menguraikan berbagai macam teori yang
mendukung dan menjadi dasar dalam penulisan skripsi ini, diantara lain dengan
menjelaskan pengertian sentimen, emosi, text preprocessing dalam menambang
data tweet, dan ciri metode Multinominal Naive Bayes yang digunakan,
BAB III METODOLOGI PENELITIAN
Bab ini berisi berbagai macam analisa dan desain sistem yang akan
dibangun.
BAB IV HASIL DAN ANALISIS HASIL
Bab ini berisi berbagai macam penjabaran hasil penelitian, nilai
akurasi algoritma yang digunakan, dan berbagai macam analisis terhadap hasil
penelitian yang ada.
BAB V PENUTUP
Bab ini berisi berbagai macam kesimpulan terhadap hasil
penelitian yang berupa keterbatasan sistem dan saran kepada pembaca apabila
berkeinginan untuk melanjutkan penelitian dengan tema terkait.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB II
LANDASAN TEORI
Bab ini berisi penjabaran teori yang digunakan dan mendukung jalannya
penelitian ini. Teori-teori tersebut mencakup analisis sentimen, pemrolehan
informasi (information retrieval), text preprocessing, metode Multinominal Naïve
Bayes, Confusion Matrix, k-Fold Cross Validation.
2.1 Analisis Sentimen
Analisis sentimen ialah sebuah bidang studi yang menganalisis pendapat,
sentimen, evaluasi, penilaian, sikap, dan emosi seseorang terhadap suatu barang,
organisasi, orang, masalah konkrit, peristiwa. Ada beberapa penamaan terhadap
studi ini, yaitu analisis sentimen, penambangan opini (opinion mining), ektraksi
opini (opinion extraction), penambangan sentimen (sentiment mining) dimana
semuanya sekarang berada dibawah ranah analisis sentimen atau penambangan
opini. Dalam dunia industri kata “analisis sentimen” sering digunakan tetapi di
dunia pendidikan kata “analisis sentimen” dan “opinion mining” sering
digunakan. Kata “analisis sentimen” pertama muncul tahun 2003 oleh Nasukawa
dan Yi, sementara “opinion mining” muncul pada tahun 2003 oleh Dave.
Lawrence dan Pennock. (Liu, 2012)
Meskipun linguistik dan pemrosesan bahasa natural (Natural Language
Processing) disingkatnya NLP mempunyai sejarah lama, hanya sedikit penelitian
sudah dilakukan tentang opini orang dan sentimen sebelum tahun 2000. Semenjak
itu bidangnya sudah menjadi sangat aktif sebagai area penelitian. Ada beberapa
alasan mengapa demikian, pertama memiliki penerapan yang luas, hampir
disemua bidang. Analisis sentimen pada ranah sekitar industri juga sudah maju
akibat adanya perkembangan dari penggunaan komersial yang menyediakan
motivasi kuat untuk penelitian. Kedua, menyediakan banyak masalah penelitian
yang menantang yang belum dipelajari sebelumnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
Ketiga, dalam sejarah pertama manusia sekarang kita mempunyai volume data
yang besar dalam mesia sosial di web dan tanpa data ini banyak penelitian yang
tidak akan mungkin. Analisis sentimen sekarang berada di tengah penelitian
media sosial, oleh karena itu peneitian analisis sentimen tidak hanya mempunyai
dampak penting terhadap NLP, tetapi juga dampak yang sangat terhadap
pengelolaan sains, sains politik, ekonomi, dan sains sosial berhubung mereka
semua dipengaruhi oleh banyak pendapat orang. (Liu, 2012)
Ada beberapa konsep yang berhubungan dekat dengan sentimen dan opini,
salah satunya ialah emosi. Emosi adalah perasaan subjektif dan pikiran kita.
Emosi telah dipelajari dalam beberapa bidang, seperti psikologi, filsafat, dan
sosiologi. Pembelajaran dalam bidang tersebut sangat luas, mulai dari tanggapan
emosional dari reaksi fisiologis (perubahan detak jantung, tekanan darah,
keringat), ekpresi wajah, gerakan tubuh, dan sikap badan terhadap tipe
pengalaman subjektif dari keadaan pikiran seorang individu. (Liu, 2012)
Berdasarkan pembelajaran kata emosi dalam bahasa Inggris Amerika (oleh
Shaver, Schwartz, Kurson, O‟Connor, 1987) emosi dibedakan menjadi lima level
dasar, yaitu cinta, senang, marah, sedih, dan takut. Kelima emosi dasar itu
dikategorikan kedalam dua kelompok besar (superordinat), yaitu positif dan
negatif. Emosi cinta dan senang dikategorikan kedalam superordinat positif
sedangkan emosi marah, takut, dan sedih dikategorikan kedalam superordinat
negatif (Shaver, Murdaya, dan Fraley, 2001).
Penelitian terhadap emosi bahasa Indonesia menghasilkan beberapa
kosakata emosi (subordinat) yang dapat dijabarkan pada tabel dibawah, (Shaver,
Murdaya, dan Fraley, 2001).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
Tabel 2.1 Kosakata Emosi (Shaver, 1987)
Superordinat Emosi Dasar Subordinat
+ cinta
pemujaan, kasih sayang, cinta, kegemaran,
kesukaan, ketertarikan, perhatian, kelembutan,
kasih sayang, sentimentalitas, gairah,
keinginan, nafsu, gairah, keberahian, kerinduan
+ senang
hiburan, kebahagiaan, keceriaan, keriangan,
keriaan, gembira, keriangan, kegirangan,
menyenangkan, kenikmatan, senang hati, suka
cita, kegirangan, keriangan hati, kepuasan,
ekstasi, euforia, antusiasme, semangat, nafsu,
kehebohan, sensasi, kegembiraan, kepuasan,
kesenangan, kebanggaan, kemenangan,
keinginan, harapan, optimisme, pesona,
pengangkatan, bantuan
- marah
kejengkelan, jengkel, mengacau, gangguan,
kesal, galak, kegusaran, frustrasi, kemarahan,
berang, mengamuk, kemurkaan, permusuhan,
keganasan, kebencian, benci, jijik, mencaci
maki, dendam, kedendaman, enggan, marah,
menjijikan, muak, kenistaan, cemburu,
kecemburuan, kesengsaraan.
- takut
gelisah, terkejut, ketakutan, gecar, kengeriaan,
ngeri, panik, histeria, malu, kecemasan,
kegugupan, ketegangan, khawatir, keprihatinan,
cemas, berbahaya, takut.
- sedih
kesakitan, menderita, terluka, sedih, depresi,
putus asa, keputus asaan, murung, kemuraman,
kesedihan, ketidakbahagiaan, dukacita,
kenestapaan, sengsara, kesengsaraan,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
kemurungan, kecemasan, kekecewaan,
ketidaksenangan, rasa bersalah, rasa malu,
menyesal, belas kasihan, pengasingan, isolasi,
kelalaian, kesepian, penolakan, kerinduan,
kekalahan, kegelisahan, rasa malu, hinaan,
penghinaan, rasa kasihan, rasa simpati
2.2 Information Retrieval System
Sistem pemrolehan informasi (information retrieval system) disingkatnya
SPI adalah sebuah program perangkat lunak yang menyimpan dan mengatur
informasi pada dokumen-dokumen, seringkali dokumen berbentuk teks bisa juga
multimedia. Pemrolehan informasi ini mendampingi pengguna dalam menemukan
informasi yang dibutuhkan. Sistem ini tidak secara eksplisit mengembalikan
informasi atau jawaban terhadap pertanyaan tetapi memberitahu keberadaan lokasi
dari dokumen yang kemungkinan memiliki informasi yang diinginkan dimana
dokumen ini disebut dokumen yang relevan (relevant document). Sebuah sistem
pemrolehan informasi yang sempurna hanya akan memperoleh dokumen yang
relevan saja, akan tetapi sistem ini tidak ada dan tidak akan pernah ada karena
pernyataan untuk pencarian tidak lengkap dan relevansi bergantung pada pendapat
(opinion) pengguna yang subjektif. Dalam penerapannya dua pengguna bisa
memiliki query yang sama untuk sistem itu dan menilai relevansi dokumen yang
diperoleh secara berbeda, yang satu akan menyukai dan yang lain tidak
menyukainya. (Djoerd, 2000)
Ada tiga proses sederhana yang harus didukung oleh SPI, pertama
representasi isi dari dokumen, representasi informasi kebutuhan pengguna, dan
perbandingan kedua representasi tersebut. Proses dapat digambarkan:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
Gambar 2.1 Model Sistem Pemrolehan Informasi (Djoerd, 2000)
Merepresantasikan dokumen biasanya disebut dengan proses pengindeksan
(indexing) yang hasilnya berupa representasi dokumen itu sendiri. Seringkali
sistem pemrolehan penuh menggunakan sebuah algoritma yang mengindentifikasi
kata-kata dalam teks bahasa Inggris dan membentuknya ke huruf kecil. Proses
indexing bisa menyertakan penyimpanan dokumen dalam sistemnya, tetapi kadang
dokumennya hanya disimpan sebagian sebagai contoh hanya disimpan judul dan
abstraknya saja, ditambah informasi lokasi sebenarnya dari dokumen itu.
Pengguna tidak mencari untuk kesenangan saja namun mereka punya
kebutuhan akan informasi. Proses merepresentasikan kebutuhan informasi itu
sering disebut sebagai query formulation process yang hasilnya adalah sebuah
query. Secara lebih luas, query formulation bisa menunjukkan dialog antara
sistem dan pengguna untuk lebih memahami informasi yang dibutuhkannya, yang
disebut dengan feedback.
Perbandingan dari query dan representasi dokumen disebut sebagai proses
penyesuaian (matching process). Proses penyesuaian ini biasanya menghasilkan
daftar dokumen terurut. Pemrolehan yang terurut diharapkan bisa menyimpan
dokumen relevan pada daftar teratas untuk mempersingkat waktu membaca
pengguna.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
Langkah-langkah untuk mengindeks (indexing) kosa kata yaitu: (Manning,
2008)
a. Tokenisasi (tokenizing)
Sebuah unit dokumen memiliki susunan kata-kata tertentu, tugas dari
tokenisasi ialah untuk memotong susunan tersebut menjadi pecahan-
pecahan terpisah yang disebut sebuah token. Contohnya;
Input : Friends, Romans, Countryman, lend me your ears;
Output : |Friends| |Romans| |Countryman| |lend| |me| |your| |ears|
Pada tokenisasi seluruh tanda baca titik(.), koma(,), tanda seru(!), tanda
tanya (?), hashtag(#), mention(@), dan simbol-simbol lain dihilangkan.
Ada pula case-folding, yaitu mengecilkan bentuk huruf awal yang kapital,
contoh kata „Indonesia‟ menjadi „indonesia‟
b. Menghilangkan stopword
Stopword adalah sebuah kata yang dieliminasi pada saat melakukan
peprocessing pada text mining. Kata-kata yang dieliminasi tersebut adalah
kata-kata yang paling sering muncul dalam suatu dokumen yang memiliki
sedikit nilai dan sedikit membantu ketika memilih dokumen yang
dibutuhkan pengguna. Sebelum memulai proses meghilangkan stopword
(elimination of stopword) terlebih dahulu harus dibuat daftar stopword
(stoplist) sebagai acuan proses. Penelitian ini menggunakan daftar
stopword Bahasa Indonesia dari Tala (2003) yang berjumlah 750 lebih
kosakata stopword. Contoh stopword pada daftar ini yang paling sering
digunakan, yaitu: dan, atau, maka, di, ke, dari, walaupun, meskipun, yang,
ini, itu, disini.
c. Normalisasi (ekuivalensi kata)
Merupakan sebuah proses penyamaan sebuah ejaan kata yang memiliki
makna yang sama, missal ketika kita mencari kata „USA‟ kita juga
mengarapkan akan mendapatkan kata „U.S.A‟ (Manning, 2008). Dalam
bahasa Indonesia banyak dijumpai kata „slalu‟ dan „selalu‟. Kata „slalu‟
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
memiliki makna yang sama dengan „selalu‟, maka menggunakan ejaan
yang benar „selalu‟.
d. Stemming
Tujuan dari stemming ialah untuk mengurangi infleksi (pembentukan kata
baru) akibat penambahan suatu imbuhan sufiks dan afiks sehingga
menurunkan suatu kata ke bantuk kata dasarnya (Manning, 2008).
Stem ialah bagian dari kata yang tersisa ketika menghilangkan imbuhan
afiks (prefiks dan sufiks). Proses stemming ialah tahapan dari
preprocessing teks yang digunakan untuk menghasilkan kata murni (kata
dasar) tanpa imbuhan apapun. (Berlin Chen, 2005)
2.3 Algoritma Stemming Nazief dan Adriani
Algoritma stemming ini dikembangkan berdasarkan aturan
morfologi Bahasa Indonesia yang mengelompokkan imbuhan menjadi
awalan (prefiks), sisipan (infiks), akhiran (sufiks), dan gabungan awalan-
akhiran (konfiks). Algoritma ini menggunakan kamus kata dasar dan
mendukung recoding, yaitu menyusun kembali kata-kata yang mengalami
proses stemming terlebih dahulu. (Andita dan Diana, 2011)
Aturan morfologi Bahasa Indonesia mengelompokkan imbuhan
kedalam beberapa kategori dasar sebagai berikut:
1. Inflection suffixes, yaitu kelompok akhiran yang tidak
merubah bentuk kata dasar. Contoh, kata “duduk” yang
diberikan akhiran Ŕlah akan menjadi “duduklah”.
Kelompok ini dibagi menjadi dua, yaitu:
a. Particle (P) atau partikel, contoh Ŕlah, -kah, -tah,
dan Ŕpun
b. Possessive pronoun (PP) atau kata ganti kepunyaan,
contoh Ŕku, -mu, dan Ŕnya
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
2. Derivation suffixes (DS), yaitu kumpulan akhiran asli
Bahasa Indonesia yang secara langsung ditambahkan pada
kata dasar, yaitu akhiran Ŕi, -kan, dan Ŕan
3. Derivation prefixes (DP) yaitu kumpulan awalan yang
dapat langsung diberikan pada kata dasar murni atau pada
kata dasar yang sudah mendapatkan penambahan sampai
dengan 2 awalan, contoh:
a. Awalan yang dapat bermorfologi, -me, -be, -pe, dan
Ŕte
b. Awalan yang tidak bermorfologi, -di, -ke, dan -se
Aturan dasar morfologi Bahasa Indonesia yang digunakan dalam
stemming Algoritma Nazief-Adriani ialah sebagai berikut:
1. Tidak semua kombinasi awalan dan akhiran diperbolehkan.
Kombinasi-kombinasi imbuhan yang tidak diperbolehkan,
yaitu be-i, di-an, ke-i, ke-kan, me-an, se-kan, dan te-an.
2. Penggunaan imbuhan yang secara berulang tidak
diperkenankan.
3. Jika suatu kata hanya terdiri dari satu atau dua huruf proses
stemming tidak dilakukan.
4. Penambahan suatu awalan tertentu dapat mengubah bentuk
asli kata dasar ataupun awalan yang telah diberikan
sebelumnya pada kata dasar bersangkutan. Contoh awalan Ŕ
me- dapat berubah menjadi meng-, men-, meny-, dan mem-
. Oleh karena itu diperlukan suatu aturan yang mampu
mengatasi masalah morfologi ini.
5.
Algoritma stemmer yang diperkenalkan oleh Nazief dan Adiriani
dijabarkan sebagai berikut:
1. Di awal proses stemming dan setiap langkah yang
selanjutnya dilakukan, lakukan pengecekan hasil proses
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
stemming kata yang di-input-kan pada langkah tersebut ke
kamus kata dasar. Jika kata ditemukan, berarti kata tersebut
sudah berbentuk kata dasar dan proses stemming
dihentikan. Jika tidak ditemukan, maka langkah selanjutnya
dilakukan.
2. Hilangkan inflectional suffixes. Dimulai dari inflectional
particle, kemudian possessive pronoun.
3. Hilangkan derivation suffixes
4. Hilangkan derivation prefixes.
a. Langkah 4 berhenti jika :
i. Terjadi kombinasi awalan dan akhiran yang
terlarang.
ii. Awalan yang dideteksi saat ini sama dengan
awalan yang dihilangkan sebelumnya.
iii. Tiga awalan telah dihilangkan.
b. Identifikasi tipe awalan dan hilangkan. Awalan
terdiri dari dua tipe:
i. Standar (di-,ke-, dan se-) yang dapat
langsung dihilangkan dari kata.
ii. Kompleks (me-, be-, pe-, dan te-) yang
merupakan tipe-tipe awalan yang dapat
bermorfologi sesuai kata dasar yang
mengikutinya. Oleh karena itu gunakan
aturan pada tabel di bawah untuk
mendapatkan hasil pemenggalan yang tepat.
c. Cari kata yang telah dihilangkan awalannya ini di
dalam kamus kata dasar (root word). Apabila tidak
ditemukan maka langkah 4 diulangi kembali.
Apabila ditemukan maka keseluruhan proses
dihentikan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
5. Apabila setelah langkah 4 kata dasar masih belum
ditemukan, maka proses recoding dilakukan dengan
mengacu pada aturan pada Tabel 2.1. Recoding dilakukan
dengan menambahkan karakter recoding di awal kata yang
dipenggal. Pada Tabel 2.1, karakter recoding adalah huruf
kecil setelah tanda hubung („-‟) dan terkadang berada
sebelum tanda kurung. Sebagai contoh, kata “menangkap”
(aturan 15), setelah dipenggal menjadi “nangkap”. Karena
tidak valid, maka recoding dilakukan dan menghasilkan
kata “tangkap”.
6. Jika semua langkah gagal, maka input kata yang diuji pada
algoritma ini dianggap sebagai kata dasar.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
Tabel 2.2 Aturan Pemenggalan Algoritma Nazief-Adriani (Andita, Diana,
2011)
Aturan Format Kata Pemenggalan
1 berV... ber-V... | be-rV...
2 berCAP... ber-CAP... dimana C≠‟r‟ & P≠‟er‟
3 berCAerV... ber-CaerV... dimana C≠‟r‟
4 belajar bel-ajar
5 beC1erC2... be-C1erC2... dimana C1≠{‟r‟|‟l‟}
6 terV... ter-V... | te-rV...
7 terCerV... ter-CerV... dimana C≠‟r‟
8 terCP... ter-CP... dimana C≠‟r‟ dan P≠‟er‟
9 teC1erC2... te-C1erC2 dimana C1≠‟r‟
10 me{l|r|w|y}V... me-{l|r|w|y)V...
11 mem{b|f|v}... mem-{b|f|v}...
12 mempe{r|l}... mem-pe...
13 mem{rV|V}... me-m{rV|V}... | me-p{rV|V}...
14 men{c|d|j|z}... men-{c|d|j|z}...
15 menV... me-nV... | me-tV
16 meng{g|h|q}... meng-{g|h|q}...
17 mengV... meng-V | meng-kV...
18 meny-V... meny-sV...
19 mempV... mem-pV... dimana V≠‟e‟
20 pe{w|y}V... pe-{w|y}V...
21 perV... per-V... | pe-rV...
22 perCAP per-CAP... dimana C≠‟r‟ dan P≠‟er‟
23 perCAerV... per-CAerV... dimana C≠‟r‟
24 pem{b|f|V}... pem-{b|f|V}...
25 pem{rV|V}... pe-m{rV|V}... | pe-p{rV|V}...
26 pen{c|d|j|z}... pen-{c|d|j|z}...
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
27 penV... pe-nV... | pe-tV...
28 peng{g|h|q}... peng-{g|h|q}...
29 pengV... peng-V... | peng-kV...
30 penyV... peny-sV...
31 pelV... pe-lV... kecuali „pelajar‟ yang
menghasilkan „ajar‟
32 peCerV... per-erV... dimana
C≠{r|w|y|l|m|n}
33 peCP... pe-CP... dimana C≠{r|w|y|l|m|n}
dan P≠‟er‟
Keterangan simbol huruf”
C : huruf konsonan
V : huruf vokal
A : huruf vokal atau konsonan
P : partikel atau fragmen dari suatu kata, misal „er‟
2.4 Twitter dan Twitter API
Twitter adalah sebuah situs web yang dimiliki dan dioperasikan oleh
Twitter Inc., yang menawarkan jaringan sosial berupa mikroblog sehingga
memungkinkan penggunanya untuk mengirim dan membaca pesan Tweets
(Twitter, 2013). Mikroblog adalah salah satu jenis alat komunikasi online dimana
pengguna dapat memperbarui status tentang mereka yang sedang memikirkan dan
melakukan sesuatu, apa pendapat mereka tentang suatu objek atau fenomena
tertentu. Tweets adalah teks tulisan hingga 140 karakter yang ditampilkan pada
halaman profil pengguna.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
Tweets bisa dilihat secara publik, namun pengirim dapat membatasi
pengiriman pesan ke daftar teman-teman mereka saja. Pengguna dapat melihat
Tweets pengguna lain yang dikenal dengan sebutan pengikut (follower).
Semua pengguna dapat mengirim dan menerima Tweets melalui situs
Twitter, aplikasi eksternal yang kompatibel (telepon seluler), atau dengan pesan
singkat (SMS) yang tersedia di negara-negara tertentu (Twitter, 2013). Pengguna
dapat menulis pesan berdasarkan topik dengan menggunakan tanda # (hashtag).
Sedangkan untuk menyebutkan atau membalas pesan dari pengguna lain bisa
menggunakan tanda @. Fitur yang terdapat dalam Twitter, antara lain:
1. Halaman Utama (Home)
Pada halaman utama kita bisa melihat Tweets yang dikirimkan oleh
orang-orang yang menjadi teman kita atau yang kita ikuti ( following).
2. Profil (Profile)
Pada halaman ini yang akan dilihat oleh seluruh orang mengenai profil
atau data diri serta Tweets yang sudah pernah kita buat.
3. Followers
Pengikut adalah pengguna lain yang ingin menjadikan kita sebagai
teman. Bila pengguna lain menjadi pengikut akun seseorang, maka Tweets
seseorang yang ia ikuti tersebut akan masuk ke dalam halaman utama.
4. Following
Kebalikan dari pengikut, following adalah akun seseorang yang
mengikuti akun pengguna lain agar Tweets yang dikirim oleh orang yang
diikuti tersebut masuk ke dalam halaman utama.
5. Mentions
Biasanya konten ini merupakan balasan dari percakapan agar sesama
pengguna bisa langsung menandai orang yang akan diajak bicara.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
6. Favorite
Tweets ditandai sebagai favorit agar tidak hilang oleh halaman
sebelumnya.
7. Pesan Langsung (Direct Message)
Fungsi pesan langsung lebih bisa disebut SMS karena pengiriman
pesan langsung di antara pengguna.
8. Hashtag
Hashtag “#” yang ditulis di depan topik tertentu agar pengguna lain
bisa mencari topik yang sejenis yang ditulis oleh orang lain juga
9. List
Pengguna Twitter dapat mengelompokkan ikutan mereka ke dalam satu
grup sehingga memudahkan untuk dapat melihat secara keseluruhan para
nama pengguna (username) yang mereka ikuti (follow).
10. Topik Terkini (Trending Topic)
Topik yang sedang banyak dibicarakan banyak pengguna dalam suatu
waktu yang bersamaan.
Ada beberapa cara untuk mendapatkan sekumpulan data tweet pada
Twitter yang salah satunya dengan menggunakan Twitter API. Berdasarkan pada
halaman situs resmi Twitter, sebuah API (Application Programming Interface)
merupakan salah satu cara computer “berbicara” satu sama lain sehingga dapat
memesan dan mengantar informasi. Agar dapat memesan informasi maka
pengguna harus memperbolehkan aplikasi perangkat lunak mengakses sebuah
informasi spesifik, seperti nomor telepon dimana setiap pengguna memiliki nomor
yang unik.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
Untuk dapat mengakses Twitter API maka pengguna harus terlebih dahulu
mendaftarkan aplikasinya. Setelah mendaftar maka pengguna dapat mengakses
bermacam-macam tweet dari suatu akun spesifik dengan menggunakan suatu kata
kunci tertentu.
2.5 Klasifikasi Teks
Klasifikasi teks adalah sebuah pekerjaan untk menetapkan seperangkat
kategori yang telah ditentukan ke teks bebas. Sebuah pengklasifikasi teks dapat
digunakan untuk mengatur, menyusun, dan mengkategorikan. Contoh, artikel
dapat diatur dengan topic-topik, tiket keluhan dapat diatur berdasarkan
kepentingan, percakapan obrolan dapat diatur dengan sebuah bahasa. Sebuah alat
klasifikasi dapat mengambil teks sebagai input, menganalisis isinya, dan
kemudian secara otomatis menetapkan penanda (tag) yang relevan, seperti Easy to
Use. (MonkeyLearn)
Gambar 2.2 Penerapan Klasifikasi Teks (MonkeyLearn)
2.6 Naive Bayes (NB)
Naive Bayes merupakan sebuah algoritma yang digunakan terutama untuk
mencari nilai probabilitas tertinggi untuk mengklasifikasi data uji pada kategori
yang paling tepat (Feldman & Sanger,2007). Asumsi yang digunakan mahwa
suatu data memiliki sifat yang bebas satu sama lain dan tidak saling
mempengaruhi. Khusus untuk klasifikasi data berupa teks dokumen untuk lebih
memaksimalkan metode Naïve Bayes ialah dengan menggunakan Multinominal
Naïve Bayes.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
2.7 Klasifikasi Multinominal Naïve Bayes
Merupakan klasifikasi yang dimulai dengan proses pengambilan jumlah
kata yang muncul dalam tiap dokumen dengan asumsi dokumen memiliki beberapa
kejadian dalam kata dengan panjang yang tidak tergantung pada kelasnya
(Manning, Raghavan, Schutze, 2008).
Model klasifikasi ini merupakan hasil perkalian antara prior probability dan
conditional probability dan hasil akhirnya merupakan sebuah posterior probability
dengan nilai paling besar untuk suatu kelas tertentu dengan rumus di bawah ini.
(Manning, 2008)
( ) ∏ ( ) (2.1)
Keterangan:
arg max : Fungsi untuk mencari nilai posterior probability terbesar suatu
kelas
P(tk|c) : Conditional probability, peluang kemunculan kata k dalam suatu
kelas tertentu
P(c) : Prior probability, peluang kemunculan sebuah kelas dari seluruh
pengamatan yang dilakukan. Adapun menghitung P(c)
menggunakan rumus:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Nilai probabilitas sebuah dokumen d berada dalam kelas c dinyatakan
dengan rumus:
( )
(2.2)
Keterangan:
Nc : Jumlah dokumen di kelas c
N‟ : Jumlah total dokumen training
Untuk menghitung conditional probability menggunakan rumus dibawah ini:
( )
∑
(2.3)
Keterengan:
Tct : Frekuensi suatu kata dalam kelas c pada dokumen training termasuk
yang berulang
Tct‟ : Jumlah total kata dalam suatu kelas c.
Seringkali ada suatu kata yang tidak pernah terlihat dalam suatu kelas
tertentu pada data training (unseen word) sehingga peluang kata dalam kelas
tersebut (conditional probability) bernilai 0. Hal ini menyebabkan hasil perkalian
posterior probability bernilai 0 karena conditional probabilitynya sendiri bernilai
0. Untuk menghindari terjadinya peluang bernilai 0 maka perlu digunakan add-one
smoothing (Laplace smoothing). Cara kerja Laplace smoothing ialah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
menambahkan angka 1 pada numerator dan jumlah kosakata pada denominator,
dimana dapat dilihat pada rumus di bawah ini (Manning, 2008):
( )
∑
(2.4)
Keterangan:
B‟ : Total kosakata (kata unik) pada keseluruhan kelas dalam dokumen
training.
2.8 Confusion Matrix
Metode yang digunakan untuk evaluasi adalah confusion matrix.
Confusion matrix merupakan salah satu metode yang dapat digunakan untuk
mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion
matrix mengandung informasi yang membandingkan hasil klasifikasi yang
dilakukan oleh sistem dengan hasil klasifikasi yang seharusnya. Confusion matrix
juga merupakan salah satu tools penting dalam metode visualisasi yang digunakan
pada mesin pembelajaran yang biasanya memuat dua kategori atau lebih
(Manning, dkk, 2009; Horn, 2010). Tabel dibawah menggambarkan contoh hasil
confusion matrix prediksi dua kelas
Tabel 2.3 Confusion Matrix
Kelas sebenarnya
1 2
Kelas prediksi 1 True positive False negative
2 False positive True negative
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
Nilai true positive (TP) dan true negative (TN) adalah hasil klasifikasi
yang benar. Nilai false positive (FP) adalah nilai dimana hasilnya diprediksi
sebagai kelas-2 namun sebenarnya merupakan kelas-1 sedangkan false negative
(FN) adalah nilai dimana prediksi mengklasifikasikan sebagai kelas-1 namun
faktanya termasuk dalam klasifikasi kelas-2. Nilai akurasi confusion matrix
berdasarkan Tabel diatas diperoleh dengan persamaan dibawah:
(2.5)
2.9 K-Fold Cross Validation
K-Fold Cross Validation merupakan sebuah metode penyampelan ulang
untuk mengevaluasi model machine learning pada sampel data terbatas. Prosedur
ini mempunyai parameter k yang mewakili jumlah pembagian kelompok data
sampel. Metode ini biasanya diterapkan untuk memperkirakan kemampuan
machine learning berhadapan dengan unseen data. (Jason, 2018)
Langkah-langkah umum metode ini adalah sebagai berikut:
1) Mengacak dataset
2) Membagi dataset kedalam k-kelompok
3) Setiap kelompok unik:
i. Gunakan bagian kelompok dataset untuk data testing.
ii. Gunakan sisanya sebagai data training.
iii. Cocokkan model pada training set dan evaluasikan pada data
testing.
iv. Pertahankan skor evaluasi dan buang modelnya.
4) Ringkas keterampilan model menggunakan skor evaluasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
BAB III
METODE PENELITIAN
Bab ini secara keseluruhan berisi rancangan jalannya penelitian yang dibuat oleh
penulis, yakni jalannya sistem, kebutuhan sistem, metode pengujian, perancangan
struktur data, desain interface.
3.1 Gambaran Jalannya Sistem
Gambar 3.1 Diagram Blok
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
3.1.1 Data
Penelitian ini menggunakan data berupa macam-macam tweet khusus
berbahasa Indonesia yang terdapat dalam media sosial Twitter. Tweet yang
digunakan ialah tweet dengan topik presiden Jokowi yang mengandung terutama
emosi senang, cinta, marah, sedih, dan takut. Tweet yang diambil per emosi
tersebut berjumlah 500 buah sehingga total data tweet keseluruhan berjumlah
2.500 buah. Penulis membuat sebuah tabel pada database mySQL yang bernama
corpus_tweets untuk menyimpan tweet tersebut dan mengimpor tabel stopword
dan rootword oleh Tala dari internet yang nantinya akan dipakai untuk proses
stemming dan stopword removal.
Data tweet dicari dan diambil dengan Twitter API pada Twitter dengan
keyword “Jokowi” dan hashtag kelima emosi. Sistem menggunakan user ID dan
consumer key ID pengguna pada twitter untuk dapat mengakses dan meretrieve
tweet yang bersangkutan. Data yang didapat tersebut kemudian dipilah secara
manual agar nantinya tweet yang dipakai murni berupa teks berbahasa Indonesia
dan tidak mengandung gambar dan akan disimpan kedalam tabel corpus_tweets.
Tabel 3.1 Contoh Data Tweet Training
Kelas Tweet
Cinta
@B_Zaenuri Cinta tulus dan Ikhlas @jokowi Kepada Rakyat tak perlu
di ragukan lagi #01JokowiLagi #01IndonesiaMaju
@muyanneni #YangPasti Pak Jokowi dan Pak Kyai adalah sosok yg
begitu dekat dan cinta dengan keluarga https://t.co/RbJT70t0i
Senang
@KalidYanuar Saya senang sekali, siang hari ini meskipun dari pagi
tadi saya belum makan karena pengen makan bakso bersama bapak ibu
dan saudara semuanya,” kata Jokowi
#JabarNgahiji
@yusranjafar13 PAK Jokowi selalu bisa bikin Rakyat senang jadi mari
kita dukung sampai Menang☺ #BetawiPastiJokowi
https://t.co/tREjIP6qDe
Marah @SaaeBunglon Ditengah hoax dan fitnah yang membuat resah Mari
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
kita jangan marah Jokowi saja tabah Yuk Mending kita #GoyangJempol
ajaaaahh https://t.co/GdN7Wi0UrU
@nongandah @picoez @jokowi Kuingin marah, melampiaskan.. Tapi
ku hanyalah sendiri di sini..
Sedih
@syarif2379 @jokowi Jalan desa kami tolong di perbaiki pak.. sedih
kami punya jalan seperti sawah penuh dengan lumpur
@julian03687082 #meNyepiSejenak Sedih memang krn tak ada celah
utk menyerang @jokowi, musuhnya mulai melakukan fitnah. Persis
seperti dulu. Hasil kerjanya diburamkan dgn prasangka. Pendek kata,
Jokowi dihabisi dgn berbagai cara kotor.
Takut
@lakibruntung @sweethellena @jokowi Krn apa yg dia ucapkan krn
ketakutannya sndiri, yg takut kegagalannya itu akan terbukti gagal bila
ia terganti @rizkamel01
@ubaidillahThal1 Banyak yg tidak takut dosa & neraka, tapi takut
Jokowi 2 periode https://t.co/2yXRLUTIaMOR/
#ILCSambharMenyambar #GuePenginPemimpinJujur
#PastikanCoblos02.
3.1.2 Preprocessing
Tahap ini menerapkan proses indexing pada Information Retrieval yang
harus dilalui oleh data agar menjadikan data lebih mewakili informasi yang
dibutuhkan oleh pengguna. Preprocessing ini diperlukan juga oleh tahap
klasifikasi karena lebih membutuhkan karakteristik data yang lebih spesifik
seperti frekuensi kata. Adapun proses yang berada dalam preprocessing ini, yaitu:
1. Tokenizing
Pada tahap ini kata-kata dalam tweet dipecah kedalam bentuk token
lalu menghilangkan segala tanda baca, simbol yang tidak mewakili isi
dokumen.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
Adapun langkah-langkah dalam tokenizing ialah sebagai berikut:
a. Baca seluruh baris teks sebagai sebuah kalimat tweet.
b. Mengambil tiap token dalam kalimat dengan spasi sebagai pemisah
antar token dan lakukan case-folding.
c. Hapus segala macam simbol, tanda baca, mention (contoh
@jokowi), dan hashtag (contoh: #prabowo) yang tidak mewakili
teks.
d. Simpan token-token kedalam sebuah arrayList sebagai satu tweet.
Tabel 3.2 Contoh Tokenizing Tweet Cinta
Tweet Tokenizing
Cinta tulus dan Ikhlas @jokowi
Kepada Rakyat tak perlu
diragukan lagi #01JokowiLagi
#01IndonesiaMaju
cinta rakyat
tulus tak
dan perlu
ikhlas diragukan
kepada lagi
#YangPasti Pak Jokowi dan Pak
Kyai adalah sosok yg begitu
dekat dan cinta dengan keluarga
https://t.co/RbJT70t0i
pak adalah dan
jokowi sosok cinta
dan yg dengan
pak begitu keluarga
kyai dekat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
Tabel 3.3 Contoh Tokenizing Tweet Senang
Tweet Tokenizing
Saya senang sekali, siang hari ini
meskipun dari pagi tadi saya
belum makan karena pengen
makan bakso bersama bapak ibu
dan saudara semuanya,” kata
Jokowi #JabarNgahiji
saya dari pengen saudara
senang pagi makan semuanya
sekali tadi bakso kata
siang saya bersama jokowi
hari belum bapak
ini makan ibu
meskipun karena dan
PAK Jokowi selalu bisa bikin
Rakyat senang jadi mari kita
dukung sampai Menang☺
#BetawiPastiJokowi
https://t.co/tREjIP6qDe
pak rakyat dukung
jokowi senang sampai
selalu jadi menang
bisa mari
bikin kita
Tabel 3.4 Contoh Tokenizing Tweet Marah
Tweet Tokenizing
Ditengah hoax dan fitnah yang
membuat resah Mari kita jangan
marah Jokowi saja tabah Yuk
Mending kita #GoyangJempol
ajah https://t.co/GdN7Wi0UrU
ditengah resah saja
hoax mari tabah
dan kita yuk
fitnah jangan mending
yang marah kita
membuat jokowi ajah
@picoez @jokowi Ku ingin
marah, melampiaskan.. Tapi ku
hanyalah sendiri di sini..
ku ku
ingin hanyalah
marah sendiri
melampiaskan di
tapi sini
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
Tabel 3.5 Contoh Tokenizing Tweet Sedih
Tweet Tokenizing
@jokowi Jalan desa kami
tolong diperbaiki pak..
sedih kami punya jalan
seperti sawah penuh
dengan lumpur
jalan sedih penuh
desa kami dengan
kami punya lumpur
tolong jalan
diperbaiki seperti
pak sawah
#meNyepiSejenak Sedih
memang krn tak ada celah
utk menyerang @jokowi,
musuhnya mulai
melakukan fitnah. Persis
seperti dulu. Hasil kerjanya
diburamkan dgn prasangka.
Pendek kata, Jokowi
dihabisi dgn berbagai cara
kotor.
sedih musuhnya kerjanya dgn
memang mulai diburamkan berbagai
krn melakukan dgn cara
tak fitnah prasangka kotor
ada persis pendek
celah seperti kata
utk dulu jokowi
menyerang hasil dihabisi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
Tabel 3.6 Contoh Tokenizing Tweet Takut
Tweet Tokenizing
@sweethellena @jokowi Krn
apa yg dia ucapkan krn
ketakutannya sndiri, yg takut
kegagalannya itu akan terbukti
gagal bila ia terganti
krn ketakutannya akan
apa sndiri terbukti
yg yg gagal
dia takut bila
ucapkan kegagalannya ia
krn itu terganti
Banyak yg tidak takut dosa &
neraka, tapi takut Jokowi 2
periode
https://t.co/2yXRLUTIaMOR/
#ILCSambharMenyambar
#GuePenginPemimpinJujur
#PastikanCoblos02.
banyak jokowi
yg periode
tidak
takut
dosa
neraka
tapi
takut
2. Normalisasi
Pada tahap ini terjadi pengubahan bentuk kata tidak baku menjadi
bentuk baku dengan bantuan kamus kata baku untuk menghindari
duplikasi kata yang memiliki makna yang sama. Adapun kamus kata baku
didapatkan dari internet dengan berbagai macam tambahan oleh penulis
Adapun langkah-langkahnya sebagai berikut:
a. Baca token pada arrayList dan mencocokkan token kedalam kata
non standar pada kamus kata baku.
b. Apabila token sama dengan kata non standar pada kamus maka
sistem akan mengganti kata tersebut dengan bentuk standar (baku)
yang bersesuaian pada kamus kata baku.
c. Apabila tidak akan dilanjutkan dengan proses stemming.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
Contoh kamus kata baku seperti tabel di bawah ini:
Tabel 3.7 Kamus Kata Baku
Kamus Kata Baku
Bentuk non standar
1
…. Bentuk non
standar 8
Bentuk standar
(baku)
knp napa - kenapa
bpk bp bokap bapak
anjenk asu anjir anjing
elo ente lo kamu
Berikut diberikan contoh normalisasi kata (token) pada tweet hasil tokenizing
sebelumnya untuk setiap kelas tweet:
Tabel 3.8 Contoh Normalisasi Kata pada Tweet
Tweet Kata tidak baku
→
Kata baku
cinta pak bapak
kyai kiai
senang
pak bapak
pengen mau
bikin buat
marah
ajah saja
hoax hoaks
ku aku
mending agak
yuk ayo
sedih
pak bapak
krn karena
utk untuk
dgn dengan
takut krn karena
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
sndiri sendiri
yg yang
tapi tetapi
3. Stemming
Pada tahap ini terjadi pembentukan kata dari yang berimbuhan
(berafiks) menjadi kata tidak berimbuhan atau dasar dengan bantuan
kamus root word. Kamus root word yang digunakan ialah root word
Bahasa Indonesia oleh Tala. Berikut akan dijabarkan langkah-langkah
stemming:
a. Mengecek tiap token dengan kamus root word berbahasa
Indonesia.
b. Jika token kata sama dengan kata pada kamus root word maka
token tersebut adalah kata dasar dan tidak berubah.
c. Jika token tidak sama dengan kata pada kamus root word maka
hapus seluruh prefiks dan sufiks token tersebut.
Tabel 3.9 Contoh Stemming
Tweet Hasil Normalisasi
→
Hasil Stemming
Cinta
cinta
tak
tulus
perlu
dan
diragukan
ikhlas
lagi
kepada
rakyat
cinta
tak
tulus
perlu
dan
ragu
ikhlas
lagi
kepada
rakyat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
Tabel 3.9 Contoh Stemming
Tweet Hasil Normalisasi
→
Hasil Stemming
Cinta
bapak
dengan
jokowi
keluarga
dan
pak
kyai
adalah
sosok
yang
begitu
dekat
dan
cinta
bapak
dengan
jokowi
keluarga
dan
pak
kiai
adalah
sosok
yang
begitu
dekat
dan
cinta
Senang
saya
senang
sekali
siang
hari
ini
meskipun
dari
pagi
tadi
saya
belum
makan
karena
mau
saya
senang
sekali
siang
hari
ini
meskipun
dari
pagi
tadi
saya
belum
makan
karena
mau
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Tabel 3.9 Contoh Stemming
makan
bakso
bersama
bapak
ibu
dan
saudara
semuanya
kata
jokowi
→
makan
bakso
bersama
bapak
ibu
dan
saudara
semua
kata
jokowi
Senang
bapak
jokowi
selalu
bisa
buat
rakyat
senang
jadi
mari
kita
dukung
sampai
menang
bapak
jokowi
selalu
bisa
buat
rakyat
senang
jadi
mari
kita
dukung
sampai
menang
Marah
ditengah
hoaks
dan
fitnah
yang
membuat
resah
tengah
hoaks
dan
fitnah
yang
buat
resah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
Tabel 3.9 Contoh Stemming
mari
kita
jangan
marah
jokowi
saja
tabah
ayo
agak
kita
saja
→
mari
kita
jangan
marah
jokowi
saja
tabah
ayo
agak
kita
saja
Marah
aku
ingin
marah
melampiaskan
tetapi
aku
hanyalah
sendiri
di
sini
aku
ingin
marah
lampias
tetapi
aku
hanya
sendiri
di
sini
Sedih
jalan
desa
kami
tolong
diperbaiki
bapak
sedih
kami
jalan
desa
kami
tolong
baik
bapak
sedih
kami
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Tabel 3.9 Contoh Stemming
Sedih
punya
jalan
seperti
sawah
penuh
dengan
lumpur
→
.
punya
jalan
seperti
sawah
penuh
dengan
lumpur
Sedih
sedih
memang
karena
tidak
ada
celah
untuk
menyerang
musuhnya
mulai
melakukan
fitnah
persis
seperti
dulu
hasil
kerjanya
diburamkan
dengan
prasangka
pendek
kata
sedih
memang
karena
tidak
ada
celah
untuk
serang
musuh
mulai
laku
fitnah
persis
seperti
dulu
hasil
kerja
buram
dengan
prasangka
pendek
kata
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
Tabel 3.9 Contoh Stemming
Sedih
jokowi
dihabisi
dengan
berbagai
cara
kotor
→
jokowi
habis
dengan
bagai
cara
kotor
Takut
karena
apa
yang
dia
ucapkan
karena
ketakutannya
sendiri
yang
takut
kegagalannya
itu
akan
terbukti
gagal
bila
ia
terganti
karena
apa
yang
dia
ucap
karena
takut
sendiri
yang
takut
gagal
itu
akan
bukti
gagal
bila
ia
ganti
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
Tabel 3.9 Contoh Stemming
Tweet Hasil Normalisasi
→
Hasil Stemming
Takut
banyak
yang
tidak
takut
dosa
neraka
tetapi
takut
jokowi
periode
banyak
yang
tidak
takut
dosa
neraka
tetapi
takut
jokowi
periode
4. Stopword Removal
Pada tahap ini akan terjadi penghilangan kata-kata yang terlalu sering
muncul dan tidak memiliki arti seperti kata depan, gabung, dan sebagainya
dengan bantuan kamus stopword Bahasa Indonesia oleh Tala. Adapun
langkah-langkah menghapus stopword dalam penelitian ini, yaitu:
a. Membaca seluruh data hasil stemming dalam arrayList.
b. Mengecek tiap token dengan kamus stopword (Tala)
c. Apabila token merupakan suatu stopword maka secara otomatis
sistem akan menghapus token itu dari arrayList.
d. Jika token bukan merupakan sebuah stopword token akan disimpan
kedalam basis data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
Tabel 3.10 Contoh Stopword Removal
Tweet Hasil Stemming
→
Hasil Stopword
Removal
Cinta
cinta
tak
tulus
perlu
dan
ragu
ikhlas
lagi
kepada
rakyat
cinta
tulus
ragu
ikhlas
rakyat
bapak
dengan
jokowi
keluarga
dan
bapak
kiai
adalah
sosok
yang
begitu
dekat
dan
cinta
jokowi
keluarga
kiai
sosok
cinta
Senang saya
senang
senang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
Tabel 3.10 Contoh Stopword Removal
sekali
siang
hari
ini
meskipun
dari
pagi
tadi
saya
belum
makan
karena
mau
makan
bakso
bersama
bapak
ibu
dan
saudara
semua
kata
jokowi
→
siang
pagi
makan
makan
bakso
saudara
jokowi
Senang bapak
jokowi
selalu
bisa
buat
rakyat
jokowi
rakyat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
Tabel 3.10 Contoh Stopword Removal
senang
jadi
mari
kita
dukung
sampai
menang
→
senang
mari
dukung
menang
Marah
tengah
hoaks
dan
fitnah
yang
buat
resah
mari
kita
jangan
marah
jokowi
saja
tabah
ayo
agak
kita
saja
hoaks
fitnah
resah
mari
marah
jokowi
tabah
ayo
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
Tabel 3.10 Contoh Stopword Removal
Marah
aku
ingin
marah
lampias
tetapi
aku
hanya
sendiri
di
sini
→
marah
lampias
Sedih
jalan
desa
kami
tolong
baik
bapak
sedih
kami
punya
jalan
seperti
sawah
penuh
dengan
lumpur
jalan
desa
tolong
sedih
jalan
sawah
penuh
lumpur
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Tabel 3.10 Contoh Stopword Removal
Sedih
sedih
memang
karena
tidak
ada
celah
untuk
serang
musuh
mulai
laku
fitnah
persis
seperti
dulu
hasil
kerja
buram
dengan
prasangka
pendek
kata
jokowi
habis
dengan
bagai
cara
kotor
→
sedih
celah
serang
musuh
laku
fitnah
persis
hasil
kerja
buram
prasangka
pendek
jokowi
habis
kotor
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
Tabel 3.10 Contoh Stopword Removal
Takut
karena
apa
yang
dia
ucap
karena
takut
sendiri
yang
takut
gagal
itu
akan
bukti
gagal
bila
ia
ganti
→
takut
takut
bukti
gagal
gamti
banyak
yang
tidak
takut
dosa
neraka
tetapi
takut
jokowi
periode
takut
dosa
neraka
takut
jokowi
periode
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
Salah satu alasan mengapa penulis melakukan stemming terlebih
dahulu sebelum stopword removal ialah karena ada beberapa kata
stopword Bahasa Indonesia berimbuhan, contohnya kata “diperbolehkan”
yang memiliki kata dasar “boleh” yang juga merupakan stopword yang
perlu dihapus. Apabila stemming dilakukan paling akhir maka kata
“boleh” yang sudah di stem tidak akan dihapus oleh sistem dan akan
menjadi sebuah residu.
5. Menghitung Term Frequency (Frekuensi Kata)
Pada tahap ini kata-kata hasil pengolahan empat proses diatas akan
dihitung jumlah (frekuensi) kemunculannya per kelas.
Tabel 3.11 Contoh Penghitungan Frekuensi Kata
Kata Frekuensi kata dalam setiap kelas c
Cinta Marah Senang Sedih Takut
bakso
1
bukti
1
buram
1
celah
1
cinta 2
desa
1
dosa
1
dukung
1
fitnah
1
1
gagal
1
ganti
1
habis
1
hasil
1
hoaks
1
ikhlas 1
jalan
2
jokowi 1 1 1 1 1
keluarga 1
kerja
1
kiai 1
kotor
1
laku
1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
lampias
1
lumpur
1
makan
2
marah
2
mari
1 1
menang
1
musuh
1
laku 1
lampias 1
lumpur 1
makan 2
marah 2
mari 1 1
menang 1
musuh 1
neraka 1
pagi 1
pendek 1
penuh 1
periode 1
persis 1
prasangka 1
ragu 1
rakyat 1 1
resah 1
sawah 1
saudara 1
sedih 2
senang 2
serang 1
siang 1
sosok 1
tabah 1
takut 4
tolong 1
tulus 1
∑ 50 10 9 13 23 11
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
3.1.3 Klasifikasi dengan Polinominal Naive Bayes
Diberikan contoh tweet testing sebagai berikut:
“Jokowi merupakan sosok penyabar walaupun banyak serangan hoaks dan
fitnah”
Tweet testing hasil preprosesnya sebagai berikut:
jokowi sosok sabar serang hoaks fitnah
Proses klasifikasi akan menentukan kelas dari suatu tweet berdasarkan
frekuensi kemunculan kata dari proses sebelumnya. Adapun untuk klasifikasi
tersebut memiliki tahap sebagai berikut:
1. Hitung nilai prior probability
Pada tahap ini data training akan dihitung prior probability-nya dengan
menggunakan rumus (2.2):
( )
Tabel 3.12 Contoh Menghitung Prior Probability\
Dokumen kelas c Prior probability
Cinta 2/10
Senang 2/10
Marah 2/10
Sedih 2/10
Takut 2/10
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
2. Hitung nilai conditional probability
Pada tahap ini akan dihitung conditional probability kata dalam setiap
kelas menggunakan rumus (2.3) untuk menghindari nilai nol:
∑ ( )
Tabel 3.13 Contoh Penghitungan Conditional Probability
Kata (Term) Conditional Probability Term Berada Dalam Kelas
Cinta Senang Marah Sedih Takut
Bakso 0.01667 0.03175 0.01695 0.0137 0.01639
Bukti 0.01667 0.01587 0.01695 0.0137 0.03279
Buram 0.01667 0.01587 0.01695 0.0274 0.01639
Celah 0.01667 0.01587 0.01695 0.0274 0.01639
Cinta 0.05 0.01587 0.01695 0.0137 0.01639
Desa 0.01667 0.01587 0.01695 0.0274 0.01639
Dosa 0.01667 0.01587 0.01695 0.0137 0.01639
Dukung 0.01667 0.03175 0.01695 0.0137 0.01639
Fitnah 0.01667 0.01587 0.0339 0.0274 0.01639
Gagal 0.01667 0.01587 0.01695 0.0137 0.03279
Ganti 0.01667 0.01587 0.01695 0.0137 0.03279
Hoaks 0.01667 0.01587 0.01695 0.0274 0.01639
Hasil 0.01667 0.01587 0.01695 0.0274 0.01639
Hoaks 0.01667 0.01587 0.0339 0.0137 0.01639
Ikhlas 0.03333 0.01587 0.01695 0.0137 0.01639
Jalan 0.01639 0.01587 0.01695 0.0137 0.01639
Jokowi 0.03333 0.03175 0.0339 0.0274 0.03279
Keluarga 0.03333 0.01587 0.01695 0.0137 0.01639
Kerja 0.01667 0.01587 0.01695 0.0274 0.01639
Kiai 0.03333 0.01587 0.01695 0.0137 0.01639
Kotor 0.01667 0.01587 0.01695 0.0274 0.01639
Laku 0.01667 0.01587 0.01695 0.0274 0.01639
Lampias 0.01667 0.01587 0.0339 0.0137 0.01639
Lumpur 0.01667 0.01587 0.01695 0.0274 0.01639
Makan 0.01667 0.04762 0.01695 0.0137 0.01639
Marah 0.01667 0.01587 0.05085 0.0137 0.01639
Mari 0.05 0.03175 0.0339 0.0137 0.01639
Menang 0.01667 0.03175 0.01695 0.0137 0.01639
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Musuh 0.01667 0.01587 0.01695 0.0274 0.01639
Neraka 0.01667 0.01587 0.01695 0.0137 0.03279
Pagi
0.01667 0.03175 0.01695 0.0137 0.01639
Pendek 0.01667 0.01587 0.01695 0.0274 0.01639
Penuh 0.01667 0.01587 0.01695 0.0274 0.01639
Periode 0.01667 0.01587 0.01695 0.0137 0.03279
Persis 0.01667 0.01587 0.01695 0.0274 0.01639
Prasangka 0.01667 0.01587 0.01695 0.0274 0.01639
Ragu 0.03333 0.01587 0.01695 0.0137 0.01639
Rakyat 0.03333 0.03175 0.01695 0.0137 0.01639
Resah 0.01667 0.01587 0.0339 0.0137 0.03279
Saudara 0.01667 0.03175 0.01695 0.0137 0.01639
Sawah 0.01667 0.01587 0.01695 0.0274 0.01639
Sedih 0.01667 0.01587 0.01695 0.0411 0.01639
Senang 0.01667 0.04762 0.01695 0.0137 0.01639
Serang 0.01667 0.01587 0.01695 0.0274 0.01639
Siang 0.01667 0.03175 0.01695 0.0137 0.01639
Sosok 0.03333 0.01587 0.01695 0.0137 0.01639
Tabah 0.01667 0.01587 0.0339 0.0137 0.01639
Takut 0.01667 0.01587 0.01695 0.0137 0.08197
Tolong 0.01667 0.01587 0.01695 0.0274 0.01639
Tulus 0.03333 0.01587 0.01695 0.0137 0.01639
3. Matching antara data pada model dan data testing
Pada tahap ini akan mencari hasil matching dengan mengecek kata yang
ada baik pada model maupun testing.
Tabel 3.14 Contoh Hasil Matching Term pada Data Training dan Testing
Kata dalam Kamus Training Ada pada Data Testing?
Ya Tidak
bakso √
bukti √
buram √
celah √
cinta √
desa √
dosa √
dukung √
fitnah √
gagal √
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
neraka √
pagi √
pendek √
penuh √
periode √
persis √
prasangka √
ragu √
rakyat √
resah √
sawah √
saudara √
sedih √
senang √
serang √
siang √
sosok √
tabah √
takut √
tolong √
tulus √
ganti √
habis √
hasil √
hoaks √
ikhlas √
jalan √
jokowi √
keluarga √
kerja √
kiai √
kotor √
laku √
lampias √
lumpur √
makan √
marah √
mari √
menang √
musuh √
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
4. Mendapatkan nilai conditional probability pada hasil matching.
Pada tahap ini nilai conditional probability kata yang ada pada model akan
dimasukkan kedalam kata pada testing jika kedua kata tersebut sama.
5. Menghitung posterior probability
Tahap ini menghitung posterior probability untuk menentukan kelas tweet
yang memiliki nilai perkalian antara prior probability dan conditional probability
terbesar untuk setiap kelasnya dengan menggunakan rumus (2.4)
( ) ∏ ( )
Tabel 3.15 Contoh Penghitungan Posterior Probability
Kelas Posterior Probability
Cinta ( ) ( ) ( )
( ) ( ) ( )
Senang ( ) ( ) ( )
( ) ( ) ( )
( )
Marah ( ) ( ) ( )
( ) ( ) ( )
( )
Sedih = ( ) ( ) ( )
( ) ( ) ( )
( )
Takut = ( ) ( ) ( )
( ) ( ) ( )
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
( )
Dapat diketahui bahwa nilai posterior probability terbesar adalah milik
kelas sedih dengan nilai 1.544 * 10-9
maka tweet tersebuk akan diklasifikasikan
kedalam kelas sedih.
3.2 Metode Pengujian
Metode pengujian untuk menghitung akurasi baik untuk data yang
menggunakan k-Fold Cross Validation maupun tidak dilakukan menggunakan
confusion matrix dengan membandingkan semua label testing dengan label
training.
3.3 Kebutuhan Sistem
Agar system yang dibuat dapat berjalan dengan baik maka digunakan
software dan hardware berikut:
1. Software
a) Sistem Operasi : Windows 8.1 64 bit
b) Bahasa Pemrograman : Java
c) Program : InteliJ IDEA 2018 x64
2. Hardware
a) Processor : Intel (R) Core(TM) i3-4030U
b) Memory : 6 Gb
c) Hard disk : 150 Gb
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
3.4 Perancangan Struktur Data
Struktur data yang digunakan pada penelitian ini adalah sebuah arrayList
untuk menampung dan mengelola bermacam-macam tweet.
[Data 1, Data 2, Data 3, Data 4, Data 5]
Data 1 hingga Data 5 mewakili tweet dengan kelas senang, cinta, marah,
takut, dan sedih
3.5 Desain Interface Sistem
Gambar 3.2 Interface Sistem Secara Menyeluruh
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
Gambar 3.3 Interface Untuk Memproses Data Training
1) Tombol Proses Data Training
Tombol ini digunakan untuk mempreproses data tweet training mulai dari
tokenizing hingga stopword removal lalu hasil preproses disimpan kedalam basis
data.
2) Tombol Train Data
Tombol ini digunakan untuk melatih data training terutama menghitung jumlah
dokumen training, frekuensi kata dalam tiap kelas, dan jumlah kata unik.
3) Tombol reset
Tombol ini digunakan untuk menghapus data tweet training yang telah
dipreproses dari basis data.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
Gambar 3.4 Interface Uji Akurasi Klasifikasi Menggunakan K-Fold Cross
Validation
1) Radio Button Uji K-Fold
Tombol ini digunakan untuk menguji klasifikasi sistem dengan
menggunakan k-Fold, pilihan fold yang ada adalah 3,5, dan 10.
2) Radio button Uji Tanpa K-Fold
Tombol ini digunakan untuk menguji klasifikasi sistem tanpa
menggunakan k-Fold Cross Validation. Data testing dan training yang digunakan
berjumlah konstan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
3) Tombol Uji K-Fold
Tombol ini digunakan untuk menguji akurasi sistem dengan menggunakan
k-Fold Cross Validation
4) Tombol Proses Data Testing
Tombol ini digunakan untuk mempreproses semua data tweet training dalam basis
data
Gambar 3.5 Interface Uji Akurasi Tanpa K-Fold Cross Validation
1) Radio Button Uji Tanpa K-Fold
Tombol ini digunakan untuk menguji akurasi sistem, proporsi data
training dan testing konstan, masing-masing berjumlah 1.650 dan 850 buah.
2) Tombol Proses Data Testing
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
Tombol ini digunakan untuk mempreproses data testing untuk dapat bisa
digunakan untuk proses klasifikasi.
3) Tombol Uji Data Testing
Tombol ini digunakan untuk mengklasifikasikan semua tweet testing,
menghasilkan output label testing. Label testing ini akan dibandingkan pada label
model satu persatu. Hasil perbandingan akan diplotkan dalam confusion matrix.
4) Tombol Hitung Akurasi
Tombol ini digunakan untuk menghitung nilai akurasi sistem yang tanpa
menggunakan k-Fold Cross Validation.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
Gambar 3.6 Interface Untuk Mengklasifikasi Data Tunggal
1) Tombol Bersihkan
Digunakan untuk membersihkan field input tweet oleh user yang akan diuji
klasifikasi
2) Tombol Proses
Digunakan untuk mempreproses input tweet yang akan diuji klasifikasi.
3) Tombol Klasifikasi
Digunakan untuk mengklasifikasi input tweet hasil akan ditampilkan seberapa
besar peluang tweet berada dalam suatu kelas tertentu. Nilai peluang posteriori
yang terbesar akan mewakili kelas hasil klasifikasi tweet dan akan ditampilkan
pada field Hasil Klasifikasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
BAB IV
HASIL DAN ANALISIS HASIL
Bab ini membahas hasil penelitian, yaitu hasil klasifikasi menggunakan metode
Multinominal Naive Bayes dan mengetahui seberapa baik metode Multinominal
Naive Bayes dapat mengklasifikasi sejumlah tweet.
4.1 Hasil Penelitian
4.1.1 Hasil Klasifikasi Tanpa k-Fold Cross Validation
Data dalam sistem yang mempunyai total keseluruhan 2.500 buah data
tweet dengan uraian 500 data tweet kelas cinta, 500 tweet kelas senang, 500 tweet
kelas marah, 500 tweet kelas sedih, 500 tweet kelas takut diambil 170 data dari
tiap kelas sebagai data testing sehingga data testing berjumlah 850. Adapun data
training untuk 5 kelas berjumlah total 1650 buah dengan pembagian 330 data
tweet per kelasnya.
Tabel 4.1 Pembagian Data Testing Tanpa k-Fold Cross Validation
Data
Ke-
1 2 3 4 … … … … … 170
Kelas
C C C C C C C C C C
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
M M M M M M M M M M
Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
T T T T T T T T T T
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
Keterangan:
„C‟ mewakili Cinta
„Sn‟ mewakili Senang
„M‟ mewakili Marah
„Sd‟ mewakili Sedih
„T‟ mewakili Takut
Dari total keseluruhan data sebanyak 170 tweet testing cinta yang masuk
ke sistem tweet diklasifikasikan kedalam kelas cinta sebanyak 106 buah, 170
tweet testing senang yang masuk 160 tweet diklasifikasikan kedalam kelas senang,
dari 170 buah tweet testing marah 108 diklasifikasikan kedalam kelas marah, dari
170 tweet testing sedih 121 dikasifikasikan kedalam kelas sedih, dari 170 tweet
testing takut 125 diklasifikasikan kedalam kelas takut, adapun hasil klasifikasi
dapat dilihat pada confusion matrix berikut
Tabel 4.2 Confusion Matrix Hasil Uji Sistem Tanpa k-Fold Cross Validation
Kelas yang diprediksi
C Sn M Sd T
Kelas
Sebenarnya
C 106 52 5 4 3
Sn 1 160 2 6 1
M 2 56 108 1 3
Sd 2 38 6 121 3
T 1 43 1 0 125
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
4.1.2 Hasil Uji Akurasi Tanpa k-Fold Cross Validation
Dari tabel confusion matrix diatas kita dapat menghitung nilai akurasi
sebagai berikut:
4.1.3 Hasil Klasifikasi Menggunakan k-Fold Cross Validation
Untuk klasifikasi menggunakan k-Fold dengan k bernilai 3, data akan
dibagi dengan proporsi dua set data training dan satu set data testing yang
kemudian secara acak sistem akan menentukan mana yang merupakan data
training dan testing. Proses ini berlangsung sebanyak jumlah iterasi k dimana
untuk fold 3 bernilai 3.
Tabel 4.3 Pembagian Data Menggunakan 3-Fold Cross Validation
Iterasi Data Training Data Testing
1 dataset 1 dataset 2 dataset 3
n 835 835 830
2 dataset 3 dataset 1 dataset 2
n 830 835 835
3 dataset 2 dataset 3 dataset 1
n 835 830 835
*Keterangan
n = jumlah data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
Tabel 4.4 Pembagian Data Menggunakan 5-Fold Cross Validation
Iterasi Data Training Data Testing
1 dataset 1 dataset 2 dataset 3 dataset 4 dataset 5
n 500 500 500 500 500
2 dataset 5 dataset 1 dataset 2 dataset 3 dataset 4
n 500 500 500 500 500
3 dataset 4 dataset 5 dataset 1 dataset 2 dataset 3
n 500 500 500 500 500
4 dataset 3 dataset 4 dataset 5 dataset 1 dataset 2
n 500 500 500 500 500
5 dataset 2 dataset 3 dataset 4 dataset 5 dataset 1
n 500 500 500 500 500
Tabel 4.5 Pembagian Data Menggunakan 10-Fold Cross Validation
Iterasi Data Training Data
Testing
1 ds 1 ds 2 ds 3 ds 4 ds 5 ds 6 ds 7 ds 8 ds 9 ds 10
n 250 250 250 250 250 250 250 250 250 250
2 ds 10 ds 1 ds 2 ds 3 ds 4 ds 5 ds 6 ds 7 ds 8 ds 9
n 250 250 250 250 250 250 250 250 250 250
3 ds 9 ds 10 ds 1 ds 2 ds 3 ds 4 ds 5 ds 6 ds 7 ds 8
n 250 250 250 250 250 250 250 250 250 250
4 ds 8 ds 9 ds 10 ds 1 ds 2 ds 3 ds 4 ds 5 ds 6 ds 7
n 250 250 250 250 250 250 250 250 250 250
5 ds 7 ds 8 ds 9 ds 10 ds 1 ds 2 ds 3 ds 4 ds 5 ds 6
n 250 250 250 250 250 250 250 250 250 250
6 ds 6 ds 7 ds 8 ds 9 ds 10 ds 1 ds 2 ds 3 ds 4 ds 5
n 250 250 250 250 250 250 250 250 250 250
7 ds 5 ds 6 ds 7 ds 8 ds 9 ds 10 ds 1 ds 2 ds 3 ds 4
n 250 250 250 250 250 250 250 250 250 250
8 ds 4 ds 5 ds 6 ds 7 ds 8 ds 9 ds 10 ds 1 ds 2 ds 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
n 250 250 250 250 250 250 250 250 250 250
9 ds 3 ds 4 ds 5 ds 6 ds 7 ds 8 ds 9 ds
10
ds 1 ds 2
n 250 250 250 250 250 250 250 250 250 250
10 ds 2 ds 3 ds 4 ds 5 ds 6 ds 7 ds 8 ds 9 ds 10 ds 1
n 250 250 250 250 250 250 250 250 250 250
Ket :
ds = dataset
Tabel 4.6 Hasil Klasifikasi Menggunakan 3-Fold Cross Validation
Iterasi 1
Data prediksi
Data
sebenarnya
C Sn M Sd T
C 103 51 5 4 3
Sn 1 156 2 6 1
M 2 58 104 1 1
Sd 2 38 6 117 3
T 1 43 2 0 120
Iterasi 2
Data prediksi
Data
sebenarnya
C Sn M Sd T
C 121 35 4 5 2
Sn 1 160 4 2 0
M 0 65 98 2 2
Sd 2 39 0 126 0
T 3 61 5 3 95
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
Iterasi 3
Data prediksi
Data
sebenarnya
C Sn M Sd T
C 107 50 3 1 6
Sn 0 154 6 4 3
M 1 65 101 0 0
Sd 1 53 5 107 1
T 0 45 0 1 121
4.1.4 Hasil Uji Menggunakan k-Fold Cross Validation
Untuk setiap iterasi dari proses k-Fold cross validation diperoleh hasil
klasifikasi pada tabel di bawah:
Tabel 4.7 Hasil Uji Sistem Menggunakan 3-Fold Cross Validation
Iterasi Jumlah tweet
terklasifikasi benar
Jumlah data
testing
Akurasi (%)
1 600 830 72.289
2 600 835 71.856
3 593 835 70.658
Rata-rata 71.601
Tabel 4.8 Hasil Uji Sistem Menggunakan 5-Fold Cross Validation
Iterasi Jumlah tweet
terklasifikasi benar
Jumlah data
testing
Akurasi (%)
1 352 500 70.4
2 373 500 74.6
3 352 500 70.4
4 340 500 68.0
5 351 500 70.2
Rata-rata 70.72
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
Tabel 4.9 Hasil Uji Sistem Menggunakan 10-Fold Cross Validation
Iterasi Jumlah tweet
terklasifikasi benar
Jumlah data
testing
Akurasi (%)
1 183 250 73.2
2 166 250 66.4
3 177 250 70.8
4 193 250 77.2
5 181 250 72.4
6 174 250 69.6
7 167 250 66.8
8 175 250 70.0
9 176 250 70.4
10 175 250 70.0
Rata-rata 70.68
4.2 Analisis Hasil Penelitian
Data training yang telah disebutkan diatas berjumlah 1.650 buah
mempunyai jumlah kata total per kelas dan jumlah kata unik untuk seluruh
dokumen tweet seperti di bawah ini:
1. Jumlah total kata per kelas dan kata unik seluruh dokumen
Gambar 4.1 Output Jumlah Kata Pada Data Training
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
Gambar diatas memaparkan jumlah total kata per kelas untuk data training
dengan kelas cinta mempunyai 4.142 kata, kelas senang mempunyai 3.950, kelas
marah mempunyai 4.910 kata, kelas sedih mempunyai 4.422 kata, kelas takut
mempunyai 4.541 kata, dan kata unik seluruh dokumen tweet berjumlah 4.696
buah.
2. Ketidakcocokan hasil klasifikasi karena pengaruh kata tidak baku
Data tweet testing yang disalahklasifikasikan berbunyi:
@kangdede78 @jokowi senang bgt dengernya , makin banyak yang bersatu demi
menjaga NKRI , dan menangkal isu hoaks
Tweet testing hasil preproses:
senang dengernya jaga nkri tangkal isu hoaks
Data testing tweet tersebut memiliki label testing kelas „senang‟ namun
sistem mengklasifikasikan tweet tersebut kedalam kelas „sedih‟. Adapun rincian
luaran sistem adalah sebagai berikut
Tabel 4.10 Ketidakcocokan Hasil Klasifikasi Karena Kata Tidak Baku
c
cinta senang marah sedih takut
P(“senang”|c) 0.00013 0.04105 0.00083 0.00098 0.00010
P(“dengernya”|c) 0.00013 0.00015 0.00010 0.00022 0.00010
P(“jaga”|c) 0.00039 0.00023 0.00010 0.00088 0.00043
P(“nkri”|c) 0.00531 0.00057 0.00041 0.00077 0.00065
P(“isu”|c) 0.00026 0.00015 0.00020 0.00044 0.00032
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
P(“hoaks”|c) 0.00026 0.00023 0.00041 0.00033 0.00054
priori(c) 0.2
posteriori 2.366*10-
22
3.399*10-
21
6.516*10-
23
4.209*10-
21
1.159*10-
22
Pada tabel diatas kata „dengernya‟ merupakan contoh bentuk tidak baku
dari kata „dengarnya‟ dan tidak mengandung kata dasar „dengar‟ sehingga kata
tersebut dianggap sebuah kosakata baru oleh sistem dan tidak mengalami proses
stemming. Adapun kata „dengernya‟ merupakan kata unik tidak baku yang hanya
berada dalam kelas training „sedih‟ sehingga menyebabkan nilai conditional
probabilitynya paling besar berada dalam kelas tersebut.
Hanya jika kata „dengernya‟ diganti menjadi kata „dengarnya‟ maka tweet
tersebut akan dipreproses:
senang dengar jaga nkri tangkal isu hoaks
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
Dan tweet tersebut akan tepat diprediksi kedalam kelas „senang‟ dengan rincian
tabel sebagai berikut:
Tabel 4.11 Kecocokan Hasil Klasifikasi Karena Kata Baku
c
cinta senang marah sedih takut
P(“senang”|c) 0.00013 0.04105 0.00083 0.00098 0.00010
P(“dengar”|c) 0.00045 0.00115 0.00062 0.00175 0.00043
P(“jaga”|c) 0.00039 0.00023 0.00010 0.00088 0.00043
P(“nkri”|c) 0.00531 0.00057 0.00041 0.00077 0.00065
P(“isu”|c) 0.00026 0.00015 0.00020 0.00044 0.00032
P(“hoaks”|c) 0.00026 0.00023 0.00041 0.00033 0.00054
priori(c) 0.2
posteriori 9.467*10-
22
3.399*10-
20
3.909*10-22
3.367*10-
20
4.636*10-
22
Karena kata „dengar‟ terdapat dalam hampir semua kelas training maka nilai
peluang conditionalnya tidak cenderung mengarah pada suatu kelas tertentu.
3. Ketidakcocokan hasil klasifikasi karena nilai posteriori underflow
Underflow pada Java terjadi ketika nilai posterior probability sangatlah
kecil dan mendekati nilai nol. Adapun batas minimum bilangan bertipe float yang
masih dapat ditoleransi oleh Java adalah 2-149
atau sekitar 1.401*10-45
. Ketika
nilai posterior probability melebihi nilai tersebut Java akan mengembalikan nilai
nol dan kondisi ini sering disebut sebagai underflow. Pada hasil klasifikasi baik
menggunakan k-Fold cross validation maupun tidak dapat terlihat sistem
mengalami banyak underflow dan tweet disalahklasifikasikan kedalam kelas
„senang‟.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
Berikut hasil klasifikasi tweet yang salah karena underflow
“@jokowi pak presiden.kok saya merasa tentara kita kayak melempem sekarang
pak sejak di papua.ini salah siapa pak ???? sedih saya pak. tentara kita sampe
berguguran begitu. Bagaimana nasib keluarganya yg ditinggalkan ?pak jendral
oh pak jendral.apa tindakanmu pak.itu nyawa pak”
Hasil tweet setelah dipreproses:
presiden tentara melempem papua salah sedih tentara gugur nasib keluarga tinggal
jenderal oh jenderal tindak nyawa
Tweet tersebut seharusnya memiliki kelas „sedih‟ namun sistem
mengklasifikasikan tweet tersebut kedalam kelas „senang‟. Berikut tabel rincian
perhitungannya:
Tabel 4.12 Ketidakcocokan Hasil Klasifikasi Karena Underflow
c
cinta senang marah sedih takut
P(“presiden”|
c)
0.004299 0.007749 0.006037 0.005593 0.005521
P(“tentara”|c) 0.000113 0.000115 0.000208 0.000109 0.000216
P(“papua”|c) 0.000678 0.000925 0.000104 0.000219 0.000216
P(“salah”|c) 0.001131 0.000925 0.002082 0.001535 0.000173
P(“sedih”|c) 0.000113 0.000231 0.000624 0.037399 0.000216
P(“tentara”|c) 0.000113 0.000115 0.000208 0.000109 0.000216
P(“gugur”|c) 0.000113 0.000115 0.000104 0.000109 0.000216
P(“nasib”|c) 0.000226 0.000231 0.000104 0.000329 0.000108
P(“keluarga”|
c)
0.000565 0.000462 0.000312 0.001425 0.000324
P(“tinggal”|c) 0.000226 0.000939 0.000520 0.001096 0.000433
P(“jenderal”| 0.000339 0.000693 0.000312 0.000329 0.000757
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
c)
P(“oh”|c) 0.000113 0.000231 0.000104 0.000109 0.000108
P(“jenderal”|
c)
0.000339 0.000231 0.000312 0.000329 0.000757
P(“tindak”|c) 0.000113 0.000115 0.000208 0.000877 0.000541
P(“nyawa”|c) 0.000113 0.000347 0.000208 0.000329 0.000324
P(c) 0.2
posteriori
sebenarnya 2.57*10
-54 4.38*10
-53 2.71*10
-53 1.59*10
-49 7.57*10-52
posteriori
sistem 0 0 0 0 0
Pada tabel tersebut terlihat nilai posteriori sebenarnya yang paling besar adalah
milik kelas „sedih‟ dengan nilai 1.59*10-49
namun karena terjadi underflow tweet
tersebut diklasifikasikan kedalam kelas „senang‟.
Gambar 4.2 Output Sistem Ketika terjadi Underflow
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
71
4. Masalah pentingnya menjaga keseimbangan data training
Keseimbangan data training dapat terjaga apabila jumlah data training
sama untuk setiap kelas tweet, misal pada sistem ini pembagian data training
adalah 330 buah tweet untuk setiap kelasnya (kelas „cinta‟, „senang‟, „marah‟,
„sedih‟, dan „takut‟). Data yang dijaga agar seimbang tentunya tidak akan
menimbulkan perbedaan jumlah kosakata yang mencolok antar kelas. Jika sistem
hanya menggunakan misalnya 200 data tweet cinta, 460 data tweet senang, 170
data tweet marah, sedih, dan takut jumlah kata pada kelas senang ini akan lebih
banyak dari 4 kelas lainnya dan juga hasil klasifikasinya akan cenderung
mengarah kepada kelas senang tersebut yang akan memperburuk akurasi sistem.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
72
BAB V
PENUTUP
5.1 Kesimpulan
Setelah melakukan berbagai macam pengujian pada sistem dapat ditarik
kesimpulan sebagai berikut:
1. Metode Multinominal Naive Bayes dapat mengklasifikasikan data berupa
teks, terutama teks yang berasal dari Twitter (tweet).
2. Jumlah kata dalam tiap kelas training sangat mempengaruhi hasil
klasifikasi pada data testing, oleh karena itu keseimbangan data perlu
dijaga.
3. Kosakata tidak baku dapat mempengaruhi hasil klasifikasi terhadap suatu
kelas testing apabila suatu kelas training memiliki data jumlah kata tidak
baku lebih banyak dibanding kelas training lain.
4. Sistem belum mampu menangani bentuk kalimat negasi yang mempunyai
kata „tidak‟ atau „enggak‟, seperti contoh kalimat “Aku tidak marah
meskipun tiket pesawat naik” seharusnya emosi keluaran sistem bukan
emosi „marah‟ tetapi bisa merupakan emosi „cinta‟, „senang‟, „sedih‟,
ataupun „takut‟.
5. Sistem belum mampu memfilter kata-kata asing (berbahasa Inggris) pada
tweet sehingga tweet yang diambil berupa campuran bahasa Indonesia dan
asing.
6. Hasil uji akurasi tanpa menggunakan k-Fold Cross Validation
menghasilkan akurasi yang lebih besar, yaitu 72.941% dibandingkan
dengan semua k-Fold Cross Validation dimana 3 Fold menghasilkan
akurasi 71.601%, 5-Fold menghasilkan akurasi 70.72% dan 10-Fold
menghasilkan akurasi 70.68%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
73
5.2 Saran
Setelah melakukan penelitian penulis menyadari masih banyak kekurangan
dan kendala, oleh karena apabila pembaca berkeinginan untuk melanjutkan
penelitian ini maka disarankan untuk:
1. Memperbanyak jumlah kata baku dan tidak baku pada kamus kata baku
mengingat gaya penulisan tweet tidak terpaku pada kata baku saja.
2. Menggunakan rumus penjumlahan logaritma untuk menghitung
probabilitas posteriori ketimbang perkalian biasa karena memungkinkan
terbentuk bilangan sangat kecil, terutama dibawah 1.401* 10-45
yang dapat
mengakibatkan underflow pada program Java.
3. Data tweet training dapat diperbanyak untuk meningkatkan akurasi
klasifikasi sistem.
4. Memodifikasi sistem sehingga nantinya dapat memfilter kata-kata bahasa
asing yang ada di dalam tweet.
5. Memodifikasi sistem sehingga nantinya dapat menangani masalah negasi
dalam kalimat agar keluaran emosi sesuai dengan yang seharusnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
74
DAFTAR PUSTAKA
Aliandu, P., Analisis Sentimen Tweet Berbahasa Indonesia di Twitter, Tesis,
Program Studi S2 Ilmu Komputer, Fakultas Matematika Dan Ilmu Pengetahuan
Alam, Universitas Gadjah Mada, Yogyakarta, 2012
Browniee, Jason, 2018, A Gentle Introduction to k-Fold Cross Validation,
Statistical Methods
Diakses dari : https://machinelearningmastery.com/k-fold-cross-validation/
Diakses pada : 7 Agustus 2019
Chen, Berlin, 2005, Text Operations
Diakses dari http://berlin.csie.ntnu.edu.tw/Courses/2004F
InformationRetrievalandExtraction/Slides/IR2004F-Lecture12-
Text%20Operations.pdf
Diakses pada 11 November 2017
Choy, M., Cheong, M. L., Laik, M. N., dan Shung, K. P., 2011, A sentiment
analysis of Singapore Presidential Election 2011 using Twitter data with census
correction, arXiv preprint arXiv:1108.5520.
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction
to Information Retrieval, Cambridge University Press. 2008
Document Classification Using Multinominal Naïve Bayes
Diakses dari : https://www.3pillarglobal.com/insights/document-
classification-using-multinomial-naive-bayes-classifier
Diakses pada : 14 Maret 2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
75
Fathan Hidayatullah, Ahmad, Analisis Sentimen dan Klasifikasi Kategori
Terhadap Tokoh Publik Pada Pwitter, Seminar Nasional Informatika UPN
Veteran, 2014
Diakses dari:
http://jurnal.upnyk.ac.id/index.php/semnasif/article/download/1016/977
Diakses pada : 2 November 2017
Ganesan, Kavita , 2014, All About Stop Words for Text Mining and Information
Retrieval
Diakses dari http://text-analytics101.rxnlp.com/2014/10/all-about-stop-
words-for-text-mining.html
Diakses pada 11 November 2017
Hiemstra, Djoerd, Information Retrieval Model, University of Twente- author
version, 2000
Liu,B. (2012)., Sentimen Analysis and Opinion Mining., Morgan & Claypool
Publishers.
Pang, Bo , Lee,Lillian, (2008). Opinion Mining and Sentiment Analysis,
Foundation and Trends in Information Retrieval 2:1-2
Raschka, Sebastian, 2005, Naive Bayes and Text Classification – Introduction and
Theory
Diakses dari:
https://sebastianraschka.com/Articles/2014_naive_bayes_1.html
Diakses pada : 2 Maret 2019
Shaver, P.R., Murdaya,U.,& Fraley, R.C.(2001). Structure of Indonesian Emotion
Lexicon. Asian Journal of Psychology,4,201-224
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
76
Singgih, Dyarsa , Ageng Setiyanto, Noor , 2014 , Analisis Sentiment Pada Sosial
Media Twitter Menggunakan Naive Bayes Classifier Terhadap Kata Kunci
“Kurikulum 2013
Diakses dari : http://eprints.dinus.ac.id/16572/1/jurnal_15561.pdf
Diakses pada 10 Desember 2017
Tala, F. Z. A Study of Stemming Effects on Information Retrieval in Bahasa
Indonesia. M.S. thesis. M.Sc. Thesis. Master of Logic Project. Institute for Logic,
Language and Computation. Universiteti van Amsterdam The Netherlands. 2003
Text Classification- A Comprehensive Guide to Classifying Text with Machine
Learning
Diakses dari : https://monkeylearn.com/text-classification/
Diakses pada 28 Mei 2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
77
LAMPIRAN
1. Hasil klasifikasi tweet testing (kelas Cinta):
Data Ke- 1 2 3 4 5 6 7 8 8 10
Kelas C C C C C C C C C C
Hasil
Klasifikasi
C Sn C C C C Sd C C C
Data Ke- 11 12 13 14 15 16 17 18 19 20
Kelas C C C C C C C C C C
Hasil
klasifikasi
C C C C Sn M C C Sn C
Data Ke- 21 22 23 24 25 26 27 28 29 30
Kelas C C C C C C C C C C
Hasil
klasifikasi
C C C C C C C Sn T Sn
Data Ke- 31 32 33 34 35 36 37 38 39 40
Kelas C C C C C C C C C C
Hasil
klasifikasi
C C Sn C Sn C C C C C
Data Ke- 41 42 43 44 45 46 47 48 49 50
Kelas C C C C C C C C C C
Hasil
klasifikasi
Sn T C C Sn Sn Sn C C C
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
78
Data Ke- 51 52 53 54 55 56 57 58 59 60
Kelas C C C C C C C C C C
Hasil
klasifikasi
Sn Sd C C Sn Sd T Sn Sn C
Data Ke- 61 62 63 64 65 66 67 68 69 70
Kelas C C C C C C C C C C
Hasil
klasifikasi
Sn C Sn C Sn C C C Sn C
Data Ke- 71 72 73 74 75 76 77 78 79 80
Kelas C C C C C C C C C C
Hasil
klasifikasi
C C Sn C C Sn C C M Sn
Data Ke- 81 82 83 84 85 86 87 88 89 90
Kelas C C C C C C C C C C
Hasil
klasifikasi
Sn C C C Sd C C C C C
Data Ke- 91 92 93 94 95 96 97 98 99 100
Kelas C C C C C C C C C C
Hasil
klasifikasi
C Sn Sn C Sn Sn C C Sn C
Data Ke- 101 102 103 104 105 106 107 108 109 110
Kelas C C C C C C C C C C
Hasil
klasifikasi
Sn C C Sn C Sn C C C C
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
79
Data Ke- 111 112 113 114 115 116 117 118 119 120
Kelas C C C C C C C C C C
Hasil
klasifikasi
Sn Sn C Sn Sn Sn C M C M
Data Ke- 121 122 123 124 125 126 127 128 129 130
Kelas C C C C C C C C C C
Hasil
klasifikasi
C C C Sn C C C Sn Sn C
Data Ke- 131 132 133 134 135 136 137 138 139 140
Kelas C C C C C C C C C C
Hasil
klasifikasi
M C C C Sn C C Sn C Sn
Data Ke- 141 142 143 144 145 146 147 148 149 150
Kelas C C C C C C C C C C
Hasil
klasifikasi
C C C Sn Sn Sn C C C C
Data Ke- 151 152 153 154 155 156 157 158 159 160
Kelas C C C C C C C C C C
Hasil
klasifikasi
C Sn C C C C Sn Sn C C
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
80
Data Ke- 161 162 163 164 165 166 167 168 169 170
Kelas C C C C C C C C C C
Hasil
klasifikasi
C Sn C Sn C C Sn C C Sn
2. Hasil klasifikasi tweet testing (kelas Senang):
Data Ke- 1 2 3 4 5 6 7 8 8 10
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
Klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Data Ke- 11 12 13 14 15 16 17 18 19 20
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn M Sn Sn Sn
Data Ke- 21 22 23 24 25 26 27 28 29 30
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Data Ke- 31 32 33 34 35 36 37 38 39 40
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81
Data Ke- 41 42 43 44 45 46 47 48 49 50
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Data Ke- 51 52 53 54 55 56 57 58 59 60
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Data Ke- 61 62 63 64 65 66 67 68 69 70
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn C Sn
Data Ke- 71 72 73 74 75 76 77 78 79 80
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Data Ke- 81 82 83 84 85 86 87 88 89 90
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sd Sd Sn Sd Sn Sn Sn Sn M
Data Ke- 91 92 93 94 95 96 97 98 99 100
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
82
Data Ke- 101 102 103 104 105 106 107 108 109 110
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn T Sn Sn Sn Sn Sn Sn
Data Ke- 111 112 113 114 115 116 117 118 119 120
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Data Ke- 121 122 123 124 125 126 127 128 129 130
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sd Sn Sn Sn Sn
Data Ke- 131 132 133 134 135 136 137 138 139 140
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Data Ke- 141 142 143 144 145 146 147 148 149 150
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sd Sn Sn Sn Sn Sn Sn Sn Sn
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
83
Data Ke- 151 152 153 154 155 156 157 158 159 160
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Data Ke- 161 162 163 164 165 166 167 168 169 170
Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn
Hasil
klasifikasi
Sn Sn Sn Sn Sn Sn Sn Sn Sn Sd
3. Hasil klasifikasi tweet testing (kelas Marah) dapat dilihat dibawah ini:
Data Ke- 1 2 3 4 5 6 7 8 8 10
Kelas M M M M M M M M M M
Hasil
Klasifikasi
M M M M M M M M M M
Data Ke- 11 12 13 14 15 16 17 18 19 20
Kelas M M M M M M M M M M
Hasil
klasifikasi
Sn Sn Sn M M M M M M M
Data Ke- 21 22 23 24 25 26 27 28 29 30
Kelas M M M M M M M M M M
Hasil
klasifikasi
M M M M M M Sn Sn M M
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
84
Data Ke- 31 32 33 34 35 36 37 38 39 40
Kelas M M M M M M M M M M
Hasil
klasifikasi
M M M Sn C Sn Sn Sn Sn M
Data Ke- 41 42 43 44 45 46 47 48 49 50
Kelas M M M M M M M M M M
Hasil
klasifikasi
M M M Sn M M M M T M
Data Ke- 51 52 53 54 55 56 57 58 59 60
Kelas M M M M M M M M M M
Hasil
klasifikasi
M M M M M M M Sn M Sd
Data Ke- 61 62 63 64 65 66 67 68 69 70
Kelas M M M M M M M M M M
Hasil
klasifikasi
M Sn M Sn M Sn M Sn M Sn
Data Ke- 71 72 73 74 75 76 77 78 79 80
Kelas M M M M M M M M M M
Hasil
klasifikasi
Sn M Sn Sn Sn M Sn M Sn M
Data Ke- 81 82 83 84 85 86 87 88 89 90
Kelas M M M M M M M M M M
Hasil
klasifikasi
M Sn M M M M M M Sn M
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
85
Data Ke- 91 92 93 94 95 96 97 98 99 100
Kelas M M M M M M M M M M
Hasil
klasifikasi
M Sn M M Sn Sn M C M M
Data Ke- 101 102 103 104 105 106 107 108 109 110
Kelas M M M M M M M M M M
Hasil
klasifikasi
M Sn Sn M M Sn M M Sn Sn
Data Ke- 111 112 113 114 115 116 117 118 119 120
Kelas M M M M M M M M M M
Hasil
klasifikasi
M Sn M M M M M M M Sn
Data Ke- 121 122 123 124 125 126 127 128 129 130
Kelas M M M M M M M M M M
Hasil
klasifikasi
M M Sn M M Sn Sn Sn M M
Data Ke- 131 132 133 134 135 136 137 138 139 140
Kelas M M M M M M M M M M
Hasil
klasifikasi
M Sn Sn Sn M M M M M M
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
86
Data Ke- 141 142 143 144 145 146 147 148 149 150
Kelas M M M M M M M M M M
Hasil
klasifikasi
M M Sn Sn M Sn M M Sn Sn
Data Ke- 151 152 153 154 155 156 157 158 159 160
Kelas M M M M M M M M M M
Hasil
klasifikasi
Sn M Sn Sn M Sn Sn M T M
Data Ke- 161 162 163 164 165 166 167 168 169 170
Kelas M M M M M M M M M M
Hasil
klasifikasi
M M Sn Sn Sn Sn M M M M
4. Hasil klasifikasi tweet testing (kelas Sedih):
Data Ke- 1 2 3 4 5 6 7 8 8 10
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
Klasifikasi
Sd Sd Sd Sd Sd Sd Sn Sd Sd Sd
Data Ke- 11 12 13 14 15 16 17 18 19 20
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sd Sn Sd Sd Sd Sd Sd Sd Sd
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
87
Data Ke- 21 22 23 24 25 26 27 28 29 30
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sn Sd Sd Sd Sd Sd Sd Sd Sn
Data Ke- 31 32 33 34 35 36 37 38 39 40
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
T Sd Sd T Sd Sd Sd Sn Sd Sn
Data Ke- 41 42 43 44 45 46 47 48 49 50
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sd M Sd Sd Sd Sn Sd Sd Sd
Data Ke- 51 52 53 54 55 56 57 58 59 60
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sd Sd T Sn Sd Sd Sd Sd Sd
Data Ke- 61 62 63 64 65 66 67 68 69 70
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sd C Sd Sn Sn M Sd Sd Sn
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
88
Data Ke- 71 72 73 74 75 76 77 78 79 80
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
M Sd Sd Sd Sd Sd Sn Sd Sd Sd
Data Ke- 81 82 83 84 85 86 87 88 89 90
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sn Sn Sn Sd Sn Sd Sd Sd Sd Sd
Data Ke- 91 92 93 94 95 96 97 98 99 100
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sd Sd Sd Sd Sn M Sn Sd Sd
Data Ke- 101 102 103 104 105 106 107 108 109 110
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sn Sd Sn Sd Sd Sd Sn Sd Sn
Data Ke- 111 112 113 114 115 116 117 118 119 120
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sn Sd Sd Sn Sn Sn Sd Sn Sd
Data Ke- 121 122 123 124 125 126 127 128 129 130
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sd Sd Sd Sn Sd Sd Sd Sd Sd
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
89
Data Ke- 131 132 133 134 135 136 137 138 139 140
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sn Sd Sn Sd Sd Sd Sd Sd Sn
Data Ke- 141 142 143 144 145 146 147 148 149 150
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sn M Sd Sd Sd Sd Sn Sd Sd M
Data Ke- 151 152 153 154 155 156 157 158 159 160
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sn Sn Sd Sd Sd Sn Sn Sn Sd C
Data Ke- 161 162 163 164 165 166 167 168 169 170
Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd
Hasil
klasifikasi
Sd Sd Sd Sd Sd Sd Sd Sd Sn Sd
5. Hasil klasifikasi tweet testing (kelas Takut):
Data Ke- 1 2 3 4 5 6 7 8 8 10
Kelas T T T T T T T T T T
Hasil
Klasifikasi
T T T T T Sn T T T T
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
90
Data Ke- 11 12 13 14 15 16 17 18 19 20
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T T T T Sn T T Sn T
Data Ke- 21 22 23 24 25 26 27 28 29 30
Kelas T T T T T T T T T T
Hasil
klasifikasi
T Sn T T T T T T T T
Data Ke- 31 32 33 34 35 36 37 38 39 40
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T T Sn Sn T T Sn T T
Data Ke- 41 42 43 44 45 46 47 48 49 50
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T Sn Sn T T T T T T
Data Ke- 51 52 53 54 55 56 57 58 59 60
Kelas T T T T T T T T T T
Hasil
klasifikasi
Sn Sn Sn T Sn T T T Sn T
Data Ke- 61 62 63 64 65 66 67 68 69 70
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T T Sn T T T Sn Sn M
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
91
Data Ke- 71 72 73 74 75 76 77 78 79 80
Kelas T T T T T T T T T T
Hasil
klasifikasi
Sn T Sn T T Sn Sn T Sn T
Data Ke- 81 82 83 84 85 86 87 88 89 90
Kelas T T T T T T T T T T
Hasil
klasifikasi
T Sn T T T Sn Sn T Sn T
Data Ke- 91 92 93 94 95 96 97 98 99 100
Kelas T T T T T T T T T T
Hasil
klasifikasi
Sn T Sn Sn T Sn T T T T
Data Ke- 101 102 103 104 105 106 107 108 109 110
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T T T T Sn T T T T
Data Ke- 111 112 113 114 115 116 117 118 119 120
Kelas T T T T T T T T T T
Hasil
klasifikasi
Sn T T T T Sn T T T T
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
92
Data Ke- 121 122 123 124 125 126 127 128 129 130
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T Sn Sn T T T T T T
Data Ke- 131 132 133 134 135 136 137 138 139 140
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T T T Sn T Sn T Sn T
Data Ke- 141 142 143 144 145 146 147 148 149 150
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T T T T T T T T T
Data Ke- 151 152 153 154 155 156 157 158 159 160
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T T T Sn T T T T Sn
Data Ke- 161 162 163 164 165 166 167 168 169 170
Kelas T T T T T T T T T T
Hasil
klasifikasi
T T T Sn Sn T T T Sn C
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
93
KAMUS KATA BAKU
UNTUK NORMALISASI KATA
id ns 1 ns 2 ns 3 ns 4 ns 5 ns 6 ns 7 ns 8 standar
1 abang abank bang mas kaka kak ci cici kakak
2 adem sejuk
3 aherat akherat ahirat akhirat
4 ahir akhir
5 aktifitas aktivitas
6 aktip aktif
7 alay norak
8 alloh awloh awlh aloha allah
9 alm al almarhum
10 ama ame same sama
11 analisa analisis
12 ancur ancor hancor hancur
13 anjenk asu anjay jeng jing njir njing anjir anjing
14 ank nak nk bocah bch bcah anak
15 anter nganter anterin antar
16 ape ap pa paan apa
17 apotik apotek
18 armosfir atmosfer
19 aseng asenk asing
20 atlit atlet
21 ato atw taw tow atau
22 ayuk ayok yok yuk yu yo ayo
23 azas asas
24 baek best baekin baik
25 bakal bkl bkal akan
26 baper bawa
perasaan
27 baud baut
28 bayangin bayangka
n
29 bener bnr bnar bner benar
30 berantem brntm berkelahi
31 bgt bngt banget sekali
32 bhs bhsa bahasa
33 bhw bhwa bahwa
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
94
34 bikin bkin buat
35 bis bus
36 bloon oon bodo cebong kamp
ret bego
bego
k
goblo
k bodoh
37 blum blm blom lum lom belum
38 bndg bdg bandung
39 boss boes bos
40 bpk bp bpak pakde papi papa
h pak bokap bapak
41 bully dibully ngebully ngebul
lyin ganggu
42 butek jenuh
43 cakep ckp cakap
44 capres calon
presiden
45 cawapres
calon
wakil
presiden
46 cewe cewek
47 challeng
e tantangan
48 ciap siap
49 cinderam
ata
cendermat
a
50 cino cine cina
51 cius ciusan ciyus serius
52 cmn cuma cuman cm cum hanya
53 comment komen koment ngome
n
ngom
enin komentar
54 confiden
t
percaya
diri
55 cowo cowok
56 culun kecil
57 cupu cupuk cpu pemula
58 d di
59 dalem dlm dlem dalam
60 daptar daftar
61 dateng datenk dtg datang
62 ddk dduk duduk
63 dede dedek de dik adik
64 denger denge ngedenger ngeden
ge dengar
65 depo depot
66 detil detail
67 dg dgn dengan
68 diagnosa diagnosis
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
95
69 diem diam
70 differens
ial diferensial
71 difinisi definisi
72 diperhati
in
diperhatik
an
73 disel diesel
74 disimpul
in
disimpulk
an
75 disono dsono dsno disana
76 dok dktr dokter
77 dollar dolar
78 dongok dunguk dongo dungu
79 dr dri dari
80 dsini desene dsene disini
81 duit money duwit uang
82 eksport ekspor
83 ekstrim ekstrem
84 elo lu loe ente mane
h mneh elu lo kamu
85 emg emng emang mmg mmn
g memang
86 enteng mudah
87 erobik aerobic
88 esei esai
89 eslam islam
90 esok besok
91 faham paham
92 fahamka
n pahamkan
93 filem film
94 fix tetep ttep ttap tetap
95 frekwens
i frekuensi
96 fresh segar
97 gak gk nggak ora tdk tak no ga tidak
98 gas lanjut
99 geladi gladi
100 gelo edan gila
101 genk gang gank geng
102 getol rajin
103 gini gene bgn begini
104 gmn gimana gmana bgmn bgmn
a
bagaiman
a
105 gusti god tuhan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
96
106 guys gais gays saudara
107 gw gua gue ane gwa ku q aku
108 hakekat hakikat
109 hapal hafal
110 hate benci
111 hembus embus
112 himbau imbau
113 hirarki hierarki
114 hisap isap
115 hkum hkm hukum
116 hoax ngehoak
s ngehoax hoaks
117 hrs hrus mbok mbo bok harus
118 hutang ngutang ngotang otang utang
119 ibu kota ibukota
120 idup hidup
121 ihlas ikhlas
122 ijasah ijazah
123 ijin izin
124 iket ngiket ikat
125 iki ini
126 ilmiawan ilmuwan
127 import impor
128 indon indo ind indonesia
129 indra indera
130 inget ingat
131 inisiatip inisiatif
132 iso dapet dapat
133 isteri istri
134 iye ya ye y iy yes aye iya
135 jadual jadwal
136 jaman zaman
137 jejek jijik
138 jenasah jenazah
139 jendral jenderal
140 jeplak asal bicara
141 jk jika
142 jkt jkrta jakarta
143 jogjakart
a
yogyakart
a
144 jokodok kodok jokow jokowi
145 judge ngejudg
e ngenilai nilaiin nilai
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
97
146 jum'at jumat
147 kaedah kaidah
148 kalem slow selow santai
149 kangker kanker
150 kapir kafer kafir
151 karir karier
152 katholik katolik
153 kawatir khawatir
154 kayak kyk kya kek spt sprti seperti
155 keburu masih
156 kedzalim
an
kedzoli
man
kedzholim
an kezaliman
157 kelar beres selesai
158 kemaren maren kmrn marin kemarin
159 ketawa ktawa ngakak ngkak tertawa
160 khutbah khotbah
161 kismin mesken miskin
162 kite kta kita
163 klu klo kalau
164 km anda
165 kmi kami
166 knp knpa napa ko kok kenapa
167 kocak lucu
168 komodit
as komoditi
169 komplit komplet
170 kongkrit konkrit konkret
171 konperen
si konferensi
172 kontol penis
173 korup korupsi
174 kosakata kosa kata
175 kpd pd kepada
176 krn krna karna karena
177 ksh kasi ksih kasih
178 kt bilang blng blg kata
179 kuna kuno
180 kwalitas kwalitet kualitas
181 kwitansi kuitansi
182 kwn kwan sob sobat sis kawan
183 kyai kiai
184 lbh lbih lebih
185 legowo legawa terima
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
98
186 liat liatx ngeliat meliat melihat
187 lobang lubang
188 loka
karya lokakarya
189 love luv lov cinte cinta
190 ma'af maap maep maaf
191 mabok mabuk
192 maen maenin bermain
193 mahluk makhluk
194 mahzab mazhab
195 makasi mkasih mksh terima
kasih
196 malem malam
197 mami mamah mamih bu buk ibuk nyok
ap ibu
198 mampet mampat
199 manage
men
manajeme
n
200 manager manajer
201 mayan lumayan
202 medsos media
sosial
203 mending mending
an agak
204 mesjid mesjit masjid
205 metoda metode
206 mikir meker think fikir pikir
207 milih pilih
208 milu ikut
209 mjd jadi jd menjadi
210 moga muga smg semoga
211 motifasi motivasi
212 motip motif
213 msuh musuh
214 mulus halus
215 mumpun
g lg lgi lag selagi
216 musti mesti
217 n dn dan
218 nampakn
y
nampak
nya
tampakny
a
219 nangkap nangkep tangkep tangkap
220 nara
sumber
narasumb
er
221 nasehat nasihat
222 negatip negative negatif
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
99
223 nemu nemuin temuin temu
224 neng mbak
225 ngawur slah slh slah ngac
o salah
226 ngeles alasan
227 ngerasa ngerasai
n ngarasa merasa
228 ngeyel kekeh keras
kepala
229 ngomel omel mrh marah
230 nopembe
r november
231 notabene dominan
232 nulis tulis
233 nunggu tunggui
n nggu tunggu
234 nyalon mencalon
235 nyicip nyicipin cicip
236 nyinyir bacot bacod ngebac
ot
ngeb
acod cerewet
237 nyuri nilep tilep colong nyolo
ng curi
238 obok aduk
239 obyek objek
240 obyektif objektif
241 ogah kagak tidak mau
242 oge jg jug juga
243 olah raga olahraga
244 on ons
245 onta sempak jancuk jancok barba
r
kupr
et tolol
246 orangtua orang tua
247 org orng orang
248 pantes pantesan pantas
249 pdhl pad pdhal padahal
250 pebruari februari
251 pemuki
man
permukim
an
252 penggel penggal
253 penglepa
san pelepasan
254 pengliata
n
penglihata
n
255 perancis prancis
256 perioda period priode periode
257 perletaka
n peletakan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
100
258 persarata
n
persyarata
n
259 phisik fisik
260 photo foto
261 php boong boongin diboon
gin
diphp
in
dikib
ulin
ngibu
l bohong
262 pinjem minjem pinjemin minje
min pinjam
263 pinter pintar
264 pngin pengen pingin pgn pngn mo mao mau
265 pose gaya
266 positip positive positif
267 prabocor wowo genduruw
o prabowo
268 praktek praktir
269 prakteku
m praktikum
270 pres plecide
n presiden
271 problima
tik
problemat
ic
272 prodak produk
273 produktif
itas
produktivi
tas
274 prof profesor
275 propinsi provinsi
276 prosen persen
277 prosenta
se persentase
278 prumaha
n
perumaha
n
279 psikotest psikotes
280 pungkit mungkir
281 putera putra
282 puteri putri
283 realita realitas
284 rejeki rezeki
285 reply balas
286 resiko risiko
287 rme rame rmai ramai
288 rubah ubah
289 rubuh roboh
290 sampe smpe ampe sampai
291 samuder
a samudra
292 sare bobo bobok tidur
293 sbg sbgai sebagai
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
101
294 sdh udah sud wis wes udh sudah
295 sebel nyebelin sebal
296 secuil dikit dkit sedikit
297 segi tiga segitiga
298 sekertari
s sekretaris
299 seksama saksama
300 sekuritas sekuriti
301 selebriti selebritas
302 sempet smpet sempat
303 sene sne sini
304 seneng sneng snang senang
305 sepakbol
a sepak bola
306 serem seram
307 silahkan silakan
308 sintesa sintesis
309 sistim sistem
310 skr skrang skrg skrng sekarang
311 smart cerdas
312 sndiri sndr sndri sendiri
313 sok sok2an berlagak
314 solat shalat sholat salat
315 sono ono sno sana
316 sopir supir
317 spesis spesies
318 sreg mantap
319 standard standar
320 standaris
asi
standardis
asi
321 subyek subjek
322 subyektif subjektif
323 sumatera sumatra
324 sungkem sujud
325 supaya spy sup paya agar
326 syarat sarat
327 syurga sorga surga
328 tabok nabok tampar
329 takhta tahta
330 tandatan
gan
tanda
tangan
331 tapsir tafsir
332 tar entar ntar ntr nti nnt nnti nanti
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
102
333 tarip tarif
334 tau tao tw tahu
335 taun taon thn thun thon tahun
336 team tim
337 tehnik teknik
338 tele telek tai tahi
339 telefon telpon telepon
340 telen nelen telan
341 tentrem tentram
342 teoritis teoretis
343 terlanjur telanjur
344 terlentan
g telentang
345 tkot tkt tkut takot takut
346 tl tlng tlg please pls plis tolong
347 tmn tman tmen temen teman
348 tong ntong jgn jangan
349 tp tpi tapi ttp tetapi
350 tradision
il tradisional
351 trampil terampil
352 trotoir trotoar
353 trus trs teros melulu mulu molo terus
354 tsb tersebut
355 ttg ttng tentang
356 tubruk nabrak tabrak
357 tuh ituh ito tu itu
358 tusbol sodomi
359 twit ngetwit ngetweet tweet
360 ujud wujud
361 urang sy sya saya
362 utek ngutek otak
363 utk untuk
364 varitas varietas
365 voter voters pemilih
366 wae sj sja aja ajah aj saja
367 walikota wali kota
368 walo walao walaopun wlau walaupun
369 wapres wakil
presiden
370 yg yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
103
Keterangan:
ns : Bentuk kata non standar (tidak baku)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
104
KAMUS TWEET
id;"tweet_id";"text";"label";"topic";"processed";"jenis_data"
1;1104755714906558465;"https://t.co/nwqqqL0LF3 Fingerscrossed utk semua
proyek MRT & LRT. Senang liat Jakarta tambah kompeten & modern.🤞
@jokowi @kemenhub151 @KemenPU @Humas_DKI
@DKIJakarta";"senang";"jokowi";0;"Testing"
2;1104737781220163584;"Jokowi menang
3;1104735074258305024;"Betawi paling senang dgn org jujur
#BetawiPastiJokowi";"senang";"jokowi";0;"Testing"
4;1104732595248480258;"@IswadiJambi @tonojora @NaradhiptaJogja
@jokowi @BamsBulaksumur @kangdede78 @projopusat @suryaden Budak tu
makek dongkrak ABS (asal buapak senang) be
😷✌";"senang";"jokowi";0;"Testing"
5;1104729459301670912;"saya senang dengan kinerjanya pak Jokowi
#BetawiPastiJokowi";"senang";"jokowi";0;"Testing"
6;1104725935939436545;"Rakyat senang
#BetawiPastiJokowi https://t.co/0xt82VStSF";"senang";"jokowi";0;"Testing"
7;1104724499046391808;"Pak #jokowi maju
#BetawiPastiJokowi";"senang";"jokowi";0;"Testing"
8;1104723300507279360;"Susah senang tetap pak jokowi
#BetawiPastiJokowi";"senang";"jokowi";0;"Testing"
9;1104721937576603648;"Masyarakat betawi senang bersama pak jokowi
#BetawiPastiJokowi";"senang";"jokowi";0;"Testing"
10;1104720324174667776;"Pak #jokowi senang bersama rakyat.
#BetawiPastiJokowi";"senang";"jokowi";0;"Testing"
2500;1104718876430950400;"Jokowi-Amin bikin rakyat senang
Layak didukung ampe menang 🄕
#BetawiPastiJokowi https://t.co/9ExiYWYkf3";"senang";"jokowi";0;"Testing"
Keterangan:
File dalam bentuk .csv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI