analisis sentimen pada twitter menggunakanrepository.usd.ac.id/35993/2/145314060_full.pdfsistem ini...

i

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN

MULTINOMINAL NAIVE BAYES

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana

Komputer Program Studi Teknik Informatika

Oleh:

Servasius Dwi Harijiatno

145314060

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2019

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

SENTIMENT ANALYSIS FOR TWITTER USING MULTINOMINAL

NAIVE BAYES

A THESIS

Presented as Partial Fullfillment of Requirements to Obtain Sarjana

Komputer Degree in Informatics Engineering Department

By:

Servasius Dwi Harijiatno

145314060

INFORMATICS ENGINEERING STUDY PROGRAM

INFORMATICS ENGINEERING DEPARTMENT

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2019


v

MOTTO

“Opportunities don‟t happen, you create them” Ŕ Chris Grosser


viii

KATA PENGANTAR

Puji syukur penulis haturkan kepada Tuhan karena atas segala rahmat dan

berkatNya penulis dapat menyusun tugas akhir ini dengan baik dan lancar.

Perlu diketahui bahwa tugas akhir ini merupakan salah satu syarat bagi

setiap mahasiswa prodi Teknik Informatika Universitas Sanata Dharma

Yogyakarta untuk memperoleh gelar Sarjana 1, terutama gelar Sarjana 1

Komputer.

Penulis juga mengucapkan banyak terima kasih karena berkat bimbingan

dan dukungan dari berbagai belah pihak, penulis dapat menyelesaikan tugas akhir

ini. Terima kasih ini terutama ingin disampaikan penulis kepada:

1. Sudi Mungkasi, S.Si, M.Math.Sc, Ph.D selaku Dekan Fakultas Sains dan

Teknologi Universitas Sanata Dharma.

2. Dr. Cyprianus Kuntoro Adi, S.J, M.A, M.Sc selaku Dosen Pembimbing

Tugas Akhir yang dengan sabar memberi petunjuk, bimbingan, dan

waktunya kepada penulis tugas akhir.

3. Lorencius Echo. S.Kom selaku kakak penulis yang dengan sabar

meluangkan waktu untuk memberi petunjuk pengerjaan tugas akhir

4. Orang tua penulis yang telah memberi banyak semangat dan dukungan

moral agar dapat mengerjakan tugas akhir ini dengan baik


ix


x

ABSTRAK

Media sosial seperti Twitter, Facebook, dan Youtube merupakan beberapa

media perangkat komunikasi terpopuler di masyarakat saat ini. Twitter seringkali

digunakan untuk mengungkapkan emosi mengenai sesuatu hal, baik memuji

ataupun mencela dalam bentuk emosi. Emosi manusia dapat dikategorikan

menjadi lima emosi dasar yaitu cinta, senang, sedih, marah, dan takut. Emosi

tweet para pengguna twitter dapat dikenali dengan analisis opini atau sentimen

(opinion analysis atau sentiment analysis). Analisis sentimen juga dilakukan

untuk melihat pendapat atau kecenderungan opini terhadap sebuah masalah atau

objek oleh seseorang, apakah cenderung beropini negatif atau positif terhadap

suatu tokoh tertentu. Oleh karena itu dibutuhkan sebuah sistem yang dapat

menganalisis sentimen, terutama tweet yang berbahasa Indonesia.

Penelitian ini menghasilkan sebuah sistem yang dapat menganalisis

sentimen tweet yang berhubungan dengan tokoh publik di Indonesia dimana tweet

tersebut didapat menggunakan Twitter API. Sistem ini menggunakan metode

Multinominal Naive Bayes untuk proses klasifikasinya.

Percobaan klasifikasi tweet dengan metode Multinominal Naive Bayes

tanpa k-Fold Cross Validation menghasilkan confusion matrix dengan akurasi

72.941% dan dengan k-Fold Cross Validation sebesar 71.601%, 70.72%, dan,

70.68%.

Kata Kunci: Klasifikasi, Multinominal Naive Bayes, Analisis Sentimen, Confusion

Matrix, K-Fold Cross Validation


xi

ABSTRACT

Social media such as Twitter, Facebook, and Youtube are several of well-

known communication devices upon the community nowadays. Twitter is

sometimes used for showing emotion about certain things such as praising and

censuring in form of emotions. Human emotion can be categorized into five basic

emotions; love, happiness, anger, sadness, and fear. Twitter users‟ emotions can

be recognized by using opinion analysis or sentiment analysis. Sentiment analysis

is also applied for finding out whether an opinion regarding specific public figure

is inclining to positive or negative opinion. Therefore system that is able to

analyze sentiment, especially Indonesian ones would be needed.

This research yields a system that is able to analyze sentiment on tweets

regarding Indonesian public figure which can be obtained by using Twitter API.

The system mainly uses Multinominal Naive Bayes for classifying.

The sentiment analysis experiment by using Multinominal Naive Bayes

without k-Fold Cross Validation yields a confusion matrix with 72.941% accuracy

while the experiments with k-Fold Cross Validation applied give 71.601%,

70.72%, and 70.68% accuracy.

Keywords : Classification, Multinominal Naive Bayes, Sentiment Analysis,

Confusion Matrix, k-Fold Cross Validation


xii

DAFTAR ISI

HALAMAN JUDUL...............................................................................................i

TITLE PAGE..........................................................................................................ii

HALAMAN PERSETUJUAN.............................................................................iii

HALAMAN PENGESAHAN...............................................................................iv

MOTTO..................................................................................................................v

PERNYATAAN KEASLIAN KARYA...............................................................vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS ......................................................... vii

KATA PENGANTAR....................................................................................viii-ix

ABSTRAK..............................................................................................................x

ABSTRACT............................................................................................................xi

DAFTAR ISI..................................................................................................xii-xiv

DAFTAR TABEL..........................................................................................xv-xvi

DAFTAR GAMBAR..........................................................................................xvii

BAB I PENDAHULUAN

1.1 Latar Belakang.............................................................................................1

1.2 Rumusan Masalah........................................................................................2

1.3 Tujuan Penelitian.........................................................................................2


xiii

1.4 Manfaat Penelitian.......................................................................................2

1.5 Luaran..........................................................................................................3

1.6 Batasan Masalah..........................................................................................3

1.7 Sistematika Penulisan..................................................................................4

BAB II LANDASAN TEORI

2.1 Analisis Sentimen.........................................................................................5

2.2 Information Retrieval System.......................................................................8

2.3 Algoritma Stemming Nazief-Adriani.........................................................11

2.4 Twitter dan Twitter API.............................................................................16

2.5 Klasifikasi Teks..........................................................................................19

2.6 Naïve Bayes................................................................................................19

2.7 Klasifikasi Multinominal Naïve Bayes.......................................................20

2.8 Confusion Matrix.......................................................................................22

2.9 k-Fold Cross Validation.............................................................................23

BAB III METODE PENELITIAN

3.1 Gambaran Jalannya Sistem........................................................................24

3.2 Metode Pengujian.......................................................................................52

3.3 Kebutuhan Sistem......................................................................................52

3.4 Perancangan Struktur Data.........................................................................53


xiv

3.5 Desain Interface Sistem.............................................................................53

BAB IV HASIL DAN ANALISIS HASIL

4.1 Hasil Penelitian..........................................................................................59

4.2 Analisis Hasil Penelitian............................................................................65

BAB V PENUTUP

5.1 Kesimpulan................................................................................................72

5.2 Saran...........................................................................................................73

DAFTAR PUTAKA........................................................................................74-76

LAMPIRAN..................................................................................................77-104


xv

DAFTAR TABEL

Tabel 2.1 Kosakata Emosi.................................................................................. 7-8

Tabel 2.2 Aturan Pemenggalan Algoritma Nazief-Adriani.............................15-16

Tabel 2.3 Confusion Matrix..................................................................................22

Tabel 3.1 Contoh Data Tweet Training...........................................................25-26

Tabel 3.2 Contoh Tokenizing Tweet Cinta...........................................................27

Tabel 3.3 Contoh Tokenizing Tweet Senang........................................................28

Tabel 3.4 Contoh Tokenizing Tweet Marah.........................................................28

Tabel 3.5 Contoh Tokenizing Tweet Sedih..........................................................29

Tabel 3.6 Contoh Tokenizing Tweet Takut..........................................................30

Tabel 3.7 Kamus Kata Baku.................................................................................31

Tabel 3.8 Contoh Normalisasi Kata pada Tweet.............................................31-32

Tabel 3.9 Contoh Stemming.............................................................................32-38

Tabel 3.10 Contoh Stopword Removal............................................................39-44

Tabel 3.11 Contoh Penghitungan Frekuensi Kata...........................................45-46

Tabel 3.12 Contoh Menghitung Prior Probability...............................................47

Tabel 3.13 Contoh Penghitungan Conditional Probability.............................48-49

Tabel 3.14 Contoh Hasil Term Matching pada Data Training dan Testing....49-50

Tabel 3.15 Contoh Penghitungan Posterior Probabiliy..................................51-52

Tabel 4.1 Pembagian Data Testing Tanpa k-Fold Cross Validation.....................59


xvi

Tabel 4.2 Confusion Matrix Hasil Uji Sistem Tanpa k-Fold Cross

Validation...............................................................................................................60

Tabel 4.3 Pembagian Data Menggunakan 3-Fold Cross Validation.....................61

Tabel 4.4 Pembagian Data Menggunakan 5-Fold Cross Validation.....................62

Tabel 4.5 Pembagian Data Menggunakan 10-Fold Cross Validation..............62-63

Tabel 4.6 Hasil Klasifikasi Menggunakan 3-Fold Cross Validation................63-64

Tabel 4.7 Hasil Uji Sistem Menggunakan 3-Fold Cross Validation.....................64

Tabel 4.8 Hasil Uji Sistem Menggunakan 5-Fold Cross Validation.....................64

Tabel 4.9 Hasil Uji Sistem Menggunakan 10-Fold Cross Validation...................65

Tabel 4.10 Ketidakcocokan Hasil Klasifikasi Karena Kata Tidak Baku..........66-67

Tabel 4.11 Kecocokan Hasil Klasifikasi Karena Kata Baku.................................68

Tabel 4.12 Ketidakcocokan Hasil Klasifikasi Karena Underflow....................69-70


xvii

DAFTAR GAMBAR

Gambar 2.1 Model Sistem Pemrolehan Informasi................... ..............................9

Gambar 2.2 Penerapan Klasifikasi Teks................................................................19

Gambar 3.1 Diagram Blok.....................................................................................24

Gambar 3.2 Interface Sistem Secara Menyeluruh.................................................53

Gambar 3.3 Interface Untuk Memproses Data Training.......................................54

Gambar 3.4 Interface Uji Akurasi Klasifikasi Menggunakan K-Fold Cross

Validation...............................................................................................................55

Gambar 3.5 Interface Uji Akurasi Tanpa K-Fold Cross Validation......................56

Gambar 3.6 Interface Untuk Klasifikasi Data Tunggal.........................................58

Gambar 4.1 Output Jumlah Kata Pada Data Training...........................................65

Gambar 4.2 Output Sistem Ketika terjadi Underflow............................................70


1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Media sosial seperti Twitter, Facebook, dan Youtube merupakan beberapa

media perangkat komunikasi terpopuler di masyarakat saat ini (Aliandu, 2012;

Kumar dan Sebastian, 2012). Salah satu media jejaring sosial yang telah

dimanfaatkan belakangan ini adalah Twitter dimana sudah sangat umum di

beberapa negara seperti Singapura, Jerman, dan Amerika (Sang dan Bos, 2012;

Choy dkk, 2012; Choy dkk, 2011). Menurut data dari lembaga Informasi dan

Komunikasi Publik (IKP) , Indonesia menempati peringkat ke-5 pengguna Twitter

terbesar di dunia setelah USA, Brazil, Jepang dan Inggris.

Twitter seringkali digunakan untuk mengungkapkan emosi mengenai

sesuatu hal, baik memuji ataupun mencela dalam bentuk emosi. Emosi itu sendiri

dapat dikelompokkan menjadi emosi positif dan emosi negatif. Emosi manusia

dapat dikategorikan menjadi lima emosi dasar yaitu cinta, senang, sedih, marah,

dan takut. Emosi cinta dan senang merupakan emosi positif. Emosi sedih, marah,

dan takut merupakan emosi negatif (Shaver, Murdaya, dan Fraley, 2001).

Menjelang pemilihan umum masyarakat sering memanfaatkan Twitter

untuk menilai para calon tokoh publik, seperti calon presiden menurut pandangan

mereka masing-masing dan diluapkan dalam bentuk emosi. Emosi tweet para

pengguna Twitter dapat dikenali dengan analisa opini atau sentimen (opinion

analysis atau sentiment analysis). Analisis sentimen juga dilakukan untuk melihat

pendapat atau kecenderungan opini terhadap sebuah masalah atau objek oleh

seseorang, apakah cenderung beropini negatif atau positif terhadap suatu tokoh

tertentu (Pang & Lee,2008). Oleh karena itu dibutuhkan sebuah sistem yang dapat

menganalisis sentimen, terutama tweet yang berbahasa Indonesia.


2

Penelitian ini sebelumnya telah dilakukan oleh Gregorius (2016) dengan

judul “Analisis Sentimen Data Twitter Menggunakan K-Means Clustering” dan

Yenni (2017) dengan judul “Analisis Sentimen pada Twitter Menggunakan

Pendekatan Agglomerative Hierarchical Clustering”. Hasil penelitian mereka

memiliki akurasi sebesar 76.3% dan 81%.

Pada tugas akhir ini, peneliti akan lebih terfokus pada analisis sentimen

twitter terhadap tokok publik menjelang pemilu 2019, yaitu Jokowi dan Prabowo

dengan menggunakan metode Multinominal Naïve Bayes.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang sudah diuraikan diatas maka dapat dibuat

rumusan masalah sebagai berikut:

1. Bagaimana metode Multinominal Naive Bayes mampu secara otomatis

melakukan klasifikasi tweet pada Twitter dengan baik?

2. Berapa akurasi yang diperoleh dari metode Multinominal Naive Bayes

untuk melakukan klasifikasi tweet pada Twitter?

1.3 Tujuan Penelitian

Tujuan diadakannya penelitian ini yaitu untuk:

1. Mengetahui metode Multinominal Naive Bayes mampu secara otomatis

melakukan klasifikasi tweet pada Twitter dengan baik.

2. Mengetahui akurasi yang diperoleh dari metode Multinominal Naive Bayes

untuk melakukan klasifikasi tweet pada Twitter.


3

1.4 Manfaat Penelitian

Manfaat yang dapat diberikan penelitian ini, yaitu

1. Membantu menganalisis sentimen tweet pada Twitter menggunakan

metode Multinominal Naïve Bayes.

2. Menjadi referensi bagi peneliti mendatang bila akan melakukan

penelitian dengan tema terkait.

1.5 Luaran

Luaran yang diharapkan pada penelitian ini berupa suatu sistem yang

secara otomatis mampu menganalisis sentimen tweet pada Twitter.

1.6 Batasan Masalah

Berdasarkan permasalahan yang telah didapatkan diatas maka penulis

harus membatasi masalah agar tidak keluar dari topik yang dibicarakan. Adapun

batasan masalah terebut ialah:

1. Tweet yang diambil dan dianalisis hanya tweet berbahasa Indonesia.

2. Metode yang dipakai adalah metode Multinominal Naïve Bayes.

3. Sentimen Twitter hanya sentimen yang berhubungan dengan tokoh pada

pemilu 2019, yaitu calon presiden Jokowi dan Prabowo.

4. Media yang digunakan untuk mengambil data tweet pada Twitter ialah

Twitter API.

5. Tweet hanya dikelompokkan kedalam 5 emosi, yaitu cinta, marah,

senang, sedih, dan takut.


4

1.7 Sistematika Penulisan

Berbagai macam pembahasan yang disajikan dalam skripsi ini secara

umum ada lima bab yang dapat dipaparkan sebagai berikut:

BAB I PENDAHULUAN

Bab ini berisi latar belakang, perumusan masalah, tujuan penulisan,

manfaat penulisan, metodologi penulisan, dan sistematika penulisan.

BAB II LANDASAN TEORI

Bab ini secara umum menguraikan berbagai macam teori yang

mendukung dan menjadi dasar dalam penulisan skripsi ini, diantara lain dengan

menjelaskan pengertian sentimen, emosi, text preprocessing dalam menambang

data tweet, dan ciri metode Multinominal Naive Bayes yang digunakan,

BAB III METODOLOGI PENELITIAN

Bab ini berisi berbagai macam analisa dan desain sistem yang akan

dibangun.

BAB IV HASIL DAN ANALISIS HASIL

Bab ini berisi berbagai macam penjabaran hasil penelitian, nilai

akurasi algoritma yang digunakan, dan berbagai macam analisis terhadap hasil

penelitian yang ada.

BAB V PENUTUP

Bab ini berisi berbagai macam kesimpulan terhadap hasil

penelitian yang berupa keterbatasan sistem dan saran kepada pembaca apabila

berkeinginan untuk melanjutkan penelitian dengan tema terkait.


5

BAB II

LANDASAN TEORI

Bab ini berisi penjabaran teori yang digunakan dan mendukung jalannya

penelitian ini. Teori-teori tersebut mencakup analisis sentimen, pemrolehan

informasi (information retrieval), text preprocessing, metode Multinominal Naïve

Bayes, Confusion Matrix, k-Fold Cross Validation.

2.1 Analisis Sentimen

Analisis sentimen ialah sebuah bidang studi yang menganalisis pendapat,

sentimen, evaluasi, penilaian, sikap, dan emosi seseorang terhadap suatu barang,

organisasi, orang, masalah konkrit, peristiwa. Ada beberapa penamaan terhadap

studi ini, yaitu analisis sentimen, penambangan opini (opinion mining), ektraksi

opini (opinion extraction), penambangan sentimen (sentiment mining) dimana

semuanya sekarang berada dibawah ranah analisis sentimen atau penambangan

opini. Dalam dunia industri kata “analisis sentimen” sering digunakan tetapi di

dunia pendidikan kata “analisis sentimen” dan “opinion mining” sering

digunakan. Kata “analisis sentimen” pertama muncul tahun 2003 oleh Nasukawa

dan Yi, sementara “opinion mining” muncul pada tahun 2003 oleh Dave.

Lawrence dan Pennock. (Liu, 2012)

Meskipun linguistik dan pemrosesan bahasa natural (Natural Language

Processing) disingkatnya NLP mempunyai sejarah lama, hanya sedikit penelitian

sudah dilakukan tentang opini orang dan sentimen sebelum tahun 2000. Semenjak

itu bidangnya sudah menjadi sangat aktif sebagai area penelitian. Ada beberapa

alasan mengapa demikian, pertama memiliki penerapan yang luas, hampir

disemua bidang. Analisis sentimen pada ranah sekitar industri juga sudah maju

akibat adanya perkembangan dari penggunaan komersial yang menyediakan

motivasi kuat untuk penelitian. Kedua, menyediakan banyak masalah penelitian

yang menantang yang belum dipelajari sebelumnya.


6

Ketiga, dalam sejarah pertama manusia sekarang kita mempunyai volume data

yang besar dalam mesia sosial di web dan tanpa data ini banyak penelitian yang

tidak akan mungkin. Analisis sentimen sekarang berada di tengah penelitian

media sosial, oleh karena itu peneitian analisis sentimen tidak hanya mempunyai

dampak penting terhadap NLP, tetapi juga dampak yang sangat terhadap

pengelolaan sains, sains politik, ekonomi, dan sains sosial berhubung mereka

semua dipengaruhi oleh banyak pendapat orang. (Liu, 2012)

Ada beberapa konsep yang berhubungan dekat dengan sentimen dan opini,

salah satunya ialah emosi. Emosi adalah perasaan subjektif dan pikiran kita.

Emosi telah dipelajari dalam beberapa bidang, seperti psikologi, filsafat, dan

sosiologi. Pembelajaran dalam bidang tersebut sangat luas, mulai dari tanggapan

emosional dari reaksi fisiologis (perubahan detak jantung, tekanan darah,

keringat), ekpresi wajah, gerakan tubuh, dan sikap badan terhadap tipe

pengalaman subjektif dari keadaan pikiran seorang individu. (Liu, 2012)

Berdasarkan pembelajaran kata emosi dalam bahasa Inggris Amerika (oleh

Shaver, Schwartz, Kurson, O‟Connor, 1987) emosi dibedakan menjadi lima level

dasar, yaitu cinta, senang, marah, sedih, dan takut. Kelima emosi dasar itu

dikategorikan kedalam dua kelompok besar (superordinat), yaitu positif dan

negatif. Emosi cinta dan senang dikategorikan kedalam superordinat positif

sedangkan emosi marah, takut, dan sedih dikategorikan kedalam superordinat

negatif (Shaver, Murdaya, dan Fraley, 2001).

Penelitian terhadap emosi bahasa Indonesia menghasilkan beberapa

kosakata emosi (subordinat) yang dapat dijabarkan pada tabel dibawah, (Shaver,

Murdaya, dan Fraley, 2001).


7

Tabel 2.1 Kosakata Emosi (Shaver, 1987)

Superordinat Emosi Dasar Subordinat

+ cinta

pemujaan, kasih sayang, cinta, kegemaran,

kesukaan, ketertarikan, perhatian, kelembutan,

kasih sayang, sentimentalitas, gairah,

keinginan, nafsu, gairah, keberahian, kerinduan

+ senang

hiburan, kebahagiaan, keceriaan, keriangan,

keriaan, gembira, keriangan, kegirangan,

menyenangkan, kenikmatan, senang hati, suka

cita, kegirangan, keriangan hati, kepuasan,

ekstasi, euforia, antusiasme, semangat, nafsu,

kehebohan, sensasi, kegembiraan, kepuasan,

kesenangan, kebanggaan, kemenangan,

keinginan, harapan, optimisme, pesona,

pengangkatan, bantuan

- marah

kejengkelan, jengkel, mengacau, gangguan,

kesal, galak, kegusaran, frustrasi, kemarahan,

berang, mengamuk, kemurkaan, permusuhan,

keganasan, kebencian, benci, jijik, mencaci

maki, dendam, kedendaman, enggan, marah,

menjijikan, muak, kenistaan, cemburu,

kecemburuan, kesengsaraan.

- takut

gelisah, terkejut, ketakutan, gecar, kengeriaan,

ngeri, panik, histeria, malu, kecemasan,

kegugupan, ketegangan, khawatir, keprihatinan,

cemas, berbahaya, takut.

- sedih

kesakitan, menderita, terluka, sedih, depresi,

putus asa, keputus asaan, murung, kemuraman,

kesedihan, ketidakbahagiaan, dukacita,

kenestapaan, sengsara, kesengsaraan,


8

kemurungan, kecemasan, kekecewaan,

ketidaksenangan, rasa bersalah, rasa malu,

menyesal, belas kasihan, pengasingan, isolasi,

kelalaian, kesepian, penolakan, kerinduan,

kekalahan, kegelisahan, rasa malu, hinaan,

penghinaan, rasa kasihan, rasa simpati

2.2 Information Retrieval System

Sistem pemrolehan informasi (information retrieval system) disingkatnya

SPI adalah sebuah program perangkat lunak yang menyimpan dan mengatur

informasi pada dokumen-dokumen, seringkali dokumen berbentuk teks bisa juga

multimedia. Pemrolehan informasi ini mendampingi pengguna dalam menemukan

informasi yang dibutuhkan. Sistem ini tidak secara eksplisit mengembalikan

informasi atau jawaban terhadap pertanyaan tetapi memberitahu keberadaan lokasi

dari dokumen yang kemungkinan memiliki informasi yang diinginkan dimana

dokumen ini disebut dokumen yang relevan (relevant document). Sebuah sistem

pemrolehan informasi yang sempurna hanya akan memperoleh dokumen yang

relevan saja, akan tetapi sistem ini tidak ada dan tidak akan pernah ada karena

pernyataan untuk pencarian tidak lengkap dan relevansi bergantung pada pendapat

(opinion) pengguna yang subjektif. Dalam penerapannya dua pengguna bisa

memiliki query yang sama untuk sistem itu dan menilai relevansi dokumen yang

diperoleh secara berbeda, yang satu akan menyukai dan yang lain tidak

menyukainya. (Djoerd, 2000)

Ada tiga proses sederhana yang harus didukung oleh SPI, pertama

representasi isi dari dokumen, representasi informasi kebutuhan pengguna, dan

perbandingan kedua representasi tersebut. Proses dapat digambarkan:


9

Gambar 2.1 Model Sistem Pemrolehan Informasi (Djoerd, 2000)

Merepresantasikan dokumen biasanya disebut dengan proses pengindeksan

(indexing) yang hasilnya berupa representasi dokumen itu sendiri. Seringkali

sistem pemrolehan penuh menggunakan sebuah algoritma yang mengindentifikasi

kata-kata dalam teks bahasa Inggris dan membentuknya ke huruf kecil. Proses

indexing bisa menyertakan penyimpanan dokumen dalam sistemnya, tetapi kadang

dokumennya hanya disimpan sebagian sebagai contoh hanya disimpan judul dan

abstraknya saja, ditambah informasi lokasi sebenarnya dari dokumen itu.

Pengguna tidak mencari untuk kesenangan saja namun mereka punya

kebutuhan akan informasi. Proses merepresentasikan kebutuhan informasi itu

sering disebut sebagai query formulation process yang hasilnya adalah sebuah

query. Secara lebih luas, query formulation bisa menunjukkan dialog antara

sistem dan pengguna untuk lebih memahami informasi yang dibutuhkannya, yang

disebut dengan feedback.

Perbandingan dari query dan representasi dokumen disebut sebagai proses

penyesuaian (matching process). Proses penyesuaian ini biasanya menghasilkan

daftar dokumen terurut. Pemrolehan yang terurut diharapkan bisa menyimpan

dokumen relevan pada daftar teratas untuk mempersingkat waktu membaca

pengguna.


10

Langkah-langkah untuk mengindeks (indexing) kosa kata yaitu: (Manning,

2008)

a. Tokenisasi (tokenizing)

Sebuah unit dokumen memiliki susunan kata-kata tertentu, tugas dari

tokenisasi ialah untuk memotong susunan tersebut menjadi pecahan-

pecahan terpisah yang disebut sebuah token. Contohnya;

Input : Friends, Romans, Countryman, lend me your ears;

Output : |Friends| |Romans| |Countryman| |lend| |me| |your| |ears|

Pada tokenisasi seluruh tanda baca titik(.), koma(,), tanda seru(!), tanda

tanya (?), hashtag(#), mention(@), dan simbol-simbol lain dihilangkan.

Ada pula case-folding, yaitu mengecilkan bentuk huruf awal yang kapital,

contoh kata „Indonesia‟ menjadi „indonesia‟

b. Menghilangkan stopword

Stopword adalah sebuah kata yang dieliminasi pada saat melakukan

peprocessing pada text mining. Kata-kata yang dieliminasi tersebut adalah

kata-kata yang paling sering muncul dalam suatu dokumen yang memiliki

sedikit nilai dan sedikit membantu ketika memilih dokumen yang

dibutuhkan pengguna. Sebelum memulai proses meghilangkan stopword

(elimination of stopword) terlebih dahulu harus dibuat daftar stopword

(stoplist) sebagai acuan proses. Penelitian ini menggunakan daftar

stopword Bahasa Indonesia dari Tala (2003) yang berjumlah 750 lebih

kosakata stopword. Contoh stopword pada daftar ini yang paling sering

digunakan, yaitu: dan, atau, maka, di, ke, dari, walaupun, meskipun, yang,

ini, itu, disini.

c. Normalisasi (ekuivalensi kata)

Merupakan sebuah proses penyamaan sebuah ejaan kata yang memiliki

makna yang sama, missal ketika kita mencari kata „USA‟ kita juga

mengarapkan akan mendapatkan kata „U.S.A‟ (Manning, 2008). Dalam

bahasa Indonesia banyak dijumpai kata „slalu‟ dan „selalu‟. Kata „slalu‟


11

memiliki makna yang sama dengan „selalu‟, maka menggunakan ejaan

yang benar „selalu‟.

d. Stemming

Tujuan dari stemming ialah untuk mengurangi infleksi (pembentukan kata

baru) akibat penambahan suatu imbuhan sufiks dan afiks sehingga

menurunkan suatu kata ke bantuk kata dasarnya (Manning, 2008).

Stem ialah bagian dari kata yang tersisa ketika menghilangkan imbuhan

afiks (prefiks dan sufiks). Proses stemming ialah tahapan dari

preprocessing teks yang digunakan untuk menghasilkan kata murni (kata

dasar) tanpa imbuhan apapun. (Berlin Chen, 2005)

2.3 Algoritma Stemming Nazief dan Adriani

Algoritma stemming ini dikembangkan berdasarkan aturan

morfologi Bahasa Indonesia yang mengelompokkan imbuhan menjadi

awalan (prefiks), sisipan (infiks), akhiran (sufiks), dan gabungan awalan-

akhiran (konfiks). Algoritma ini menggunakan kamus kata dasar dan

mendukung recoding, yaitu menyusun kembali kata-kata yang mengalami

proses stemming terlebih dahulu. (Andita dan Diana, 2011)

Aturan morfologi Bahasa Indonesia mengelompokkan imbuhan

kedalam beberapa kategori dasar sebagai berikut:

1. Inflection suffixes, yaitu kelompok akhiran yang tidak

merubah bentuk kata dasar. Contoh, kata “duduk” yang

diberikan akhiran Ŕlah akan menjadi “duduklah”.

Kelompok ini dibagi menjadi dua, yaitu:

a. Particle (P) atau partikel, contoh Ŕlah, -kah, -tah,

dan Ŕpun

b. Possessive pronoun (PP) atau kata ganti kepunyaan,

contoh Ŕku, -mu, dan Ŕnya


12

2. Derivation suffixes (DS), yaitu kumpulan akhiran asli

Bahasa Indonesia yang secara langsung ditambahkan pada

kata dasar, yaitu akhiran Ŕi, -kan, dan Ŕan

3. Derivation prefixes (DP) yaitu kumpulan awalan yang

dapat langsung diberikan pada kata dasar murni atau pada

kata dasar yang sudah mendapatkan penambahan sampai

dengan 2 awalan, contoh:

a. Awalan yang dapat bermorfologi, -me, -be, -pe, dan

Ŕte

b. Awalan yang tidak bermorfologi, -di, -ke, dan -se

Aturan dasar morfologi Bahasa Indonesia yang digunakan dalam

stemming Algoritma Nazief-Adriani ialah sebagai berikut:

1. Tidak semua kombinasi awalan dan akhiran diperbolehkan.

Kombinasi-kombinasi imbuhan yang tidak diperbolehkan,

yaitu be-i, di-an, ke-i, ke-kan, me-an, se-kan, dan te-an.

2. Penggunaan imbuhan yang secara berulang tidak

diperkenankan.

3. Jika suatu kata hanya terdiri dari satu atau dua huruf proses

stemming tidak dilakukan.

4. Penambahan suatu awalan tertentu dapat mengubah bentuk

asli kata dasar ataupun awalan yang telah diberikan

sebelumnya pada kata dasar bersangkutan. Contoh awalan Ŕ

me- dapat berubah menjadi meng-, men-, meny-, dan mem-

. Oleh karena itu diperlukan suatu aturan yang mampu

mengatasi masalah morfologi ini.

5.

Algoritma stemmer yang diperkenalkan oleh Nazief dan Adiriani

dijabarkan sebagai berikut:

1. Di awal proses stemming dan setiap langkah yang

selanjutnya dilakukan, lakukan pengecekan hasil proses


13

stemming kata yang di-input-kan pada langkah tersebut ke

kamus kata dasar. Jika kata ditemukan, berarti kata tersebut

sudah berbentuk kata dasar dan proses stemming

dihentikan. Jika tidak ditemukan, maka langkah selanjutnya

dilakukan.

2. Hilangkan inflectional suffixes. Dimulai dari inflectional

particle, kemudian possessive pronoun.

3. Hilangkan derivation suffixes

4. Hilangkan derivation prefixes.

a. Langkah 4 berhenti jika :

i. Terjadi kombinasi awalan dan akhiran yang

terlarang.

ii. Awalan yang dideteksi saat ini sama dengan

awalan yang dihilangkan sebelumnya.

iii. Tiga awalan telah dihilangkan.

b. Identifikasi tipe awalan dan hilangkan. Awalan

terdiri dari dua tipe:

i. Standar (di-,ke-, dan se-) yang dapat

langsung dihilangkan dari kata.

ii. Kompleks (me-, be-, pe-, dan te-) yang

merupakan tipe-tipe awalan yang dapat

bermorfologi sesuai kata dasar yang

mengikutinya. Oleh karena itu gunakan

aturan pada tabel di bawah untuk

mendapatkan hasil pemenggalan yang tepat.

c. Cari kata yang telah dihilangkan awalannya ini di

dalam kamus kata dasar (root word). Apabila tidak

ditemukan maka langkah 4 diulangi kembali.

Apabila ditemukan maka keseluruhan proses

dihentikan.


14

5. Apabila setelah langkah 4 kata dasar masih belum

ditemukan, maka proses recoding dilakukan dengan

mengacu pada aturan pada Tabel 2.1. Recoding dilakukan

dengan menambahkan karakter recoding di awal kata yang

dipenggal. Pada Tabel 2.1, karakter recoding adalah huruf

kecil setelah tanda hubung („-‟) dan terkadang berada

sebelum tanda kurung. Sebagai contoh, kata “menangkap”

(aturan 15), setelah dipenggal menjadi “nangkap”. Karena

tidak valid, maka recoding dilakukan dan menghasilkan

kata “tangkap”.

6. Jika semua langkah gagal, maka input kata yang diuji pada

algoritma ini dianggap sebagai kata dasar.


15

Tabel 2.2 Aturan Pemenggalan Algoritma Nazief-Adriani (Andita, Diana,

2011)

Aturan Format Kata Pemenggalan

1 berV... ber-V... | be-rV...

2 berCAP... ber-CAP... dimana C≠‟r‟ & P≠‟er‟

3 berCAerV... ber-CaerV... dimana C≠‟r‟

4 belajar bel-ajar

5 beC1erC2... be-C1erC2... dimana C1≠{‟r‟|‟l‟}

6 terV... ter-V... | te-rV...

7 terCerV... ter-CerV... dimana C≠‟r‟

8 terCP... ter-CP... dimana C≠‟r‟ dan P≠‟er‟

9 teC1erC2... te-C1erC2 dimana C1≠‟r‟

10 me{l|r|w|y}V... me-{l|r|w|y)V...

11 mem{b|f|v}... mem-{b|f|v}...

12 mempe{r|l}... mem-pe...

13 mem{rV|V}... me-m{rV|V}... | me-p{rV|V}...

14 men{c|d|j|z}... men-{c|d|j|z}...

15 menV... me-nV... | me-tV

16 meng{g|h|q}... meng-{g|h|q}...

17 mengV... meng-V | meng-kV...

18 meny-V... meny-sV...

19 mempV... mem-pV... dimana V≠‟e‟

20 pe{w|y}V... pe-{w|y}V...

21 perV... per-V... | pe-rV...

22 perCAP per-CAP... dimana C≠‟r‟ dan P≠‟er‟

23 perCAerV... per-CAerV... dimana C≠‟r‟

24 pem{b|f|V}... pem-{b|f|V}...

25 pem{rV|V}... pe-m{rV|V}... | pe-p{rV|V}...

26 pen{c|d|j|z}... pen-{c|d|j|z}...


16

27 penV... pe-nV... | pe-tV...

28 peng{g|h|q}... peng-{g|h|q}...

29 pengV... peng-V... | peng-kV...

30 penyV... peny-sV...

31 pelV... pe-lV... kecuali „pelajar‟ yang

menghasilkan „ajar‟

32 peCerV... per-erV... dimana

C≠{r|w|y|l|m|n}

33 peCP... pe-CP... dimana C≠{r|w|y|l|m|n}

dan P≠‟er‟

Keterangan simbol huruf”

C : huruf konsonan

V : huruf vokal

A : huruf vokal atau konsonan

P : partikel atau fragmen dari suatu kata, misal „er‟

2.4 Twitter dan Twitter API

Twitter adalah sebuah situs web yang dimiliki dan dioperasikan oleh

Twitter Inc., yang menawarkan jaringan sosial berupa mikroblog sehingga

memungkinkan penggunanya untuk mengirim dan membaca pesan Tweets

(Twitter, 2013). Mikroblog adalah salah satu jenis alat komunikasi online dimana

pengguna dapat memperbarui status tentang mereka yang sedang memikirkan dan

melakukan sesuatu, apa pendapat mereka tentang suatu objek atau fenomena

tertentu. Tweets adalah teks tulisan hingga 140 karakter yang ditampilkan pada

halaman profil pengguna.


17

Tweets bisa dilihat secara publik, namun pengirim dapat membatasi

pengiriman pesan ke daftar teman-teman mereka saja. Pengguna dapat melihat

Tweets pengguna lain yang dikenal dengan sebutan pengikut (follower).

Semua pengguna dapat mengirim dan menerima Tweets melalui situs

Twitter, aplikasi eksternal yang kompatibel (telepon seluler), atau dengan pesan

singkat (SMS) yang tersedia di negara-negara tertentu (Twitter, 2013). Pengguna

dapat menulis pesan berdasarkan topik dengan menggunakan tanda # (hashtag).

Sedangkan untuk menyebutkan atau membalas pesan dari pengguna lain bisa

menggunakan tanda @. Fitur yang terdapat dalam Twitter, antara lain:

1. Halaman Utama (Home)

Pada halaman utama kita bisa melihat Tweets yang dikirimkan oleh

orang-orang yang menjadi teman kita atau yang kita ikuti ( following).

2. Profil (Profile)

Pada halaman ini yang akan dilihat oleh seluruh orang mengenai profil

atau data diri serta Tweets yang sudah pernah kita buat.

3. Followers

Pengikut adalah pengguna lain yang ingin menjadikan kita sebagai

teman. Bila pengguna lain menjadi pengikut akun seseorang, maka Tweets

seseorang yang ia ikuti tersebut akan masuk ke dalam halaman utama.

4. Following

Kebalikan dari pengikut, following adalah akun seseorang yang

mengikuti akun pengguna lain agar Tweets yang dikirim oleh orang yang

diikuti tersebut masuk ke dalam halaman utama.

5. Mentions

Biasanya konten ini merupakan balasan dari percakapan agar sesama

pengguna bisa langsung menandai orang yang akan diajak bicara.


18

6. Favorite

Tweets ditandai sebagai favorit agar tidak hilang oleh halaman

sebelumnya.

7. Pesan Langsung (Direct Message)

Fungsi pesan langsung lebih bisa disebut SMS karena pengiriman

pesan langsung di antara pengguna.

8. Hashtag

Hashtag “#” yang ditulis di depan topik tertentu agar pengguna lain

bisa mencari topik yang sejenis yang ditulis oleh orang lain juga

9. List

Pengguna Twitter dapat mengelompokkan ikutan mereka ke dalam satu

grup sehingga memudahkan untuk dapat melihat secara keseluruhan para

nama pengguna (username) yang mereka ikuti (follow).

10. Topik Terkini (Trending Topic)

Topik yang sedang banyak dibicarakan banyak pengguna dalam suatu

waktu yang bersamaan.

Ada beberapa cara untuk mendapatkan sekumpulan data tweet pada

Twitter yang salah satunya dengan menggunakan Twitter API. Berdasarkan pada

halaman situs resmi Twitter, sebuah API (Application Programming Interface)

merupakan salah satu cara computer “berbicara” satu sama lain sehingga dapat

memesan dan mengantar informasi. Agar dapat memesan informasi maka

pengguna harus memperbolehkan aplikasi perangkat lunak mengakses sebuah

informasi spesifik, seperti nomor telepon dimana setiap pengguna memiliki nomor

yang unik.


19

Untuk dapat mengakses Twitter API maka pengguna harus terlebih dahulu

mendaftarkan aplikasinya. Setelah mendaftar maka pengguna dapat mengakses

bermacam-macam tweet dari suatu akun spesifik dengan menggunakan suatu kata

kunci tertentu.

2.5 Klasifikasi Teks

Klasifikasi teks adalah sebuah pekerjaan untk menetapkan seperangkat

kategori yang telah ditentukan ke teks bebas. Sebuah pengklasifikasi teks dapat

digunakan untuk mengatur, menyusun, dan mengkategorikan. Contoh, artikel

dapat diatur dengan topic-topik, tiket keluhan dapat diatur berdasarkan

kepentingan, percakapan obrolan dapat diatur dengan sebuah bahasa. Sebuah alat

klasifikasi dapat mengambil teks sebagai input, menganalisis isinya, dan

kemudian secara otomatis menetapkan penanda (tag) yang relevan, seperti Easy to

Use. (MonkeyLearn)

Gambar 2.2 Penerapan Klasifikasi Teks (MonkeyLearn)

2.6 Naive Bayes (NB)

Naive Bayes merupakan sebuah algoritma yang digunakan terutama untuk

mencari nilai probabilitas tertinggi untuk mengklasifikasi data uji pada kategori

yang paling tepat (Feldman & Sanger,2007). Asumsi yang digunakan mahwa

suatu data memiliki sifat yang bebas satu sama lain dan tidak saling

mempengaruhi. Khusus untuk klasifikasi data berupa teks dokumen untuk lebih

memaksimalkan metode Naïve Bayes ialah dengan menggunakan Multinominal

Naïve Bayes.


20

2.7 Klasifikasi Multinominal Naïve Bayes

Merupakan klasifikasi yang dimulai dengan proses pengambilan jumlah

kata yang muncul dalam tiap dokumen dengan asumsi dokumen memiliki beberapa

kejadian dalam kata dengan panjang yang tidak tergantung pada kelasnya

(Manning, Raghavan, Schutze, 2008).

Model klasifikasi ini merupakan hasil perkalian antara prior probability dan

conditional probability dan hasil akhirnya merupakan sebuah posterior probability

dengan nilai paling besar untuk suatu kelas tertentu dengan rumus di bawah ini.

(Manning, 2008)

( ) ∏ ( ) (2.1)

Keterangan:

arg max : Fungsi untuk mencari nilai posterior probability terbesar suatu

kelas

P(tk|c) : Conditional probability, peluang kemunculan kata k dalam suatu

kelas tertentu

P(c) : Prior probability, peluang kemunculan sebuah kelas dari seluruh

pengamatan yang dilakukan. Adapun menghitung P(c)

menggunakan rumus:


21

Nilai probabilitas sebuah dokumen d berada dalam kelas c dinyatakan

dengan rumus:

( )

(2.2)

Keterangan:

Nc : Jumlah dokumen di kelas c

N‟ : Jumlah total dokumen training

Untuk menghitung conditional probability menggunakan rumus dibawah ini:

( )

∑

(2.3)

Keterengan:

Tct : Frekuensi suatu kata dalam kelas c pada dokumen training termasuk

yang berulang

Tct‟ : Jumlah total kata dalam suatu kelas c.

Seringkali ada suatu kata yang tidak pernah terlihat dalam suatu kelas

tertentu pada data training (unseen word) sehingga peluang kata dalam kelas

tersebut (conditional probability) bernilai 0. Hal ini menyebabkan hasil perkalian

posterior probability bernilai 0 karena conditional probabilitynya sendiri bernilai

0. Untuk menghindari terjadinya peluang bernilai 0 maka perlu digunakan add-one

smoothing (Laplace smoothing). Cara kerja Laplace smoothing ialah


22

menambahkan angka 1 pada numerator dan jumlah kosakata pada denominator,

dimana dapat dilihat pada rumus di bawah ini (Manning, 2008):

( )

∑

(2.4)

Keterangan:

B‟ : Total kosakata (kata unik) pada keseluruhan kelas dalam dokumen

training.

2.8 Confusion Matrix

Metode yang digunakan untuk evaluasi adalah confusion matrix.

Confusion matrix merupakan salah satu metode yang dapat digunakan untuk

mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion

matrix mengandung informasi yang membandingkan hasil klasifikasi yang

dilakukan oleh sistem dengan hasil klasifikasi yang seharusnya. Confusion matrix

juga merupakan salah satu tools penting dalam metode visualisasi yang digunakan

pada mesin pembelajaran yang biasanya memuat dua kategori atau lebih

(Manning, dkk, 2009; Horn, 2010). Tabel dibawah menggambarkan contoh hasil

confusion matrix prediksi dua kelas

Tabel 2.3 Confusion Matrix

Kelas sebenarnya

1 2

Kelas prediksi 1 True positive False negative

2 False positive True negative


23

Nilai true positive (TP) dan true negative (TN) adalah hasil klasifikasi

yang benar. Nilai false positive (FP) adalah nilai dimana hasilnya diprediksi

sebagai kelas-2 namun sebenarnya merupakan kelas-1 sedangkan false negative

(FN) adalah nilai dimana prediksi mengklasifikasikan sebagai kelas-1 namun

faktanya termasuk dalam klasifikasi kelas-2. Nilai akurasi confusion matrix

berdasarkan Tabel diatas diperoleh dengan persamaan dibawah:

(2.5)

2.9 K-Fold Cross Validation

K-Fold Cross Validation merupakan sebuah metode penyampelan ulang

untuk mengevaluasi model machine learning pada sampel data terbatas. Prosedur

ini mempunyai parameter k yang mewakili jumlah pembagian kelompok data

sampel. Metode ini biasanya diterapkan untuk memperkirakan kemampuan

machine learning berhadapan dengan unseen data. (Jason, 2018)

Langkah-langkah umum metode ini adalah sebagai berikut:

1) Mengacak dataset

2) Membagi dataset kedalam k-kelompok

3) Setiap kelompok unik:

i. Gunakan bagian kelompok dataset untuk data testing.

ii. Gunakan sisanya sebagai data training.

iii. Cocokkan model pada training set dan evaluasikan pada data

testing.

iv. Pertahankan skor evaluasi dan buang modelnya.

4) Ringkas keterampilan model menggunakan skor evaluasi


24

BAB III

METODE PENELITIAN

Bab ini secara keseluruhan berisi rancangan jalannya penelitian yang dibuat oleh

penulis, yakni jalannya sistem, kebutuhan sistem, metode pengujian, perancangan

struktur data, desain interface.

3.1 Gambaran Jalannya Sistem

Gambar 3.1 Diagram Blok


25

3.1.1 Data

Penelitian ini menggunakan data berupa macam-macam tweet khusus

berbahasa Indonesia yang terdapat dalam media sosial Twitter. Tweet yang

digunakan ialah tweet dengan topik presiden Jokowi yang mengandung terutama

emosi senang, cinta, marah, sedih, dan takut. Tweet yang diambil per emosi

tersebut berjumlah 500 buah sehingga total data tweet keseluruhan berjumlah

2.500 buah. Penulis membuat sebuah tabel pada database mySQL yang bernama

corpus_tweets untuk menyimpan tweet tersebut dan mengimpor tabel stopword

dan rootword oleh Tala dari internet yang nantinya akan dipakai untuk proses

stemming dan stopword removal.

Data tweet dicari dan diambil dengan Twitter API pada Twitter dengan

keyword “Jokowi” dan hashtag kelima emosi. Sistem menggunakan user ID dan

consumer key ID pengguna pada twitter untuk dapat mengakses dan meretrieve

tweet yang bersangkutan. Data yang didapat tersebut kemudian dipilah secara

manual agar nantinya tweet yang dipakai murni berupa teks berbahasa Indonesia

dan tidak mengandung gambar dan akan disimpan kedalam tabel corpus_tweets.

Tabel 3.1 Contoh Data Tweet Training

Kelas Tweet

Cinta

@B_Zaenuri Cinta tulus dan Ikhlas @jokowi Kepada Rakyat tak perlu

di ragukan lagi #01JokowiLagi #01IndonesiaMaju

@muyanneni #YangPasti Pak Jokowi dan Pak Kyai adalah sosok yg

begitu dekat dan cinta dengan keluarga https://t.co/RbJT70t0i

Senang

@KalidYanuar Saya senang sekali, siang hari ini meskipun dari pagi

tadi saya belum makan karena pengen makan bakso bersama bapak ibu

dan saudara semuanya,” kata Jokowi

#JabarNgahiji

@yusranjafar13 PAK Jokowi selalu bisa bikin Rakyat senang jadi mari

kita dukung sampai Menang☺ #BetawiPastiJokowi

https://t.co/tREjIP6qDe

Marah @SaaeBunglon Ditengah hoax dan fitnah yang membuat resah Mari


https://twitter.com/B_Zaenuri

https://twitter.com/muyanneni

https://twitter.com/KalidYanuar

https://twitter.com/yusranjafar13

https://twitter.com/SaaeBunglon

26

kita jangan marah Jokowi saja tabah Yuk Mending kita #GoyangJempol

ajaaaahh https://t.co/GdN7Wi0UrU

@nongandah @picoez @jokowi Kuingin marah, melampiaskan.. Tapi

ku hanyalah sendiri di sini..

Sedih

@syarif2379 @jokowi Jalan desa kami tolong di perbaiki pak.. sedih

kami punya jalan seperti sawah penuh dengan lumpur

@julian03687082 #meNyepiSejenak Sedih memang krn tak ada celah

utk menyerang @jokowi, musuhnya mulai melakukan fitnah. Persis

seperti dulu. Hasil kerjanya diburamkan dgn prasangka. Pendek kata,

Jokowi dihabisi dgn berbagai cara kotor.

Takut

@lakibruntung @sweethellena @jokowi Krn apa yg dia ucapkan krn

ketakutannya sndiri, yg takut kegagalannya itu akan terbukti gagal bila

ia terganti @rizkamel01

@ubaidillahThal1 Banyak yg tidak takut dosa & neraka, tapi takut

Jokowi 2 periode https://t.co/2yXRLUTIaMOR/

#ILCSambharMenyambar #GuePenginPemimpinJujur

#PastikanCoblos02.

3.1.2 Preprocessing

Tahap ini menerapkan proses indexing pada Information Retrieval yang

harus dilalui oleh data agar menjadikan data lebih mewakili informasi yang

dibutuhkan oleh pengguna. Preprocessing ini diperlukan juga oleh tahap

klasifikasi karena lebih membutuhkan karakteristik data yang lebih spesifik

seperti frekuensi kata. Adapun proses yang berada dalam preprocessing ini, yaitu:

1. Tokenizing

Pada tahap ini kata-kata dalam tweet dipecah kedalam bentuk token

lalu menghilangkan segala tanda baca, simbol yang tidak mewakili isi

dokumen.


https://twitter.com/nongandah

https://twitter.com/syarif2379

https://twitter.com/julian03687082

https://twitter.com/lakibruntung

https://twitter.com/rizkamel01

https://twitter.com/ubaidillahThal1

https://t.co/2yXRLUTIaMOR/

27

Adapun langkah-langkah dalam tokenizing ialah sebagai berikut:

a. Baca seluruh baris teks sebagai sebuah kalimat tweet.

b. Mengambil tiap token dalam kalimat dengan spasi sebagai pemisah

antar token dan lakukan case-folding.

c. Hapus segala macam simbol, tanda baca, mention (contoh

@jokowi), dan hashtag (contoh: #prabowo) yang tidak mewakili

teks.

d. Simpan token-token kedalam sebuah arrayList sebagai satu tweet.

Tabel 3.2 Contoh Tokenizing Tweet Cinta

Tweet Tokenizing

Cinta tulus dan Ikhlas @jokowi

Kepada Rakyat tak perlu

diragukan lagi #01JokowiLagi

#01IndonesiaMaju

cinta rakyat

tulus tak

dan perlu

ikhlas diragukan

kepada lagi

#YangPasti Pak Jokowi dan Pak

Kyai adalah sosok yg begitu

dekat dan cinta dengan keluarga

https://t.co/RbJT70t0i

pak adalah dan

jokowi sosok cinta

dan yg dengan

pak begitu keluarga

kyai dekat


28

Tabel 3.3 Contoh Tokenizing Tweet Senang

Tweet Tokenizing

Saya senang sekali, siang hari ini

meskipun dari pagi tadi saya

belum makan karena pengen

makan bakso bersama bapak ibu

dan saudara semuanya,” kata

Jokowi #JabarNgahiji

saya dari pengen saudara

senang pagi makan semuanya

sekali tadi bakso kata

siang saya bersama jokowi

hari belum bapak

ini makan ibu

meskipun karena dan

PAK Jokowi selalu bisa bikin

Rakyat senang jadi mari kita

dukung sampai Menang☺

#BetawiPastiJokowi

https://t.co/tREjIP6qDe

pak rakyat dukung

jokowi senang sampai

selalu jadi menang

bisa mari

bikin kita

Tabel 3.4 Contoh Tokenizing Tweet Marah

Tweet Tokenizing

Ditengah hoax dan fitnah yang

membuat resah Mari kita jangan

marah Jokowi saja tabah Yuk

Mending kita #GoyangJempol

ajah https://t.co/GdN7Wi0UrU

ditengah resah saja

hoax mari tabah

dan kita yuk

fitnah jangan mending

yang marah kita

membuat jokowi ajah

@picoez @jokowi Ku ingin

marah, melampiaskan.. Tapi ku

hanyalah sendiri di sini..

ku ku

ingin hanyalah

marah sendiri

melampiaskan di

tapi sini


29

Tabel 3.5 Contoh Tokenizing Tweet Sedih

Tweet Tokenizing

@jokowi Jalan desa kami

tolong diperbaiki pak..

sedih kami punya jalan

seperti sawah penuh

dengan lumpur

jalan sedih penuh

desa kami dengan

kami punya lumpur

tolong jalan

diperbaiki seperti

pak sawah

#meNyepiSejenak Sedih

memang krn tak ada celah

utk menyerang @jokowi,

musuhnya mulai

melakukan fitnah. Persis

seperti dulu. Hasil kerjanya

diburamkan dgn prasangka.

Pendek kata, Jokowi

dihabisi dgn berbagai cara

kotor.

sedih musuhnya kerjanya dgn

memang mulai diburamkan berbagai

krn melakukan dgn cara

tak fitnah prasangka kotor

ada persis pendek

celah seperti kata

utk dulu jokowi

menyerang hasil dihabisi


30

Tabel 3.6 Contoh Tokenizing Tweet Takut

Tweet Tokenizing

@sweethellena @jokowi Krn

apa yg dia ucapkan krn

ketakutannya sndiri, yg takut

kegagalannya itu akan terbukti

gagal bila ia terganti

krn ketakutannya akan

apa sndiri terbukti

yg yg gagal

dia takut bila

ucapkan kegagalannya ia

krn itu terganti

Banyak yg tidak takut dosa &

neraka, tapi takut Jokowi 2

periode

https://t.co/2yXRLUTIaMOR/

#ILCSambharMenyambar

#GuePenginPemimpinJujur

#PastikanCoblos02.

banyak jokowi

yg periode

tidak

takut

dosa

neraka

tapi

takut

2. Normalisasi

Pada tahap ini terjadi pengubahan bentuk kata tidak baku menjadi

bentuk baku dengan bantuan kamus kata baku untuk menghindari

duplikasi kata yang memiliki makna yang sama. Adapun kamus kata baku

didapatkan dari internet dengan berbagai macam tambahan oleh penulis

Adapun langkah-langkahnya sebagai berikut:

a. Baca token pada arrayList dan mencocokkan token kedalam kata

non standar pada kamus kata baku.

b. Apabila token sama dengan kata non standar pada kamus maka

sistem akan mengganti kata tersebut dengan bentuk standar (baku)

yang bersesuaian pada kamus kata baku.

c. Apabila tidak akan dilanjutkan dengan proses stemming.


31

Contoh kamus kata baku seperti tabel di bawah ini:

Tabel 3.7 Kamus Kata Baku

Kamus Kata Baku

Bentuk non standar

1

…. Bentuk non

standar 8

Bentuk standar

(baku)

knp napa - kenapa

bpk bp bokap bapak

anjenk asu anjir anjing

elo ente lo kamu

Berikut diberikan contoh normalisasi kata (token) pada tweet hasil tokenizing

sebelumnya untuk setiap kelas tweet:

Tabel 3.8 Contoh Normalisasi Kata pada Tweet

Tweet Kata tidak baku

→

Kata baku

cinta pak bapak

kyai kiai

senang

pak bapak

pengen mau

bikin buat

marah

ajah saja

hoax hoaks

ku aku

mending agak

yuk ayo

sedih

pak bapak

krn karena

utk untuk

dgn dengan

takut krn karena


32

sndiri sendiri

yg yang

tapi tetapi

3. Stemming

Pada tahap ini terjadi pembentukan kata dari yang berimbuhan

(berafiks) menjadi kata tidak berimbuhan atau dasar dengan bantuan

kamus root word. Kamus root word yang digunakan ialah root word

Bahasa Indonesia oleh Tala. Berikut akan dijabarkan langkah-langkah

stemming:

a. Mengecek tiap token dengan kamus root word berbahasa

Indonesia.

b. Jika token kata sama dengan kata pada kamus root word maka

token tersebut adalah kata dasar dan tidak berubah.

c. Jika token tidak sama dengan kata pada kamus root word maka

hapus seluruh prefiks dan sufiks token tersebut.

Tabel 3.9 Contoh Stemming

Tweet Hasil Normalisasi

→

Hasil Stemming

Cinta

cinta

tak

tulus

perlu

dan

diragukan

ikhlas

lagi

kepada

rakyat

cinta

tak

tulus

perlu

dan

ragu

ikhlas

lagi

kepada

rakyat


33



→

Hasil Stemming

Cinta

bapak

dengan

jokowi

keluarga

dan

pak

kyai

adalah

sosok

yang

begitu

dekat

dan

cinta

bapak

dengan

jokowi

keluarga

dan

pak

kiai

adalah

sosok

yang

begitu

dekat

dan

cinta

Senang

saya

senang

sekali

siang

hari

ini

meskipun

dari

pagi

tadi

saya

belum

makan

karena

mau

saya

senang

sekali

siang

hari

ini

meskipun

dari

pagi

tadi

saya

belum

makan

karena

mau


34


makan

bakso

bersama

bapak

ibu

dan

saudara

semuanya

kata

jokowi

→

makan

bakso

bersama

bapak

ibu

dan

saudara

semua

kata

jokowi

Senang

bapak

jokowi

selalu

bisa

buat

rakyat

senang

jadi

mari

kita

dukung

sampai

menang

bapak

jokowi

selalu

bisa

buat

rakyat

senang

jadi

mari

kita

dukung

sampai

menang

Marah

ditengah

hoaks

dan

fitnah

yang

membuat

resah

tengah

hoaks

dan

fitnah

yang

buat

resah


35


mari

kita

jangan

marah

jokowi

saja

tabah

ayo

agak

kita

saja

→

mari

kita

jangan

marah

jokowi

saja

tabah

ayo

agak

kita

saja

Marah

aku

ingin

marah

melampiaskan

tetapi

aku

hanyalah

sendiri

di

sini

aku

ingin

marah

lampias

tetapi

aku

hanya

sendiri

di

sini

Sedih

jalan

desa

kami

tolong

diperbaiki

bapak

sedih

kami

jalan

desa

kami

tolong

baik

bapak

sedih

kami


36


Sedih

punya

jalan

seperti

sawah

penuh

dengan

lumpur

→

.

punya

jalan

seperti

sawah

penuh

dengan

lumpur

Sedih

sedih

memang

karena

tidak

ada

celah

untuk

menyerang

musuhnya

mulai

melakukan

fitnah

persis

seperti

dulu

hasil

kerjanya

diburamkan

dengan

prasangka

pendek

kata

sedih

memang

karena

tidak

ada

celah

untuk

serang

musuh

mulai

laku

fitnah

persis

seperti

dulu

hasil

kerja

buram

dengan

prasangka

pendek

kata


37


Sedih

jokowi

dihabisi

dengan

berbagai

cara

kotor

→

jokowi

habis

dengan

bagai

cara

kotor

Takut

karena

apa

yang

dia

ucapkan

karena

ketakutannya

sendiri

yang

takut

kegagalannya

itu

akan

terbukti

gagal

bila

ia

terganti

karena

apa

yang

dia

ucap

karena

takut

sendiri

yang

takut

gagal

itu

akan

bukti

gagal

bila

ia

ganti


38



→

Hasil Stemming

Takut

banyak

yang

tidak

takut

dosa

neraka

tetapi

takut

jokowi

periode

banyak

yang

tidak

takut

dosa

neraka

tetapi

takut

jokowi

periode

4. Stopword Removal

Pada tahap ini akan terjadi penghilangan kata-kata yang terlalu sering

muncul dan tidak memiliki arti seperti kata depan, gabung, dan sebagainya

dengan bantuan kamus stopword Bahasa Indonesia oleh Tala. Adapun

langkah-langkah menghapus stopword dalam penelitian ini, yaitu:

a. Membaca seluruh data hasil stemming dalam arrayList.

b. Mengecek tiap token dengan kamus stopword (Tala)

c. Apabila token merupakan suatu stopword maka secara otomatis

sistem akan menghapus token itu dari arrayList.

d. Jika token bukan merupakan sebuah stopword token akan disimpan

kedalam basis data


39

Tabel 3.10 Contoh Stopword Removal

Tweet Hasil Stemming

→

Hasil Stopword

Removal

Cinta

cinta

tak

tulus

perlu

dan

ragu

ikhlas

lagi

kepada

rakyat

cinta

tulus

ragu

ikhlas

rakyat

bapak

dengan

jokowi

keluarga

dan

bapak

kiai

adalah

sosok

yang

begitu

dekat

dan

cinta

jokowi

keluarga

kiai

sosok

cinta

Senang saya

senang

senang


40


sekali

siang

hari

ini

meskipun

dari

pagi

tadi

saya

belum

makan

karena

mau

makan

bakso

bersama

bapak

ibu

dan

saudara

semua

kata

jokowi

→

siang

pagi

makan

makan

bakso

saudara

jokowi

Senang bapak

jokowi

selalu

bisa

buat

rakyat

jokowi

rakyat


41


senang

jadi

mari

kita

dukung

sampai

menang

→

senang

mari

dukung

menang

Marah

tengah

hoaks

dan

fitnah

yang

buat

resah

mari

kita

jangan

marah

jokowi

saja

tabah

ayo

agak

kita

saja

hoaks

fitnah

resah

mari

marah

jokowi

tabah

ayo


42


Marah

aku

ingin

marah

lampias

tetapi

aku

hanya

sendiri

di

sini

→

marah

lampias

Sedih

jalan

desa

kami

tolong

baik

bapak

sedih

kami

punya

jalan

seperti

sawah

penuh

dengan

lumpur

jalan

desa

tolong

sedih

jalan

sawah

penuh

lumpur


43


Sedih

sedih

memang

karena

tidak

ada

celah

untuk

serang

musuh

mulai

laku

fitnah

persis

seperti

dulu

hasil

kerja

buram

dengan

prasangka

pendek

kata

jokowi

habis

dengan

bagai

cara

kotor

→

sedih

celah

serang

musuh

laku

fitnah

persis

hasil

kerja

buram

prasangka

pendek

jokowi

habis

kotor


44


Takut

karena

apa

yang

dia

ucap

karena

takut

sendiri

yang

takut

gagal

itu

akan

bukti

gagal

bila

ia

ganti

→

takut

takut

bukti

gagal

gamti

banyak

yang

tidak

takut

dosa

neraka

tetapi

takut

jokowi

periode

takut

dosa

neraka

takut

jokowi

periode


45

Salah satu alasan mengapa penulis melakukan stemming terlebih

dahulu sebelum stopword removal ialah karena ada beberapa kata

stopword Bahasa Indonesia berimbuhan, contohnya kata “diperbolehkan”

yang memiliki kata dasar “boleh” yang juga merupakan stopword yang

perlu dihapus. Apabila stemming dilakukan paling akhir maka kata

“boleh” yang sudah di stem tidak akan dihapus oleh sistem dan akan

menjadi sebuah residu.

5. Menghitung Term Frequency (Frekuensi Kata)

Pada tahap ini kata-kata hasil pengolahan empat proses diatas akan

dihitung jumlah (frekuensi) kemunculannya per kelas.

Tabel 3.11 Contoh Penghitungan Frekuensi Kata

Kata Frekuensi kata dalam setiap kelas c

Cinta Marah Senang Sedih Takut

bakso

1

bukti

1

buram

1

celah

1

cinta 2

desa

1

dosa

1

dukung

1

fitnah

1

1

gagal

1

ganti

1

habis

1

hasil

1

hoaks

1

ikhlas 1

jalan

2

jokowi 1 1 1 1 1

keluarga 1

kerja

1

kiai 1

kotor

1

laku

1


46

lampias

1

lumpur

1

makan

2

marah

2

mari

1 1

menang

1

musuh

1

laku 1

lampias 1

lumpur 1

makan 2

marah 2

mari 1 1

menang 1

musuh 1

neraka 1

pagi 1

pendek 1

penuh 1

periode 1

persis 1

prasangka 1

ragu 1

rakyat 1 1

resah 1

sawah 1

saudara 1

sedih 2

senang 2

serang 1

siang 1

sosok 1

tabah 1

takut 4

tolong 1

tulus 1

∑ 50 10 9 13 23 11


47

3.1.3 Klasifikasi dengan Polinominal Naive Bayes

Diberikan contoh tweet testing sebagai berikut:

“Jokowi merupakan sosok penyabar walaupun banyak serangan hoaks dan

fitnah”

Tweet testing hasil preprosesnya sebagai berikut:

jokowi sosok sabar serang hoaks fitnah

Proses klasifikasi akan menentukan kelas dari suatu tweet berdasarkan

frekuensi kemunculan kata dari proses sebelumnya. Adapun untuk klasifikasi

tersebut memiliki tahap sebagai berikut:

1. Hitung nilai prior probability

Pada tahap ini data training akan dihitung prior probability-nya dengan

menggunakan rumus (2.2):

( )

Tabel 3.12 Contoh Menghitung Prior Probability\

Dokumen kelas c Prior probability

Cinta 2/10

Senang 2/10

Marah 2/10

Sedih 2/10

Takut 2/10


48

2. Hitung nilai conditional probability

Pada tahap ini akan dihitung conditional probability kata dalam setiap

kelas menggunakan rumus (2.3) untuk menghindari nilai nol:

∑ ( )

Tabel 3.13 Contoh Penghitungan Conditional Probability

Kata (Term) Conditional Probability Term Berada Dalam Kelas

Cinta Senang Marah Sedih Takut

Bakso 0.01667 0.03175 0.01695 0.0137 0.01639

Bukti 0.01667 0.01587 0.01695 0.0137 0.03279

Buram 0.01667 0.01587 0.01695 0.0274 0.01639

Celah 0.01667 0.01587 0.01695 0.0274 0.01639

Cinta 0.05 0.01587 0.01695 0.0137 0.01639

Desa 0.01667 0.01587 0.01695 0.0274 0.01639

Dosa 0.01667 0.01587 0.01695 0.0137 0.01639

Dukung 0.01667 0.03175 0.01695 0.0137 0.01639

Fitnah 0.01667 0.01587 0.0339 0.0274 0.01639

Gagal 0.01667 0.01587 0.01695 0.0137 0.03279

Ganti 0.01667 0.01587 0.01695 0.0137 0.03279

Hoaks 0.01667 0.01587 0.01695 0.0274 0.01639

Hasil 0.01667 0.01587 0.01695 0.0274 0.01639

Hoaks 0.01667 0.01587 0.0339 0.0137 0.01639

Ikhlas 0.03333 0.01587 0.01695 0.0137 0.01639

Jalan 0.01639 0.01587 0.01695 0.0137 0.01639

Jokowi 0.03333 0.03175 0.0339 0.0274 0.03279

Keluarga 0.03333 0.01587 0.01695 0.0137 0.01639

Kerja 0.01667 0.01587 0.01695 0.0274 0.01639

Kiai 0.03333 0.01587 0.01695 0.0137 0.01639

Kotor 0.01667 0.01587 0.01695 0.0274 0.01639

Laku 0.01667 0.01587 0.01695 0.0274 0.01639

Lampias 0.01667 0.01587 0.0339 0.0137 0.01639

Lumpur 0.01667 0.01587 0.01695 0.0274 0.01639

Makan 0.01667 0.04762 0.01695 0.0137 0.01639

Marah 0.01667 0.01587 0.05085 0.0137 0.01639

Mari 0.05 0.03175 0.0339 0.0137 0.01639

Menang 0.01667 0.03175 0.01695 0.0137 0.01639


49

Musuh 0.01667 0.01587 0.01695 0.0274 0.01639

Neraka 0.01667 0.01587 0.01695 0.0137 0.03279

Pagi

0.01667 0.03175 0.01695 0.0137 0.01639

Pendek 0.01667 0.01587 0.01695 0.0274 0.01639

Penuh 0.01667 0.01587 0.01695 0.0274 0.01639

Periode 0.01667 0.01587 0.01695 0.0137 0.03279

Persis 0.01667 0.01587 0.01695 0.0274 0.01639

Prasangka 0.01667 0.01587 0.01695 0.0274 0.01639

Ragu 0.03333 0.01587 0.01695 0.0137 0.01639

Rakyat 0.03333 0.03175 0.01695 0.0137 0.01639

Resah 0.01667 0.01587 0.0339 0.0137 0.03279

Saudara 0.01667 0.03175 0.01695 0.0137 0.01639

Sawah 0.01667 0.01587 0.01695 0.0274 0.01639

Sedih 0.01667 0.01587 0.01695 0.0411 0.01639

Senang 0.01667 0.04762 0.01695 0.0137 0.01639

Serang 0.01667 0.01587 0.01695 0.0274 0.01639

Siang 0.01667 0.03175 0.01695 0.0137 0.01639

Sosok 0.03333 0.01587 0.01695 0.0137 0.01639

Tabah 0.01667 0.01587 0.0339 0.0137 0.01639

Takut 0.01667 0.01587 0.01695 0.0137 0.08197

Tolong 0.01667 0.01587 0.01695 0.0274 0.01639

Tulus 0.03333 0.01587 0.01695 0.0137 0.01639

3. Matching antara data pada model dan data testing

Pada tahap ini akan mencari hasil matching dengan mengecek kata yang

ada baik pada model maupun testing.

Tabel 3.14 Contoh Hasil Matching Term pada Data Training dan Testing

Kata dalam Kamus Training Ada pada Data Testing?

Ya Tidak

bakso √

bukti √

buram √

celah √

cinta √

desa √

dosa √

dukung √

fitnah √

gagal √


50

neraka √

pagi √

pendek √

penuh √

periode √

persis √

prasangka √

ragu √

rakyat √

resah √

sawah √

saudara √

sedih √

senang √

serang √

siang √

sosok √

tabah √

takut √

tolong √

tulus √

ganti √

habis √

hasil √

hoaks √

ikhlas √

jalan √

jokowi √

keluarga √

kerja √

kiai √

kotor √

laku √

lampias √

lumpur √

makan √

marah √

mari √

menang √

musuh √


51

4. Mendapatkan nilai conditional probability pada hasil matching.

Pada tahap ini nilai conditional probability kata yang ada pada model akan

dimasukkan kedalam kata pada testing jika kedua kata tersebut sama.

5. Menghitung posterior probability

Tahap ini menghitung posterior probability untuk menentukan kelas tweet

yang memiliki nilai perkalian antara prior probability dan conditional probability

terbesar untuk setiap kelasnya dengan menggunakan rumus (2.4)

( ) ∏ ( )

Tabel 3.15 Contoh Penghitungan Posterior Probability

Kelas Posterior Probability

Cinta ( ) ( ) ( )

( ) ( ) ( )

Senang ( ) ( ) ( )

( ) ( ) ( )

( )

Marah ( ) ( ) ( )

( ) ( ) ( )

( )

Sedih = ( ) ( ) ( )

( ) ( ) ( )

( )

Takut = ( ) ( ) ( )

( ) ( ) ( )


52

( )

Dapat diketahui bahwa nilai posterior probability terbesar adalah milik

kelas sedih dengan nilai 1.544 * 10-9

maka tweet tersebuk akan diklasifikasikan

kedalam kelas sedih.

3.2 Metode Pengujian

Metode pengujian untuk menghitung akurasi baik untuk data yang

menggunakan k-Fold Cross Validation maupun tidak dilakukan menggunakan

confusion matrix dengan membandingkan semua label testing dengan label

training.

3.3 Kebutuhan Sistem

Agar system yang dibuat dapat berjalan dengan baik maka digunakan

software dan hardware berikut:

1. Software

a) Sistem Operasi : Windows 8.1 64 bit

b) Bahasa Pemrograman : Java

c) Program : InteliJ IDEA 2018 x64

2. Hardware

a) Processor : Intel (R) Core(TM) i3-4030U

[email protected]

b) Memory : 6 Gb

c) Hard disk : 150 Gb


mailto:[email protected]

53

3.4 Perancangan Struktur Data

Struktur data yang digunakan pada penelitian ini adalah sebuah arrayList

untuk menampung dan mengelola bermacam-macam tweet.

[Data 1, Data 2, Data 3, Data 4, Data 5]

Data 1 hingga Data 5 mewakili tweet dengan kelas senang, cinta, marah,

takut, dan sedih

3.5 Desain Interface Sistem

Gambar 3.2 Interface Sistem Secara Menyeluruh


54

Gambar 3.3 Interface Untuk Memproses Data Training

1) Tombol Proses Data Training

Tombol ini digunakan untuk mempreproses data tweet training mulai dari

tokenizing hingga stopword removal lalu hasil preproses disimpan kedalam basis

data.

2) Tombol Train Data

Tombol ini digunakan untuk melatih data training terutama menghitung jumlah

dokumen training, frekuensi kata dalam tiap kelas, dan jumlah kata unik.

3) Tombol reset

Tombol ini digunakan untuk menghapus data tweet training yang telah

dipreproses dari basis data.


55

Gambar 3.4 Interface Uji Akurasi Klasifikasi Menggunakan K-Fold Cross

Validation

1) Radio Button Uji K-Fold

Tombol ini digunakan untuk menguji klasifikasi sistem dengan

menggunakan k-Fold, pilihan fold yang ada adalah 3,5, dan 10.

2) Radio button Uji Tanpa K-Fold

Tombol ini digunakan untuk menguji klasifikasi sistem tanpa

menggunakan k-Fold Cross Validation. Data testing dan training yang digunakan

berjumlah konstan.


56

3) Tombol Uji K-Fold

Tombol ini digunakan untuk menguji akurasi sistem dengan menggunakan

k-Fold Cross Validation

4) Tombol Proses Data Testing

Tombol ini digunakan untuk mempreproses semua data tweet training dalam basis

data

Gambar 3.5 Interface Uji Akurasi Tanpa K-Fold Cross Validation

1) Radio Button Uji Tanpa K-Fold

Tombol ini digunakan untuk menguji akurasi sistem, proporsi data

training dan testing konstan, masing-masing berjumlah 1.650 dan 850 buah.

2) Tombol Proses Data Testing


57

Tombol ini digunakan untuk mempreproses data testing untuk dapat bisa

digunakan untuk proses klasifikasi.

3) Tombol Uji Data Testing

Tombol ini digunakan untuk mengklasifikasikan semua tweet testing,

menghasilkan output label testing. Label testing ini akan dibandingkan pada label

model satu persatu. Hasil perbandingan akan diplotkan dalam confusion matrix.

4) Tombol Hitung Akurasi

Tombol ini digunakan untuk menghitung nilai akurasi sistem yang tanpa

menggunakan k-Fold Cross Validation.


58

Gambar 3.6 Interface Untuk Mengklasifikasi Data Tunggal

1) Tombol Bersihkan

Digunakan untuk membersihkan field input tweet oleh user yang akan diuji

klasifikasi

2) Tombol Proses

Digunakan untuk mempreproses input tweet yang akan diuji klasifikasi.

3) Tombol Klasifikasi

Digunakan untuk mengklasifikasi input tweet hasil akan ditampilkan seberapa

besar peluang tweet berada dalam suatu kelas tertentu. Nilai peluang posteriori

yang terbesar akan mewakili kelas hasil klasifikasi tweet dan akan ditampilkan

pada field Hasil Klasifikasi.


59

BAB IV

HASIL DAN ANALISIS HASIL

Bab ini membahas hasil penelitian, yaitu hasil klasifikasi menggunakan metode

Multinominal Naive Bayes dan mengetahui seberapa baik metode Multinominal

Naive Bayes dapat mengklasifikasi sejumlah tweet.

4.1 Hasil Penelitian

4.1.1 Hasil Klasifikasi Tanpa k-Fold Cross Validation

Data dalam sistem yang mempunyai total keseluruhan 2.500 buah data

tweet dengan uraian 500 data tweet kelas cinta, 500 tweet kelas senang, 500 tweet

kelas marah, 500 tweet kelas sedih, 500 tweet kelas takut diambil 170 data dari

tiap kelas sebagai data testing sehingga data testing berjumlah 850. Adapun data

training untuk 5 kelas berjumlah total 1650 buah dengan pembagian 330 data

tweet per kelasnya.

Tabel 4.1 Pembagian Data Testing Tanpa k-Fold Cross Validation

Data

Ke-

1 2 3 4 … … … … … 170

Kelas

C C C C C C C C C C

Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn

M M M M M M M M M M

Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd

T T T T T T T T T T


60

Keterangan:

„C‟ mewakili Cinta

„Sn‟ mewakili Senang

„M‟ mewakili Marah

„Sd‟ mewakili Sedih

„T‟ mewakili Takut

Dari total keseluruhan data sebanyak 170 tweet testing cinta yang masuk

ke sistem tweet diklasifikasikan kedalam kelas cinta sebanyak 106 buah, 170

tweet testing senang yang masuk 160 tweet diklasifikasikan kedalam kelas senang,

dari 170 buah tweet testing marah 108 diklasifikasikan kedalam kelas marah, dari

170 tweet testing sedih 121 dikasifikasikan kedalam kelas sedih, dari 170 tweet

testing takut 125 diklasifikasikan kedalam kelas takut, adapun hasil klasifikasi

dapat dilihat pada confusion matrix berikut

Tabel 4.2 Confusion Matrix Hasil Uji Sistem Tanpa k-Fold Cross Validation

Kelas yang diprediksi

C Sn M Sd T

Kelas

Sebenarnya

C 106 52 5 4 3

Sn 1 160 2 6 1

M 2 56 108 1 3

Sd 2 38 6 121 3

T 1 43 1 0 125


61

4.1.2 Hasil Uji Akurasi Tanpa k-Fold Cross Validation

Dari tabel confusion matrix diatas kita dapat menghitung nilai akurasi

sebagai berikut:

4.1.3 Hasil Klasifikasi Menggunakan k-Fold Cross Validation

Untuk klasifikasi menggunakan k-Fold dengan k bernilai 3, data akan

dibagi dengan proporsi dua set data training dan satu set data testing yang

kemudian secara acak sistem akan menentukan mana yang merupakan data

training dan testing. Proses ini berlangsung sebanyak jumlah iterasi k dimana

untuk fold 3 bernilai 3.

Tabel 4.3 Pembagian Data Menggunakan 3-Fold Cross Validation

Iterasi Data Training Data Testing

1 dataset 1 dataset 2 dataset 3

n 835 835 830


n 830 835 835


n 835 830 835

*Keterangan

n = jumlah data


62


Iterasi Data Training Data Testing

1 dataset 1 dataset 2 dataset 3 dataset 4 dataset 5

n 500 500 500 500 500


n 500 500 500 500 500


n 500 500 500 500 500


n 500 500 500 500 500


n 500 500 500 500 500


Iterasi Data Training Data

Testing

1 ds 1 ds 2 ds 3 ds 4 ds 5 ds 6 ds 7 ds 8 ds 9 ds 10

n 250 250 250 250 250 250 250 250 250 250


n 250 250 250 250 250 250 250 250 250 250


n 250 250 250 250 250 250 250 250 250 250


n 250 250 250 250 250 250 250 250 250 250


n 250 250 250 250 250 250 250 250 250 250


n 250 250 250 250 250 250 250 250 250 250


n 250 250 250 250 250 250 250 250 250 250



63

n 250 250 250 250 250 250 250 250 250 250

9 ds 3 ds 4 ds 5 ds 6 ds 7 ds 8 ds 9 ds

10

ds 1 ds 2

n 250 250 250 250 250 250 250 250 250 250


n 250 250 250 250 250 250 250 250 250 250

Ket :

ds = dataset

Tabel 4.6 Hasil Klasifikasi Menggunakan 3-Fold Cross Validation

Iterasi 1

Data prediksi

Data

sebenarnya

C Sn M Sd T

C 103 51 5 4 3

Sn 1 156 2 6 1

M 2 58 104 1 1

Sd 2 38 6 117 3

T 1 43 2 0 120

Iterasi 2

Data prediksi

Data

sebenarnya

C Sn M Sd T

C 121 35 4 5 2

Sn 1 160 4 2 0

M 0 65 98 2 2

Sd 2 39 0 126 0

T 3 61 5 3 95


64

Iterasi 3

Data prediksi

Data

sebenarnya

C Sn M Sd T

C 107 50 3 1 6

Sn 0 154 6 4 3

M 1 65 101 0 0

Sd 1 53 5 107 1

T 0 45 0 1 121

4.1.4 Hasil Uji Menggunakan k-Fold Cross Validation

Untuk setiap iterasi dari proses k-Fold cross validation diperoleh hasil

klasifikasi pada tabel di bawah:

Tabel 4.7 Hasil Uji Sistem Menggunakan 3-Fold Cross Validation

Iterasi Jumlah tweet

terklasifikasi benar

Jumlah data

testing

Akurasi (%)

1 600 830 72.289

2 600 835 71.856

3 593 835 70.658

Rata-rata 71.601




Jumlah data

testing

Akurasi (%)

1 352 500 70.4

2 373 500 74.6

3 352 500 70.4

4 340 500 68.0

5 351 500 70.2

Rata-rata 70.72


65




Jumlah data

testing

Akurasi (%)

1 183 250 73.2

2 166 250 66.4

3 177 250 70.8

4 193 250 77.2

5 181 250 72.4

6 174 250 69.6

7 167 250 66.8

8 175 250 70.0

9 176 250 70.4

10 175 250 70.0

Rata-rata 70.68

4.2 Analisis Hasil Penelitian

Data training yang telah disebutkan diatas berjumlah 1.650 buah

mempunyai jumlah kata total per kelas dan jumlah kata unik untuk seluruh

dokumen tweet seperti di bawah ini:

1. Jumlah total kata per kelas dan kata unik seluruh dokumen

Gambar 4.1 Output Jumlah Kata Pada Data Training


66

Gambar diatas memaparkan jumlah total kata per kelas untuk data training

dengan kelas cinta mempunyai 4.142 kata, kelas senang mempunyai 3.950, kelas

marah mempunyai 4.910 kata, kelas sedih mempunyai 4.422 kata, kelas takut

mempunyai 4.541 kata, dan kata unik seluruh dokumen tweet berjumlah 4.696

buah.

2. Ketidakcocokan hasil klasifikasi karena pengaruh kata tidak baku

Data tweet testing yang disalahklasifikasikan berbunyi:

@kangdede78 @jokowi senang bgt dengernya , makin banyak yang bersatu demi

menjaga NKRI , dan menangkal isu hoaks

Tweet testing hasil preproses:

senang dengernya jaga nkri tangkal isu hoaks

Data testing tweet tersebut memiliki label testing kelas „senang‟ namun

sistem mengklasifikasikan tweet tersebut kedalam kelas „sedih‟. Adapun rincian

luaran sistem adalah sebagai berikut

Tabel 4.10 Ketidakcocokan Hasil Klasifikasi Karena Kata Tidak Baku

c

cinta senang marah sedih takut

P(“senang”|c) 0.00013 0.04105 0.00083 0.00098 0.00010

P(“dengernya”|c) 0.00013 0.00015 0.00010 0.00022 0.00010

P(“jaga”|c) 0.00039 0.00023 0.00010 0.00088 0.00043

P(“nkri”|c) 0.00531 0.00057 0.00041 0.00077 0.00065

P(“isu”|c) 0.00026 0.00015 0.00020 0.00044 0.00032


67

P(“hoaks”|c) 0.00026 0.00023 0.00041 0.00033 0.00054

priori(c) 0.2

posteriori 2.366*10-

22

3.399*10-

21

6.516*10-

23

4.209*10-

21

1.159*10-

22

Pada tabel diatas kata „dengernya‟ merupakan contoh bentuk tidak baku

dari kata „dengarnya‟ dan tidak mengandung kata dasar „dengar‟ sehingga kata

tersebut dianggap sebuah kosakata baru oleh sistem dan tidak mengalami proses

stemming. Adapun kata „dengernya‟ merupakan kata unik tidak baku yang hanya

berada dalam kelas training „sedih‟ sehingga menyebabkan nilai conditional

probabilitynya paling besar berada dalam kelas tersebut.

Hanya jika kata „dengernya‟ diganti menjadi kata „dengarnya‟ maka tweet

tersebut akan dipreproses:

senang dengar jaga nkri tangkal isu hoaks


68

Dan tweet tersebut akan tepat diprediksi kedalam kelas „senang‟ dengan rincian

tabel sebagai berikut:

Tabel 4.11 Kecocokan Hasil Klasifikasi Karena Kata Baku

c


P(“senang”|c) 0.00013 0.04105 0.00083 0.00098 0.00010

P(“dengar”|c) 0.00045 0.00115 0.00062 0.00175 0.00043

P(“jaga”|c) 0.00039 0.00023 0.00010 0.00088 0.00043

P(“nkri”|c) 0.00531 0.00057 0.00041 0.00077 0.00065

P(“isu”|c) 0.00026 0.00015 0.00020 0.00044 0.00032

P(“hoaks”|c) 0.00026 0.00023 0.00041 0.00033 0.00054

priori(c) 0.2

posteriori 9.467*10-

22

3.399*10-

20

3.909*10-22

3.367*10-

20

4.636*10-

22

Karena kata „dengar‟ terdapat dalam hampir semua kelas training maka nilai

peluang conditionalnya tidak cenderung mengarah pada suatu kelas tertentu.

3. Ketidakcocokan hasil klasifikasi karena nilai posteriori underflow

Underflow pada Java terjadi ketika nilai posterior probability sangatlah

kecil dan mendekati nilai nol. Adapun batas minimum bilangan bertipe float yang

masih dapat ditoleransi oleh Java adalah 2-149

atau sekitar 1.401*10-45

. Ketika

nilai posterior probability melebihi nilai tersebut Java akan mengembalikan nilai

nol dan kondisi ini sering disebut sebagai underflow. Pada hasil klasifikasi baik

menggunakan k-Fold cross validation maupun tidak dapat terlihat sistem

mengalami banyak underflow dan tweet disalahklasifikasikan kedalam kelas

„senang‟.


69

Berikut hasil klasifikasi tweet yang salah karena underflow

“@jokowi pak presiden.kok saya merasa tentara kita kayak melempem sekarang

pak sejak di papua.ini salah siapa pak ???? sedih saya pak. tentara kita sampe

berguguran begitu. Bagaimana nasib keluarganya yg ditinggalkan ?pak jendral

oh pak jendral.apa tindakanmu pak.itu nyawa pak”

Hasil tweet setelah dipreproses:

presiden tentara melempem papua salah sedih tentara gugur nasib keluarga tinggal

jenderal oh jenderal tindak nyawa

Tweet tersebut seharusnya memiliki kelas „sedih‟ namun sistem

mengklasifikasikan tweet tersebut kedalam kelas „senang‟. Berikut tabel rincian

perhitungannya:

Tabel 4.12 Ketidakcocokan Hasil Klasifikasi Karena Underflow

c


P(“presiden”|

c)

0.004299 0.007749 0.006037 0.005593 0.005521

P(“tentara”|c) 0.000113 0.000115 0.000208 0.000109 0.000216

P(“papua”|c) 0.000678 0.000925 0.000104 0.000219 0.000216

P(“salah”|c) 0.001131 0.000925 0.002082 0.001535 0.000173

P(“sedih”|c) 0.000113 0.000231 0.000624 0.037399 0.000216

P(“tentara”|c) 0.000113 0.000115 0.000208 0.000109 0.000216

P(“gugur”|c) 0.000113 0.000115 0.000104 0.000109 0.000216

P(“nasib”|c) 0.000226 0.000231 0.000104 0.000329 0.000108

P(“keluarga”|

c)

0.000565 0.000462 0.000312 0.001425 0.000324

P(“tinggal”|c) 0.000226 0.000939 0.000520 0.001096 0.000433

P(“jenderal”| 0.000339 0.000693 0.000312 0.000329 0.000757


70

c)

P(“oh”|c) 0.000113 0.000231 0.000104 0.000109 0.000108

P(“jenderal”|

c)

0.000339 0.000231 0.000312 0.000329 0.000757

P(“tindak”|c) 0.000113 0.000115 0.000208 0.000877 0.000541

P(“nyawa”|c) 0.000113 0.000347 0.000208 0.000329 0.000324

P(c) 0.2

posteriori

sebenarnya 2.57*10

-54 4.38*10

-53 2.71*10

-53 1.59*10

-49 7.57*10-52

posteriori

sistem 0 0 0 0 0

Pada tabel tersebut terlihat nilai posteriori sebenarnya yang paling besar adalah

milik kelas „sedih‟ dengan nilai 1.59*10-49

namun karena terjadi underflow tweet

tersebut diklasifikasikan kedalam kelas „senang‟.

Gambar 4.2 Output Sistem Ketika terjadi Underflow


71

4. Masalah pentingnya menjaga keseimbangan data training

Keseimbangan data training dapat terjaga apabila jumlah data training

sama untuk setiap kelas tweet, misal pada sistem ini pembagian data training

adalah 330 buah tweet untuk setiap kelasnya (kelas „cinta‟, „senang‟, „marah‟,

„sedih‟, dan „takut‟). Data yang dijaga agar seimbang tentunya tidak akan

menimbulkan perbedaan jumlah kosakata yang mencolok antar kelas. Jika sistem

hanya menggunakan misalnya 200 data tweet cinta, 460 data tweet senang, 170

data tweet marah, sedih, dan takut jumlah kata pada kelas senang ini akan lebih

banyak dari 4 kelas lainnya dan juga hasil klasifikasinya akan cenderung

mengarah kepada kelas senang tersebut yang akan memperburuk akurasi sistem.


72

BAB V

PENUTUP

5.1 Kesimpulan

Setelah melakukan berbagai macam pengujian pada sistem dapat ditarik

kesimpulan sebagai berikut:

1. Metode Multinominal Naive Bayes dapat mengklasifikasikan data berupa

teks, terutama teks yang berasal dari Twitter (tweet).

2. Jumlah kata dalam tiap kelas training sangat mempengaruhi hasil

klasifikasi pada data testing, oleh karena itu keseimbangan data perlu

dijaga.

3. Kosakata tidak baku dapat mempengaruhi hasil klasifikasi terhadap suatu

kelas testing apabila suatu kelas training memiliki data jumlah kata tidak

baku lebih banyak dibanding kelas training lain.

4. Sistem belum mampu menangani bentuk kalimat negasi yang mempunyai

kata „tidak‟ atau „enggak‟, seperti contoh kalimat “Aku tidak marah

meskipun tiket pesawat naik” seharusnya emosi keluaran sistem bukan

emosi „marah‟ tetapi bisa merupakan emosi „cinta‟, „senang‟, „sedih‟,

ataupun „takut‟.

5. Sistem belum mampu memfilter kata-kata asing (berbahasa Inggris) pada

tweet sehingga tweet yang diambil berupa campuran bahasa Indonesia dan

asing.

6. Hasil uji akurasi tanpa menggunakan k-Fold Cross Validation

menghasilkan akurasi yang lebih besar, yaitu 72.941% dibandingkan

dengan semua k-Fold Cross Validation dimana 3 Fold menghasilkan

akurasi 71.601%, 5-Fold menghasilkan akurasi 70.72% dan 10-Fold

menghasilkan akurasi 70.68%


73

5.2 Saran

Setelah melakukan penelitian penulis menyadari masih banyak kekurangan

dan kendala, oleh karena apabila pembaca berkeinginan untuk melanjutkan

penelitian ini maka disarankan untuk:

1. Memperbanyak jumlah kata baku dan tidak baku pada kamus kata baku

mengingat gaya penulisan tweet tidak terpaku pada kata baku saja.

2. Menggunakan rumus penjumlahan logaritma untuk menghitung

probabilitas posteriori ketimbang perkalian biasa karena memungkinkan

terbentuk bilangan sangat kecil, terutama dibawah 1.401* 10-45

yang dapat

mengakibatkan underflow pada program Java.

3. Data tweet training dapat diperbanyak untuk meningkatkan akurasi

klasifikasi sistem.

4. Memodifikasi sistem sehingga nantinya dapat memfilter kata-kata bahasa

asing yang ada di dalam tweet.

5. Memodifikasi sistem sehingga nantinya dapat menangani masalah negasi

dalam kalimat agar keluaran emosi sesuai dengan yang seharusnya.


74

DAFTAR PUSTAKA

Aliandu, P., Analisis Sentimen Tweet Berbahasa Indonesia di Twitter, Tesis,

Program Studi S2 Ilmu Komputer, Fakultas Matematika Dan Ilmu Pengetahuan

Alam, Universitas Gadjah Mada, Yogyakarta, 2012

Browniee, Jason, 2018, A Gentle Introduction to k-Fold Cross Validation,

Statistical Methods

Diakses dari : https://machinelearningmastery.com/k-fold-cross-validation/

Diakses pada : 7 Agustus 2019

Chen, Berlin, 2005, Text Operations

Diakses dari http://berlin.csie.ntnu.edu.tw/Courses/2004F

InformationRetrievalandExtraction/Slides/IR2004F-Lecture12-

Text%20Operations.pdf

Diakses pada 11 November 2017

Choy, M., Cheong, M. L., Laik, M. N., dan Shung, K. P., 2011, A sentiment

analysis of Singapore Presidential Election 2011 using Twitter data with census

correction, arXiv preprint arXiv:1108.5520.

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction

to Information Retrieval, Cambridge University Press. 2008

Document Classification Using Multinominal Naïve Bayes

Diakses dari : https://www.3pillarglobal.com/insights/document-

classification-using-multinomial-naive-bayes-classifier

Diakses pada : 14 Maret 2019


https://machinelearningmastery.com/k-fold-cross-validation/

http://berlin.csie.ntnu.edu.tw/Courses/2004F

https://www.3pillarglobal.com/insights/document-classification-using-multinomial-naive-bayes-classifier

https://www.3pillarglobal.com/insights/document-classification-using-multinomial-naive-bayes-classifier

75

Fathan Hidayatullah, Ahmad, Analisis Sentimen dan Klasifikasi Kategori

Terhadap Tokoh Publik Pada Pwitter, Seminar Nasional Informatika UPN

Veteran, 2014

Diakses dari:

http://jurnal.upnyk.ac.id/index.php/semnasif/article/download/1016/977

Diakses pada : 2 November 2017

Ganesan, Kavita , 2014, All About Stop Words for Text Mining and Information

Retrieval

Diakses dari http://text-analytics101.rxnlp.com/2014/10/all-about-stop-

words-for-text-mining.html

Diakses pada 11 November 2017

Hiemstra, Djoerd, Information Retrieval Model, University of Twente- author

version, 2000

Liu,B. (2012)., Sentimen Analysis and Opinion Mining., Morgan & Claypool

Publishers.

Pang, Bo , Lee,Lillian, (2008). Opinion Mining and Sentiment Analysis,

Foundation and Trends in Information Retrieval 2:1-2

Raschka, Sebastian, 2005, Naive Bayes and Text Classification – Introduction and

Theory

Diakses dari:

https://sebastianraschka.com/Articles/2014_naive_bayes_1.html

Diakses pada : 2 Maret 2019

Shaver, P.R., Murdaya,U.,& Fraley, R.C.(2001). Structure of Indonesian Emotion

Lexicon. Asian Journal of Psychology,4,201-224


http://jurnal.upnyk.ac.id/index.php/semnasif/article/download/1016/977

http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-mining.html

http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-mining.html

https://sebastianraschka.com/Articles/2014_naive_bayes_1.html

76

Singgih, Dyarsa , Ageng Setiyanto, Noor , 2014 , Analisis Sentiment Pada Sosial

Media Twitter Menggunakan Naive Bayes Classifier Terhadap Kata Kunci

“Kurikulum 2013

Diakses dari : http://eprints.dinus.ac.id/16572/1/jurnal_15561.pdf

Diakses pada 10 Desember 2017

Tala, F. Z. A Study of Stemming Effects on Information Retrieval in Bahasa

Indonesia. M.S. thesis. M.Sc. Thesis. Master of Logic Project. Institute for Logic,

Language and Computation. Universiteti van Amsterdam The Netherlands. 2003

Text Classification- A Comprehensive Guide to Classifying Text with Machine

Learning

Diakses dari : https://monkeylearn.com/text-classification/

Diakses pada 28 Mei 2019


http://eprints.dinus.ac.id/16572/1/jurnal_15561.pdf

https://monkeylearn.com/text-classification/

77

LAMPIRAN

1. Hasil klasifikasi tweet testing (kelas Cinta):

Data Ke- 1 2 3 4 5 6 7 8 8 10

Kelas C C C C C C C C C C

Hasil

Klasifikasi

C Sn C C C C Sd C C C

Data Ke- 11 12 13 14 15 16 17 18 19 20


Hasil

klasifikasi

C C C C Sn M C C Sn C

Data Ke- 21 22 23 24 25 26 27 28 29 30


Hasil

klasifikasi

C C C C C C C Sn T Sn

Data Ke- 31 32 33 34 35 36 37 38 39 40


Hasil

klasifikasi

C C Sn C Sn C C C C C

Data Ke- 41 42 43 44 45 46 47 48 49 50


Hasil

klasifikasi

Sn T C C Sn Sn Sn C C C


78

Data Ke- 51 52 53 54 55 56 57 58 59 60


Hasil

klasifikasi

Sn Sd C C Sn Sd T Sn Sn C

Data Ke- 61 62 63 64 65 66 67 68 69 70


Hasil

klasifikasi

Sn C Sn C Sn C C C Sn C

Data Ke- 71 72 73 74 75 76 77 78 79 80


Hasil

klasifikasi

C C Sn C C Sn C C M Sn

Data Ke- 81 82 83 84 85 86 87 88 89 90


Hasil

klasifikasi

Sn C C C Sd C C C C C

Data Ke- 91 92 93 94 95 96 97 98 99 100


Hasil

klasifikasi

C Sn Sn C Sn Sn C C Sn C

Data Ke- 101 102 103 104 105 106 107 108 109 110


Hasil

klasifikasi

Sn C C Sn C Sn C C C C


79

Data Ke- 111 112 113 114 115 116 117 118 119 120


Hasil

klasifikasi

Sn Sn C Sn Sn Sn C M C M

Data Ke- 121 122 123 124 125 126 127 128 129 130


Hasil

klasifikasi

C C C Sn C C C Sn Sn C

Data Ke- 131 132 133 134 135 136 137 138 139 140


Hasil

klasifikasi

M C C C Sn C C Sn C Sn

Data Ke- 141 142 143 144 145 146 147 148 149 150


Hasil

klasifikasi

C C C Sn Sn Sn C C C C

Data Ke- 151 152 153 154 155 156 157 158 159 160


Hasil

klasifikasi

C Sn C C C C Sn Sn C C


80

Data Ke- 161 162 163 164 165 166 167 168 169 170


Hasil

klasifikasi

C Sn C Sn C C Sn C C Sn

2. Hasil klasifikasi tweet testing (kelas Senang):

Data Ke- 1 2 3 4 5 6 7 8 8 10

Kelas Sn Sn Sn Sn Sn Sn Sn Sn Sn Sn

Hasil

Klasifikasi


Data Ke- 11 12 13 14 15 16 17 18 19 20


Hasil

klasifikasi

Sn Sn Sn Sn Sn Sn M Sn Sn Sn

Data Ke- 21 22 23 24 25 26 27 28 29 30


Hasil

klasifikasi


Data Ke- 31 32 33 34 35 36 37 38 39 40


Hasil

klasifikasi



81

Data Ke- 41 42 43 44 45 46 47 48 49 50


Hasil

klasifikasi


Data Ke- 51 52 53 54 55 56 57 58 59 60


Hasil

klasifikasi


Data Ke- 61 62 63 64 65 66 67 68 69 70


Hasil

klasifikasi

Sn Sn Sn Sn Sn Sn Sn Sn C Sn

Data Ke- 71 72 73 74 75 76 77 78 79 80


Hasil

klasifikasi


Data Ke- 81 82 83 84 85 86 87 88 89 90


Hasil

klasifikasi

Sn Sd Sd Sn Sd Sn Sn Sn Sn M

Data Ke- 91 92 93 94 95 96 97 98 99 100


Hasil

klasifikasi



82

Data Ke- 101 102 103 104 105 106 107 108 109 110


Hasil

klasifikasi

Sn Sn Sn T Sn Sn Sn Sn Sn Sn

Data Ke- 111 112 113 114 115 116 117 118 119 120


Hasil

klasifikasi


Data Ke- 121 122 123 124 125 126 127 128 129 130


Hasil

klasifikasi

Sn Sn Sn Sn Sn Sd Sn Sn Sn Sn

Data Ke- 131 132 133 134 135 136 137 138 139 140


Hasil

klasifikasi


Data Ke- 141 142 143 144 145 146 147 148 149 150


Hasil

klasifikasi

Sn Sd Sn Sn Sn Sn Sn Sn Sn Sn


83

Data Ke- 151 152 153 154 155 156 157 158 159 160


Hasil

klasifikasi


Data Ke- 161 162 163 164 165 166 167 168 169 170


Hasil

klasifikasi

Sn Sn Sn Sn Sn Sn Sn Sn Sn Sd

3. Hasil klasifikasi tweet testing (kelas Marah) dapat dilihat dibawah ini:

Data Ke- 1 2 3 4 5 6 7 8 8 10

Kelas M M M M M M M M M M

Hasil

Klasifikasi

M M M M M M M M M M

Data Ke- 11 12 13 14 15 16 17 18 19 20


Hasil

klasifikasi

Sn Sn Sn M M M M M M M

Data Ke- 21 22 23 24 25 26 27 28 29 30


Hasil

klasifikasi

M M M M M M Sn Sn M M


84

Data Ke- 31 32 33 34 35 36 37 38 39 40


Hasil

klasifikasi

M M M Sn C Sn Sn Sn Sn M

Data Ke- 41 42 43 44 45 46 47 48 49 50


Hasil

klasifikasi

M M M Sn M M M M T M

Data Ke- 51 52 53 54 55 56 57 58 59 60


Hasil

klasifikasi

M M M M M M M Sn M Sd

Data Ke- 61 62 63 64 65 66 67 68 69 70


Hasil

klasifikasi

M Sn M Sn M Sn M Sn M Sn

Data Ke- 71 72 73 74 75 76 77 78 79 80


Hasil

klasifikasi

Sn M Sn Sn Sn M Sn M Sn M

Data Ke- 81 82 83 84 85 86 87 88 89 90


Hasil

klasifikasi

M Sn M M M M M M Sn M


85

Data Ke- 91 92 93 94 95 96 97 98 99 100


Hasil

klasifikasi

M Sn M M Sn Sn M C M M

Data Ke- 101 102 103 104 105 106 107 108 109 110


Hasil

klasifikasi

M Sn Sn M M Sn M M Sn Sn

Data Ke- 111 112 113 114 115 116 117 118 119 120


Hasil

klasifikasi

M Sn M M M M M M M Sn

Data Ke- 121 122 123 124 125 126 127 128 129 130


Hasil

klasifikasi

M M Sn M M Sn Sn Sn M M

Data Ke- 131 132 133 134 135 136 137 138 139 140


Hasil

klasifikasi

M Sn Sn Sn M M M M M M


86

Data Ke- 141 142 143 144 145 146 147 148 149 150


Hasil

klasifikasi

M M Sn Sn M Sn M M Sn Sn

Data Ke- 151 152 153 154 155 156 157 158 159 160


Hasil

klasifikasi

Sn M Sn Sn M Sn Sn M T M

Data Ke- 161 162 163 164 165 166 167 168 169 170


Hasil

klasifikasi

M M Sn Sn Sn Sn M M M M

4. Hasil klasifikasi tweet testing (kelas Sedih):

Data Ke- 1 2 3 4 5 6 7 8 8 10

Kelas Sd Sd Sd Sd Sd Sd Sd Sd Sd Sd

Hasil

Klasifikasi

Sd Sd Sd Sd Sd Sd Sn Sd Sd Sd

Data Ke- 11 12 13 14 15 16 17 18 19 20


Hasil

klasifikasi

Sd Sd Sn Sd Sd Sd Sd Sd Sd Sd


87

Data Ke- 21 22 23 24 25 26 27 28 29 30


Hasil

klasifikasi

Sd Sn Sd Sd Sd Sd Sd Sd Sd Sn

Data Ke- 31 32 33 34 35 36 37 38 39 40


Hasil

klasifikasi

T Sd Sd T Sd Sd Sd Sn Sd Sn

Data Ke- 41 42 43 44 45 46 47 48 49 50


Hasil

klasifikasi

Sd Sd M Sd Sd Sd Sn Sd Sd Sd

Data Ke- 51 52 53 54 55 56 57 58 59 60


Hasil

klasifikasi

Sd Sd Sd T Sn Sd Sd Sd Sd Sd

Data Ke- 61 62 63 64 65 66 67 68 69 70


Hasil

klasifikasi

Sd Sd C Sd Sn Sn M Sd Sd Sn


88

Data Ke- 71 72 73 74 75 76 77 78 79 80


Hasil

klasifikasi

M Sd Sd Sd Sd Sd Sn Sd Sd Sd

Data Ke- 81 82 83 84 85 86 87 88 89 90


Hasil

klasifikasi

Sn Sn Sn Sd Sn Sd Sd Sd Sd Sd

Data Ke- 91 92 93 94 95 96 97 98 99 100


Hasil

klasifikasi

Sd Sd Sd Sd Sd Sn M Sn Sd Sd

Data Ke- 101 102 103 104 105 106 107 108 109 110


Hasil

klasifikasi

Sd Sn Sd Sn Sd Sd Sd Sn Sd Sn

Data Ke- 111 112 113 114 115 116 117 118 119 120


Hasil

klasifikasi

Sd Sn Sd Sd Sn Sn Sn Sd Sn Sd

Data Ke- 121 122 123 124 125 126 127 128 129 130


Hasil

klasifikasi

Sd Sd Sd Sd Sn Sd Sd Sd Sd Sd


89

Data Ke- 131 132 133 134 135 136 137 138 139 140


Hasil

klasifikasi

Sd Sn Sd Sn Sd Sd Sd Sd Sd Sn

Data Ke- 141 142 143 144 145 146 147 148 149 150


Hasil

klasifikasi

Sn M Sd Sd Sd Sd Sn Sd Sd M

Data Ke- 151 152 153 154 155 156 157 158 159 160


Hasil

klasifikasi

Sn Sn Sd Sd Sd Sn Sn Sn Sd C

Data Ke- 161 162 163 164 165 166 167 168 169 170


Hasil

klasifikasi

Sd Sd Sd Sd Sd Sd Sd Sd Sn Sd

5. Hasil klasifikasi tweet testing (kelas Takut):

Data Ke- 1 2 3 4 5 6 7 8 8 10

Kelas T T T T T T T T T T

Hasil

Klasifikasi

T T T T T Sn T T T T


90

Data Ke- 11 12 13 14 15 16 17 18 19 20


Hasil

klasifikasi

T T T T T Sn T T Sn T

Data Ke- 21 22 23 24 25 26 27 28 29 30


Hasil

klasifikasi

T Sn T T T T T T T T

Data Ke- 31 32 33 34 35 36 37 38 39 40


Hasil

klasifikasi

T T T Sn Sn T T Sn T T

Data Ke- 41 42 43 44 45 46 47 48 49 50


Hasil

klasifikasi

T T Sn Sn T T T T T T

Data Ke- 51 52 53 54 55 56 57 58 59 60


Hasil

klasifikasi

Sn Sn Sn T Sn T T T Sn T

Data Ke- 61 62 63 64 65 66 67 68 69 70


Hasil

klasifikasi

T T T Sn T T T Sn Sn M


91

Data Ke- 71 72 73 74 75 76 77 78 79 80


Hasil

klasifikasi

Sn T Sn T T Sn Sn T Sn T

Data Ke- 81 82 83 84 85 86 87 88 89 90


Hasil

klasifikasi

T Sn T T T Sn Sn T Sn T

Data Ke- 91 92 93 94 95 96 97 98 99 100


Hasil

klasifikasi

Sn T Sn Sn T Sn T T T T

Data Ke- 101 102 103 104 105 106 107 108 109 110


Hasil

klasifikasi

T T T T T Sn T T T T

Data Ke- 111 112 113 114 115 116 117 118 119 120


Hasil

klasifikasi

Sn T T T T Sn T T T T


92

Data Ke- 121 122 123 124 125 126 127 128 129 130


Hasil

klasifikasi

T T Sn Sn T T T T T T

Data Ke- 131 132 133 134 135 136 137 138 139 140


Hasil

klasifikasi

T T T T Sn T Sn T Sn T

Data Ke- 141 142 143 144 145 146 147 148 149 150


Hasil

klasifikasi

T T T T T T T T T T

Data Ke- 151 152 153 154 155 156 157 158 159 160


Hasil

klasifikasi

T T T T Sn T T T T Sn

Data Ke- 161 162 163 164 165 166 167 168 169 170


Hasil

klasifikasi

T T T Sn Sn T T T Sn C


93

KAMUS KATA BAKU

UNTUK NORMALISASI KATA

id ns 1 ns 2 ns 3 ns 4 ns 5 ns 6 ns 7 ns 8 standar

1 abang abank bang mas kaka kak ci cici kakak

2 adem sejuk

3 aherat akherat ahirat akhirat

4 ahir akhir

5 aktifitas aktivitas

6 aktip aktif

7 alay norak

8 alloh awloh awlh aloha allah

9 alm al almarhum

10 ama ame same sama

11 analisa analisis

12 ancur ancor hancor hancur

13 anjenk asu anjay jeng jing njir njing anjir anjing

14 ank nak nk bocah bch bcah anak

15 anter nganter anterin antar

16 ape ap pa paan apa

17 apotik apotek

18 armosfir atmosfer

19 aseng asenk asing

20 atlit atlet

21 ato atw taw tow atau

22 ayuk ayok yok yuk yu yo ayo

23 azas asas

24 baek best baekin baik

25 bakal bkl bkal akan

26 baper bawa

perasaan

27 baud baut

28 bayangin bayangka

n

29 bener bnr bnar bner benar

30 berantem brntm berkelahi

31 bgt bngt banget sekali

32 bhs bhsa bahasa

33 bhw bhwa bahwa


94

34 bikin bkin buat

35 bis bus

36 bloon oon bodo cebong kamp

ret bego

bego

k

goblo

k bodoh

37 blum blm blom lum lom belum

38 bndg bdg bandung

39 boss boes bos

40 bpk bp bpak pakde papi papa

h pak bokap bapak

41 bully dibully ngebully ngebul

lyin ganggu

42 butek jenuh

43 cakep ckp cakap

44 capres calon

presiden

45 cawapres

calon

wakil

presiden

46 cewe cewek

47 challeng

e tantangan

48 ciap siap

49 cinderam

ata

cendermat

a

50 cino cine cina

51 cius ciusan ciyus serius

52 cmn cuma cuman cm cum hanya

53 comment komen koment ngome

n

ngom

enin komentar

54 confiden

t

percaya

diri

55 cowo cowok

56 culun kecil

57 cupu cupuk cpu pemula

58 d di

59 dalem dlm dlem dalam

60 daptar daftar

61 dateng datenk dtg datang

62 ddk dduk duduk

63 dede dedek de dik adik

64 denger denge ngedenger ngeden

ge dengar

65 depo depot

66 detil detail

67 dg dgn dengan

68 diagnosa diagnosis


95

69 diem diam

70 differens

ial diferensial

71 difinisi definisi

72 diperhati

in

diperhatik

an

73 disel diesel

74 disimpul

in

disimpulk

an

75 disono dsono dsno disana

76 dok dktr dokter

77 dollar dolar

78 dongok dunguk dongo dungu

79 dr dri dari

80 dsini desene dsene disini

81 duit money duwit uang

82 eksport ekspor

83 ekstrim ekstrem

84 elo lu loe ente mane

h mneh elu lo kamu

85 emg emng emang mmg mmn

g memang

86 enteng mudah

87 erobik aerobic

88 esei esai

89 eslam islam

90 esok besok

91 faham paham

92 fahamka

n pahamkan

93 filem film

94 fix tetep ttep ttap tetap

95 frekwens

i frekuensi

96 fresh segar

97 gak gk nggak ora tdk tak no ga tidak

98 gas lanjut

99 geladi gladi

100 gelo edan gila

101 genk gang gank geng

102 getol rajin

103 gini gene bgn begini

104 gmn gimana gmana bgmn bgmn

a

bagaiman

a

105 gusti god tuhan


96

106 guys gais gays saudara

107 gw gua gue ane gwa ku q aku

108 hakekat hakikat

109 hapal hafal

110 hate benci

111 hembus embus

112 himbau imbau

113 hirarki hierarki

114 hisap isap

115 hkum hkm hukum

116 hoax ngehoak

s ngehoax hoaks

117 hrs hrus mbok mbo bok harus

118 hutang ngutang ngotang otang utang

119 ibu kota ibukota

120 idup hidup

121 ihlas ikhlas

122 ijasah ijazah

123 ijin izin

124 iket ngiket ikat

125 iki ini

126 ilmiawan ilmuwan

127 import impor

128 indon indo ind indonesia

129 indra indera

130 inget ingat

131 inisiatip inisiatif

132 iso dapet dapat

133 isteri istri

134 iye ya ye y iy yes aye iya

135 jadual jadwal

136 jaman zaman

137 jejek jijik

138 jenasah jenazah

139 jendral jenderal

140 jeplak asal bicara

141 jk jika

142 jkt jkrta jakarta

143 jogjakart

a

yogyakart

a

144 jokodok kodok jokow jokowi

145 judge ngejudg

e ngenilai nilaiin nilai


97

146 jum'at jumat

147 kaedah kaidah

148 kalem slow selow santai

149 kangker kanker

150 kapir kafer kafir

151 karir karier

152 katholik katolik

153 kawatir khawatir

154 kayak kyk kya kek spt sprti seperti

155 keburu masih

156 kedzalim

an

kedzoli

man

kedzholim

an kezaliman

157 kelar beres selesai

158 kemaren maren kmrn marin kemarin

159 ketawa ktawa ngakak ngkak tertawa

160 khutbah khotbah

161 kismin mesken miskin

162 kite kta kita

163 klu klo kalau

164 km anda

165 kmi kami

166 knp knpa napa ko kok kenapa

167 kocak lucu

168 komodit

as komoditi

169 komplit komplet

170 kongkrit konkrit konkret

171 konperen

si konferensi

172 kontol penis

173 korup korupsi

174 kosakata kosa kata

175 kpd pd kepada

176 krn krna karna karena

177 ksh kasi ksih kasih

178 kt bilang blng blg kata

179 kuna kuno

180 kwalitas kwalitet kualitas

181 kwitansi kuitansi

182 kwn kwan sob sobat sis kawan

183 kyai kiai

184 lbh lbih lebih

185 legowo legawa terima


98

186 liat liatx ngeliat meliat melihat

187 lobang lubang

188 loka

karya lokakarya

189 love luv lov cinte cinta

190 ma'af maap maep maaf

191 mabok mabuk

192 maen maenin bermain

193 mahluk makhluk

194 mahzab mazhab

195 makasi mkasih mksh terima

kasih

196 malem malam

197 mami mamah mamih bu buk ibuk nyok

ap ibu

198 mampet mampat

199 manage

men

manajeme

n

200 manager manajer

201 mayan lumayan

202 medsos media

sosial

203 mending mending

an agak

204 mesjid mesjit masjid

205 metoda metode

206 mikir meker think fikir pikir

207 milih pilih

208 milu ikut

209 mjd jadi jd menjadi

210 moga muga smg semoga

211 motifasi motivasi

212 motip motif

213 msuh musuh

214 mulus halus

215 mumpun

g lg lgi lag selagi

216 musti mesti

217 n dn dan

218 nampakn

y

nampak

nya

tampakny

a

219 nangkap nangkep tangkep tangkap

220 nara

sumber

narasumb

er

221 nasehat nasihat

222 negatip negative negatif


99

223 nemu nemuin temuin temu

224 neng mbak

225 ngawur slah slh slah ngac

o salah

226 ngeles alasan

227 ngerasa ngerasai

n ngarasa merasa

228 ngeyel kekeh keras

kepala

229 ngomel omel mrh marah

230 nopembe

r november

231 notabene dominan

232 nulis tulis

233 nunggu tunggui

n nggu tunggu

234 nyalon mencalon

235 nyicip nyicipin cicip

236 nyinyir bacot bacod ngebac

ot

ngeb

acod cerewet

237 nyuri nilep tilep colong nyolo

ng curi

238 obok aduk

239 obyek objek

240 obyektif objektif

241 ogah kagak tidak mau

242 oge jg jug juga

243 olah raga olahraga

244 on ons

245 onta sempak jancuk jancok barba

r

kupr

et tolol

246 orangtua orang tua

247 org orng orang

248 pantes pantesan pantas

249 pdhl pad pdhal padahal

250 pebruari februari

251 pemuki

man

permukim

an

252 penggel penggal

253 penglepa

san pelepasan

254 pengliata

n

penglihata

n

255 perancis prancis

256 perioda period priode periode

257 perletaka

n peletakan


100

258 persarata

n

persyarata

n

259 phisik fisik

260 photo foto

261 php boong boongin diboon

gin

diphp

in

dikib

ulin

ngibu

l bohong

262 pinjem minjem pinjemin minje

min pinjam

263 pinter pintar

264 pngin pengen pingin pgn pngn mo mao mau

265 pose gaya

266 positip positive positif

267 prabocor wowo genduruw

o prabowo

268 praktek praktir

269 prakteku

m praktikum

270 pres plecide

n presiden

271 problima

tik

problemat

ic

272 prodak produk

273 produktif

itas

produktivi

tas

274 prof profesor

275 propinsi provinsi

276 prosen persen

277 prosenta

se persentase

278 prumaha

n

perumaha

n

279 psikotest psikotes

280 pungkit mungkir

281 putera putra

282 puteri putri

283 realita realitas

284 rejeki rezeki

285 reply balas

286 resiko risiko

287 rme rame rmai ramai

288 rubah ubah

289 rubuh roboh

290 sampe smpe ampe sampai

291 samuder

a samudra

292 sare bobo bobok tidur

293 sbg sbgai sebagai


101

294 sdh udah sud wis wes udh sudah

295 sebel nyebelin sebal

296 secuil dikit dkit sedikit

297 segi tiga segitiga

298 sekertari

s sekretaris

299 seksama saksama

300 sekuritas sekuriti

301 selebriti selebritas

302 sempet smpet sempat

303 sene sne sini

304 seneng sneng snang senang

305 sepakbol

a sepak bola

306 serem seram

307 silahkan silakan

308 sintesa sintesis

309 sistim sistem

310 skr skrang skrg skrng sekarang

311 smart cerdas

312 sndiri sndr sndri sendiri

313 sok sok2an berlagak

314 solat shalat sholat salat

315 sono ono sno sana

316 sopir supir

317 spesis spesies

318 sreg mantap

319 standard standar

320 standaris

asi

standardis

asi

321 subyek subjek

322 subyektif subjektif

323 sumatera sumatra

324 sungkem sujud

325 supaya spy sup paya agar

326 syarat sarat

327 syurga sorga surga

328 tabok nabok tampar

329 takhta tahta

330 tandatan

gan

tanda

tangan

331 tapsir tafsir

332 tar entar ntar ntr nti nnt nnti nanti


102

333 tarip tarif

334 tau tao tw tahu

335 taun taon thn thun thon tahun

336 team tim

337 tehnik teknik

338 tele telek tai tahi

339 telefon telpon telepon

340 telen nelen telan

341 tentrem tentram

342 teoritis teoretis

343 terlanjur telanjur

344 terlentan

g telentang

345 tkot tkt tkut takot takut

346 tl tlng tlg please pls plis tolong

347 tmn tman tmen temen teman

348 tong ntong jgn jangan

349 tp tpi tapi ttp tetapi

350 tradision

il tradisional

351 trampil terampil

352 trotoir trotoar

353 trus trs teros melulu mulu molo terus

354 tsb tersebut

355 ttg ttng tentang

356 tubruk nabrak tabrak

357 tuh ituh ito tu itu

358 tusbol sodomi

359 twit ngetwit ngetweet tweet

360 ujud wujud

361 urang sy sya saya

362 utek ngutek otak

363 utk untuk

364 varitas varietas

365 voter voters pemilih

366 wae sj sja aja ajah aj saja

367 walikota wali kota

368 walo walao walaopun wlau walaupun

369 wapres wakil

presiden

370 yg yang


103

Keterangan:

ns : Bentuk kata non standar (tidak baku)


104

KAMUS TWEET

id;"tweet_id";"text";"label";"topic";"processed";"jenis_data"

1;1104755714906558465;"https://t.co/nwqqqL0LF3 Fingerscrossed utk semua

proyek MRT & LRT. Senang liat Jakarta tambah kompeten & modern.ðŸ¤ž

@jokowi @kemenhub151 @KemenPU @Humas_DKI

@DKIJakarta";"senang";"jokowi";0;"Testing"

2;1104737781220163584;"Jokowi menang

3;1104735074258305024;"Betawi paling senang dgn org jujur

#BetawiPastiJokowi";"senang";"jokowi";0;"Testing"

4;1104732595248480258;"@IswadiJambi @tonojora @NaradhiptaJogja

@jokowi @BamsBulaksumur @kangdede78 @projopusat @suryaden Budak tu

makek dongkrak ABS (asal buapak senang) be

ðŸ˜·âœŒ";"senang";"jokowi";0;"Testing"

5;1104729459301670912;"saya senang dengan kinerjanya pak Jokowi


6;1104725935939436545;"Rakyat senang

#BetawiPastiJokowi https://t.co/0xt82VStSF";"senang";"jokowi";0;"Testing"

7;1104724499046391808;"Pak #jokowi maju


8;1104723300507279360;"Susah senang tetap pak jokowi


9;1104721937576603648;"Masyarakat betawi senang bersama pak jokowi


10;1104720324174667776;"Pak #jokowi senang bersama rakyat.


2500;1104718876430950400;"Jokowi-Amin bikin rakyat senang

Layak didukung ampe menang ðŸ„•

#BetawiPastiJokowi https://t.co/9ExiYWYkf3";"senang";"jokowi";0;"Testing"

Keterangan:

File dalam bentuk .csv


analisis sentimen pada twitter menggunakanrepository.usd.ac.id/35993/2/145314060_full.pdfsistem ini...

Documents