skripsi analisis pengaruh k-gram, window dan basis …

93
i SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS PADA ALGORITMA WINNOWING DALAM APLIKASI DETEKSI PENJIPLAKAN DOKUMEN Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Komputer Disusun Oleh: ANGGIT SATRIO PANGESTU MANDIRI (108091000068) PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH JAKARTA 2014M/1435H

Upload: others

Post on 08-Jan-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

i

SKRIPSI

ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS

PADA ALGORITMA WINNOWING DALAM APLIKASI

DETEKSI PENJIPLAKAN DOKUMEN

Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Komputer

Disusun Oleh:

ANGGIT SATRIO PANGESTU MANDIRI

(108091000068)

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

2014M/1435H

Page 2: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

ii

Page 3: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

iii

Page 4: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

iv

ABSTRAK

Anggit Satrio Pangestu Mandiri. Analisis Pengaruh K-Gram, Window dan Basis

pada Algoritma Winnowing dalam Aplikasi Deteksi Penjiplakan Dokumen.

Dibimbing oleh Khodijah Hulliyah, M. Si, dan Hendra Bayu Suseno, M.Kom.

Seperti yang dicantumkan oleh Harian Kompas pada 6 Juni 2012, dugaan

plagiarisme menghinggapi UIN Syarif Hidayatulah Jakarta. Salah satu dosen

diduga menjiplak karya skripsi mahasiswa yang diklaim sebagai hasil penelitian

dosen tersebut. Djoko Santoso selaku Direktur Jendral Pendidikan Tinggi

Kementerian Pendidikan dan Kebudayaan Republik Indonesia menilai pihak

perguruan tinggi seharusnya mengetahui adanya plagiat karena semestinya mereka

memiliki data yang rinci dan lengkap tentang karya-karya mahasiswa dan dosen.

Prof. Edy Suandi Hamid, Rektor Universitas Islam Indonesia (UII) Yogyakarta,

seperti yang dikutip dari AntaraNews mengatakan bahwa plagiarisme bisa terjadi

karena kesengajaan atau justru akibat ketidaktahuan dari mahasiswa atau dosen.

Algoritma yang digunakan dalam skripsi ini adalah algoritma Winnowing yang

merupakan salah satu algoritma yang digunakan dalam metode fingerprint.

Algoritma lainnya yang juga digunakan dalam metode fingerprint adalah algoritma

Rabin-Karp dan algoritma Manber. Pada tahun 2003, Schleimer dalam

penelitiannya telah menyimpulkan bahwa algoritma Winnowing memiliki

efektifitas yang lebih baik dibandingkan dengan algoritma lain yang digunakan

dalam metode fingerprint. Penelitian lain juga dilakukan oleh Ana Kurniawati dan

I Wayan Simri Wicaksana pada tahun 2008. Mereka melakukan perbandingan

algoritma Winnowing dan algoritma Manber dalam deteksi plagiarisme dokumen.

Dari penelitian tersebut didapatkan bahwa algoritma Winnowing lebih baik dari

algoritma Manber karena memberikan jaminan terdeteksinya dokumen yang sama.

Tujuan yang hendak dicapai penulis dalam melakukan penelitian ini antara lain

membuat aplikasi yang dapat mendeteksi penjiplakan pada suatu dokumen

menggunakan algoritma Winnowing untuk mengetahui pengaruh nilai K-Gram,

Window dan Basis pada hasil deteksi. Metode penelitian yang digunakan adalah

Algorithm and Experiments Methodology. Hasil yang dicapai pada penelitian ini

adalah dengan mengetahui pengaruh nilai K-Gram, Window dan Basis diharapkan

mendapat konfigurasi yang sesuai yang akan digunakan pada apikasi penjiplakan

dokumen. Kesimpulan yang dicapai adalah nilai K-Gram dan Basis berpengaruh

pada hasil deteksi kesamaan. Nilai K-Gram yang besar akan memberikan

kecendrungan penurunan persentase hasil deteksi namun tingkat kesamaan semakin

sesuai. Nilai basis akan mempengaruhi nilai hash yang terbentuk sehingga akan

berdampak pada hasil persentase deteksi yang didapat. Semakin besar nilai Basis

maka nilai hash yang terbentuk juga semakin besar. Sedangkan nilai Window

cenderung hanya mempengaruhi lama waktu proses saja.

Kata kunci: penjiplakan, plagiarisme, pencocokan dokumen, PHP, algoritma,

Winnowing, Algorithm and Experiments Methodology.

Page 5: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

v

LEMBAR PERNYATAAN

DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENAR-BENAR

HASIL KARYA SENDIRI YANG BELUM PERNAH DIAJUKAN SEBAGAI

SKRIPSI ATAU KARYA ILMIAH PADA PERGURUAN TINGGI ATAU

LEMBAGA MANAPUN.

Jakarta, 11 Januari 2014

Anggit Satrio Pangestu Mandiri

108091000068

Page 6: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

vi

KATA PENGANTAR

Puji syukur kehadirat Illahi Rabbi Allah Subhana wata’la yang telah

melimpahkan rahmat, taufiq, dan hidayah kepada hamba-Nya. Semoga shalawat

serta salam selalu terlimpahkan kepada Nabi Muhammad Shalallahu’alaihi

wassalam.

Karena hanya atas ridho dan rahmat-Nya penulis dapat menyelesaikan

skripsi ini yang berjudul, “Analisis Pengaruh K-Gram, Window dan Basis pada

Algoritma Winnowing dalam Aplikasi Deteksi Penjiplakan Dokumen”.

Pada kesempatan ini penulis juga hendak mengucapkan terima kasih kepada

pihak-pihak yang telah yang telah memberikan banyak bantuan, baik dalam bentuk

dukungan moril maupun materi kepada penulis selama pengerjaan tugas akhir.

Secara khusus saya ucapkan terima kasih kepada:

1. Bapak DR. Agus Salim, M.Si selaku Dekan Fakultas Sains dan Teknologi.

2. Ibu Nurhayati, Ph.D selaku Ketua Program Studi Jurusan Teknik

Informatika.

3. Ibu Khodijah Hulliyah, M.Si selaku Dosen Pembimbing I dan Bapak

Hendra Bayu Suseno, M.Kom selaku Dosen Pembimbing II Fakultas Sains

dan Teknologi UIN Syarif Hidayatullah Jakarta yang secara bijaksana dan

kooperatif telah memberikan bimbingan, bantuan, dan dukungan baik

secara moral maupun teknis. Dan telah memberikan semangat, dukungan,

dan motivasi selama melakukan studi.

Page 7: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

vii

4. Ayahanda, Ibunda, dan seluruh bagian keluarga yang telah memberikan

motivasi bagi penulis dalam melakukan setiap pekerjaan dengan sebaik-

baiknya. Terimakasih atas segala do’a, restu dan harapannya kepada

penulis yang tak pernah lepas.

5. Keluarga besar Teknik Informatika 2008 yang saling memotivasi agar

dapat menyelesaikan studi.

6. Rekan-rekan UIN, yang saya kenal maupun tidak kenal, yang mungkin

secara sengaja atau tidak sengaja menginspirasi saya dalam melakukan

sesuatu hal yang berguna maupun tidak.

7. Dan semua pihak yang secara langsung maupun tidak langsung membantu

penulis dalam menyelesaikan skripsi ini

Pada kesempatan ini penulis juga memohon maaf yang sebesar-besarnya

dan menyadari bahwa skripsi ini belumlah sempurna, maka penulis sangat

mengharapkan kritik dan saran dari pembaca dan pihak lain untuk penulisan skripsi

selanjutnya yang lebih baik.

Akhir kata penulis berharap agar skripsi ini dapat bermanfaat bagi pembaca

sekalian. Amin.

Jakarta, Januari 2014

Penulis

Page 8: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

viii

DAFTAR ISI

Halaman Judul .............................................................................................. i

Lembar Pengesahan ...................................................................................... ii

Lembar Pengesahan Ujian ............................................................................ iii

Abstrak ........................................................................................................... iv

Lembar Pernyataan ....................................................................................... v

Kata Pengantar .............................................................................................. vi

Daftar Isi ......................................................................................................... viii

Daftar Gambar ............................................................................................... xii

Daftar Tabel .................................................................................................... xiii

BAB I PENDAHULUAN ................................................................. 1

1.1. Latar Belakang ............................................................. 1

1.2. Perumusan Masalah ..................................................... 4

1.3. Pembatasan Masalah .................................................... 4

1.4. Tujuan Penelitian ......................................................... 5

1.5. Manfaat Penelitian ........................................................ 5

1.6. Metode Penelitian ........................................................ 5

1.6.1. Metode Pengumpulan Data ............................. 5

1.6.2. Algorithm and Experiments Methodology ............ 5

1.7. Sistematika Penulisan .................................................. 7

Page 9: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

ix

BAB II LANDASAN TEORI ........................................................... 9

2.1. Analisa ......................................................................... 9

2.2. Pengertian Aplikasi ...................................................... 9

2.3. Dokumen....................................................................... 10

2.4. Plagiarisme .................................................................. 11

2.4.1. Pengertian Plagiarisme .................................... 11

2.4.2. Tipe Plagiarisme .............................................. 11

2.4.3. Metode Pendeteksian Plagiarisme.................... 12

2.5. Algoritma Winnowing ................................................. 13

2.6. K-Grams ....................................................................... 14

2.7. Hash ............................................................................. 15

2.7.1. Rolling Hash ................................................... 15

2.8. Jaccard’s Coefficient .................................................... 16

2.9. PHP ............................................................................. 17

2.10. Diagram Alur (Flowchart)............................................ 18

2.11. STD (State Transition Diagram) .................................. 20

2.12. Algorithm and Experiments Methodology ................... 22

2.12.1. Empiricism in Algorithm Design ...................... 22

2.12.2. Implementation ................................................. 23

2.12.3. Modes of Empirical Assessment ....................... 23

2.12.4. Experimental Setup .......................................... 23

2.12.5. Measure ............................................................ 24

2.12.6. Present and Analyze the Data .......................... 24

Page 10: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

x

2.12.7. Conclusion ....................................................... 24

BAB III METODE PENELITIAN .................................................. 26

3.1. Metode Pengumpulan Data........................................... 26

3.1.1. Studi Pustaka .................................................... 26

3.1.2. Penelusuran Data Online ................................. 26

3.1.3. Studi Literatur Sejenis ...................................... 27

3.2. Identifikasi Masalah ..................................................... 27

3.3. Algorithm and Experiments Methodology .................... 28

3.3.1. Empiricism in Algorithm Design ...................... 28

3.3.2. Implementation ................................................. 28

3.3.3. Modes of Empirical Assessment ....................... 29

3.3.4. Experimental Setup .......................................... 29

3.3.5. Measure ............................................................ 29

3.3.6. Present and Analyze the Data .......................... 29

3.3.7. Conclusion ....................................................... 29

3.4. Peralatan Penelitian ..................................................... 29

3.5. Kerangka Berfikir ......................................................... 31

BAB IV PEMBAHASAN DAN HASIL ........................................... 32

4.1. Studi Pustaka ................................................................ 32

4.2. Studi Literatur Sejenis ................................................. 34

4.3. Identifikasi Masalah ..................................................... 36

Page 11: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

xi

4.4. Empiricism in Algorithm Design ................................. 36

4.5. Implementation ............................................................ 41

4.6. Modes of Empirical Assessment ................................... 55

4.7. Experimental Setup ....................................................... 55

4.7.1. Desain Eksperimental....................................... 55

4.7.2. Pengumpulan Data & Menganalisis Data ........ 56

4.7.2.1. Pengujian K-Gram ............................ 57

4.7.2.2. Pengujian Basis ................................. 57

4.7.2.3. Pengujian Window ............................ 58

4.8. Measure ........................................................................ 58

4.8.1. Pengujian K-Gram ........................................... 58

4.8.2. Pengujian Basis ................................................ 60

4.8.3. Pengujian Window ........................................... 62

4.9. Present and Analyze the Data ...................................... 63

4.10. Conclusion ................................................................... 66

BAB V KESIMPULAN DAN SARAN ........................................... 68

5.1. Kesimpulan ................................................................... 68

5.2. Saran ............................................................................. 69

DAFTAR PUSTAKA ..................................................................................... 70

LAMPIRAN ………………………………………………………………... 73

Page 12: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

xii

DAFTAR GAMBAR

Gambar 2.1. Simbol state 21

Gambar 2.2. Simbol perubahan sistem 21

Gambar 2.3. Simbol kondisi dan aksi 21

Gambar 3.1. Alur kerangka berfikir 31

Gambar 4.1. State Transition Diagram 37

Gambar 4.2. Flowchart aplikasi 38

Gambar 4.3. Flowchart proses algoritma Winnowing 39

Gambar 4.4. Kode proses penghilangan tanda baca 41

Gambar 4.5. Kode proses pembentukan K-Gram 43

Gambar 4.6. Proses hashing 44

Gambar 4.7. Proses pembentukan window 46

Gambar 4.8. Proses penentuan fingerprint 49

Gambar 4.9. proses pencarian nilai hash yang sama 52

Gambar 4.10. Proses menghitung jumlah fingerprint 53

Gambar 4.11. Proses menghitung jumlah himpunan fingerprint 53

Gambar 4.12. Proses perhitungan Jaccard’s Coefficient 54

Gambar 4.13. Grafik pengaruh K-Gram terhadap hasil deteksi 63

Gambar 4.14. Grafik pengaruh K-Gram terhadap waktu eksekusi 64

Gambar 4.15. Grafik pengaruh Basis terhadap hasil deteksi 64

Gambar 4.16. Grafik pengaruh Basis terhadap waktu eksekusi 65

Gambar 4.17. Grafik pengaruh Window terhadap hasil deteksi 65

Gambar 4.18. Grafik pengaruh Window terhadap waktu eksekusi 66

Page 13: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

xiii

DAFTAR TABEL

Tabel 2.1. Simbol-simbol Flowchart 19

Tabel 4.1. Daftar Studi Pustaka 32

Tabel 4.2. Contoh penghilangan tanda baca 42

Tabel 4.3. Contoh pembentukan rangkaian K-Gram 44

Tabel 4.4. Contoh proses hashing 45

Tabel 4.5. Contoh pembentukan window 47

Tabel 4.6. Contoh penentuan fingerprint 50

Tabel 4.7. Contoh penentuan tingkat kesamaan 54

Tabel 4.8. Daftar dokumen uji dan dokumen latih 56

Tabel 4.9. Hasil pengujian K-Gram terhadap persentase hasil deteksi 58

Tabel 4.10. Hasil pengujian K-Gram terhadap waktu eksekusi 59

Tabel 4.11. Hasil pengujian Basis terhadap persentase hasil deteksi 60

Tabel 4.12. Hasil pengujian Basis terhadap waktu eksekusi 61

Tabel 4.13. Hasil pengujian Window terhadap persentase hasil deteksi 62

Tabel 4.14. Hasil pengujian Window terhadap waktu eksekusi 62

Page 14: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

1

BAB I

PENDAHULUAN

1.1. Latar Belakang

Perkembangan teknologi internet sebagai sarana komunikasi tanpa

batas, menjadikan kegiatan kutip-mengutip ataupun terjemah-menerjemah

menjadi lebih mudah. Dengan kehadiran internet, kita bahkan tidak perlu

mengetik naskah aslinya lagi, kita hanya perlu menyalin naskah tersebut.

Kemudahan inilah yang banyak dimanfaatkan oleh para plagiator untuk

mengutip tulisan orang lain tanpa mencantumkan sumbernya dan

mengakuinya sebaga karya sendiri.

Penjiplakan atau plagiarisme dalam Kamus Besar Bahasa Indonesia

(KBBI) berarti cara atau proses yang digunakan dalam menggambar atau

menulis garis-garis gambaran atau tulisan yang telah tersedia (dengan

menempelkan kertas kosong pada gambar atau tulisan yang akan ditiru).

Plagiasrisme erat hubungannya dengan HaKI (intellectual property

right) yang di dalamnya tercakup hak cipta. Menurut UU No. 19 Tahun 2002

hak cipta adalah hak eksklusif bagi pencipta atau penerima hak untuk

mengumumkan atau memperbanyak ciptaannya atau memberikan izin untuk

itu dengan tidak mengurangi pembatasan-pembatasan menurut peraturan

perundang-undangan yang berlaku (Pasal 1 Ayat 1). Berdasarkan definisi

tersebut, plagiasi tidak sekadar masalah moral lagi. Karena itu, tindakan

penjiplakan dapat dituntut secara hukum.

Page 15: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

2

Kehadiran UU No. 19 Tahun 2002 ini tak pelak membuat para penulis

tak leluasa lagi “memanfaatkan” karya orang lain secara sembarangan.

Walaupun begitu, bukan berarti ini mengekang kreativitas seseorang, justru

sebaliknya. Dengan adanya pengakuan dan perlindungan tegas terhadap

sebuah karya, maka manusia Indonesia dituntut lebih kreatif menemukan,

membuat, atau mengembangkan karya-karya baru.

Seperti yang dicantumkan oleh Harian Kompas pada 6 Juni 2012,

dugaan plagiarisme menghinggapi UIN Syarif Hidayatulah Jakarta. Salah satu

dosen diduga menjiplak karya skripsi mahasiswa yang diklaim sebagai hasil

penelitian dosen tersebut. Djoko Santoso selaku Direktur Jendral Pendidikan

Tinggi Kementerian Pendidikan dan Kebudayaan Republik Indonesia menilai

pihak perguruan tinggi seharusnya mengetahui adanya plagiat karena

semestinya mereka memiliki data yang rinci dan lengkap tentang karya-karya

mahasiswa dan dosen. Prof. Edy Suandi Hamid, Rektor Universitas Islam

Indonesia (UII) Yogyakarta, seperti yang dikutip dari AntaraNews mengatakan

bahwa plagiarisme bisa terjadi karena kesengajaan atau justru akibat

ketidaktahuan dari mahasiswa atau dosen.

Ada tiga jenis metode yang dapat digunakan untuk mendeteksi

penjiplakan. Yang pertama adalah metode perbandingan teks lengkap, metode

dokumen fingerprinting dan metode kesamaan kata kunci. Pada metode

perbandingan teks lengkap waktu yang diperlukan relatif lebih lama karena

membandingkan seluruh isi domkumen, namun cukup efektif. Sedangkan,

metode kesamaan kata kunci hanya mengambil kata kunci suatu dokumen

Page 16: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

3

untuk dibandingkan dengan dokumen lain. Pada metode fingerprinting, isi

dokumen dirubah menjadi nilai hash yang kemudian diambil sampel nilai

tersebut untuk dibandingkan dengan sampel dokumen pembanding.

Algoritma yang digunakan dalam skripsi ini adalah algoritma

Winnowing yang merupakan salah satu algoritma yang digunakan dalam

metode fingerprint. Algoritma lainnya yang juga digunakan dalam metode

fingerprint adalah algoritma Rabin-Karp dan algoritma Manber. Pada tahun

2003, Schleimer dalam penelitiannya telah menyimpulkan bahwa algoritma

Winnowing memiliki efektifitas yang lebih baik dibandingkan dengan

algoritma lain yang digunakan dalam metode fingerprint. Penelitian lain juga

dilakukan oleh Ana Kurniawati dan I Wayan Simri Wicaksana pada tahun

2008. Mereka melakukan perbandingan algoritma Winnowing dan algoritma

Manber dalam deteksi plagiarisme dokumen. Dari penelitian tersebut

didapatkan bahwa algoritma Winnowing lebih baik dari algoritma Manber

karena memberikan jaminan terdeteksinya dokumen yang sama.

Pada tahun 2011, Wayan Surya Priantara, Diana Purwitasari, dan Umi

Laili Yuhana dari Teknik Informatika Fakultas Teknologi Informasi ITS telah

melakukan penelitian terhadap algoritma Winnowing. Namun mereka tidak

menampilkan pengaruh terhadap variabel-variabel yang terdapat pada

algoritma Winnowing seperti K-Gram, Basis dan Window. Oleh sebab itu

penulis mencoba melakukan penelitian untuk mengetahui pengaruh besar K-

Gram, Basis dan Window terhadap hasil deteksi. Adapun judul yang diangkat

Page 17: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

4

adalah “Analisis Pengaruh K-Gram, Window dan Basis pada Algoritma

Winnowing dalam Aplikasi Deteksi Penjiplakan Dokumen”.

1.2. Perumusan Masalah

Berdasarkan latar belakang, pokok permasalahan yang akan dibahas

dalam penelitian ini adalah Bagaimana pengaruh nilai K-gram, Window dan

Basis pada persentase hasil deteksi.

1.3. Pembatasan Masalah

Berdasarkan rumusan masalah, penulis membatasi masalah pada hal

berikut:

1. Aplikasi mengabaikan sinonim, kesalahan penulisan dan ejaan.

2. File dokumen berupa txt, doc, docx dan pdf. File pdf harus berupa convert

dari format doc atau docx dan bukan dari scan dokumen yang berupa

gambar.

3. Aplikasi menghasilkan persentase kesamaan dokumen dan waktu proses

perhitungan.

4. Aplikasi dibuat menggunakan bahasa pemrograman PHP 5.4.

5. Metode penelitian yang digunakan adalah Algorithm and Experiments

Methodology, dengan tahapan empiricism in algorithm design,

implementation, modes of empirical assessment, experimental setup,

measure, present and analyze the data, dan conclusion.

Page 18: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

5

1.4. Tujuan Penelitian

Tujuan yang hendak dicapai penulis dalam melakukan penelitian ini

adalah Membuat aplikasi yang dapat mendeteksi penjiplakan pada suatu

dokumen menggunakan algoritma Winnowing yang akan digunakan untuk

penelitian guna mencari pengaruh nilai K-Gram, Window, dan Basis terhadap

hasil deteksi kesamaan dokumen.

1.5. Manfaat Penelitian

Berdasarkan tujuan penulisan, maka selanjutnya manfaat yang penulis

harapkan pada penelitian ini adalah dengan mengetahui pengaruh nilai K-

Gram, Window dan Basis diharapkan mendapat konfigurasi yang sesuai yang

akan digunakan pada apikasi penjiplakan dokumen.

1.6. Metode Penelitian

1.6.1. Metode Pengumpulan Data

Proses pengumpulan data yang dilakukan penulis guna membantu

dalam penelitian ini, yaitu melakukan studi pustaka dan studi literatur

sejenis.

1.6.2. Algorithm and Experiments Methodology

Fase selanjutnya adalah eksperimen terhadap implementasi

algoritma pada aplikasi deteksi penjiplakan. Berikut ini adalah tahapan-

tahapan yang akan dilakukan penulis :

Page 19: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

6

1. Empiricism in Algorithm Design

Melakukan analisa algoritma yang akan diterapkan pada penelitian.

Pada tahapan ini, penulis melakukan pengamatan pada studi

pustaka dan referensi mengenai algoritma Winnowing.

2. Implementation

Melakukan implementasi algoritma yang sudah ada ke bahasa

pemrograman.

3. Modes of Empirical Assessment

Pada tahapan ini penulis menentukan goal pada penelitian,

maksudnya adalah kesimpulan apa yang akan didapat pada

penelitian ini.

4. Experimental Setup

Tahapan dalam eksperimen, yaitu merencanakan eksperimen,

melakukan eksperimen, melakukan observasi dalam eksperimen,

mengumpulkan dan menganalisis data.

5. Measure

Tahapan ini yaitu pengukuran data. Penulis mencantumkan

rumus yang akan diterapkan.

6. Present and Analyze the Data

Menyajikan data dan menganalisa data.

7. Conclusion

Menarik kesimpulan dari eksperimen yang telah dilakukan.

Page 20: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

7

1.7. Sistematika Penulisan

Sistematika penulisan dalam skripsi ini disusun dalam lima bab dimana

masing-masing bab saling berhubungan. Adapun membagi skripsi ini menjadi

beberapa bab yang secara singkat dapat dijelaskan sebagai berikut :

BAB I PENDAHULUAN

Bab ini berisi pendahuluan yang terdiri dari latar belakang,

perumusan masalah, batasan masalah, tujuan, manfaat, metode

penelitian, dan sistematika penulisan.

BAB II LANDASAN TEORI

Bab ini akan membahas berbagai teori-teori yang digunakan

dalam pembuatan aplikasi deteksi penjiplakan pada dokumen

menggunakan Algoritma Winnowing.

BAB III METODE PENELITIAN

Bab ini berisi tentang penjelasan metodologi yang dilakukan dan

metode pengembangan sistem yang digunakan dalam

menganalisa, merancang, dan mengimplementasikan sistem.

BAB IV PEMBAHASAN DAN HASIL

Bab ini berisi tentang penjelasan mengenai analisa permasalahan,

perancangan sistem yang akan digunakan dalam pemecahan

masalah yang terjadi dan melakukan pengujian.

Page 21: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

8

BAB V PENUTUP

Bab ini menguraikan kesimpulan dari hasil penelitian yang

didapat dan saran yang dapat digunakan untuk pengembangan di

masa datang.

Page 22: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

9

BAB II

LANDASAN TEORI

2.1. Analisis

Analisa atau analisis menurut Kamus Besar Bahasa Indonesia adalah

penyelidikan terhadap suatu peristiwa (karangan, perbuatan, dsb) untuk

mengetahui keadaan yg sebenarnya (sebab-musabab, duduk perkaranya, dsb).

analisis juga bisa diartikan sebagai penguraian dari suatu sistem yang utuh

kedalam bagian-bagian komponennya dan dengan maksud untuk

mengidentifikasi dan mengevaluasi permasalah-permasalahan, kesempatan-

kesempatan, hambatan-hambatan yang terjadi dan kebutuhan yang diharapkan

sehingga dapat diusulkan perbaikan-perbaikannya (Jogiyanto, 2011).

2.2. Pengertian Aplikasi

Aplikasi merupakan program siap pakai yang digunakan manusia

dalam melakukan pekerjaan menggunakan komputer (Jack Febrian , 2006).

Aplikasi adalah sebuah produk yang dikembangkan oleh pengembang

perangkat lunak (software engineer) yang mencakup program yang dapat

dieksekusi oleh computer dengan berbagai ukuran dan arsitektur (Pressman,

2002).

Page 23: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

10

2.3. Dokumen

Kata dokumen berasal dari bahasa latin yaitu docere, yang berarti

mengajar. Pengertian dari kata dokumen ini menurut Louis Gottschalk (1986;

38) seringkali digunakan para ahli dalam dua pengertian, yaitu pertama, berarti

sumber tertulis bagi informasi sejarah sebagai kebalikan daripada kesaksian

lisan, artefak, peninggalan-peninggalan terlukis, dan petilasan-petilasan

arkeologis. Pengertian kedua diperuntukan bagi surat-surat resmi dan surat-

surat negara seperti surat perjanjian, undang-undang, hibah, konsesi, dan

lainnya. Lebih lanjut, Gottschalk menyatakan bahwa dokumen (dokumentasi)

dalam pengertiannya yang lebih luas berupa setiap proses pembuktian yang

didasarkan atas jenis sumber apapun, baik itu yang bersifat tulisan, lisan,

gambaran, atau arkeologis.

Guba dan Lincoln (dalam Moleong, 2007;216-217) menjelaskan istilah

dokumen yang dibedakan dengan record. Definisi dari record adalah setiap

pernyataan tertulis yang disusun oleh seseorang / lembaga untuk keperluan

pengujian suatu peristiwa atau menyajikan akunting. Sedangkan dokumen

adalah setiap bahan tertulis ataupun film, lain dari record, yang tidak

dipersiapkan karena adanya permintaan seorang penyidik. Sedangkan menurut

Robert C. Bogdan seperti yang dikutip Sugiyono (2005; 82) dokumen

merupakan catatan peristiwa yang telah berlalu, bisa berbentuk tulisan,

gambar, karya-karya monumental dari seseorang.

Page 24: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

11

2.4. Plagiarisme

2.4.1. Pengertian Plagiarisme

Plagiarisme adalah penjiplakan atau pengambilan karangan,

pendapat, dan sebagainya dari orang lain dan menjadikannya seolah

karangan dan pendapatnya sendiri (KBBI, 1997: 775).

Sedangkan menurut Ned Kock, plagiarisme adalah tindakan

penyalahgunaan, pencurian/perampasan, penerbitan, pernyataan, atau

menyatakan sebagai milik sendiri sebuah pikiran, ide, tulisan, atau

ciptaan yang sebenarnya milik orang lain (Kock, 2003).

Sistem pendeteksi plagiarisme dapat dikembangkan untuk :

1. Data teks seperti essay, artikel, penelitian dan sebagainya.

2. Dokumen teks yang lebih terstruktur seperti bahasa pemrograman.

2.4.2. Tipe Plagiarisme

Plagiarisme menurut Parvati Iyer dan Abhpsita Singh memiliki

beberapa tipe seperti:

1. Word for word plagiarism, adalah menyalin setiap kata secara

langsung tanpa diubah sedikitpun.

2. Plagiarism of authorship, adalah mengakui hasil karya orang lain

sebagai hasil karya sendiri dengan cara mencantumkan nama

sendiri menggantikan nama pengarang sebenarnya.

3. Plagiarism of idea, adalah mengakui hasil pemikiran atau ide orang

lain sebagai pemikiran diri sendiri.

Page 25: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

12

4. Plagiarism of sources, adalah jika seorang penulis menggunakan

kutipan tanpa mencantumkan narasumbernya.

2.4.3. Metode Pendeteksian Plagiarisme

Metode pendeteksian plagiarisme dibagi menjadi tiga bagian

(Stein, 2006), yaitu :

1. Perbandingan Teks Lengkap

Metode ini diterapkan dengan membandingkan semua isi

dokumen. Dapat diterapkan untuk dokumen yang besar.

Pendekatan ini membutuhkan waktu yang lama tetapi cukup

efektif, karena kumpulan dokumen yang diperbandingkan adalah

dokumen yang disimpan pada penyimpanan lokal. Metode

perbandingan teks lengkap tidak dapat diterapkan untuk kumpulan

dokumen yang tidak terdapat pada dokumen lokal. Algoritma yang

digunakan pada metode ini adalah algoritma Brute-Force,

algoritma Boyer-More dan algoritma Lavenshtein-Distance.

2. Dokumen Fingerprinting

Merupakan metode yang digunakan untuk mendeteksi keakuratan

salinan antar dokumen, baik semua teks yang terdapat di dalam

dokumen atau hanya sebagian teks saja. Prinsip kerja dari metode

fingerprinting ini adalah dengan menggunakan teknik hashing.

Teknik hashing adalah sebuah fungsi yang mengkonversi setiap

Page 26: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

13

string menjadi bilangan. Misalnya algoritma Rabin-Karp,

algoritma Winnowing, dan algoritma Manber.

3. Kesamaan Kata Kunci.

Prinsip dari metode ini adalah dengan mengekstrak kata kunci dari

dokumen dan kemudian membandingkan dengan kata kunci pada

dokumen yang lain. Pendekatan yang digunakan pada metode ini

adalah teknik dot.

2.5. Algoritma Winnowing

Winnowing merupakan algoritma yang digunakan untuk melakukan

proses document fingerprinting (Schleimer, 2003). Proses ini ditujukan agar

dapat mengidentifikasi penjiplakan, termasuk bagian-bagian kecil yang mirip

dalam dokumen yang berjumlah banyak. Untuk memperoleh document

fingerprinting, dilakukan teknik hashing pada setiap K-Gram yang terbentuk.

Untuk meg-hash dokumen dengan panjang K-Gram, panjang substring K

dimana K merupakan nilai yang dipilih oleh pengguna. Dokumen akan dibagi

ke dalam K-Gram yang kemudian K-Gram tersebut akan di hash menggunakan

fungsi Rolling Hash. Untuk memilih fingerprint dari hasil hash, dilakukan

pembagian dengan menggunakan window W, dan dipilih nilai yang paling

kecil.

Definisi Winnowing (Schleimer, 2003):

Dari setiap window dipilih nilai hash yang paling minimum atau paling

kecil. Jika terdapat nilai minimum lebih dari satu nilai, maka pilih dari

Page 27: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

14

window sebelah kanan. Kemudian simpan semua hasil hash yang telah

dipilih yang merupakan fingerprint dokumen.

Window pada algoritma Winnowing merupakan rangkaian nilai hash

yang dikelompokkan berdasar panjang tertentu. Dalam deteksi penjiplakan

menggunakan metode fingerprint, Window hanya terdapat pada algoritma

Winnowing. Pengelompokkan nilai hash pada suatu window dimaksudkan

untuk memilih titik-titik tertentu tanpa harus membandingkan titik-titik nilai

hash yang sama secara menyeluruh seperti pada algoritma Rabin-Karp.

Salah satu prasyarat dari algoritma deteksi penjiplakan adalah

whitespace insensitivity, noise surpression, dan position independence.

Whitespace insensitivity maksudnya winnowing telah memenuhi prasyarat

tersebut dengan cara membuang seluruh karakter-karakter yang tidak relevan

misal: tanda baca, spasi dan juga karakter lain, sehingga nantinya hanya

karakter-karakter yang berupa huruf atau angka yang akan diproses lebih

lanjut. Noise surpression yang berarti menghindari penemuan kecocokan

dengan panjang kata yang terlalu kecil. Sementara position independence

adalah penemuan kecocokan antar dokumen harus tidak bergantung pada

posisi kata-kata.

2.6. K-Grams

K-Grams adalah rangkaian terms dengan panjang K. kebanyakan yang

digunakan sebagai terms adalah kata. K-Grams merupakan sebuah metode

yang diaplikasikan untuk pembangkitan kata atau karakter. Metode ini

Page 28: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

15

digunakan untuk mengambil potongan-potongan karakter huruf sejumlah K

dari sebuah kata yang secara kontinuitas dibaca dari teks sumber hingga akhir

dari dokumen. Berikut ini adalah contoh K-Grams dengan K = 5 :

Kalimat : Ibu mencuci baju

Rangkaian grams : {ibu m} {bu me} {u men} { menc} {mencu} {encuc}

{ncuci} {cuci } {uci b} {ci ba} {I baj} { baju}

2.7. Hash

Hash adalah transformasi aritmatik sebuah string dari karakter menjadi

nilai yang merepresentasikan string aslinya. Menurut bahasanya, hash berarti

memenggal dan kemudian menggabungkan. Suatu metode yang

memanfaatkan fungsi hash disebut hashing atau hash addressing. Tujuan

utama dalam penentuan fungsi hash adalah agar dua buah kunci yang berbeda

tidak mempunyai nilai yang sama. Jika hal ini terjadi, akan menyebabkan

terjadinya tabrakan (hash collision / hash clash).

2.7.1. Rolling Hash

Rolling Hash merupakan fungsi hash yang digunakan untuk

menghasilkan nilai hash dari rangkaian gram. Rolling Hash pada

umumnya diterapkan dalam algoritma Rabin-Karp, namun dapat juga

diimplementasikan dalam algoritma Winnowing. Semakin besar nilai

K-Gram, maka nilai hash yang terbentuk akan semakin besar. Hal ini

menyebabkan perhitungan nilai hash akan semakin lama. Maka

digunakan fungsi Rolling Hash yang memungkinkan perhitungan

Page 29: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

16

menjadi lebih cepat (Schleimer, 2003). Fungsi hash dapat

didefinisikan sebagai berikut :

𝐻(𝑐1…𝑐𝑘) = 𝑐1 ∗ 𝑏(𝑘−1) + 𝑐2 ∗ 𝑏(𝑘−2) + ⋯ + 𝑐(𝑘−1) ∗ 𝑏𝑘 + 𝑐𝑘

Keterangan:

c = nilai ascii karakter

b = basis (bilangan prima)

k = banyak karakter (panjang gram)

2.8. Jaccard’s Coefficient

Jaccard’s Coefficient adalah salah satu metode yang dipakai untuk

menghitung similarity antara dua objek. Jaccard similarity atau Jaccard

Coefficient (Tan, 2005) menghitung similarity antara dua objek, X dan Y yang

dinyatakan dalam dua buah vektor, sebagai berikut :

𝑋 = (𝑥1, 𝑥2, 𝑥3, … 𝑥𝑝) 𝑌 = (𝑦1, 𝑦2, 𝑦3, … 𝑦𝑝)

𝐽(𝑋, 𝑌) = (𝑋 ∩ 𝑌)

(𝑋 ∪ 𝑌)

Contoh :

𝑋 = (2,3,5) 𝑌 = (3,4,6)

𝑋 ∩ 𝑌 = {3}

𝑋 ∪ 𝑌 = {2,3,4,5,6}

𝐽(𝑋, 𝑌) = 1

5

𝐽(𝑋, 𝑌) = 0.2

Page 30: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

17

2.9. PHP

PHP adalah singkatan dari Hypertext Preprosesor, merupakan sebuah

scripting language yang digunakan untuk menghasilkan halaman web. PHP

bermula dari sebuah scripting yang dikembangkan oleh Rasmus Lerdorf pada

tahun 1995, kemudian dari bahasa tersebut dikembangkan menjadi PHP (PHP

3.0) oleh Andi Gutmans dan Zeev Suraski pada tahun 1997. Bentuk ini

merupakan bentuk yang mirip seperti digunakan sekarang ini. Kemudian pada

tahun 1998, Mereka berdua mulai mengembang core dari mesin PHP yang

dikenal dengan nama Zend Engine. Setahun kemudian versi 4.0 dari PHP

menggunakan mesin ini sebagai intinya. Kemudian setelah pengembangan

yang cukup lama, pada akhirnya diperkenalkanlah PHP 5.0 dengan Zend

Engine II. Mesin ini mempunyai fitur tambahan seperti pemrograman

berorientasi objek dan banyak fungsi serta fitur lainnya (Kandaga dan Sarean,

2010: 98).

PHP memiliki banyak kelebihan yang tidak dimiliki oleh bahasa script

sejenis. PHP difokuskan pada pembuatan script server-side, yang bias

melakukan apa saja yang dapat dilakukan oleh CGI, seperti mengumpulkan

data dari form, menghasilkan isi halaman web dinamis, dan kemampuan

mengirim serta menerima cookies, bahkan lebih dari pada kemampuan CGI.

PHP dapat digunakan pada semua sistem operasi, antara lain Linux,

Unix (termasuk variannya HP-UX, Solaris, dan Open BSD), Microsoft

Windows, Mac OS, RISC OS. PHP juga mendukung banyak Web Server,

seperti Apache, Microsoft Internet Information Server (MIIS), Personal Web

Page 31: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

18

Server (PWS), Netcape and iPlanet servers, Oreilly Website Pro Server,

audium, Xitami, OmniHTTPd, dan masih banyak lagi lainnya, bahkan PHP

dapat bekerja sebagai suatu CGI Processor.

PHP tidak terbatas pada hasil keluaran HTML (Hyper Text Markup

Language). PHP juga memiliki kemampuan untuk mengolah keluaran gambar,

file PDF, dan movie flash. PHP juga dapat menghasilkan text seperti XHTML

dan file XML lainnya.

Salah satu fitur yang dapat diandalkan oleh PHP yakni dukungannya

terhadap banyak database seperti Adabas D, dBase, Direct MS-SQL, Empress,

FrontBase, Hyperwave, IBM DB2, Informix, Ingres, Interbase, MSQL,

MySQL, ODBC, Oracle, Ovrimos, PostgrSQL, Solid, Sybase, Unix DBM dan

Velocis. Umumnya database MySQL digunakan untuk bekerja sama dengan

PHP.

2.10. Diagram Alur (Flowchart)

Flowchart program adalah bagan yang menggambarkan urutan logika

dari suatu prosedur pemecahan masalah (Utami & Raharjo, 2004). Alat yang

banyak dipakai untuk membuat algorima adalah diagram alur. Diagram alur

dapat menunjukkan secara jelas arus pengendalian algoritma, yakni bagaimana

rangkaian pelaksanaan kegiatan. Suatu diagram alur memberikan gambaran

dua dimensi berupa simbol-simbol grafis.

Masing-masing simbol telah ditetapkan terlebih dahulu fungsi dan

artinya. Simbol-simbol tersebut dipakai untuk menunjukkan berbagai kegiatan

Page 32: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

19

operasi dan jalur pengendalian. Simbol-simbol yang akan akan digunakan

adalah American National Standard Inc. (Utami & Raharjo, 2004):

Tabel 2.1. Simbol-Simbol Flowchart (Utami & Raharjo, 2004)

Simbol Kegunaan

Processing symbol

Simbol yang menunjukkan pengolahan

yang dilakukan oleh komputer.

Input-output symbol

Simbol yang menyatakan proses input

dan output tanpa tergantung dengan

jenis peralatannya.

Decision

Simbol untuk kondisi yang akan

menghasilkan beberapa kemungkinan

jawaban atas aksi.

Terminal symbol

Simbol untuk permulaan atau akhir dari

suatu program.

Connector symbol

Simbol untuk keluar atau masuk

prosedur atau proses dalam lembar

yang sama.

Arah proses

Menunjukkan bagan instruksi

selanjutnya.

Page 33: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

20

Preparation symbol

Simbol yang menyatakan nilai awal

pada suatu variabel atau counter.

Predefined process symbol

Proses yang ditulis sebagai

subprogram, yaitu prosedur atau

fungsi.

Off page connector symbol

Penghubung pada halaman yang

berbeda.

2.11. STD (State Transition Diagram)

Menurut Pressman (Pressman, 2001, p. 326), state transition diagram

merupakan suatu modeling tools yang menggambarkan sifat ketergantungan

dari suatu sistem. Notasi yang digunakan pada state transition diagram

adalah state dan perubahan state. State adalah suatu kumpulan dari tingkah

laku yang dapat diobservasi. State transition diagram mewakili suatu tingkah

laku dari suatu sistem dengan menggambarkan state dan kejadian yang

menyebabkan sistem ke state yang lain. Ada beberapa notasi yang digunakan

dalam state transition diagram, yaitu :

a. Keadaan Sistem (State)

Setiap kotak mewakili suatu keadaan dimana system mungkin

berada di dalam state. Disimbolkan dengan segi empat.

Page 34: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

21

Gambar 2.1. Simbol State.

b. Perubahan Sistem

Untuk memungkinkan suatu keadaan dengan keadaan lain,

digunakan jika sistem mewakili transisi dalam perilakunya, maka

hanya jika suatu keadaan berubah menjadi keadaan tertentu.

Gambar 2.2. Simbol Perubahan Sistem.

c. Kondisi dan Aksi

Untuk melengkapi STD, dibutuhkan dua hal tambahan, yaitu

kondisi sebelum keandaan berubah dan aksi dari pemakai untuk

mengubah keadaan. Di bawah ini adalah ilustrasi dari kondisi dan aksi

yang ditampilkan di sebelah anak panah yang menghubungkan dua

keadaan.

Gambar 2.3. Simbol Kondisi dan Aksi.

Page 35: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

22

2.12. Algorithm and Experiments Methodology

Pada penelitian “Analisis Pengaruh K-Gram, Window dan Basis

pada Algoritma Winnowing dalam Aplikasi Deteksi Penjiplakan Dokumen”,

penulis mengunakan algorithm and experiments methodology (Moret &

Shapiro, 2001). Penulis menganggap bahwa metodologi ini sangat cocok

untuk diterapkan pada penelitian ini. Faktor-faktor yang mendukung

penggunaan algorithm and experiments methodology pada penelitian ini

adalah penulis melakukan eksperimen dengan menerapkan dan menguji

algoritma pada suatu permasalahan dan setiap tahapan algorithm and

experiments methodology dapat membantu penulis dalam menyelesaikan

penelitian ini dengan sistematis.

Dalam Algorithm and Experiments Methodology terdapat tujuh

tahapan yang harus dilakukan. tahapan-tahapan tersebut antara lain

empiricism in algorithm design, implementation, modes of empirical

assessment, experimental setup, measure, present and analyze the data, dan

conclusion (Moret & Shapiro, 2001).

2.12.1. Empiricism in Algorithm Design

Penelitian algoritma, hasilnya tidak dinilai terhadap beberapa

standar terbaik, tetapi hanya dilaporkan atau dibandingkan dengan

percobaan lain dari jenis yang sama. Jadi ilmuwan komputer harus

belajar dari ilmu-ilmu alam, di mana eksperimen telah digunakan

selama berabad-abad dan di mana metode ilmiah telah dikembangkan

untuk mengoptimalkan penggunaan eksperimen, tetapi juga harus

Page 36: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

23

tetap menyadari perbedaan mendasar antara ilmu alam dan ilmu

komputer, karena tujuan dari eksperimen dalam pekerjaan algoritmik

berbeda.

2.12.2. Implementation

Ada kebutuhan yang pasti untuk melengkapinya dengan

eksperimen, yang menyiratkan bahwa algoritma harus diterapkan,

tidak hanya dirancang. Algoritma sebenarnya cukup sulit untuk

diterapkan, karena sifat-sifatnya rumit dan juga karena

programmer menggambarkan algoritma-algoritma pada tingkat yang

sangat tinggi. Pada dasarnya, untuk menilai algoritma, algoritma

tersebut harus diterapkan pada suatu kasus yang sesuai.

2.12.3. Modes of Empirical Assessment

Pada tahapan ini, dapat diklasifikasikan mode penilaian

empiris menjadi beberapa kategori:

a. Memeriksa akurasi atau kebenaran dalam suatu kasus.

b. Menilai kualitas algoritma.

c. Membandingkan kinerja aktual algoritma bersaing untuk masalah

penurut dan karakteristik efek teknik algoritma.

d. Investigasi dan menyempurnakan model dan optimasi kriteria apa

yang harus dioptimalkan? dan apa parameter materi?

2.12.4. Experimental Setup

Dalam hal eksperimen dengan algoritma, karakteristik ini

menimbulkan prosedural berikut aturan, tetapi pembaca harus ingat

Page 37: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

24

bahwa sebagian besar peneliti akan mencampur dua kegiatan selama

beberapa waktu sebelum menjalankan "final" set percobaan mereka:

a. Mulailah bekerja dengan tujuan yang jelas (design

experimental).

b. Setelah desain eksperimental selesai, lakukanlah pengumpulan

data (Gather Data).

c. Menganalisis data untuk menjawab tujuan (Analyze The Data To

Answer Only The Original Objectives).

2.12.5. Measure

Salah satu elemen kunci dari suatu eksperimen adalah

pengukuran. Apa yang kita ukur, bagaimana kita mengukurnya, dan

bagaimana kita memastikan bahwa pengukuran bersifat objektif?

2.12.6. Present and Analyze the Data

Persyaratan utama dalam penyajian data adalah untuk

memastikan reproduktifitas oleh peneliti lain.

2.12.7. Conclusion

Implementasi dan eksperimen harus menjadi "gold standar"

dalam desain algoritma, untuk menarik beberapa alasan:

a. Percobaan dapat menyebabkan pembentukan perpustakaan yang

diuji dengan baik dan didokumentasikan.

b. Eksperimen dapat menjembatani kesenjangan antara praktisi

dan ahli teori.

Page 38: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

25

c. Percobaan dapat membantu ahli teori mengembangkan

pemahaman yang lebih dalam algoritma yang ada dan dengan

demikian menyebabkan dugaan baru dan algoritma baru.

d. Percobaan dapat menunjukkan area dimana penelitian tambahan

paling dibutuhkan.

Eksperimen dalam desain algoritma membutuhkan

beberapa pengembangan metodologis. Sejumlah penulis telah

menunjukkan pengalaman yang tampak sebagai hal yang baik untuk

diikuti, keunggulan dari eksperimen yang baik meliputi:

a. Tujuan jelas didefinisikan;

b. Pengujian dengan skala yang besar, baik dari segi berbagai

ukuran contoh dan dari segi jumlah kasus yang digunakan pada

ukuran masing-masing;

c. Campuran dari dunia contoh nyata yang dihasilkan;

d. Jelas diartikulasikan parameter, termasuk mendefinisikan

contoh, mengatur pengumpulan data, dan membangun

lingkungan pengujian;

e. Statistik analisis hasil dan upaya mengaitkannya dengan sifat

algoritma dan contoh uji; dan

f. Ketersediaan Publik dan generator contoh misalnya untuk

memungkinkan peneliti lain untuk menjalankan algoritma

mereka pada kasus yang sama dan, sebaiknya, ketersediaan

publik kode untuk algoritma sendiri.

Page 39: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

26

BAB III

METODE PENELITIAN

3.1. Metode Pengumpulan Data

Dalam penelitian ini, diperlukan data-data serta informasi dan referensi

sebagai bahan yang dapat mendukung materi uraian dan pembahasan. metode

pengumpulan data yang dilakukan dalam penelitian ini adalah sebagai

berikut:

3.1.1. Studi Pustaka

Studi kepustakaan adalah serangkaian kegiatan yang berkenaan

dengan metode pengumpulan data pustaka, membaca dan mencatat

serta mengolah bahan penelitian (Mestika, 2004). Pada penelitian ini

penulis mempelajari setiap konsep dan teori yang berkaitan dengan

pembahasan penelitian, yaitu data-data yang berasal dari buku, artikel,

serta jurnal yang diperlukan untuk membantu memecahkan masalah

dalam penelitian ini, meliputi Aplikasi, Plagiarisme, Pencocokan

Dokumen, Algortima Winnowing, algorithm and experiments

methodology, dan Bahasa pemrograman PHP.

3.1.2. Penelusuran Data Online

Metode penelusuran data online adalah tata cara melalakukan

penelusuran data melalui media online seperti Internet atau media

jaringan lainnya yang menyediakan fasilitas online sehingga peneliti

Page 40: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

27

dapat memanfaatkan data-informasi online yang berupa data maupun

informasi teori, secepat atau semudah mungkin dan dapat

dipertanggungjawabkan secara akademis (Burhan, 2007). Pada

penelitian ini penulis mempelajari setiap konsep dan teori yang

berkaitan dengan pembahasan penelitian, yaitu data-data yang berasal

dari internet yang diperlukan untuk membantu memecahkan masalah

dalam penelitian ini, meliputi Plagiarisme, Pencocokan Dokumen,

Algortima Winnowing, dan Bahasa pemrograman PHP.

3.1.3. Studi Literatur Sejenis

Studi literatur adalah metode pengumpulan data dengan cara

menganalisa penelitian sejenis untuk mencari kelebihan terhadap

penelitian yang peneliti lakukan dengan sekarang dari penelitian yang

sudah ada (Nazir, 2005). Pada tahap ini penulis mengumpulkan

beberapa penelitian sejenis guna mendapatkan referensi sebagai bahan

acuan penelitian. Untuk lebih jelasnya daftar studi literatur sejenis

dapat dilihat pada bab IV poin 4.2.

3.2. Identifikasi Masalah

Permasalahan biasanya akan muncul apabila terdapat kesenjangan atau

perbedaan: antara apa yang seharusnya dan apa yang ada dalam kenyataan,

antara apa yang diperlukan dan apa yang tersedia, dan hal-hal lain yang

bertentangan antara apa yang diharapkan dan kenyataan. Pada saat ini banyak

sekali kesenjangan mengenai pengetahuan dan teknologi, informasi yang

Page 41: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

28

tersedia kurang mencukupi, teknologi yang ada tidak memenuhi kebutuhan,

dan sebagainya. Untuk itulah penelitian dilakukan, sehingga kesenjangan

tersebut tidak dapat dihilangkan sama sekali, minimal dapat diperkecil.

Pernyataan masalah haruslah mendeskripsikan latar belakang masalah

(faktor-faktor apa yang menyebabkan hal tersebut menjadi masalah) dan

rasionalisasi atau jastifikasi untuk studi. Sesuatu yang legal atau etika yang

bercabang-cabang yang terkait dengan masalah harus didiskusikan dan

dipecahkan.

3.3. Algorithm and Experiments Methodology

Fase selanjutnya adalah eksperimen terhadap implementasi algoritma.

Setelah melakukan pengumpulan data, maka metodologi yang cocok pada

penelitian ini adalah Algorithm and Experiments Methodology. Berikut ini

adalah tahapan-tahapan yang akan dilakukan penulis sesuai dengan Algorithm

and Experiments : The New (and Old) Methodology (Moret & Shapiro, 2001).

3.3.1. Empiricism in Algorithm Design

Melakukan pengumpulan data dan analisa pada algoritma yang

akan diterapkan pada penelitian. Pada tahapan ini, penulis melakukan

pengamatan pada studi pustaka atau referensi mengenai algoritma

Winnowing.

3.3.2. Implementation

Melakukan implementasi algoritma yang sudah dipelajari pada

bahasa pemrograman.

Page 42: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

29

3.3.3. Modes of Empirical Assessment

Pada tahapan ini penulis menentukan goal pada penelitian, yaitu

kesimpulan apa yang akan didapat pada penelitian ini. Penulis akan

membatasi untuk melakukan perhitungan tingkat kesamaan pada hasil

perbandingan dua dokumen.

3.3.4. Experimental Setup

Tahapan dalam eksperimen, yaitu merencanakan eksperimen,

melakukan eksperimen, melakukan observasi dalam eksperimen,

mengumpulkan dan menganalisis data.

3.3.5. Measure

Tahapan ini yaitu pengukuran data. Penulis mencantumkan

rumus yang akan diterapkan.

3.3.6. Present and Analyze the Data

Menyajikan data dan menganalisa data.

3.3.7. Conclusion

Menarik kesimpulan dari eksperimen yang telah dilakukan.

3.4. Peralatan Penelitian

a. Perangkat Keras

Perangkat keras yang digunakan dalam penelitian ini adalah sebuah

komputer dengan spesifikasi sebagai berikut:

Page 43: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

30

1. Intel Dual Core E5500

2. 4 GB DDR3 PC 12800

3. AMD Radeon HD 5670 1GB

4. 120 GB Sata Hardisk

b. Perangkat Lunak

Perangkat lunak yang digunakan pada penelitian ini adalah Mozila

Firefox 26.0 untuk browser, XAMPP 1.8.2, Notepad++ untuk pembuatan

script, Gumby CSS Framework untuk tampilan antarmuka, Microsoft

Excel 2013 untuk mencatat eksperimen, dan Sistem operasi yang penulis

gunakan dalam penelitian ini adalah Windows 7 Ultimate 32 bit.

Page 44: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

31

3.5. Kerangka Berfikir

Mulai

Studi Pustaka

Studi Literatur Sejenis

Identifikasi Masalah

Empiricism in Algorithm Design

Implementation

Modes of Empirical Assessment

Experimental Setup

Measure

How to Present and Analyze the Data

Conclusion

Selesai

Gambar 3.1. Alur Kerangka Berfikir.

Page 45: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

32

BAB IV

PEMBAHASAN DAN HASIL

4.1. Studi Pustaka

Pada tahap ini dilakukan pengumpulan data dan informasi yang

terdapat dalam buku-buku, makalah, browsing di internet maupun hasil

penelitian sebelumnya yang bekaitan dengan penunjang referensi sehingga

dapat dijadikan landasan teori terhadap topik yang akan dibahas dalam

penyusunan skripsi ini.

Berikut ini merupakan beberapa contoh studi pustaka yang

digunakan, ditunjukan pada tabel di bawah ini.

Tabel 4. 1. Daftar studi pustaka.

No. Nama Judul Tahun Jenis

1 Saul Schleimer,

Daniel S.

Wilkerson and

Alex Aiken

Winnowing: Local

Algorithms for Document

Fingerprinting

2003 Jurnal

2 Benno Stein and

Sven Meyer zu

Eissen

Near Similarity Search and

Plagiarism Analysis

2006 Jurnal

3 Wayan Surya

Priantara, Diana

Purwitasari, dan

Umi Laili

Implementasi Deteksi

Penjiplakan dengan

Algoritma Winnowing

pada Dokumen

Terkelompok

2011 Jurnal

Page 46: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

33

4 Eko Nugraha Perancangan Sistem

Deteksi Plagiarisme

Dokumen Teks Dengan

menggunakan Algoritma

Rabin-Karp

2011 Skripsi

5 Damar Aji

Asmara

Penerapan Algoritma

Paice/Husk Untuk

Stemming Pada Kamus

Bahasa Inggris ke Bahasa

Indonesia

2013 Skripsi

6 Bernard M.E.

Moret, and

Henry D.

Shapiro

Algorithms and

Experiments:

The New (and Old)

Methodology

2001 Jurnal

7 Rosa Ariani

Sukamto

Algoritma dan

Pemrograman I

2010 Diktat

8 Rinaldi Munir Algoritma dan

Pemrograman

1998 Buku

9 Achmad Solichin Pemrograman Web dengan

PHP dan MySQL

2009 Ebook

10 Ned Kock and

Robert Davison

Dealing with plagiarism in

the information systems

research community: A

look at factors that drive

plagiarism and ways to

address them

2003 Jurnal

11 Ana Kurniawati

dan I Wayan

Simri Wicaksana

Perbandingan Pendekatan

Deteksi Plagiarism

Dokumen Dalam Bahasa

Inggris

2008 Jurnal

Page 47: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

34

4.2. Studi Literatur Sejenis

Penelitian I

Judul : Perancangan Sistem Deteksi Plagiarisme Dokumen

Teks Dengan menggunakan Algoritma Rabin-

Karp.

Penulis : Eko Nugraha

Tahun : 2011

Perguruan Tinggi : Universitas Brawijaya

Deskripsi : Pada penelitian ini digunakan algoritma yang

berbeda, yaitu algoritma Rabin-Karp. Namun

algoritma ini menggunakan metode yang sama

yaitu dokumen fingerprint. Penulis mengambil

penelitian ini sebagai acuan dalam menentukan

langkah-langkah dalam metode fingerprint karena

diterangkan secara jelas.

Peneitian II

Judul : Implementasi Deteksi penjiplakan Dengan

Algoritma Winnowing Pada Dokumen

Terkelompok.

Penulis : Wayan Surya Priantara, Diana Purwitasari, dan

Umi Laili Yuhana.

Page 48: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

35

Tahun : 2011

Perguruan Tinggi : Institut Teknonogi Sepuluh Nopember.

Deskripsi : Penelitian ini lebih menekankan pada

pengelompokkan dokumen berdasarkan topik lalu

mendeteksi penjiplakan dari masing-masing

kelompok topik yang terbentuk. Pada penelitian ini

tidak menampilkan pengaruh K-Gram, Basis dan

Window terhadap hasil deteksi. Oleh sebab itu

penulis mencoba melakukan penelitian untuk

mengetahui pengaruh K-Gram, Basis dan Window

terhadap hasil deteksi kesamaan dua buah

dokumen.

Penelitian III

Judul : Penerapan Algoritma Paice/Husk Untuk Stemming

Pada Kamus Bahasa Inggris ke Bahasa Indonesia.

Penulis : Damar Aji Asmara.

Tahun : 2013

Perguruan Tinggi : Universitas Islam Negeri Syarif Hidayatullah.

Deskripsi : Pada penelitian ini penulis menggunakan metode

yang sama yaitu Algorithm and Experiments

Methodology. Penulis menganggap metode ini

Page 49: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

36

paling sesuai karena setiap langkah untuk

pengujian algoritma terdeskripsikan dengan baik.

4.3. Identifikasi Masalah

Pada algoritma Winnowing terdapat tiga variabel bebas yaitu K-Gram,

Basis dan Window. Pada penelitian sebelumnya belum diteliti pengaruh dari

tiga variabel tersebut tersebut terhadap hasil deteksi. Oleh karena itu penulis

melakukan pengujian algoritma Winnowing untuk mengetahui pengaruh K-

Gram, Basis dan Window terhadap hasil deteksi kesamaan dua buah buah

dokumen.

4.4. Empiricism in Algorithm Design

Algoritma Winnowing merupakan algoritma yang digunakan untuk

melakukan pengecekan kesamaan kata untuk mendeteksi penjiplakan.

Algoritma ini menggunakan teknik hashing dan metode fingerprinting untuk

menentukan nilai yang akan digunakan dalam proses deteksi. Berikut adalah

State Transition Diagram aplikasi yang akan dibuat.

Page 50: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

37

Menu Utama

Menampilkan Form Tipe Dokumen File

Pilih Tipe Dokumen File

Menampilkan Hasil Perbandingan

Tekan Tombol Submit

Menampilkan Form Tipe Dokumen Teks

Pilih Tipe Dokumen Teks

Tekan Tombol Submit

Tekan Tombol Baru

Gambar 4. 1. State Transition Diagram.

Berikut adalah flowchart aplikasi untuk menggambarkan alur program

secara umum.

Page 51: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

38

Mulai

Pilih Tipe Dokumen

File

Masukkan Dokumen File

Masukkan Dokumen Teks

Masukkan Basis

Proses Algoritma

Hasil Perbandingan

Berhenti

Teks

Masukkan Window

Masukkan K-Gram

Proses Algoritma

Gambar 4. 2. Flowchart aplikasi.

Flowchart pada gambar 4.2 menggambarkan alur proses dimulai

dengan memilih jenis dokumen. Jenis dokumen maksudnya apakah dokumen

tersebut bertipe file txt, pdf, doc atau docx atau berformat plain text. Setelah

Page 52: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

39

memilih jenis dokumen, dilanjutkan dengan memasukkan nilai Basis yang

berupa bilangan prima, panjang K-Gram dan Panjang Window secara

berturut-turut. Nilai K-Gram, Basis dan Window akan ditentukan berbeda-

beda berdasarkan jenis pengujian pada poin 4.7. Sedangkan flowchart

algoritma Winnowing dapat dilihat pada gambar berikut.

Mulai

Dokumen Teks 1 Dokumen Teks 2 Basis Bilangan Prima Besar K-Gram Panjang Window

Menghilangkan Tanda Baca, Spasi, dan karakter selain angka dan huruf

Membentuk Rangkaian K-Gram

Mengkonversi Rangkaian K-Gram Ke Dalam Bentuk Hash

Membagi Nilai Hash Ke Dalam Window

Menentukan Nilai Fingerprint

Menentukan Tingkat Kesamaan

Berhenti

Gambar 4. 3. Flowchart proses algoritma Winnowing.

Page 53: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

40

Berdasarkan gambar flowchart proses algoritma Winnowing pada

gambar 4.3, dapat dijelaskan tahapan pada algoritma tersebut sebagai berikut.

1. Mulai

2. Masukkan berupa dokumen teks 1 dan dokumen teks 2 sebagai

pembanding, Basis bilangan prima, besar K-Gram, dan Panjang Window.

3. Menghilangkan tanda baca, spasi dan karakter selain huruf dan angka

pada dokumen teks 1 dan dokumen teks 2.

4. Membentuk rangkaian K-Gram pada dokumen teks 1 dan dokumen teks

2 berdasarkan masukkan besar K-Gram.

5. Konversi nilai K-Gram yang terbentuk kedalam bentuk hash

menggunakan teknik Rolling Hash pada K-Gram dokumen teks 1 dan K-

Gram dokumen teks 2. Basis bilangan prima yang digunakan dalam teknik

Rolling Hash adalah sesuai masukkan basis bilangan prima.

6. Membagi nilai hash yang terbentuk kedalam Window berdasarkan

masukkan panjang Window.

7. Menentukan nilai fingerprint dari Window dokumen teks 1 dan dokumen

teks 2 berdasarkan nilai paling kecil di setiap Window.

8. Menentukan tinggat kesamaan Antara dokumen teks 1 dan dokumen teks

2 dengan menggunakan Jaccard’s Coefficient.

9. Selesai

Page 54: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

41

4.5. Implementation

Dalam pengkodean, penulis memisahkan antar proses sesuai langkah-

langkah pada algoritma Winnowing. Terdapat enam langkah yang akan

dijelaskan yaitu penghilangan tanda baca, pembentukan K-Gram, konversi

Hash, pembentukan Window, penentuan fingerprint, dan penentuan tingkat

kesamaan.

1. Penghilangan Tanda Baca

Pada bagian ini setiap spasi, tanda baca dan karakter khusus akan

dihilangkan sehingga teks yang didapat hanya berupa huruf dan angka

saja.

Gambar 4. 4. Kode proses penghilangan tanda baca.

Fungsi utama yang dijalankan adalah hilangTB, untuk mengeksekusi

fungsi ini diperlukan parameter text yang berupa sebuah dokumen teks.

Pada baris 21 terdapat variabel rule yang berisi aturan karakter yang akan

dihilangkan. Selanjutnya pada baris 22 merupakan variabel data yang

Page 55: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

42

berfungsi melakukan penghilangan karakter yang sesuai dengan aturan

pada variabel rule. Dalam variabel data juga terdapat fungsi untuk

menghilangkan karakter-karakter khusus yaitu remove_accent. Fungsi

remove_accent pada baris 1 memerlukan variabel str yang merupakan

dokumen teks. Variabel a pada baris 2 merupakan daftar karakter khusus.

Pada baris 15, variabel b berfungsi menghilangkan setiap karakter khusus

jika pada str terdapat karakter yang sesuai dengan daftar pada variabel a.

baris 17 berfungsi mengeluarkan hasil dari variabel b. langkah selanjutnya

adalah variabel hasil berfungsi merubah semua karakter menjadi huruf

kecil seperti yang terdapat pada baris 23. Baris 25 berfungsi mengeluarkan

variabel hasil.

Berikut adalah contoh hasil penggunaan fungsi hilangTB.

Tabel 4. 2. Contoh penghilangan tanda baca.

Sebelum Sesudah

Pada suatu hari, Ibu memasak 2

butir telur untuk aku dan adik.

padasuatuhariibumemasak2butirtelur

untukakudanadik

2. Pembentukan K-Gram

Pada bagian ini setiap dokumen teks akan dibentuk rangkaian

menjadi gram. Berikut adalah kode pemrogramannya.

Page 56: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

43

Gambar 4. 5. Kode proses pembentukan K-Gram.

Fungsi kgram membutuhkan dua parameter yaitu text yang berupa

dokumen teks yang telah dihilangkan tanda baca dan spasi, serta gram

yang berisi panjang rangkaian K-Gram. Variabel panjang pada baris 2

melakukan pengecekan panjang karakter dari variabel teks. Pada baris 3,

variabel batasUlang berfungsi melakukan perhitungan untuk mencari

jumlah rangkaian K-Gram yang akan terbentuk. Fungsi for berfungsi

melakukan pembentukan rangkaian K-Gram, perulangannya dimulai dari

karakter pertama hingga mencapai panjang yang sudah ditetapkan lalu

untuk rangkaian selanjutnya dimulai dari karakter kedua dan seterusnya.

Rangkaian K-Gram yang terbentuk disimpan dalam array variabel data

pada baris 6.

Berikut adalah contoh pembentukan rangkaian K-Gram dengan

panjang 5.

Page 57: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

44

Tabel 4. 3. Contoh pembentukan rangkaian K-Gram.

Sebelum Sesudah

padasuatuhariibumemasak2butirtel

uruntukakudanadik

padas adasu dasua asuat suatu

uatuh atuha tuhar uhari harii ariib

riibu iibum ibume bumem umema

memas emasa masak asak2 sak2b

ak2bu k2but 2buti butir utirt tirte

irtel rtelu telur eluru lurun urunt

runtu untuk ntuka tukak ukaku

kakud akuda kudan udana danad

anadi nadik

3. Konversi Hash

Teknik hashing yang digunakan dalam tahap ini adalah Rolling Hash.

Rangkaian K-Gram yang terbentuk lalu dihash.

Gambar 4. 6. Proses hashing.

Page 58: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

45

Untuk menjalankan fungsi rollHash debutuhkan tiga parameter, yaitu

text yang merupakan rangkaian K-Gram, gram yang merupakan panjang

K-Gram, dan basis yang berupa bilangan prima. Variabel panjang2

berfungsi untuk menghitung jumlah rangkaian K-Gram. Fungsi for pada

baris 4 berfungsi melakukan perulangan sesuai jumlah rangkaian K-Gram.

Sedangkan fungsi for pada baris 5 melakukan perulangan untuk setiap K-

Gram. Variabel satu pada baris 6 berfungsi mengubah karakter kedalam

nilai ASCII. Variabel pangkatnya berfungsi untuk menentukan besar

pangkat. Sementara variabel pangkat berfungsi untuk mengalikan basis

sesuai dengan pangkatnya. Hasil perkalian dari vaiabel hasil disimpan

kedalam array. Fungsi variabel modulo pada baris 13 adalah untuk

menjumlahkan total dari variabel hasil. Lalu pada baris 14, hasil hashing

disimpan dalam array beserta posisinya.

Berikut adalah contoh konversi hash dengan nilai K-Gram 5 dan

Basis 3.

Tabel 4. 4. Contoh proses hashing.

Sebelum Sesudah

padas adasu dasua asuat suatu

uatuh atuha tuhar uhari harii ariib

riibu iibum ibume bumem umema

memas emasa masak asak2 sak2b

ak2bu k2but 2buti butir utirt tirte

irtel rtelu telur eluru lurun urunt

12997 11892 12202 12422 13812

13595 12451 13896 13605 12489

12293 13425 12682 12632 12490

13753 12943 12439 12881 12206

13145 11607 11366 8202 12570

14012 13706 13038 13716 13560

Page 59: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

46

runtu untuk ntuka tukak ukaku

kakud akuda kudan udana danad

anadi nadik

12609 13394 14054 13848 13949

13513 13916 13677 12700 12196

13127 13477 12100 12105 12851

4. Pembentukan Window

Setelah rangkaian nilai hash telah didapat, maka langkah selanjutnya

adalah membagi nilai-nilai tersebut kedalam window, panjang window

merupakan input yang dilakukan pengguna.

Gambar 4. 7. Proses pembentukan window.

Parameter yang dibutuhkan adalah text yang berupa array yang berisi

nilai hash dan panjang yang merupakan panjang dari window. Variabel

jendela pada baris 6 berfungsi untuk menyimpan window yang terbentuk.

Window berisi rangkaian nilai hash dan posisi atau urutan nilai hash.

Berikut contoh pembentukan Window dengan panjang 4.

Page 60: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

47

Tabel 4. 5. Contoh pembentukan window.

Sebelum Sesudah

12997 11892 12202 12422

13812 13595 12451 13896

13605 12489 12293 13425

12682 12632 12490 13753

12943 12439 12881 12206

13145 11607 11366 8202 12570

14012 13706 13038 13716

13560 12609 13394 14054

13848 13949 13513 13916

13677 12700 12196 13127

13477 12100 12105 12851

{ [12997] [11892] [12202] [12422] }

{ [11892] [12202] [12422] [13812] }

{ [12202] [12422] [13812] [13595] }

{ [12422] [13812] [13595] [12451] }

{ [13812] [13595] [12451] [13896] }

{ [13595] [12451] [13896] [13605] }

{ [12451] [13896] [13605] [12489] }

{ [13896] [13605] [12489] [12293] }

{ [13605] [12489] [12293] [13425] }

{ [12489] [12293] [13425] [12682] }

{ [12293] [13425] [12682] [12632] }

{ [13425] [12682] [12632] [12490] }

{ [12682] [12632] [12490] [13753] }

{ [12632] [12490] [13753] [12943] }

{ [12490] [13753] [12943] [12439] }

{ [13753] [12943] [12439] [12881] }

{ [12943] [12439] [12881] [12206] }

{ [12439] [12881] [12206] [13145] }

{ [12881] [12206] [13145] [11607] }

{ [12206] [13145] [11607] [11366] }

{ [13145] [11607] [11366] [8202] }

Page 61: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

48

{ [11607] [11366] [8202] [12570] }

{ [11366] [8202] [12570] [14012] }

{ [8202] [12570] [14012] [13706] }

{ [12570] [14012] [13706] [13038] }

{ [14012] [13706] [13038] [13716] }

{ [13706] [13038] [13716] [13560] }

{ [13038] [13716] [13560] [12609] }

{ [13716] [13560] [12609] [13394] }

{ [13560] [12609] [13394] [14054] }

{ [12609] [13394] [14054] [13848] }

{ [13394] [14054] [13848] [13949] }

{ [14054] [13848] [13949] [13513] }

{ [13848] [13949] [13513] [13916] }

{ [13949] [13513] [13916] [13677] }

{ [13513] [13916] [13677] [12700] }

{ [13916] [13677] [12700] [12196] }

{ [13677] [12700] [12196] [13127] }

{ [12700] [12196] [13127] [13477] }

{ [12196] [13127] [13477] [12100] }

{ [13127] [13477] [12100] [12105] }

{ [13477] [12100] [12105] [12851] }

Page 62: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

49

5. Penentuan Fingerprint

Dalam menentukan fingerprint, diambil nilai hash paling kecil dari

setiap window. Dan jika nilai hash telah dijadikan fingerprint maka tidak

bisa dijadikan fingerprint lagi.

Gambar 4. 8. Proses penentuan fingerprint.

Parameter yang dibutuhkan adalah text yang berupa array yang berisi

rangkaian window. Fungsi for pada baris 3 berfungsi memecah nilai hash

dan posisinya. Sedangkan fungsi for pada baris 9 berfungsi memilah nilai

hash terkecil dari window. Pada baris 18, nilai hash pertama akan

langsung dimasukkan kedalam array (baris 19). Sedangkan jika terdapat

nilai hash yang sama pada suatu window maka akan diambil nilai hash

yang paling kanan.

Berikut contoh penentuan fingerprint.

Page 63: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

50

Tabel 4. 6. Contoh penentuan fingerprint.

Window Fingerprint

{ [12997] [11892] [12202] [12422] }

{ [11892] [12202] [12422] [13812] }

{ [12202] [12422] [13812] [13595] }

{ [12422] [13812] [13595] [12451] }

{ [13812] [13595] [12451] [13896] }

{ [13595] [12451] [13896] [13605] }

{ [12451] [13896] [13605] [12489] }

{ [13896] [13605] [12489] [12293] }

{ [13605] [12489] [12293] [13425] }

{ [12489] [12293] [13425] [12682] }

{ [12293] [13425] [12682] [12632] }

{ [13425] [12682] [12632] [12490] }

{ [12682] [12632] [12490] [13753] }

{ [12632] [12490] [13753] [12943] }

{ [12490] [13753] [12943] [12439] }

{ [13753] [12943] [12439] [12881] }

{ [12943] [12439] [12881] [12206] }

{ [12439] [12881] [12206] [13145] }

{ [12881] [12206] [13145] [11607] }

{ [12206] [13145] [11607] [11366] }

{ [13145] [11607] [11366] [8202] }

[11892,1] [12202,2] [12422,3]

[12451,6] [12293,10]

[12490,14] [12439,17]

[12206,19] [11607,21]

[11366,22] [8202,23]

[12570,24] [13038,27]

[12609,30] [13394,31]

[13513,35] [12700,38]

[12196,39] [12100,42]

Page 64: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

51

{ [11607] [11366] [8202] [12570] }

{ [11366] [8202] [12570] [14012] }

{ [8202] [12570] [14012] [13706] }

{ [12570] [14012] [13706] [13038] }

{ [14012] [13706] [13038] [13716] }

{ [13706] [13038] [13716] [13560] }

{ [13038] [13716] [13560] [12609] }

{ [13716] [13560] [12609] [13394] }

{ [13560] [12609] [13394] [14054] }

{ [12609] [13394] [14054] [13848] }

{ [13394] [14054] [13848] [13949] }

{ [14054] [13848] [13949] [13513] }

{ [13848] [13949] [13513] [13916] }

{ [13949] [13513] [13916] [13677] }

{ [13513] [13916] [13677] [12700] }

{ [13916] [13677] [12700] [12196] }

{ [13677] [12700] [12196] [13127] }

{ [12700] [12196] [13127] [13477] }

{ [12196] [13127] [13477] [12100] }

{ [13127] [13477] [12100] [12105] }

{ [13477] [12100] [12105] [12851] }

Page 65: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

52

6. Penentuan tingkat kesamaan

Untuk menentukan tingkat kesamaan diperlukan array yang

mengandung data fingerprint dari kedua dokumen teks yang dibandingkan.

Sesuai dengan Jaccard’s Coeffisient, hal pertama yang dilakukan adalah

mencari nilai (𝑋 ∩ 𝑌) atau jumlah nilai hash yang sama antar dua data

fingerprint dari dokumen teks yang dibandingkan.

Gambar 4. 9. Proses pencarian nilai hash yang sama.

Untuk menjalankan fungsi nilaiSama dibutuhkan dua parameter yaitu

variabel x dan variabel y yang berisi rangkaian fingerprint. Nilai posisi yang

terkandung dalam rangkaian fingerprint akan dihapus sehingga hanya nilai

hash yang akan digunakan sebagai bahan perbandingan. Jika terdapat dua

nilai hash atau lebih yang sama, maka hanya satu nilai hash yang

Page 66: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

53

dimasukkan. Dua rangkaian fingerprint lalu dibandingkan untuk mencari

nilai hash yang sama antar keduanya seperti pada baris 18.

Langkah selanjutnya adalah mencari jumlah (𝑋 ∪ 𝑌) atau jumlah nilai

hash yang berbeda antar dua rangkaian fingerprint. Hal yang perlu

dilakukan adalah mencari jumlah rangkaian fingerprint dari masing-masing

dokumen teks.

Gambar 4. 10. Proses menghitung jumlah fingerprint.

Pada baris 4, nilai posisi yang terkandung dalam rangkaian fingerprint

akan dihapus. Jika terdapat dua nilai hash atau lebih yang sama, maka hanya

satu nilai hash yang dihitung.

Setelah masing-masing jumlah fingerprint diketahui, dilakukan

perhitungan (𝐴 + 𝐵) − 𝐶. Jika A dan B adalah jumlah fingerprint, maka C

adalah jumlah fingerprint yang sama.

Gambar 4. 11. Proses menghitung jumlah himpunan fingerprint.

Page 67: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

54

Langkah terakhir adalah melakukan perhitungan Jaccard’s Coeffisient.

Jumlah nilai hash yang sama akan dibagi dengan jumlah himpunan, lalu

dikali 100 untuk mendapat persentase kasamaan antar dokumen teks.

Gambar 4. 12. Proses perhitungan Jaccard’s Coefficient.

Berikut adalah contoh penentuan tingkat kesamaan menggunakan

Jaccard’s Coeffisient.

Tabel 4. 7. Contoh penentuan tingkat kesamaan.

Fingerprint dokumen teks 1 [12239,1] [13213,4] [12393,6]

[12127,9] [12158,13] [12281,14]

[12501,17] [13071,18] [13104,21]

[12656,23] [12827,26] [12573,28]

[12077,29]

Fingerprint dokumen teks 2 [12239,1] [13210,4] [12420,6]

[12828,10] [13072,11] [12656,15]

[12827,18] [12573,20] [12077,21]

(𝑋 ∩ 𝑌) [12239] [12656] [12827] [12573]

[ 12077] = 5

(𝑋 ∪ 𝑌) [12239] [13213] [12393] [12127]

[12158] [12281] [12501] [13071]

Page 68: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

55

[13104] [12656] [12827] [12573]

[12077] [13210] [12420] [12828]

[13072] = 17

(𝑋 ∩ 𝑌)

(𝑋 ∪ 𝑌) 𝑥 100

5

17𝑥100 = 29.41 %

4.6. Modes of Empirical Assessment

Selanjutnya penulis menentukan penilaian apa yang akan diperoleh

pada penelitian ini. Penulis menentukan bahwa pengukuran akan fokus pada

tingkat persamaan dari dua buah dokumen teks dan kesimpulannya akan

menghasilkan pengaruh panjang K-Gram, Basis dan Window pada hasil

deteksi.

4.7. Experimental Setup

Untuk perencanaan eksperimental, penulis menetapkan sebagai

berikut.

4.7.1. Desain Eksperimental

1. Masukan berupa dua buah dokumen bertipe txt, pdf, doc, atau docx,

nilai basis (bilangan prima), panjang K-Gram dan panjang

Window.

2. Dokumen yang akan diuji adalah satu dokumen uji dengan empat

dokumen latih.

Page 69: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

56

3. Eksperimen dibagi menjadi tiga bagian, mencari pengaruh K-

Gram, mencari pengaruh Basis dan mencari pengaruh Window.

4. Setelah dilakukan eksperimen, penulis mencatat hasil yang

diperoleh lalu mengambil kesimpulan dari data tersebut.

4.7.2. Pengumpulan Data & Menganalisis Data

Pengumpulan data dilakukan dengan cara membentuk satu buah

dokumen uji, lalu dibentuk enam dokumen latih. Isi dari dokumen uji

dan latih diperoleh dari artikel pada portal berita uin yang berjudul

“Hati-hati dengan Jurnal Ilmiah Predator” yang diterbitkan pada

tanggal 6 November 2013. Daftar dokumen uji dan latih dapat dilihat

pada tebel berikut.

Tabel 4. 8. Daftar dokumen uji dan latih.

Dok. Uji Dok. Lat

1

Dok. Lat.

2

Dok. Lat.

3

Dok. Lat.

4

Dok.

Lat. 5

Dok.

Lat. 6

Terdiri

dari 4

paragraf.

Terdiri

dari 1

paragraf

yang

sama

dengan

Dok. Uji

Terdiri

dari 2

paragraf

yang

sama

dengan

Dok. Uji

Terdiri

dari 3

paragraf

yang

sama

dengan

Dok. Uji

Terdiri

dari 4

paragraf

yang

sama

dengan

Dok. Uji

Terdiri

dari 4

paragraf

yang

sama

dengan

Terdiri

dari 4

paragraf

yang

berbeda

Page 70: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

57

dan 3

paragraf

berbeda.

dan 2

paragraf

berbeda.

dan 1

paragraf

berbeda.

namun

urutan

paragraf

diacak.

Dok.

Uji

Isi dokumen Uji dan dokumen latih dapat dilihat dalam lampiran

1, 2, 3, 4 dan 5.

4.7.2.1. Pengujian K-Gram

Pengujian ini dilakukan untuk mengetahui pengaruh

panjang K-Gram terhadap hasil deteksi. Adapun konfigurasi

yang digunakan dalam pengujian ini adalah sebagai berikut.

Panjang Window : 5

Basis : 5

Panjang K-Gram : 3, 4, 5, 6, 7, 8, 9, 10, 11

4.7.2.2. Pengujian Basis

Pengujian ini dilakukan untuk mengetahui pengaruh

besar basis terhadap hasil deteksi. Adapun konfigurasi yang

digunakan dalam pengujian ini adalah sebagai berikut.

Panjang Window : 5

Panjang K-Gram : 5

Page 71: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

58

Basis : 3, 5, 7, 11, 13, 17, 19, 23

4.7.2.3. Pengujian Window

Pengujian ini dilakukan untuk mengetahui pengaruh

besar basis terhadap hasil deteksi. Adapun konfigurasi yang

digunakan dalam pengujian ini adalah sebagai berikut.

Panjang K-Gram : 5

Basis : 5

Panjang Window : 3, 4, 5, 6, 7, 8, 9, 10, 11

4.8. Measure

4.8.1. Pengujian K-Gram

Berdasarkan pengujian yang penulis lakukan, persentase hasil

dapat dilihat pada tabel berikut.

Tabel 4.9. Hasil pengujian K-Gram terhadap persentase hasil deteksi.

3 4 5 6 7 8 9 10 11

Dok.

Lat 1

52.41 35.19 22.4 19.75 18.14 17.02 16.2 15.56 15.21

Dok.

Lat 2

65.82 47.55 38.07 35.59 35.08 33.78 33.33 33.07 33.08

Page 72: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

59

Dok.

Lat 3

81.88 68.38 62.5 61.59 60.91 59.81 59.81 59.75 58.31

Dok.

Lat 4

97.08 96.04 95.76 95.12 94.05 93.46 92.83 92.86 91.21

Dok.

Lat 5

100 100 100 100 100 100 100 100 100

Dok.

Lat 6

44.32 23.79 9.57 6.39 5.14 4.14 3.04 2.41 1.57

Tabel berikut menjelaskan pengaruh panjang K-Gram terhadap

waktu eksekusi.

Tabel 4. 10. Hasil pengujian K-Gram terhadap waktu eksekusi.

3 4 5 6 7 8 9 10 11

Dok.

Lat 1

0.26 0.2768 0.3056 0.3278 0.3555 0.3615 0.3915 0.4259 0.4318

Dok.

Lat 2

0.2458 0.2757 0.2934 0.3067 0.3216 0.3594 0.3757 0.4127 0.4247

Dok.

Lat 3

0.2842 0.3085 0.317 0.3496 0.3563 0.3574 0.3687 0.417 0.4218

Dok.

Lat 4

0.2704 0.2965 0.3194 0.3432 0.3686 0.3769 0.4052 0.4211 0.4545

Page 73: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

60

Dok.

Lat 5

0.24 0.248 0.2829 0.3426 0.3677 0.3882 0.42 0.4419 0.4658

Dok.

Lat 6

0.2853 0.3088 0.3211 0.3579 0.3595 0.3622 0.3764 0.3971 0.4218

4.8.2. Pengujian Basis

Berdasarkan pengujian yang penulis lakukan, persentase hasil

dapat dilihat pada tabel berikut.

Tabel 4.1 1. Hasil pengujian Basis terhadap persentase hasil deteksi.

3 5 7 11 13 17 19 23

Dok.

Lat 1

31.56 22.4 21.25 21.24 20.91 21.39 21.12 21.12

Dok.

Lat 2

44.97 38.07 37.58 37.54 37.24 37.43 37.31 37.31

Dok.

Lat 3

69.85 62.5 62.19 62.5 62.06 61.97 61.97 61.97

Dok.

Lat 4

94.76 95.76 95.65 95.24 95.24 95.28 95.28 95.28

Dok.

Lat 5

100 100 100 100 100 100 100 100

Dok.

Lat 6

21.07 9.57 9.29 8.73 8.43 8.88 8.64 8.64

Page 74: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

61

Tabel berikut menjelaskan pengaruh panjang Basis terhadap

waktu eksekusi.

Tabel 4.1 2. Hasil pengujian Basis terhadap waktu eksekusi.

3 5 7 11 13 17 19 23

Dok.

Lat 1

0.3249 0.3461 0.3565 0.3632 0.3808 0.4121 0.4554 0.4731

Dok.

Lat 2

0.3073 0.3375 0.3598 0.3606 0.363 0.399 0.413 0.429

Dok.

Lat 3

0.3123 0.3592 0.3681 0.379 0.4043 0.4032 0.4474 0.4517

Dok.

Lat 4

0.336 0.3469 0.3633 0.3928 0.4045 0.4231 0.4269 0.4287

Dok.

Lat 5

0.3021 0.3222 0.3381 0.357 0.3642 0.3795 0.3977 0.4299

Dok.

Lat 6

0.3252 0.3478 0.3592 0.3746 0.3927 0.4129 0.4388 0.4576

4.8.3. Pengujian Window

Berdasarkan pengujian yang penulis lakukan, persentase hasil

dapat dilihat pada tabel berikut.

Page 75: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

62

Tabel 4.1 3. Hasil pengujian Window terhadap persentase hasil deteksi.

3 4 5 6 7 8 9 10 11

Dok.

Lat 1

22.67 22.8 22.4 22.9 22.3 21.46 22.27 21.53 20.6

Dok.

Lat 2

37.98 39 38.07 39.21 39.26 39.56 39.9 40.31 38.8

Dok.

Lat 3

62.65 63.24 62.5 61.57 60.75 60.8 61.11 60.24 60.13

Dok.

Lat 4

95.43 95.76 95.76 95 94.29 93.87 93.88 91.97 92.31

Dok.

Lat 5

100 100 100 100 100 100 100 100 100

Dok.

Lat 6

10.91 10.84 9.57 9.66 9.12 8.8 8.63 8.37 7.42

Tabel berikut menjelaskan pengaruh panjang Window terhadap

waktu eksekusi.

Tabel 4.1 4. Hasil pengujian Window terhadap waktu hasil deteksi.

3 4 5 6 7 8 9 10 11

Dok.

Lat 1

0.4621 0.4498 0.4067 0.3954 0.3546 0.354 0.349 0.3224 0.3193

Dok.

Lat 2

0.3781 0.3624 0.3589 0.3453 0.3245 0.3152 0.3097 0.3094 0.2937

Page 76: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

63

Dok.

Lat 3

0.4567 0.4237 0.4091 0.3883 0.3812 0.381 0.3764 0.3656 0.3587

Dok.

Lat 4

0.4649 0.4374 0.4283 0.3921 0.3599 0.3502 0.3448 0.341 0.3112

Dok.

Lat 5

0.4685 0.4438 0.4159 0.3821 0.3659 0.3356 0.3234 0.319 0.2961

Dok.

Lat 6

0.4761 0.4656 0.4393 0.4129 0.3821 0.3644 0.337 0.3127 0.2942

4.9. Present and Analyze the Data

Berdasarkan pengujian pengaruh K-Gram terhadap persentase hasil

deteksi, penulis menggambarkan grafik sebagai berikut.

Gambar 4. 13. Grafik pengaruh K-Gram terhadap hasil deteksi.

0

20

40

60

80

100

3 4 5 6 7 8 9 10 11

Has

il (p

erse

n)

K-Gram

Pengaruh K-Gram terhadap Hasil

Dok. Lat. 1 Dok. Lat. 2 Dok. Lat. 3

Dok. Lat. 4 Dok. Lat. 5 Dok. Lat. 6

Page 77: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

64

Berdasarkan pengujian pengaruh K-Gram terhadap waktu eksekusi

aplikasi, penulis menggambarkan grafik sebagai berikut.

Gambar 4. 14. Grafik pengaruh K-Gram terhadap waktu eksekusi.

Berdasarkan pengujian pengaruh Basis terhadap persentase hasil

deteksi, penulis menggambarkan grafik sebagai berikut.

Gambar 4. 15. Grafik pengaruh Basis terhadap hasil deteksi.

0.2

0.25

0.3

0.35

0.4

0.45

0.5

3 4 5 6 7 8 9 10 11

Wak

tu (

det

ik)

K-Gram

Pengaruh K-Gram terhadap Waktu

Dok. Lat. 1 Dok. Lat. 2 Dok. Lat. 3

Dok. Lat. 4 Dok. Lat. 5 Dok. Lat. 6

0

20

40

60

80

100

3 5 7 11 13 17 19 23

Has

il (p

erse

n)

Basis

Pengaruh Basis terhadap Hasil

Dok. Lat. 1 Dok. Lat. 2 Dok. Lat. 3

Dok. Lat. 4 Dok. Lat. 5 Dok. Lat. 6

Page 78: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

65

Berdasarkan pengujian pengaruh Basis terhadap waktu eksekusi

aplikasi, penulis menggambarkan grafik sebagai berikut.

Gambar 4. 16. Grafik pengaruh Basis terhadap waktu eksekusi.

Berdasarkan pengujian pengaruh Window terhadap persentase hasil

deteksi, penulis menggambarkan grafik sebagai berikut.

Gambar 4. 17. Grafik pengaruh Window terhadap hasil deteksi.

0.3

0.35

0.4

0.45

0.5

3 5 7 11 13 17 19 23

Wak

tu (

det

ik)

Basis

Pengaruh Basis terhadap Waktu

Dok. Lat. 1 Dok. Lat. 2 Dok. Lat. 3

Dok. Lat. 4 Dok. Lat. 5 Dok. Lat. 6

0

20

40

60

80

100

3 4 5 6 7 8 9 10 11

Has

il (p

erse

n)

Window

Pengaruh Window terhadap Hasil

Dok. Lat. 1 Dok. Lat. 2 Dok. Lat. 3

Dok. Lat. 4 Dok. Lat. 5 Dok. Lat. 6

Page 79: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

66

Berdasarkan pengujian pengaruh Basis terhadap waktu eksekusi

aplikasi, penulis menggambarkan grafik sebagai berikut.

Gambar 4. 18. Pengaruh Window terhadap waktu eksekusi.

4.10. Conclusion

Berdasarkan pengujian dan analisa data yang telah penulis lakukan

pada tahapan sebelumnya mengenai eksperimen penerapan algoritma

Winnowing dengan data yang telah disiapkan, dapat diambil kesimpulan

bahwa nilai K-Gram dan Basis berpengaruh pada hasil deteksi kesamaan.

Nilai K-Gram yang besar akan memberikan kecendrungan penurunan

persentase hasil deteksi namun tingkat kesamaan semakin sesuai, hal ini

terbukti dari tabel 4.9. Nilai basis akan mempengaruhi nilai hash yang

terbentuk sehingga akan berdampak pada hasil persentase deteksi yang

didapat. Semakin besar nilai Basis maka nilai hash yang terbentuk juga

0.25

0.3

0.35

0.4

0.45

0.5

3 4 5 6 7 8 9 10 11

Wak

tu (

det

ik)

Window

Pengaruh Window terhadap Waktu

Dok. Lat. 1 Dok. Lat. 2 Dok. Lat. 3

Dok. Lat. 4 Dok. Lat. 5 Dok. Lat. 6

Page 80: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

67

semakin besar. Sedangkan nilai Window cenderung hanya mempengaruhi

lama waktu proses saja. Sampel pengujian K-Gram, Window dan Basis

ternyata tidak mempengaruhi hasil pada perbandingan Dokumen Uji dengan

Dokumen Latih 5 atau pada pengujian dengan tingkat kesamaan 100%.

Untuk konfigurasi K-Gram, Window dan Basis yang disarankan adalah

dengan nilai lebih besar atau sama dengan 5.

Page 81: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

68

BAB V

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Berdasarkan pengujian dan analisa data yang telah penulis lakukan

pada tahapan sebelumnya mengenai eksperimen penerapan algoritma

Winnowing dengan data yang telah disiapkan, dapat diambil kesimpulan

bahwa nilai K-Gram dan Basis berpengaruh pada hasil deteksi kesamaan.

Nilai K-Gram yang besar akan memberikan kecendrungan penurunan

persentase hasil deteksi namun tingkat kesamaan semakin sesuai, hal ini

terbukti dari tabel 4.9. Nilai basis akan mempengaruhi nilai hash yang

terbentuk sehingga akan berdampak pada hasil persentase deteksi yang

didapat. Semakin besar nilai Basis maka nilai hash yang terbentuk juga

semakin besar. Sedangkan nilai Window cenderung hanya mempengaruhi

lama waktu proses saja. Sampel pengujian K-Gram, Window dan Basis

ternyata tidak mempengaruhi hasil pada perbandingan Dokumen Uji dengan

Dokumen Latih 5 atau pada pengujian dengan tingkat kesamaan 100%.

Untuk konfigurasi K-Gram, Window dan Basis yang disarankan adalah

dengan nilai lebih besar atau sama dengan 5.

Page 82: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

69

5.2. Saran

1. Untuk meningkatkan akurasi deteksi penjiplakan sebaiknya aplikasi

memperhatikan kesamaan kata atau sinonim.

2. Sebaiknya Algoritma Winnowing sebaiknya ditambahkan dengan

penggunaan teknik stemming atau proses pemotongan atau penghilangan

imbuhan dari suatu kata untuk meningkat akurasi deteksi.

Page 83: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

70

DAFTAR PUSTAKA

Asmara, Damar Aji. 2013. Penerapan Algoritma Paice/Husk Untuk Stemming

Pada Kamus Bahasa Inggris ke Bahasa Indonesia. (S.Kom Skripsi).

Universitas Islam Negeri Syarif Hidayatullah.

Burhan, Bungin. 2009. Penelitian Kualitatif. Jakarta: Kencana Prenda Media

Group.

Febrian, Jack. 2006. Kamus Komputer dan Teknologi Informasi. Bandung:

Informatika.

Gottschalk, Louis. 1986. Understanding History; A Primer of Historical Method

(terjemahan Nugroho Notosusanto). Jakarta: UI Press.

Iyer, Parvati & Abhipsita Singh. 2005. Document Similiarity Analysis for a

Plagiarism Detection System. 2nd Indian International Conference on

Artificial Intelegence (IICAI-05).

Jogiyanto, Hartono. 2011. Analisis dan Desain Sistem Informasi. Yogyakarta:

Andi.

Kandaga, Tjatur & Rinaldi B. Sarean. 2010. Konsep dan Perancangan Code-

Completion untuk PHP. Jurnal Informatika. Universitas Kristen Maranatha

(ISSN 0216-4280).

Kock, Ned & Robert Davison. Desember 2003. Dealing With Plagiarism In The

Information System Reseacrh Community: A Look At Factors That Drive

Plagiarism And Ways To Address Them. MIS Quarterly. Vol. 27, No. 4.

Page 84: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

Kurniawati, Ana, dan I Wayan Simri Wicaksana. 2008. Perbandingan Pendekatan

Deteksi Plagiarism Dokumen Dalam Bahasa Inggris. Universitas

Gunadarma.

Moleong, Lexy J. 2007. Metodologi Penelitian Kualitatif. Bandung: Remaja

Rosdakarya Offset.

Moret, Bernard M.E, and Henry D. Shapiro. 2001. Algorithm and Experiments: The

New (and Old) Methodology. Journal of Universal Computer Science. Vol.

7. No. 5.

Munir, Rinaldi. 1998. Algoritma dan Pemrograman. Bandung: Informatika.

Nazir, Moh. 2005. Metode Penelitian. Bogor: Penerbit Ghalia Indonesia.

Nugraha, Eko. 2011. Perancangan Sistem Deteksi Plagiarisme Dokumen Teks

Dengan Menggunakan Algoritma Rabin-Karp. (S.Kom Skripsi).

Universitas Brawijaya.

Pressman, Roger S. 2002. Rekayasa Perangkat Lunak Buku I. Yogyakarta: Andi.

Priantara, Wayan Surya, Diana Purwitasari, dan Umi Laili. 2011. Implementasi

Deteksi Penjiplakan dengan Algoritma Winnowing. Institut Teknologi

Sepuluh Nopember.

Schleimer, Saul, D. Wilkerson, & A. Aiken. 2006. Winnowing: Local Algorithms

for Document Fingerprinting. In Proceedings of The ACM SIGMOD

International Conference on Management of Data.

Solichin, Achmad. 2009. Pemrograman Web dengan PHP dan MySQL. Universitas

Budi Luhur.

Page 85: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

Stein, Benno, & S. Meyer zu Eissen. 2006. Near Similarity Search and Plagiarism

Analysis. 29th Annual Conference of the German Classification Society

(GfKI).

Sukamto, Rosa Ariani. 2010. Algoritma dan Pemrograman I. Diktat Kuliah.

Universitas Pendidikan Indonesia.

Sugiyono. 2005. Memahami Penelitian Kualitatif. Bandung: ALFABET.

Tan, P. N., M. Steinbach dan V. Kumar. 2005. Introduction to Data Mining.

Addison Wesley.

Utami, Ema & Suwanto Raharjo. 2004. Logika, Algoritma dan Implementasinya

dalam Bahasa Python di GNU/Linux. Yogyakarta: Andi.

Zed, Mestika. 2004. Metode Penelitian Kepustakaan. Jakarta: Yayasan Obor

Indonesia.

Artikel

Anna, Luisa Kus. 2012. Dugaan Plagiat di PTN Diselidiki. Kompas 6 Juni 2012.

Burhani, Ruslan. 2010. Rektor UII: Plagiarisme Merusak Tatanan Dunia

Pendidikan. AntaraNews. (diakses pada 12 Desember 2013).

Saifudin. 2013. Hati-hati dengan Jurnal Ilmiah Predator. Berita UIN Online.

(diakses pada 12 Desember 2013).

Page 86: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

73

Lampiran 1

Dokumen Uji

Para peniliti diminta hati-hati ketika ingin mempubliksikan karya ilmiahnya ke

jurnal-jurnal ilmiah internasional. Alasannya, tidak semua jurnal internasional itu

merupakan peer reviewed dan terakreditasi. Atau dalam arti lain, banyak pula jurnal

predator.

Demikian Kepala Pusat Penelitian dan Penerbitan (Puslitpen) Lembaga Penelitian

dan Pengabdian kepada Masyarakat (LP2M) UIN Jakarta Suparto, MA, PhD pada

workshop bertajuk "Penulisan Karya Ilmiah Jurnal Nasional dan Internasional di

Wisma Kopertais, Rabu (6/11/2013).

"Hati-hati dengan jurnal predator. Mereka mengundang para penulis untuk

memgunggah artikelnya di jurnal itu, tapi setelah diperksa oleh Tim Penilai Dikti

Kementerian Pendidikan dan Kebudayaan (Kemendikbud) RI, tidak dapat nilai,

karena dipublikasikan di jurnal predator," kata Suparto.

Oleh karena itu, terang Amrullah, sebaiknya peneliti perlu mengevaluasi semua

informasi yang ia peroleh dari internet."Banyak website yang cenderung memuat

hiburan, ketimbang informasi," tegas dia.

Page 87: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

74

Lampiran 2

Dokumen Latih 1

Dijelaskannya, salah satu ciri jurnal predator, antara lain, tidak mendapatkan

pengakuan secara internasional oleh lembaga-lembaga riset maupun oleh institusi-

institusi resmi pemerintah. Oleh karenanya, peneliti harus waspada dan jeli, serta

perlu sering mencari informasi agar tak terjebak pada jurnal predator.

Para peniliti diminta hati-hati ketika ingin mempubliksikan karya ilmiahnya ke

jurnal-jurnal ilmiah internasional. Alasannya, tidak semua jurnal internasional itu

merupakan peer reviewed dan terakreditasi. Atau dalam arti lain, banyak pula jurnal

predator.

Menurutnya, meskpun secara isi dan penyajiannya bagus, tapi jika tulisan tersebut

dimuat di jurnal predator, maka nilainya nol. Tentunya penulis artikel sangat

dirugikan atas maraknya jurnal predator itu.

Ia pun sepakat dengan Suparto, bahwa untuk mendaptkan artikel ilmiah di website,

maka perlu dipastikan bahwa artikel yang dipublikasikan di jurnal ilmiah online itu

benar-benar terdaopar peer review dan terakreditasi.

Page 88: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

75

Lampiran 3

Dokumen Latih 2

Para peniliti diminta hati-hati ketika ingin mempubliksikan karya ilmiahnya ke

jurnal-jurnal ilmiah internasional. Alasannya, tidak semua jurnal internasional itu

merupakan peer reviewed dan terakreditasi. Atau dalam arti lain, banyak pula jurnal

predator.

Demikian Kepala Pusat Penelitian dan Penerbitan (Puslitpen) Lembaga Penelitian

dan Pengabdian kepada Masyarakat (LP2M) UIN Jakarta Suparto, MA, PhD pada

workshop bertajuk "Penulisan Karya Ilmiah Jurnal Nasional dan Internasional di

Wisma Kopertais, Rabu (6/11/2013).

Dijelaskannya, salah satu ciri jurnal predator, antara lain, tidak mendapatkan

pengakuan secara internasional oleh lembaga-lembaga riset maupun oleh institusi-

institusi resmi pemerintah. Oleh karenanya, peneliti harus waspada dan jeli, serta

perlu sering mencari informasi agar tak terjebak pada jurnal predator.

Menurutnya, meskpun secara isi dan penyajiannya bagus, tapi jika tulisan tersebut

dimuat di jurnal predator, maka nilainya nol. Tentunya penulis artikel sangat

dirugikan atas maraknya jurnal predator itu.

Page 89: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

76

Lampiran 4

Dokumen Latih 3

Demikian Kepala Pusat Penelitian dan Penerbitan (Puslitpen) Lembaga Penelitian

dan Pengabdian kepada Masyarakat (LP2M) UIN Jakarta Suparto, MA, PhD pada

workshop bertajuk "Penulisan Karya Ilmiah Jurnal Nasional dan Internasional di

Wisma Kopertais, Rabu (6/11/2013).

"Hati-hati dengan jurnal predator. Mereka mengundang para penulis untuk

memgunggah artikelnya di jurnal itu, tapi setelah diperksa oleh Tim Penilai Dikti

Kementerian Pendidikan dan Kebudayaan (Kemendikbud) RI, tidak dapat nilai,

karena dipublikasikan di jurnal predator," kata Suparto.

Di tempat yang sama, Kepala Perpustakaan Utama Amrullah Hasbana MA

mengatakan, banyak informasi di internet yang hanya berupa informasi belaka.

"Tapi jangan pernah beranggapab bahwa sumber-sumber yang ada di internet itu

reliable," katanya.

Oleh karena itu, terang Amrullah, sebaiknya peneliti perlu mengevaluasi semua

informasi yang ia peroleh dari internet."Banyak website yang cenderung memuat

hiburan, ketimbang informasi," tegas dia.

Page 90: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

77

Lampiran 5

Dokumen Latih 4

"Hati-hati dengan jurnal predator. Mereka mengundang para penulis untuk

memgunggah artikelnya di jurnal itu, tapi setelah diperksa oleh Tim Penilai Dikti

Kementerian Pendidikan dan Kebudayaan (Kemendikbud) RI, tidak dapat nilai,

karena dipublikasikan di jurnal predator," kata Suparto.

Demikian Kepala Pusat Penelitian dan Penerbitan (Puslitpen) Lembaga Penelitian

dan Pengabdian kepada Masyarakat (LP2M) UIN Jakarta Suparto, MA, PhD pada

workshop bertajuk "Penulisan Karya Ilmiah Jurnal Nasional dan Internasional di

Wisma Kopertais, Rabu (6/11/2013).

Oleh karena itu, terang Amrullah, sebaiknya peneliti perlu mengevaluasi semua

informasi yang ia peroleh dari internet."Banyak website yang cenderung memuat

hiburan, ketimbang informasi," tegas dia.

Para peniliti diminta hati-hati ketika ingin mempubliksikan karya ilmiahnya ke

jurnal-jurnal ilmiah internasional. Alasannya, tidak semua jurnal internasional itu

merupakan peer reviewed dan terakreditasi. Atau dalam arti lain, banyak pula jurnal

predator.

Page 91: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

78

Lampiran 6

Dokumen Latih 5

Para peniliti diminta hati-hati ketika ingin mempubliksikan karya ilmiahnya ke

jurnal-jurnal ilmiah internasional. Alasannya, tidak semua jurnal internasional itu

merupakan peer reviewed dan terakreditasi. Atau dalam arti lain, banyak pula jurnal

predator.

Demikian Kepala Pusat Penelitian dan Penerbitan (Puslitpen) Lembaga Penelitian

dan Pengabdian kepada Masyarakat (LP2M) UIN Jakarta Suparto, MA, PhD pada

workshop bertajuk "Penulisan Karya Ilmiah Jurnal Nasional dan Internasional di

Wisma Kopertais, Rabu (6/11/2013).

"Hati-hati dengan jurnal predator. Mereka mengundang para penulis untuk

memgunggah artikelnya di jurnal itu, tapi setelah diperksa oleh Tim Penilai Dikti

Kementerian Pendidikan dan Kebudayaan (Kemendikbud) RI, tidak dapat nilai,

karena dipublikasikan di jurnal predator," kata Suparto.

Oleh karena itu, terang Amrullah, sebaiknya peneliti perlu mengevaluasi semua

informasi yang ia peroleh dari internet."Banyak website yang cenderung memuat

hiburan, ketimbang informasi," tegas dia.

Page 92: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

79

Lampiran 7

Dokumen Latih 6

Menurutnya, meskpun secara isi dan penyajiannya bagus, tapi jika tulisan tersebut

dimuat di jurnal predator, maka nilainya nol. Tentunya penulis artikel sangat

dirugikan atas maraknya jurnal predator itu.

Di tempat yang sama, Kepala Perpustakaan Utama Amrullah Hasbana MA

mengatakan, banyak informasi di internet yang hanya berupa informasi belaka.

"Tapi jangan pernah beranggapab bahwa sumber-sumber yang ada di internet itu

reliable," katanya.

Dijelaskannya, salah satu ciri jurnal predator, antara lain, tidak mendapatkan

pengakuan secara internasional oleh lembaga-lembaga riset maupun oleh institusi-

institusi resmi pemerintah. Oleh karenanya, peneliti harus waspada dan jeli, serta

perlu sering mencari informasi agar tak terjebak pada jurnal predator.

Ia pun sepakat dengan Suparto, bahwa untuk mendaptkan artikel ilmiah di website,

maka perlu dipastikan bahwa artikel yang dipublikasikan di jurnal ilmiah online itu

benar-benar terdaopar peer review dan terakreditasi.

Page 93: SKRIPSI ANALISIS PENGARUH K-GRAM, WINDOW DAN BASIS …

80

Lampiran 8

Screenshot Hasil Pengujian

Catatan:

Screenshot diatas hanya menampilkan konfigurasi K-Gram, Window dan Basis

serta hasil pengujian yang berupa persentase dan waktu. Screenshot tersebut contoh

dari pengujian Window.