pemanfaatan metadata dalam menilai kesamaan … filesatu alat bantu dalam menilai kesamaan secara...
TRANSCRIPT
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
PEMANFAATAN METADATA DALAM MENILAI
KESAMAAN PROPOSAL PENELITIAN HALAMAN JUDUL
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu
JurusanInformatika
Disusun Oleh :
LAHARDI ALKAWERO
M0508107
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
Januari, 2013
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ii
SKRIPSI
PEMANFAATAN METADATA DALAM MENILAI
KESAMAAN PROPOSAL PENELITIAN
HALAMAN PERSETUJUAN
Disusun oleh :
LAHARDI ALKAWERO
M0508107
Skripsi ini telah disetujui untuk dipertahankan di hadapan dewan penguji,
Pada tanggal : 23 Januari 2013
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iii
SKRIPSI
PEMANFAATAN METADATA DALAM MENILAI KESAMAAN
PROPOSAL PENELITIAN
HALAMAN PENGESAHAN
Disusun oleh :
LAHARDI ALKAWERO
M0508107
telah dipertahankan di hadapan Dewan Penguji
pada tanggal : 23 Januari 2013
Susunan Dewan Penguji
Disahkan Oleh
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iv
PEMANFAATANMETADATA DALAM MENILAI KESAMAAN
PROPOSAL PENELITIAN
LAHARDI ALKAWERO
Jurusan Informatika.Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Sebelas Maret.
ABSTRAK
Penelitian ini bertujuan untuk mengetahui pemanfaatan metadata dalam
melakukan perhitungan kesamaan proposal penelitian. Masalah yang diteliti
adalah bagaimana memanfaatkan metadata untuk melakukan perhitungan
kesamaan teks antar dokumen proposal penelitian. Perhitungan kesamaan
dilakukan dengan metode Cosine Similarity dan pembobotan.Bobot dari metadata
menunjukkan tingkatan kepentingan metadata dalam dokumen. Pada penelitian
ini metadata dimanfaatkan sebagai solusi untuk tindakan awal dalam mendeteksi
secara cepat kesamaan teks pada dokumen penelitian. Hal ini menunjukkan bahwa
jika program yang dibuat pada penelitian ini digunakan, maka seorang reviewer
akan lebih mudah dalam melihat kesamaan dari banyak dokumen. Persetujuan
reviewer menunjukkan bahwa penggunaan metadata dengan pembobotan dalam
menghitung kesamaan dokumen proposal penelitian dapat diterima sebagai salah
satu alat bantu dalam menilai kesamaan secara cepat sebuah proposal penelitian.
Pemberian bobot yang berbeda besarnya pada setiap metadata dapat menjadi
solusi untuk memberikan tingkat kepentingan yang berbeda beda sesuai dengan
jenis skema. Hal ini menunjukkan bahwa pembobotan dapat mempengaruhi
proporsi nilai sebuah metadata untuk menunjukkan kepentingannya dalam sebuah
dokumen penelitian.
Kata Kunci : cosine similarity, kesamaan teks, metadata
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
v
THE USING OF METADATA IN ASSESSING THE SIMILARITY OF
THE RESEARCH PROPOSAL
LAHARDI ALKAWERO
Department of Informatics. Mathematics and Natural Science Faculty.
Sebelas Maret University
ABSTRACT
This study aimed to examine the using of metadata in the calculation of the
similarity of research proposals. The problem studied is how to use metadata to
calculate similarities between the text of the research proposal document.
Similarity calculations done by using Cosine Similarity and weightings. The
weight of the metadata shows the level of importance in the document. In this
research, metadata is used as a solution to the initial action in the rapid detection
of text similarity of the research document. Itshows that if the program were made
in this study is used, then the reviewer will be easier to see the similarities of
many documents. Approval of reviewer suggests that the using of metadata with
weighting process in calculating the similarity of the research proposal documents
can be accepted as a tool in assessing similarities of research proposalsquickly.
Giving different weight to each metadata can be a solution to provide different
importancelevel according to the type of scheme. This shows that the weighting
can affect the proportion of the value of a metadata to indicate importance level in
a research document.
Keyword: cosine similarity, metadata, text similarity
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vi
MOTTO
sesungguhnya
sesudah kesulitan itu ada kemudahan, Maka apabila kamu telah selesai (dari
sesuatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang lain
(Q.S Alam Nasyrah : 5-7)
(Q.S Al-Baqarah : 214)
barangsiapa bertakwa kepada Allah niscaya dia akan mengadakan baginya
jalan keluar. Dan memberinya rezki dari arah yang tiada disangka-sangkanya.
dan barangsiapa yang bertawakkal kepada Allah niscaya Allah akan
mencukupkan (keperluan)nya. Sesungguhnya Allah melaksanakan urusan yang
(dikehendaki)Nya. Sesungguhnya Allah Telah mengadakan ketentuan bagi tiap-
tiap sesuatu
(Q.S At talaq : 2-3)
Banyak kegagalan dalam hidup ini dikarenakan orang-orang tidak menyadari
betapa dekatnya mereka dengan keberhasilan saat mereka
(Thomas Alva Edison)
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vii
PERSEMBAHAN
Kupersembahkan karya ini kepada :
Ibu, Bapak serta kedua adik tercinta Asfarina Aulia dan Lazwardi Azhar
Nur Ahyuni, S.E. yang selalu memberi semangat
Semua teman Informatika UNS khususnya angkatan 2008
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
viii
KATA PENGANTAR
Bismillahirrahmaanirrahiim
yang senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat
menyelesaikan skripsi dengan judul Pemanfaatan Metadata Dalam Menilai
Kesamaan Proposal Penelitian, yang menjadi salah satu syarat wajib untuk
memperoleh gelar Sarjana Informatika di Universitas Sebelas Maret (UNS)
Surakarta.
Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak
bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan
skripsi ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada :
1. Ibu, Bapak, dan adik - adikku, serta teman-teman yang telah memberikan
banyak dukungan materi dan non materi sehingga penyusunan skripsi ini
dapat terselesaikan.
2. IbuDewi Wisnu Wardani, S. Kom. , MS. selaku Dosen Pembimbing I yang
penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada
penulis selama proses penyusunan skripsi ini,
3. Ibu Sari Widya Sihwi, S.Kom., M.T.Iselaku Dosen Pembimbing II yang
penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada
penulis selama proses penyusunan skripsi ini,
4. Bapak dan Ibu dosen serta karyawan di Jurusan Informatika FMIPA UNS
yang telah mengajar penulis selama masa studi dan membantu dalam proses
penyusunan skripsi ini,
5. Nur Ahyuni, S.E. sebagai sahabat terbaik yang telah banyak memberikan
motivasi dan inspirasi kepada penulis.
Surakarta, Januari 2013
Penulis
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ix
DAFTAR ISI
HALAMAN JUDUL ...................................................................................................... i
HALAMAN PERSETUJUAN ...................................................................................... ii
HALAMAN PENGESAHAN ...................................................................................... iii
ABSTRAK ................................................................................................................... iv
ABSTRACT .................................................................................................................. v
MOTTO ....................................................................................................................... vi
PERSEMBAHAN ....................................................................................................... vii
KATA PENGANTAR ............................................................................................... viii
DAFTAR ISI ................................................................................................................ ix
DAFTAR TABEL ....................................................................................................... xii
DAFTAR GAMBAR ................................................................................................. xiii
DAFTAR LAMPIRAN .............................................................................................. xiv
BAB I PENDAHULUAN ............................................................................................. 1
1.1 Latar Belakang .................................................................................................. 1
1.2 Rumusan Masalah ............................................................................................. 2
1.3 Batasan Masalah ................................................................................................ 2
1.4 Tujuan Penelitian ............................................................................................... 2
1.5 Manfaat Penelitian ............................................................................................. 3
1.6 Sistematika Penulisan ........................................................................................ 3
BAB II TINJAUAN PUSTAKA ................................................................................... 4
2.1 Landasan Teori .................................................................................................. 4
2.1.1 Metadata ................................................................................................. 4
2.1.2 Information Retrieval .............................................................................. 4
2.1.3 Text Processing ....................................................................................... 5
2.1.4 Indexing ................................................................................................... 6
2.1.5 Vector Space Model ................................................................................ 7
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
x
2.1.6 Term Frequency Inverse Document Frequency ................................... 8
2.2 Penelitian Sebelumnya ...................................................................................... 9
2.2.1 Text Similarity: An Alternative Way To Search MEDLINE .................... 9
2.2.2 Similarity Measures For Text Document Clustering .............................. 9
2.2.3 A Wikipedia Based Multilingual Retrieval Model ............................... 9
2.2.4 Methods For Identifying Versione Dan Plagiarized Document ........... 10
2.2.5 Inferring Similarity Between Music Objects With Application
To Playlist Generation .......................................................................... 10
2.2.6 From Context To Content: Leveraging Context To Infer
Media Metadata .................................................................................... 10
BAB III METODE PENELITIAN.............................................................................. 11
3.1 StudiLiteratur .................................................................................................. 11
3.2 Observasi ......................................................................................................... 11
3.3 Analisa Metadata ............................................................................................ 12
3.3.1 Metadata dan Pembobotan Tiap Skema ............................................... 13
3.3.2 Data Set ................................................................................................. 15
3.4 Perancangan Dan Implementasi Algoritma Kesamaan Metadata ................... 15
3.5 Pengujian ......................................................................................................... 16
BAB IV HASIL DAN PEMBAHASAN .................................................................... 17
4.1 Perancangan Model dan Algoritma Kesamaan Metadata ............................... 17
4.2 Pengujian ......................................................................................................... 22
4.3.1 Pengujian 1 ............................................................................................ 22
4.3.2 Pengujian 2 ............................................................................................ 23
4.3.3 Pengujian 3 ............................................................................................ 24
4.3.4 Pengujian 4 ............................................................................................ 25
4.3.5 Pengujian 5 ............................................................................................ 26
4.3.6 Pengujian 6 ............................................................................................ 28
4.3.7 Pengujian 7 ............................................................................................ 29
4.3.8 Pengujian 8 ............................................................................................ 30
4.3.9 Pengujian 9 ............................................................................................ 31
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xi
4.3.10 Validasi Reviewer ................................................................................. 32
BAB V PENUTUP ...................................................................................................... 34
5.1 Kesimpulan ...................................................................................................... 34
5.2 Saran ................................................................................................................ 34
DAFTAR PUSTAKA ................................................................................................. 35
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xii
DAFTAR TABEL
Table 1. Tabel daftar metadata dan bobot pada skema Fundamental ................... 13
Table 2. Tabel daftar metadata dan bobot dari skema Hibah Bersaing ................ 14
Table 3. Tabel daftar metadata dan bobot dari skema Strategi Nasional ............. 14
Table 4. Data Set ................................................................................................... 15
Table 5. Data Testing ............................................................................................ 15
Table 6. Daftar nilai kesamaan metadata .............................................................. 23
Table 7. Daftar nilai kesamaan metadata .............................................................. 24
Table 8. Daftar nilai kesamaan metadata .............................................................. 25
Table 9. Daftar nilai kesamaan metadata .............................................................. 26
Table 10. Daftar nilai kesamaan metadata ............................................................ 27
Table 11. Daftar nilai kesamaan metadata ............................................................ 28
Table 12. Daftar nilai kesamaan metadata ............................................................ 29
Table 13. Daftar nilai kesamaan metadata ............................................................ 31
Table 14. Daftar nilai kesamaan metadata ............................................................ 32
Table 15. Tabel validasi pengujian yang dilakukan oleh reviewer ....................... 33
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xiii
DAFTAR GAMBAR
Gambar 1. Ilustrasi Algoritma Pembobotan TF-IDF ............................................. 8
Gambar 2. Tahapan kerja pada penelitian ini........................................................ 11
Gambar 3. Cara pengambilan metadata dari dokumen penelitian ........................ 12
Gambar 4. Visualisasi proses perhitungan kesamaan metadata .......................... 17
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xiv
DAFTAR LAMPIRAN
LAMPIRAN A Persetujuan pembobotan metadata oleh pihak LPPM UNS ....... 39
LAMPIRAN B Tanggapan Reviewer................................................................... 40
LAMPIRAN C Contoh Pengujian dengan nilai kesamaaan yang signifikan ...... 40
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Pencarian informasi yang berupa tulisan seperti artikel, jurnal, dan buku
elektronik saat ini sangatlah mudah. Kemudahan akan pencarian informasi juga
menimbulkan masalah masalah yang terkait dengan keaslian isi atau ide dari
sebuah dokumen atau tulisan. Sebuah lembaga penelitian sudah semestinya
memiliki berbagai prosedur yang diterapkan untuk mencegah terjadinya tindakan
plagiat. Untuk itu, perlu adanya metode dan ukuran yang dapat menilai keaslian
atau kebaruan isi dari tulisan. Ukuran yang dapat digunakan adalah ukuran
kesamaan antar dokumen yang dihitung dengan berbagai metode. Salah satu
contohnya, kesamaan dokumen yang dihitung menggunakan pendekatan
kesamaan semantik(Broome, 2004)atau penelitian yang dilakukan dengan
menghitung kesamaan seluruh isi dokumen dengan melakukan text processing
dan menghitung kesamaannya menggunakan berbagai metode seperti Cosine,
Dice, Jaccard, Hellinger dan Harmonic(Hariharan, 2010).
Metode metode yang telah ada sudah banyak diterapkan dalam berbagai
kasus, salah satu kasusnya adalah mendeteksi adanya tindakan
plagiarisme(Hoada & Zobel, 2003). Meskipun dalam menilai tindakan
plagiarisme yang terjadi pada sebuah dokumen tidaklah mudah, namun metode
yang ada dapat diterapkan pada salah satu tahapan dalam menilai tindakan
plagiarisme yaitu pada tahap pengukuran kesamaan keseluruhan teks dengan
menggunakan metode Cosine Similarity(Hariharan, 2010).Selain menghitung
keseluruhan teks, metode yang ada juga telah digunakan untuk menghitung
kesamaan metadata, seperti kesamaan metadata untuk generate playlist lagu
lagu secara otomatis (Ragno et al., 2005)dan pengelompokkansecara otomatis
berdasarkan kesamaan metadata dari gambar yang diunggah(Davis et al., 2004).
Pada penelitian ini penulis meneliti bagaimana memanfaatkan metadata
untuk menghitung kesamaan dokumen proposal penelitian menggunakan metode
Cosine Similarity. Dokumen penelitian memiliki format yang terstruktur dan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
2
standar sehingga bisa ditentukan bagian - bagian yang paling mewakili seluruh isi
dokumen. Bagian bagian tersebut akan dijadikan metadata yang dapat
digunakan dalam proses perhitungan kesamaan dokumen. Perhitungan kesamaan
yang dilakukan pun akan lebih efektif karena data yang digunakan hanyalah
metadata yang dianggap perlu dan mewakili isi dari dokumen, bukan seluruh isi
dari dokumen.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah dijelaskan sebelumnya, maka
masalah yang akan diteliti adalah bagaimana memanfaatkan metadata dalam
melakukan perhitungan kesamaan antar dokumen proposal penelitian dengan
metode Cosine Similarity.
1.3 Batasan Masalah
Agar pembahasan terfokus pada permasalahan yang akan dibahas maka
penelitian ini terbatas pada :
Metadata dari dokumen penelitian yang akan digunakan sudah tersedia di
Lembaga Penelitian Dan Pengabdian Kepada Masyarakat Universitas Sebelas
Maret( LPPM UNS ).
Data dokumen yang diujikan adalah proposal penelitianLPPM UNS dengan
sumber dana dari Direktorat Jenderal Pendidikan Tinggi (Ditjen Dikti) khusus
skema Hibah Bersaing, Fundamental dan Strategis Nasional sejak tahun 2008
sampai 2011.
1.4 Tujuan Penelitian
Tujuan dari penelitian ini adalah memanfaatkanmetadatadalam melakukan
perhitungan kesamaan antar dokumen proposal penelitian dengan metode Cosine
Similarity.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
3
1.5 Manfaat Penelitian
Diharapkan hasil penelitian ini dapat digunakan sebagai solusi alternatif
dalam membantu pihak lembaga penelitian yaitu LPPM UNS dalam menilai
kualitas sebuah proposal dengan menggunakan nilai kesamaan metadatadari
dokumen proposal penelitian. Hasil penelitian ini akan membantu reviewer dalam
menilai proposal yang akan diterima.
1.6 Sistematika Penulisan
Sistematika penyusunan laporan ini dibagi atas lima bab. Adapun bab-bab
tersebut adalah sebagai berikut :
BAB I PENDAHULUAN
Bab ini berisi uraian tentang latar belakang masalah, rumusan masalah, batasan
masalah, tujuan penelitian, manfaat penelitian, tinjauan pustaka, dan sistematika
penulisan laporan.
BAB II TINJAUAN PUSTAKA
Bab ini berisi teori-teori yang digunakan sebagai dasar pembahasan dari topik
laporan skripsi.
BAB III METODOLOGI
Bab ini berisi tahapan-tahapankerja yang digunakan sebagai acuan dalam
menyelesaikan skripsi.
BAB IV PEMBAHASAN
Bab ini berisi tentang eksperimen pengujian dari algoritma yang telah disusun
dengan menggunakan sejumlah sample datauntuk kemudian dilakukan analisis
terhadap hasil dari eksperimen yang telah dilakukan.
BAB V KESIMPULAN DAN SARAN
Bab ini berisi uraian tentang kesimpulan dan saran-saran sebagai bahan
pertimbangan untuk pengembangan penelitian selanjutnya.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
4
BAB II
TINJAUAN PUSTAKA
2.1 Landasan Teori
2.1.1 Metadata
Menurut Haynes dalam (Chuttur, 2011), metadata adalah data yang
menggambarkan isi, format atau atribut dari catatan data atau sumber informasi.
Metadata didefinisikan secara umum sebagai data terstruktur tentang data. Namun
menurut Gililand dalam (Chuttur, 2011), proses pembuatan metadatadapat
melibatkan baik input subjektif maupun objektif sesuai dengan kebutuhan
pengguna.
Beberapa contoh metadata, yaitu pernyataan dari fakta tentang penulis,
tanggal pembuatan, versi, dan atribut lainnya umumnya dapat ditentukan secara
obyektif. Metadataobjektif juga dapat dihasilkan oleh mesin dalam kebanyakan
kasus, seperti metadata "properties" yang dihasilkan saat membuat sebuah file
dalam pengolah kata atau aplikasi spreadsheet.Metadata subjektif, adalah
metadata yang merujuk pada sudut pandang (penugasan kata kunci, ringkasan
konten dalam abstrak), atau karena secara khusus dimaksudkan untuk mewakili
evaluasi subjektif (review buku atau presentasi ). Bahkan elemen metadata yang
lebih formal menjadi subjektif bila digunakan dalam konteks budaya atau domain
yang merujuk pada interpretasi lokal. Sebagai contoh, karakteristik pedagogis
yang tergantung pada suatu filsafat pendidikan tertentu mungkin penting dalam
konteks tertentu, tapi tidak akan memiliki makna di luar konteks itu (Duval et al.,
2002).
2.1.2 Information Retrieval
Information retrievalsystem atau sistem temu kembali informasi berkaitan
dengan representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi.
Sistem temu kembali informasi berbeda dengan sistem temu kembali data dalam
beberapa segi, antara lain spesifikasi query yang tidak lengkap dan tingkat
toleransi kesalahan yang tidak peka. Sistem temu kembali informasi berhubungan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
5
dengan teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat
ambigu(Baeza-Yates & Ribeiro-Neto, 1999).
Sistem temu kembali informasi bekerja berdasarkan query yang diberikan
pengguna yang menghasilkan daftar dokumen yang dianggap relevan. Tidak ada
jaminan bahwa seluruh materi yang ditemukembalikan tersebut relevan dengan
yang diinginkan pengguna dan belum tentu seluruh materi yang relevan dengan
permintaan pengguna berhasil ditemukembalikan (Adisantoso & Ridha, 2004).
2.1.3 Text Processing
Suatu dokumen tidak dapat dikenali langsung oleh suatu sistem temu
kembali informasi sehingga perlu dilakukan pemrosesan terlebih dahulu.
Beberapa pengolahan teks adalah sebagai berikut :
1.Tokenizing
Tokenizing adalah proses pengenalan token yang terdapat dalam rangkaian
teks(Grossman, 2001). Dalam pembuatan indeks istilah, dokumen dipecah
menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa, atau kalimat. Unit
pemrosesan tersebut disebut token. Seringkali spasi digunakan sebagai pemisah
antar token (Jackson, 2002).
2.Stopword Removal
Stopword removal merupakan tahap pembuangan yang termasuk dalam
stoplist yaitu kata yang sering muncul dalam dokumen akan tetapi tidak memiliki
makna yang berarti dan tidak signifikan dalam membedakan dokumen atau query
misalnya kata-
Stopword removal bertujuan untuk mengurangi daftar kata indeks dan
mempercepat indexing(Grossman, 2001).
3.Stemming
Stemming adalah proses penghilangan prefiksdan suffiks dari kata untuk
mendapatkan kata dasarnya (Grossman, 2001). Dalam hal efisiensi, stemming
mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan
ruang penyimpanan untuk indeks dan mempercepat proses pencarian. Dalam hal
efektifitas, stemming meningkatkan recall dengan mengurangi bentuk-bentuk kata
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
6
kebentuk dasarnya. Kata bersama, kebersamaan, menyamai, akan diubah menjadi
kata dasarnya stemming dapat diukur
berdasarkan beberapa parameter, seperti kecepatan proses, keakuratan, dan
kesalahan.
2.1.4 Indexing
Indeks merupakan suatu daftar term. Tujuan penggunaan indeks adalah
untuk meningkatkan kecepatan dan efisiensi pencarian di dalam kumpulan
dokumen. Tanpa indeks, query pengguna harus secara sekuensial melakukan scan
terhadap kumpulan dokumen sehingga memerlukan waktu yang cukup lama
dalam menemukan dokumen mana yang relevan dengan term pencarian. Scan
secara sekuensial ini sangat tidak feasible(Grossman, 2001).
Inverted index terdiri dari dua bagian. Yang pertama adalah indeks dari kata
(secara umum disebut indeks kata, leksikon, atau kamus kata) yang menyimpan
daftar term yang berbeda yang ditemukan pada kumpulan dokumen. Untuk setiap
term terdapat daftar dokumen yang mengandungtermtersebut. Daftar dokumen ini
merupakan bagian kedua dari inverted index(Grossman, 2001). Berikut ini adalah
ilustrasi proses indexing dengan inverted index :
D1: The GDP increased 2 percent this quarter.
D2: The spring economic slowdown continued to spring downwards this
quarter.
Inverted index dari kedua dokumen tersebut adalah :
2 [D1]
Continued [D2]
downwards [D2]
economic [D2]
GDP [D1]
increased [D1]
percent [D1]
quarter [D1] [D2]
slowdown [D2]
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
7
spring [D2]
the [D1] [D2]
this [D1] [D2]
to [D2]
seperti yang terlihat diatas, term continued, economic, slowdown, spring dan to
hanya terdapat pada dokumen kedua. Term GDP, increased, percent, dan 2 hanya
terdapat pada dokumen pertama. Term quarter, the, dan this terdapat pada kedua
dokumen(Grossman, 2001).
2.1.5 Vector Space Model
Menurut Salton dalamArifin(2002), salah satu model sistem temu kembali
informasi yang paling sederhana namun paling produktif adalah model ruang
vektor. Vektor model ini merepresentasikan term yang terdapat pada dokumen
dan query. Term dapat berupa kata, frasa, atau unit hasil indexing lain dalam suatu
dokumen sebagai gambaran konteks dari dokumen tersebut. Karena tiap kata
memiliki tingkat kepentingan yang berbeda dalam dokumen, maka diperlukan
indikator yaitu termweight (bobot term) dalam proses pencocokan dan
perankingan dokumen terhadap query.
Menurut Munoz dalam Arifin(2002), dokumen dan term masing-masing
dapat direpresentasikan dengan model ruang vektor. Misal t1, t2, ....., tn
menyatakan term yang digunakan untuk mengindeks database yang terdiri dari
dokumen D1, D2, ...., Dm.maka dokumen Di dinyatakan dengan :
Di = (ai1, ai2, ....., ain)
dimana aij = bobot term tj dalam dokumen Di.
Kobayashi dalam Arifin (2002)juga menambahkan terdapat beberapa
metode pembobotan term yaitu Binary Weighting, Term Frequency, Log
Entropy, Normal, GdIdf, Idf, Entropydan TF-IDF.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
8
2.1.6 Term Frequency Inverse Document Frequency
Metode pembobotan yang umumnya diunggulkan dalam penelitian-
penelitian untuk digunakan dalam model ruang vektor yaitu Term Frequency
Inverse Document Frequency (TF-IDF) Arifin (2002). Metode TF-IDF merupakan
suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap
dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu
frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu (term
frequency) dan inversidarifrekuensi dokumen yang mengandung kata tersebut
(inverse document frequency). Term frequency (TF) menunjukkan seberapa
penting kata tersebut didalam sebuah dokumen yang diberikan. Document
frequency (DF) menunjukkan seberapa umum kata tersebut.
Ilustrasi algoritma pembobotan TF-IDF ditunjukkan pada Gambar1.
Gambar 1. Ilustrasi Algoritma Pembobotan TF-IDF(Harlian, 2006)
Keterangan :
d1, d2, d3, d4, d5 = dokumen
tf = banyaknya term yang dicari pada sebuah dokumen
N = total dokumen
df= banyaknya dokumen yang mengandung term yang dicari.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
9
2.2 Penelitian Sebelumnya
Berikut ini adalah beberapa penelitian sejenis yang pernah dilakukan terkait
metadata dan informationretrievalsystem :
2.2.1 Text Similarity: An Alternative Way To Search MEDLINE (Lewis et
al., 2006)
Artikel ini menerangkan bahwa metode cosine similarity adalah metode
yang paling banyak digunakan dalam perhitungan kesamaan vektor. tiga skema
pembobotan yang berbeda diterapkan dan diuji untuk mengukur pentingnya kata
kunci. Dalam pendekatan penilaian, setiap kata mendapatkan nilai m jika m kali
terjadi dalam sebuah teks (user query atau dokumen perpustakaan). Frekuensi
kemunculan dituliskan sebagai term frequency 1 (TF1) pembobotan, dan
diekspresikan dengan mendefinisikan kembali istilah xi sebagai jumlah
kemunculan kata i dalam query dan yi sebagai jumlah kejadian dari kata i dalam
teks perpustakaan. Pembobotan yang paling umum digunakan dalam literatur
information retrieval adalah TF * IDF.
2.2.2 Similarity Measures For Text Document Clustering (Huang, 2008)
Dalam artikel ini dijelaskan bahwa ketika dokumen direpresentasikan
sebagai sebuah vektor, similarity dari dua dokumen sesuai dengan korelasi antar
vektor. Hal ini diukur sebagai kosinus dari sudut antar vektor, yaitu yang disebut
Cosine Similarity. Cosine Similarityadalah salah satu yang paling popular untuk
mengukur kesamaan dan diterapkan untuk dokumen teks, seperti di banyak
aplikasi sistem temu kembali dan juga clustering.
2.2.3 A Wikipedia Based Multilingual Retrieval Model (Potthast et al.,
2008)
Makalah ini memperkenalkan CL-ESA, model pengambilan baru
multibahasa untuk kesamaan analisis lintas bahasa. Model pengambilan
memanfaatkan keselarasan multi-bahasa dari Wikipedia: misalnya diberikan
dokumen d yang ditulis dalam bahasa L, kita membuat sebuah konsep vektor d
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
10
untuk d, di mana setiap dimensi i di d mengkuantifikasi kesamaan d terhadap
dokumen d * i dipilih dari "bagian-L" dari Wikipedia. Demikian juga, untuk d
dokumen kedua, ditulis dalam bahasa L maka L = L. Dibangun sebuah konsep
vektor d. Karena konsep kedua vektor d dan d* adalah koleksi-relatif representasi
d dan d* adalah language-independent, maka kesamaannya langsung dapat
dihitung dengan mengukur kesamaan kosinus.
2.2.4 Methods For Identifying Versione Dan Plagiarized
Documents (Hoada & Zobel, 2003)
Mudahnya perpindahan sebuah dokumen teks dari sebuah tempat
penyimpanan ke tempat lain menimbulkan besarnya resiko plagiarisme.
Perubahan yang terjadi pada isinya pun dapat terjadi dengan mudah pada proses
edit. Dalam makalah ini dilakukan penelitian untuk mengidentifikasi dokumen
yang terindikasi ada resiko tindakan plagiarisme. Salah satu metode yang
digunakan adalah metode kesamaan vektor yaitu Cosine Similarityyang dapat
digunakan pada tahap penilaian kesamaan. Dokumen yang memiliki tingkat
kesamaan cukup besar dapat dilakukan analisa selanjutnya untuk menilai apakah
ada tindakan plagiarisme diantara dokumen yang terindikasi.
2.2.5 Inferring Similarity Between Music Objects With Application To
Playlist Generation (Ragno et al., 2005)
Pada penelitian ini metadata digunakan untuk generate playlist lagu lagu
secara otomatis. Metadata yang dihasilkan oleh program pemutar file musik
digunakan dalam perhitungan kesamaan menggunakan Metode Cosine Similarity.
2.2.6 From Context To Content: Leveraging Context To Infer Media
Metadata (Davis et al., 2004)
Pada penelitian ini dijelaskan bahwa Perhitungan kesamaan metadata dapat
digunakan untuk mengelompokkan file multimedia secara otomatis.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
11
BAB III
METODE PENELITIAN
Tahapan kerja yang dilakukan dalam penelitian tugas akhir ini dapat dilihat pada
Gambar2
Gambar 2. Tahapan kerja pada penelitian ini
3.1 StudiLiteratur
Studi literatur dilakukan penulis untuk memperdalam pengetahuan tentang
topik terkait dengan penelitian yang akan dilakukan yang meliputi metadata,
cosine similarity, text processing dan information retrieval.
3.2 Observasi
Observasi dilakukan di lembaga penelitian yaitu LPPM UNS untuk
mengambil data dan mempelajari panduan penilaian sebuah dokumen proposal
penelitian. Pemilihan lembaga penelitian sebagai tempat observasi menjadi
penting karena akan mempengaruhi tahap analisa metadata. Dokumen penelitian
yang formatnya terstruktur dan memiliki panduan penulisan serta penilaian
membuat penulis memilih LPPM UNS sebagai tempat observasi dalam penelitian
ini.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
12
3.3 Analisa Metadata
Pada tahap analisa metadata penulis meneliti data data yang telah
dikumpulkan pada tahap observasi. Setelah mengetahui data secara keseluruhan
barulah melakukan pemilihan metadata yang akan digunakan sebagai data
pengujian. Berikut ini adalah Gambar 3 sebagai ilustrasi pemilihan metadatadari
sebuah dokumen penelitian.
Gambar 3. Cara pengambilan metadata dari dokumen penelitian
Pada Gambar 3 dapat dilihat bahwa setiap bagian (judul, latar belakang,
rumusan masalah) akan digunakan sebagai metadata yang akan digunakan dalam
perhitungan kesamaan. Pemilihan metadata akan berbeda menyesuaikan skema
yang akan digunakan.
Hasil dari analisa metadata adalah daftar metadata serta bobotnya yang
mengacu pada panduan penelitian tahun 2011 serta disetujui oleh lembaga
penelitian.
Pemilihan metadata dan penentuan bobot didapatkan melalui diskusi dengan
reviewer yang mengacu pada panduan penelitian yang berlaku di LPPM UNS
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
13
tahun. Skema yang diteliti adalah skema Fundamental, Hibah Bersaing dan
Strategi Nasional.
3.3.1 Metadata dan Pembobotan Tiap Skema
Setiap skema memiliki metadata dan cara pembobotan yang berbeda.
Penjelasan dilakukan melalui tabel untuk memudahkan pemahaman. Metadata
metadata yang digunakan dalam perhitungan
kesamaan.
Table 1.Tabel daftar metadata dan bobot pada skema Fundamental
Metadata Digunakan dalam Perhitungan
Bobot
Fakultas -
bidang ilmu -
judul 5 abstrak 5 masalah 7.5 manfaat 30 tujuan 7.5 metode 15 daftar pustaka 30 latar belakang -
tinjauan pustaka -
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
14
Table 2. Tabel daftar metadata dan bobot dari skema Hibah Bersaing
Metadata Digunakan dalam Perhitungan
Bobot
Fakultas -
bidang ilmu -
judul 5 abstrak 10 masalah 7.5 urgensi 35 tujuan 7.5 metode 20 daftar pustaka 15 latar belakang -
tinjauan pustaka -
Table 3. Tabel daftar metadata dan bobot dari skema Strategi Nasional
Metadata Digunakan dalam Perhitungan
Bobot
Fakultas -
bidang ilmu -
judul 10 abstrak 15 masalah 15 urgensi 20 tujuan 15 manfaat 25 daftar pustaka - latar belakang -
tinjauan pustaka -
metode -
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
15
3.3.2 Data Set
Data set yang digunakan untuk pengujian adalah metadata dokumen
proposal penelitian skema Fundamental, Hibah Bersaing dan Strategi Nasional
tahun 2008 sampai 2011 dengan rincian sebagai berikut :
Table 4. Data Set
Skema Jumlah Data
Fundamental 29
Hibah Bersaing 48
Strategi Nasional 14
Total 91
91 data tersebut sebagai data lama yang akan digunakan sebagai
pembanding dengan data testing . Data eksperimental yang digunakan sebagai
data testing berjumlah 10 dokumen dengan rincian sebagai berikut :
Table 5. Data Testing
3.4 Perancangan Dan Implementasi Algoritma Kesamaan Metadata
Pada tahap perancangan algoritma kesamaan metadata dibuat algoritma
yang dapat digunakan untuk menghitung kesamaan metadata. Algoritma yang
dihasilkan akan diterapkan pada kode program yang digunakan pada tahap
pengujian. Berikut ini adalah tahapan dalam merancang algoritma untuk
menghitung kesamaan metadata :
Menerapkan model matematika ke dalam kasus yang sedang diteliti.
Membuat kode semu dari algoritma.
Implementasi.
Skema Jumlah Data
Fundamental 3
Hibah Bersaing 3
Strategi Nasional 3
Total 9
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
16
Environtment / tools yang digunakan pada implementasi dari kode semu
menjadi kode program adalah sebagai berikut :
Bahasa pemrograman yang digunakan adalah java
Object relational mapping (ORM) framework yang digunakan adalah
Hibernate 3.6.10final.
Framework yang digunakan untuk menangani dependency injection dan
penanganan java object adalah Spring 3.0.5.
Application Programming Interface (API) yang digunakan untuk
penganganan text processing adalah Lucene 3.6.1.
3.5 Pengujian
Pada tahap pengujian, seluruh data eksperimental diuji dengan
menggunakan program yang menerapkan algoritma yang telah dihasilkan pada
tahap perancangan algoritma. Pengujian dilakukan dengan tahap sebagai berikut :
Menentukan data set yang digunakan sebagai data pengujian. Data set terdiri
dari data lama dan data testing.
Menghitung kesamaan antara metadata dari setiap data testing dan metadata
dari seluruh data lama.
Melakukan validasi terhadap hasil persamaan yang akan dibantu oleh dua
orang reviewer dari LPPM UNS yaitu Prof.Dr.Okid Parama Astirin, M.S. dan
Dr. Eddy Heraldy, M.Si..
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
17
BAB IV
HASIL DAN PEMBAHASAN
4.1 Perancangan Model dan Algoritma Kesamaan Metadata
Gambar 4 berikut ini adalahvisualisasi proses perhitungan kesamaan
metadata.
Gambar 4. Visualisasi proses perhitungan kesamaan metadata
Dari Gambar 4dapat dilihat bahwa metadatadari dokumen penelitian
digunakan sebagai input. Sebelum dilakukan proses perhitungan kesamaan, input
yang berupa teks haruslah melalui tahap preprocessing ( text processing dan
indexing ) sebelum dilakukan proses perhitungan kesamaan metadata.Text
processing dilakukan dengan tambahan library dari apache.org yaitu Lucene
3.6.1.
Model kesamaan yang dimaksud adalah model matematika untuk
perhitungan kesamaan metadata. Dimisalkan jumlah metadata yang digunakan
pada perhitungan kesamaan dan pembobotan untuk sebuah skema
adalahnmetadata. Model matematika dari rumus cosine similarity dijelasan pada
persamaan (1).
Metadata of
research
document
Pre
processing DB
Count
Similarity
Sorting
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
18
(1)
Dimana similarity adalah nilai kesamaan dari satu jenis metadata, misalkan
saja nilai kesamaan dari judul. A adalah vektor yang terbentuk dari salah satu
metadata sebuah dokumen dan B adalah vektor dari salah satu metadatadokumen
lainnya. A dan Badalah metadata dengan jenis yang sama, misalkan A
menyatakan judul maka B juga menyatakan judul. Ai adalah nilai dari index ke i
pada vektor A begitu juga dengan Bi. n menyatakan jumlah indeks dari vektor
yang terbentuk. Vektor vektor yang terbentuk berisi nilai hasil perhitungan TF-
IDF untuk setiap term atau kata yang ada dalam metadata.
Jika jumlah metadata dari sebuah dokumen adalah n, maka dapat dimodelkan
pada persamaan (2) .
(2)
Dimana sim_dok adalah nilai kesamaan total metadata - metadata dari
dua dokumen. Namun karena bobot tiap metadata tidaklah sama, maka nilai
kesamaan totalnya dapat dimodelkan pada persamaan (3) .
(3)
Dimana Wiadalahbobot dari masing masing metadata. Nilai sim_dok
inilahyang dijadikan nilai akhir dari kesamaan dua buah dokumen yang
dibandingkan. Setelah model matematika dari perhitungan kesamaan metadata
dibuat, tahap selanjutnya adalah pembuatan kode semu dan implementasi menjadi
kode program untuk pengujian.
Berikut ini adalah kodesemudari algoritma yang sudah dirancang . Kode
semu berikut digunakan untuk menghitung satu jenis metadata, jika terdapat
nmetadata maka dilakukan sebanyak n kali.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
19
//membuat vektor yang berisi kata-kata dari metadata lama dan baru
vektorLama;
vektorBaru;
//membuat vektor baru yang berisi semua kata unique gabungan dari
vektorLama dan vektorBaru
vektorSemuaTerm ;
//membuat vektor yang berisi term frequency dari setiap kata yang ada
pada masing masing vektor (lama dan baru)
vektorTermFrequensiLama;
vektorTermFrequensiBaru;
//mengisi term frequency untuk vektorTermFrequensiLama
//cek semua isi dari vektor yang berisi semua unique term
int j = 0;
for (cek semua isi dari vektorSemuaTerm) {
double i = 0;
for (cek semua isi dari vektorLama) {
if (isi termLama= isi termUniq) {
i++;
}}
vektorTermFrequensiLama[j] = i;
//merubah isi vektor yang berisi term frequency menjadi TF-IDF dengan
cara dikalikan nilai IDF
dari setiap kata yang ada di vektor unique term
double idf = 0;
(cek semua isi dari index) {
if(index=termUniq)) {
idf = index.getIDF();
break;
}
}
vektorTermFrequensiLama[j] = vektorTermFrequensiLama[j] * idf;
j++;
}
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
20
//mengisi term frequency untuk vektorTermFrequensiBaru
//cek semua isi dari vektor yang berisi semua unique term
j = 0;
(cek semua isi dari vektorSemuaTerm) {
double i = 0;
(cek semua isi vektorBaru) {
if (ada yang sama dengan termUniq) {i++;}}
vektorTermFrequensiBaru[j] = i;
double idf = 0;
(cek semua isi index) {
if(index=termUniq) {idf = index.getIDF();
break;
}}
vektorTermFrequensiBaru[j] =
vektorTermFrequensiBaru[j] * idf;
j++;
}
//hitung dot product
double dot = 0;
for (int k = 0; k < vektorTermFrequensiLama.length; k++) {
dot += vektorTermFrequensiLama[k] * vektorTermFrequensiBaru[k];
}
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
21
//mencari panjang vektor dari vektor yang berisi nilai TF-IDF dari
vektor lama dan baru
double pjgVektorTFIDFLama= 0;
for (int i = 0; i < panjang vektorTermFrequensiLama; i++) {
pjgVektorTFIDFLama+= pangkat(vektorTermFrequensiLama[i], 2);
}
pjgVektorTFIDFLama= akar(pjgVektorTFIDFLama);
double pjgVektorTFIDFBaru = 0;
for (int i = 0; i < panjang vektorTermFrequensiBaru; i++) {
pjgVektorTFIDFBaru += pangkat(vektorTermFrequensiBaru[i], 2);
}
pjgVektorTFIDFBaru = akar(pjgVektorTFIDFBaru);
double panjangTotal = pjgVektorTFIDFLama* pjgVektorTFIDFBaru;
if (dot == 0 atau panjangTotal == 0) {
kembalikan nilai 0;
}
//nilai kesamaan adalah dot product dari vektor lama dan baru di
bagi (panjang vektor lama dikali panjang vektor baru)
double sim = dot / panjangTotal;
//setelah dapat nilai kesamaannya, selanjutnya adalah mengalikannya
dengan bobot masing masing metadata. total kesamaan didapat dengan
menjumlahkan seluruh nilai kesamaan setelah di bobot
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
22
4.2 Pengujian
Keterangan pengujian adalah sebagai berikut :
1. Pengujian dilakukan per skema, maksudnya adalah setiap data testing akan
diujikan dengan seluruh data set yang skemanya sama dengan data testing.
2. Setelah data testing dibandingkan dengan seluruh data set, lalu dipilihlah data
dengan nilai kesamaan terbesar. Selanjutnya kumpulan data pengujian yang
memiliki nilai kesamaan terbesar akan ditunjukkan kepada reviewer LPPM
UNS untuk divalidasi apakah nilai kesamaan teks nya bisa diterima.
3. Data testing dituliskan sebagai data ke 1 sampai data ke 9. Iddata hasil
adalah nomer identitas dari data set dalam database. Id yang terpilih adalah Id
dari dokumen yang memiliki nilai kesamaan metadata paling besar dengan
data testing.
4.3.1 Pengujian 1
Keterangan pengujian
Jenis Skema : Hibah Bersaing
Judul Data Testing : Model Peningkatan Kompetensi Pemandu Wisata
Lokal Melalui Metode Tourism Interpretation Untuk
Mendukung Pengembangan Pariwisata Berbasis
Masyarakat Secara Berkelanjutan
Id Data Hasil : 88
Judul Data Hasil : Pengelolaan Kawasan Wisata Berbasis Masyarakat
Sebagai Upaya Penguatan Ekonomi Lokal Dan
Pelestarian Sumber Daya Alam Di Kabupaten
Karanganyar
Tabel 6 berikut ini menjelaskan nilai kesamaan tiap metadata secara detail.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
23
Table 6.Daftar nilai kesamaan metadata
metadata nilai tanpa bobot
(%) bobot
(%) nilai terbobot
judul 0.25 5 1.23 abstrak 0.42 10 4.25 masalah 0.65 7.5 4.87 urgensi 0.41 35 14.37 tujuan 0.48 7.5 3.61 pustaka 0.62 15 9.24 metode 0.50 20 10.07
Total 3.33 47.64
Hasil Analisa :
Dari pengujian 1 didapatkan nilai total kesamaan cukup besar, sebesar
47.64% . Nilai kesamaan terbobot terbesar didapat dari Urgensi yaitu sebesar
14.37%.Urgensi memiliki bobot tertinggi pada skema Hibah Bersaing sehingga
nilainya pun mempengaruhi nilai totalnya. Proporsi nilai Urgensi tanpa
pembobotan adalah 12% dari nilai totaldan setelah pembobotan adalah 30% dari
nilai total.Sedangkan Proporsi nilai Masalah tanpa pembobotan adalah 19% dari
nilai total dan setelah pembobotan adalah 10% dari nilai total.Hal ini
menunjukkan bahwa dengan pembobotan Urgensi menjadi lebih penting dari pada
Masalah.
4.3.2 Pengujian 2
Keterangan pengujian
Jenis Skema : Hibah Bersaing
Judul Data Testing : Pemberdayaan Perempuan Pengrajin Batik Girli
Untuk Meningkatkan Perekonomian Keluarga Dan
Mengembangkan Desa Wisata Di Kabupaten Sragen
Id Data Hasil : 91
Judul Data Hasil : Model Pemberdayaan Perempuan Miskin Melalui
Pengembangan Kewirausahaan Keluarga Menuju
Ekonomi Kreatif Di Kabupaten Karanganyar
Tabel 7 Berikut ini menjelaskan nilai kesamaan tiap metadata secara detail.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
24
Table 7.Daftar nilai kesamaan metadata
metadata nilai tanpa bobot
(%) bobot
(%) nilai terbobot
judul 0.26 5 1.31 abstrak 0.21 10 2.09 masalah 0.16 7.5 1.17 urgensi 0.29 35 10.29 tujuan 0.16 7.5 1.22 pustaka 1.00 15 14.93 metode 0.45 20 9.09 Total 2.53 40.09
Hasil Analisa :
Dari pengujian 2 didapatkan nilai total kesamaan cukup besar, yaitu40.09
%. Nilai kesamaan terbobot terbesar didapat dari Pustakayaitu sebesar 14.93%.
Proporsi nilai Urgensi tanpa pembobotan adalah 11.5% dari nilai total dan setelah
pembobotan adalah 26% dari nilai total. Sedangkan Proporsi nilai Pustaka tanpa
pembobotan adalah 39% dari nilai total dan setelah pembobotan adalah 37% dari
nilai total. Nilai terbobot dari Pustaka lebih besar dari Urgensi karena karena nilai
kesamaannya adalah ±100%.
4.3.3 Pengujian 3
Keterangan pengujian
Jenis Skema : Hibah Bersaing
Judul Data Testing : Pengembangan Kanal Fleksibel Berbahan Beton
Memadat Mandiri Berserat Limbah Kaleng dan
Limbah Plastik
Id Data Hasil : 67
Judul Data Hasil : Rekayasa Beton Serat Performa Tinggi Dengan Serat
Baja Multi Dimensi
Tabel 8 Berikut ini menjelaskan nilai kesamaan tiap metadata secara detail.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
25
Table 8.Daftar nilai kesamaan metadata
metadata nilai tanpa bobot
(%) bobot
(%) nilai terbobot
judul 0.25 5 1.26 abstrak 0.35 10 3.51 masalah 0.34 7.5 2.57 urgensi 0.44 35 15.39 tujuan 0.05 7.5 0.35 pustaka 0.32 15 4.79 metode 0.26 20 5.21 Total 2.01 33.07
Hasil Analisa :
Dari pengujian 3 didapatkan nilai total kesamaan sebesar 33.07 %. Nilai
kesamaan terbobot terbesar didapat dari Urgensi yaitu sebesar 15.39%. nilai
kesamaan dari Urgensi sebelum dibobot mendekati 0.5 yang berarti cukup mirip.
Proporsi nilai Urgensi tanpa pembobotan adalah 20% dari nilai total dan setelah
pembobotan adalah 46% dari nilai total. Hal ini menunjukkan kepentingan dari
Urgensi yang tinggi dalam pada skema Hibah Bersaing.
4.3.4 Pengujian 4
Keterangan pengujian
Jenis Skema : Fundamental
Judul Data Testing : Pendidikan Ekologis Berbasis Mitos Masyarakat di
daerah Rawan Bencana di Tawangmangu, Kabupaten
Karanganyar, Jawa Tengah
Id Data Hasil : 94
Judul Data Hasil : Mitos Prabu Boko Dalam Menjaga Keseimbangan
Alam Di Dusun Pancot, Tawangmangu, Karangnyar
Tabel 9 Berikut ini menjelaskan nilai kesamaan tiap metadata secara detail.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
26
Table 9.Daftar nilai kesamaan metadata
metadata nilai tanpa bobot
(%) bobot
(%) nilai terbobot
judul 0.22 5 1.08 abstrak 0.72 5 3.61 masalah 0.92 7.5 6.89 manfaat 1.00 30 30.00 tujuan 1.00 7.5 7.50 pustaka 0.99 30 29.65 metode 0.80 15 12.03 Total 5.65 90.75
Hasil Analisa :
Dari pengujian 4 didapatkan nilai total kesamaan sebesar 90.75%. Nilai
kesamaan terbobot terbesar didapat dari Manfaatyaitu sebesar 30.00%. Dengan
melihat pada nilai kesamaan per metadata pada Manfaat dan Tujuan didapatkan
nilai kesamaan sebesar 1 yang berarti sama persis. Dapat dilihat bahwa seluruh
metadata memiliki nilai kesamaan yang besar. Pustaka juga memiliki nilai
kesamaan yang besar. Dapat dilihat bahwa seluruh bagian metadata memiliki
nilai kesamaan yang cukup besar. Oleh karena itu, pengujian ini perlu diteliti lebih
lanjut oleh seorang reviewer.
4.3.5 Pengujian 5
Keterangan pengujian
Jenis Skema : Fundamental
Judul Data Testing : Digraf Eksentrik Dari Graf Friendship Dan Graf
Firecracker
Id Data Hasil : 27
Judul Data Hasil : Pelabelan L(D,2,1) Pada Graf Star, Graf Sun Dan
Graf Wheel Untuk Pola Penentuan Channel Stasiun
Radio
Tabel 10 Berikut ini menjelaskan nilai kesamaan tiap metadata secara detail.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
27
Table 10.Daftar nilai kesamaan metadata
Metadata nilai tanpa bobot
(%) bobot
(%) nilai terbobot
Judul 0.42 5 2.10 Abstrak 0.20 5 1.02 Masalah 0.18 7.5 1.33 Manfaat 0.32 30 9.61 Tujuan 0.44 7.5 3.26 Pustaka 0.22 30 6.65 Metode 0.30 15 4.43 Total 2.08 28.41%
Hasil Analisa :
Dari pengujian 5 didapatkan nilai total kesamaan yang tidak besar,
yaitu28.41%. Nilai kesamaan terbobot terbesar didapat dari Manfaatyaitu sebesar
9.61%. sebelum pembobotan, nilai kesamaan yang terbesar adalah Judul yang
menunjukkan bahwa Judulnya cukup mirip. Namun Judul bukanlah aspek utama
dalam skema Fundamental. aspek utama dari skema Fundamental adalah Manfaat
dan Pustaka. Proporsi nilai Manfaat tanpa pembobotan adalah 15% dari nilai total
dan setelah pembobotan adalah 33% dari nilai total. Sedangkan proporsi nilai
Tujuan tanpa pembobotan adalah 21% dari nilai total dan setelah pembobotan
adalah 11% dari nilai total. Hal ini menunjukkan bahwa dengan pembobotan
Manfaat menjadi lebih penting dari pada Tujuan.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
28
4.3.6 Pengujian 6
Keterangan pengujian
Jenis Skema : Fundamental
Judul Data Testing : Karakteristik Komposit Berpori Berbahan Dasar
Sampah Sebagai Alternatif Pengganti Core Komersial
Id Data Hasil : 26
Judul Data Hasil : Rekayasa Pengaturan Epoxy/Montmorilonite
Organoclay/ Serat Gelas Untuk Mendapatkan
Komposit Nano Dengan Karakteristik Struktur Mikro
Dan Sifat Mekanis Kualitas Tinggi
Tabel 11 Berikut ini menjelaskan nilai kesamaan tiap metadata secara detail.
Table 11.Daftar nilai kesamaan metadata
Metadata nilai tanpa bobot
(%) bobot
(%) nilai terbobot
Judul 0.10 5 0.51 Abstrak 0.16 5 0.78 Masalah 0.17 7.5 1.28 Manfaat 0.72 30 21.47 Tujuan 0.17 7.5 1.31 Pustaka 0.10 30 2.98 Metode 0.21 15 3.20 Total 1.63 31.53
Hasil Analisa :
Dari pengujian 6 didapatkan nilai total kesamaan sebesar 31.53%. Nilai
kesamaan terbobot terbesar didapat dari Manfaatyaitu sebesar 21.47%.. Bobot
sebesar 30% diberikan pada Manfaat karena pada skema Fundamental manfaat
dianggap penting. Selain pada Manfaat, skema Fundamental juga berfokus pada
Pustaka sehingga diberikan bobot 30%. Pada pengujian ini nilai kesamaan
Pustaka hanya 0.10, sehingga seorang reviewer dapat melihat lebih teliti pada
Manfaat dikarenakan nilai kesamaannya yang besar.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
29
4.3.7 Pengujian 7
Keterangan pengujian
Jenis Skema : Strategis Nasional
Judul Data Testing : Manipulasi Pupuk Organik Untuk Meningkatkan
Efisiensi Pupuk Nitrogen Dan Kualitas Hasil
Tanaman Padi (Oryza Sativa L.)
Id Data Hasil : 80
Judul Data Hasil : Pengelolaan Tanaman Lorong Dan Tanaman Penutup
Tanah Sebagai Jaring Penyelamat Hara Dan
Pengendali Nitrifikasi Pada Kebun Kelapa Sawit
(Elaeis Guineensis Jacq.)
Tabel 12 Berikut ini menjelaskan nilai kesamaan tiap metadata secara detail.
Table 12.Daftar nilai kesamaan metadata
Metadata nilai tanpa bobot
(%) bobot
(%) nilai terbobot
Judul 0.03 10 0.32 Abstrak 0.26 15 3.88 Urgensi 0.25 20 5.07 Masalah 0.33 15 4.88 Manfaat 0.25 25 6.32 Tujuan 0.43 15 6.40 Total 1.55 26.86
Hasil Analisa :
Dari pengujian 7 didapatkan nilai total kesamaan yang tidak besar,
yaitu26.86%. Nilai kesamaan terbobot terbesar didapat dari Tujuan yaitu sebesar
6.40%. Meskipun Tujuan memiliki kesamaan yang cukup besar, Tujuan bukanlah
aspek utama pada skema Strategis Nasional. Pada skema Strategis Nasional,
Manfaat dan Urgensi dianggap lebih penting. Sehingga bobot yang cukup besar
diberikan pada Manfaat dan Urgensi. Pada pengujian 7 nilai kesamaan Manfaat
dan Urgensi tidaklah besar.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
30
4.3.8 Pengujian 8
Keterangan pengujian
Jenis Skema : Strategis Nasional
Judul Data Testing : Pengentasan Kemiskinan Melalui Pendekatan
Pembangunan Sistem Nafkah Berkelanjutan
(Sustainable Livelihoods Approach-Sla)
Id Data Hasil : 52
Judul Data Hasil : Harmonisasi Kebijakan Pengentasan Kemiskinan Di
Indonesia Dengan Program Millennium Development
Goals Dalam Rangka Menciptakan Iklim Kondusif
Untuk Mengurangi Kemiskinan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
31
Tabel 13 Berikut ini menjelaskan nilai kesamaan tiap metadata secara detail.
Table 13.Daftar nilai kesamaan metadata
Metadata nilai tanpa bobot
(%) bobot
(%) nilai terbobot
Judul 0.20 10 1.96 Abstrak 0.11 15 1.61 Urgensi 0.41 20 8.25 Masalah 0.43 15 6.47 Manfaat 0.23 25 5.83 Tujuan 0.03 15 0.46 Total 1.41 24.57
Hasil Analisa :
Dari pengujian 8 didapatkan nilai total kesamaan yang tidak besar, yaitu
sebesar 24.57%. Nilai kesamaan terbobot terbesar didapat dari Urgensi yaitu
sebesar 8.25%. Sebelum pembobotan nilai kesamaan yang terbesar adalah
Masalah, namun Masalah bukanlah aspek utama dalam skema Strategis Nasional
sehingga nilai terbobotnya tidak lebih besar dari Urgensi. Proporsi nilai Urgensi
tanpa pembobotan adalah 29% dari nilai total dan setelah pembobotan adalah 33%
dari nilai total. Sedangkan Proporsi nilai Masalah tanpa pembobotan adalah 30%
dari nilai total dan setelah pembobotan adalah 26% dari nilai total. Hal ini
menunjukkan bahwa dengan pembobotan Urgensi menjadi lebih penting dari pada
Masalah.
4.3.9 Pengujian 9
Keterangan pengujian
Jenis skema : Strategis Nasional
Judul data testing : Analisis Morfologi Tanaman Dan Kadar Protein Biji
Hubungannya Dengan Kualitas Hasil Olahan
Beberapa Varietas Kedelai Lokal Dan Impor
ID Data Hasil : 47
Judul data Hasil : Pencirian Tanaman Manggis (Garcinia Mangostana
L.) Di Jawa Sebagai Upaya Pemuliaan Dan
Konservasi Komoditas Buah Lokal Unggulan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
32
Tabel 14 Berikut ini menjelaskan nilai kesamaan tiap metadata secara detail.
Table 14.Daftar nilai kesamaan metadata
Metadata nilai tanpa bobot
(%) bobot
(%) nilai terbobot
Judul 0.07 10 0.66 Abstrak 0.07 15 1.01 Urgensi 0.05 20 0.99 Masalah 0.11 15 1.64 Manfaat 0.01 25 0.19 Tujuan 0.11 15 1.58 Total 0.42 6.06
Hasil Analisa :
Dari pengujian 4 didapatkan nilai total kesamaan yang rendah6.06% yang
berarti bahwa dokumen testing tidak mirip dengan data set yang memiliki Id 47.
Nilai kesamaan terbobot terbesar didapat dari Masalah yaitu sebesar 1.64%. Pada
pengujian 9 tidak didapatkan dokumen yang cukup mirip dengan data testing,
kesimpulan tersebut dapat diambil dari hasil nilai total kesamaan yang didapatkan
sangat kecil.
4.3.10 Validasi Reviewer
Dari sembilan pengujian yang dilakukan didapatkan dua pengujian yang
menghasilkan nilai kesamaan yang besar. Data hasil pengujian yang terbesar
ditunjukkan kepada reviewer untuk divalidasi. Data yang diberikan adalah data
hasil pengujian 4 yang divalidasi oleh Prof.Dr.Okid Parama Astirin, M.S. dan data
hasil pengujian 2 yang divalidasi oleh Dr. Eddy Heraldy, M.Si. Daftar validasi
pengujian ditunjukkan oleh tabel 15 berikut ini.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
33
Table 15. Tabel validasi pengujian yang dilakukan oleh reviewer
No.
Pengujian
Reviewer Validasi
Pengujian 2 Prof.Dr. Okid Parama Astirin, M.S. disetujui
Pengujian 4 Dr. Eddy Heraldy, M.Si. disetujui
Maksud dari kata disetujui pada tabel 15 adalah hasil pengujian berupa nilai
kesamaan dan cara pembobotannya dapat diterima oleh reviewer. Lebih lanjut,
Metadata dapat digunakan sebagai tindakan awal dalam mendeteksi tindakan
plagiat dalam dokumen penelitian, yaitu pada tahap perhitungan kesamaan teks
dari dokumen penelitian.Lebih jelasnya, tanggapan dari reviewer dapat dilaihat
dari lampiran b. Hasil pengujian 2 dan pengujian 4 dapat dilihat pada bagian
lampiran c.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
34
BAB V
PENUTUP
5.1 Kesimpulan
Pada penelitian ini metadata dimanfaatkan sebagai solusi untuk tindakan awal
dalam mendeteksi secara cepat kesamaan teks pada dokumen penelitian. Hal
ini menunjukkan bahwa jika program yang dibuat pada penelitian ini
digunakan, maka seorang reviewer akan lebih mudah dalam melihat kesamaan
dari banyak dokumen.Persetujuan reviewer menunjukkan bahwa penggunaan
metadata dengan pembobotan dalam menghitung kesamaan dokumen
proposal penelitian dapat diterima sebagai salah satu alat bantu dalam menilai
kesamaan secara cepat sebuah proposal penelitian.
Pemberianbobot yang berbeda besarnya pada setiap metadata dapat menjadi
solusi untuk memberikan tingkat kepentingan yang berbeda beda sesuai
dengan jenis skema.Hal ini menunjukkan bahwa pembobotan dapat
mempengaruhi proporsi nilai sebuah metadata untuk menunjukkan
kepentingannya dalam sebuah dokumen penelitian.
Untuk melihat atau menganalisa nilai kesamaan per metadata dapat dilihat
dari kolom nilai tanpa bobot, sedangkan untuk melihat atau menganalisa nilai
kesamaan dokumen secara keseluruhan dapat dilihat dari nilai terbobot.
5.2 Saran
Penerapan algoritma natural language processing akan memperbaiki nilai
kesamaan karena sistem akan memiliki knowledge dari human expert, tidak
sebatas perbandingan teks yang membuat sistem tidak mengerti arti dari kata
kata yang dibandingkan.
Pengembangan algoritma penilaian akan lebih baik jika tidak sebatas
persamaan teks saja tetapi bisa memberi keputusan apakah ada tindakan
plagiat atau tidak.