laporan kp ibm
DESCRIPTION
IBM LanguagewareTRANSCRIPT
LAPORAN KERJA PRAKTEK
Implementasi IBM Content Analytics untuk Data Berbahasa Indonesia
Di PT IBM Indonesia
Diajukan untuk memenuhi persyaratan kelulusan
Matakuliah IF4091 Kerja Praktek
oleh :
Aldo Suwandi / 13509025
Yosef Ardhito Winatmoko / 13509052
PROGRAM STUDI TEKNIK INFORMATIKA
SEKOLAH TEKNIK ELEKTRO DAN INFORMATIKA
INSTITUT TEKNOLOGI BANDUNG
2012
Lembar Pengesahan Program Studi Teknik Informatika
Implementasi IBM Content Analytics untuk Data Berbahasa Indonesia
Di PT IBM Indonesia
oleh :
Aldo Suwandi / 13509025
Yosef Ardhito Winatmoko / 13509052
disetujui dan disahkan sebagai
Laporan Kerja Praktek
Bandung,
Pembimbing Kerja Praktek Program Studi Teknik Informatika ITB
Bugi Wibowo
NIP: 999023502
i
Lembar Pengesahan
Implementasi IBM Content Analytics untuk Data Berbahasa Indonesia
Di PT IBM Indonesia
oleh :
Aldo Suwandi / 13509025
Yosef Ardhito Winatmoko / 13509052
disetujui dan disahkan sebagai
Laporan Kerja Praktek
Jakarta,
Pembimbing Kerja Praktek Pihak Perusahaan
Bunga Sugianto
ii
Abstraksi
Kerja praktek dilaksanakan dari tanggal 1 Juni 2012 sampai dengan 31 Juli 2012
di PT. IBM Indonesia. Divisi tempat pelaksanaan Kerja Praktek adalah Software
Group (SWG) pada subdivisi industry solution dengan fokus salah satu produk
dengan tipe enterprise content management (ECM) yaitu IBM Content Analytics
(ICA). ICA merupakan salah satu produk dari IBM yang digunakan untuk
menganalisis sekumpulan data, baik data terstruktur maupun data tidak terstruktur
terutama dalam jumlah besar dengan tujuan mempermudah pengguna melihat
pola dan mendapatkan pengetahuan dari sekumpulan data tersebut. Tugas yang
diberikan adalah untuk membuat prototipe bahasa baru pada ICA yaitu bahasa
Indonesia karena ICA belum memiliki kemampuan untuk menganalisis dokumen
berbahasa Indonesia. Hal ini penting untuk memasarkan produk ICA di Indonesia
tentu saja membutuhkan bahasa Indonesia untuk diimplementasikan dalam ICA.
Pembangunan bahasa baru pada ICA umumnya memakan waktu lebih dari 2
bulan sehingga pihak perusahaan hanya mengharapkan prototipe yang
menggambarkan bahwa ICA memang dapat digunakan untuk bahasa Indonesia.
Pada akhir KP didapatkan bahwa ICA v2.2 belum memiliki fungsional
penambahan bahasa namun tetap dapat ditunjukkan bahwa sebetulnya ICA dapat
memproses data dalam berbagai macam bahasa menggunakan konfigurasi dan
library yang tepat.
iii
Daftar Isi
Bab I Pendahuluan...............................................................I-12
I.1 Latar belakang........................................................................................I-12
I.2 Lingkup..................................................................................................I-12
I.3 Tujuan....................................................................................................I-13
Bab II Organisasi dan Lingkungan Kerja Praktek.............II-1
II.1 Struktur Perusahaan................................................................................II-1
II.2 Lingkup Pekerjaan..................................................................................II-2
II.3 Deskripsi Pekerjaan................................................................................II-2
II.4 Jadwal Kerja...........................................................................................II-3
Bab III Pembangunan Prototipe Library Bahasa IndonesiaIII-1
III.1 Briefing dan Pengenalan Lingkungan Kerja Praktek.........................III-1
III.2 Eksplorasi IBM Content Analytics....................................................III-2
III.3 Presentasi Hasil Eksplorasi Awal......................................................III-3
III.4 Pembangunan Library dan Implementasi..........................................III-4
III.4.1 Eksplorasi IBM LanguageWare Resource Workbench...............III-4
III.4.2 Pembangunan UIMA Pipeline.....................................................III-5
III.4.3 Pembangunan Custom Rules dan Dictionaries...........................III-6
III.4.4 Implementasi Web Crawler IBM Content Analytics..................III-6
III.4.5 Pembangunan Gender Classificator dan Sentiment Analyzer.....III-7
III.4.6 Integrasi Prototipe Library dengan IBM Content Analysis.........III-8
III.4.7 Menentukan Skenario Pengujian Library Bahasa Indonesia.......III-9
III.5 Presentasi Final Hasil Pembuatan Prototipe Library.......................III-10
Bab IV Penutup..................................................................IV-1
IV.1 Kesimpulan........................................................................................IV-1
IV.2 Saran..................................................................................................IV-1
Lampiran A. Term Of References...............................................1
Lampiran B. Log Activity............................................................1
v
Daftar Singkatan
ECM : Enterprise Content Management
IBM : International Business Machine
SWG : Software Group
GTS : General Technical Service
ICA : IBM Content Analytics
UIMA : Unstructured Information Management Architecture
CAS : Common Analysis Structure
LRW : Languangeware Resource Workbench
vi
7
Bab I Pendahuluan
I.1 Latar belakang
IBM merupakan perusahaan yang bergerak dibidang information
technology and services terutama mendukung kinerja bisnis dari sebuah
perusahaan. Tidak seperti perusahaan IT pada umumnya yang menjual software
dengan target end-user, IBM menjual produk baik perangkat lunak maupun
perangkat keras yang bertindak sebagai middleware sistem sebuah perusahaan.
IBM mempunyai visi yaitu Build Smarter Planet, visi tersebut memiliki
maksud bahwa dengan berbagai macam tantangan dan krisis yang saat ini dunia
tengah hadapi, cara yang paling baik untuk melewatinya adalah dengan bertindak
kreatif, efektif, dan efisien sehingga solusi yang dilakukan tidak lagi
menimbulkan masalah lain. Bertolak dari visi tersebut, produk IBM bertujuan
membantu perusahaan untuk bertindak secara cerdas dalam melakukan aktivitas
bisnisnya sehari-hari sehingga diharapkan selain memperoleh keuntungan yang
maksimal juga tetap dapat menjaga keseimbangan lingkungan.
Dalam mewujudkan visi tersebut, IBM berusaha untuk menjawab berbagai
macam masalah yang ada di dunia ini dengan berbagai macam produk yang telah
dihasilkan baik dalam bentuk perangkat keras, perangkat lunak, dan jasa
konsultan. Pada kesempatan Kerja Praktek (KP) tugas yang didapatkan adalah
melakukan konfigurasi aplikasi IBM Content Analytics (ICA) dengan
membangun sebuah prototipe library baru yaitu untuk menangani data berbahasa
Indonesia. Hasil akhir yang diharapkan adalah untuk dapat membuktikan bahwa
library yang dibangun memberikan hasil yang cukup baik untuk digunakan oleh
pihak IBM dalam menawarkan produk tersebut kepada calon konsumen.
8
I.2 Lingkup
Tanggung jawab yang diberikan adalah untuk membuat sebuah prototipe
library bahasa Indonesia yang dapat dimanfaatkan untuk melakukan analisis
terhadap suatu kasus yang ditentukan oleh mentor KP. Pembangunan library
dilakukan menggunakan dua aplikasi tambahan yaitu IBM LanguageWare
Resource Workbench dan IBM Classification Module. Ada 2 contoh kasus yang
kemudian diberikan. Kasus pertama adalah memanfaatkan data berita online
untuk mengetahui karakteristik permasalahan yang ada di DKI Jakarta. Sementara
kasus kedua merupakan kasus cadangan yaitu melakukan analisis terhadap
perilaku masyarakat pada media sosial twitter dalam rangka pemilihan kepala
daerah (Pilkada) DKI Jakarta 2012.
I.3 Tujuan
IBM merupakan perusahaan yang memiliki tujuan untuk meningkatkan
keuntungan bisnis dari sebuah perusahaan selalu melakukan inovasi terhadap
dunia teknologi. Berdasarkan hal tersebut, tujuan awal melaksanakan KP di
sebuah perusahaan yang sudah lama berdiri yaitu IBM adalah untuk mengetahui
bagaimana sebuah perusahaan IT dapat menjadi sebuah penopang untuk
meningkatkan kinerja, keuntungan, dan kualitas dari sebuah bisnis dengan cara
yang cerdas.
Dilihat dari segi perusahaan, tujuan dari tugas yang diberikan adalah
sebagai sarana menawarkan produk ICA kepada calon konsumen di Indonesia.
Umumnya implementasi dan konfigurasi produk IBM dilakukan langsung oleh
teknisi dari IBM pusat. Dalam konfigurasi yang kali ini tentu saja tidak dapat
dilakukan oleh teknisi selain orang Indonesia karena harus memanfaatkan
pengetahuan mengenai bahasa Indonesia yang baik. Pihak IBM mengharapkan
sebuah prototipe yang kemudian dapat digunakan sebagai sarana yang
memberikan gambaran mengenai kegunaan ICA sekaligus membuktikan bahwa
ICA dapat berjalan untuk data berbahasa Indonesia. Berbagai calon konsumen
yang dimiliki oleh IBM biasanya merupakan perusahaan yang berdomisili di DKI
9
Jakarta, oleh karena itu mentor KP memberikan contoh kasus yang berhubungan
dengan DKI Jakarta. Pada akhirnya, pihak perusahaan akan memanfaatkan hasil
KP untuk ditunjukkan kepada business partner dan calon konsumen IBM saat
memberikan penawaran mengenai perangkat lunak ICA.
Bab II Organisasi dan Lingkungan Kerja Praktek
II.1 Struktur Perusahaan
PT IBM Indonesia merupakan salah satu cabang dari perusahaan
multinasional International Business Machine Corp. yang berpusat di Armonk,
New York, Amerika Serikat. Sebagian besar dari pegawai PT IBM Indonesia
merupakan pihak sales yang bertugas mencari opportunity di berbagai perusahaan
di Indonesia dan menawarkan berbagai macam produk IBM. Secara struktural, PT
IBM Indonesia membagi jabatan untuk pegawai dengan melihat pada fungsional
dari divisi yang ada. Struktur lengkap dari PT IBM Indonesia dapat dilihat pada
Gambar 1. Divisi yang menjadi tempat KP adalah Software Group (SWG), lebih
tepatnya merupakan bagian dari industry solution yang fokus pada produk dengan
tipe enterprise content management (ECM). ECM adalah berbagai produk IBM
yang bergerak di bidang manajemen sumber daya informasi yang dimiliki suatu
perusahaan.
Gambar 1. Struktur Perusahaan PT IBM Indonesia
1
2
II.2 Lingkup Pekerjaan
Di dalam ECM secara umum terdapat tujuh produk berbeda dan tugas
yang diberikan adalah konfigurasi produk yang bernama IBM Content Analytics
(ICA). Dalam mendukung konfigurasi yang dilakukan terhadap ICA terdapat dua
aplikasi tambahan yaitu IBM LanguageWare Resource Workbench dan IBM
Classification Module.
Lingkup pekerjaan adalah untuk membangun dan mengimplementasikan
sebuah prototipe library bahasa Indonesia untuk ICA sehingga dapat
menunjukkan fungsionalitas ICA secara umum kepada calon konsumen.
Pembangunan library secara lengkap diestimasi membutuhkan waktu lebih dari
empat bulan. Oleh karena itu pihak perusahaan tidak mengharapkan library yang
sangat lengkap, cukup untuk dapat memberikan gambaran umum ICA baru
kemudian akan secara lengkap dibangun library yang lebih baik setelah
mendapatkan konsumen dan domain permasalahan yang lebih spesifik.
II.3 Deskripsi Pekerjaan
Divisi tempat KP dilaksanakan adalah software group (SWG), yaitu divisi
yang bekerja menawarkan produk perangkat lunak IBM sebagai solusi bisnis
perusahaan – perusahaan di Indonesia. Secara garis besar SWG diisi oleh dua
macam karyawan yaitu product sales dan technical sales. SWG terdiri dari 7
subdivisi sesuai dengan jensi produk perangkat lunak yang ditawarkan, salah
satunya yaitu industry solution. Subdivisi tersebut saat ini tengah menjadi fokus
dari PT IBM Indonesia karena cenderung baru dan memiliki banyak produk yang
belum diimplementasi di Indonesia.
Tugas yang didapatkan adalah untuk membuat contoh penggunaan produk
IBM yang paling baru yaitu IBM Content Analytics (ICA) dalam mengolah teks
dan dokumen berbahasa Indonesia. ICA sendiri awalnya tidak mendukung
pengolahan bahasa Indonesia. Beberapa bahasa yang sudah didukung oleh ICA
adalah bahasa inggris, jerman, prancis, dan thailand. Perlu dilakukan pembuatan
library baru yang dapat dimanfaatkan dalam ICA dengan menggunakan IBM
3
LanguageWare Resource Workbench (LRW). Setelah pembuatan prototipe
library selesai dilakukan, prototipe tersebut harus dapat dibuktikan dapat
berfungsi dengan baik yaitu dengan menggunakannya untuk menangani dua buah
contoh kasus terkait DKI Jakarta. Setelah prototipe dinyatakan dapat diterima
sebagai sarana penawaran ICA pada business partner dan calon konsumen IBM
maka tugas KP akan dianggap selesai.
II.4 Jadwal Kerja
Tanggal Kegiatan
1 Juni 2012 Mengenal lingkungan IBM
Mengenal latar belakang ICA
Mempelajari business benefit yang dihasilkan oleh IBM
secara umum dan ICA secara khusus
4 Juni 2012 Mendalami segi teknikal dari ICA
Menerima resource yang dibutuhkan untuk digunakan
selama kegiatan KP
5 Juni 2012 –
17 Juni 2012
Eksplorasi ICA secara mendalam
Implementasi ICA untuk contoh kasus data dalam
bahasa inggris
18 Juni 2012 Presentasi awal: teknikal, sales, dan demo ICA untuk
data dalam bahasa inggris
19 Juni 2012 –
20 Juli 2012
Membangun prototipe library bahasa Indonesia
menggunakan LRW
23 Juli 2012 –
26 Juli 2012
Membuat dokumentasi hasil kerja praktek
27 Juli 2012 Presentasi final: menggunakan ICA untuk analisis data
dalam bahasa Indonesia.
Tabel I. Jadwal kerja yang dilakukan saat KP
Bab III Pembangunan Prototipe Library Bahasa Indonesia
III.1 Briefing dan Pengenalan Lingkungan Kerja Praktek
Kegiatan KP diawali dengan mengurus administrasi dan mendapatkan
penjelasan mengenai lingkungan kerja, seperti pengenalan struktur perusahaan,
rutinitas kegiatan perusahaan, dan lingkup kegiatan yang akan dikerjakan.
Pengurusan administrasi adalah kegiatan memenuhi persyaratan untuk memulai
kerja praktek seperti menandatangani kontrak pekerjaan yang berisi peraturan,
waktu kerja, batasan, dan kegiatan pekerjaan. Setelah itu dibuat identitas pengenal
sementara sebagai kartu identitas untuk keluar masuk lingkungan kerja yang
memakan waktu sampai 1 hari kerja.
Di awal minggu pertama kerja diberikan briefing oleh mentor KP bernama
Bunga Sugiarto. Briefing diawali dengan penjelasan struktur dan pembagian divisi
yang ada di PT. IBM Indonesia ini, kemudian penjelasan mengenai produk dan
layanan apa saja yang diberikan oleh IBM di dalam masing – masing struktur, dan
terakhir adalah mengenai kegiatan dan target yang akan dilakukan selama dua
bulan ke depan.
Tugas yang diberikan sebagai awal KP adalah untuk mempelajari salah
satu produk dari IBM yang masih tergolong cukup baru, yang bernama IBM
Content Analytics (ICA). Sebagai langkah awal dalam mempelajari ICA mentor
memberikan waktu selama dua minggu untuk melakukan eksplorasi dan
mempelajari fitur, alur kerja, dan keuntungan bisnis dari ICA. Eksplorasi
dilakukan untuk memanfaatkan ICA sehingga dapat menganalisis data berbahasa
Indonesia sebagai tujuan utama KP.
Sebagai bukti eksplorasi ICA, mentor menjadwalkan sebuah presentasi
pengenalan dan manfaat ICA dari segi bisnis dan teknis pada minggu ke-3.
Presentasi disertai dengan beberapa studi kasus yang dapat menunjukan kegunaan
dari ICA. Setelah itu, diberi kesempatan untuk menghadiri unit meeting dan
penjelasan mengenai ICA oleh technical sales dari PT IBM Indonesia bersama
business partner dari IBM. Unit meeting merupakan meeting bulanan yang rutin
dilaksanakan untuk membahas proyek dan target apa yang menjadi checkpoint
1
2
dalam 1 bulan ke depan. Fasilitas yang diberikan perusahaan untuk
mengakomodasi pengerjaan tugas adalah sebuah laptop disertai vmware image
yang berisi aplikasi ICA untuk dieksplorasi dan dipelajari selama kegiatan KP.
III.2 Eksplorasi IBM Content Analytics
Pada minggu pertama dan kedua, dilakukan eksplorasi ICA dan persiapan
presentasi dilakukan untuk mencapai tujuan dari KP. Eksplorasi dilakukan
dengan sumber berupa IBM Redbook yaitu buku panduan mengenai IBM Content
Analytics dan berbagai video tutorial terkait IBM Content Analytics dan IBM
LanguageWare Resource Workbench yang diberikan oleh mentor. Untuk lebih
memahami mengenai kerja dari pada ICA dipelajari juga cara kerja dari text
mining, natural language processing, dan spesifikasi unstructured information
management architecture (UIMA) pipeline yang menjadi dasar cara kerja ICA.
Selanjutnya untuk membantu memudahkan proses eksplorasi dan
presentasi ICA maka dicari dataset sebagai bahan untuk studi kasus dan juga
demo hasil eksplorasi. Didapatkanlah dataset sejumlah 20 ribu berita dari data
reuter tahun 1987, yang secara umum berisi tentang mengenai kegiatan ekonomi
di Negara Amerika. Berdasarkan karakteristik dataset yang ditemukan maka
ditentukan demo akan dilakukan berkaitan mengenai saham dari perusahaan –
perusahaan di Amerika pada tahun 1987.
Tahapan berikutnya adalah penentuan topik yang pas untuk demo dengan
pembuatan facet atau kategori apa yang cocok. Hal ini bertujuan agar mentor
dapat mengerti maksud dan tujuan akhir dari studi kasus yang dipilih ini.
Kemudian dicari kata – kata apa saja yang menjadi sinonim dalam sebuah
kategori terutama kata – kata yang sering muncul pada domain berita terkait
saham perusahaan. Misalkan dalam kategori bankrupt maka kata – kata atau
keyword yang cocok adalah failed, loss, poor, dan lain sebagainya. Metode yang
digunakan untuk mendapatkan sinonim dari kata adalah secara manual melihat
kamus bahasa inggris dan mendaftarkan satu per satu ke dalam ICA sesuai dengan
fungsional sinonim yang diberikan pada aplikasi.
3
III.3 Presentasi Hasil Eksplorasi Awal
Presentasi dihadiri oleh mentor dari pihak perusahaan, yaitu Bu Bunga
selaku bagian product sales dari ECM dan Pak Juan selaku technical sales dari
ICA. Presentasi ini secara umum dibagi menjadi empat bagian yaitu mengenai
keuntungan ICA dari segi bisnis, penjelasan dari segi teknis atas bagaimana ICA
bekerja, demo mengenai fitur – fitur yang ada di ICA, dan terakhir adalah studi
kasus untuk membuktikan kemampuan dari ICA itu sendiri.
Pertama, mengenai keuntungan ICA dari segi bisnis ini keuntungan bisnis
apa yang diperoleh bagi customer apabila ingin menggunakan ICA sebagai alat
bantu analisis mereka dalam mengambil keputusan bisnis, cerita menarik
mengenai berbagai perusahaan yang telah meningkat keuntungannya setelah
menggunakan ICA.
Presentasi bagian kedua adalah mengenai bagaimana ICA bekerja secara
teknis. Pada bagian ini, dipaparkan proses kerja dari ICA baik dari awal (input),
lalu proses data, dan hasil akhir (output) yang nantinya akan berguna bagi end
user dan juga tentang 3 komponen yang menjadi penggerak utama ICA, yaitu
Administration Console, Search App, dan Text Miner.
Pada bagian ketiga, dilakan demo mengenai fitur yang terdapat di dalam
ICA dengan cara mempraktekan alur kerja dari awal penggunaan ICA yaitu
memasukkan dataset, melakukan konfigurasi, dan terakhir memanfaatkan fitur
text miner di ICA untuk mengolah hasil akhir.
Lalu dibagian akhir presentasi, didemokan pemanfaatan ICA untuk
mencari sebuah permasalahan dan pembuktiannya. Sebagai contoh, ICA dapat
dimanfaatkan untuk menemukan bahwa perusahaan Japan Airline (JAL)
mengalami penurunan saham yang sangat drastis dari dataset yang diproses,
karena banyaknya pesawat JAL yang mengalami kecelakaan saat itu. Apabila
diasumsikan bahwa pengguna ICA sebagai pembeli saham ingin membeli saham
dari JAL, maka sebaiknya tidak melakukan hal tersebut melihat hasil analisis
diketahui bahwa JAL adalah perusahaan yang hampir bangkrut. Lalu sebagai
pembuktiannya dicarilah berita pembenaran bahwa perusahaan JAL memang
mengalam kebangkrutan sekitar 10 tahun setelah berita tersebut dikeluarkan.
4
III.4 Pembangunan Library dan Implementasi
Prototipe library bahasa Indonesia dibangun dengan melalui beberapa
tahap yaitu eksplorasi IBM LRW sebagai tools yang akan digunakan dalam
pembangunan library. Setelah eksplorasi dilakukan maka akan dimulai
pembangunan library. IBM Content Analytics memanfaatkan UIMA pipeline
sebagai tahapan pemrosesan teks oleh sebab itu kegiatan berikutnya adalah
pembangunan UIMA pipeline yang sesuai dengan bahasa Indonesia. Untuk
melengkapi pemrosesan bahasa yang sudah dilakukan pada pembangunan UIMA,
library perlu ditambahkan custom rules dan dictionaries. Contoh rules yang
dimaksud adalah aturan imbuhan pada bahasa Indonesia, sementara contoh
dictionaries adalah daftar nama tempat di Indonesia.
Setelah pembangunan library selesai dilakukan tentu saja akan dilakukan
uji coba. Dalam melakukan uji coba akan memanfaatkan web crawler yang
dimiliki ICA dan custom crawler. Langkah berikutnya adalah melihat
karakteristik dari data yang berhasil dikumpulkan untuk melakukan optimasi
terhadap konfigurasi ICA agar mendapatkan sumber analisis yang baik yaitu
dengan membuat gender classificator dan sentiment analyzer. Setelah proses
optimasi konfigurasi selesai dilakukan kemudian library diintegrasikan dengan
ICA sehingga perancangan skenario pengujian library dapat dilakukan.
5
III.4.1 Eksplorasi IBM LanguageWare Resource Workbench
Proses implementasi diawali dengan eksplorasi tools baru yang akan
digunakan yaitu IBM LanguageWare Resource Workbench (LRW). Eksplorasi
yang dilakukan memanfaatkan dokumen teknis dan forum diskusi yang dimiliki
oleh IBM. Selain itu terdapat video mengenai bagaimana memanfaatkan LRW
untuk menambahkan bahasa baru dan ekspor hasil pembangunan ke IBM Content
Analytics.
Tidak ada kesulitan berarti yang ditemukan pada proses eksplorasi LRW
karena memang dokumentasi yang dimiliki tergolong lengkap dan jelas.
Bagaimanapun pada LRW ditemukan bahwa diperlukan pemahaman yang baik
mengenai regular expression sehingga perlu dilakukan eksplorasi mengenai
regular expression secara mendalam. Regular expression ini sendiri digunakan
sebagai representasi aturan - aturan tata bahasa pada LRW.
III.4.2 Pembangunan UIMA Pipeline
Pembangunan bahasa baru dimulai dengan mengikuti UIMA pipeline.
Fase pertama yang dibangun adalah language identification. Pada fase ini LRW
menggunakan sejumlah kata yang spesifik meningkatkan kemungkinan bahwa
sebuah dokumen ditulis dengan bahasa tertentu. Kata yang dipilih adalah kata -
kata umum yang biasa digunakan pada bahasa Indonesia tetapi jarang muncul
pada bahasa lain yang umum seperti adalah, yang, karena, dan jika. Tidak terlalu
banyak perhatian yang diperlukan pada fase ini karena terdapat asumsi bahwa
semua dokumen yang didapatkan sebagai bahan analisis memang spesifik
dituliskan dalam bahasa Indonesia.
Dalam membangun dasar suatu bahasa, selain membutuhkan language
identification juga membutuhkan lexical dictionaries. Lexical dictionaries secara
sederhana adalah perbendaharaan kata pada bahasa disertai part-of-speech masing
- masing kata. Proses pembangunan lexical dictionaries ini memakan waktu
cukup lama karena dibutuhkan daftar seluruh kata yang ada pada bahasa Indonesia
disertai dengan posisi kata tersebut yang mungkin pada kalimat.
6
Usaha yang dilakukan pada awalnya adalah dengan menghubungi
departemen pendidikan dan budaya untuk meminta secara khusus daftar kata
bahasa Indonesia. Namun setelah 1 kali membalas surel ternyata tidak ada
jawaban lagi sehingga dibutuhkan cara lain untuk menemukan daftar kata bahasa
Indonesia. Usaha berikutnya yang dilakukan adalah dengan melakukan crawling
pada situs kbbi online (http://pusatbahasa.kemdiknas.go.id/kbbi/) untuk
mendapatkan semua kata yang ada pada website kbbi online tersebut beserta part-
of-speech masing - masing kata. Didapatkan lebih kurang 35.000 kata dari website
tersebut. Karena proyek kali ini adalah pembangunan prototipe, kumpulan kata
yang diperlukan cukup sampai memenuhi kata – kata yang umum digunakan pada
dokumen resmi bahasa Indonesia.
7
III.4.3 Pembangunan Custom Rules dan Dictionaries
Kegiatan berikutnya yang dilakukan adalah pembangunan custom rule dan
dictionary untuk bahasa Indonesia. Rule dan dictionary yang dimaksud disini
adalah aturan - aturan yang ada pada bahasa Indonesia dalam menyatakan sebuah
kata memiliki karakteristik khusus. Misalnya, pada umumnya imbuhan awal pe-
umumnya akan membentuk kata benda. Sementara itu, dictionary yang dimaksud
disini adalah daftar kata yang tidak terdapat pada lexical dictionary tetapi
memiliki makna khusus. Contoh yang paling mudah adalah daftar nama orang
yang sering muncul pada berita online. Selain nama orang, beberapa kamus yang
disimpan adalah nama gedung, nama jalan, nama kabupaten, nama kecamatan,
nama organisasi, dan nama instansi akademik yang terdapat di DKI Jakarta,
terutama yang sering muncul di berita online detik dan kompas. Mentor KP juga
turut serta memberikan masukan dalam menentukan dictionary yang dibutuhkan.
III.4.4 Implementasi Web Crawler IBM Content Analytics
Setelah secara umum menyelesaikan aturan - aturan dan kamus - kamus
yang diperlukan untuk bahasa Indonesia, dilakukan eksplorasi mengenai web
crawler yang memang dimiliki IBM Content Analytics v2.2. Awalnya web
crawler tidak bisa dijalankan karena permasalahan koneksi internet yang perlu
konfigurasi tambahan, hal ini disebabkan IBM Content Analytics yang digunakan
dijalankan pada virtual machine.
Setelah melakukan konfigurasi pada network vmware, web crawling detik
dan kompas dijalankan untuk mendapatkan dokumen - dokumen berupa berita
yang terdapat pada detik dan kompas. Selama 6 jam didapatkan lebih kurang
30.000 dokumen berita dari detik dan kompas. Dari sini ternyata didapatkan
masalah pada hasil penelusuran yang dilakukan oleh web crawler IBM Content
Analytics yaitu perilaku data preprocessing yang tidak sesuai dengan keinginan.
Parsing HTML yang dilakukan oleh IBM Content Analytics tidak memberikan
hasil yang baik disebabkan halaman HTML dari detik dan kompas memang
menggunakan struktur tag yang tidak dimengerti oleh IBM Content Analytics.
8
Untuk mengantisipasi kelemahan web crawler yang akan menggangu
pengujian library baru yang akan dibuat maka dilakukan inisiasi untuk kasus
cadangan yang tidak melibatkan web crawler dari IBM Content Analytics,
selanjutnya disebut contoh kasus 2. Telah terdapat indikasi bahwa ternyata web
crawler tidak menghasilkan dokumen yang diinginkan maka sebaiknya untuk
dapat memastikan bahwa dokumen bahan analisis dalam kondisi baik, digunakan
format XML yang sudah dibuktikan pada langkah sebelumnya menghasilkan
sumber analisis yang baik. Dalam menentukan kasus cadangan didasarkan pada
pilihan lain yang sebenarnya diberikan oleh mentor dari perusahaan selain kasus
permasalahan di DKI Jakarta yaitu mengenai pemilihan gubernur DKI Jakarta.
Opsi yang ditawarkan adalah melakukan analisis pada media sosial untuk melihat
perilaku masyarakat DKI Jakarta dalam menyikapi Pilkada DKI Jakarta 2012.
III.4.5 Pembangunan Gender Classificator dan Sentiment Analyzer
Kasus analisis pemilihan kepala daerah DKI Jakarta menggunakan twitter
tentu saja membutuhkan sumber data berisi kumpulan tweet yang terkait pada
proses pemilihan kepala daerah. Untuk dapat mengumpulkan tweet tersebut maka
penulis membuat sebuah custom crawler dengan bahasa python dan
memanfaatkan Twitter API. Hasil pengumpulan tweet memberikan jumlah yaitu
lebih kurang 200.000 tweet dari 10 hari. Pada kasus ini, kemungkinan kesalahan
pada struktur dokumen dihilangkan dengan melakukan praproses terhadap tweet
yang didapatkan dari Twitter API menjadi XML document yang dapat dimengerti
oleh IBM Content Analytics.
9
Sebetulnya selain LRW terdapat satu perangkat lunak lagi yang dapat
diintegrasikan dengan IBM Content Analytics yaitu IBM Classification Module.
Modul tambahan ini pada dasarnya merupakan ekstensi IBM Content Analytics
dari segi machine learning. IBM Classification Module memungkinkan pengguna
IBM Content Analytics untuk menentukan tipe facet sebuah dokumen tanpa
menggunakan kata kunci melainkan menggunakan sekumpulan dokumen yang
dijadikan contoh (training set). Dalam menentukan sikap masyarakat DKI Jakarta
melalui twitter dibutuhkan pengetahuan mengenai apakah masayarakat DKI
Jakarta memberikan respon positif atau negatif terhadap Pilkada. Salah satu
metode yang dapat digunakan untuk memenuhi kebutuhan tersebut adalah dengan
memanfaatkan sentiment analysis yang dapat dilakukan dengan menggunakan
IBM Content Analytics.
Pada percobaan yang dilakukan untuk memanfaatkan IBM Classification
Module ternyata ditemukan bahwa aplikasi harus berjalan di atas operating system
32-bit. Dengan ketentuan tersebut berarti IBM Classification Module tidak dapat
dimanfaatkan karena virtual machine yang digunakan merupakan operating
system 64-bit. Untuk mengantisipasi hal ini, pada praproses dokumen sumber
analisis ditambahkan sebuah langkah baru yaitu penentuan gender dan menuliskan
sentimen analysis.
10
Pembangunan mesin klasifikasi didasarkan sesuai dengan algoritma yang
digunakan oleh IBM Classification Module yaitu bayesian network. Perangkat
praproses ini menggunakan bahasa python dan menggunakan fitur sederhana yaitu
3 huruf terakhir nama sebagai penentu jenis kelamin seseorang dan bag of word
pada sentiment analysis. Perangkat pendeteksi jenis kelamin memberikan hasil
yang memuaskan yaitu 93% dengan pengujian menggunakan 10-fold cross
validation. Dataset yang dimanfaatkan adalah 1000 nama hasil crawling twitter
yang dilabeli secara manual sebagai training set. Sementara untuk sentiment
analysis yang dibangun hanya menggunakan 300 tweet sebagai dokumen latihan
yang dilabeli positif, negatif, atau tidak dapat ditentukan. Berbeda dengan
klasifikasi jenis kelamin, sentiment analyzer yang dibangun hanya memberikan
hasil kurasi lebih kurang 60% dengan pengujian menggunakan 10-fold cross
validation.
III.4.6 Integrasi Prototipe Library dengan IBM Content Analysis
Setelah berhasil membangun custom pipeline dan mendapatkan
sekumpulan dokumen untuk pengujian awal maka dilanjutkan dengan
implementasi di IBM Content Analytics itu sendiri. Pada saat melakukan ekspor
dari LRW ke IBM Content Analytics terdapat sebuah masalah yang fatal.
Ternyata IBM Content Analytics v2.2 tidak menyediakan fitur penambahan
bahasa. Terkait permasalahan ini juga sempat ditanyakan kepada pihak IBM yang
terdapat di Australia sebagai developer IBM Content Analytics namun tidak
mendapatkan jawaban yang memuaskan karena kemudian pertanyaan hanya
diteruskan ke pihak – pihak lain tanpa jawaban.
11
Untuk mengatasi permasalahan yang dihadapi maka dilakukan
perombakan pada konsep pipeline yang dibuat, bahasa yang digunakan pada
dasarnya tetap inggris namun penulis menambahkan kamus kata bahasa inggris
dengan perbendaharaan kata bahasa Indonesia. Selain kata, diperlukan modifikasi
aturan - aturan yang bersesuaian dengan bahasa Indonesia. Kesulitan utama
pembangunan aturan adalah bagaimana merepresentasikan begitu banyaknya
kemungkinan kombinasi imbuhan dengan kata. Dengan menambahkan beberapa
kata hasil penggabungan dengan imbuhan berhasil didapatkan lebih kurang
74.000 kata sebagai lexical dictionary akhir pipeline yang dibangun.
III.4.7 Menentukan Skenario Pengujian Library Bahasa Indonesia
Bagian terakhir yang dikerjakan sebetulnya mengulangi apa yang
dikerjakan pada fase sebelum presentasi awal namun dengan dua buah collection
yang berbeda yaitu dokumen berita online dan dokumen tweet. Tujuan pada
bagian ini adalah menemukan skenario yang tepat sebagai contoh yang dapat
digunakan pada saat presentasi final dilakukan.
Pada tahap ini ditemukan bahwa dokumen berita online memberikan
kondisi analisis yang buruk karena itu proses pembuatan skenario lebih
ditekankan pada backup case. Untuk mendapatkan skenario yang sesuai,
dilakukan konfigurasi pada IBM Content Analytics seperti pohon facet yang
digunakan, perbaikan skema XML yang digunakan, dan bagaimana alur
pencapaian skenario. Setelah melakukan berbagai pengujian dan konfigurasi maka
ditentukan bahwa contoh kasus yang akan dimanfaatkan adalah contoh kasus
cadangan dengan 4 buah skenario yaitu: memprediksi kondisi akhir pemilihan
pada putaran 1, mendapatkan bahwa efek sebuah posting blog yang cukup
signifikan, tindakan pasangan foke-nara yang menyebabkan pengaruh buruk, dan
memprediksi hasil putaran 2 hanya dengan melihat reaksi masyarakat terhadap
hasil quick count putaran 1.
12
III.5 Presentasi Final Hasil Pembuatan Prototipe Library
Tujuan dari presentasi kedua adalah untuk membuktikan bahwa hasil
pembangunan prototipe library bahasa Indonesia pada IBM Content Analytics
berhasil dengan menggunakan dua buah contoh kasus. Contoh kasus pertama
adalah analisis permasalahan DKI Jakarta dengan memanfaatkan website berita
detik.com dan kompas.com. Kasus kedua yang akan digunakan adalah analisis
pemilihan kepala daerah (pilkada) DKI Jakarta putaran pertama dengan sumber
data twitter. Dengan demikian bagian yang akan dijelaskan pada presentasi ini
adalah mengenai langkah - langkah pembangunan library baru bahasa Indonesia,
masalah - masalah yang ditemui, hasil implementasi untuk contoh kasus, dan
pengembangan apa yang perlu dilakukan berikutnya.
Pihak perusahaan yang mengikuti presentasi ini ada tiga peserta yaitu
channel manager PT IBM Indonesia, mentor KP, dan salah satu rekan kerja
mentor. Presentasi berlangsung selama 3 jam, terdiri dari 1 jam presentasi, 1 jam
pemaparan contoh kasus, dan 1 jam tanya jawab. Untuk kelancaran presentasi ini
telah disiapkan 5 buah video yang akan digunakan sebagai sarana penjelasan
contoh kasus 2 karena jika dilakukan secara langsung akan membutuhkan waktu
yang lama. Secara umum presentasi berjalan dengan lancar, terdapat diskusi
mengenai apa yang menyebabkan contoh kasus 1 dinyatakan tidak sesuai harapan
dan mengenai 4 skenario untuk contoh kasus 2.
Contoh kasus 1 yaitu mengenai analisis permasalan DKI Jakarta
dinyatakan tidak sesuai dengan hasil yang diharapkan karena fitur web crawling
yang dimiliki oleh IBM Content Analytics tidak berhasil melakukan parsing
halaman HTML website detik.com dan kompas.com. Dokumen hasil crawling
yang dihasilkan tidak dapat diolah, dengan demikian bagian - bagian yang tidak
diinginkan dari web pages yang didapatkan justru masuk ke dalam bahan analisis
sehingga mengganggu proses discovery. Salah satu contoh kelemahan yang
terlihat adalah bahwa terdapat frekuensi tidak wajar dari kata 'kebakaran'.
Ternyata setelah dianalisis ditemukan bahwa selain memang terdapat beberapa
berita yang menyebutkan kata 'kebakaran', pada setiap dokumen yang berhasil
didapatkan dari website detik.com menuliskan 'nomor telepon pemadam
13
kebakaran'. Sebenarnya analisis yang dilakukan cukup mengambil data judul dan
isi berita saja. Untuk komentar dan bagian lain memang tidak perlu dimasukkan
ke dalam bahan analisis tetapi IBM Content Analytics v2.2 yang digunakan tidak
menyediakan fitur ini pada web crawling.
Terdapat permasalahan pada dokumen yang diperoleh mengenai contoh
kasus 1 dari fase web crawling detik.com dan kompas.com. Untuk portal berita
kompas sendiri justru menghasilkan dokumen yang tidak dapat dianalisis karena
penggunaan karakter tidak wajar pada web pagesnya. Pada setiap dokumen yang
didapatkan dari kompas.com ternyata hanya menghasilkan pesan kesalahan
disallowed key character yang berarti dokumen tidak dapat digunakan untuk
analisis. Permasalahan yang muncul juga dari kedua portal berita berbahasa
Indonesia ini adalah banyak berita yang sebetulnya tidak berhubungan dengan
DKI Jakarta justru ikut terambil. Hal ini disebabkan fitur pembatasan kedalaman
penelusuran yang dimiliki web crawler IBM Content Analytics tidak berjalan
dengan baik. Jika terlalu dibatasi ketentuan penelusurannya justru dokumen yang
didapatkan terlalu sedikit, di lain pihak jika pembatasan yang dilakukan terlalu
leluasa maka akan terdapat banyak dokumen yang sebetulnya tidak diperlukan
bahkan mengganggu analisis.
Pemaparan mengenai contoh kasus berjalan lancar dan dapat dimengerti
dengan baik oleh peserta presentasi. Hasil presentasi ini kemudian disimpan oleh
pihak perusahaan sebagai asset untuk menjelaskan penggunaan IBM Content
Analytics di Indonesia kepada business partner PT IBM Indonesia. Di akhir
presentasi ini juga dilakukan pengurusan administrasi akhir kerja praktek yaitu
penyerahan draft laporan kerja praktek, permintaan pengisian form nilai, dan
mengembalikan fasilitas yang dipinjamkan di awal kerja praktek. Semua hasil
eksplorasi dan implementasi yang dilakukan selama 2 bulan diserahkan kepada
mentor dalam bentuk CD yang berisi plugin library bahasa Indonesia, video yang
menunjukkan demo ICA untuk bahasa Indonesia, dan berbagai dataset hasil
crawling yang dibutuhkan untuk melakukan demo.
Bab IV Penutup
IV.1 Kesimpulan
1. IBM Content Analytics v2.2 merupakan sebuah perangkat lunak yang
dapat digunakan untuk mengelola koleksi dokumen tidak terstruktur dalam
jumlah besar. ICA v2.2 tidak memberikan fitur penambahan bahasa baru
sehingga implementasi bahasa Indonesia dilakukan dengan memanfaatkan
bahasa yang sudah ada yaitu bahasa Inggris sebagai bahasa yang dikenali
oleh ICA.
2. Prototipe library yang telah berhasil dibuat dapat dimanfaatkan untuk
memberikan gambaran umum kepada calon konsumen IBM namun tidak
dapat dimanfaatkan untuk domain lain selain tujuan spesifik yang
diberikan yaitu untuk contoh kasus permasalahan di DKI Jakarta dan
pilkada DKI Jakarta 2012.
IV.2 Saran
Selama keberjalanan KP didapatkan bahwa dalam implementasi yang
dilakukan sebaiknya memanfaatkan versi ICA yang memiliki fitur penambahan
bahasa baru supaya prototipe dapat secara langsung menunjukkan kinerja yang
lebih baik. Selain itu dibutuhkan perangkat keras yang lebih baik dalam
pengembangan ICA karena memakan banyak waktu jika menggunakan spesifikasi
yang tidak memadai. Waktu yang diberikan yaitu 2 bulan memang sudah cukup
untuk sekedar pembangunan prototipe namun untuk pembangunan library
sebenarnya akan membutuhkan waktu yang lebih lama, minimal 6 bulan. Hal ini
disebabkan oleh kebutuhan pembangunan kamus bahasa Indonesia dan pembuatan
daftar aturan dalam jumlah besar dan pengujian yang harus dilakukan untuk
berbagai jenis dokumen.
1
Daftar Referensi
[1] Apache UIMA Development Community. UIMA Overview & SDK Setup Version 2.3.1. The Apache Software Foundation. 2010.
[2] Burger, J.D., et. al. Discriminating gender on Twitter. Proceedings of the ACM. 2011.
[3] Go, A., Huang, L., dan Bhayani, R. Twitter sentiment analysis. Final Projects from CS224N for Spring 2008/2009, Stanford Natural Language Processing Group. 2009.
[4] Zhu, Wei-Dong, et. al. IBM Content Analytics Version 2.2: Discovering Actionable Insight from Your Content. IBM Corp. 2011.
viii
Lampiran A. Term of References
1. Tujuan Pekerjaan
Mendapat pemahaman atas bagaimana IBM Content Analytics bekerja dan
manfaatnya untuk kegiatan perusahaan.
Melakukan konfigurasi dan implementasi library untuk IBM Content
Analytics agar dapat mengolah data berbahasa Indonesia.
2. Hasil Pekerjaan
Presentasi dan laporan mengenai IBM Content Analytics berisi:
Manfaat IBM Content Analytics secara bisnis.
Proses dan cara kerja IBM Content Analytics v2.2.
Tahapan – tahapan konfigurasi IBM Content Analytics v2.2 untuk data
berbahasa Indonesia.
Prototipe library IBM Content Analytics untuk pengolahan data berbahasa
Indonesia.
3. Metodologi Pekerjaan
Pembuatan dan eksplorasi pekerjaan akan dibantu dengan resource yang
telah disediakan oleh mentor, yaitu berupa e-book dan video aplikasi.
Pembuatan studi kasus dan implementasi bahasa Indonesia dilakukan
dengan pencarian data set sesuai dengan topik yang telah ditentukan
sendiri oleh peserta KP.
4. Lingkungan Pengembangan
Peserta KP dipinjamkan seperangkat laptop yang mengandung VM Image
Windows Server yang telah dilengkapi dengan IBM Content Analytics
2.2, IBM Classification Module, dan IBM Languange Resource
Workbench.
Kegiatan pengembangan dilakukan di kantor PT. IBM Indonesia pada
bagian mobile work station.
A - 1