laporan kp ibm

50
LAPORAN KERJA PRAKTEK Implementasi IBM Content Analytics untuk Data Berbahasa Indonesia Di PT IBM Indonesia Diajukan untuk memenuhi persyaratan kelulusan Matakuliah IF4091 Kerja Praktek oleh : Aldo Suwandi / 13509025 Yosef Ardhito Winatmoko / 13509052 PROGRAM STUDI TEKNIK INFORMATIKA SEKOLAH TEKNIK ELEKTRO DAN INFORMATIKA

Upload: yosef-syctale

Post on 14-Dec-2015

242 views

Category:

Documents


0 download

DESCRIPTION

IBM Languageware

TRANSCRIPT

LAPORAN KERJA PRAKTEK

Implementasi IBM Content Analytics untuk Data Berbahasa Indonesia

Di PT IBM Indonesia

Diajukan untuk memenuhi persyaratan kelulusan

Matakuliah IF4091 Kerja Praktek

oleh :

Aldo Suwandi / 13509025

Yosef Ardhito Winatmoko / 13509052

PROGRAM STUDI TEKNIK INFORMATIKA

SEKOLAH TEKNIK ELEKTRO DAN INFORMATIKA

INSTITUT TEKNOLOGI BANDUNG

2012

Lembar Pengesahan Program Studi Teknik Informatika

Implementasi IBM Content Analytics untuk Data Berbahasa Indonesia

Di PT IBM Indonesia

oleh :

Aldo Suwandi / 13509025

Yosef Ardhito Winatmoko / 13509052

disetujui dan disahkan sebagai

Laporan Kerja Praktek

Bandung,

Pembimbing Kerja Praktek Program Studi Teknik Informatika ITB

Bugi Wibowo

NIP: 999023502

i

Lembar Pengesahan

Implementasi IBM Content Analytics untuk Data Berbahasa Indonesia

Di PT IBM Indonesia

oleh :

Aldo Suwandi / 13509025

Yosef Ardhito Winatmoko / 13509052

disetujui dan disahkan sebagai

Laporan Kerja Praktek

Jakarta,

Pembimbing Kerja Praktek Pihak Perusahaan

Bunga Sugianto

ii

Abstraksi

Kerja praktek dilaksanakan dari tanggal 1 Juni 2012 sampai dengan 31 Juli 2012

di PT. IBM Indonesia. Divisi tempat pelaksanaan Kerja Praktek adalah Software

Group (SWG) pada subdivisi industry solution dengan fokus salah satu produk

dengan tipe enterprise content management (ECM) yaitu IBM Content Analytics

(ICA). ICA merupakan salah satu produk dari IBM yang digunakan untuk

menganalisis sekumpulan data, baik data terstruktur maupun data tidak terstruktur

terutama dalam jumlah besar dengan tujuan mempermudah pengguna melihat

pola dan mendapatkan pengetahuan dari sekumpulan data tersebut. Tugas yang

diberikan adalah untuk membuat prototipe bahasa baru pada ICA yaitu bahasa

Indonesia karena ICA belum memiliki kemampuan untuk menganalisis dokumen

berbahasa Indonesia. Hal ini penting untuk memasarkan produk ICA di Indonesia

tentu saja membutuhkan bahasa Indonesia untuk diimplementasikan dalam ICA.

Pembangunan bahasa baru pada ICA umumnya memakan waktu lebih dari 2

bulan sehingga pihak perusahaan hanya mengharapkan prototipe yang

menggambarkan bahwa ICA memang dapat digunakan untuk bahasa Indonesia.

Pada akhir KP didapatkan bahwa ICA v2.2 belum memiliki fungsional

penambahan bahasa namun tetap dapat ditunjukkan bahwa sebetulnya ICA dapat

memproses data dalam berbagai macam bahasa menggunakan konfigurasi dan

library yang tepat.

iii

Kata Pengantar

iv

Daftar Isi

Bab I Pendahuluan...............................................................I-12

I.1 Latar belakang........................................................................................I-12

I.2 Lingkup..................................................................................................I-12

I.3 Tujuan....................................................................................................I-13

Bab II Organisasi dan Lingkungan Kerja Praktek.............II-1

II.1 Struktur Perusahaan................................................................................II-1

II.2 Lingkup Pekerjaan..................................................................................II-2

II.3 Deskripsi Pekerjaan................................................................................II-2

II.4 Jadwal Kerja...........................................................................................II-3

Bab III Pembangunan Prototipe Library Bahasa IndonesiaIII-1

III.1 Briefing dan Pengenalan Lingkungan Kerja Praktek.........................III-1

III.2 Eksplorasi IBM Content Analytics....................................................III-2

III.3 Presentasi Hasil Eksplorasi Awal......................................................III-3

III.4 Pembangunan Library dan Implementasi..........................................III-4

III.4.1 Eksplorasi IBM LanguageWare Resource Workbench...............III-4

III.4.2 Pembangunan UIMA Pipeline.....................................................III-5

III.4.3 Pembangunan Custom Rules dan Dictionaries...........................III-6

III.4.4 Implementasi Web Crawler IBM Content Analytics..................III-6

III.4.5 Pembangunan Gender Classificator dan Sentiment Analyzer.....III-7

III.4.6 Integrasi Prototipe Library dengan IBM Content Analysis.........III-8

III.4.7 Menentukan Skenario Pengujian Library Bahasa Indonesia.......III-9

III.5 Presentasi Final Hasil Pembuatan Prototipe Library.......................III-10

Bab IV Penutup..................................................................IV-1

IV.1 Kesimpulan........................................................................................IV-1

IV.2 Saran..................................................................................................IV-1

Lampiran A. Term Of References...............................................1

Lampiran B. Log Activity............................................................1

v

Daftar Singkatan

ECM : Enterprise Content Management

IBM : International Business Machine

SWG : Software Group

GTS : General Technical Service

ICA : IBM Content Analytics

UIMA : Unstructured Information Management Architecture

CAS : Common Analysis Structure

LRW : Languangeware Resource Workbench

vi

7

Bab I Pendahuluan

I.1 Latar belakang

IBM merupakan perusahaan yang bergerak dibidang information

technology and services terutama mendukung kinerja bisnis dari sebuah

perusahaan. Tidak seperti perusahaan IT pada umumnya yang menjual software

dengan target end-user, IBM menjual produk baik perangkat lunak maupun

perangkat keras yang bertindak sebagai middleware sistem sebuah perusahaan.

IBM mempunyai visi yaitu Build Smarter Planet, visi tersebut memiliki

maksud bahwa dengan berbagai macam tantangan dan krisis yang saat ini dunia

tengah hadapi, cara yang paling baik untuk melewatinya adalah dengan bertindak

kreatif, efektif, dan efisien sehingga solusi yang dilakukan tidak lagi

menimbulkan masalah lain. Bertolak dari visi tersebut, produk IBM bertujuan

membantu perusahaan untuk bertindak secara cerdas dalam melakukan aktivitas

bisnisnya sehari-hari sehingga diharapkan selain memperoleh keuntungan yang

maksimal juga tetap dapat menjaga keseimbangan lingkungan.

Dalam mewujudkan visi tersebut, IBM berusaha untuk menjawab berbagai

macam masalah yang ada di dunia ini dengan berbagai macam produk yang telah

dihasilkan baik dalam bentuk perangkat keras, perangkat lunak, dan jasa

konsultan. Pada kesempatan Kerja Praktek (KP) tugas yang didapatkan adalah

melakukan konfigurasi aplikasi IBM Content Analytics (ICA) dengan

membangun sebuah prototipe library baru yaitu untuk menangani data berbahasa

Indonesia. Hasil akhir yang diharapkan adalah untuk dapat membuktikan bahwa

library yang dibangun memberikan hasil yang cukup baik untuk digunakan oleh

pihak IBM dalam menawarkan produk tersebut kepada calon konsumen.

8

I.2 Lingkup

Tanggung jawab yang diberikan adalah untuk membuat sebuah prototipe

library bahasa Indonesia yang dapat dimanfaatkan untuk melakukan analisis

terhadap suatu kasus yang ditentukan oleh mentor KP. Pembangunan library

dilakukan menggunakan dua aplikasi tambahan yaitu IBM LanguageWare

Resource Workbench dan IBM Classification Module. Ada 2 contoh kasus yang

kemudian diberikan. Kasus pertama adalah memanfaatkan data berita online

untuk mengetahui karakteristik permasalahan yang ada di DKI Jakarta. Sementara

kasus kedua merupakan kasus cadangan yaitu melakukan analisis terhadap

perilaku masyarakat pada media sosial twitter dalam rangka pemilihan kepala

daerah (Pilkada) DKI Jakarta 2012.

I.3 Tujuan

IBM merupakan perusahaan yang memiliki tujuan untuk meningkatkan

keuntungan bisnis dari sebuah perusahaan selalu melakukan inovasi terhadap

dunia teknologi. Berdasarkan hal tersebut, tujuan awal melaksanakan KP di

sebuah perusahaan yang sudah lama berdiri yaitu IBM adalah untuk mengetahui

bagaimana sebuah perusahaan IT dapat menjadi sebuah penopang untuk

meningkatkan kinerja, keuntungan, dan kualitas dari sebuah bisnis dengan cara

yang cerdas.

Dilihat dari segi perusahaan, tujuan dari tugas yang diberikan adalah

sebagai sarana menawarkan produk ICA kepada calon konsumen di Indonesia.

Umumnya implementasi dan konfigurasi produk IBM dilakukan langsung oleh

teknisi dari IBM pusat. Dalam konfigurasi yang kali ini tentu saja tidak dapat

dilakukan oleh teknisi selain orang Indonesia karena harus memanfaatkan

pengetahuan mengenai bahasa Indonesia yang baik. Pihak IBM mengharapkan

sebuah prototipe yang kemudian dapat digunakan sebagai sarana yang

memberikan gambaran mengenai kegunaan ICA sekaligus membuktikan bahwa

ICA dapat berjalan untuk data berbahasa Indonesia. Berbagai calon konsumen

yang dimiliki oleh IBM biasanya merupakan perusahaan yang berdomisili di DKI

9

Jakarta, oleh karena itu mentor KP memberikan contoh kasus yang berhubungan

dengan DKI Jakarta. Pada akhirnya, pihak perusahaan akan memanfaatkan hasil

KP untuk ditunjukkan kepada business partner dan calon konsumen IBM saat

memberikan penawaran mengenai perangkat lunak ICA.

Bab II Organisasi dan Lingkungan Kerja Praktek

II.1 Struktur Perusahaan

PT IBM Indonesia merupakan salah satu cabang dari perusahaan

multinasional International Business Machine Corp. yang berpusat di Armonk,

New York, Amerika Serikat. Sebagian besar dari pegawai PT IBM Indonesia

merupakan pihak sales yang bertugas mencari opportunity di berbagai perusahaan

di Indonesia dan menawarkan berbagai macam produk IBM. Secara struktural, PT

IBM Indonesia membagi jabatan untuk pegawai dengan melihat pada fungsional

dari divisi yang ada. Struktur lengkap dari PT IBM Indonesia dapat dilihat pada

Gambar 1. Divisi yang menjadi tempat KP adalah Software Group (SWG), lebih

tepatnya merupakan bagian dari industry solution yang fokus pada produk dengan

tipe enterprise content management (ECM). ECM adalah berbagai produk IBM

yang bergerak di bidang manajemen sumber daya informasi yang dimiliki suatu

perusahaan.

Gambar 1. Struktur Perusahaan PT IBM Indonesia

1

2

II.2 Lingkup Pekerjaan

Di dalam ECM secara umum terdapat tujuh produk berbeda dan tugas

yang diberikan adalah konfigurasi produk yang bernama IBM Content Analytics

(ICA). Dalam mendukung konfigurasi yang dilakukan terhadap ICA terdapat dua

aplikasi tambahan yaitu IBM LanguageWare Resource Workbench dan IBM

Classification Module.

Lingkup pekerjaan adalah untuk membangun dan mengimplementasikan

sebuah prototipe library bahasa Indonesia untuk ICA sehingga dapat

menunjukkan fungsionalitas ICA secara umum kepada calon konsumen.

Pembangunan library secara lengkap diestimasi membutuhkan waktu lebih dari

empat bulan. Oleh karena itu pihak perusahaan tidak mengharapkan library yang

sangat lengkap, cukup untuk dapat memberikan gambaran umum ICA baru

kemudian akan secara lengkap dibangun library yang lebih baik setelah

mendapatkan konsumen dan domain permasalahan yang lebih spesifik.

II.3 Deskripsi Pekerjaan

Divisi tempat KP dilaksanakan adalah software group (SWG), yaitu divisi

yang bekerja menawarkan produk perangkat lunak IBM sebagai solusi bisnis

perusahaan – perusahaan di Indonesia. Secara garis besar SWG diisi oleh dua

macam karyawan yaitu product sales dan technical sales. SWG terdiri dari 7

subdivisi sesuai dengan jensi produk perangkat lunak yang ditawarkan, salah

satunya yaitu industry solution. Subdivisi tersebut saat ini tengah menjadi fokus

dari PT IBM Indonesia karena cenderung baru dan memiliki banyak produk yang

belum diimplementasi di Indonesia.

Tugas yang didapatkan adalah untuk membuat contoh penggunaan produk

IBM yang paling baru yaitu IBM Content Analytics (ICA) dalam mengolah teks

dan dokumen berbahasa Indonesia. ICA sendiri awalnya tidak mendukung

pengolahan bahasa Indonesia. Beberapa bahasa yang sudah didukung oleh ICA

adalah bahasa inggris, jerman, prancis, dan thailand. Perlu dilakukan pembuatan

library baru yang dapat dimanfaatkan dalam ICA dengan menggunakan IBM

3

LanguageWare Resource Workbench (LRW). Setelah pembuatan prototipe

library selesai dilakukan, prototipe tersebut harus dapat dibuktikan dapat

berfungsi dengan baik yaitu dengan menggunakannya untuk menangani dua buah

contoh kasus terkait DKI Jakarta. Setelah prototipe dinyatakan dapat diterima

sebagai sarana penawaran ICA pada business partner dan calon konsumen IBM

maka tugas KP akan dianggap selesai.

II.4 Jadwal Kerja

Tanggal Kegiatan

1 Juni 2012 Mengenal lingkungan IBM

Mengenal latar belakang ICA

Mempelajari business benefit yang dihasilkan oleh IBM

secara umum dan ICA secara khusus

4 Juni 2012 Mendalami segi teknikal dari ICA

Menerima resource yang dibutuhkan untuk digunakan

selama kegiatan KP

5 Juni 2012 –

17 Juni 2012

Eksplorasi ICA secara mendalam

Implementasi ICA untuk contoh kasus data dalam

bahasa inggris

18 Juni 2012 Presentasi awal: teknikal, sales, dan demo ICA untuk

data dalam bahasa inggris

19 Juni 2012 –

20 Juli 2012

Membangun prototipe library bahasa Indonesia

menggunakan LRW

23 Juli 2012 –

26 Juli 2012

Membuat dokumentasi hasil kerja praktek

27 Juli 2012 Presentasi final: menggunakan ICA untuk analisis data

dalam bahasa Indonesia.

Tabel I. Jadwal kerja yang dilakukan saat KP

Bab III Pembangunan Prototipe Library Bahasa Indonesia

III.1 Briefing dan Pengenalan Lingkungan Kerja Praktek

Kegiatan KP diawali dengan mengurus administrasi dan mendapatkan

penjelasan mengenai lingkungan kerja, seperti pengenalan struktur perusahaan,

rutinitas kegiatan perusahaan, dan lingkup kegiatan yang akan dikerjakan.

Pengurusan administrasi adalah kegiatan memenuhi persyaratan untuk memulai

kerja praktek seperti menandatangani kontrak pekerjaan yang berisi peraturan,

waktu kerja, batasan, dan kegiatan pekerjaan. Setelah itu dibuat identitas pengenal

sementara sebagai kartu identitas untuk keluar masuk lingkungan kerja yang

memakan waktu sampai 1 hari kerja.

Di awal minggu pertama kerja diberikan briefing oleh mentor KP bernama

Bunga Sugiarto. Briefing diawali dengan penjelasan struktur dan pembagian divisi

yang ada di PT. IBM Indonesia ini, kemudian penjelasan mengenai produk dan

layanan apa saja yang diberikan oleh IBM di dalam masing – masing struktur, dan

terakhir adalah mengenai kegiatan dan target yang akan dilakukan selama dua

bulan ke depan.

Tugas yang diberikan sebagai awal KP adalah untuk mempelajari salah

satu produk dari IBM yang masih tergolong cukup baru, yang bernama IBM

Content Analytics (ICA). Sebagai langkah awal dalam mempelajari ICA mentor

memberikan waktu selama dua minggu untuk melakukan eksplorasi dan

mempelajari fitur, alur kerja, dan keuntungan bisnis dari ICA. Eksplorasi

dilakukan untuk memanfaatkan ICA sehingga dapat menganalisis data berbahasa

Indonesia sebagai tujuan utama KP.

Sebagai bukti eksplorasi ICA, mentor menjadwalkan sebuah presentasi

pengenalan dan manfaat ICA dari segi bisnis dan teknis pada minggu ke-3.

Presentasi disertai dengan beberapa studi kasus yang dapat menunjukan kegunaan

dari ICA. Setelah itu, diberi kesempatan untuk menghadiri unit meeting dan

penjelasan mengenai ICA oleh technical sales dari PT IBM Indonesia bersama

business partner dari IBM. Unit meeting merupakan meeting bulanan yang rutin

dilaksanakan untuk membahas proyek dan target apa yang menjadi checkpoint

1

2

dalam 1 bulan ke depan. Fasilitas yang diberikan perusahaan untuk

mengakomodasi pengerjaan tugas adalah sebuah laptop disertai vmware image

yang berisi aplikasi ICA untuk dieksplorasi dan dipelajari selama kegiatan KP.

III.2 Eksplorasi IBM Content Analytics

Pada minggu pertama dan kedua, dilakukan eksplorasi ICA dan persiapan

presentasi dilakukan untuk mencapai tujuan dari KP. Eksplorasi dilakukan

dengan sumber berupa IBM Redbook yaitu buku panduan mengenai IBM Content

Analytics dan berbagai video tutorial terkait IBM Content Analytics dan IBM

LanguageWare Resource Workbench yang diberikan oleh mentor. Untuk lebih

memahami mengenai kerja dari pada ICA dipelajari juga cara kerja dari text

mining, natural language processing, dan spesifikasi unstructured information

management architecture (UIMA) pipeline yang menjadi dasar cara kerja ICA.

Selanjutnya untuk membantu memudahkan proses eksplorasi dan

presentasi ICA maka dicari dataset sebagai bahan untuk studi kasus dan juga

demo hasil eksplorasi. Didapatkanlah dataset sejumlah 20 ribu berita dari data

reuter tahun 1987, yang secara umum berisi tentang mengenai kegiatan ekonomi

di Negara Amerika. Berdasarkan karakteristik dataset yang ditemukan maka

ditentukan demo akan dilakukan berkaitan mengenai saham dari perusahaan –

perusahaan di Amerika pada tahun 1987.

Tahapan berikutnya adalah penentuan topik yang pas untuk demo dengan

pembuatan facet atau kategori apa yang cocok. Hal ini bertujuan agar mentor

dapat mengerti maksud dan tujuan akhir dari studi kasus yang dipilih ini.

Kemudian dicari kata – kata apa saja yang menjadi sinonim dalam sebuah

kategori terutama kata – kata yang sering muncul pada domain berita terkait

saham perusahaan. Misalkan dalam kategori bankrupt maka kata – kata atau

keyword yang cocok adalah failed, loss, poor, dan lain sebagainya. Metode yang

digunakan untuk mendapatkan sinonim dari kata adalah secara manual melihat

kamus bahasa inggris dan mendaftarkan satu per satu ke dalam ICA sesuai dengan

fungsional sinonim yang diberikan pada aplikasi.

3

III.3 Presentasi Hasil Eksplorasi Awal

Presentasi dihadiri oleh mentor dari pihak perusahaan, yaitu Bu Bunga

selaku bagian product sales dari ECM dan Pak Juan selaku technical sales dari

ICA. Presentasi ini secara umum dibagi menjadi empat bagian yaitu mengenai

keuntungan ICA dari segi bisnis, penjelasan dari segi teknis atas bagaimana ICA

bekerja, demo mengenai fitur – fitur yang ada di ICA, dan terakhir adalah studi

kasus untuk membuktikan kemampuan dari ICA itu sendiri.

Pertama, mengenai keuntungan ICA dari segi bisnis ini keuntungan bisnis

apa yang diperoleh bagi customer apabila ingin menggunakan ICA sebagai alat

bantu analisis mereka dalam mengambil keputusan bisnis, cerita menarik

mengenai berbagai perusahaan yang telah meningkat keuntungannya setelah

menggunakan ICA.

Presentasi bagian kedua adalah mengenai bagaimana ICA bekerja secara

teknis. Pada bagian ini, dipaparkan proses kerja dari ICA baik dari awal (input),

lalu proses data, dan hasil akhir (output) yang nantinya akan berguna bagi end

user dan juga tentang 3 komponen yang menjadi penggerak utama ICA, yaitu

Administration Console, Search App, dan Text Miner.

Pada bagian ketiga, dilakan demo mengenai fitur yang terdapat di dalam

ICA dengan cara mempraktekan alur kerja dari awal penggunaan ICA yaitu

memasukkan dataset, melakukan konfigurasi, dan terakhir memanfaatkan fitur

text miner di ICA untuk mengolah hasil akhir.

Lalu dibagian akhir presentasi, didemokan pemanfaatan ICA untuk

mencari sebuah permasalahan dan pembuktiannya. Sebagai contoh, ICA dapat

dimanfaatkan untuk menemukan bahwa perusahaan Japan Airline (JAL)

mengalami penurunan saham yang sangat drastis dari dataset yang diproses,

karena banyaknya pesawat JAL yang mengalami kecelakaan saat itu. Apabila

diasumsikan bahwa pengguna ICA sebagai pembeli saham ingin membeli saham

dari JAL, maka sebaiknya tidak melakukan hal tersebut melihat hasil analisis

diketahui bahwa JAL adalah perusahaan yang hampir bangkrut. Lalu sebagai

pembuktiannya dicarilah berita pembenaran bahwa perusahaan JAL memang

mengalam kebangkrutan sekitar 10 tahun setelah berita tersebut dikeluarkan.

4

III.4 Pembangunan Library dan Implementasi

Prototipe library bahasa Indonesia dibangun dengan melalui beberapa

tahap yaitu eksplorasi IBM LRW sebagai tools yang akan digunakan dalam

pembangunan library. Setelah eksplorasi dilakukan maka akan dimulai

pembangunan library. IBM Content Analytics memanfaatkan UIMA pipeline

sebagai tahapan pemrosesan teks oleh sebab itu kegiatan berikutnya adalah

pembangunan UIMA pipeline yang sesuai dengan bahasa Indonesia. Untuk

melengkapi pemrosesan bahasa yang sudah dilakukan pada pembangunan UIMA,

library perlu ditambahkan custom rules dan dictionaries. Contoh rules yang

dimaksud adalah aturan imbuhan pada bahasa Indonesia, sementara contoh

dictionaries adalah daftar nama tempat di Indonesia.

Setelah pembangunan library selesai dilakukan tentu saja akan dilakukan

uji coba. Dalam melakukan uji coba akan memanfaatkan web crawler yang

dimiliki ICA dan custom crawler. Langkah berikutnya adalah melihat

karakteristik dari data yang berhasil dikumpulkan untuk melakukan optimasi

terhadap konfigurasi ICA agar mendapatkan sumber analisis yang baik yaitu

dengan membuat gender classificator dan sentiment analyzer. Setelah proses

optimasi konfigurasi selesai dilakukan kemudian library diintegrasikan dengan

ICA sehingga perancangan skenario pengujian library dapat dilakukan.

5

III.4.1 Eksplorasi IBM LanguageWare Resource Workbench

Proses implementasi diawali dengan eksplorasi tools baru yang akan

digunakan yaitu IBM LanguageWare Resource Workbench (LRW). Eksplorasi

yang dilakukan memanfaatkan dokumen teknis dan forum diskusi yang dimiliki

oleh IBM. Selain itu terdapat video mengenai bagaimana memanfaatkan LRW

untuk menambahkan bahasa baru dan ekspor hasil pembangunan ke IBM Content

Analytics.

Tidak ada kesulitan berarti yang ditemukan pada proses eksplorasi LRW

karena memang dokumentasi yang dimiliki tergolong lengkap dan jelas.

Bagaimanapun pada LRW ditemukan bahwa diperlukan pemahaman yang baik

mengenai regular expression sehingga perlu dilakukan eksplorasi mengenai

regular expression secara mendalam. Regular expression ini sendiri digunakan

sebagai representasi aturan - aturan tata bahasa pada LRW.

III.4.2 Pembangunan UIMA Pipeline

Pembangunan bahasa baru dimulai dengan mengikuti UIMA pipeline.

Fase pertama yang dibangun adalah language identification. Pada fase ini LRW

menggunakan sejumlah kata yang spesifik meningkatkan kemungkinan bahwa

sebuah dokumen ditulis dengan bahasa tertentu. Kata yang dipilih adalah kata -

kata umum yang biasa digunakan pada bahasa Indonesia tetapi jarang muncul

pada bahasa lain yang umum seperti adalah, yang, karena, dan jika. Tidak terlalu

banyak perhatian yang diperlukan pada fase ini karena terdapat asumsi bahwa

semua dokumen yang didapatkan sebagai bahan analisis memang spesifik

dituliskan dalam bahasa Indonesia.

Dalam membangun dasar suatu bahasa, selain membutuhkan language

identification juga membutuhkan lexical dictionaries. Lexical dictionaries secara

sederhana adalah perbendaharaan kata pada bahasa disertai part-of-speech masing

- masing kata. Proses pembangunan lexical dictionaries ini memakan waktu

cukup lama karena dibutuhkan daftar seluruh kata yang ada pada bahasa Indonesia

disertai dengan posisi kata tersebut yang mungkin pada kalimat.

6

Usaha yang dilakukan pada awalnya adalah dengan menghubungi

departemen pendidikan dan budaya untuk meminta secara khusus daftar kata

bahasa Indonesia. Namun setelah 1 kali membalas surel ternyata tidak ada

jawaban lagi sehingga dibutuhkan cara lain untuk menemukan daftar kata bahasa

Indonesia. Usaha berikutnya yang dilakukan adalah dengan melakukan crawling

pada situs kbbi online (http://pusatbahasa.kemdiknas.go.id/kbbi/) untuk

mendapatkan semua kata yang ada pada website kbbi online tersebut beserta part-

of-speech masing - masing kata. Didapatkan lebih kurang 35.000 kata dari website

tersebut. Karena proyek kali ini adalah pembangunan prototipe, kumpulan kata

yang diperlukan cukup sampai memenuhi kata – kata yang umum digunakan pada

dokumen resmi bahasa Indonesia.

7

III.4.3 Pembangunan Custom Rules dan Dictionaries

Kegiatan berikutnya yang dilakukan adalah pembangunan custom rule dan

dictionary untuk bahasa Indonesia. Rule dan dictionary yang dimaksud disini

adalah aturan - aturan yang ada pada bahasa Indonesia dalam menyatakan sebuah

kata memiliki karakteristik khusus. Misalnya, pada umumnya imbuhan awal pe-

umumnya akan membentuk kata benda. Sementara itu, dictionary yang dimaksud

disini adalah daftar kata yang tidak terdapat pada lexical dictionary tetapi

memiliki makna khusus. Contoh yang paling mudah adalah daftar nama orang

yang sering muncul pada berita online. Selain nama orang, beberapa kamus yang

disimpan adalah nama gedung, nama jalan, nama kabupaten, nama kecamatan,

nama organisasi, dan nama instansi akademik yang terdapat di DKI Jakarta,

terutama yang sering muncul di berita online detik dan kompas. Mentor KP juga

turut serta memberikan masukan dalam menentukan dictionary yang dibutuhkan.

III.4.4 Implementasi Web Crawler IBM Content Analytics

Setelah secara umum menyelesaikan aturan - aturan dan kamus - kamus

yang diperlukan untuk bahasa Indonesia, dilakukan eksplorasi mengenai web

crawler yang memang dimiliki IBM Content Analytics v2.2. Awalnya web

crawler tidak bisa dijalankan karena permasalahan koneksi internet yang perlu

konfigurasi tambahan, hal ini disebabkan IBM Content Analytics yang digunakan

dijalankan pada virtual machine.

Setelah melakukan konfigurasi pada network vmware, web crawling detik

dan kompas dijalankan untuk mendapatkan dokumen - dokumen berupa berita

yang terdapat pada detik dan kompas. Selama 6 jam didapatkan lebih kurang

30.000 dokumen berita dari detik dan kompas. Dari sini ternyata didapatkan

masalah pada hasil penelusuran yang dilakukan oleh web crawler IBM Content

Analytics yaitu perilaku data preprocessing yang tidak sesuai dengan keinginan.

Parsing HTML yang dilakukan oleh IBM Content Analytics tidak memberikan

hasil yang baik disebabkan halaman HTML dari detik dan kompas memang

menggunakan struktur tag yang tidak dimengerti oleh IBM Content Analytics.

8

Untuk mengantisipasi kelemahan web crawler yang akan menggangu

pengujian library baru yang akan dibuat maka dilakukan inisiasi untuk kasus

cadangan yang tidak melibatkan web crawler dari IBM Content Analytics,

selanjutnya disebut contoh kasus 2. Telah terdapat indikasi bahwa ternyata web

crawler tidak menghasilkan dokumen yang diinginkan maka sebaiknya untuk

dapat memastikan bahwa dokumen bahan analisis dalam kondisi baik, digunakan

format XML yang sudah dibuktikan pada langkah sebelumnya menghasilkan

sumber analisis yang baik. Dalam menentukan kasus cadangan didasarkan pada

pilihan lain yang sebenarnya diberikan oleh mentor dari perusahaan selain kasus

permasalahan di DKI Jakarta yaitu mengenai pemilihan gubernur DKI Jakarta.

Opsi yang ditawarkan adalah melakukan analisis pada media sosial untuk melihat

perilaku masyarakat DKI Jakarta dalam menyikapi Pilkada DKI Jakarta 2012.

III.4.5 Pembangunan Gender Classificator dan Sentiment Analyzer

Kasus analisis pemilihan kepala daerah DKI Jakarta menggunakan twitter

tentu saja membutuhkan sumber data berisi kumpulan tweet yang terkait pada

proses pemilihan kepala daerah. Untuk dapat mengumpulkan tweet tersebut maka

penulis membuat sebuah custom crawler dengan bahasa python dan

memanfaatkan Twitter API. Hasil pengumpulan tweet memberikan jumlah yaitu

lebih kurang 200.000 tweet dari 10 hari. Pada kasus ini, kemungkinan kesalahan

pada struktur dokumen dihilangkan dengan melakukan praproses terhadap tweet

yang didapatkan dari Twitter API menjadi XML document yang dapat dimengerti

oleh IBM Content Analytics.

9

Sebetulnya selain LRW terdapat satu perangkat lunak lagi yang dapat

diintegrasikan dengan IBM Content Analytics yaitu IBM Classification Module.

Modul tambahan ini pada dasarnya merupakan ekstensi IBM Content Analytics

dari segi machine learning. IBM Classification Module memungkinkan pengguna

IBM Content Analytics untuk menentukan tipe facet sebuah dokumen tanpa

menggunakan kata kunci melainkan menggunakan sekumpulan dokumen yang

dijadikan contoh (training set). Dalam menentukan sikap masyarakat DKI Jakarta

melalui twitter dibutuhkan pengetahuan mengenai apakah masayarakat DKI

Jakarta memberikan respon positif atau negatif terhadap Pilkada. Salah satu

metode yang dapat digunakan untuk memenuhi kebutuhan tersebut adalah dengan

memanfaatkan sentiment analysis yang dapat dilakukan dengan menggunakan

IBM Content Analytics.

Pada percobaan yang dilakukan untuk memanfaatkan IBM Classification

Module ternyata ditemukan bahwa aplikasi harus berjalan di atas operating system

32-bit. Dengan ketentuan tersebut berarti IBM Classification Module tidak dapat

dimanfaatkan karena virtual machine yang digunakan merupakan operating

system 64-bit. Untuk mengantisipasi hal ini, pada praproses dokumen sumber

analisis ditambahkan sebuah langkah baru yaitu penentuan gender dan menuliskan

sentimen analysis.

10

Pembangunan mesin klasifikasi didasarkan sesuai dengan algoritma yang

digunakan oleh IBM Classification Module yaitu bayesian network. Perangkat

praproses ini menggunakan bahasa python dan menggunakan fitur sederhana yaitu

3 huruf terakhir nama sebagai penentu jenis kelamin seseorang dan bag of word

pada sentiment analysis. Perangkat pendeteksi jenis kelamin memberikan hasil

yang memuaskan yaitu 93% dengan pengujian menggunakan 10-fold cross

validation. Dataset yang dimanfaatkan adalah 1000 nama hasil crawling twitter

yang dilabeli secara manual sebagai training set. Sementara untuk sentiment

analysis yang dibangun hanya menggunakan 300 tweet sebagai dokumen latihan

yang dilabeli positif, negatif, atau tidak dapat ditentukan. Berbeda dengan

klasifikasi jenis kelamin, sentiment analyzer yang dibangun hanya memberikan

hasil kurasi lebih kurang 60% dengan pengujian menggunakan 10-fold cross

validation.

III.4.6 Integrasi Prototipe Library dengan IBM Content Analysis

Setelah berhasil membangun custom pipeline dan mendapatkan

sekumpulan dokumen untuk pengujian awal maka dilanjutkan dengan

implementasi di IBM Content Analytics itu sendiri. Pada saat melakukan ekspor

dari LRW ke IBM Content Analytics terdapat sebuah masalah yang fatal.

Ternyata IBM Content Analytics v2.2 tidak menyediakan fitur penambahan

bahasa. Terkait permasalahan ini juga sempat ditanyakan kepada pihak IBM yang

terdapat di Australia sebagai developer IBM Content Analytics namun tidak

mendapatkan jawaban yang memuaskan karena kemudian pertanyaan hanya

diteruskan ke pihak – pihak lain tanpa jawaban.

11

Untuk mengatasi permasalahan yang dihadapi maka dilakukan

perombakan pada konsep pipeline yang dibuat, bahasa yang digunakan pada

dasarnya tetap inggris namun penulis menambahkan kamus kata bahasa inggris

dengan perbendaharaan kata bahasa Indonesia. Selain kata, diperlukan modifikasi

aturan - aturan yang bersesuaian dengan bahasa Indonesia. Kesulitan utama

pembangunan aturan adalah bagaimana merepresentasikan begitu banyaknya

kemungkinan kombinasi imbuhan dengan kata. Dengan menambahkan beberapa

kata hasil penggabungan dengan imbuhan berhasil didapatkan lebih kurang

74.000 kata sebagai lexical dictionary akhir pipeline yang dibangun.

III.4.7 Menentukan Skenario Pengujian Library Bahasa Indonesia

Bagian terakhir yang dikerjakan sebetulnya mengulangi apa yang

dikerjakan pada fase sebelum presentasi awal namun dengan dua buah collection

yang berbeda yaitu dokumen berita online dan dokumen tweet. Tujuan pada

bagian ini adalah menemukan skenario yang tepat sebagai contoh yang dapat

digunakan pada saat presentasi final dilakukan.

Pada tahap ini ditemukan bahwa dokumen berita online memberikan

kondisi analisis yang buruk karena itu proses pembuatan skenario lebih

ditekankan pada backup case. Untuk mendapatkan skenario yang sesuai,

dilakukan konfigurasi pada IBM Content Analytics seperti pohon facet yang

digunakan, perbaikan skema XML yang digunakan, dan bagaimana alur

pencapaian skenario. Setelah melakukan berbagai pengujian dan konfigurasi maka

ditentukan bahwa contoh kasus yang akan dimanfaatkan adalah contoh kasus

cadangan dengan 4 buah skenario yaitu: memprediksi kondisi akhir pemilihan

pada putaran 1, mendapatkan bahwa efek sebuah posting blog yang cukup

signifikan, tindakan pasangan foke-nara yang menyebabkan pengaruh buruk, dan

memprediksi hasil putaran 2 hanya dengan melihat reaksi masyarakat terhadap

hasil quick count putaran 1.

12

III.5 Presentasi Final Hasil Pembuatan Prototipe Library

Tujuan dari presentasi kedua adalah untuk membuktikan bahwa hasil

pembangunan prototipe library bahasa Indonesia pada IBM Content Analytics

berhasil dengan menggunakan dua buah contoh kasus. Contoh kasus pertama

adalah analisis permasalahan DKI Jakarta dengan memanfaatkan website berita

detik.com dan kompas.com. Kasus kedua yang akan digunakan adalah analisis

pemilihan kepala daerah (pilkada) DKI Jakarta putaran pertama dengan sumber

data twitter. Dengan demikian bagian yang akan dijelaskan pada presentasi ini

adalah mengenai langkah - langkah pembangunan library baru bahasa Indonesia,

masalah - masalah yang ditemui, hasil implementasi untuk contoh kasus, dan

pengembangan apa yang perlu dilakukan berikutnya.

Pihak perusahaan yang mengikuti presentasi ini ada tiga peserta yaitu

channel manager PT IBM Indonesia, mentor KP, dan salah satu rekan kerja

mentor. Presentasi berlangsung selama 3 jam, terdiri dari 1 jam presentasi, 1 jam

pemaparan contoh kasus, dan 1 jam tanya jawab. Untuk kelancaran presentasi ini

telah disiapkan 5 buah video yang akan digunakan sebagai sarana penjelasan

contoh kasus 2 karena jika dilakukan secara langsung akan membutuhkan waktu

yang lama. Secara umum presentasi berjalan dengan lancar, terdapat diskusi

mengenai apa yang menyebabkan contoh kasus 1 dinyatakan tidak sesuai harapan

dan mengenai 4 skenario untuk contoh kasus 2.

Contoh kasus 1 yaitu mengenai analisis permasalan DKI Jakarta

dinyatakan tidak sesuai dengan hasil yang diharapkan karena fitur web crawling

yang dimiliki oleh IBM Content Analytics tidak berhasil melakukan parsing

halaman HTML website detik.com dan kompas.com. Dokumen hasil crawling

yang dihasilkan tidak dapat diolah, dengan demikian bagian - bagian yang tidak

diinginkan dari web pages yang didapatkan justru masuk ke dalam bahan analisis

sehingga mengganggu proses discovery. Salah satu contoh kelemahan yang

terlihat adalah bahwa terdapat frekuensi tidak wajar dari kata 'kebakaran'.

Ternyata setelah dianalisis ditemukan bahwa selain memang terdapat beberapa

berita yang menyebutkan kata 'kebakaran', pada setiap dokumen yang berhasil

didapatkan dari website detik.com menuliskan 'nomor telepon pemadam

13

kebakaran'. Sebenarnya analisis yang dilakukan cukup mengambil data judul dan

isi berita saja. Untuk komentar dan bagian lain memang tidak perlu dimasukkan

ke dalam bahan analisis tetapi IBM Content Analytics v2.2 yang digunakan tidak

menyediakan fitur ini pada web crawling.

Terdapat permasalahan pada dokumen yang diperoleh mengenai contoh

kasus 1 dari fase web crawling detik.com dan kompas.com. Untuk portal berita

kompas sendiri justru menghasilkan dokumen yang tidak dapat dianalisis karena

penggunaan karakter tidak wajar pada web pagesnya. Pada setiap dokumen yang

didapatkan dari kompas.com ternyata hanya menghasilkan pesan kesalahan

disallowed key character yang berarti dokumen tidak dapat digunakan untuk

analisis. Permasalahan yang muncul juga dari kedua portal berita berbahasa

Indonesia ini adalah banyak berita yang sebetulnya tidak berhubungan dengan

DKI Jakarta justru ikut terambil. Hal ini disebabkan fitur pembatasan kedalaman

penelusuran yang dimiliki web crawler IBM Content Analytics tidak berjalan

dengan baik. Jika terlalu dibatasi ketentuan penelusurannya justru dokumen yang

didapatkan terlalu sedikit, di lain pihak jika pembatasan yang dilakukan terlalu

leluasa maka akan terdapat banyak dokumen yang sebetulnya tidak diperlukan

bahkan mengganggu analisis.

Pemaparan mengenai contoh kasus berjalan lancar dan dapat dimengerti

dengan baik oleh peserta presentasi. Hasil presentasi ini kemudian disimpan oleh

pihak perusahaan sebagai asset untuk menjelaskan penggunaan IBM Content

Analytics di Indonesia kepada business partner PT IBM Indonesia. Di akhir

presentasi ini juga dilakukan pengurusan administrasi akhir kerja praktek yaitu

penyerahan draft laporan kerja praktek, permintaan pengisian form nilai, dan

mengembalikan fasilitas yang dipinjamkan di awal kerja praktek. Semua hasil

eksplorasi dan implementasi yang dilakukan selama 2 bulan diserahkan kepada

mentor dalam bentuk CD yang berisi plugin library bahasa Indonesia, video yang

menunjukkan demo ICA untuk bahasa Indonesia, dan berbagai dataset hasil

crawling yang dibutuhkan untuk melakukan demo.

Bab IV Penutup

IV.1 Kesimpulan

1. IBM Content Analytics v2.2 merupakan sebuah perangkat lunak yang

dapat digunakan untuk mengelola koleksi dokumen tidak terstruktur dalam

jumlah besar. ICA v2.2 tidak memberikan fitur penambahan bahasa baru

sehingga implementasi bahasa Indonesia dilakukan dengan memanfaatkan

bahasa yang sudah ada yaitu bahasa Inggris sebagai bahasa yang dikenali

oleh ICA.

2. Prototipe library yang telah berhasil dibuat dapat dimanfaatkan untuk

memberikan gambaran umum kepada calon konsumen IBM namun tidak

dapat dimanfaatkan untuk domain lain selain tujuan spesifik yang

diberikan yaitu untuk contoh kasus permasalahan di DKI Jakarta dan

pilkada DKI Jakarta 2012.

IV.2 Saran

Selama keberjalanan KP didapatkan bahwa dalam implementasi yang

dilakukan sebaiknya memanfaatkan versi ICA yang memiliki fitur penambahan

bahasa baru supaya prototipe dapat secara langsung menunjukkan kinerja yang

lebih baik. Selain itu dibutuhkan perangkat keras yang lebih baik dalam

pengembangan ICA karena memakan banyak waktu jika menggunakan spesifikasi

yang tidak memadai. Waktu yang diberikan yaitu 2 bulan memang sudah cukup

untuk sekedar pembangunan prototipe namun untuk pembangunan library

sebenarnya akan membutuhkan waktu yang lebih lama, minimal 6 bulan. Hal ini

disebabkan oleh kebutuhan pembangunan kamus bahasa Indonesia dan pembuatan

daftar aturan dalam jumlah besar dan pengujian yang harus dilakukan untuk

berbagai jenis dokumen.

1

Daftar Referensi

[1] Apache UIMA Development Community. UIMA Overview & SDK Setup Version 2.3.1. The Apache Software Foundation. 2010.

[2] Burger, J.D., et. al. Discriminating gender on Twitter. Proceedings of the ACM. 2011.

[3] Go, A., Huang, L., dan Bhayani, R. Twitter sentiment analysis. Final Projects from CS224N for Spring 2008/2009, Stanford Natural Language Processing Group. 2009.

[4] Zhu, Wei-Dong, et. al. IBM Content Analytics Version 2.2: Discovering Actionable Insight from Your Content. IBM Corp. 2011.

viii

Lampiran A. Term of References

1. Tujuan Pekerjaan

Mendapat pemahaman atas bagaimana IBM Content Analytics bekerja dan

manfaatnya untuk kegiatan perusahaan.

Melakukan konfigurasi dan implementasi library untuk IBM Content

Analytics agar dapat mengolah data berbahasa Indonesia.

2. Hasil Pekerjaan

Presentasi dan laporan mengenai IBM Content Analytics berisi:

Manfaat IBM Content Analytics secara bisnis.

Proses dan cara kerja IBM Content Analytics v2.2.

Tahapan – tahapan konfigurasi IBM Content Analytics v2.2 untuk data

berbahasa Indonesia.

Prototipe library IBM Content Analytics untuk pengolahan data berbahasa

Indonesia.

3. Metodologi Pekerjaan

Pembuatan dan eksplorasi pekerjaan akan dibantu dengan resource yang

telah disediakan oleh mentor, yaitu berupa e-book dan video aplikasi.

Pembuatan studi kasus dan implementasi bahasa Indonesia dilakukan

dengan pencarian data set sesuai dengan topik yang telah ditentukan

sendiri oleh peserta KP.

4. Lingkungan Pengembangan

Peserta KP dipinjamkan seperangkat laptop yang mengandung VM Image

Windows Server yang telah dilengkapi dengan IBM Content Analytics

2.2, IBM Classification Module, dan IBM Languange Resource

Workbench.

Kegiatan pengembangan dilakukan di kantor PT. IBM Indonesia pada

bagian mobile work station.

A - 1

2

5. Jadwal

Disetujui oleh,

Bunga Sugiarto Aldo Suwandi Yosef Ardhito

Lampiran B. Log Activity

B - 1

C - 1