t1_klp02_review tools qa search engine_rev02

14
SEMANTIK WEB Dosen Pengampu: Dr. Azhari, M.T. REVIEW TOOLS QUESTION ANSWER SEARCH ENGINE Disusun oleh : 1. Kabul Kurniawan 13/353925/PPA/04267 2. Ryan Arief Misnadin 14/372059/PPA/4641 3. Nur Ichsan 14/372281/PPA/4658 4. Udhi Permana 14/372301/PPA/4659 PASCASARJANA ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA 2015

Upload: ryan-arief

Post on 21-Dec-2015

39 views

Category:

Documents


2 download

DESCRIPTION

tugas

TRANSCRIPT

Page 1: T1_Klp02_review Tools QA Search Engine_Rev02

SEMANTIK WEB

Dosen Pengampu: Dr. Azhari, M.T.

REVIEW TOOLS QUESTION ANSWER SEARCH ENGINE

Disusun oleh :

1. Kabul Kurniawan 13/353925/PPA/04267

2. Ryan Arief Misnadin 14/372059/PPA/4641

3. Nur Ichsan 14/372281/PPA/4658

4. Udhi Permana 14/372301/PPA/4659

PASCASARJANA ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN

ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

2015

Page 2: T1_Klp02_review Tools QA Search Engine_Rev02

I. Masalah dan Motivasi Website atau World wide web (WWW) telah merubah cara manusia berkomunikasi,

bertukar informasi dan melakukan bisnis. Perubahan ini juga merubah persepsi atau cara pandang kita terhadap komputer. Pada awalnya komputer diciptakan hanya untuk mengatasi masalah perhitungan. Namun sekarang, komputer dapat digunakan untuk berbagai keperluan termasuk untuk mengolah informasi.

Secara umum, pengguna internet sekarang ini mengambil informasi dari internet dengan cara mencari informasi yang terkait, memilah informasi/ website yang sesuai dengan yang dicari dan kemudian membaca dan mencari jawaban dari apa yang di cari di website tersebut. Untuk melakukan hal itu pengguna menggunakan tool/ layanan web yang disebut search engine seperti Google (google.com) atau Yahoo (yahoo.com).

Google dan Yahoo merupakan beberapa contoh dari keyword-base search engine. Kita akan kesulitan untuk mencari website yang sesuai dengan apa yang kita cari tanpa menggunakan search engine. Namun, dalam penggunaannya ada beberapa masalah atau kekurangan dari alat ini, yaitu :

High recall, low precision. Hasil pencarian yang didapatkan biasanya menghasilkan banyak sekali website yang dapat kita telusuri, tetapi kesesuaian isi website dengan apa yang kita maksud masih kurang.

Low or no recall. Kadang kita tidak mendapatkan hasil sama sekali atau kita mendapatkan hasil, tetapi tidak ada yang relevan.

Result are highly sensitive to vocabulary. Terkadang keyword awal yang dimasukkan tidak mendapatkan hasil yang sesuai, tetapi dengan perubahan penggunaan kata dengan arti yang sama maka akan ditampilkan hasil yang lebih relevan. Kasus seperti ini akan membutuhkan proses try and error yang menyebalkan.

Results are single web pages. Jika kita memerlukan informasi dari beberapa dokumen yang berbeda, kita harus menggunakan beberapa query/ keyword yang berbeda untuk mendapatkan dokumen kemudian kita perlu menggabungkan informasinya secara manual.

Masalah di atas timbul karena mesin tidak dapat memahami makna dari isi suatu website. Manusia dapat memahami makna dari suatu website dengan kemampuan berpikirnya, tetapi sulit untuk mesin mengerti makna dari isi suatu website. Banyak pendekatan kemudian dilakukan agar mesin dapat mengerti makna dari suatu website, sehingga pencarian suatu keyword dapat menghasilkan hasil yang lebih relevan.

Untuk itu, dikembangkan suatu alat/ layanan yang menerapkan solusi di atas, yaitu Question Answer (QA) System. Sistem QA secara interaktif dapat mengolah dan memahami informasi yang dibutuhkan oleh pengguna. Secara umum, query diekspresikan dengan bentuk natural language query. Sistem QA kemudian mencari dokumen yang relevan, memilih data/ knowledge-nya, mengekstraksi informasinya, melakukan kualifikasi, skala prioritas, dan menampilkan serta menjelaskan hasilnya dengan efektif.

Pencarian dengan query “what is the fastest animal in water” pada keyword-based search engine akan menghasilkan sejumlah halaman website yang terkait dengan “fastest”, “animal” dan “water”. Sedangkan sistem QA akan menghasilkan satu jawaban dari pertanyaan tersebut dengan menyebutkan hewan tercepat di air dan beberapa info terkait kecepatannya. Hasil dari sistem QA lebih mudah kita terima daripada harus mencari website yang sesuai pada hasil keyword-based search engine.

Page 3: T1_Klp02_review Tools QA Search Engine_Rev02

Berdasarkan deskripsi permasalahan di atas, maka diperlukan pengetahuan tentang sistem QA. Makalah ini akan membahas arsitektur sistem QA, cara kerja, jenis sistem QA, contoh aplikasinya, dan tren sistem QA di masa depan. Dengan demikian diharapkan dapat membantu menambah ilmu untuk pengembangan sistem QA ke depannya.

II. Landasan Teori 1. Definisi Semantik Web

Seorang akan mengadakan sebuah pertemuan dalam sebuah universitas negeri di Bandung, kemudian orang tersebut mencari hotel yang terdekat disekitar universitas dengan melakukan pencarian di mesin pencari google. Keyword yang ditulis adalah “hotel sekitar universitas x” yang menghasilkan index dari website-website yang mengandung keyword tersebut. Kemungkinan dari index yang ditampilkan terdapat informasi yang tepat atau kurang tepat. Masalah utamanya adalah mesin pencari hanya melakukan index terhadap website yang memiliki keyword yang dituliskan. Mesin pencari tidak dapat mengetahui maksud dan pengetahuan dari keyword yang diinginkan pengguna. Oleh karena telah ditemukan metode untuk mengetahui knowlage dari suatu kalimat (konteks) yang disebut dengan Semantik Web.

Semantic Web hanyalah sebuah web yang dapat mendeskripsikan data dan menghubungkannya secara kontek atau semantik sesuai dengan tatanan bahasa (John Hebeler, dkk 2009). Semantic web adalah sebuah web dari data, seperti layaknya sebuah database global. Pendekatan semantic web mengembangkan bahasa untuk mengekspresikan informasi dalam bentukyang dapat diprosesoleh mesin (machine processable).

2. Teknologi Semantik Web

Tim Berners-Lee mengusulkan arsitektur semantik web terdiri dari lapisan-lapisan yang mencakup alat, teknologi dan ide sehingga mesin dapat memiliki pengetahuan yang dimaksudkan. Berikut adalah arsitektur dari semantik web :

Gambar 1. Arsitektur Web

Page 4: T1_Klp02_review Tools QA Search Engine_Rev02

UNICODE dan URIs : Unicode adalah suatu standar industri yang dirancang untuk mengizinkan teks dan simbol dari semua sistem tulisan di dunia untuk ditampilkan dan dimanipulasi secara konsisten oleh komputer. Sedangkan URIs adalah sebuah rangkaian karakter yang digunakan untuk mengidentifikasi nama, sumber, atau layanan di Internet.

XML : bahasa markup untuk keperluan umum yang disarankan oleh W3C untuk membuat dokumen dengan keperluan pertukaran data antar sistem yang beraneka ragam.

RDF : RDF adalah lapisan pertama dari Semantic Web. RDF adalah Kerangka representasi metadata sederhana, menggunakan URI untuk mengidentifikasi sumber daya berbasis web dan menggunakan model grafik untuk menggambarkan hubungan antara sumber daya.

RDF Schema : suatu jenis bahasa pemodelan sederhana yang digunakan untuk menggambarkan kelas dari sumber daya dan sifatnya pada model dasar RDF. Kerangka ini menyediakan penalaran sederhana kemudian menyimpulkannya.

Ontology : merupakan suatu teori tentang makna dari suatu obyek, properti dari suatu obyek, serta relasi obyek tersebut yang mungkin terjadi pada suatu domain pengetahuan dengan kata lain ontology adalah penjelasan dari sebuah konsep dan keterhubunganya dari sebuah ilmu tertentu.

Logic & Proff : Sistem penalaran diatas struktur Ontology untuk membuat kesimpulan baru.

Trust : Lapisan akhir dari semantik. Dimana menyangkut masalah mengenai kepercayaan orang terhadap informasi semantik web.

3. Question Answer Question Answer (QA) adalah proses interaktif antara manusia dengan

komputer yang meliputi pemahaman terhadap kebutuhan informasi pengguna, menmpilkan, da memaparkan respon yang efektif. Kebutuhan informasi pengguna meliputi query dalam bentuk bahasa alami, pengembalian dokumen yang relevan (data atau knowledge dari sumber tertentu), mengekstraksi, menyaring, dan mengutamakan jawaban dari sumber.

4. QA With Natural Language Processing Model ini menggunakan pendekatan integrasi antara Natural Language

Processing (NLP), Logic, Ontology dan Retrival Informasi. Pada prosesnya model ini terdapat 4 fase yaitu user interaction, question processing, document processing and answer extraction.

a. User Interaction Fase ini user membarikan pertanyaan dan memberikan validasi

terhadap jawaban yang diberikan oleh sistem (apakah benar atau tidak). Fase ini mempunyai komponen sebagai berikut :

Query Interface. User memberikan pertanyaan menggunakan interface seperti dialogue box atau textfield. Jika jawaban tidak memuaskan maka user dapat memberikan formula baru mengenai knowlage dari pertanyaan tersebut.

Page 5: T1_Klp02_review Tools QA Search Engine_Rev02

Answer. Jawaban yang ditampilkan kepada user terhadap pertanyaan yg diajukan.

Answer Validation. User memberikan feedback terhadap jawaban yang diberikan oleh sistem dengan membarikan indikasi setuju atau tidak.

Gambar 2. Arsitektur QA with NLP

b. Question Processing

Sistem akan “memahami” pertanyaan yang diajukan oleh user. “Pemahaman” sistem akan pertanyaan memerlukan beberapa tahapan untuk melakukan parsing, merepresentasikan, dan mengklasifikasikan pertanyaan.

NLP Parser. Tahap ini pertanyaan dibagi menjadi beberapa bagian seperti subjek, kata kerja, prase preposisi (kata depan), kata sifat dan objek. Output dari bagian ini adalah logika representasi dari query.

Interpreter. Memberikan intepretasi dengan menggunakan knowlage-base.

Wordnet/Thesaurus. Ensiklopedia mengenai kata atau pengetahuan.

Ontology. Penjelasan dari sebuah “pemahaman” atas pertanyaan dan keterhubunganya dari sebuah ilmu tertentu.

Failure Analys System. Merupakan analisa kesalahan terhadap jawaban yang diberikan oleh user. User dapat memberikan kontribusi (penjelasan) mengapa jawaban tersebut salah.

Question Classification & Reformulation. Melakukan klasifikasi pertanyaan (who, when, where, why, which and how). Pada tahap ini pertanyaan sudah dapat dipahami sistem dengan basis pengetahuannya.

c. Document Processing

Search Query Formulation. Mengubah pertanyaan awal menjadi sebuah pertanyaan baru menggunakan aturan tertentu (yang ditetapkan sistem). Beberapa tanda baca atau simbol yang terdapat pada pertanyaan akan dihapus.

Page 6: T1_Klp02_review Tools QA Search Engine_Rev02

Search Engine. Mencari dokumen pada mesin pencari yang mempunyai jawaban sesuai dengan keyword.

d. Answer Extraction

Passage Selection. Mengekstrak dari dokumen-dokumen yang ditemukan di search engine yang mempunyai kemungkinan jawaban atas pertanyaan yang diajukan.

Answer Selection. Mengklaster jawaban kemudian ditampilan jawaban tersebut yang memiliki skor tertinggi (berdasarkan voting model).

III. Contoh Question Answering (QA) Engine 1. Kngine

a. Profil Kngine (dibaca "kin-gin", kepanjangan dari "Knowledge Engine")

adalah intelligent assistant dan answer engine yang dibuat untuk memberikan jawaban langsung bagi pertanyaan dari pengguna. Jadi, hasil dari jawaban sistem bukan hanya berupa link yang menuju suatu website tetapi benar-benar merupakan jawaban yang diinginkan pengguna. Kngine pada nantinya akan dibuat menyerupai otak manusia. Kngine dibuat oleh 12 orang saja dan dipimpin oleh CEO dan Founder Haytham ElFadeel (@HFadeel), dan Co-founder Ashraf ElFadeel dan disponsori oleh Sawari Ventures.

Gambar 3. Halaman awal kngine.com

Kngine merupakan Web 3.0 Search Engine. Kngine dirancang untuk

memberikan hasil pencarian yang bermakna (meaningful) dan memiliki tingkat relevansi yang lebih tinggi sesuai dengan input (question) dari pengguna. Pada prakteknya, hal ini dilakukan dengan menemukan hubungan antara kata kunci dari data-data yang berbeda, dan kemudian menampilkan satu set hasil yang sebenarnya merupakan hal-hal yang terkait, tetapi sering

Page 7: T1_Klp02_review Tools QA Search Engine_Rev02

tidak disajikan bersama-sama ketika melakukan pencarian biasa. Sebagai contoh, Kngine akan menampilkan foto, biografi, video dan beberapa hal lain yang terkait dengan dunia musik jika kita memasukkan kata kunci yang berkaitan dengan musik (gambar 5). Kngine tidak sekedar menampilkan hasil pencarian dari dokumen-dokumen yang telah terindeks, tetapi sistem ini memberikan penekanan pada pemahaman makna kata kunci yang di-input oleh pengguna.

Mesin pencari biasa memberikan hasil seperti indeks pada buku. Saat pengguna mencari sesuatu maka mesin akan menampilkan beberapa daftar link yang mungkin terkait dan pengguna kemudian memilih link mana yang sesuai dengan informasi yang diinginkan. Pada tahap berikutnya, Question Answer System menampilkan jawaban dari suatu pertanyaan dengan mencari dan mengekstrak jawaban yang akan ditampilkan dari website.

Kngine berbeda dengan model pencarian sebelumnya. Kngine akan terus menerus melakukan pembacaan (pencarian) pada website, mencoba untuk memahami isi dari website dan akan membuat suatu memori pengetahuan (Knowledge). Jadi, jawabaan yang dihasilkan oleh sistem ini merupakan jawaban yang pasti (exact) yang dihasilkan dari pengetahuan Kngine tentang suatu pertanyaan.

Gambar 5. Contoh hasil pencarian dengan kngine.com

Sistem Kngine menggabungkan efisiensi dari Knowledge Based

Approach dan kemampuan Statistical Approach. Sistem ekstraksinya mengekstrak banyak data yang tidak tersruktur dengan menggunakan natural

Page 8: T1_Klp02_review Tools QA Search Engine_Rev02

language processing, machine learning dan data mining algorithms. Sistem membaca isi dari suatu data dan kemudian memahami makna dari informasi dan hubungannya. Kemudian setelah diverifikasi, informasi tadi kemudian dijadikan dasar dari Kngine Knowledge Graph.

Gambar 6. Gambaran dari Kngine Knowledge Graph

b. Fitur

Kngine Music Kngine dapat memberikan informasi mengenai musik, seperti lirik, video, penyanyi, album sesuai dengan keyword yang dimasukan user.

Gambar 7. Contoh hasil pencarian musik

Page 9: T1_Klp02_review Tools QA Search Engine_Rev02

Kngine Film Kngine dapat menelusuri informasi film dan trailer yang masuk dalam box office. Dalam pencarian juga disertakan informasi mengenai pemeran dari film tersebut.

Gambar 8. Contoh hasil pencarian film

Page 10: T1_Klp02_review Tools QA Search Engine_Rev02

Input Keyword Tertentu Beberapa contoh pencarian pada kngine sesuai keyword yang dimasuka user :

Who are facebook founder? Jawaban dari kngine tidak mengindek web web yang berisi

informasi mengenai founder facebook. Namun langsung memberikan jawaban atas pertanyaan yang diajukan.

Gambar 9. Hasil pencarian dengan keyword (1)

How old are mark zuckerberg pada saat user menanyakan umur mark zuckerberg kngine

langsung memberikan informasi umur dari yang bersangkutan.

Gambar 10. Hasil pencarian dengan keyword (2)

Page 11: T1_Klp02_review Tools QA Search Engine_Rev02

What is value of phi, what is value of gravitation pertanyaan mengenai bilangan konstanta pada matematika juga

dapat dijawab dengan tepat. Misal pada saat memberikan pertanyaan mengenai nilai konstanta phi dan grafitasi.

Gambar 11. Hasil pencarian dengan keyword (3)

Gambar 12. Hasil pencarian dengan keyword (4)

Kekurangan Kngine 1. Hanya menggunakan bahasa inggris sebagai keyword-nya. 2. Tidak dapat memberi jawaban mengenai operasi matematika

misal penjumlahan, pengurangan dll.

Page 12: T1_Klp02_review Tools QA Search Engine_Rev02

2. Duckduckgo a. Profil

Duckduckgo termasuk salah satu semantic search engine. Sistem ini memiliki visi sederhana yaitu memberikan hasil pencarian yang baik tanpa melacak (tracking) pengguna. Awalnya sistem ini diciptakan untuk dapat memudahkan pengguna untuk memperoleh jawaban. Sistem ini mulai dibangun pada awal tahun 2008 oleh Gabriel kemudian pada tahun 2009 mulai fokus pada sistem pencarian yang bebas dari penggunaan data yang bersifat pribadi dari pengguna. Pada tahun 2011 proyek ini mulai mendapatkan sponsor dari Union Square Ventures dan pada tahun yang sama, Server Duckduckgo dipindahkan dari basemen Gabriel ke Paoli, PA, USA. Pada tahun 2012, tampilan dari duckduckgo mulai diubah menjadi lebih baik. Proyek ini terus mendapatkan donasi pada tahun 2012 dan 2013. Pada tahun 2013, dibuatlah aplikasi duckduckgo untuk iphone. Kemudian tahun 2014 dibuat perubahan pada tampilan dan sistem pencarian yang lebih baik lagi. Pada tahun yang sama browser Safari dan Mozilla Firefox secara built-in mulai menjadikan duckduckgo sebagai alternatif sistem pencarian.

b. Fitur

Prakiraan Cuaca Pencarian pada duckduckgo.com dapat memberikan informasi mengenai cuaca pada suatu kota dimanapun. Misal user memasukan keyword “wheater in yogyakarta” maka akan tampil prakiraan cuaca hari ini dan prediksi beberapa hari selanjutnya.

Gambar 13. Perkiraan cuaca Yogyakarta

Page 13: T1_Klp02_review Tools QA Search Engine_Rev02

Persamaan dan Lawan Kata Jika user memberikan pertanyaan terkait persamaan kata (sinonim) dan antonim maka duckduckgo memberikan jawaban yang cukup akurat.

Gambar 14. Sinonim dari “good”

Gambar 15. Antonim dari “good”

Kelebihan dari duckduckgo 1. Dapat menampilkan prakiraan cuaca suatu kota di seluruh dunia 2. Memberikan penjelasan mengenai suatu kata (verb, noun) dengan

tepat, termasuk memberikan jawaban mengenai sinonim dan antonim. Dibandingkan dengan google duckduckgo lebih akurat dalam memberikan respone.

3. Dapat melakukan opeerasi atau perhitungan matematika 4. Pencarian lebih bersih karena tidak menampilkan hasil index dari

situs-situs terkait keyword

Page 14: T1_Klp02_review Tools QA Search Engine_Rev02

IV. Tren Question Answering (QA) Engine Di Masa Depan Setidaknya ada lima tren yang telah muncul dan bertindak sebagai katalis untuk

pengembangan jenis baru dari Question and Answer Engine, yaitu sebagai berikut : 1. Komputasi probalistik

Sistem harus dapat mengetahui probabilistik dari ketepatan jawaban yang diberikan sehingga dapat memberikan jawaban yang lebih pasti sehingga tidak bersifat ambigu.

2. Sistem Pembelajaran Sistem harus dapat belajar dari query-query yang diinputkan oleh user sebelumnya sehingga dapat memberikan jawaban yang lebih baik lagi di query-query selanjutnya.

3. Analisis Big Data Sistem harus dapat menganalisis data dalam jumlah besar, dengan waktu sesingkat-singkatnya sehingga dapat menghasilkan jawaban terbaik dalam waktu yang relatif cepat.

4. Platform yang Saling Terintegrasi Sistem harus sedapat mungkin terintegrasi dengan sistem-sistem yang sudah ada sehingga tidak membutuhkan perombakan yang berarti saat di terapkan.

5. Peningkatan Interaksi Informasi Interaksi antar data harus di tingkatkan agar sistem dapat memahami obyek yang dicari sehingga tidak terjadi salah penerjemahaan saat menemukan kata yang berarti ganda.

Masing-masing tren ini membutuhkan beberapa pengembangan karena mereka bersama-sama membentuk suatu cara agar kita dapat berinteraksi dengan dan menggunakan sistem informasi tesebut.

V. Daftar Pustaka Antoniou, Grigoris, dan van Harmelen, Frank. 2008. A Semantic Web Primer. London: MIT

Press. Fernando Costa, Louis. Question Answering Systems: a partial answer [PDF document].

Retrieved from Lecture Notes Online Web site: http://www.linguateca.pt/documentos/CostaSantos2007QASINTEF.pdf

Vargas-Vera, Maria dan Motta, Enrico. “AQUA – Ontology-based Question Answering System”

Lee, Sheen-Mok; Ryu, Pummo dan Choi, Key-Sun. “Ontology-based Question Answering System”.

http://eet330-geelong.wikispaces.com/Kngine. Diakses pada tanggal 22 Februari 2015. http://kngine.com. Diakses pada tanggal 22 Februari 2015. https://duckduckgo.com. Diakses pada tanggal 22 Februari 2015. https://www.hallaminternet.com/2012/duckduckgo-review-an-alternative-to-google.

Diakses pada tanggal 22 Februari 2015.