improvement of retrieval efficiency using clustered base ... · in information retrieval,...

17
การเพิ่มประสิทธิภาพของการค้นคืนข้อมูลโดยอาศัยการขยายคาสอบถามแบบจัดกลุ่ม Improvement of Retrieval Efficiency using Clustered Base Query Expansion รัฐสิทธิ์ สุขะหุต และ คมสันต์ น้อยเทพ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่ Rattasit Sukhahuta and Khomsan Noithep Department of Computer Science, Faculty of Science, Chiangmai University Abstract There has been an increasing numbers of electronic document distributed online in nowadays. Most of the data available is in a semi-structure and unstructured format. To make use of these data, we need to understand the underlying structure at some level in order for data becomes useful. This can be done using text pre-processing process and data structure analysis with natural language processing process. In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of sorted terms that link to a list of documents. Each document is associated with the frequency count indicating the number of times that a term appear in the document. The users can then search for the interested documents by specify one or more keywords called ‘terms query’. These keywords can be either a single word or multiple words together. The key issue in identifying search terms is that most users may not be able to identify the search terms correctly. The problems occur when user do not know what terms are indexed. Therefore, the interested documents can not be found. This paper proposes a technique that expand the query terms based on the term similarity and terms with similar meaning within the same domain. By measuring the value of recall and precision, this technique has proven that this technique resulted in increased document retrieval performance. Keywords: Query Expansion, Keyword Search, WordNet

Upload: others

Post on 25-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

1

การเพมประสทธภาพของการคนคนขอมลโดยอาศยการขยายค าสอบถามแบบจดกลม

Improvement of Retrieval Efficiency using Clustered Base Query Expansion

รฐสทธ สขะหต และ คมสนต นอยเทพ

ภาควชาวทยาการคอมพวเตอร คณะวทยาศาสตร มหาวทยาลยเชยงใหม

Rattasit Sukhahuta and Khomsan Noithep Department of Computer Science Faculty of Science

Chiangmai University Abstract There has been an increasing numbers of electronic document distributed online in nowadays Most of the data available is in a semi-structure and unstructured format To make use of these data we need to understand the underlying structure at some level in order for data becomes useful This can be done using text pre-processing process and data structure analysis with natural language processing process In information retrieval interested documents can be retrieved using indexing technique consisting of a list of sorted terms that link to a list of documents Each document is associated with the frequency count indicating the number of times that a term appear in the document The users can then search for the interested documents by specify one or more keywords called lsquoterms queryrsquo These keywords can be either a single word or multiple words together The key issue in identifying search terms is that most users may not be able to identify the search terms correctly The problems occur when user do not know what terms are indexed Therefore the interested documents can not be found This paper proposes a technique that expand the query terms based on the term similarity and terms with similar meaning within the same domain By measuring the value of recall and precision this technique has proven that this technique resulted in increased document retrieval performance

Keywords Query Expansion Keyword Search WordNet

2

บทคดยอ ปจจบนการเผยแพรเอกสารในรปของเอกสารอเลกทรอนกสมปรมาณทเพมมากขน และเปน

ขอมลทจดอยในประเภทของขอมลทไมมโครงสรางตายตว การคนคนขอมลจากเอกสารจ าเปนตองท าความเขาใจกบรปแบบโครงสรางขอมลทจดเกบ และตองมการเตรยมขอมลใหเหมาะสมกอนการคนคน หลกการท างานของระบบการคนคนเอกสารจะตองอาศยค าคนคน ซงเปนค าส าคญทผใชงานสนใจหรอตองการสบคนโดยการระบค าทใชในการคนคนนน อาจจะเปนค าเดยวหรอค าหลายค ามาประกอบกน ปญหาส าคญของการระบค าคนคนคอผใชงานสวนใหญอาจจะไมสามารถระบค าคนคนไดอยางถกตองหรอค าทตองการไมไดถกจดใหเปนดชนส าหรบคนคน ท าใหไมพบเอกสารทตองการ จากการทดลองพบวาแนวคดการขยายค าสบคนโดยอาศยหลกการจดกลมค าจากค านยามศพทจากเวรดเนต จากการวดผลคาระลกและคาความแมนย าพบวาเทคนควธนท าใหประสทธภาพการคนคนเอกสารเพมมากขน

ค าส าคญ การขยายค าสบคน สบคนค าส าคญ เวรดเนต 1 บทน า (Introduction)

การจดกลมเอกสารเปนเทคนคทใชส าหรบการจ าแนกเอกสารตามคณสมบตของเอกสารทก าหนด โดยใหเอกสารทมคณสมบตทมความคลายคลงกนถกจดใหอยภายในกลมเดยวกน เทคนคการจดกลมสามารถน าไปใชกบงานคนคนเอกสารเพอเพมประสทธภาพ ความรวดเรวในการคนคนเอกสาร การจดกลมสามารถท าไดโดยการแบงออกเปนกลมยอยๆ เมอผใชมการระบค าส าหรบการคนคนเพอใหมการจดกลม และลดขนาดของจ านวนกลมเปาหมายทตองการคนคนแทนการคนหาจากเอกสารทงหมด การก าหนดค าส าคญของค าทตองการสบคนผใชจ าเปนตองเขาใจถงเนอหาและค าส าคญท เปนตวแทนของเอกสารทสนใจ เนองจากการประมวลผลขอมลตนทางอยในรปของภาษาธรรมชาต แนวคดของการประมวลผลดวยภาษาธรรมชาตจงถงน ามาใชเพอวเคราะห โครงสรางขอมล โดยการศกษาการสกดคณสมบตของค าส าคญพบวามการเลอกดวยค าเดยว พยางค วล หรอกลมค าทอยในรปของประโยค ทอยในระบบการสบคนนนจะอาศยการท าดชน และการสกดคณลกษณะทส าคญของเอกสารทมการรวบรวมมาจากอนเตอรเนตหรอแหลงทเกบขอมลตางๆ ซงกลมค าเหลานเรยกวาถงค า ทถกน ามาจดใหอยในรปของเวคเตอร โดยมการแทนคาดวยคณลกษณะของคาความถ (Frequency) และความถผกผน (Inverse Document Frequency) ทปรากฏและคาน าหนกตามโดเมนทก าหนด นอกจากนการน าแนวคดของการประมวลผลภาษาธรรมชาตมาใชเพอประมวลผลค า อาทการตดค า การลดรปของค า (Word Inflection) เพอใหค าอยในรปของรากศพท กรณทมการผนค าใหอยในรปตางๆ ยงอาศยการรวมค าเดยวใหเปนกลมค าโดยอาศย N-Gram ยงสามารถชวยแกปญหาในเรองของต าแหนงการเกดของค าอกดวย พลาวณย พลบรการ และกฤษณะ ไวยมย ไดศกษาคนควาเพอวดความคลายคลงของค าเพอน ามาจดกลมโดยอาศย

3

ค านยามศพทจากพจนานกรมเวรดเนตเพอน าเอาค าทอยในกลมเดยวกนนมาท าการขยายค าสอบถามเพอเปนการเพมประสทธภาพของการคนคนเอกสารในระบบการสบคนตอไป

2 เอกสารงานวจยทผานมา (Research Background)

จากงานวจยทผานมาพบวาการคนคนเอกสารโดยวธการจดกลมไดมบทบาทส าคญเชน นเวศ จระวชตชย (2556) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน การปรบคาพารามเตอรเคอรเนลฟงกชนแบบตางๆ โดยทดสอบประสทธภาพการจดหมวดหมเอกสารภาษาไทยกบอลกอรทมตนไมตดสนใจ (Decision Tree) และเนอฟเบย (Naiumlve-Bayes) โดยใชวธการลดคณลกษณะรวมกบอลกอรทมเครองจกรการเรยนร จากการทดลองพบวาการลดคณลกษณะ ดวยวธ Information Gain เพอลดมตของขอมล แลวสงเขาเครองจกรการเรยนรและวดประสทธภาพจากคา F-Measurement สงสด สามารถสรปไดวา อลกอรทม SVM เคอรเนลฟงกชนแบบ Linear และ SVM เคอรเนลฟงกชนแบบ Polynomial Degree = 3 ใหประสทธภาพการจดหมวดหมโดยเฉลยออกมาดทสดคอ 951 รองลงมาเปนอลกอรทม SVM เคอรเนลฟงกชนแบบ Radial Basis Function (RBF) gamma 08 และ 10 ใหประสทธภาพการจดหมวดหม 949 อลกอรทม Naiumlve Bays ใหประสทธภาพการจดหมวดหม 887 อลกอรทม C45 ใหประสทธภาพการจดหมวดหม 799 ตามล าดบ ทงนจากผลงานวจยของ นเวศ จระวชตชย และคณะ (2551) ไดท าการวจยการจดหมวดหมเอกสารโดยอาศยอลกอรทม Support Vector Machine มพฤตกรรมทจะแยกแยะขอมล โดยใชสมการระนาบหลายมตโดยจะพยายามหาจดขอมลทท าใหไดสมการระนาบหลายมตทใชแบงแยกดทสด (Optimal Hyperplane) ความถกตองทสด โดยพจารณาจากระยะหาง (Margin) ระหวางคลาส ซงเสนระนาบทดทสดนจะสามารถจ าแนกกลมเอกสารออกมาไดอยางมประสทธภาพ ผลจากการทดลองพบวาสามารถลดขนาดคณลกษณะและทดสอบดวยอลกอรทม Support Vector Machine จากกลมตวอยาง พบวาสามารถลดคณลกษณะลงไดมากถง 9137 โดยการลดลงของคณลกษณะดงกลาวไมสงผลใหประสทธภาพในการจดหมวดหมเอกสารลดลงแตอยางใด แตสามารถลดทรพยากรของระบบและลดระยะเวลาในการประมวลผลไดเปนอยางมาก จากผลการทดลองนสามารถน าไปประยกตใชประโยชนในการสรางระบบจดหมวดหมเอกสารอตโนมต และสามารถน ามาประยกตใชกบงานดานอนๆ เชน การคดกรองเอกสาร (Document Filtering) การจดท าดชนอตโนมตเพอใชในการคนคนเอกสาร (Automatic Indexing for IR System) การจดหมวดหมของเวบเพจ (Web Page Classification) เปนตน ในขณะท ชลรตน จรสกลชยและคณะ (2556) ไดศกษาถงแนวทางการจดกลมเอกสารส าหรบขอความภาษาไทย งานวจยฉบบนไดศกษาวจยขนตอนวธการจดกลมเอกสารทงแบบขนตอนวธ การจดกลมแบบ Complete link ส าหรบการกลมแบบล าดบชน และ Single pass ส าหรบการจดกลมแบบไมเปนล าดบชน โดยประยกตงานขนตอนวธดงกลาวกบขอความขาวภาษาไทย นอกจากน

4

งานวจยดงกลาวยงไดประยกตหลกการประมวลผลแบบขนาน เพอแกปญหาในการค านวณคาความเหมอนของเอกสาร ผลงานวจยเบองตนสรปไดวาขนตอนวธในการตดค าไมมผลตอการจดกลม และขนตอนวธในการจดกลมทงสองแบบไมไดใหผลทแตกตางกนอยางชดเจน

จราภรณ ถมแกว และศรณย อนทโกสม (2555) ไดน าเสนอแนวคดของการจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ งานวจยชนนน าเสนอการทดสอบสมมตฐานทวาการจ าแนกขอมลจากงานวจยมกจะพจารณาคณลกษณะทงหมดของขอมล อยางไรกตามคณลกษณะบางประการมความส าคญนอยซงเมอน ามารวมค านวณดวยแลวอาจเปนสาเหตท าใหความแมนย าในการจ าแนกขอมลลดลง โดยในการทดลองประยกตใชอลกอรธมแบบตะกละ (Greedy algorithm) เพอคดเลอกคณลกษณะทส าคญของขอมล รวมกบการจ าแนกขอมล ผลการทดลองพบวา การใชวธคดเลอกคณลกษณะดวยกรดดอลกอรธมรวมกบการจ าแนกขอมลดวย RBF สามารถเพมประสทธภาพในการจ าแนกขอมลใหสงขนและใชเวลาประมวลผลลดลงเมอเปรยบเทยบกบการจ าแนกขอมลโดยไมมการคดเลอกคณลกษณะ

นอกจากนการหาคาความส าคญของเอกสารซงจะดทน าหนกของค าทสนใจโดยใชทฤษฎ tfidf และการหาคาความคลายเอกสารนนจะใช ทฤษฎ Vector Space Model (VSM) ซงกคอ Cosine Similarity จะไดผลดกวา Inner Product และตองเปนค าค าเดยวกนถาเอกสารเปนค าคนละค ากนแตมความหมายเหมอนกนกจะไมสามารถท าได ซง SSRM เปนวธทจะมาใชแกปญหานโดยมวธการดงน

(1) Term Re-Weighting การหาคาน าหนกใหมของค า ซงน าหนกใหมของค าแตละค าจะแทนคาดวย qi ของแตละการสบคน i จะปรบโดยดความสมพนธกบค าทมความหมายคลายกบค า j ในเวคเตอรเดยวกน ดงสมการ (21)

(21) โดยท t คอคาเทรชโฮลด (Threshold) ทผใชก าหนดขน (ในทน t = 08 ) สตรนใชเฉพาะค าทมค าทคลายกนกบค าทสบคน

(2) เทอมเอกซแพนชน การขยายค าศพท ขอแรกเลอกค าพอง หลกจากนนเลอกค าใน Hyponyms และ Hypernyms ของค าคน

5

ภาพท 1 โครงสรางตนไมของเวรดเนต

โดยแตละค านนจะสบคนจาก โครงสรางตนไมของเวรดเนต (WordNet tree) จากภาพท 1 ซง

จะมโครงสรางของค าค านน ค าทมคาเทรชโฮลด มากกวา 09 จะถกน ามาเพมในการคนคน ค าทน ามาเพมอาจจะอยสงกวา หรอต ากวา มากกวา 1 ขนของค าค านนกได ดงสมการ (22)

(22)

โดยทจ านวน n คอจ านวนของ Hyponym ของแตละค า j และส าหรบ Hypernym n จะมคาเทากบ 1 ค าทอยในค าสบคนอยแลวอาจจะกลายเปนค าใหมส าหรบค าอน และค าหนงค า อาจจะถกเพมมากกวาหนงครงได

(3) การหาความคลายของเอกสาร (Document Similarity) ใชสตรดงน

119904119894119898(119902 119889) =sum sum 119902119894119889119894119904119894119898(119894119895)119895119894

sum sum 119902119894119889119894119895119894 (23)

จากสมการ (23) โดยท i และ j คอค าทสนใจและค าในเอกสารตามล าดบ ค าทสนใจจะถก

ค านวณน าหนกใหม และถกขยายค า โดยทค าในเอกสารจะไมตองท าอะไรนอกจากหาน าหนกโดยใช สตร tfidf เทานน ผลการสบคนจะมคาระหวาง 0 กบ 1

6

(4) การหาคา tfidf คอการหาคาความถของเทอมในเอกสารและความถของเอกสารทมเทอมนนอย โดยแบงสามารถค านวนหาไดจากสตรดงตอไปน

การหาคา ความถของโทเคน (Token) ทปรากฏในเอกสาร หรอกคอความถของเทอมนน (Term weight Term frequency) ดงสมการ (24)

119865119894119895 = 119865119903119890119902119906119890119899119888119910 119900119891 119905119890119903119898 119894 119894119899 119889119900119888119906119898119890119899119905 119895 (24)

การหาคาความถของเทอม (tf Term frequency) ไดจากสมการ (25)

119879119865119894119895 =119865119894119895

max 119865119894119895 (25)

การหาคาน าหนกของเอกสาร (Term weight inverse document frequency) ทมเทอมปรากฏอยในเอกสาร โดยการหาคาความถของเอกสาร (Document frequency) จากสมการ (26)

119863119891119894 =119879ℎ119890 119889119900119888119906119898119890119899119905 119891119903119890119902119906119890119899119888119910 119900119891 119905

119879ℎ119908 119899119906119898119887119890119903 119900119891 119889119900119888119906119898119890119899119905119904 119905ℎ119886119905 119888119900119899119905119886119894119899 119905 (26)

การหาคาความถเอกสารผกผน (Inverse Document Frequency) หาไดจากการน าคา Df ทค านวนไดมาค านวนจากสมการ (27) ตอไปน

119920119915119917119946 = 119845119848119840120784119951

119915119943119946

(27)

การหาคาน าหนกความสมพนธของเทอมกบเอกสาร (TF-IDF weighting) ตามสมการ (28)

119882119894119895 = 119879119865119894119895 lowast 119868119863119865119894119895 (28)

วงกต ศรอไร และคณะ (2552) ไดน าเสนองานวจยเกยวกบการเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร งานวจยชนนกลาววาโดยทวไปการจ าแนกหมวดหมของเอกสารจะใชการแทนเอกสารดวยวธ Bag of Words (BOW) ซงเปนวธทงายแตเปนวธทไมไดใหความส าคญกบค าทมความหมายเหมอนกน ดงนนเมอน าขอมลไปใชในการจ าแนกหมวดหมจง

7

สงผลตอประสทธภาพในการจ าแนกหมวดหมและการคนคนเอกสาร งานวจยนมวตถประสงคเพอปรบปรงการจ าแนกหมวดหมของเอกสารโดยน าเสนอการแทนเอกสารดวยวธสรางแบบจ าลองหวขอใหกบเอกสาร

เทคนคการจดกลมขอมล (Data Clustering) สามารถแบงออกไดเปน 2 ประเภทใหญไดแกการแบงแบบตดสวน (Partitioning) โดยแบงขอมลออกเปนกลมตางๆตามจ านวนกลมทก าหนด และการแบงแบบล าดบชน (Hierarchical) เปนลกษณะของการแบงเปนกลมยอยทถกแบงไวกอนหนานนซ าๆหลายครง โดยการแบงแบบล าดบชนนนสามารถแบงได 2 วธคอแบบบนลงลาง หรอลางขนบน ปจจบนการจดกลมขอมลมอยหลายเทคนคดวยกน อาท Exclusive Clustering เปนการแบงกลมขอมลทมลกษณะเหมอนกนมาไวในกลมเดยวกน Overlapping Clustering เปนการแบงกลมขอมลใหเปนเซตยอยๆซงผลลพธท ไดมากกวาหนงคลสเตอรกได และมจ านวนสมาชกภายในเซตตางๆทมคาแตกตางกน Hierarchical Clustering ซ ง เปนการรวมเอาคณสมบต ของ 2 เทคนคแรกมาไวด วยกน และ Probabilistic Clustering ซงเปนการแบงกลมโดยวธทางสถต การแบงกลมขอมลเปนเทคนควธการวเคราะหเซตของขอมลทถกจดใหอยในรปของเวกเตอรค า เพอน ามาพจารณาความคลายจากคณสมบตความเหมอน (Similarity) หรอระยะหาง (Proximity) โดยค านวณจากระยะหางระหวางเวกเตอรของเอกสาร เทคนคประกอบดวยยเครเดยน (Euclidean) แบบแมนฮตตน (Manhattan) และการเชบเชฟ (Chebychev) ซงกจะไดผลของการจดกลมทแตกตางกนไป นอกจากนการแบงกลมยงสามารถแบงออกเปนแบบการเรยนรแบบมผ สอน (Supervised Learning) และไมมผ สอน (Un-Supervised Learning) ไดแก K-Means Hierarchical และ Self-organizing การแบงกลมเอกสารในลกษณะนการใหคะแนนความคลายคลงระหวางเอกสารจะก าหนดเปนแบบไบนาร 0 หรอ 1 หมายถงเอกสารทมค าส าคญปรากฏอยในทง 2 เอกสาร ซงในบางครงเอกสารทประกอบดวยค าทมความหมายเหมอนกนแตเขยนตางกนกจะไมไดถกจดใหอยกลมเดยวกนกเปนไปได ซงเปนขอจ ากดของเทคนคการจดกลมแบบน

ปจจบนพบวาการจดกลมไดน า เอาวธการฟซซ (Fuzzy) อาท Sequence hierarchical Clustering Hard C-Mean Clustering ถกน ามาใชเพอพจารณาความแปรปรวนในคณสมบตของค าส าคญทเปนตวแทนของเอกสาร ตวอยางเชนการใชฟซซ ซ -มนส (Fuzzy C-Means FCM) เปนการแบงกลมชอตของภาพเคลอนไหว เพอการแบงขอมล การแบงกลมดวย ฟซซ ซ-มนส (Fuzzy C-Means (FCM) Clustering) ศกดชย ศรมากรณ (2551) ไดน าเสนองานวจยเรองการแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม กลาวถงวธการแบงกลมขอมลนนสามารถท าไดหลายวธ เชน Sequential Clustering Hierarchical Clustering Hard Cndash Means Clustering ฯลฯ เพอชวยในการแบงบรเวณตางๆ ใหแยกออกจากกนไดชดเจนยงขน Fuzzy Cndash Means Clustering กเปนวธการแบงกลมขอมลวธการหนงท ไดรบความนยมมาก ขนตอนการแบงกลมแบบฟซซ ซ -มนส

8

ประกอบดวยการก าหนดจ านวนกลมเรมตนในชดขอมล การก าหนดระดบคาความเปนสมาชกในกลมขอมลทกตวจะถกน ามาค านวณคาความเปนสมาชกในการหาตวแทนกลมแตละกลมทมลกษณะส าคญของกลมครบถวน จากนนจะเขาสขนตอนการจดขอมลเขากลม แลวคอยมาปรบคาความเปนสมาชกของสมาชกทกตวในแตละกลมและการปรบคาตวแทน จนกระทงตวแทนปรบคาศนยกลางของกลมไดและคาดชนทวดความผดพลาดของการแบงการกลมมคานอยลงจนถงจดทแสดงวาการแบงกลมขอมลนาจะถกตอง ส าหรบการจ าแนกขอมลภาพออกเปนกลมๆ (กเซลขอมลทกลาวถงในทนคอคาทใชแทนแตละพ

ของ เฟรมภาพ (จากหลกการในการแบ งกล มขอมล โดยว ธ FCM โดย พจารณาชดขอมล 1 2 nX xx x v v vK โดยท xk

v เปนเวกเตอรใน d มต ถาเราตองการแบงขอมลออกเปน c กลม และม ฟซซ ซโดพารทชน 1 2 K cP A A A โดยท (x )i kA v คอ Membership Grades ของ xk

v ทงหมดทมตอ Cluster i สามารถค านวณจดศนยกลางของทกๆ กลม ไดจาก

1

1

x xv 12

x

v vv

v

nm

i k kk

i nm

i kk

Ai c

A (1)

เมอ 1m เปนจ านวนจรงทควบคมผลของคาความเปนสมาชก (Membership Grade) ทมตอการแบงกลมขอมล ตามนยามดรรชนสมรรถนะ (Performance Index mJ P ) ของ P โดย

2

1 1

x x v

v v vn cm

m i k k ik i

J P A (2)

เปาหมายในการท าการแบงกลม (Clustering( คอการหา P ทท าให mJ P มคานอยทสด (Minimize

mJ P ( นนคอ ถาคา mJ P มคานอยกหมายถงความไมคลายคลงกน (Dissimilarity)

การหาคาความคลายของวและพาเมอรนนเปนวธการหนงในการหาคาความคลายของเอกสารถอเปนวธการประเภทการหาคาความคลายแบบเอดจเคาทงเมธอด (Edge Counting Methods) มลกษณะการหาความคลายโดยอาศยระยะหางของโหนด (Path) ทเชอมตอกนแตละค า และต าแหนงในกลมของค านน ๆ ซงจะนยมน ามาใชหาคาความคลายของค าหรอเอกสารทมลกษณะคลายคลงกนหรอมาจากฐานขอมลเดยวกน (Single) การค านวนหาคาความคลายของวและพาเมอรมลกษณะส าคญคออาศยความสมพนธแบบแนวดง (VRs) และความสมพนธแบบแนวระนาบ (HRs) ของกลมค าพอง ซงระยะหางของโหนดและความลกระหวางค าทงหมดจะถกก าหนดไวแลวในฐานขอมลเวรดเนต เมอเราเรยกใชค าสงเพอหาคาความคลายของค าคาความสมพนธดงทกลาวมาขางตนจะถกน ามาคดค านวนแลวแสดงผลออกมาตามสมการของวและพาเมอร ดงสมการ (31)

119904119894119898(119909119910) = 119872119886119909 [ 2lowast119889119890119901119905ℎ(119871119862119878(119909119910))

119897119890119899119892119905ℎ(119909119910) + 2lowast119889119890119901119905ℎ(119871119862119878(119909119910)) ] (41)

9

จากสมการเปนการหาคาความคลายดวยวธการของวและพาเมอรระหวางคาของกลมชอพอง x และ y โดยคา depth คอคาความลกของโหนดกลมค าพองซงมการก าหนดคาไวแลวในฐานขอมลเวรดเนต The Lowest Common Subsumer) เปนโหนดทอยต าทสดทเปนโหนดเชอมระหวางสองโหนดทตองการหาคาความคลายซงในทนคอคา x และ y อกคาหนงทส าคญในสมการวและพาเมอรคอคา length เปนคาระยะหางระหวางโหนดสองโหนดโดยจะนบเปนจ านวนของโหนดทอยระหวางโหนด x และโหนด y ซงคา length ถกก าหนดไวแลว ผลลพธจากการหาคาความคลายจะมคาอยในชวง 0 ge simxy ge 1 หากผลลพธมคามากแสดงวากลมค าพองทงสองมความคลายมากดวยเชนกน

3 วธด าเนนการ (Methods)

การขยายค าคนคนเปนการประมวลโดยอาศยหลกการหาคาน าหนกของค าในเทอม และน าเทอมทไดไปท าการขยายซงจะอาศยฐานขอมลเวรดเนต โดยฐานขอมลเวรดเนตนนมลกษณะดงทกลาวมาแลว สวนทเราจะน ามาใชในการขยายเทอมของเรานนเปนกลมของค าทมความหมายคลายคลงกน เรยกวา ldquosynsetsrdquo หมายถงกลมค าทมความสมพนธกนในเชงความหมายของแตละค า ทมการจดเกบในรปของออนโทโลยในพจนานกรมเวรดเนต ตวอยางการแสดงขอมล wnsynsets(ldquowordrdquo) โดยอาศยเครองมอ NLTK จะไดผลลพธ synsets ทงหมดของ word ยกตวอยางเชนค าวา dog ดงภาพท 2

ภาพท 2 คา synsets ของค าวา Dog

จะเหนไดวาค าวา dog นนม synsets อยหลายกลมและหลายชนดค าโดยจะแบงออก 3 สวนตามรปแบบดงนคอ synset(lsquowordposnnrsquo) word คอกลมค าทเปน synsets กบค าวา ldquodogrdquo pos คอชนดของค าวา ldquodogrdquo ซงมทง noun และ verb (nn เปน part-of-speech หมายถงค านาม) คอ ตวเลขทบอก ล าดบทของกลม นอกจากนเรายงสามารถน าคาตางๆ ของ synsets ไปประยกตใชไดหลายประเภททงการหาความสมพนธของค าประเภทตางๆ เพอหาคาความคลายของค าหรอเอกสาร การแสดงบรบทของค า การแสดงประโยคตวอยางของการใชค าซงเปนคณสมบตของ synsets ของค าศพททจดเกบในเวรดเนต

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 2: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

2

บทคดยอ ปจจบนการเผยแพรเอกสารในรปของเอกสารอเลกทรอนกสมปรมาณทเพมมากขน และเปน

ขอมลทจดอยในประเภทของขอมลทไมมโครงสรางตายตว การคนคนขอมลจากเอกสารจ าเปนตองท าความเขาใจกบรปแบบโครงสรางขอมลทจดเกบ และตองมการเตรยมขอมลใหเหมาะสมกอนการคนคน หลกการท างานของระบบการคนคนเอกสารจะตองอาศยค าคนคน ซงเปนค าส าคญทผใชงานสนใจหรอตองการสบคนโดยการระบค าทใชในการคนคนนน อาจจะเปนค าเดยวหรอค าหลายค ามาประกอบกน ปญหาส าคญของการระบค าคนคนคอผใชงานสวนใหญอาจจะไมสามารถระบค าคนคนไดอยางถกตองหรอค าทตองการไมไดถกจดใหเปนดชนส าหรบคนคน ท าใหไมพบเอกสารทตองการ จากการทดลองพบวาแนวคดการขยายค าสบคนโดยอาศยหลกการจดกลมค าจากค านยามศพทจากเวรดเนต จากการวดผลคาระลกและคาความแมนย าพบวาเทคนควธนท าใหประสทธภาพการคนคนเอกสารเพมมากขน

ค าส าคญ การขยายค าสบคน สบคนค าส าคญ เวรดเนต 1 บทน า (Introduction)

การจดกลมเอกสารเปนเทคนคทใชส าหรบการจ าแนกเอกสารตามคณสมบตของเอกสารทก าหนด โดยใหเอกสารทมคณสมบตทมความคลายคลงกนถกจดใหอยภายในกลมเดยวกน เทคนคการจดกลมสามารถน าไปใชกบงานคนคนเอกสารเพอเพมประสทธภาพ ความรวดเรวในการคนคนเอกสาร การจดกลมสามารถท าไดโดยการแบงออกเปนกลมยอยๆ เมอผใชมการระบค าส าหรบการคนคนเพอใหมการจดกลม และลดขนาดของจ านวนกลมเปาหมายทตองการคนคนแทนการคนหาจากเอกสารทงหมด การก าหนดค าส าคญของค าทตองการสบคนผใชจ าเปนตองเขาใจถงเนอหาและค าส าคญท เปนตวแทนของเอกสารทสนใจ เนองจากการประมวลผลขอมลตนทางอยในรปของภาษาธรรมชาต แนวคดของการประมวลผลดวยภาษาธรรมชาตจงถงน ามาใชเพอวเคราะห โครงสรางขอมล โดยการศกษาการสกดคณสมบตของค าส าคญพบวามการเลอกดวยค าเดยว พยางค วล หรอกลมค าทอยในรปของประโยค ทอยในระบบการสบคนนนจะอาศยการท าดชน และการสกดคณลกษณะทส าคญของเอกสารทมการรวบรวมมาจากอนเตอรเนตหรอแหลงทเกบขอมลตางๆ ซงกลมค าเหลานเรยกวาถงค า ทถกน ามาจดใหอยในรปของเวคเตอร โดยมการแทนคาดวยคณลกษณะของคาความถ (Frequency) และความถผกผน (Inverse Document Frequency) ทปรากฏและคาน าหนกตามโดเมนทก าหนด นอกจากนการน าแนวคดของการประมวลผลภาษาธรรมชาตมาใชเพอประมวลผลค า อาทการตดค า การลดรปของค า (Word Inflection) เพอใหค าอยในรปของรากศพท กรณทมการผนค าใหอยในรปตางๆ ยงอาศยการรวมค าเดยวใหเปนกลมค าโดยอาศย N-Gram ยงสามารถชวยแกปญหาในเรองของต าแหนงการเกดของค าอกดวย พลาวณย พลบรการ และกฤษณะ ไวยมย ไดศกษาคนควาเพอวดความคลายคลงของค าเพอน ามาจดกลมโดยอาศย

3

ค านยามศพทจากพจนานกรมเวรดเนตเพอน าเอาค าทอยในกลมเดยวกนนมาท าการขยายค าสอบถามเพอเปนการเพมประสทธภาพของการคนคนเอกสารในระบบการสบคนตอไป

2 เอกสารงานวจยทผานมา (Research Background)

จากงานวจยทผานมาพบวาการคนคนเอกสารโดยวธการจดกลมไดมบทบาทส าคญเชน นเวศ จระวชตชย (2556) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน การปรบคาพารามเตอรเคอรเนลฟงกชนแบบตางๆ โดยทดสอบประสทธภาพการจดหมวดหมเอกสารภาษาไทยกบอลกอรทมตนไมตดสนใจ (Decision Tree) และเนอฟเบย (Naiumlve-Bayes) โดยใชวธการลดคณลกษณะรวมกบอลกอรทมเครองจกรการเรยนร จากการทดลองพบวาการลดคณลกษณะ ดวยวธ Information Gain เพอลดมตของขอมล แลวสงเขาเครองจกรการเรยนรและวดประสทธภาพจากคา F-Measurement สงสด สามารถสรปไดวา อลกอรทม SVM เคอรเนลฟงกชนแบบ Linear และ SVM เคอรเนลฟงกชนแบบ Polynomial Degree = 3 ใหประสทธภาพการจดหมวดหมโดยเฉลยออกมาดทสดคอ 951 รองลงมาเปนอลกอรทม SVM เคอรเนลฟงกชนแบบ Radial Basis Function (RBF) gamma 08 และ 10 ใหประสทธภาพการจดหมวดหม 949 อลกอรทม Naiumlve Bays ใหประสทธภาพการจดหมวดหม 887 อลกอรทม C45 ใหประสทธภาพการจดหมวดหม 799 ตามล าดบ ทงนจากผลงานวจยของ นเวศ จระวชตชย และคณะ (2551) ไดท าการวจยการจดหมวดหมเอกสารโดยอาศยอลกอรทม Support Vector Machine มพฤตกรรมทจะแยกแยะขอมล โดยใชสมการระนาบหลายมตโดยจะพยายามหาจดขอมลทท าใหไดสมการระนาบหลายมตทใชแบงแยกดทสด (Optimal Hyperplane) ความถกตองทสด โดยพจารณาจากระยะหาง (Margin) ระหวางคลาส ซงเสนระนาบทดทสดนจะสามารถจ าแนกกลมเอกสารออกมาไดอยางมประสทธภาพ ผลจากการทดลองพบวาสามารถลดขนาดคณลกษณะและทดสอบดวยอลกอรทม Support Vector Machine จากกลมตวอยาง พบวาสามารถลดคณลกษณะลงไดมากถง 9137 โดยการลดลงของคณลกษณะดงกลาวไมสงผลใหประสทธภาพในการจดหมวดหมเอกสารลดลงแตอยางใด แตสามารถลดทรพยากรของระบบและลดระยะเวลาในการประมวลผลไดเปนอยางมาก จากผลการทดลองนสามารถน าไปประยกตใชประโยชนในการสรางระบบจดหมวดหมเอกสารอตโนมต และสามารถน ามาประยกตใชกบงานดานอนๆ เชน การคดกรองเอกสาร (Document Filtering) การจดท าดชนอตโนมตเพอใชในการคนคนเอกสาร (Automatic Indexing for IR System) การจดหมวดหมของเวบเพจ (Web Page Classification) เปนตน ในขณะท ชลรตน จรสกลชยและคณะ (2556) ไดศกษาถงแนวทางการจดกลมเอกสารส าหรบขอความภาษาไทย งานวจยฉบบนไดศกษาวจยขนตอนวธการจดกลมเอกสารทงแบบขนตอนวธ การจดกลมแบบ Complete link ส าหรบการกลมแบบล าดบชน และ Single pass ส าหรบการจดกลมแบบไมเปนล าดบชน โดยประยกตงานขนตอนวธดงกลาวกบขอความขาวภาษาไทย นอกจากน

4

งานวจยดงกลาวยงไดประยกตหลกการประมวลผลแบบขนาน เพอแกปญหาในการค านวณคาความเหมอนของเอกสาร ผลงานวจยเบองตนสรปไดวาขนตอนวธในการตดค าไมมผลตอการจดกลม และขนตอนวธในการจดกลมทงสองแบบไมไดใหผลทแตกตางกนอยางชดเจน

จราภรณ ถมแกว และศรณย อนทโกสม (2555) ไดน าเสนอแนวคดของการจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ งานวจยชนนน าเสนอการทดสอบสมมตฐานทวาการจ าแนกขอมลจากงานวจยมกจะพจารณาคณลกษณะทงหมดของขอมล อยางไรกตามคณลกษณะบางประการมความส าคญนอยซงเมอน ามารวมค านวณดวยแลวอาจเปนสาเหตท าใหความแมนย าในการจ าแนกขอมลลดลง โดยในการทดลองประยกตใชอลกอรธมแบบตะกละ (Greedy algorithm) เพอคดเลอกคณลกษณะทส าคญของขอมล รวมกบการจ าแนกขอมล ผลการทดลองพบวา การใชวธคดเลอกคณลกษณะดวยกรดดอลกอรธมรวมกบการจ าแนกขอมลดวย RBF สามารถเพมประสทธภาพในการจ าแนกขอมลใหสงขนและใชเวลาประมวลผลลดลงเมอเปรยบเทยบกบการจ าแนกขอมลโดยไมมการคดเลอกคณลกษณะ

นอกจากนการหาคาความส าคญของเอกสารซงจะดทน าหนกของค าทสนใจโดยใชทฤษฎ tfidf และการหาคาความคลายเอกสารนนจะใช ทฤษฎ Vector Space Model (VSM) ซงกคอ Cosine Similarity จะไดผลดกวา Inner Product และตองเปนค าค าเดยวกนถาเอกสารเปนค าคนละค ากนแตมความหมายเหมอนกนกจะไมสามารถท าได ซง SSRM เปนวธทจะมาใชแกปญหานโดยมวธการดงน

(1) Term Re-Weighting การหาคาน าหนกใหมของค า ซงน าหนกใหมของค าแตละค าจะแทนคาดวย qi ของแตละการสบคน i จะปรบโดยดความสมพนธกบค าทมความหมายคลายกบค า j ในเวคเตอรเดยวกน ดงสมการ (21)

(21) โดยท t คอคาเทรชโฮลด (Threshold) ทผใชก าหนดขน (ในทน t = 08 ) สตรนใชเฉพาะค าทมค าทคลายกนกบค าทสบคน

(2) เทอมเอกซแพนชน การขยายค าศพท ขอแรกเลอกค าพอง หลกจากนนเลอกค าใน Hyponyms และ Hypernyms ของค าคน

5

ภาพท 1 โครงสรางตนไมของเวรดเนต

โดยแตละค านนจะสบคนจาก โครงสรางตนไมของเวรดเนต (WordNet tree) จากภาพท 1 ซง

จะมโครงสรางของค าค านน ค าทมคาเทรชโฮลด มากกวา 09 จะถกน ามาเพมในการคนคน ค าทน ามาเพมอาจจะอยสงกวา หรอต ากวา มากกวา 1 ขนของค าค านนกได ดงสมการ (22)

(22)

โดยทจ านวน n คอจ านวนของ Hyponym ของแตละค า j และส าหรบ Hypernym n จะมคาเทากบ 1 ค าทอยในค าสบคนอยแลวอาจจะกลายเปนค าใหมส าหรบค าอน และค าหนงค า อาจจะถกเพมมากกวาหนงครงได

(3) การหาความคลายของเอกสาร (Document Similarity) ใชสตรดงน

119904119894119898(119902 119889) =sum sum 119902119894119889119894119904119894119898(119894119895)119895119894

sum sum 119902119894119889119894119895119894 (23)

จากสมการ (23) โดยท i และ j คอค าทสนใจและค าในเอกสารตามล าดบ ค าทสนใจจะถก

ค านวณน าหนกใหม และถกขยายค า โดยทค าในเอกสารจะไมตองท าอะไรนอกจากหาน าหนกโดยใช สตร tfidf เทานน ผลการสบคนจะมคาระหวาง 0 กบ 1

6

(4) การหาคา tfidf คอการหาคาความถของเทอมในเอกสารและความถของเอกสารทมเทอมนนอย โดยแบงสามารถค านวนหาไดจากสตรดงตอไปน

การหาคา ความถของโทเคน (Token) ทปรากฏในเอกสาร หรอกคอความถของเทอมนน (Term weight Term frequency) ดงสมการ (24)

119865119894119895 = 119865119903119890119902119906119890119899119888119910 119900119891 119905119890119903119898 119894 119894119899 119889119900119888119906119898119890119899119905 119895 (24)

การหาคาความถของเทอม (tf Term frequency) ไดจากสมการ (25)

119879119865119894119895 =119865119894119895

max 119865119894119895 (25)

การหาคาน าหนกของเอกสาร (Term weight inverse document frequency) ทมเทอมปรากฏอยในเอกสาร โดยการหาคาความถของเอกสาร (Document frequency) จากสมการ (26)

119863119891119894 =119879ℎ119890 119889119900119888119906119898119890119899119905 119891119903119890119902119906119890119899119888119910 119900119891 119905

119879ℎ119908 119899119906119898119887119890119903 119900119891 119889119900119888119906119898119890119899119905119904 119905ℎ119886119905 119888119900119899119905119886119894119899 119905 (26)

การหาคาความถเอกสารผกผน (Inverse Document Frequency) หาไดจากการน าคา Df ทค านวนไดมาค านวนจากสมการ (27) ตอไปน

119920119915119917119946 = 119845119848119840120784119951

119915119943119946

(27)

การหาคาน าหนกความสมพนธของเทอมกบเอกสาร (TF-IDF weighting) ตามสมการ (28)

119882119894119895 = 119879119865119894119895 lowast 119868119863119865119894119895 (28)

วงกต ศรอไร และคณะ (2552) ไดน าเสนองานวจยเกยวกบการเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร งานวจยชนนกลาววาโดยทวไปการจ าแนกหมวดหมของเอกสารจะใชการแทนเอกสารดวยวธ Bag of Words (BOW) ซงเปนวธทงายแตเปนวธทไมไดใหความส าคญกบค าทมความหมายเหมอนกน ดงนนเมอน าขอมลไปใชในการจ าแนกหมวดหมจง

7

สงผลตอประสทธภาพในการจ าแนกหมวดหมและการคนคนเอกสาร งานวจยนมวตถประสงคเพอปรบปรงการจ าแนกหมวดหมของเอกสารโดยน าเสนอการแทนเอกสารดวยวธสรางแบบจ าลองหวขอใหกบเอกสาร

เทคนคการจดกลมขอมล (Data Clustering) สามารถแบงออกไดเปน 2 ประเภทใหญไดแกการแบงแบบตดสวน (Partitioning) โดยแบงขอมลออกเปนกลมตางๆตามจ านวนกลมทก าหนด และการแบงแบบล าดบชน (Hierarchical) เปนลกษณะของการแบงเปนกลมยอยทถกแบงไวกอนหนานนซ าๆหลายครง โดยการแบงแบบล าดบชนนนสามารถแบงได 2 วธคอแบบบนลงลาง หรอลางขนบน ปจจบนการจดกลมขอมลมอยหลายเทคนคดวยกน อาท Exclusive Clustering เปนการแบงกลมขอมลทมลกษณะเหมอนกนมาไวในกลมเดยวกน Overlapping Clustering เปนการแบงกลมขอมลใหเปนเซตยอยๆซงผลลพธท ไดมากกวาหนงคลสเตอรกได และมจ านวนสมาชกภายในเซตตางๆทมคาแตกตางกน Hierarchical Clustering ซ ง เปนการรวมเอาคณสมบต ของ 2 เทคนคแรกมาไวด วยกน และ Probabilistic Clustering ซงเปนการแบงกลมโดยวธทางสถต การแบงกลมขอมลเปนเทคนควธการวเคราะหเซตของขอมลทถกจดใหอยในรปของเวกเตอรค า เพอน ามาพจารณาความคลายจากคณสมบตความเหมอน (Similarity) หรอระยะหาง (Proximity) โดยค านวณจากระยะหางระหวางเวกเตอรของเอกสาร เทคนคประกอบดวยยเครเดยน (Euclidean) แบบแมนฮตตน (Manhattan) และการเชบเชฟ (Chebychev) ซงกจะไดผลของการจดกลมทแตกตางกนไป นอกจากนการแบงกลมยงสามารถแบงออกเปนแบบการเรยนรแบบมผ สอน (Supervised Learning) และไมมผ สอน (Un-Supervised Learning) ไดแก K-Means Hierarchical และ Self-organizing การแบงกลมเอกสารในลกษณะนการใหคะแนนความคลายคลงระหวางเอกสารจะก าหนดเปนแบบไบนาร 0 หรอ 1 หมายถงเอกสารทมค าส าคญปรากฏอยในทง 2 เอกสาร ซงในบางครงเอกสารทประกอบดวยค าทมความหมายเหมอนกนแตเขยนตางกนกจะไมไดถกจดใหอยกลมเดยวกนกเปนไปได ซงเปนขอจ ากดของเทคนคการจดกลมแบบน

ปจจบนพบวาการจดกลมไดน า เอาวธการฟซซ (Fuzzy) อาท Sequence hierarchical Clustering Hard C-Mean Clustering ถกน ามาใชเพอพจารณาความแปรปรวนในคณสมบตของค าส าคญทเปนตวแทนของเอกสาร ตวอยางเชนการใชฟซซ ซ -มนส (Fuzzy C-Means FCM) เปนการแบงกลมชอตของภาพเคลอนไหว เพอการแบงขอมล การแบงกลมดวย ฟซซ ซ-มนส (Fuzzy C-Means (FCM) Clustering) ศกดชย ศรมากรณ (2551) ไดน าเสนองานวจยเรองการแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม กลาวถงวธการแบงกลมขอมลนนสามารถท าไดหลายวธ เชน Sequential Clustering Hierarchical Clustering Hard Cndash Means Clustering ฯลฯ เพอชวยในการแบงบรเวณตางๆ ใหแยกออกจากกนไดชดเจนยงขน Fuzzy Cndash Means Clustering กเปนวธการแบงกลมขอมลวธการหนงท ไดรบความนยมมาก ขนตอนการแบงกลมแบบฟซซ ซ -มนส

8

ประกอบดวยการก าหนดจ านวนกลมเรมตนในชดขอมล การก าหนดระดบคาความเปนสมาชกในกลมขอมลทกตวจะถกน ามาค านวณคาความเปนสมาชกในการหาตวแทนกลมแตละกลมทมลกษณะส าคญของกลมครบถวน จากนนจะเขาสขนตอนการจดขอมลเขากลม แลวคอยมาปรบคาความเปนสมาชกของสมาชกทกตวในแตละกลมและการปรบคาตวแทน จนกระทงตวแทนปรบคาศนยกลางของกลมไดและคาดชนทวดความผดพลาดของการแบงการกลมมคานอยลงจนถงจดทแสดงวาการแบงกลมขอมลนาจะถกตอง ส าหรบการจ าแนกขอมลภาพออกเปนกลมๆ (กเซลขอมลทกลาวถงในทนคอคาทใชแทนแตละพ

ของ เฟรมภาพ (จากหลกการในการแบ งกล มขอมล โดยว ธ FCM โดย พจารณาชดขอมล 1 2 nX xx x v v vK โดยท xk

v เปนเวกเตอรใน d มต ถาเราตองการแบงขอมลออกเปน c กลม และม ฟซซ ซโดพารทชน 1 2 K cP A A A โดยท (x )i kA v คอ Membership Grades ของ xk

v ทงหมดทมตอ Cluster i สามารถค านวณจดศนยกลางของทกๆ กลม ไดจาก

1

1

x xv 12

x

v vv

v

nm

i k kk

i nm

i kk

Ai c

A (1)

เมอ 1m เปนจ านวนจรงทควบคมผลของคาความเปนสมาชก (Membership Grade) ทมตอการแบงกลมขอมล ตามนยามดรรชนสมรรถนะ (Performance Index mJ P ) ของ P โดย

2

1 1

x x v

v v vn cm

m i k k ik i

J P A (2)

เปาหมายในการท าการแบงกลม (Clustering( คอการหา P ทท าให mJ P มคานอยทสด (Minimize

mJ P ( นนคอ ถาคา mJ P มคานอยกหมายถงความไมคลายคลงกน (Dissimilarity)

การหาคาความคลายของวและพาเมอรนนเปนวธการหนงในการหาคาความคลายของเอกสารถอเปนวธการประเภทการหาคาความคลายแบบเอดจเคาทงเมธอด (Edge Counting Methods) มลกษณะการหาความคลายโดยอาศยระยะหางของโหนด (Path) ทเชอมตอกนแตละค า และต าแหนงในกลมของค านน ๆ ซงจะนยมน ามาใชหาคาความคลายของค าหรอเอกสารทมลกษณะคลายคลงกนหรอมาจากฐานขอมลเดยวกน (Single) การค านวนหาคาความคลายของวและพาเมอรมลกษณะส าคญคออาศยความสมพนธแบบแนวดง (VRs) และความสมพนธแบบแนวระนาบ (HRs) ของกลมค าพอง ซงระยะหางของโหนดและความลกระหวางค าทงหมดจะถกก าหนดไวแลวในฐานขอมลเวรดเนต เมอเราเรยกใชค าสงเพอหาคาความคลายของค าคาความสมพนธดงทกลาวมาขางตนจะถกน ามาคดค านวนแลวแสดงผลออกมาตามสมการของวและพาเมอร ดงสมการ (31)

119904119894119898(119909119910) = 119872119886119909 [ 2lowast119889119890119901119905ℎ(119871119862119878(119909119910))

119897119890119899119892119905ℎ(119909119910) + 2lowast119889119890119901119905ℎ(119871119862119878(119909119910)) ] (41)

9

จากสมการเปนการหาคาความคลายดวยวธการของวและพาเมอรระหวางคาของกลมชอพอง x และ y โดยคา depth คอคาความลกของโหนดกลมค าพองซงมการก าหนดคาไวแลวในฐานขอมลเวรดเนต The Lowest Common Subsumer) เปนโหนดทอยต าทสดทเปนโหนดเชอมระหวางสองโหนดทตองการหาคาความคลายซงในทนคอคา x และ y อกคาหนงทส าคญในสมการวและพาเมอรคอคา length เปนคาระยะหางระหวางโหนดสองโหนดโดยจะนบเปนจ านวนของโหนดทอยระหวางโหนด x และโหนด y ซงคา length ถกก าหนดไวแลว ผลลพธจากการหาคาความคลายจะมคาอยในชวง 0 ge simxy ge 1 หากผลลพธมคามากแสดงวากลมค าพองทงสองมความคลายมากดวยเชนกน

3 วธด าเนนการ (Methods)

การขยายค าคนคนเปนการประมวลโดยอาศยหลกการหาคาน าหนกของค าในเทอม และน าเทอมทไดไปท าการขยายซงจะอาศยฐานขอมลเวรดเนต โดยฐานขอมลเวรดเนตนนมลกษณะดงทกลาวมาแลว สวนทเราจะน ามาใชในการขยายเทอมของเรานนเปนกลมของค าทมความหมายคลายคลงกน เรยกวา ldquosynsetsrdquo หมายถงกลมค าทมความสมพนธกนในเชงความหมายของแตละค า ทมการจดเกบในรปของออนโทโลยในพจนานกรมเวรดเนต ตวอยางการแสดงขอมล wnsynsets(ldquowordrdquo) โดยอาศยเครองมอ NLTK จะไดผลลพธ synsets ทงหมดของ word ยกตวอยางเชนค าวา dog ดงภาพท 2

ภาพท 2 คา synsets ของค าวา Dog

จะเหนไดวาค าวา dog นนม synsets อยหลายกลมและหลายชนดค าโดยจะแบงออก 3 สวนตามรปแบบดงนคอ synset(lsquowordposnnrsquo) word คอกลมค าทเปน synsets กบค าวา ldquodogrdquo pos คอชนดของค าวา ldquodogrdquo ซงมทง noun และ verb (nn เปน part-of-speech หมายถงค านาม) คอ ตวเลขทบอก ล าดบทของกลม นอกจากนเรายงสามารถน าคาตางๆ ของ synsets ไปประยกตใชไดหลายประเภททงการหาความสมพนธของค าประเภทตางๆ เพอหาคาความคลายของค าหรอเอกสาร การแสดงบรบทของค า การแสดงประโยคตวอยางของการใชค าซงเปนคณสมบตของ synsets ของค าศพททจดเกบในเวรดเนต

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 3: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

3

ค านยามศพทจากพจนานกรมเวรดเนตเพอน าเอาค าทอยในกลมเดยวกนนมาท าการขยายค าสอบถามเพอเปนการเพมประสทธภาพของการคนคนเอกสารในระบบการสบคนตอไป

2 เอกสารงานวจยทผานมา (Research Background)

จากงานวจยทผานมาพบวาการคนคนเอกสารโดยวธการจดกลมไดมบทบาทส าคญเชน นเวศ จระวชตชย (2556) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน การปรบคาพารามเตอรเคอรเนลฟงกชนแบบตางๆ โดยทดสอบประสทธภาพการจดหมวดหมเอกสารภาษาไทยกบอลกอรทมตนไมตดสนใจ (Decision Tree) และเนอฟเบย (Naiumlve-Bayes) โดยใชวธการลดคณลกษณะรวมกบอลกอรทมเครองจกรการเรยนร จากการทดลองพบวาการลดคณลกษณะ ดวยวธ Information Gain เพอลดมตของขอมล แลวสงเขาเครองจกรการเรยนรและวดประสทธภาพจากคา F-Measurement สงสด สามารถสรปไดวา อลกอรทม SVM เคอรเนลฟงกชนแบบ Linear และ SVM เคอรเนลฟงกชนแบบ Polynomial Degree = 3 ใหประสทธภาพการจดหมวดหมโดยเฉลยออกมาดทสดคอ 951 รองลงมาเปนอลกอรทม SVM เคอรเนลฟงกชนแบบ Radial Basis Function (RBF) gamma 08 และ 10 ใหประสทธภาพการจดหมวดหม 949 อลกอรทม Naiumlve Bays ใหประสทธภาพการจดหมวดหม 887 อลกอรทม C45 ใหประสทธภาพการจดหมวดหม 799 ตามล าดบ ทงนจากผลงานวจยของ นเวศ จระวชตชย และคณะ (2551) ไดท าการวจยการจดหมวดหมเอกสารโดยอาศยอลกอรทม Support Vector Machine มพฤตกรรมทจะแยกแยะขอมล โดยใชสมการระนาบหลายมตโดยจะพยายามหาจดขอมลทท าใหไดสมการระนาบหลายมตทใชแบงแยกดทสด (Optimal Hyperplane) ความถกตองทสด โดยพจารณาจากระยะหาง (Margin) ระหวางคลาส ซงเสนระนาบทดทสดนจะสามารถจ าแนกกลมเอกสารออกมาไดอยางมประสทธภาพ ผลจากการทดลองพบวาสามารถลดขนาดคณลกษณะและทดสอบดวยอลกอรทม Support Vector Machine จากกลมตวอยาง พบวาสามารถลดคณลกษณะลงไดมากถง 9137 โดยการลดลงของคณลกษณะดงกลาวไมสงผลใหประสทธภาพในการจดหมวดหมเอกสารลดลงแตอยางใด แตสามารถลดทรพยากรของระบบและลดระยะเวลาในการประมวลผลไดเปนอยางมาก จากผลการทดลองนสามารถน าไปประยกตใชประโยชนในการสรางระบบจดหมวดหมเอกสารอตโนมต และสามารถน ามาประยกตใชกบงานดานอนๆ เชน การคดกรองเอกสาร (Document Filtering) การจดท าดชนอตโนมตเพอใชในการคนคนเอกสาร (Automatic Indexing for IR System) การจดหมวดหมของเวบเพจ (Web Page Classification) เปนตน ในขณะท ชลรตน จรสกลชยและคณะ (2556) ไดศกษาถงแนวทางการจดกลมเอกสารส าหรบขอความภาษาไทย งานวจยฉบบนไดศกษาวจยขนตอนวธการจดกลมเอกสารทงแบบขนตอนวธ การจดกลมแบบ Complete link ส าหรบการกลมแบบล าดบชน และ Single pass ส าหรบการจดกลมแบบไมเปนล าดบชน โดยประยกตงานขนตอนวธดงกลาวกบขอความขาวภาษาไทย นอกจากน

4

งานวจยดงกลาวยงไดประยกตหลกการประมวลผลแบบขนาน เพอแกปญหาในการค านวณคาความเหมอนของเอกสาร ผลงานวจยเบองตนสรปไดวาขนตอนวธในการตดค าไมมผลตอการจดกลม และขนตอนวธในการจดกลมทงสองแบบไมไดใหผลทแตกตางกนอยางชดเจน

จราภรณ ถมแกว และศรณย อนทโกสม (2555) ไดน าเสนอแนวคดของการจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ งานวจยชนนน าเสนอการทดสอบสมมตฐานทวาการจ าแนกขอมลจากงานวจยมกจะพจารณาคณลกษณะทงหมดของขอมล อยางไรกตามคณลกษณะบางประการมความส าคญนอยซงเมอน ามารวมค านวณดวยแลวอาจเปนสาเหตท าใหความแมนย าในการจ าแนกขอมลลดลง โดยในการทดลองประยกตใชอลกอรธมแบบตะกละ (Greedy algorithm) เพอคดเลอกคณลกษณะทส าคญของขอมล รวมกบการจ าแนกขอมล ผลการทดลองพบวา การใชวธคดเลอกคณลกษณะดวยกรดดอลกอรธมรวมกบการจ าแนกขอมลดวย RBF สามารถเพมประสทธภาพในการจ าแนกขอมลใหสงขนและใชเวลาประมวลผลลดลงเมอเปรยบเทยบกบการจ าแนกขอมลโดยไมมการคดเลอกคณลกษณะ

นอกจากนการหาคาความส าคญของเอกสารซงจะดทน าหนกของค าทสนใจโดยใชทฤษฎ tfidf และการหาคาความคลายเอกสารนนจะใช ทฤษฎ Vector Space Model (VSM) ซงกคอ Cosine Similarity จะไดผลดกวา Inner Product และตองเปนค าค าเดยวกนถาเอกสารเปนค าคนละค ากนแตมความหมายเหมอนกนกจะไมสามารถท าได ซง SSRM เปนวธทจะมาใชแกปญหานโดยมวธการดงน

(1) Term Re-Weighting การหาคาน าหนกใหมของค า ซงน าหนกใหมของค าแตละค าจะแทนคาดวย qi ของแตละการสบคน i จะปรบโดยดความสมพนธกบค าทมความหมายคลายกบค า j ในเวคเตอรเดยวกน ดงสมการ (21)

(21) โดยท t คอคาเทรชโฮลด (Threshold) ทผใชก าหนดขน (ในทน t = 08 ) สตรนใชเฉพาะค าทมค าทคลายกนกบค าทสบคน

(2) เทอมเอกซแพนชน การขยายค าศพท ขอแรกเลอกค าพอง หลกจากนนเลอกค าใน Hyponyms และ Hypernyms ของค าคน

5

ภาพท 1 โครงสรางตนไมของเวรดเนต

โดยแตละค านนจะสบคนจาก โครงสรางตนไมของเวรดเนต (WordNet tree) จากภาพท 1 ซง

จะมโครงสรางของค าค านน ค าทมคาเทรชโฮลด มากกวา 09 จะถกน ามาเพมในการคนคน ค าทน ามาเพมอาจจะอยสงกวา หรอต ากวา มากกวา 1 ขนของค าค านนกได ดงสมการ (22)

(22)

โดยทจ านวน n คอจ านวนของ Hyponym ของแตละค า j และส าหรบ Hypernym n จะมคาเทากบ 1 ค าทอยในค าสบคนอยแลวอาจจะกลายเปนค าใหมส าหรบค าอน และค าหนงค า อาจจะถกเพมมากกวาหนงครงได

(3) การหาความคลายของเอกสาร (Document Similarity) ใชสตรดงน

119904119894119898(119902 119889) =sum sum 119902119894119889119894119904119894119898(119894119895)119895119894

sum sum 119902119894119889119894119895119894 (23)

จากสมการ (23) โดยท i และ j คอค าทสนใจและค าในเอกสารตามล าดบ ค าทสนใจจะถก

ค านวณน าหนกใหม และถกขยายค า โดยทค าในเอกสารจะไมตองท าอะไรนอกจากหาน าหนกโดยใช สตร tfidf เทานน ผลการสบคนจะมคาระหวาง 0 กบ 1

6

(4) การหาคา tfidf คอการหาคาความถของเทอมในเอกสารและความถของเอกสารทมเทอมนนอย โดยแบงสามารถค านวนหาไดจากสตรดงตอไปน

การหาคา ความถของโทเคน (Token) ทปรากฏในเอกสาร หรอกคอความถของเทอมนน (Term weight Term frequency) ดงสมการ (24)

119865119894119895 = 119865119903119890119902119906119890119899119888119910 119900119891 119905119890119903119898 119894 119894119899 119889119900119888119906119898119890119899119905 119895 (24)

การหาคาความถของเทอม (tf Term frequency) ไดจากสมการ (25)

119879119865119894119895 =119865119894119895

max 119865119894119895 (25)

การหาคาน าหนกของเอกสาร (Term weight inverse document frequency) ทมเทอมปรากฏอยในเอกสาร โดยการหาคาความถของเอกสาร (Document frequency) จากสมการ (26)

119863119891119894 =119879ℎ119890 119889119900119888119906119898119890119899119905 119891119903119890119902119906119890119899119888119910 119900119891 119905

119879ℎ119908 119899119906119898119887119890119903 119900119891 119889119900119888119906119898119890119899119905119904 119905ℎ119886119905 119888119900119899119905119886119894119899 119905 (26)

การหาคาความถเอกสารผกผน (Inverse Document Frequency) หาไดจากการน าคา Df ทค านวนไดมาค านวนจากสมการ (27) ตอไปน

119920119915119917119946 = 119845119848119840120784119951

119915119943119946

(27)

การหาคาน าหนกความสมพนธของเทอมกบเอกสาร (TF-IDF weighting) ตามสมการ (28)

119882119894119895 = 119879119865119894119895 lowast 119868119863119865119894119895 (28)

วงกต ศรอไร และคณะ (2552) ไดน าเสนองานวจยเกยวกบการเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร งานวจยชนนกลาววาโดยทวไปการจ าแนกหมวดหมของเอกสารจะใชการแทนเอกสารดวยวธ Bag of Words (BOW) ซงเปนวธทงายแตเปนวธทไมไดใหความส าคญกบค าทมความหมายเหมอนกน ดงนนเมอน าขอมลไปใชในการจ าแนกหมวดหมจง

7

สงผลตอประสทธภาพในการจ าแนกหมวดหมและการคนคนเอกสาร งานวจยนมวตถประสงคเพอปรบปรงการจ าแนกหมวดหมของเอกสารโดยน าเสนอการแทนเอกสารดวยวธสรางแบบจ าลองหวขอใหกบเอกสาร

เทคนคการจดกลมขอมล (Data Clustering) สามารถแบงออกไดเปน 2 ประเภทใหญไดแกการแบงแบบตดสวน (Partitioning) โดยแบงขอมลออกเปนกลมตางๆตามจ านวนกลมทก าหนด และการแบงแบบล าดบชน (Hierarchical) เปนลกษณะของการแบงเปนกลมยอยทถกแบงไวกอนหนานนซ าๆหลายครง โดยการแบงแบบล าดบชนนนสามารถแบงได 2 วธคอแบบบนลงลาง หรอลางขนบน ปจจบนการจดกลมขอมลมอยหลายเทคนคดวยกน อาท Exclusive Clustering เปนการแบงกลมขอมลทมลกษณะเหมอนกนมาไวในกลมเดยวกน Overlapping Clustering เปนการแบงกลมขอมลใหเปนเซตยอยๆซงผลลพธท ไดมากกวาหนงคลสเตอรกได และมจ านวนสมาชกภายในเซตตางๆทมคาแตกตางกน Hierarchical Clustering ซ ง เปนการรวมเอาคณสมบต ของ 2 เทคนคแรกมาไวด วยกน และ Probabilistic Clustering ซงเปนการแบงกลมโดยวธทางสถต การแบงกลมขอมลเปนเทคนควธการวเคราะหเซตของขอมลทถกจดใหอยในรปของเวกเตอรค า เพอน ามาพจารณาความคลายจากคณสมบตความเหมอน (Similarity) หรอระยะหาง (Proximity) โดยค านวณจากระยะหางระหวางเวกเตอรของเอกสาร เทคนคประกอบดวยยเครเดยน (Euclidean) แบบแมนฮตตน (Manhattan) และการเชบเชฟ (Chebychev) ซงกจะไดผลของการจดกลมทแตกตางกนไป นอกจากนการแบงกลมยงสามารถแบงออกเปนแบบการเรยนรแบบมผ สอน (Supervised Learning) และไมมผ สอน (Un-Supervised Learning) ไดแก K-Means Hierarchical และ Self-organizing การแบงกลมเอกสารในลกษณะนการใหคะแนนความคลายคลงระหวางเอกสารจะก าหนดเปนแบบไบนาร 0 หรอ 1 หมายถงเอกสารทมค าส าคญปรากฏอยในทง 2 เอกสาร ซงในบางครงเอกสารทประกอบดวยค าทมความหมายเหมอนกนแตเขยนตางกนกจะไมไดถกจดใหอยกลมเดยวกนกเปนไปได ซงเปนขอจ ากดของเทคนคการจดกลมแบบน

ปจจบนพบวาการจดกลมไดน า เอาวธการฟซซ (Fuzzy) อาท Sequence hierarchical Clustering Hard C-Mean Clustering ถกน ามาใชเพอพจารณาความแปรปรวนในคณสมบตของค าส าคญทเปนตวแทนของเอกสาร ตวอยางเชนการใชฟซซ ซ -มนส (Fuzzy C-Means FCM) เปนการแบงกลมชอตของภาพเคลอนไหว เพอการแบงขอมล การแบงกลมดวย ฟซซ ซ-มนส (Fuzzy C-Means (FCM) Clustering) ศกดชย ศรมากรณ (2551) ไดน าเสนองานวจยเรองการแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม กลาวถงวธการแบงกลมขอมลนนสามารถท าไดหลายวธ เชน Sequential Clustering Hierarchical Clustering Hard Cndash Means Clustering ฯลฯ เพอชวยในการแบงบรเวณตางๆ ใหแยกออกจากกนไดชดเจนยงขน Fuzzy Cndash Means Clustering กเปนวธการแบงกลมขอมลวธการหนงท ไดรบความนยมมาก ขนตอนการแบงกลมแบบฟซซ ซ -มนส

8

ประกอบดวยการก าหนดจ านวนกลมเรมตนในชดขอมล การก าหนดระดบคาความเปนสมาชกในกลมขอมลทกตวจะถกน ามาค านวณคาความเปนสมาชกในการหาตวแทนกลมแตละกลมทมลกษณะส าคญของกลมครบถวน จากนนจะเขาสขนตอนการจดขอมลเขากลม แลวคอยมาปรบคาความเปนสมาชกของสมาชกทกตวในแตละกลมและการปรบคาตวแทน จนกระทงตวแทนปรบคาศนยกลางของกลมไดและคาดชนทวดความผดพลาดของการแบงการกลมมคานอยลงจนถงจดทแสดงวาการแบงกลมขอมลนาจะถกตอง ส าหรบการจ าแนกขอมลภาพออกเปนกลมๆ (กเซลขอมลทกลาวถงในทนคอคาทใชแทนแตละพ

ของ เฟรมภาพ (จากหลกการในการแบ งกล มขอมล โดยว ธ FCM โดย พจารณาชดขอมล 1 2 nX xx x v v vK โดยท xk

v เปนเวกเตอรใน d มต ถาเราตองการแบงขอมลออกเปน c กลม และม ฟซซ ซโดพารทชน 1 2 K cP A A A โดยท (x )i kA v คอ Membership Grades ของ xk

v ทงหมดทมตอ Cluster i สามารถค านวณจดศนยกลางของทกๆ กลม ไดจาก

1

1

x xv 12

x

v vv

v

nm

i k kk

i nm

i kk

Ai c

A (1)

เมอ 1m เปนจ านวนจรงทควบคมผลของคาความเปนสมาชก (Membership Grade) ทมตอการแบงกลมขอมล ตามนยามดรรชนสมรรถนะ (Performance Index mJ P ) ของ P โดย

2

1 1

x x v

v v vn cm

m i k k ik i

J P A (2)

เปาหมายในการท าการแบงกลม (Clustering( คอการหา P ทท าให mJ P มคานอยทสด (Minimize

mJ P ( นนคอ ถาคา mJ P มคานอยกหมายถงความไมคลายคลงกน (Dissimilarity)

การหาคาความคลายของวและพาเมอรนนเปนวธการหนงในการหาคาความคลายของเอกสารถอเปนวธการประเภทการหาคาความคลายแบบเอดจเคาทงเมธอด (Edge Counting Methods) มลกษณะการหาความคลายโดยอาศยระยะหางของโหนด (Path) ทเชอมตอกนแตละค า และต าแหนงในกลมของค านน ๆ ซงจะนยมน ามาใชหาคาความคลายของค าหรอเอกสารทมลกษณะคลายคลงกนหรอมาจากฐานขอมลเดยวกน (Single) การค านวนหาคาความคลายของวและพาเมอรมลกษณะส าคญคออาศยความสมพนธแบบแนวดง (VRs) และความสมพนธแบบแนวระนาบ (HRs) ของกลมค าพอง ซงระยะหางของโหนดและความลกระหวางค าทงหมดจะถกก าหนดไวแลวในฐานขอมลเวรดเนต เมอเราเรยกใชค าสงเพอหาคาความคลายของค าคาความสมพนธดงทกลาวมาขางตนจะถกน ามาคดค านวนแลวแสดงผลออกมาตามสมการของวและพาเมอร ดงสมการ (31)

119904119894119898(119909119910) = 119872119886119909 [ 2lowast119889119890119901119905ℎ(119871119862119878(119909119910))

119897119890119899119892119905ℎ(119909119910) + 2lowast119889119890119901119905ℎ(119871119862119878(119909119910)) ] (41)

9

จากสมการเปนการหาคาความคลายดวยวธการของวและพาเมอรระหวางคาของกลมชอพอง x และ y โดยคา depth คอคาความลกของโหนดกลมค าพองซงมการก าหนดคาไวแลวในฐานขอมลเวรดเนต The Lowest Common Subsumer) เปนโหนดทอยต าทสดทเปนโหนดเชอมระหวางสองโหนดทตองการหาคาความคลายซงในทนคอคา x และ y อกคาหนงทส าคญในสมการวและพาเมอรคอคา length เปนคาระยะหางระหวางโหนดสองโหนดโดยจะนบเปนจ านวนของโหนดทอยระหวางโหนด x และโหนด y ซงคา length ถกก าหนดไวแลว ผลลพธจากการหาคาความคลายจะมคาอยในชวง 0 ge simxy ge 1 หากผลลพธมคามากแสดงวากลมค าพองทงสองมความคลายมากดวยเชนกน

3 วธด าเนนการ (Methods)

การขยายค าคนคนเปนการประมวลโดยอาศยหลกการหาคาน าหนกของค าในเทอม และน าเทอมทไดไปท าการขยายซงจะอาศยฐานขอมลเวรดเนต โดยฐานขอมลเวรดเนตนนมลกษณะดงทกลาวมาแลว สวนทเราจะน ามาใชในการขยายเทอมของเรานนเปนกลมของค าทมความหมายคลายคลงกน เรยกวา ldquosynsetsrdquo หมายถงกลมค าทมความสมพนธกนในเชงความหมายของแตละค า ทมการจดเกบในรปของออนโทโลยในพจนานกรมเวรดเนต ตวอยางการแสดงขอมล wnsynsets(ldquowordrdquo) โดยอาศยเครองมอ NLTK จะไดผลลพธ synsets ทงหมดของ word ยกตวอยางเชนค าวา dog ดงภาพท 2

ภาพท 2 คา synsets ของค าวา Dog

จะเหนไดวาค าวา dog นนม synsets อยหลายกลมและหลายชนดค าโดยจะแบงออก 3 สวนตามรปแบบดงนคอ synset(lsquowordposnnrsquo) word คอกลมค าทเปน synsets กบค าวา ldquodogrdquo pos คอชนดของค าวา ldquodogrdquo ซงมทง noun และ verb (nn เปน part-of-speech หมายถงค านาม) คอ ตวเลขทบอก ล าดบทของกลม นอกจากนเรายงสามารถน าคาตางๆ ของ synsets ไปประยกตใชไดหลายประเภททงการหาความสมพนธของค าประเภทตางๆ เพอหาคาความคลายของค าหรอเอกสาร การแสดงบรบทของค า การแสดงประโยคตวอยางของการใชค าซงเปนคณสมบตของ synsets ของค าศพททจดเกบในเวรดเนต

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 4: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

4

งานวจยดงกลาวยงไดประยกตหลกการประมวลผลแบบขนาน เพอแกปญหาในการค านวณคาความเหมอนของเอกสาร ผลงานวจยเบองตนสรปไดวาขนตอนวธในการตดค าไมมผลตอการจดกลม และขนตอนวธในการจดกลมทงสองแบบไมไดใหผลทแตกตางกนอยางชดเจน

จราภรณ ถมแกว และศรณย อนทโกสม (2555) ไดน าเสนอแนวคดของการจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ งานวจยชนนน าเสนอการทดสอบสมมตฐานทวาการจ าแนกขอมลจากงานวจยมกจะพจารณาคณลกษณะทงหมดของขอมล อยางไรกตามคณลกษณะบางประการมความส าคญนอยซงเมอน ามารวมค านวณดวยแลวอาจเปนสาเหตท าใหความแมนย าในการจ าแนกขอมลลดลง โดยในการทดลองประยกตใชอลกอรธมแบบตะกละ (Greedy algorithm) เพอคดเลอกคณลกษณะทส าคญของขอมล รวมกบการจ าแนกขอมล ผลการทดลองพบวา การใชวธคดเลอกคณลกษณะดวยกรดดอลกอรธมรวมกบการจ าแนกขอมลดวย RBF สามารถเพมประสทธภาพในการจ าแนกขอมลใหสงขนและใชเวลาประมวลผลลดลงเมอเปรยบเทยบกบการจ าแนกขอมลโดยไมมการคดเลอกคณลกษณะ

นอกจากนการหาคาความส าคญของเอกสารซงจะดทน าหนกของค าทสนใจโดยใชทฤษฎ tfidf และการหาคาความคลายเอกสารนนจะใช ทฤษฎ Vector Space Model (VSM) ซงกคอ Cosine Similarity จะไดผลดกวา Inner Product และตองเปนค าค าเดยวกนถาเอกสารเปนค าคนละค ากนแตมความหมายเหมอนกนกจะไมสามารถท าได ซง SSRM เปนวธทจะมาใชแกปญหานโดยมวธการดงน

(1) Term Re-Weighting การหาคาน าหนกใหมของค า ซงน าหนกใหมของค าแตละค าจะแทนคาดวย qi ของแตละการสบคน i จะปรบโดยดความสมพนธกบค าทมความหมายคลายกบค า j ในเวคเตอรเดยวกน ดงสมการ (21)

(21) โดยท t คอคาเทรชโฮลด (Threshold) ทผใชก าหนดขน (ในทน t = 08 ) สตรนใชเฉพาะค าทมค าทคลายกนกบค าทสบคน

(2) เทอมเอกซแพนชน การขยายค าศพท ขอแรกเลอกค าพอง หลกจากนนเลอกค าใน Hyponyms และ Hypernyms ของค าคน

5

ภาพท 1 โครงสรางตนไมของเวรดเนต

โดยแตละค านนจะสบคนจาก โครงสรางตนไมของเวรดเนต (WordNet tree) จากภาพท 1 ซง

จะมโครงสรางของค าค านน ค าทมคาเทรชโฮลด มากกวา 09 จะถกน ามาเพมในการคนคน ค าทน ามาเพมอาจจะอยสงกวา หรอต ากวา มากกวา 1 ขนของค าค านนกได ดงสมการ (22)

(22)

โดยทจ านวน n คอจ านวนของ Hyponym ของแตละค า j และส าหรบ Hypernym n จะมคาเทากบ 1 ค าทอยในค าสบคนอยแลวอาจจะกลายเปนค าใหมส าหรบค าอน และค าหนงค า อาจจะถกเพมมากกวาหนงครงได

(3) การหาความคลายของเอกสาร (Document Similarity) ใชสตรดงน

119904119894119898(119902 119889) =sum sum 119902119894119889119894119904119894119898(119894119895)119895119894

sum sum 119902119894119889119894119895119894 (23)

จากสมการ (23) โดยท i และ j คอค าทสนใจและค าในเอกสารตามล าดบ ค าทสนใจจะถก

ค านวณน าหนกใหม และถกขยายค า โดยทค าในเอกสารจะไมตองท าอะไรนอกจากหาน าหนกโดยใช สตร tfidf เทานน ผลการสบคนจะมคาระหวาง 0 กบ 1

6

(4) การหาคา tfidf คอการหาคาความถของเทอมในเอกสารและความถของเอกสารทมเทอมนนอย โดยแบงสามารถค านวนหาไดจากสตรดงตอไปน

การหาคา ความถของโทเคน (Token) ทปรากฏในเอกสาร หรอกคอความถของเทอมนน (Term weight Term frequency) ดงสมการ (24)

119865119894119895 = 119865119903119890119902119906119890119899119888119910 119900119891 119905119890119903119898 119894 119894119899 119889119900119888119906119898119890119899119905 119895 (24)

การหาคาความถของเทอม (tf Term frequency) ไดจากสมการ (25)

119879119865119894119895 =119865119894119895

max 119865119894119895 (25)

การหาคาน าหนกของเอกสาร (Term weight inverse document frequency) ทมเทอมปรากฏอยในเอกสาร โดยการหาคาความถของเอกสาร (Document frequency) จากสมการ (26)

119863119891119894 =119879ℎ119890 119889119900119888119906119898119890119899119905 119891119903119890119902119906119890119899119888119910 119900119891 119905

119879ℎ119908 119899119906119898119887119890119903 119900119891 119889119900119888119906119898119890119899119905119904 119905ℎ119886119905 119888119900119899119905119886119894119899 119905 (26)

การหาคาความถเอกสารผกผน (Inverse Document Frequency) หาไดจากการน าคา Df ทค านวนไดมาค านวนจากสมการ (27) ตอไปน

119920119915119917119946 = 119845119848119840120784119951

119915119943119946

(27)

การหาคาน าหนกความสมพนธของเทอมกบเอกสาร (TF-IDF weighting) ตามสมการ (28)

119882119894119895 = 119879119865119894119895 lowast 119868119863119865119894119895 (28)

วงกต ศรอไร และคณะ (2552) ไดน าเสนองานวจยเกยวกบการเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร งานวจยชนนกลาววาโดยทวไปการจ าแนกหมวดหมของเอกสารจะใชการแทนเอกสารดวยวธ Bag of Words (BOW) ซงเปนวธทงายแตเปนวธทไมไดใหความส าคญกบค าทมความหมายเหมอนกน ดงนนเมอน าขอมลไปใชในการจ าแนกหมวดหมจง

7

สงผลตอประสทธภาพในการจ าแนกหมวดหมและการคนคนเอกสาร งานวจยนมวตถประสงคเพอปรบปรงการจ าแนกหมวดหมของเอกสารโดยน าเสนอการแทนเอกสารดวยวธสรางแบบจ าลองหวขอใหกบเอกสาร

เทคนคการจดกลมขอมล (Data Clustering) สามารถแบงออกไดเปน 2 ประเภทใหญไดแกการแบงแบบตดสวน (Partitioning) โดยแบงขอมลออกเปนกลมตางๆตามจ านวนกลมทก าหนด และการแบงแบบล าดบชน (Hierarchical) เปนลกษณะของการแบงเปนกลมยอยทถกแบงไวกอนหนานนซ าๆหลายครง โดยการแบงแบบล าดบชนนนสามารถแบงได 2 วธคอแบบบนลงลาง หรอลางขนบน ปจจบนการจดกลมขอมลมอยหลายเทคนคดวยกน อาท Exclusive Clustering เปนการแบงกลมขอมลทมลกษณะเหมอนกนมาไวในกลมเดยวกน Overlapping Clustering เปนการแบงกลมขอมลใหเปนเซตยอยๆซงผลลพธท ไดมากกวาหนงคลสเตอรกได และมจ านวนสมาชกภายในเซตตางๆทมคาแตกตางกน Hierarchical Clustering ซ ง เปนการรวมเอาคณสมบต ของ 2 เทคนคแรกมาไวด วยกน และ Probabilistic Clustering ซงเปนการแบงกลมโดยวธทางสถต การแบงกลมขอมลเปนเทคนควธการวเคราะหเซตของขอมลทถกจดใหอยในรปของเวกเตอรค า เพอน ามาพจารณาความคลายจากคณสมบตความเหมอน (Similarity) หรอระยะหาง (Proximity) โดยค านวณจากระยะหางระหวางเวกเตอรของเอกสาร เทคนคประกอบดวยยเครเดยน (Euclidean) แบบแมนฮตตน (Manhattan) และการเชบเชฟ (Chebychev) ซงกจะไดผลของการจดกลมทแตกตางกนไป นอกจากนการแบงกลมยงสามารถแบงออกเปนแบบการเรยนรแบบมผ สอน (Supervised Learning) และไมมผ สอน (Un-Supervised Learning) ไดแก K-Means Hierarchical และ Self-organizing การแบงกลมเอกสารในลกษณะนการใหคะแนนความคลายคลงระหวางเอกสารจะก าหนดเปนแบบไบนาร 0 หรอ 1 หมายถงเอกสารทมค าส าคญปรากฏอยในทง 2 เอกสาร ซงในบางครงเอกสารทประกอบดวยค าทมความหมายเหมอนกนแตเขยนตางกนกจะไมไดถกจดใหอยกลมเดยวกนกเปนไปได ซงเปนขอจ ากดของเทคนคการจดกลมแบบน

ปจจบนพบวาการจดกลมไดน า เอาวธการฟซซ (Fuzzy) อาท Sequence hierarchical Clustering Hard C-Mean Clustering ถกน ามาใชเพอพจารณาความแปรปรวนในคณสมบตของค าส าคญทเปนตวแทนของเอกสาร ตวอยางเชนการใชฟซซ ซ -มนส (Fuzzy C-Means FCM) เปนการแบงกลมชอตของภาพเคลอนไหว เพอการแบงขอมล การแบงกลมดวย ฟซซ ซ-มนส (Fuzzy C-Means (FCM) Clustering) ศกดชย ศรมากรณ (2551) ไดน าเสนองานวจยเรองการแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม กลาวถงวธการแบงกลมขอมลนนสามารถท าไดหลายวธ เชน Sequential Clustering Hierarchical Clustering Hard Cndash Means Clustering ฯลฯ เพอชวยในการแบงบรเวณตางๆ ใหแยกออกจากกนไดชดเจนยงขน Fuzzy Cndash Means Clustering กเปนวธการแบงกลมขอมลวธการหนงท ไดรบความนยมมาก ขนตอนการแบงกลมแบบฟซซ ซ -มนส

8

ประกอบดวยการก าหนดจ านวนกลมเรมตนในชดขอมล การก าหนดระดบคาความเปนสมาชกในกลมขอมลทกตวจะถกน ามาค านวณคาความเปนสมาชกในการหาตวแทนกลมแตละกลมทมลกษณะส าคญของกลมครบถวน จากนนจะเขาสขนตอนการจดขอมลเขากลม แลวคอยมาปรบคาความเปนสมาชกของสมาชกทกตวในแตละกลมและการปรบคาตวแทน จนกระทงตวแทนปรบคาศนยกลางของกลมไดและคาดชนทวดความผดพลาดของการแบงการกลมมคานอยลงจนถงจดทแสดงวาการแบงกลมขอมลนาจะถกตอง ส าหรบการจ าแนกขอมลภาพออกเปนกลมๆ (กเซลขอมลทกลาวถงในทนคอคาทใชแทนแตละพ

ของ เฟรมภาพ (จากหลกการในการแบ งกล มขอมล โดยว ธ FCM โดย พจารณาชดขอมล 1 2 nX xx x v v vK โดยท xk

v เปนเวกเตอรใน d มต ถาเราตองการแบงขอมลออกเปน c กลม และม ฟซซ ซโดพารทชน 1 2 K cP A A A โดยท (x )i kA v คอ Membership Grades ของ xk

v ทงหมดทมตอ Cluster i สามารถค านวณจดศนยกลางของทกๆ กลม ไดจาก

1

1

x xv 12

x

v vv

v

nm

i k kk

i nm

i kk

Ai c

A (1)

เมอ 1m เปนจ านวนจรงทควบคมผลของคาความเปนสมาชก (Membership Grade) ทมตอการแบงกลมขอมล ตามนยามดรรชนสมรรถนะ (Performance Index mJ P ) ของ P โดย

2

1 1

x x v

v v vn cm

m i k k ik i

J P A (2)

เปาหมายในการท าการแบงกลม (Clustering( คอการหา P ทท าให mJ P มคานอยทสด (Minimize

mJ P ( นนคอ ถาคา mJ P มคานอยกหมายถงความไมคลายคลงกน (Dissimilarity)

การหาคาความคลายของวและพาเมอรนนเปนวธการหนงในการหาคาความคลายของเอกสารถอเปนวธการประเภทการหาคาความคลายแบบเอดจเคาทงเมธอด (Edge Counting Methods) มลกษณะการหาความคลายโดยอาศยระยะหางของโหนด (Path) ทเชอมตอกนแตละค า และต าแหนงในกลมของค านน ๆ ซงจะนยมน ามาใชหาคาความคลายของค าหรอเอกสารทมลกษณะคลายคลงกนหรอมาจากฐานขอมลเดยวกน (Single) การค านวนหาคาความคลายของวและพาเมอรมลกษณะส าคญคออาศยความสมพนธแบบแนวดง (VRs) และความสมพนธแบบแนวระนาบ (HRs) ของกลมค าพอง ซงระยะหางของโหนดและความลกระหวางค าทงหมดจะถกก าหนดไวแลวในฐานขอมลเวรดเนต เมอเราเรยกใชค าสงเพอหาคาความคลายของค าคาความสมพนธดงทกลาวมาขางตนจะถกน ามาคดค านวนแลวแสดงผลออกมาตามสมการของวและพาเมอร ดงสมการ (31)

119904119894119898(119909119910) = 119872119886119909 [ 2lowast119889119890119901119905ℎ(119871119862119878(119909119910))

119897119890119899119892119905ℎ(119909119910) + 2lowast119889119890119901119905ℎ(119871119862119878(119909119910)) ] (41)

9

จากสมการเปนการหาคาความคลายดวยวธการของวและพาเมอรระหวางคาของกลมชอพอง x และ y โดยคา depth คอคาความลกของโหนดกลมค าพองซงมการก าหนดคาไวแลวในฐานขอมลเวรดเนต The Lowest Common Subsumer) เปนโหนดทอยต าทสดทเปนโหนดเชอมระหวางสองโหนดทตองการหาคาความคลายซงในทนคอคา x และ y อกคาหนงทส าคญในสมการวและพาเมอรคอคา length เปนคาระยะหางระหวางโหนดสองโหนดโดยจะนบเปนจ านวนของโหนดทอยระหวางโหนด x และโหนด y ซงคา length ถกก าหนดไวแลว ผลลพธจากการหาคาความคลายจะมคาอยในชวง 0 ge simxy ge 1 หากผลลพธมคามากแสดงวากลมค าพองทงสองมความคลายมากดวยเชนกน

3 วธด าเนนการ (Methods)

การขยายค าคนคนเปนการประมวลโดยอาศยหลกการหาคาน าหนกของค าในเทอม และน าเทอมทไดไปท าการขยายซงจะอาศยฐานขอมลเวรดเนต โดยฐานขอมลเวรดเนตนนมลกษณะดงทกลาวมาแลว สวนทเราจะน ามาใชในการขยายเทอมของเรานนเปนกลมของค าทมความหมายคลายคลงกน เรยกวา ldquosynsetsrdquo หมายถงกลมค าทมความสมพนธกนในเชงความหมายของแตละค า ทมการจดเกบในรปของออนโทโลยในพจนานกรมเวรดเนต ตวอยางการแสดงขอมล wnsynsets(ldquowordrdquo) โดยอาศยเครองมอ NLTK จะไดผลลพธ synsets ทงหมดของ word ยกตวอยางเชนค าวา dog ดงภาพท 2

ภาพท 2 คา synsets ของค าวา Dog

จะเหนไดวาค าวา dog นนม synsets อยหลายกลมและหลายชนดค าโดยจะแบงออก 3 สวนตามรปแบบดงนคอ synset(lsquowordposnnrsquo) word คอกลมค าทเปน synsets กบค าวา ldquodogrdquo pos คอชนดของค าวา ldquodogrdquo ซงมทง noun และ verb (nn เปน part-of-speech หมายถงค านาม) คอ ตวเลขทบอก ล าดบทของกลม นอกจากนเรายงสามารถน าคาตางๆ ของ synsets ไปประยกตใชไดหลายประเภททงการหาความสมพนธของค าประเภทตางๆ เพอหาคาความคลายของค าหรอเอกสาร การแสดงบรบทของค า การแสดงประโยคตวอยางของการใชค าซงเปนคณสมบตของ synsets ของค าศพททจดเกบในเวรดเนต

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 5: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

5

ภาพท 1 โครงสรางตนไมของเวรดเนต

โดยแตละค านนจะสบคนจาก โครงสรางตนไมของเวรดเนต (WordNet tree) จากภาพท 1 ซง

จะมโครงสรางของค าค านน ค าทมคาเทรชโฮลด มากกวา 09 จะถกน ามาเพมในการคนคน ค าทน ามาเพมอาจจะอยสงกวา หรอต ากวา มากกวา 1 ขนของค าค านนกได ดงสมการ (22)

(22)

โดยทจ านวน n คอจ านวนของ Hyponym ของแตละค า j และส าหรบ Hypernym n จะมคาเทากบ 1 ค าทอยในค าสบคนอยแลวอาจจะกลายเปนค าใหมส าหรบค าอน และค าหนงค า อาจจะถกเพมมากกวาหนงครงได

(3) การหาความคลายของเอกสาร (Document Similarity) ใชสตรดงน

119904119894119898(119902 119889) =sum sum 119902119894119889119894119904119894119898(119894119895)119895119894

sum sum 119902119894119889119894119895119894 (23)

จากสมการ (23) โดยท i และ j คอค าทสนใจและค าในเอกสารตามล าดบ ค าทสนใจจะถก

ค านวณน าหนกใหม และถกขยายค า โดยทค าในเอกสารจะไมตองท าอะไรนอกจากหาน าหนกโดยใช สตร tfidf เทานน ผลการสบคนจะมคาระหวาง 0 กบ 1

6

(4) การหาคา tfidf คอการหาคาความถของเทอมในเอกสารและความถของเอกสารทมเทอมนนอย โดยแบงสามารถค านวนหาไดจากสตรดงตอไปน

การหาคา ความถของโทเคน (Token) ทปรากฏในเอกสาร หรอกคอความถของเทอมนน (Term weight Term frequency) ดงสมการ (24)

119865119894119895 = 119865119903119890119902119906119890119899119888119910 119900119891 119905119890119903119898 119894 119894119899 119889119900119888119906119898119890119899119905 119895 (24)

การหาคาความถของเทอม (tf Term frequency) ไดจากสมการ (25)

119879119865119894119895 =119865119894119895

max 119865119894119895 (25)

การหาคาน าหนกของเอกสาร (Term weight inverse document frequency) ทมเทอมปรากฏอยในเอกสาร โดยการหาคาความถของเอกสาร (Document frequency) จากสมการ (26)

119863119891119894 =119879ℎ119890 119889119900119888119906119898119890119899119905 119891119903119890119902119906119890119899119888119910 119900119891 119905

119879ℎ119908 119899119906119898119887119890119903 119900119891 119889119900119888119906119898119890119899119905119904 119905ℎ119886119905 119888119900119899119905119886119894119899 119905 (26)

การหาคาความถเอกสารผกผน (Inverse Document Frequency) หาไดจากการน าคา Df ทค านวนไดมาค านวนจากสมการ (27) ตอไปน

119920119915119917119946 = 119845119848119840120784119951

119915119943119946

(27)

การหาคาน าหนกความสมพนธของเทอมกบเอกสาร (TF-IDF weighting) ตามสมการ (28)

119882119894119895 = 119879119865119894119895 lowast 119868119863119865119894119895 (28)

วงกต ศรอไร และคณะ (2552) ไดน าเสนองานวจยเกยวกบการเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร งานวจยชนนกลาววาโดยทวไปการจ าแนกหมวดหมของเอกสารจะใชการแทนเอกสารดวยวธ Bag of Words (BOW) ซงเปนวธทงายแตเปนวธทไมไดใหความส าคญกบค าทมความหมายเหมอนกน ดงนนเมอน าขอมลไปใชในการจ าแนกหมวดหมจง

7

สงผลตอประสทธภาพในการจ าแนกหมวดหมและการคนคนเอกสาร งานวจยนมวตถประสงคเพอปรบปรงการจ าแนกหมวดหมของเอกสารโดยน าเสนอการแทนเอกสารดวยวธสรางแบบจ าลองหวขอใหกบเอกสาร

เทคนคการจดกลมขอมล (Data Clustering) สามารถแบงออกไดเปน 2 ประเภทใหญไดแกการแบงแบบตดสวน (Partitioning) โดยแบงขอมลออกเปนกลมตางๆตามจ านวนกลมทก าหนด และการแบงแบบล าดบชน (Hierarchical) เปนลกษณะของการแบงเปนกลมยอยทถกแบงไวกอนหนานนซ าๆหลายครง โดยการแบงแบบล าดบชนนนสามารถแบงได 2 วธคอแบบบนลงลาง หรอลางขนบน ปจจบนการจดกลมขอมลมอยหลายเทคนคดวยกน อาท Exclusive Clustering เปนการแบงกลมขอมลทมลกษณะเหมอนกนมาไวในกลมเดยวกน Overlapping Clustering เปนการแบงกลมขอมลใหเปนเซตยอยๆซงผลลพธท ไดมากกวาหนงคลสเตอรกได และมจ านวนสมาชกภายในเซตตางๆทมคาแตกตางกน Hierarchical Clustering ซ ง เปนการรวมเอาคณสมบต ของ 2 เทคนคแรกมาไวด วยกน และ Probabilistic Clustering ซงเปนการแบงกลมโดยวธทางสถต การแบงกลมขอมลเปนเทคนควธการวเคราะหเซตของขอมลทถกจดใหอยในรปของเวกเตอรค า เพอน ามาพจารณาความคลายจากคณสมบตความเหมอน (Similarity) หรอระยะหาง (Proximity) โดยค านวณจากระยะหางระหวางเวกเตอรของเอกสาร เทคนคประกอบดวยยเครเดยน (Euclidean) แบบแมนฮตตน (Manhattan) และการเชบเชฟ (Chebychev) ซงกจะไดผลของการจดกลมทแตกตางกนไป นอกจากนการแบงกลมยงสามารถแบงออกเปนแบบการเรยนรแบบมผ สอน (Supervised Learning) และไมมผ สอน (Un-Supervised Learning) ไดแก K-Means Hierarchical และ Self-organizing การแบงกลมเอกสารในลกษณะนการใหคะแนนความคลายคลงระหวางเอกสารจะก าหนดเปนแบบไบนาร 0 หรอ 1 หมายถงเอกสารทมค าส าคญปรากฏอยในทง 2 เอกสาร ซงในบางครงเอกสารทประกอบดวยค าทมความหมายเหมอนกนแตเขยนตางกนกจะไมไดถกจดใหอยกลมเดยวกนกเปนไปได ซงเปนขอจ ากดของเทคนคการจดกลมแบบน

ปจจบนพบวาการจดกลมไดน า เอาวธการฟซซ (Fuzzy) อาท Sequence hierarchical Clustering Hard C-Mean Clustering ถกน ามาใชเพอพจารณาความแปรปรวนในคณสมบตของค าส าคญทเปนตวแทนของเอกสาร ตวอยางเชนการใชฟซซ ซ -มนส (Fuzzy C-Means FCM) เปนการแบงกลมชอตของภาพเคลอนไหว เพอการแบงขอมล การแบงกลมดวย ฟซซ ซ-มนส (Fuzzy C-Means (FCM) Clustering) ศกดชย ศรมากรณ (2551) ไดน าเสนองานวจยเรองการแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม กลาวถงวธการแบงกลมขอมลนนสามารถท าไดหลายวธ เชน Sequential Clustering Hierarchical Clustering Hard Cndash Means Clustering ฯลฯ เพอชวยในการแบงบรเวณตางๆ ใหแยกออกจากกนไดชดเจนยงขน Fuzzy Cndash Means Clustering กเปนวธการแบงกลมขอมลวธการหนงท ไดรบความนยมมาก ขนตอนการแบงกลมแบบฟซซ ซ -มนส

8

ประกอบดวยการก าหนดจ านวนกลมเรมตนในชดขอมล การก าหนดระดบคาความเปนสมาชกในกลมขอมลทกตวจะถกน ามาค านวณคาความเปนสมาชกในการหาตวแทนกลมแตละกลมทมลกษณะส าคญของกลมครบถวน จากนนจะเขาสขนตอนการจดขอมลเขากลม แลวคอยมาปรบคาความเปนสมาชกของสมาชกทกตวในแตละกลมและการปรบคาตวแทน จนกระทงตวแทนปรบคาศนยกลางของกลมไดและคาดชนทวดความผดพลาดของการแบงการกลมมคานอยลงจนถงจดทแสดงวาการแบงกลมขอมลนาจะถกตอง ส าหรบการจ าแนกขอมลภาพออกเปนกลมๆ (กเซลขอมลทกลาวถงในทนคอคาทใชแทนแตละพ

ของ เฟรมภาพ (จากหลกการในการแบ งกล มขอมล โดยว ธ FCM โดย พจารณาชดขอมล 1 2 nX xx x v v vK โดยท xk

v เปนเวกเตอรใน d มต ถาเราตองการแบงขอมลออกเปน c กลม และม ฟซซ ซโดพารทชน 1 2 K cP A A A โดยท (x )i kA v คอ Membership Grades ของ xk

v ทงหมดทมตอ Cluster i สามารถค านวณจดศนยกลางของทกๆ กลม ไดจาก

1

1

x xv 12

x

v vv

v

nm

i k kk

i nm

i kk

Ai c

A (1)

เมอ 1m เปนจ านวนจรงทควบคมผลของคาความเปนสมาชก (Membership Grade) ทมตอการแบงกลมขอมล ตามนยามดรรชนสมรรถนะ (Performance Index mJ P ) ของ P โดย

2

1 1

x x v

v v vn cm

m i k k ik i

J P A (2)

เปาหมายในการท าการแบงกลม (Clustering( คอการหา P ทท าให mJ P มคานอยทสด (Minimize

mJ P ( นนคอ ถาคา mJ P มคานอยกหมายถงความไมคลายคลงกน (Dissimilarity)

การหาคาความคลายของวและพาเมอรนนเปนวธการหนงในการหาคาความคลายของเอกสารถอเปนวธการประเภทการหาคาความคลายแบบเอดจเคาทงเมธอด (Edge Counting Methods) มลกษณะการหาความคลายโดยอาศยระยะหางของโหนด (Path) ทเชอมตอกนแตละค า และต าแหนงในกลมของค านน ๆ ซงจะนยมน ามาใชหาคาความคลายของค าหรอเอกสารทมลกษณะคลายคลงกนหรอมาจากฐานขอมลเดยวกน (Single) การค านวนหาคาความคลายของวและพาเมอรมลกษณะส าคญคออาศยความสมพนธแบบแนวดง (VRs) และความสมพนธแบบแนวระนาบ (HRs) ของกลมค าพอง ซงระยะหางของโหนดและความลกระหวางค าทงหมดจะถกก าหนดไวแลวในฐานขอมลเวรดเนต เมอเราเรยกใชค าสงเพอหาคาความคลายของค าคาความสมพนธดงทกลาวมาขางตนจะถกน ามาคดค านวนแลวแสดงผลออกมาตามสมการของวและพาเมอร ดงสมการ (31)

119904119894119898(119909119910) = 119872119886119909 [ 2lowast119889119890119901119905ℎ(119871119862119878(119909119910))

119897119890119899119892119905ℎ(119909119910) + 2lowast119889119890119901119905ℎ(119871119862119878(119909119910)) ] (41)

9

จากสมการเปนการหาคาความคลายดวยวธการของวและพาเมอรระหวางคาของกลมชอพอง x และ y โดยคา depth คอคาความลกของโหนดกลมค าพองซงมการก าหนดคาไวแลวในฐานขอมลเวรดเนต The Lowest Common Subsumer) เปนโหนดทอยต าทสดทเปนโหนดเชอมระหวางสองโหนดทตองการหาคาความคลายซงในทนคอคา x และ y อกคาหนงทส าคญในสมการวและพาเมอรคอคา length เปนคาระยะหางระหวางโหนดสองโหนดโดยจะนบเปนจ านวนของโหนดทอยระหวางโหนด x และโหนด y ซงคา length ถกก าหนดไวแลว ผลลพธจากการหาคาความคลายจะมคาอยในชวง 0 ge simxy ge 1 หากผลลพธมคามากแสดงวากลมค าพองทงสองมความคลายมากดวยเชนกน

3 วธด าเนนการ (Methods)

การขยายค าคนคนเปนการประมวลโดยอาศยหลกการหาคาน าหนกของค าในเทอม และน าเทอมทไดไปท าการขยายซงจะอาศยฐานขอมลเวรดเนต โดยฐานขอมลเวรดเนตนนมลกษณะดงทกลาวมาแลว สวนทเราจะน ามาใชในการขยายเทอมของเรานนเปนกลมของค าทมความหมายคลายคลงกน เรยกวา ldquosynsetsrdquo หมายถงกลมค าทมความสมพนธกนในเชงความหมายของแตละค า ทมการจดเกบในรปของออนโทโลยในพจนานกรมเวรดเนต ตวอยางการแสดงขอมล wnsynsets(ldquowordrdquo) โดยอาศยเครองมอ NLTK จะไดผลลพธ synsets ทงหมดของ word ยกตวอยางเชนค าวา dog ดงภาพท 2

ภาพท 2 คา synsets ของค าวา Dog

จะเหนไดวาค าวา dog นนม synsets อยหลายกลมและหลายชนดค าโดยจะแบงออก 3 สวนตามรปแบบดงนคอ synset(lsquowordposnnrsquo) word คอกลมค าทเปน synsets กบค าวา ldquodogrdquo pos คอชนดของค าวา ldquodogrdquo ซงมทง noun และ verb (nn เปน part-of-speech หมายถงค านาม) คอ ตวเลขทบอก ล าดบทของกลม นอกจากนเรายงสามารถน าคาตางๆ ของ synsets ไปประยกตใชไดหลายประเภททงการหาความสมพนธของค าประเภทตางๆ เพอหาคาความคลายของค าหรอเอกสาร การแสดงบรบทของค า การแสดงประโยคตวอยางของการใชค าซงเปนคณสมบตของ synsets ของค าศพททจดเกบในเวรดเนต

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 6: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

6

(4) การหาคา tfidf คอการหาคาความถของเทอมในเอกสารและความถของเอกสารทมเทอมนนอย โดยแบงสามารถค านวนหาไดจากสตรดงตอไปน

การหาคา ความถของโทเคน (Token) ทปรากฏในเอกสาร หรอกคอความถของเทอมนน (Term weight Term frequency) ดงสมการ (24)

119865119894119895 = 119865119903119890119902119906119890119899119888119910 119900119891 119905119890119903119898 119894 119894119899 119889119900119888119906119898119890119899119905 119895 (24)

การหาคาความถของเทอม (tf Term frequency) ไดจากสมการ (25)

119879119865119894119895 =119865119894119895

max 119865119894119895 (25)

การหาคาน าหนกของเอกสาร (Term weight inverse document frequency) ทมเทอมปรากฏอยในเอกสาร โดยการหาคาความถของเอกสาร (Document frequency) จากสมการ (26)

119863119891119894 =119879ℎ119890 119889119900119888119906119898119890119899119905 119891119903119890119902119906119890119899119888119910 119900119891 119905

119879ℎ119908 119899119906119898119887119890119903 119900119891 119889119900119888119906119898119890119899119905119904 119905ℎ119886119905 119888119900119899119905119886119894119899 119905 (26)

การหาคาความถเอกสารผกผน (Inverse Document Frequency) หาไดจากการน าคา Df ทค านวนไดมาค านวนจากสมการ (27) ตอไปน

119920119915119917119946 = 119845119848119840120784119951

119915119943119946

(27)

การหาคาน าหนกความสมพนธของเทอมกบเอกสาร (TF-IDF weighting) ตามสมการ (28)

119882119894119895 = 119879119865119894119895 lowast 119868119863119865119894119895 (28)

วงกต ศรอไร และคณะ (2552) ไดน าเสนองานวจยเกยวกบการเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร งานวจยชนนกลาววาโดยทวไปการจ าแนกหมวดหมของเอกสารจะใชการแทนเอกสารดวยวธ Bag of Words (BOW) ซงเปนวธทงายแตเปนวธทไมไดใหความส าคญกบค าทมความหมายเหมอนกน ดงนนเมอน าขอมลไปใชในการจ าแนกหมวดหมจง

7

สงผลตอประสทธภาพในการจ าแนกหมวดหมและการคนคนเอกสาร งานวจยนมวตถประสงคเพอปรบปรงการจ าแนกหมวดหมของเอกสารโดยน าเสนอการแทนเอกสารดวยวธสรางแบบจ าลองหวขอใหกบเอกสาร

เทคนคการจดกลมขอมล (Data Clustering) สามารถแบงออกไดเปน 2 ประเภทใหญไดแกการแบงแบบตดสวน (Partitioning) โดยแบงขอมลออกเปนกลมตางๆตามจ านวนกลมทก าหนด และการแบงแบบล าดบชน (Hierarchical) เปนลกษณะของการแบงเปนกลมยอยทถกแบงไวกอนหนานนซ าๆหลายครง โดยการแบงแบบล าดบชนนนสามารถแบงได 2 วธคอแบบบนลงลาง หรอลางขนบน ปจจบนการจดกลมขอมลมอยหลายเทคนคดวยกน อาท Exclusive Clustering เปนการแบงกลมขอมลทมลกษณะเหมอนกนมาไวในกลมเดยวกน Overlapping Clustering เปนการแบงกลมขอมลใหเปนเซตยอยๆซงผลลพธท ไดมากกวาหนงคลสเตอรกได และมจ านวนสมาชกภายในเซตตางๆทมคาแตกตางกน Hierarchical Clustering ซ ง เปนการรวมเอาคณสมบต ของ 2 เทคนคแรกมาไวด วยกน และ Probabilistic Clustering ซงเปนการแบงกลมโดยวธทางสถต การแบงกลมขอมลเปนเทคนควธการวเคราะหเซตของขอมลทถกจดใหอยในรปของเวกเตอรค า เพอน ามาพจารณาความคลายจากคณสมบตความเหมอน (Similarity) หรอระยะหาง (Proximity) โดยค านวณจากระยะหางระหวางเวกเตอรของเอกสาร เทคนคประกอบดวยยเครเดยน (Euclidean) แบบแมนฮตตน (Manhattan) และการเชบเชฟ (Chebychev) ซงกจะไดผลของการจดกลมทแตกตางกนไป นอกจากนการแบงกลมยงสามารถแบงออกเปนแบบการเรยนรแบบมผ สอน (Supervised Learning) และไมมผ สอน (Un-Supervised Learning) ไดแก K-Means Hierarchical และ Self-organizing การแบงกลมเอกสารในลกษณะนการใหคะแนนความคลายคลงระหวางเอกสารจะก าหนดเปนแบบไบนาร 0 หรอ 1 หมายถงเอกสารทมค าส าคญปรากฏอยในทง 2 เอกสาร ซงในบางครงเอกสารทประกอบดวยค าทมความหมายเหมอนกนแตเขยนตางกนกจะไมไดถกจดใหอยกลมเดยวกนกเปนไปได ซงเปนขอจ ากดของเทคนคการจดกลมแบบน

ปจจบนพบวาการจดกลมไดน า เอาวธการฟซซ (Fuzzy) อาท Sequence hierarchical Clustering Hard C-Mean Clustering ถกน ามาใชเพอพจารณาความแปรปรวนในคณสมบตของค าส าคญทเปนตวแทนของเอกสาร ตวอยางเชนการใชฟซซ ซ -มนส (Fuzzy C-Means FCM) เปนการแบงกลมชอตของภาพเคลอนไหว เพอการแบงขอมล การแบงกลมดวย ฟซซ ซ-มนส (Fuzzy C-Means (FCM) Clustering) ศกดชย ศรมากรณ (2551) ไดน าเสนองานวจยเรองการแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม กลาวถงวธการแบงกลมขอมลนนสามารถท าไดหลายวธ เชน Sequential Clustering Hierarchical Clustering Hard Cndash Means Clustering ฯลฯ เพอชวยในการแบงบรเวณตางๆ ใหแยกออกจากกนไดชดเจนยงขน Fuzzy Cndash Means Clustering กเปนวธการแบงกลมขอมลวธการหนงท ไดรบความนยมมาก ขนตอนการแบงกลมแบบฟซซ ซ -มนส

8

ประกอบดวยการก าหนดจ านวนกลมเรมตนในชดขอมล การก าหนดระดบคาความเปนสมาชกในกลมขอมลทกตวจะถกน ามาค านวณคาความเปนสมาชกในการหาตวแทนกลมแตละกลมทมลกษณะส าคญของกลมครบถวน จากนนจะเขาสขนตอนการจดขอมลเขากลม แลวคอยมาปรบคาความเปนสมาชกของสมาชกทกตวในแตละกลมและการปรบคาตวแทน จนกระทงตวแทนปรบคาศนยกลางของกลมไดและคาดชนทวดความผดพลาดของการแบงการกลมมคานอยลงจนถงจดทแสดงวาการแบงกลมขอมลนาจะถกตอง ส าหรบการจ าแนกขอมลภาพออกเปนกลมๆ (กเซลขอมลทกลาวถงในทนคอคาทใชแทนแตละพ

ของ เฟรมภาพ (จากหลกการในการแบ งกล มขอมล โดยว ธ FCM โดย พจารณาชดขอมล 1 2 nX xx x v v vK โดยท xk

v เปนเวกเตอรใน d มต ถาเราตองการแบงขอมลออกเปน c กลม และม ฟซซ ซโดพารทชน 1 2 K cP A A A โดยท (x )i kA v คอ Membership Grades ของ xk

v ทงหมดทมตอ Cluster i สามารถค านวณจดศนยกลางของทกๆ กลม ไดจาก

1

1

x xv 12

x

v vv

v

nm

i k kk

i nm

i kk

Ai c

A (1)

เมอ 1m เปนจ านวนจรงทควบคมผลของคาความเปนสมาชก (Membership Grade) ทมตอการแบงกลมขอมล ตามนยามดรรชนสมรรถนะ (Performance Index mJ P ) ของ P โดย

2

1 1

x x v

v v vn cm

m i k k ik i

J P A (2)

เปาหมายในการท าการแบงกลม (Clustering( คอการหา P ทท าให mJ P มคานอยทสด (Minimize

mJ P ( นนคอ ถาคา mJ P มคานอยกหมายถงความไมคลายคลงกน (Dissimilarity)

การหาคาความคลายของวและพาเมอรนนเปนวธการหนงในการหาคาความคลายของเอกสารถอเปนวธการประเภทการหาคาความคลายแบบเอดจเคาทงเมธอด (Edge Counting Methods) มลกษณะการหาความคลายโดยอาศยระยะหางของโหนด (Path) ทเชอมตอกนแตละค า และต าแหนงในกลมของค านน ๆ ซงจะนยมน ามาใชหาคาความคลายของค าหรอเอกสารทมลกษณะคลายคลงกนหรอมาจากฐานขอมลเดยวกน (Single) การค านวนหาคาความคลายของวและพาเมอรมลกษณะส าคญคออาศยความสมพนธแบบแนวดง (VRs) และความสมพนธแบบแนวระนาบ (HRs) ของกลมค าพอง ซงระยะหางของโหนดและความลกระหวางค าทงหมดจะถกก าหนดไวแลวในฐานขอมลเวรดเนต เมอเราเรยกใชค าสงเพอหาคาความคลายของค าคาความสมพนธดงทกลาวมาขางตนจะถกน ามาคดค านวนแลวแสดงผลออกมาตามสมการของวและพาเมอร ดงสมการ (31)

119904119894119898(119909119910) = 119872119886119909 [ 2lowast119889119890119901119905ℎ(119871119862119878(119909119910))

119897119890119899119892119905ℎ(119909119910) + 2lowast119889119890119901119905ℎ(119871119862119878(119909119910)) ] (41)

9

จากสมการเปนการหาคาความคลายดวยวธการของวและพาเมอรระหวางคาของกลมชอพอง x และ y โดยคา depth คอคาความลกของโหนดกลมค าพองซงมการก าหนดคาไวแลวในฐานขอมลเวรดเนต The Lowest Common Subsumer) เปนโหนดทอยต าทสดทเปนโหนดเชอมระหวางสองโหนดทตองการหาคาความคลายซงในทนคอคา x และ y อกคาหนงทส าคญในสมการวและพาเมอรคอคา length เปนคาระยะหางระหวางโหนดสองโหนดโดยจะนบเปนจ านวนของโหนดทอยระหวางโหนด x และโหนด y ซงคา length ถกก าหนดไวแลว ผลลพธจากการหาคาความคลายจะมคาอยในชวง 0 ge simxy ge 1 หากผลลพธมคามากแสดงวากลมค าพองทงสองมความคลายมากดวยเชนกน

3 วธด าเนนการ (Methods)

การขยายค าคนคนเปนการประมวลโดยอาศยหลกการหาคาน าหนกของค าในเทอม และน าเทอมทไดไปท าการขยายซงจะอาศยฐานขอมลเวรดเนต โดยฐานขอมลเวรดเนตนนมลกษณะดงทกลาวมาแลว สวนทเราจะน ามาใชในการขยายเทอมของเรานนเปนกลมของค าทมความหมายคลายคลงกน เรยกวา ldquosynsetsrdquo หมายถงกลมค าทมความสมพนธกนในเชงความหมายของแตละค า ทมการจดเกบในรปของออนโทโลยในพจนานกรมเวรดเนต ตวอยางการแสดงขอมล wnsynsets(ldquowordrdquo) โดยอาศยเครองมอ NLTK จะไดผลลพธ synsets ทงหมดของ word ยกตวอยางเชนค าวา dog ดงภาพท 2

ภาพท 2 คา synsets ของค าวา Dog

จะเหนไดวาค าวา dog นนม synsets อยหลายกลมและหลายชนดค าโดยจะแบงออก 3 สวนตามรปแบบดงนคอ synset(lsquowordposnnrsquo) word คอกลมค าทเปน synsets กบค าวา ldquodogrdquo pos คอชนดของค าวา ldquodogrdquo ซงมทง noun และ verb (nn เปน part-of-speech หมายถงค านาม) คอ ตวเลขทบอก ล าดบทของกลม นอกจากนเรายงสามารถน าคาตางๆ ของ synsets ไปประยกตใชไดหลายประเภททงการหาความสมพนธของค าประเภทตางๆ เพอหาคาความคลายของค าหรอเอกสาร การแสดงบรบทของค า การแสดงประโยคตวอยางของการใชค าซงเปนคณสมบตของ synsets ของค าศพททจดเกบในเวรดเนต

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 7: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

7

สงผลตอประสทธภาพในการจ าแนกหมวดหมและการคนคนเอกสาร งานวจยนมวตถประสงคเพอปรบปรงการจ าแนกหมวดหมของเอกสารโดยน าเสนอการแทนเอกสารดวยวธสรางแบบจ าลองหวขอใหกบเอกสาร

เทคนคการจดกลมขอมล (Data Clustering) สามารถแบงออกไดเปน 2 ประเภทใหญไดแกการแบงแบบตดสวน (Partitioning) โดยแบงขอมลออกเปนกลมตางๆตามจ านวนกลมทก าหนด และการแบงแบบล าดบชน (Hierarchical) เปนลกษณะของการแบงเปนกลมยอยทถกแบงไวกอนหนานนซ าๆหลายครง โดยการแบงแบบล าดบชนนนสามารถแบงได 2 วธคอแบบบนลงลาง หรอลางขนบน ปจจบนการจดกลมขอมลมอยหลายเทคนคดวยกน อาท Exclusive Clustering เปนการแบงกลมขอมลทมลกษณะเหมอนกนมาไวในกลมเดยวกน Overlapping Clustering เปนการแบงกลมขอมลใหเปนเซตยอยๆซงผลลพธท ไดมากกวาหนงคลสเตอรกได และมจ านวนสมาชกภายในเซตตางๆทมคาแตกตางกน Hierarchical Clustering ซ ง เปนการรวมเอาคณสมบต ของ 2 เทคนคแรกมาไวด วยกน และ Probabilistic Clustering ซงเปนการแบงกลมโดยวธทางสถต การแบงกลมขอมลเปนเทคนควธการวเคราะหเซตของขอมลทถกจดใหอยในรปของเวกเตอรค า เพอน ามาพจารณาความคลายจากคณสมบตความเหมอน (Similarity) หรอระยะหาง (Proximity) โดยค านวณจากระยะหางระหวางเวกเตอรของเอกสาร เทคนคประกอบดวยยเครเดยน (Euclidean) แบบแมนฮตตน (Manhattan) และการเชบเชฟ (Chebychev) ซงกจะไดผลของการจดกลมทแตกตางกนไป นอกจากนการแบงกลมยงสามารถแบงออกเปนแบบการเรยนรแบบมผ สอน (Supervised Learning) และไมมผ สอน (Un-Supervised Learning) ไดแก K-Means Hierarchical และ Self-organizing การแบงกลมเอกสารในลกษณะนการใหคะแนนความคลายคลงระหวางเอกสารจะก าหนดเปนแบบไบนาร 0 หรอ 1 หมายถงเอกสารทมค าส าคญปรากฏอยในทง 2 เอกสาร ซงในบางครงเอกสารทประกอบดวยค าทมความหมายเหมอนกนแตเขยนตางกนกจะไมไดถกจดใหอยกลมเดยวกนกเปนไปได ซงเปนขอจ ากดของเทคนคการจดกลมแบบน

ปจจบนพบวาการจดกลมไดน า เอาวธการฟซซ (Fuzzy) อาท Sequence hierarchical Clustering Hard C-Mean Clustering ถกน ามาใชเพอพจารณาความแปรปรวนในคณสมบตของค าส าคญทเปนตวแทนของเอกสาร ตวอยางเชนการใชฟซซ ซ -มนส (Fuzzy C-Means FCM) เปนการแบงกลมชอตของภาพเคลอนไหว เพอการแบงขอมล การแบงกลมดวย ฟซซ ซ-มนส (Fuzzy C-Means (FCM) Clustering) ศกดชย ศรมากรณ (2551) ไดน าเสนองานวจยเรองการแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม กลาวถงวธการแบงกลมขอมลนนสามารถท าไดหลายวธ เชน Sequential Clustering Hierarchical Clustering Hard Cndash Means Clustering ฯลฯ เพอชวยในการแบงบรเวณตางๆ ใหแยกออกจากกนไดชดเจนยงขน Fuzzy Cndash Means Clustering กเปนวธการแบงกลมขอมลวธการหนงท ไดรบความนยมมาก ขนตอนการแบงกลมแบบฟซซ ซ -มนส

8

ประกอบดวยการก าหนดจ านวนกลมเรมตนในชดขอมล การก าหนดระดบคาความเปนสมาชกในกลมขอมลทกตวจะถกน ามาค านวณคาความเปนสมาชกในการหาตวแทนกลมแตละกลมทมลกษณะส าคญของกลมครบถวน จากนนจะเขาสขนตอนการจดขอมลเขากลม แลวคอยมาปรบคาความเปนสมาชกของสมาชกทกตวในแตละกลมและการปรบคาตวแทน จนกระทงตวแทนปรบคาศนยกลางของกลมไดและคาดชนทวดความผดพลาดของการแบงการกลมมคานอยลงจนถงจดทแสดงวาการแบงกลมขอมลนาจะถกตอง ส าหรบการจ าแนกขอมลภาพออกเปนกลมๆ (กเซลขอมลทกลาวถงในทนคอคาทใชแทนแตละพ

ของ เฟรมภาพ (จากหลกการในการแบ งกล มขอมล โดยว ธ FCM โดย พจารณาชดขอมล 1 2 nX xx x v v vK โดยท xk

v เปนเวกเตอรใน d มต ถาเราตองการแบงขอมลออกเปน c กลม และม ฟซซ ซโดพารทชน 1 2 K cP A A A โดยท (x )i kA v คอ Membership Grades ของ xk

v ทงหมดทมตอ Cluster i สามารถค านวณจดศนยกลางของทกๆ กลม ไดจาก

1

1

x xv 12

x

v vv

v

nm

i k kk

i nm

i kk

Ai c

A (1)

เมอ 1m เปนจ านวนจรงทควบคมผลของคาความเปนสมาชก (Membership Grade) ทมตอการแบงกลมขอมล ตามนยามดรรชนสมรรถนะ (Performance Index mJ P ) ของ P โดย

2

1 1

x x v

v v vn cm

m i k k ik i

J P A (2)

เปาหมายในการท าการแบงกลม (Clustering( คอการหา P ทท าให mJ P มคานอยทสด (Minimize

mJ P ( นนคอ ถาคา mJ P มคานอยกหมายถงความไมคลายคลงกน (Dissimilarity)

การหาคาความคลายของวและพาเมอรนนเปนวธการหนงในการหาคาความคลายของเอกสารถอเปนวธการประเภทการหาคาความคลายแบบเอดจเคาทงเมธอด (Edge Counting Methods) มลกษณะการหาความคลายโดยอาศยระยะหางของโหนด (Path) ทเชอมตอกนแตละค า และต าแหนงในกลมของค านน ๆ ซงจะนยมน ามาใชหาคาความคลายของค าหรอเอกสารทมลกษณะคลายคลงกนหรอมาจากฐานขอมลเดยวกน (Single) การค านวนหาคาความคลายของวและพาเมอรมลกษณะส าคญคออาศยความสมพนธแบบแนวดง (VRs) และความสมพนธแบบแนวระนาบ (HRs) ของกลมค าพอง ซงระยะหางของโหนดและความลกระหวางค าทงหมดจะถกก าหนดไวแลวในฐานขอมลเวรดเนต เมอเราเรยกใชค าสงเพอหาคาความคลายของค าคาความสมพนธดงทกลาวมาขางตนจะถกน ามาคดค านวนแลวแสดงผลออกมาตามสมการของวและพาเมอร ดงสมการ (31)

119904119894119898(119909119910) = 119872119886119909 [ 2lowast119889119890119901119905ℎ(119871119862119878(119909119910))

119897119890119899119892119905ℎ(119909119910) + 2lowast119889119890119901119905ℎ(119871119862119878(119909119910)) ] (41)

9

จากสมการเปนการหาคาความคลายดวยวธการของวและพาเมอรระหวางคาของกลมชอพอง x และ y โดยคา depth คอคาความลกของโหนดกลมค าพองซงมการก าหนดคาไวแลวในฐานขอมลเวรดเนต The Lowest Common Subsumer) เปนโหนดทอยต าทสดทเปนโหนดเชอมระหวางสองโหนดทตองการหาคาความคลายซงในทนคอคา x และ y อกคาหนงทส าคญในสมการวและพาเมอรคอคา length เปนคาระยะหางระหวางโหนดสองโหนดโดยจะนบเปนจ านวนของโหนดทอยระหวางโหนด x และโหนด y ซงคา length ถกก าหนดไวแลว ผลลพธจากการหาคาความคลายจะมคาอยในชวง 0 ge simxy ge 1 หากผลลพธมคามากแสดงวากลมค าพองทงสองมความคลายมากดวยเชนกน

3 วธด าเนนการ (Methods)

การขยายค าคนคนเปนการประมวลโดยอาศยหลกการหาคาน าหนกของค าในเทอม และน าเทอมทไดไปท าการขยายซงจะอาศยฐานขอมลเวรดเนต โดยฐานขอมลเวรดเนตนนมลกษณะดงทกลาวมาแลว สวนทเราจะน ามาใชในการขยายเทอมของเรานนเปนกลมของค าทมความหมายคลายคลงกน เรยกวา ldquosynsetsrdquo หมายถงกลมค าทมความสมพนธกนในเชงความหมายของแตละค า ทมการจดเกบในรปของออนโทโลยในพจนานกรมเวรดเนต ตวอยางการแสดงขอมล wnsynsets(ldquowordrdquo) โดยอาศยเครองมอ NLTK จะไดผลลพธ synsets ทงหมดของ word ยกตวอยางเชนค าวา dog ดงภาพท 2

ภาพท 2 คา synsets ของค าวา Dog

จะเหนไดวาค าวา dog นนม synsets อยหลายกลมและหลายชนดค าโดยจะแบงออก 3 สวนตามรปแบบดงนคอ synset(lsquowordposnnrsquo) word คอกลมค าทเปน synsets กบค าวา ldquodogrdquo pos คอชนดของค าวา ldquodogrdquo ซงมทง noun และ verb (nn เปน part-of-speech หมายถงค านาม) คอ ตวเลขทบอก ล าดบทของกลม นอกจากนเรายงสามารถน าคาตางๆ ของ synsets ไปประยกตใชไดหลายประเภททงการหาความสมพนธของค าประเภทตางๆ เพอหาคาความคลายของค าหรอเอกสาร การแสดงบรบทของค า การแสดงประโยคตวอยางของการใชค าซงเปนคณสมบตของ synsets ของค าศพททจดเกบในเวรดเนต

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 8: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

8

ประกอบดวยการก าหนดจ านวนกลมเรมตนในชดขอมล การก าหนดระดบคาความเปนสมาชกในกลมขอมลทกตวจะถกน ามาค านวณคาความเปนสมาชกในการหาตวแทนกลมแตละกลมทมลกษณะส าคญของกลมครบถวน จากนนจะเขาสขนตอนการจดขอมลเขากลม แลวคอยมาปรบคาความเปนสมาชกของสมาชกทกตวในแตละกลมและการปรบคาตวแทน จนกระทงตวแทนปรบคาศนยกลางของกลมไดและคาดชนทวดความผดพลาดของการแบงการกลมมคานอยลงจนถงจดทแสดงวาการแบงกลมขอมลนาจะถกตอง ส าหรบการจ าแนกขอมลภาพออกเปนกลมๆ (กเซลขอมลทกลาวถงในทนคอคาทใชแทนแตละพ

ของ เฟรมภาพ (จากหลกการในการแบ งกล มขอมล โดยว ธ FCM โดย พจารณาชดขอมล 1 2 nX xx x v v vK โดยท xk

v เปนเวกเตอรใน d มต ถาเราตองการแบงขอมลออกเปน c กลม และม ฟซซ ซโดพารทชน 1 2 K cP A A A โดยท (x )i kA v คอ Membership Grades ของ xk

v ทงหมดทมตอ Cluster i สามารถค านวณจดศนยกลางของทกๆ กลม ไดจาก

1

1

x xv 12

x

v vv

v

nm

i k kk

i nm

i kk

Ai c

A (1)

เมอ 1m เปนจ านวนจรงทควบคมผลของคาความเปนสมาชก (Membership Grade) ทมตอการแบงกลมขอมล ตามนยามดรรชนสมรรถนะ (Performance Index mJ P ) ของ P โดย

2

1 1

x x v

v v vn cm

m i k k ik i

J P A (2)

เปาหมายในการท าการแบงกลม (Clustering( คอการหา P ทท าให mJ P มคานอยทสด (Minimize

mJ P ( นนคอ ถาคา mJ P มคานอยกหมายถงความไมคลายคลงกน (Dissimilarity)

การหาคาความคลายของวและพาเมอรนนเปนวธการหนงในการหาคาความคลายของเอกสารถอเปนวธการประเภทการหาคาความคลายแบบเอดจเคาทงเมธอด (Edge Counting Methods) มลกษณะการหาความคลายโดยอาศยระยะหางของโหนด (Path) ทเชอมตอกนแตละค า และต าแหนงในกลมของค านน ๆ ซงจะนยมน ามาใชหาคาความคลายของค าหรอเอกสารทมลกษณะคลายคลงกนหรอมาจากฐานขอมลเดยวกน (Single) การค านวนหาคาความคลายของวและพาเมอรมลกษณะส าคญคออาศยความสมพนธแบบแนวดง (VRs) และความสมพนธแบบแนวระนาบ (HRs) ของกลมค าพอง ซงระยะหางของโหนดและความลกระหวางค าทงหมดจะถกก าหนดไวแลวในฐานขอมลเวรดเนต เมอเราเรยกใชค าสงเพอหาคาความคลายของค าคาความสมพนธดงทกลาวมาขางตนจะถกน ามาคดค านวนแลวแสดงผลออกมาตามสมการของวและพาเมอร ดงสมการ (31)

119904119894119898(119909119910) = 119872119886119909 [ 2lowast119889119890119901119905ℎ(119871119862119878(119909119910))

119897119890119899119892119905ℎ(119909119910) + 2lowast119889119890119901119905ℎ(119871119862119878(119909119910)) ] (41)

9

จากสมการเปนการหาคาความคลายดวยวธการของวและพาเมอรระหวางคาของกลมชอพอง x และ y โดยคา depth คอคาความลกของโหนดกลมค าพองซงมการก าหนดคาไวแลวในฐานขอมลเวรดเนต The Lowest Common Subsumer) เปนโหนดทอยต าทสดทเปนโหนดเชอมระหวางสองโหนดทตองการหาคาความคลายซงในทนคอคา x และ y อกคาหนงทส าคญในสมการวและพาเมอรคอคา length เปนคาระยะหางระหวางโหนดสองโหนดโดยจะนบเปนจ านวนของโหนดทอยระหวางโหนด x และโหนด y ซงคา length ถกก าหนดไวแลว ผลลพธจากการหาคาความคลายจะมคาอยในชวง 0 ge simxy ge 1 หากผลลพธมคามากแสดงวากลมค าพองทงสองมความคลายมากดวยเชนกน

3 วธด าเนนการ (Methods)

การขยายค าคนคนเปนการประมวลโดยอาศยหลกการหาคาน าหนกของค าในเทอม และน าเทอมทไดไปท าการขยายซงจะอาศยฐานขอมลเวรดเนต โดยฐานขอมลเวรดเนตนนมลกษณะดงทกลาวมาแลว สวนทเราจะน ามาใชในการขยายเทอมของเรานนเปนกลมของค าทมความหมายคลายคลงกน เรยกวา ldquosynsetsrdquo หมายถงกลมค าทมความสมพนธกนในเชงความหมายของแตละค า ทมการจดเกบในรปของออนโทโลยในพจนานกรมเวรดเนต ตวอยางการแสดงขอมล wnsynsets(ldquowordrdquo) โดยอาศยเครองมอ NLTK จะไดผลลพธ synsets ทงหมดของ word ยกตวอยางเชนค าวา dog ดงภาพท 2

ภาพท 2 คา synsets ของค าวา Dog

จะเหนไดวาค าวา dog นนม synsets อยหลายกลมและหลายชนดค าโดยจะแบงออก 3 สวนตามรปแบบดงนคอ synset(lsquowordposnnrsquo) word คอกลมค าทเปน synsets กบค าวา ldquodogrdquo pos คอชนดของค าวา ldquodogrdquo ซงมทง noun และ verb (nn เปน part-of-speech หมายถงค านาม) คอ ตวเลขทบอก ล าดบทของกลม นอกจากนเรายงสามารถน าคาตางๆ ของ synsets ไปประยกตใชไดหลายประเภททงการหาความสมพนธของค าประเภทตางๆ เพอหาคาความคลายของค าหรอเอกสาร การแสดงบรบทของค า การแสดงประโยคตวอยางของการใชค าซงเปนคณสมบตของ synsets ของค าศพททจดเกบในเวรดเนต

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 9: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

9

จากสมการเปนการหาคาความคลายดวยวธการของวและพาเมอรระหวางคาของกลมชอพอง x และ y โดยคา depth คอคาความลกของโหนดกลมค าพองซงมการก าหนดคาไวแลวในฐานขอมลเวรดเนต The Lowest Common Subsumer) เปนโหนดทอยต าทสดทเปนโหนดเชอมระหวางสองโหนดทตองการหาคาความคลายซงในทนคอคา x และ y อกคาหนงทส าคญในสมการวและพาเมอรคอคา length เปนคาระยะหางระหวางโหนดสองโหนดโดยจะนบเปนจ านวนของโหนดทอยระหวางโหนด x และโหนด y ซงคา length ถกก าหนดไวแลว ผลลพธจากการหาคาความคลายจะมคาอยในชวง 0 ge simxy ge 1 หากผลลพธมคามากแสดงวากลมค าพองทงสองมความคลายมากดวยเชนกน

3 วธด าเนนการ (Methods)

การขยายค าคนคนเปนการประมวลโดยอาศยหลกการหาคาน าหนกของค าในเทอม และน าเทอมทไดไปท าการขยายซงจะอาศยฐานขอมลเวรดเนต โดยฐานขอมลเวรดเนตนนมลกษณะดงทกลาวมาแลว สวนทเราจะน ามาใชในการขยายเทอมของเรานนเปนกลมของค าทมความหมายคลายคลงกน เรยกวา ldquosynsetsrdquo หมายถงกลมค าทมความสมพนธกนในเชงความหมายของแตละค า ทมการจดเกบในรปของออนโทโลยในพจนานกรมเวรดเนต ตวอยางการแสดงขอมล wnsynsets(ldquowordrdquo) โดยอาศยเครองมอ NLTK จะไดผลลพธ synsets ทงหมดของ word ยกตวอยางเชนค าวา dog ดงภาพท 2

ภาพท 2 คา synsets ของค าวา Dog

จะเหนไดวาค าวา dog นนม synsets อยหลายกลมและหลายชนดค าโดยจะแบงออก 3 สวนตามรปแบบดงนคอ synset(lsquowordposnnrsquo) word คอกลมค าทเปน synsets กบค าวา ldquodogrdquo pos คอชนดของค าวา ldquodogrdquo ซงมทง noun และ verb (nn เปน part-of-speech หมายถงค านาม) คอ ตวเลขทบอก ล าดบทของกลม นอกจากนเรายงสามารถน าคาตางๆ ของ synsets ไปประยกตใชไดหลายประเภททงการหาความสมพนธของค าประเภทตางๆ เพอหาคาความคลายของค าหรอเอกสาร การแสดงบรบทของค า การแสดงประโยคตวอยางของการใชค าซงเปนคณสมบตของ synsets ของค าศพททจดเกบในเวรดเนต

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 10: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

10

ภาพท 3 คาค าทมความสมพนธกบคยเวรดในรปแบบตางๆ

synsets นนกเปนกลมของค าทมความหมายใกลเคยงกนหรอเหมอนกนในรปแบบตางๆ จากรปตวอยางท 32 เปนการเขยนค าสงเ พอใหโปรแกรมแสดงค าทมความสมพนธแบบ hypernyms hyponyms holonyms และ meronyms กบคยเวรด ldquodogrdquo หากเราตองการดตวอยางประโยคของคยเวรดและบรบทของ ldquodogrdquo กสามารถท าไดดงภาพท 3

ภาพท 4 นยามศพทของค าทเปนคยเวรด

ส าหรบในแตละ synsets ของค าทกๆ ค าจะสามารถน ามาหาความคลายกนของค าได โดยวธการหาคาความคลายกนนนแบงออกเปน 4 วธใหญ ๆ คอ

1 Edge Counting Methods วดคาความคลายกนของค าจากความยาวของ path ทเชอมตอแตละค า จากค าหนงไปยงอกค าหนง

2 Information Content Methods การวดคาเนอหาของค าโดยใชความเปนไปไดทจะเกดในเอกสาร

3 Feature Based Method วดคาความคลายกนของค าสองค าจากคณสมบตของค าสองค า 4 Hybrid Method เปนการรวมวธการหาคาความคลายกนของค าจากสามวธกอนหนาน

ทงหมดมารวมไวใชในวธเดยว

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 11: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

11

โดยทวไปแลวการหาคาแบบวธท (1) และวธท (2) นนจะนยมใชเปรยบเทยบจากฐานขอมลเดยวกน สวนวธท (3) และวธท (4) จะใชเปรยบเทยบจากฐานขอมลคนละฐาน ใน NLTK นจะใชวธการหาคาความคลายแบบวธท (1) และวธท (2) เทานน และวธการหาคาความคลายทผศกษาเลอกน ามาใชในโปรแกรมคอการหาคาความคลายของ Wu-Palmer Similarity เพราะคาทไดจากการหาคานนจะถกปรบคาใหเหมาะสมมาแลว คอมคาตงแต 0-1 นอกจากนยงงายตอการใชงาน มเพยงแค synsets สองคากสามารถน ามาหาคาความคลายกนไดซงการหาคาความคลายของ Wu-Palmer Similarity นน เปนการหาคาแบบ Edge Counting Methods ดงภาพท 5

ภาพท5 การหาคาความคลายของค าดวย Wu-Palmer Similarity

จากภาพท 5 จะเหนวาอนดบแรกเราใชวธการหา synsets ทงหมดของ ldquodogrdquo และ ldquocatrdquo กอนแลวจงเลอกวาตองการหาคาความคลายกนของระหวางกลมไหนจากทงสองค าเมอเลอกไดแลวกน ามาหาคาโดยการพมพค าสง dogwup_similarity(cat) จะเปนกลมค าไหนไวทหนาค าสงกไดแลวใหอกค าอยในวงเลบทายค าสง จะเหนวาถงแมวาเราจะวางค าสงสลบทกนกตามคาทไดกไมตางกน จากตวอยางลองสลบระหวาง synsets lsquodogn01rsquo กบ lsquocatn01rsquo คาทไดคอ 08571428571428571 เทากน จะเหนไดวาทงสอง synsets นมคาความคลายทไดใกลเคยง 1 มากเทาใด นนหมายความวาทงสอง synsets มความคลายกนมากจากการหาคาระยะ path ดงภาพท 6

ภาพท 6 อธบายความสมพนธของคาความคลายกบระยะหางของ path

E1 E2 E1 E2

ระยะ path นอย คาความคลายมาก ระยะ path มาก คาความคลายนอย

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 12: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

12

ในการทดลองการขยายค าคนคนโดยอาศยเทคนควธการจดกลมค า โดยคลงค าทน ามาใชในการทดลองนมาจากพจนานกรม WordNet และเครองมอ NLTK ส าหรบการประมวลผลภาษาธรรมชาต และผลลพธสดทายจะน าเสนอขอมลผลการจดกลมในรปของภาพแผนภม ในการทดลองน ค าคนคนทผใชระบในควรจะถกน ามาก าหนดเปนกลมค าเรมตนทจะน ามาขยายเปนค าคนคนชดใหม และน ามาคนคนใหมอกครง ซงค าทจะขยายนนจะมาจากค าทปรากฏอยในกลม Synset ทจดเกบภายใน WordNet ซงกลมค าเหลานไดมการจดล าดบตามคา Synset การขยายค าคนคนโดยอาศยเทคนคการจดกลมนค าเพอใหค าทตองการขยายออกไปนนมความหมายทใกลเคยงกบค าคนคนเดมทผใชระบ โดยการจดกลมจะอาศยค านยามศพท เปนคณสมบตหลกจากคลงค าทปรากฏ ซงในงานวจยนไดเลอกใชพจนานกรมเวรดเนต จากคา Synset การจดรปแบบของค านยามศพทใหอยในรปของเวกเตอร ส าหรบการหากลมค าทมคณสมบตเหมอนหรอคลายคลงกนในการจดกลมค าคนคน ส าหรบตวอยางค านยามศพท ของค าวา ant bat และ cat ทเปนค านาม ตอไปน

wnsynset(ldquoantn01rdquo)definition() ndash lsquosocial insect living in organized colonies characteristically the males and fertile queen have wings during breeding season wingless sterile females are the workersrsquo wnsynset(ldquobatn01rdquo)definition() ndash lsquonocturnal mouselike mammal with forelimbs modified to form membranous wings and anatomical adaptations for echolocation by which they navigatersquo wnsynset(ldquocatn01rdquo)definition() ndash lsquofeline mammal usually having thick soft fur and no ability to roar domestic cats wildcatsrsquo

ภาพท 7 ค านยามของค าศพทจาก WordNet

ค านยามศพทจะถกน ามาจดใหอยในรปของเวกเตอรและจะถกประมวลผลดวยเทคนคการประมวลผลภาษาธรรมชาต การเตรยมเอกสารกอนการประมวลผลประกอบดวย

1) การประมวลผลค าและการท ารากศพท ประกอบดวยขนตอนการขจดอกขระพเศษ ตวอยางเชน punctuations = ()-[]ltgt$^amp_~ ส าหรบเครองหมายอกขระพเศษทพบจะถกก าจดออกจากประโยคนยามศพทเพอลดคารบกวนทอาจเกดขน และการคดกรองค าทไมสอความหมายออกจากเอกสาร ค าทพบบอย (Stopword) เพอเปนการลดความถของค าหยด และลดความคลาดเคลอนในการค านวณ

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 13: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

13

2) การแปลงขอความใหอยในรปของเวกเตอรและการลดรปค า เปนขนตอนในการจดรปแบบค านยามของค าใหอยในรปของเวกเตอร โดยขนตอนนจะมการลดรปของค าใหอยของรากศพท ยกตวอยางเชน การตดค าตอทาย (suffix) ออก การตด ndashs ออกจากค าพหพจน เปนตน ซงจะชวยลดความหลากหลายของค า เชนการเปลยนรปค าตามเพศ และกาลเวลา โดยอาศยเทคนคการท า Porter Stemming

3) การจดกลมเอกสาร เปนการหาคาความคลายคลงของค าทปรากฏในแตละเวกเตอรค านยามศพทเพอน าเอาค ามาจดกลมตามทก าหนด โดยค าทมความคลายคลงกนจากนยามศพทจะถกน ามาจดใหอยในกลมเดยวกน ซงเราจะใชค าทพบในแตละกลมค าศพทนเพอขยายค าคนคนจากควรเรมตน

ภาพท 8 การจดกลมค าคนคนส าหรบค าวา lsquodamersquo และ lsquobirdrsquo

จากภาพท 8 แสดงการจดกลมเอกสารในตอนเรมตนของการทดลองเราก าหนดคาเทรชโฮลด ไว

ท 05 ซงผลลพธทไดพบวาจะมค าทถกจดใหอยในกลมเดยวกนทงค าทมความหมายเหมอนกนหรออาจจะตางกนบาง แตเมอก าหนดคาทสงขนจ านวนค าทปรากฏในกลมจะมจ านวนทนอยลงไปซงจะเหลอเพยงค าทมความหมายคลายกนมากยงขน ตวอยางการขยายค าคนคนส าหรบค าวา lsquodamersquo ในรอบท 1 จะไดกลมค า

[dame doll wench skirt chick bird] และในรอบทสองของการขยายค าคนคนจากค าวา lsquobirdrsquo กจะไดกลมค าตอไปน

[bird dame doll wench skirt chick bird]

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 14: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

14

ดวยคาเทรชโฮลด เทากบ 05 จากขอมลน าเขา ค าวา bird คอ จากทกลาวมาเปนเพยงการยกตวอยางการท าการขยายค าจากขอมลเพยงค าเดยวจรงๆ แลวขอมลน าเขาอาจจะมคามากกวาหนงค า จากกลมค าเดยวกน จากกลมค าหลายๆ กลม หรอแมแตกลมค าเดยวกนสามารถมชนดของค า (part-of-speech) ทแตกตางกนได

4 ผลการทดลอง (Experiment Results)

จากการทดลองการจดกลมค าจากนยามศพทเพอน ามาใชส าหรบการขยายค าคนคน โดยในงานวจยนไดมคดเลอกค าจาก 4 โดเมนประกอบดวย Entertainment Technology Business และ Sport โดยน าเอาค าทพบในแตละโดเมนมาท าการหาคานยามศพทเพอน ามาจดกลม การวดผลและประเมนนนจะคดจากคา Precision คา Recall และ คา F-measure จากผลการทดลองในรปท 41 ทแสดงความสมพนธระหวางคาเทรชโฮลด และคาเฉลยความแมนย าจากผลของการทดลองโดยใชค าคนสองกลมคอกลมค านามและค ากรยา ใชคาเทรชโฮลด 00 - 10 ซงคาเทรชโฮลดทมากขนใหผลทตางกนออกไปหลายลกษณะ เมอน าผลทไดมาท าการวเคราะหแลวจะท าใหทราบวาคาความแมนย าของกลมค านามจะมคาสงกวาคาความแมนย าของกลมค ากรยา โดยอางองจากคาเฉลยความแมนย า (Mean Average Precision)

ภาพท 9 ผลการประเมนคาระลกและคาความแมนย า จาก 4 โดเมน

recall

recall recall

recall

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 15: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

15

เนองจากกลมค านามนนจะมความหลากหลายและเฉพาะเจาะจงกวากลมค ากรยา ท าใหผลการคนหาเอกสารตรงตามค าตอบของการคนหามากกวาและคาความแมนย าจงสงกวา อกประการหนงคอค ากรยาบางค าสอความหมายไดหลากหลายจงถกน าไปใชในหลายโดเมน ท าใหวดคาความแมนย าไดผลทไมสงมากนก จากผลทกลาวมาขางตนนนตรงตามสมมตฐานทการคนหาสวนใหญจะใชค านามมากกวาค ากรยา ส าหรบกลมค าทมคาแมนย าในระดบ 1 นนจะถอวาเปนค าทมความคลายคลงกนทสามารถน าไปใชในการขยายค าคนคนไดมากทสดและหลงจากนนจะใชคาทรองลงมา ซงจากผลการขยายค าเมอเปรยบเทยบกบคา Synset ทแนะน าโดยเวรดเนตพบวาจะมความแตกตางกนบางแตกใหผลไปในทศทางเดยวกน และลกษณะส าคญทสงเกตไดจากการทดลองอกอยางหนงไดแกการขยายค าโดยอาศยคาความคลายจากฐานขอมลเวรดเนตนน บางค านนจะใหคาความคลายของค าใกลเคยงหรอเกอบจะเปน 0 จากการค านวณ แตการหาคาความคลายจากนยามศพทนน จะยงมคาอยท าใหขอบเขตของการขยายค ากวางกวา ชวยใหสามารถเพมค าในกลมค าทเราท าการขยายไดมากขนตามไปดวย เมอไดคาเทรชโฮลดจากการทดลองขางตนการทดลองตอไปจะน าคาทไดไปวดผลการคนหาโดยการปรบคาน าหนกตงแต 00 - 10 แลวค านวนหาคา Average Precision และ Mean Average Precision ซงจะวดผลจากสองชดขอมลโดยชดแรกใชเฉพาะกลมค าชนดค านาม และชดทสองใชกลมค าคนทมทงชนดค านามและค ากรยาเพอน าผลมาวเคราะหความสมพนธระหวางคาน าหนกและคาความแมนย า ในการทดลองท าใหเราทราบวาคาเฉลยของคาเฉลยความแมนย าของการทดลองครงทสองมคาสงขนและไดคาน าหนก = 02 ทคาเฉลยของคาเฉลยความแมนย าสงทสด

ภาพท 10 คาเฉลยของคาเฉลยความแมนย าจากกลมค านามและค ากรยา

recall recall

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 16: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

16

5 สรปผล และอภปรายผล (conclusion) การวดคาความคลายของค าโดยวธการจดกลมค านนอาศยความถของการเกดของค าเปนหลก

ดงนนคาความคลายระหวางกลมค าคนคนจะมคานอยเนองจากค านยามศพททไดจากเวรดเนตนน ค านยามศพทบางค ามจ านวนค าทแตกตางกน อกทงการวดความคลายโดยอาศยความถนนพบวามบางค าทซ ากนหรอไมกตามจะท าใหคาความคลายในเอกสารสงขนตามไปดวย ดงนนบางเอกสารทมค าในกลมค าคนนอยกวาอาจจะมคาความคลายสงกวาเอกสารทมค าในกลมค าคนมากกวาได และการวดคาความคลายของเอกสารจะอาศยความถของค าไมไดอางองเชงความหมาย ดงนนเอกสารทมโครงสรางของค าทเหมอนกนมากจะใหคาความคลายกนของเอกสารทมากตามไปดวย

ส าหรบคาตวแปรทน ามาใชในโปรแกรมเพอใชในการขยายค าคนคนโดยวธการจดกลมค าจะไมตายตวขนอยกบประเภทและลกษณะของค า บางครงอาจจะตองมการปรบคาตวแปรนนๆ ทกครงเมอใชโปรแกรมกบโดเมนของขอมลทตางชนดกน ประสทธภาพของโปรแกรมดานความเรว จะแปรผกผนกบจ านวนของค าทงหมดในเอกสารเพราะหากจ านวนค าทเพมมากขนโปรแกรมจะท าใหตองอานขอมล แปลงขอมล นบคาน าหนก และค านวนหาผลลพธตางๆ มากขนตามไปดวยและอาจจะพบขอจ ากดในเรองของโปรแกรมจะประมวลค าคนโดยไมพงบรบทของค าคน ค าทมลกษณะพเศษเชงความหมายจะถกประมวลผลในลกษณะเหมอนค าคนทวไปโดยไมค านงถงการน าเอาบรบทมาใชในการคนคน ท าใหสรปไดวาคาน าหนกทเหมาะสมนนมผลตอความแมนย าของการคนหา และจากการทดลองครงทสองท าใหไดคาน าหนกทคาเฉลยความแมนย าสงสดคอ 02 คาน าหนกทมากเกนไปจะท าใหกลมค าคนกระจายกนหลายกลมกวาทควรจะเปน ค าบางค าทจดกลมรวมกนไดถกแยกออกจากกนท าใหล าดบในการคนหาถกแทรกดวยผลการคนหาทไมถกตอง คาน าหนกทนอยจนเกนไปท าใหค าคนทกค าถกรวมเปนกลมเดยวกน ค าบางค าสอความหมายไดหลายลกษณะและเมอรวมกนท าใหผลการคนหาตองอาศยเพยงคาความคลายจากความถของเอกสารเทานน และการหาคาน าหนกทดทสดจะชวยเพมประสทธภาพในการคนหาใหแมนย ามากขน

6 กตตกรรมประกาศ หรอค าขอบคณ (acknowledgement)

ขอขอบคณคณะวทยาศาสตร มหาวทยาลยเชยงใหมทใหการสนบสนนงบประมาณวจยจากงบประมาณเงนรายได ประจ าป 2558 ประเภทโครงการวจยพนฐานสาขาวทยาศาสตร ประเภทนกวจยรนกลาง

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552

Page 17: Improvement of Retrieval Efficiency using Clustered Base ... · In information retrieval, interested documents can be retrieved using indexing technique consisting of a list of

17

7 เอกสารอางอง (references)

ชลรตน จรสกลชย เจษฎา กนทะเสนา สถาพร ควสวรรณสข (2556) การจดกลมเอกสารส าหรบขอความภาษาไทย รายงานวจย หองปฏบตการงานวจยสารสนเทศอจฉรยะและฐานขอมล ภาควชาวทยาวทยาการคอมพวเตอร คณะวทยาศาสตรมหาวทยาลยเกษตรศาสตร

นเวศ จระวชตชย (2556) แบบจ าลองการจ าแนกเอกสารภาษาไทยอตโนมต วารสารวชาการเทคโนโลยอตสาหกรรม ป ท 9 ฉบบท 1 มกราคม ndash เมษายน 2556

ศกดชย ศรมากรณ (2551) การแบงกลมชอตภาพเคลอนไหวโดยใชวธการแบงจ านวนกลมโดยไมตองรจ านวนกลม วทยานพนธวศวกรรมศาสตรมหาบณฑต สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเชยงใหม

นเวศ จระวชตชย ปรญญา สงวนสตย และพยง มสจ (2553) การจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน Automatic Thai Document Categorization with Support Vector Machines The 6TH National Conference on Computing and Information Technology NCCIT2010-105 2553

จราภรณ ถมแกว และศรณย อนทโกสม (2555) การจ าแนกขอมลโดยการคดเลอกคณลกษณะทส าคญ สาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตร สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง กรงเทพมหานคร การประชมวชาการเสนอผลงานวจยระดบบณฑตศกษาแหงชาตครงท 23

วงกต ศรอไร พยง มสจ และชชาต หฤไชยะศกด (2552) การเตรยมฟเจอรบนพนฐานแบบจ าลองหวขอส าหรบการจ าแนกหมวดหมของเอกสาร The 5th National Conference on Computing and Information Technology NCCIT 2552