ตัวแบบกำรจ ำแนกกำรเลือก...
TRANSCRIPT
NCTechEd09SIT17
บทคดยอ
ปจจบนนการรบสมครนกศกษาใหมโดยการสอบคดเลอกของแตละสถาบนอดมศกษามลกษณะทเปนเชงรกมากขน ซงแตละสถาบนมการประชาสมพนธหลกสตรและการแนะแนวตามโรงเรยนเนองจากสภาวะการแขงขนของแตละสถาบนในปจจบน งานวจยนไดน าเอาเทคนคเหมองขอมลมาชวยวเคราะหขอมลผสมครเขาศกษาตอจากขอมลทถกเกบไวในฐานขอมลเพอชวยในการ
วางแผนการรบนกศกษาในอนาคต งานวจยนประกอบดวย การเปรยบเทยบตวแบบการจ าแนก 4 เทคนค คอ Decision Tree, Naïve Bayes, k-NN และ Rule Induction ผลปรากฏวาเทคนค Decision Tree คาความถกตองสงสดได 83.97%.
ค ำส ำคญ: ตวแบบการจ าแนก เหมองขอมล
Abstract
Nowadays, a recruitment examination of a new student for each institution of higher education has a more
aggressive policy such as course public relations or Guidance to the school curriculum. Due to the higher competition
of each institution. This research has gotten data mining concept for helping the analysis of the candidate collected in
the database and planning in the future. This research has two main components. Performance comparison of Decision
Tree, Naïve Bayes, k-NN, Rule Induction for Classification Model. The results show that the highest accuracy is
Decision Tree 83.97%.
Keyword: classification model, data mining
1. บทน ำมหาวทยาลยราชภฏมหาสารคามในปการศกษา 2558 ท
ผานมา ไดท าการรบสมครนกศกษาเพอท าการคดเลอกใหเขา
ศกษาตอใน 3 รปแบบ คอ รบนกศกษาผานระบบการสอบคดเลอกของ สกอ. การสอบคดเลอกดวยวธสอบตรง และการสอบคด เล อกแบบ โควต าท ง เร ยน ด และ กฬ า เพ อ ให
ตวแบบกำรจ ำแนกกำรเลอกหลกสตรกำรศกษำ คณะเทคโนโลยสำรสนเทศ มหำวทยำลยรำชภฏมหำสำรคำม โดยใชเทคนคเหมองขอมล
Classification Model for Selection of Program Studies in Faculty of
Information Technology in Rajabhat MahaSarakham University
Using Data Mining Techniques
ธาดา จนตะคณ สาขาวชาระบบสารสนเทศเพอการจดการ
คณะวทยาศาสตรและเทคโนโลย มหาวทยาลยราชภฏมหาสารคาม [email protected]
การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education
www.ncteched.org 24 พฤศจกายน 2559 คณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 336
NCTechEd09SIT17
มหาวทยาลยไดผเรยนทมความร ความสามารถ ความถนดตรงตามหลกสตรทเรยน และเปนการสงเสรมใหการเรยนการสอนในระดบปรญญาตรเปนไปตามปรชญาและวตถประสงคของหลกสตร โดยมองคประกอบในการพจารณาคดเลอกผสมครสอบ ดงน พจารณาจากผลรวมคะแนนสอบวชาศกษาทวไป และวชาชพเฉพาะโดยมหาวทยาลยจะพจารณาคดเลอก จะพจารณาจากหลกสตรทผสมครคดเลอกเปนอนดบ 1 วธและขนตอนการเลอกหลกสตร ผสมครสามารถเลอกหลกสตรทสมครสอบไดสงสด 3 อนดบ
จากสภาวะการแขงขน ท สงขนสาหรบความตองการนกศกษาเขาใหมในแตละสถาบนอมดมศกษาท งในดานคณภาพการเรยนและปรมาณของนกศกษาใหม สงผลใหรปแบบการรบสมคร เปนนโยบาย เช ง รกมาก ขน โดยกระบวนการประชาสมพนธถอไดวาเปนกระบวนการทมความสาคญยง สาหรบการสมครเขาเปนนกศกษาใหมของแตละสถาบนอดมศกษาโดยเฉพาะวธการประชาสมพนธตามโรงเรยนจาเปนตองใชงบประมาณสง และอาจไมตรงกบกลมเปาหมายทตองการของแตละสาขาวชา การวเคราะหถงพฤตกรรมการเลอกสมครเรยนเพอใหทราบถงกลมพฤตกรรมในการเลอกสมครเรยนจะทาใหไดสารสนเทศประกอบการตดสนใจเพอการวางแผนสาหรบการรบสมครนกศกษาใหม
งานวจยนผ วจยไดนาเสนอเทคนคเหมองขอมล (Data Mining) โดยใชขอมลของนกศกษาระดบปรญญาตร คณะเทคโนโลยสารสนเทศ มหาวทยาลยราชภฏมหาสารคาม ทนกศกษาไดทาการสมครเขาศกษาและไดรบการคดเลอกใหเป นน ก ศ กษ าตามหลก ส ตรของมห าวท ยาลยราชภฏมหาสารคามแลว นามาผานกระบวนการตามมาตรฐานส าห รบการทา เห ม องขอ ม ล CRISP-DM (Cross Industry Standard Process for Data Mining) [1] ดวยโปรแกรม Rapid Miner Studio [2] ซงไดพฒนาตวแบบการจาแนกพฤตกรรมและคณลกษณะของผเรยนจากการเลอกหลกสตรการศกษาโดยใชเทคนคเหมองขอมล (Data Mining) [3] จาก 4 เทคนค ไดแก Decision Tree, Naïve Bayes, k-NN แ ล ว ท า ก า ร ป ร ะ เม นประสทธภาพเปรยบเทยบตวแบบทไดพฒนาขน
2. เอกสารและงานวจยทเกยวของ
2.1 เอกสารทเกยวของ2.1.1 เหมองขอมล (Data Mining)
การทาเหมองขอมล คอ กระบวนการวเคราะหเพอหาความสมพนธและการสรปผลขอมล ซงสามารถเขาใจไดและเปนประโยชนตอผทาการรวบรวมขอมล [3]
2.1.2 กระบวนการมาตรฐานการทาเหมองขอมลครสป-ดเอม (Cross-Industry Standard Process Data Mining: CRISP-DM) [1] เรมตนจากบรษท DaimlerChysler บรษท SPSS และบรษท NCR มความตองการกระบวนการมาตรฐานเพอนามาใชทาเหมองขอมลทเปนระบบซงในเวลานนยงไมมการกาหนดมาตรฐานเหลาน นออกมาอยางเปนรปธรรม จงรเรมจดทาแนวทางใหมกระบวนการทเปนมาตรฐานกลางขนมาโดยไมองกบระบบของบรษทหรอซอฟตแวรใดๆ และไมเปนวชาการมากจนเกนไป แตเนนการใชงานเปนหลก เพอใหเกดการยอมรบในวงกวางทงในกลมผเกยวของกบการทาคลงขอมลและเหมองขอมล จดประสงคหลกของการสรางกระบวนการมาตรฐานเพอใหเกดโครงการ หรองานการทาเหมองขอมลรวดเรวและเปนไปตามกาหนด โดยมกระบวนการทมประสทธภาพและนาเชอถอในการทางาน เพอใหจดการไดโดยใชเงนไมมากเกนไปหรอประหยดงบประมาณมากทสด โดย มาตรฐานครสป-ดเอม ถกพฒนาขนในป ค.ศ.1996 ในกระบวนการทาเหมองขอมลแบบครสป-ดเอม ไดกาหนดไว 6 ขนตอน คอ 1) ความเขาใจในธรกจ (business understanding) 2) ความเขาใจขอมล (data understanding) 3) การเตรยมขอมล(data preparation) 4) การจดทาตวแบบ (modelling) 5) การประเมนผล (evaluation) 6) การนาเอาตวแบบไปใชงาน(deployment) ดงภาพท 1
การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education
24 พฤศจกายน 2559 www.ncteched.orgคณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 337
NCTechEd09SIT17
ภาพท 1 : ภาพแสดงกระบวนการของครสป-ดเอม ทง 6 ขนตอน [1] 2.1.3 ตนไมตดสนใจ (Decision Tree)
ตนไมตดสนใจ เปนวธหนงทสาคญในการจาแนกกฎ โดยจะมลกษณะเปนการทางานเหมอนโครงสรางตนไม ทแตละโหนด (Node) แสดงคณลกษณะ (Attribute) ท ใชทดสอบขอมลแตละกงแสดงผลในการทดสอบและลฟโหนด (Leaf Node) แสดงกลมหรอคลาส (Class) ทก าหนดไว ซงตนไมตดสนใจนงายตอการเขาใจและการปรบเปลยนเปนกฎการจาแนก(Classification Rules) [3]
โดยจะสรางตนไมจากบนลงลางแบบวนซ า (Recursive) ดวยว ธการแบงปญหาใหญ เปนปญหายอย (Divide-and-Conquer) ซงรปแบบของตนไมจะประกอบดวย โหนดแรกสดทเรยกวา Root Node จาก Root Node กจะแตกออกเปนโหนดลก และทโหนดลก กจะมลกของตวเองซงโหนดในระดบสดทายจะเรยกวา Leaf Node เชน ตวอยางนเปนขอมล weather data ซงเปนขอมลขนาดเลกมเพยง 14 กรณ จากตวอยางนในโปรแกรม RapidMiner Studio [2] ใชชอวา Golf Dataset สวนใ น Weka [ 4] ม ต ว อ ย า ง ข อ ม ล 2 ช ด ใ ช ช อ ว า weather.nominal.arff และ weather.numeric.arff ซงชดขอมลนเปนชดขอมลเกยวกบเงอนไขสภาพอากาศทเหมาะสมในการเลนกอลฟ ดงภาพท 2 และ 3
ตนไมตดสนใจ (Decision Tree) เปนเทคนคทคอนขางแพรหลาย เนองจากผใชสามารถทาความเขาใจผลลพธไดงาย เทคนคตนไมตดสนใจจะจากดขอมลท เปนตวแปรตาม (Dependent Variable) 1 ตวตอ 1 แบบจาลอง ถาตองการทานาย
ตวแปรตามหลาย ๆ ตว จะตองสรางแบบจาลอง สาหรบตวแปรตามแตละตวอลกอรทมของเทคนคแบบตนไมตดสนใจ
ภาพท 2 : ตวอยางชดขอมล Golf Dataset ทรนบน Rapidminer Studio
2.1.4 อลกอรทม Naïve Bayes (Naïve Bayes Algorithm) [5] การจาแนกประเภทขอมลดวย Naïve Bayes นเปนวธทไดรบความนยม เนองจากอาศยความนาจะเปน (probability) เปนหลก โดยอาศยสมการน
P(A|B) คอ ค า conditional probability หรอค าความนาจะเปนทเกดเหตการณ B ขนกอนและจะมเหตการณ A ตามมา
ภาพท 3 : ตวอยางตนไมตดสนใจ (Decision Tree)จากชดขอมลตวอยาง
การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education
www.ncteched.org 24 พฤศจกายน 2559 คณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 338
NCTechEd09SIT17
P(A ∩ B) คอ คา joint probability หรอคาความนาจะเปนทเหตการณ A และเหตการณ B เกดขนรวมกน
P(B) คอ คาความนาจะเปนทเหตการณ B เกดขน 2 .1.5 อลกอรทมความใกลเคยงกนมากท สด (k-
Nearest Neighbor Algorithm) [5] หลกการทางานของ k-NN คลายๆ กบการแบงกลมขอมล คอ ทาการวดระยะหางระหวางขอมลทตองการทานาย กบขอมลทอยใกลเคยงเปนจานวน k ตว และคาตอบททานายไดคอ คลาสทพบมากทสดของขอมลทเปนเพอนบานทง k ตว ในเทคนคนจะใชวธวดระยะหางแบบ Euclidean ซงเกดจากรากทสองของผลตางระหวางแอตทรบวตตางๆ ยกกาลงสอง ดงสมการ
2.1.6 กฎการอปนย (Rule Induction) กฎการอปนย (Rule Induction) [6] คอ กฎการอปนยเปนวธ
สาหรบการดงเอาชดกฎเกณฑตางๆ มาเพอจดแบงเงอนไขหรอกรณ โครงสรางตนไมสามารถสรางชดของกฎตางๆ และขณะทบางครงเรยก วธการแบบนวา การสรางกฎใหมจากตวอยาง แตวธการนกยงมความหมายทแตกตางกนเนองจากวธการใชการอปนยจะสรางชดของกฎทเปนอสระซงไมจาเปนตองอยในรปโครงสรางตนไม เพราะตวสรางกฎ (Rule Inducer) ไมไดบงคบการแตกขอมลแตละระดบ แตอาจจะสามารถคนหารปแบบ (Pattern) ทแตกตางกนได และบางครงอาจดกวาสาหรบการจดแบง Class ของผลลพธ ลกษณะการนากฎอปนย ดงภาพท 4
2.1.7 การประเมนตวแบบดวยวธการ Cross-validation Test วธการนเปนทนยมใชในการทดสอบประสทธภาพของตวแบบ เนองจากผลทไดมความนาเชอถอ การวดประสทธภาพดวยวธ Cross-validation Test นจะทาการแบงขอมลออกเปนหลายสวน เชน 5-fold cross-validation คอการแบ งขอ มลออกเปน 5 สวน โดยทแตละสวนมจานวนขอมลเทากน หรอ 10-fold cross-validation คอ การแบงขอมลออกเปน 10 สวนโดยแตละสวนมจานวนขอมลเทากน หลงจากนนขอมลหนงสวนจะใชเปนตวทดสอบประสทธภาพของตวแบบ ทาวนไปเชนนจนครบจานวนทแบงไว [5] ดงภาพท 5
ภาพท 4 : ตวอยางอลกอรทมสาหรบการนากฎอปปนยมาประยกตใช
ภาพท 5 : ตวอยางการแบงขอมลแบบ 5-fold cross-validation [5]
2.2 งานวจยทเกยวของ แกวสวรรค ศรหรง ไดทาการศกษาวจยเรอง การพยากรณ
โอกาสส า เร จก าร ศกษ าของน ก ศกษ าป รญญ าต รของมหาวท ยาลย :รามคาแหงตามระยะเวลาท กาหนดโดยเปรยบเทยบวธการทางโครงขายประสาทเทยม กบวธตนไมตดสนใจ [7] งานวจย น มว ต ถประสงค เพอ เป รยบ เทยบประสทธภาพของโมเดลโครงขายประสาท วธตนไมตดสนใจ และตรรกศาสตรคลมเครอ เพอคาดคะเนความสามารถในการศกษาของนกศกษาแตละคนทผานระบบการรบสมคร
การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education
24 พฤศจกายน 2559 www.ncteched.orgคณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 339
NCTechEd09SIT17
นกศกษาใหมไดวา สามารถทจะสาเรจการศกษาในหลกสตรตามระยะเวลาทมหาวทยาลยรามคาแหงกาหนดไดหรอไม โดยใชขอมลของมหาวทยาลยรามคาแหง สาขาวทยบรการเฉลมพระเกยรตจงหวดลพบร ต งแตปการศกษา 2550 – 2554 จานวน 437 คน พจารณาจากตวแปรทจะนามาศกษาทงสน 20 ตวแปร และไดนาขอมลจานวนปทสาเรจการศกษาจดกลมเปน 6 กลม คอ ตากวา 4 ป, 4 ป, 5 ป, 6 ป, 7 ป และ 8 ป จากนนจงนาขอมลไปวเคราะหตอโดยโครงขายประสาทเทยมขนาด 2 ช น , 3 ช น ตามลาดบ เพ อทาก าร เร ยน รขอ ม ลแลว จ งเปรยบเทยบผลลพธ วธตนไมตดสนใจในการสรางแบบจาลอง และตรรกศาสตรคลมเครอ พบวาวธโครงขายประสาทเทยมขนาด 2 ชน ซงมขนาดแตละชน 16-6 ไดผลลพธท 99.64% โดยใชฟ งกชน กระตนแบบ Tansig-Purelin ว ธโครงข ายประสาทเทยมขนาด 3 ชน ไดผลลพธท 99.80% ซงมขนาดแตละช น 24-6-6 โดยใชฟงกชนกระตนแบบ Tansig-Logsig-Purelin ว ธ ตน ไมตด ส น ใจ ไดผลลพ ธ ท 9 9 .5 4 % และตรรกศาสตรคลมเครอไดผลลพธท 89.24% ผลการทดลองพบวา แบบจาลองโครงขายประสาทเทยมขนาด 3 ชน เปนโมเดลทเหมาะแกการนาไปพฒนาตอ เพราะใหประสทธภาพมากทสด
ไพฑรย จนทรเรอง ไดทาการศกษาวจยเรอง ระบบสนบสนนการตดสนใจเลอกสาขาการเรยนของนกศกษา ระดบปรญญาตรโดยใชเทคนคตนไมตดสนใจ [8] มใจความสาคญ ดงน งานวจยนไดทาการพฒนาระบบสนบสนนการตดสนใจเลอกสาขาการเรยนของนกศกษาระดบปรญญาตรโดยใชเทคนคตนไมตดสนใจ ซงจากการทดลองพบวาในการสรางตวแบบสาหรบพฒนาระบบสนบสนนการตดสนใจเลอกสาขาการเรยนของนกศกษาระดบปรญญาตร โดยใชเทคนคตนไมตดสนใจนน ควรแยกสรางตวแบบสาหรบแตละสาขาการเรยนเนองจากคณสมบตของผเรยนแตละสาขามความแตกตางกน เพอใหไดตวแบบทสามารถทานายแนวโนมของผลการเรยนทเหมาะสมสาหรบแตละสาขา แตเนองจากคะแนนเฉลยของนกศกษาทนามาพฒนาตวแบบนน สวนใหญจะมเกณฑคะแนนเกาะกลมกนอยในชวงกลางของขอมล (2.00 – 3.00) ทาใหผล
การตดสนสวนใหญจะโนมเอยงไปในเกณฑพอใช (ชวงคะแนน 2.00 – 2.49) และปานกลาง (ชวงคะแนน 2.50 – 2.99)
ณฐ พลอยออง ไดทาการศกษาวจยเรอง ระบบคดกรองนก ศกษาท มความสามารถในการเรยนวชาเทคโนโลยสารสนเทศผานสออเลกทรอนกสโดยการเปรยบเทยบเทคนคตนไมการตดสนใจและซพพอรตเวกเตอรแมชชน [9] งานวจยนมประสงคเพอคดเลอกโมเดลระหวางเทคนคตนไมตดสนใจกบเทคนคซพพอรตเวกเตอรแมชชน เพอใชพฒนาระบบคดกรองนกศกษาทมความสามารถในการเรยนวชาเทคโนโลยส ารสน เทศโดยการเรยน รผ าน ส อ อ เลกทรอนกสของมหาวทยาลยราชภฏสวนสนนทาเพอเปนการสงเสรมผเรยนโดยเนนผเรยนเปนหลกใหสามารถเลอกรปแบบการเรยนทเหมาะสมกบตนเองได ผลการเปรยบเทยบโมเดลทไดคอ เทคนคตนไมการตดสนใจใหผลความถกตองสงทสดจากการสรางโมเดลแบบ 100 Folds ไดคาความถกตองท74.46% ซงมากกวาเทคนคซพพอรตเวกเตอรแมชชนทใหผลความถกตองสงทสด จากการสรางโมเดลแบบ 100 Folds ไดคาความถกตองท 72.48% จากผลดงกลาวเทคนคตนไมตดสนใจถกนามาใชพฒนาโปรแกรมระบบคดกรองนกศกษา
ธรพงษ สงขศร ไดศกษาวจยเรอง การวเคราะหพฤตกรรมสาหรบการเลอกสมครสาขาวชาเรยนและการเปรยบเทยบตวแบบพยากรณจานวนนกศกษา [10] งานวจยชนนไดนาเอาแนวคดเหมองขอมลมาชวยวเคราะหโดยสามารถแบงสวนการทางานออกไดเปน 2 สวนหลกประกอบดวย 1) การวเคราะห พฤตกรรมสาหรบการเลอกสมครสาขาวชาเรยนเปนการประยกตใช เทคนคการจดกลมขอมล (Clustering) แบบ Simple K-means สามารถแบงขอมลพฤตกรรมของผ สมครได เปน 4กลมและใช การหากฎความสมพนธ ของขอมล (AssociationRules) ดวยเทคนคแอพรออร (Apriori) เพอหากฎความสมพนธของขอมลในแตละกลมพฤตกรรมผสมคร โดยใช คาความเชอมนเทากบ 0.9และ 2) การเปรยบเทยบตวแบบพยากรณจานวนนกศกษาใหมโดยตวแบบพยากรณ ทถกสรางขนดวยเทคนคตนไมตดสนใจ (Decision Tree) มคาความถกตองเทากบ 93.76% และตวแบบทถกสรางขนดวยเทคนคโครงขาย
การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education
www.ncteched.org 24 พฤศจกายน 2559 คณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 340
NCTechEd09SIT17
ประสาทเทยม(Artificial Neural Network) มคาความถกตองเทากบ 93.60%
3. วธการดาเนนงานวจยงานวจยนผวจยใชกระบวนการของ CRISP-DM ดงน
3.1 การทาความเขาใจในดานธรกจ (BusinessUnderstanding)
พบปญหาของการประชาสมพนธหลกสตร ไมตรงกบความสนใจของนกเรยนทาใหจานวนนกศกษาลดลง จงพฒนาตวแบบการจาแนกพฤตกรรมการเลอกสาขาวชาใหกบนกศกษา จานวน 4 หลกสตร ดงน หลกสตรเทคโนโลยสารสนเทศ หลกสตรเทคโนโลยมลตม เดยและแอน เมชน หลกสตรเทคโนโลยคอมพวเตอรและการสอสาร และหลกสตรการจดการเทคโนโลย
3.2 การทาความเขาใจขอมล (Data Understanding) ปการศกษา 2558 คณะเทคโนโลยสารสนเทศ มหาวทยาลย
ราชภฏมหาสารคามในระดบปรญญาตรมการรบสมครนกศกษาจานวน 4 หลกสตร มจานวนนกศกษาทสมครแลวไดรบการคดเลอกทง 4 หลกสตร รวมทงสนจานวน 162 คน มปจจยทตองพจารณาท งหมด 8 ปจจย (แอตทรบวต) ไดแก Major หมายถง หลกสตรทสมครเขาศกษา, Study หมายถง จงหวดเดมทเคยเรยนมากอน, Rank_Study_group หมายถง วฒการศกษาทใชสมครสอบ, Gpa_old_group หมายถง เกรดเฉลยนของวฒการศกษาเดม, SCI หมายถง ระดบคะแนนรายวชาวทยาศาสตร, MAT หมายถงระดบคะแนนวชาคณตศาสตร, SOC หมายถง ระดบคะแนนรายวชาสงคม, TH หมายถง ระดบคะแนนรายวชาภาษาไทย, ENG หมายถง ระดบคะแนนรายวชาภาษาองกฤษ แสดงชดขอมล ดงภาพท 6
3.3 ขนตอนการเตรยมขอมล ขอมลทไดมาอยในรปแบบของแฟมขอมลไมโครซอฟทแอคเซส โดยทาการคดเลอกแอตทรบวตทเกยวของแลวแปลงใหอยในรปแบบของแฟมขอมลทมนามสกลเปน .CSV จากน นทาการกาหนดแอตทรบวต Student_id เปนประเภท id กาหนดใหแอตทรบวต Major เปนประเภท Label จากน นทาการแปลงขอมลแอตทรบวต ทเกยวของทง 8 แอตทรบวตใหอยในรปแบบ ดงตารางท 1
ภาพท 6 : ภาพแสดงชดขอมล (Data Set)
ตารางท 1 อธบายแอตทรบวตทเกยวของ แอตทรบวต ลกษณะของขอมลทถกแปลงกอน
นาไปสรางตวแบบ Major เทคโนโลยสารสนเทศ, เทคโนโลย
มลตมเดยและแอนเมชน, เทคโนโลยคอมพวเตอรและการสอสาร, การจดการเทคโนโลย
Study ระบชอจงหวดทจบการศกษามา เชน “มหาสารคาม”
Rank_Study_group สายสามญ, สายอาชพ Gpa_old_group ระดบตา, ระดบปานกลาง, ระดบด SCI ระดบตา, ระดบปานกลาง, ระดบด MAT ระดบตา, ระดบปานกลาง, ระดบด SOC ระดบตา, ระดบปานกลาง, ระดบด TH ระดบตา, ระดบปานกลาง, ระดบด ENG ระดบตา, ระดบปานกลาง, ระดบด
3 .4 การสรางตวแบบ (Modeling) สรางตวแบบดวย RapidMiner Studio โดยใชโอเปอรเรเตอร Multiply เพอใหสามารถสรางตวแบบดวยเทคนค Decision Tree, Naïve Bayes, k-NN และ Rule Induction ในโปรเซสเดยว ดงภาพท 7
3.5 การประเมนประสทธภาพตวแบบ (Evaluation) ใ ช ว ธ ก า ร Cross-validation Test ด ว ย 5-fold cross-
validation, 10-fold cross-validation เพ อหาค าความถกตอง (accuracy) โดยตวแบบทพฒนาจากเทคนค Decision Tree ทถกทดสอบดวยขอมลทแบงออกเปน 5 สวน น น ไดคาความถกตองเท ากบ 83.31% และเมอทดสอบดวยขอมลทแบง
การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education
24 พฤศจกายน 2559 www.ncteched.orgคณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 341
NCTechEd09SIT17
ออกเปน 10 สวนไดคาความถกตองเทากบ 83.97% ตวแบบทพฒนาจากเทคนค Naïve Bayes ทถกทดสอบดวยขอมลทแบงออกเปน 5 สวน นน ไดคาความถกตองเทากบ 74.07% และเมอทดสอบดวยขอมลทแบงออกเปน 10 สวนไดคาความถกตองเทากบ 73.53% ตวแบบทพฒนาจากเทคนค k-NN ทถกทดสอบดวยขอมลทแบงออกเปน 5 สวน นน ไดคาความถกตองเทากบ 73.41% และเมอทดสอบดวยขอมลทแบงออกเปน 10 สวนไดคาความถกตองเทากบ 74.71% ตวแบบทพฒนาจากเทคนค Rule Induction ทถกทดสอบดวยขอมลทแบงออกเปน 5 สวน น น ไดคาความถกตองเทากบ 82.75% และเมอทดสอบดวยขอมลทแบงออกเปน 10 สวนไดคาความถกตองเทากบ 75.18% ดงตารางท 2
ภาพท 7 : ภาพแสดงสรางตวแบบและประมวลผลเพอเปรยบเทยบไดในโปรเซสเดยวบน RapidMiner Studio
ตารางท 2 เปรยบเทยบประสทธภาพของตวแบบทพฒนาขน
Classification Model
5-foldcross-validation
(Accuracy)
10-foldcross-validation
(Accuracy) Decision Tree 83.31% 83.97% Naïve Bayes 74.07% 73.53% k-NN 73.41% 74.71% Rule Induction 82.75% 75.18%
3.6 การนาไปใชงาน (Deployment) นาตวแบบทพฒนาดวยเทคนค Decision Tree ซงไดคา
ความถกตองสงทสดไปแนะนาหลกสตรใหกบนกเรยน โดยใหเปรยบเทยบกบตวแบบกบนกเรยนโดยใหเรมไลจากโหนด
บนสดทเปนวชาตางๆ และไลเรยงลงมาจนถงโหนดสดทาย (leaf) ดงภาพท 8
ภาพท 8 : แสดงตวแบบในรปแบบตนไมตดสนใจ
4. สรปผลการวจยสรปผลการดาเนนการวจยครงนโดยพฒนาและเปรยบเทยบ
ตวแบบการจาแนกท ง 4 เทคนค ไดแก Decision Tree, Naïve Bayes, k-NN, Rule Induction ซงผลการประเมนประสทธภาพตวแบบ คอ Decision Tree ซงไดคาท สงท สดจากการแบงขอมลทดสอบออกเปน 10 ชด คาความถกตอง (Accuracy) ได 83.97% จงสรปไดวาDecision Tree เปนตวแบบทเหมาะสมทสดทจะนาไปใชประชาสมพนธหลกสตร
5. เอกสารอางอง[1] IBM Corporation, "http://www.ibm.com/us-en/,". [Online].
Available: ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/14.2/en/CRISP_DM.pdf.
[2] RapidMiner USA, "https://rapidminer.com/,". [Online]. Available: https://rapidminer.com/products/studio/.
[3] J. Han, Data Mining Concepts and Techniques ThirdEdition, United States of America: Morgan KaufmannPublishers, 2012.
[4] Data Mining Software in Java,"http://www.cs.waikato.ac.nz/ml/weka/,". [Online]. Available: http://www.cs.waikato.ac.nz/ml/weka/book.html.
[5] เอกสทธ พชรวงศศกดา, การวเคราะหขอมลดวยดาตา ไมนนงเบองตน, กรงเทพฯ: บรษท เอเชย ดจตอลการพมพ จากด, 2557.
[6] ฝนทพย คนแกว, “การสงเคราะหโมเดลเพอการจาแนกตามขอกาหนดของผใช,” มหาวทยาลยสรนาร, นครราชสมา, 2555.
[7] แกวสวรรค ศรหรง, "การพยากรณโอกาสสาเรจการศกษาของนกศกษาปรญญาตรของมหาวทยาลยรามคาแหงตามระยะเวลาทกาหนดโดยเปรยบเทยบวธการทางโครงขายประสาทเทยม วธตนไมตดสนใจและตรรกศาสตรคลมเครอ," มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ, 2556.
[8] ไพฑรย จนทรเรอง, " ระบบสนบสนนการตดสนใจเลอกสาขาการเรยนของนกศกษาระดบปรญญาตร โดยใชเทคนคตนไมตดสนใจ,"
การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education
www.ncteched.org 24 พฤศจกายน 2559 คณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 342
NCTechEd09SIT17
มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ, กรงเทพฯ,
2550.
[9] ณฐ พลอยออง, "ระบบคดกรองนกศกษาทมความสามารถในการเรยนวชาเทคโนโลยสารสนเทศผานสออเลกทรอนกส โดยการเปรยบเทยบเทคนคตนไมการตดสนใจและซพพอรตเวก,"
มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ, กรงเทพฯ,
2555.
[10] ธรพงษ สงขศร, "การวเคราะหพฤตกรรมสาหรบการเลอกสมครสาขาวชาเรยนและการเปรยบเทยบตวแบบพยากรณจานวนนกศกษาใหมโดยใชเทคนคการทาเหมองขอมล," การประชมวชาการระดบชาตดานคอมพวเตอรและเทคโนโลยสารสนเทศ ครงท10, กรงเทพฯ, 2557.
การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education
24 พฤศจกายน 2559 www.ncteched.orgคณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 343