การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่...

137
การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮาดูป และแมพรีดิว) กับระบบฐานข้อมูลเชิงสัมพันธ์ (มายเอสคิวแอล) กรณีศึกษา : ชุดข้อมูลบริการสุขภาพ รชต ทิมาสรวิชกิจ วิทยานิพนธ์นี้เป็นส่วนหนึ่งของการศึกษาตามหลักสูตรวิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีคอมพิวเตอร์และการสื่อสาร วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์ พ.ศ. 2560

Upload: others

Post on 18-Jul-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

การเปรยบเทยบการคนคนขอมลบนเทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) กบระบบฐานขอมลเชงสมพนธ (มายเอสควแอล)

กรณศกษา : ชดขอมลบรการสขภาพ

รชต ทมาสรวชกจ

วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตรวทยาศาสตรมหาบณฑต สาขาวชาเทคโนโลยคอมพวเตอรและการสอสาร

วทยาลยนวตกรรมดานเทคโนโลยและวศวกรรมศาสตร มหาวทยาลยธรกจบณฑตย

พ.ศ. 2560

Page 2: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

Comparative Study between Big Data Technology (Hadoop / MapReduce) and Relational Database Query System (MySQL)

Case study: Healthcare Dataset

Rachatha Timasornwichakit

A Thesis Submitted in Partial Fulfillment of Requirements For the Degree of Master of Science

Department of Computer and Communication Technology, College of Innovative Technology and Engineering

Dhurakij Pundit University 2017

Page 3: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

หวขอวทยานพนธ การเปรยบเทยบการคนคนขอมลบนเทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) กบระบบฐานขอมลเชงสมพนธ (มายเอสควแอล) กรณศกษา : ชดขอมลบรการสขภาพ ชอผเขยน รชต ทมาสรวชกจ อาจารยทปรกษา ผศ.ดร.วรพล พงษเพชร อาจารยทปรกษารวม รศ.ดร.นพ.วรรษา เปาอนทร สาขาวชา เทคโนโลยคอมพวเตอรและการสอสาร ปการศกษา 2559

บทคดยอ

งานวทยานพนธนมวตถประสงคในการจดท าดงน 1) เพอศกษาแนวทางทเหมาะสมในการจดเกบขอมลบรการสขภาพบนสถาปตยกรรมขอมลขนาดใหญ 2) เพอเสรมสรางความรและความเขาใจในเทคโนโลยขอมลระหวางเทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) ซงมสถาปตยกรรมการจดการขอมลและใชหลกการทางคณตศาสตร และเทคนควธการสอบถามคนคนขอมลทแตกตางกนกบระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) และน ามาประยกตใชในการจดท าสถตขอมลการเจบปวย 3) เพอเปรยบเทยบประสทธภาพดานเวลาการประมวลผลและความถกตองแมนย าในการคนคนขอมล

ท าการศกษาเปรยบเทยบดวยการวจยเชงทดลอง มขนตอนวธการศกษาความแตกตางของเทคนควธการประมวลผลขอมล 2 รปแบบ ดวยการน าชดขอมลในระบบบรการสขภาพ คดเลอกแฟมผปวยนอกเปนชดขอมลตวอยาง ท าการแบงขอมลออกเปน 4 ชด มขนาดระเบยนหาแสน, หนงลาน, หาลานและสบลานระเบยนตามล าดบ และสรางชดแบบสอบถามขนจากรายงานสรปการเจบปวย พ.ศ.2557 จ านวน 2 รายงาน เปนเครองมอทน ามาใชหาประสทธภาพของเวลาในการประมวลผลแบบสอบถามคนคนขอมล

ประเมนประสทธภาพความเรวดวยการวเคราะหผลคาเฉลยโดยใชสถต t-Test : Paired Two Sample for Means ทดสอบสมมตฐานทคาดการณวาผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธแตกตางกน และการประเมนผลลพธความถกตองและแมนย าการคนคนดวยคาสถตรอยละ

ผลในการวจยพบวา เมอขอมลเรมมขนาดใหญ ทจ านวนตงแตขอมล 1-10 ลานระเบยน เทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) จะใชเวลาในการประมวลผลนอยกวาระบบการ

Page 4: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

จดการฐานขอมลเชงสมพนธ (มายเอสควแอล) และจากผลการวเคราะหสถตประสทธภาพดานความเรว สรปผลไดวาในการวเคราะหชดขอมล 5 แสนระเบยน และ 1 ลานระเบยน เทคโนโลยขอมลขนาดใหญใชเวลานอยกวาอยางมนยส าคญทางสถต แตในชดขอมล 5 ลานระเบยน และ 10 ลานระเบยนใชเวลาไมตางกน และประสทธผลของผลการสอบถามคนคนมความถกตองแมนย าตรงกนทกชดขอมล 100% เปนการยอมรบสมมตฐานทคาดการณไวลวงหนา

Page 5: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

Thesis Title Comparative Study between Big Data (Hadoop / MapReduce) and Relational Database Query System (MySQL) Case study: Healthcare Dataset Author Rachatha Timasornwichakit Thesis Advisor Asst. Prof. Dr.Worapol Pongpech Co-Thesis Advisor Assoc.Prof. Dr.Wansa Paoin Department Computer and Communication Technology Academic Year 2016

ABSTRACT

The objectives of this study are 1) to study the proper method to store and analyze the data of illness in Big Data architecture. 2) to compare different big data technology (Hadoop / MapReduce) and the relation database (MySQL) by using experimental research, studying the different between the groups of mathematics data compilation with different storage architecture and retrieval methods. 3) to study different methods of data processing format with the two sets of data in the healthcare system, the patient's sample data set were selected, the sample set was divided into four series with a record of five hundred thousand, one million, five million and ten million records respectively. Create a set of questionnaires and 2 reports of the illness from 2014 as a tool to be used for query processing performance in data retrieval.

Rated and speed of performance were analyzed using t-Test : Paired Two Sample for Means to compare between hadoop/mapreduce and relational databases system. The accuracy and precision of results were also measured.

The test results showed that the efficiency of hadoop/mapreduce use less time to process in one - ten million records. The hadoop/mapreduce used more time to process five hundred thousand records and one million, but one - five million records both technologies performed with no significant statistical different. The accuracy of data processing by both technologies were 100%.

Page 6: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

กตตกรรมประกาศ

วทยานพนธฉบบนส าเรจลลวงไดอยางสมบรณ โดยไดรบความอนเคราะหอยางดยงจากทาน ผศ.ดร.วรพล พงษเพชร และทาน รศ.ดร.นพ.วรรษา เปาอนทร ผวจยขอกราบขอบพระคณและจารกพระคณนไวในความทรงจ าอยางมรเลอนวาความส าเรจของงานวทยานพนธฉบบนเกดขนไดเพราะความกรณาของทานทไดใหค าแนะน า ตรวจทาน และแกไขขอบกพรองตาง ๆ ดวยความเอาใจใสเปนอยางด ตลอดจนใหความร ชแนะแหลงคนควาหาขอมล หลกส าคญในงานวจยและสรางโอกาสในการศกษาแกผวจยตลอดเวลาทไดศกษาภายในมหาวทยาลยแหงน และกราบขอบพระคณทานคณะกรรมการผทรงคณวฒทกทาน ทใหค าแนะน าทมประโยชนในงานวทยานพนธฉบบน และกราบขอบพระคณทานอาจารยนกล พมเสน ผดแลหองปฏบตการวศวกรรมขอมลขนาดใหญ ด าเนนการตดตงโปรแกรมฮาดปเครองแมขายพรอมเครอขาย และนายนฐพงษ หนสงห นกศกษาวศวกรรมขอมลขนาดใหญ ผเขยนโปรแกรมแมพรดวส าหรบงานทดลองในครงน

ขอขอบคณเจาหนาทเลขานการ คณะวศวกรรมศาสตรทกทาน ทไดใหค าแนะน าและชวยเหลอประสานงานจนวทยานพนธฉบบนเสรจลลวงไปไดดวยด ตลอดจนพนองนกศกษาสาขาวชาเทคโนโลยคอมพวเตอรและการสอสารทกทานทใหก าลงใจ และพนองนกศกษาสาขาวชาวศวกรรมขอมลขนาดใหญ ทรวมแบงปนความรกนในหองทดลอง ขอใหทกทานประสบความส าเรจในหนาทการงานทกทาน

ขอขอบคณคณะผบรหารของบรษท ฮอกไกโด อนเตอรเนชนแนล แฟรนไชส จ ากด ทใหความอนเคราะหวนและเวลาในการเขาศกษาหาความรใหแกผวจยเปนอยางด

สดทายนผวจยขอมอบคณความดทงานวจยน ทผวจยคาดหวงวาจะมใหแกสงคมแดบดาและมารดาผใหก าเนดผวจยมายงโลกใบน เปนผอยเบองหลงในความส าเรจในครงน ผซงปลกฝงความคดใหผวจยใฝการศกษา และไมยอทอตออปสรรคในชวต และเปนคนดของสงคมคอยชวยเหลอตอบแทนสงคม ตลอดจนขอขอบคณครอบครว พ นอง และเครอญาตทกทานทคอยเปนก าลงใจใหพยายามสท าเลมวทยานพนธฉบบนใหส าเรจจวบจนจบการศกษาได

รชต ทมาสรวชกจ

Page 7: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

สารบญ หนา

บทคดยอภาษาไทย …………………………………………......................……………….. ฆ บทคดยอภาษาองกฤษ……………………………………………….............….....……….. จ กตตกรรมประกาศ…………………………………………………………………………... ช สารบญตาราง...……………………………………………………………………………... ญ สารบญภาพ…………………………………..................……………………….………… ฎ บทท 1. บทน า………………………………………………………………….……..…….. 1 1.1 ทมาและความส าคญของปญหา…………………………………..……..…….. 1 1.2 วตถประสงคของการวจย………………………………………...……………. 3 1.3 สมมตฐานของการวจย………………………………………...………………. 3 1.4 ประโยชนทคาดวาจะไดรบ……………………………………………………. 4 1.5 ขอบเขตการวจย………………………………………………………….….... 4 1.6 นยามศพท………………………………………………………...…………... 4 2. ทฤษฎ และผลงานวจยทเกยวของ………………………..……….…….………….. 7 2.1 ทฤษฎทเกยวของ…………………………………...…….……………………. 7 2.2 งานวจยทเกยวของ…………………………..……….………………………… 22 2.3 สรปงานวจยทเกยวของ…….………………..……….………………………… 49 3. แนวคด และวธด าเนนงานวจย……………………………………………………… 54 3.1 กรอบแนวคดการออกแบบงานวจย……………………………………………. 54 3.2 ขนตอนและวธการด าเนนงานวจย……………………………………………... 58 3.3 เครองมอด าเนนงานวจย………………..……………….……………………... 69 3.4 สถานทท างานวจย………………………….…….……………........................ 70 4. ผลงานวจย และสรปผลงานวจย…………………………………………………..... 71 4.1 ผลการเตรยมขอมลชดทดสอบ........................................................................... 71 4.2 ผลการสมคดเลอกขอมลชดทดสอบตามกลมทก าหนด……………………...… 72

Page 8: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

สารบญ (ตอ) บทท หนา 4.3 ผลการเตรยมชดแบบสอบถามทดสอบเอสควแอลและแมพรดว.….…….......... 73 4.4 ผลการทดสอบการประมวลผลดวยชดค าถามเอสควแอลและแมพรดว…..……. 80 4.5 ผลการทดสอบการประมวลผลดวยชดแบบสอบถามเอสควแอลและแมพรดว... 82 4.6 น าผลลพธทไดน ามาวเคราะหสถต............................................….……............ 84 4.7 สรปผลทไดจากการวเคราะหสถต….……………………………….…............ 88 4.8 สรปผลจากการทดลอง……………….………………………….……............. 88 5. อภปรายผลงานวจย และขอเสนอแนะ……………...……………………………… 94 5.1 อภปรายผลการวจย……..…………………………………...…………………. 94 5.2 ขอเสนอแนะ……………………….………………………..……...…………. 97 5.3 งานวจยในอนาคต……………………………………...……………………… 99 บรรณานกรม…………………………………………………………………………...…… 101 ภาคผนวก………………………………………………………………….………………… 106 ก ………...................................................................................................................... 107 ข ………...................................................................................................................... 114 ประวตผเขยน.......................................................................................................................... 127

Page 9: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

สารบญตาราง ตารางท หนา 3.1 จ านวนขอมลชดทดสอบแฟม Diagnosis_opd.................................................... 60 3.2 โครงสรางแฟมขอมลมาตรฐานของตาราง Diagnosis_opd……………...…..… 61 3.3 ตวอยางชดขอมลจากตาราง Diagnosis_opd ทน าเขาทดสอบ…………..……… 65 4.1 การคดกรองคดเลอกขอมลชดทดสอบแฟม Diagnosis_opd.............................. 71 4.2 แบงการคดกรองชดทดสอบ 4 ชด เขาระบบฐานขอมลแฟม Diagnosis_opd..… 72 4.3 น าเขาขอมลชดทดสอบ 4 ชด แฟม Diagnosis_opd ...............................……… 73 4.4 ตวอยางขอมลในแฟมกลมโรค ขอมลจ านวน 2,136 ระเบยน.................……… 74 4.5 โครงสรางตารางแฟม 21 กลมโรค.........................................................……… 75 4.6 ผลการเปรยบเทยบ Database Engine ของฐานขอมลมายเอสควแอล................. 81 4.7 ผลการเปรยบเทยบบลอกไซคของฮาดปและแมพรดว........................................ 81 4.8 ผลของการคนคนแบบสอบถามขอมลดวยภาษาสอบถามเอสควแอล..........…... 82 4.9 ผลของการคนคนแบบสอบถามขอมล ดวยเทคนคแมพรดว…………................ 83 4.10 ผลการเปรยบเทยบผลรวมจากการประมวลผลเทคโนโลยขอมล 2 รปแบบ...... 83 4.11 สรปผลเปรยบเทยบความแมนย าถกตองจากการประมวลผล…..……...….….. 84 4.12 ผลการวเคราะห t-Test: Paired Two Sample for Means (5 แสนระเบยน)......... 85 4.13 ผลการวเคราะห t-Test: Paired Two Sample for Means (1 แสนระเบยน)......... 85 4.14 ผลการวเคราะห t-Test: Paired Two Sample for Means (5 ลานระเบยน)......... 86 4.15 ผลการวเคราะห t-Test: Paired Two Sample for Means (10 ลานระเบยน)........ 86 4.16 ตารางสรปผลเวลาเฉลยการประมวลผลเทคโนโลยขอมล 2 รปแบบ (วนาท)... 87

Page 10: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

สารบญภาพ ภาพท หนา 1.1 กราฟจ านวนผปวยนอกและผปวยในตามการจ าแนกกลมโรค พ.ศ.2551-2555... 2 2.1 แผนภาพการจดระดบบรการสขภาพ กระทรวงสาธารณสข……..……......…… 9 2.2 รปแบบการเชอมโยงขอมลน าเขาและสงออกขอมลคลงขอมลสขภาพ PROVIS 11 2.3 รปแบบการจดสงขอมลศนยขอมลสขภาพ (Health Data Center )……..…….... 13 2.4 สถาปตยกรรมกระบวนการสอบถามขอมลระบบฐานขอมล..........……..……... 17 2.5 กรอบการท างาน Hadoop Ecosystem……..……………………………….…... 18 2.6 กรอบการท างานของฮาดปท างานรวมกบแมพรดว...……..…………...………. 19 2.7 กรอบการท างานแมพรดว................................................................................... 20 3.1 กระบวนการระบบการสงขอมลบรการสขภาพ.................................................. 56 3.2 การก าหนดตวแปรทใชในการทดลอง................................................................. 58 3.3 ขนตอนและวธด าเนนการทดลอง........................................................................ 59 3.4 ขนตอนการคดกรองตรวจสอบขอมลชดทดสอบ................................................ 61 3.5 ภาพการแสดงขอมลชดตวอยางกอนคดกรองดวยโปรแกรม EmEditor.............. 62 3.6 ภาพการแสดงขอผดพลาดขอมลชดตวอยางดวยโปรแกรม EmEditor................ 63 3.7 ขนตอนการสมขอมลการทดสอบออกเปน 4 ชดขอมล....................................... 63 3.8 ขนตอนการประมวลผลและปรบปรงกระบวนการแบบสอบถามขอมล.............. 64 3.9 ขนตอนการประมวลผลดวยเทคโนโลยขอมลขนาดใหญ.................................... 66 3.10 ขนตอนการประมวลผลชดขอมลตวอยางดวยเทคนคแมพรดว......................... 67 3.11 รปแบบเครอขายคอมพวเตอรทใชในงานวจย................................................... 69 4.1 การเชอมโยงความสมพนธระหวางแฟมรหสกลมโรคและแฟมผปวยนอก......... 74 4.2 ขนตอนการ Join Data โปรแกรมแมพรดว…..................................................... 78 4.3 ขนตอนการ Counting และ Sorting Data โปรแกรมแมพรดว…........................ 79 4.4 ขนตอนการคนคนขอมลดวยโปรแกรมแมพรดว…............................................. 79 4.5 กราฟแสดงผลเปรยบเทยบการเปรยบเทยบเทคโนโลยขอมล 2 รปแบบ…......... 87 5.1 แนวทางทผวจยน าเสนอการประมวลผลแบบ ETL (Extract Transform Load)... 99

Page 11: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

บทท1 บทน า

1.1 ทมาและความส าคญของปญหา

กระทรวงสาธารณสข มหนาทรบผดชอบดแลสขภาพของประชาชน โดยการจดใหมระบบบรการสขภาพทครอบคลมทงการสงเสรมสขภาพ การปองกนโรค การรกษาพยาบาล และการฟนฟสภาพ มการจดระบบบรการสขภาพออกเปนหลายระดบไดแก บรการระดบปฐมภม (Primary Care) บรการระดบทตยภม (Secondary Care) และบรการระดบตตยภม (Tertiary Care) โดยมงหวงใหบรการแตละระดบมบทบาทหนาททแตกตางกน และเชอมโยงกนดวยระบบสงตอ เพอใหสามารถจดบรการสขภาพทมคณภาพ และเกดการใชทรพยากรทมอยจ ากดอยางมประสทธภาพ ตลอดจนเปนระบบบรการสขภาพทมศกยภาพรองรบปญหาทางการแพทยและสาธารณสขทมความซบซอนในระดบพนทได (ส านกบรหารการสาธารณสข [สบรส.], 2555, น. 1) โดยมกรอบแนวคด “เครอขายบรการทไรรอยตอ” ทสามารถเชอมโยงบรการทง 3 ระดบเขาดวยกน และมนโยบายใหด าเนนการจดเกบรวบรวมขอมลการใหบรการสาธารณสขและการแพทยเขาไวดวยกน มการด าเนนการจดท าระบบคลงขอมลดานการแพทยและสขภาพ (Health Data Center : HDC) ใชแฟมโครงสรางมาตรฐานในการจดเกบ 43 และ 7 แฟมมาตรฐาน เพอน าขอมลการมารบบรการสาธารณสขรวบรวมจากทกหนวยบรการสาธารณสขในระดบจงหวด เขาสศนยขอมลระดบจงหวด และด าเนนการประมวลผลเขาสระดบเขต และระดบกระทรวงอยางเปนล าดบ มเปาหมายใหใชงานไดครอบคลมทง 76 จงหวด ภายในป พ.ศ.2558

ส านกงานสถตแหงชาตไดรายงานสถตจ านวนผปวยใน(In Patient Department : IPD) และจ านวนผปวยนอก(Out Patient Department : OPD) จ าแนกตามกลมสาเหตการเจบปวย จากสถานบรการสาธารณสข ของกระทรวงสาธารณสขทวประเทศ ตงแตป พ.ศ.2551ถง พ.ศ.2555 จากรายงานเหนไดวามแนวโนมการเพมขนของขอมลผปวยใน และขอมลผปวยนอกทกๆ ปและเมอสถานพยาบาลในประเทศไทยทกสถานพยาบาล ทกระดบตงแตระดบปฐมภม ทตยภม และตตยภมตองจดสงขอมลเวชระเบยนผปวยทมการตรวจสอบคณภาพขอมลเรยบรอยแลวน าเขาสระบบคลงขอมลดานการแพทยและสขภาพ มวตถประสงคเพอการประมวลผลจดท ารายงานและการวเคราะห เชน รายงานขอมลทรพยากรสาธารณสข รายงานจ านวนผปวย รายงานการก าเนดและการ

Page 12: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

2

เสยชวตทวประเทศเปนประจ าทกๆ เดอน หรอรายงานการปวย เปนขอมลทแสดงความชกของโรคตางๆ ทมผมารบบรการรกษาพยาบาลในสถานบรการทกระดบ ในการรวบรวมขอมลการปวยจากระบบรายงานจากฐานขอมลผปวยรายบคคลมาประมวลผลและวเคราะหขอมลเปนประจ าทกป เรมปรบเปลยนจากระบบแบบรายงานเดม รายงานผปวยนอก ตามกลมสาเหต 21 กลมโรค (รง.504) และรายงานผปวยในรายโรค ตามกลมสาเหต 75 กลมโรค (รง.505) ตงแตป 2556 (ส านกนโยบายและยทธศาสตร ส านกงานปลดกระทรวงสาธารณสข [สนย.สป.สธ.], 2556, น. 1-3) เพอน ามาจดท าเปนเครองชวดทางสขภาพ (Health Indicators) ท าใหเกดขอมลเปนจ านวนมากในฐานขอมลและสงผลตอการประมวลผลขอมล (Data Processing) ในการใชเวลาการค านวณและพนทจดเกบขอมล (Storage) ทตองการเพมขน

จากจ านวนขอมลผปวยในรายงานส านกงานสถตแหงชาต หากอนมานวาขอมลผปวย 1 ราย มการบนทกขอมลลงฐานขอมลหนงระเบยน (Record) หรอเทากบ 1 กโลไบต (KB) ยกตวอยางขอมลในป พ.ศ.2555 มจ านวนผปวยนอกและผปวยในรวมทงสน 195,045,075 ราย จะมขนาดของขอมลโดยประมาณเทากบ 186 กกะไบต (GB)

ภาพท 1.1 กราฟจ านวนผปวยนอกและผปวยในตามการจ าแนกกลมโรค ป พ.ศ.2551-2555 ทมา: ส านกงานสถตแหงชาต [online] : เขาถง 28 ต.ค. 2558. จาก http://service.nso.go.th/nso/web/statseries/statseries09.html

Page 13: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

3

ดงน นเ มอน าขอมลการมารบบรการสาธารณสขรวบรวมจากทกหนวยบรการสาธารณสข เขาจดเกบไวในเซรฟเวอร (Server) ในแตละเดอนมขอมลเพมขนและขนาดใหญขน การประมวลผลขอมลจ าเปนตองใชทรพยากรรองรบการประมวลผลขอมล เชนอปกรณจดเกบขอมล (Storage) และหนวยประมวลผลกลาง (Central Processing Unit : CPU) และหนวยความจ าหลก (RAM) เพอน ามารองรบในการประมวลผลขอมลจ านวนมากเมอตองด าเนนการท ารายงานทางสถตและดชนชวดใหแลวเสรจทนเวลาและทนตอความตองการกอใหเกดคาใชจายทตองจดหาเซรฟเวอรทมประสทธภาพในการประมวลผลสง การประมวลผลในระบบนเรยกวาการประมวลผลแบบรวมศนย (Centralized Computing)

เมอขอมลถกรวบรวมจดเกบในคลงขอมลดานการแพทยและสขภาพในแตละปเปนจ านวนหลายเทราไบต (TB) จะเกดเปนขอมลมหาศาลหรอเรยกอกชอวาขอมลขนาดใหญ (Big Data) หากตองการน ามาประมวลผลเปรยบเทยบทางสถต งานเวชสถต งานวเคราะหทางการแพทยโดยใชหลกการทางคณตศาสตร หรอท าดชนชวด ปญหาส าคญคอ เวลาทใชการประมวลผลในแตละงาน (Batch Processing) จะตองใชเวลานานอยางหลกเลยงไมได จ าเปนตองหาแนวทางใหมน ามาใชจดการกบฐานขอมลขนาดใหญนโดยเฉพาะ 1.2 วตถประสงคของการวจย 1. เพอศกษาแนวทางทเหมาะสมในการจดเกบและวเคราะหขอมลการเจบปวยทรวบรวมขอมลการใหบรการสขภาพโดยกระทรวงสาธารณสข ดวยสถาปตยกรรมขอมลขนาดใหญ 2. เพอศกษาทฤษฏการท างานของอลกอรทมคนคนขอมลบนเทคโนโลยขอมลขนาดใหญและน ามาประยกตใชในการจดท าสถตขอมลการเจบปวย 3. เปรยบเทยบประสทธภาพดานเวลาและความแมนย าถกตองในการคนคนขอมลบนระบบเทคโนโลยขอมลขนาดใหญกบเทคโนโลยระบบฐานขอมลเชงสมพนธ

1.3 สมมตฐานของการวจย 1. ผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยระบบขอมลขนาดใหญกบเทคโนโลยระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน 2. ผลลพธของความแมนย าถกตองการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยระบบขอมลขนาดใหญกบเทคโนโลยระบบฐานขอมลเชงสมพนธ มผลลพธไมแตกตางกน

Page 14: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

4

1.4 ประโยชนทคาดวาจะไดรบ 1. ไดแนวทางทเหมาะสมในการจดเกบและวเคราะหขอมลการเจบปวยทมการรวบรวมขอมลการใหบรการสขภาพโดยกระทรวงสาธารณสข ดวยสถาปตยกรรมขอมลขนาดใหญ 2. สามารถน าทฤษฏกรอบการท างานของระบบขอมลขนาดใหญใชก าหนดเทคนคและจ าลองรปแบบค าหรอประโยคการคนคนขอมลเพอใหไดผลลพธทถกตองและแมนย าได 3. สามารถน าทฤษฏกรอบการท างานของระบบขอมลขนาดใหญใชการคนคนขอมลเพอจดท าสถตขอมลการเจบปวยไดอยางมประสทธภาพและประสทธผล 4. สามารถน าประสทธภาพของเวลาและความเรวทใชในการประมวลผลมาวเคราะห เพอหาเกณฑการประเมนความคมคาของคาใชจายในการประมวลผลสอบถามและการใชทรพยากรได

1.5 ขอบเขตของการวจย

1. ศกษาโครงสรางระบบสขภาพของกระทรวงสาธารณสขแหงประเทศไทยเพอใชในการวางแนวทางงานวทยานพนธ 2. ศกษาเครองมอและกรอบการท างานในเทคโนโลยระบบขอมลขนาดใหญเพอใชในการน าเขาขอมลจดเกบขอมลการประมวลผลขอมลและการแสดงรายงานขอมลการเจบปวย 3. ศกษาเครองมอและกรอบการท างานในเทคโนโลยระบบขอมลขนาดใหญเพอใชก าหนดเทคนคและจ าลองรปแบบค าหรอประโยคการคนคนขอมลเพอใหไดผลลพธทถกตองและแมนย า 4. ศกษาเครองมอในเทคโนโลยระบบขอมลขนาดใหญเพอใชการวเคราะหขอมลและจดท าสถตการเจบปวยดวยขอมลบรการสขภาพ 5. ศกษากระบวนการปรบปรงประสทธภาพการคนคนขอมลและประเมนความคมคาของการใชทรพยากร เพอปรบปรงรปแบบการคนคนใหไดผลลพธของเวลาทดทสด 6. จดเกบขอมลเวลาและความแมนย าถกตองในการคนคนขอมลระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธเพอเปรยบเทยบและน าผลทดลองมาวเคราะหเชงสถต

1.6 นยามศพท

ผปวยใน (In Patient Department : IPD) หมายถง ผปวยทลงทะเบยนเขารบการรกษาตวในโรงพยาบาลหรอสถานพยาล โดยไดรบการวนจฉยและค าแนะน าจากแพทยตองนอนพกรกษาตวในโรงพยาบาลตงแต 6 ชวโมงขนไป

Page 15: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

5

ผปวยนอก (Out Patient Department : OPD) หมายถง ผปวยทลงทะเบยนเขารบการรกษาทโรงพยาบาลหรอสถานพยาบาล โดยไมตองนอนพกรกษาตวในโรงพยาบาลผปวยสามารถกลบบานไดในวนทเขารบการรกษา

เวชสถต (Medical Statistics) หมายถง สถตทางการแพทย เปนการเกบรวบรวมขอมลทางการแพทยเพอการน าเสนอขอมลทางการแพทย น ามาใชในงานวเคราะหทางการแพทยโดยใชหลกการทางคณตศาสตร สถต และน าผลการวเคราะหขอมลมาสรปเพอน าไปใชในการจดท ารายงานทางการแพทย เพอการพฒนา และการศกษาวจยทางการแพทย

ระบบสขภาพ (Health System) หมายถง ระบบทมงหวงใหประชาชนมสขภาวะกายและจตทด ผานกระบวนการสรางเสรมสขภาพ ปองกนโรค รกษาโรค ฟนฟการท างานของรางกาย และกระบวนการสรางความแขงแกรงและความพรอมของสาธารณสขในการรบมอโรคตดตอ โรคไมตดตอ และภยพบต นอกเหนอการตอบสนองความคาดหวงของประชาชนแลว ระบบสขภาพทดควรเหนคณคาและศกดศรในความเปนมนษยของทกคน ยดมนในหลกศลธรรม คณธรรม จรยธรรมในการด าเนนการ และใหความเทาเทยมดานสทธประโยชนแกประชาชนทกกลมอยางเหมาะสม ระบบสขภาพทสมบรณจงมประชาชนเปนศนยกลาง แวดลอมดวยกจกรรมทมงสงเสรม ฟนฟ และธ ารงสขภาพของประชาชน

ระบบบรการสขภาพ (Health Care System) หมายถง ระบบบรการสขภาพเปนสวนหนงของระบบสขภาพ เปนระบบบรการตางๆ ทจดขนเพอเปนการดแลสขภาพของประชาชนทงทางดานการสรางเสรมสขภาพ การควบคมปองกนโรค การรกษาพยาบาล และการฟนฟสมรรถภาพ ทเปนแบบผสมผสานหรอเฉพาะดาน เฉพาะเรอง เปาประสงคของระบบบรการสขภาพทดคอ ความเปนธรรมในการรวมจายคาบรการสขภาพ การใหบรการสขภาพเพอสงมอบการบรการเพอสงเสรมสขภาพ, การใหบรการในลกษณะสาธารณสขมลฐาน, การใหบรการผปวยซ าซอน, การใหบรการสขภาพเพอครอบครว, การใหบรการระบบสงตอ, การใหบรการเฉพาะกลมประชากร ทงนหากเปนสวนทรฐจดขน สนบสนนใหจดขน หรออยภายใตการควบคมก ากบของรฐ เพอประชาชนโดยทวไป ในอดตจะเรยกในสวนนวา บรการสาธารณสข

ขอมลบรการสขภาพ (Health Care Data) หมายถง ขอมลทไดจากการส ารวจสขภาพ, ขอมลทะเบยนสถตชพ, ขอมลการเฝาระวงโรคและการบาดเจบ, ขอมลทะเบยนโรค, ขอมลบรการสขภาพจากสถานพยาบาล, แบบบนทกการรกษาทางการแพทยของผปวย, ขอมลเพอใชรวบรวมน ามาวเคราะหน าไปใชเพอการบรหารคาใชจายและทรพยากรเพอใชในการดแลสขภาพของประชาชนหรอจะกลาวสนๆ ไดวา ขอมลทเกยวของกบการเจบปวยทถกจดเกบไวอยางเปนระบบ

Page 16: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

6

และระเบยบขนตอนแบบแผนในการรวบรวมและจดเกบ และมการตรวจสอบคณภาพขอมลอยางมระบบเปนขนตอนกอนน าเขาระบบคลงขอมลสขภาพ

ฐานขอมลเชงสมพนธ (Relational Database) หมายถง ขอมลทถกจดเกบขอมลในรปของตาราง (Table) หลายๆ ตารางทมความสมพนธกน ในแตละตารางแบงออกเปนแถว และในแตละแถวจะแบงออกเปนคอลมน (Column) ในทางทฤษฏใชแบบจ าลองโมเดลเชงสมพนธ (Relational Database Model) โดยใชหลกพนฐานทางคณตศาสตร

ขอมลขนาดใหญ (Big Data) หมายถง ปรมาณของจ านวนขอมลทมมหาศาล ทงขอมลทมโครงสรางและไมมโครงสรางทเกดจากขอมลการปฏบตงานทกๆ วนของธรกจ ขอมลขนาดใหญมคณลกษณะ 3 ประการ คอ 1.ปรมาณ (Volume) ขอมลทรวบรวมจากแหลงขอมลหลากหลายแหลงและหลากหลายประเภท 2.หลากหลาย (Variety) ขอมลมลกษณะรปแบบของขอมลทแตกตางกน 3.รวดเรว (Velocity) ขอมลเกดขนไดตลอดเวลาและสามารถรวบรวมขอมลไดอยางทนท งานวทยานพนธนหมายถงขอมลบรการสขภาพทมการจดเกบขอมลแบบเชงสมพนธอยางมโครงสราง

ระบบสอบถามคนคนขอมลคอ กระบวนการดงหรอคนหาขอมลยอนหลงจากทมการจดเกบไว ซงอาจจะหมายถงการจดเกบแบบทมโครงสรางหรอไมมโครงสรางหรอกงโครงสราง เพอน าออกเปนสารสนเทศตามความตองการของผใช

Page 17: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

บทท 2 ทฤษฎ และผลงานวจยทเกยวของ

งานวทยานพนธฉบบนน าเสนอแนวคดการเปรยบเทยบประสทธภาพของเวลาในการคนคนขอมลดวยภาษาสอบถามเชงโครงสรางและผลลพธความถกตองในการประมวลผลขอมล ระหวางเทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) กบระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) ซงมการใชทฤษฏทเกยวของ 6 ทฤษฏดงน

ก. ทฤษฏฐานขอมลและการจดการฐานขอมลแบบเชงสมพนธ ข. ทฤษฏการคนคนดวยภาษาสอบถามเชงโครงสรางเอสควแอล ค. ทฤษฏกระบวนการสอบถามขอมล ง. ทฤษฏระบบจดเกบแบบกระจายขอมลบนกรอบการท างานฮาดป จ. ทฤษฏระบบการประมวลผลแบบขนานดวยเทคนคแมพรดว ฉ. ทฤษฎการวเคราะหขอมลและสถตการวเคราะหขอมล

2.1 ทฤษฏทเกยวของ

ผวจยมแนวทางการเขยนงานทฤษฏทเกยวของโดยการน าวตถประสงคและขอบเขตของงานวจยเปนหวขอหลกเพอทบทวนวรรณกรรม ผวจยขอน าเสนอเปนหวขอดงน

2.1.1 การทบทวนวรรณกรรมระบบสขภาพของกระทรวงสาธารณสขแหงประเทศไทย การทบทวนวรรณกรรมระบบบรการสขภาพจะท าใหผจดท าวจยฉบบนเขาใจและรจก

กบวงการสาธารณสขแหงประเทศไทยใหดยงขน ดวยการศกษาโครงสรางระบบสขภาพของกระทรวงสาธารณสขของประเทศไทย โดยการศกษาคนควากบเอกสารงานวจย เอกสารงานวชาการ และแผนนโยบายของกระทรวงสาธารณสข และบทความตางๆ ของหนวยงานทเกยวของกบกระทรวงสาธารณสข ท าความเขาใจเรองราวในวงการสาธารณสขของประเทศไทยในปจจบน อกทงยงศกษาแนวทางในการจดเกบและวเคราะหขอมลการเจบปวยทไดมการรวบรวมขอมลการใหบรการสขภาพและการคนควาขอมลน ามากลนกรองประเดนปญหาดวยแนวทางการคดเชงวเคราะห ผเชยวชาญดานการคดเชงวเคราะหกลาวไววา หลกการคดเชงวเคราะหโดยพนฐานเกยวของกบการจ าแนกแจกแจงขอมลออกเปนสวนๆ ตรวจสอบอยางละเอยด หาความสมพนธเชง

Page 18: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

8

เหตผล เพอท าความเขาใจ กอนทจะประเมนและตดสนใจเกยวกบเรองนน เราตองเรยนรทจะมองสงนน “ตามเนอผา” หรอ “มองสงทเหนใหเปนเชนทมนเปนอย” เพอใหรวาเรองนนเกยวกบอะไร ไมดวนสรปหรอดวนแสดงทศนะใดๆ เกยวกบเรองนน เปนการแสดงความปรารถนาสบสาวเรองนนในระดบลกลงกวาเดม โดยพยายามท าความเขาใจ หาทมาทไปเกยวกบเรองนน เชอมโยงความสมพนธเชงเหตผล เพอใหรขอเทจจรงกอนทจะด าเนนการใดๆ ลงไป (เกรยงศกด เจรญวงศศกด, 2553, น. 74-75) การคดเชงวเคราะหจะน ามาใชศกษาทบทวนงานวรรณกรรมระบบสขภาพเพอคนหาปญหาของกระทรวงสาธารณสข สามารถสรปความเปนมาในสงทเกดขน ตงแตกอนเรมระบบบรการสขภาพและหลงเรมระบบบรการสขภาพ ไดพอสงเขปดงตอไปน

กอนเรมระบบบรการสขภาพ ประเทศไทยเรมมการพฒนารหสกลมโรคเพอใหการบนทกขอมลเปนไปตามมาตรฐานและหลกการสากลโลกขององคการอนามยโลก (Word Health Organization หรอ WHO) ในป พ.ศ.2543 โดยเรมจากส านกนโยบายและยทธศาสตร ส านกงานปลดกระทรวงสาธารณสข เรมพฒนาบญชจ าแนกโรคฉบบประเทศไทย ฉบบท 1 เพอใชเปนแนวทางในการใหรหสกลมโรค ท าใหการบนทกขอมลผปวยทเขารบบรการในสถานพยาบาลในสงกดกระทรวงสาธารณสขมมาตรฐานเปนไปในแนวทางเดยวกนมวตถประสงคเพอน าขอมลการวนจฉยทางการแพทยแปรเปลยนมาเปนสารสนเทศ ส าหรบน ามาวเคราะหและวางแผนทางดานงานสาธารณสข ดแลสขภาพของประชากรชาวไทย อกทงในเรองการจดสรรทรพยากรทงทางดานบคลากรและงบประมาณใหเหมาะสมและเพยงพอ ถกตองตรงตอความตองการในแตละสวนงานและหรอหนวยงานทเกยวของดานสาธารณสข กอใหเกดการพฒนาระบบสาธารณสขของประเทศไทยอยางย งยนซงมการพฒนามการด าเนนการจดท าและปรบปรง (Revision) รหสมาแลวหลายครงหลายฉบบ อยางตอเนองจนถง พ.ศ.2559 เปนฉบบทบทวนและปรบปรงใหมป พ.ศ.2557

ในป พ.ศ. 2544 แพทยสภาไดมการประกาศใชคมอคาธรรมเนยมแพทย เปนแนวทาง แตมใชเปนการบงคบอยางมบทลงโทษ ซงถอวาเปนการใชรหส ICD-10-TM สวนหตถการและการผาตดอยางเปนทางการครงแรก และในระยะเวลาตอมาไดมโรงพยาบาลภาครฐและเอกชนบางสวนใชรหส ICD-10-TM ในกรณทตองการเกบขอมลการผาตดและหตถการทมรายละเอยดมากกวา ICD-9-CM และไดเรมมการประกาศใชรหส ICD-10-TM for PCU Procedures ทวประเทศไทยเปนครงแรกในเดอนพฤษภาคม 2553 (ส านกนโยบายและยทธศาสตร ส านกงานปลดกระทรวงสาธารณสข [สนย.สป.สธ.], 2553, น. 1)

กระทรวงสาธารณสข ไดออกแผนพฒนาระบบบรการสาธารณสขในสวนภมภาค พ.ศ.2554 เพอจดใหมระบบบรการสขภาพทครอบคลมทงการสงเสรมสขภาพ การปองกนโรค การรกษาพยาบาล และการฟนฟสภาพ มการจดระบบบรการสขภาพออกเปน 3 ระดบ ไดแก บรการ

Page 19: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

9

ระดบปฐมภม (Primary Care) บรการระดบทตยภม (Secondary Care) และบรการระดบตตยภม (Tertiary Care) โดยมงหวงใหบรการแตละระดบมบทบาทหนาททแตกตางกน และเชอมโยงกนดวยระบบสงตอ เพอใหสามารถจดบรการสขภาพทมคณภาพ โดยมกรอบแนวคด “เครอขายบรการทไรรอยตอ” ทสามารถเชอมโยงบรการทง 3 ระดบเขาดวยกนตงแตระดบปฐมภม ทตยภม และตตยภม ในแตละจงหวดจะตองมเครอขายบรการระดบจงหวดทสามารถรองรบการสงตอตามมาตรฐานระดบจงหวดไดอยางสมบรณ และใหส านกงานสาธารณสขจงหวดเปนผรบผดชอบการตงศนยการแพทยชมชนเมองและเปนศนยกลางประสานงานแมขายระดบปฐมภม

ภาพท 2.1 แผนภาพการจดระดบบรการสขภาพ กระทรวงสาธารณสข ทมา: ศนยมาตรฐานรหสและขอมลสขภาพแหงชาต [online] : เขาถง 28 ต.ค. 2558. จาก http://www.thcc.or.th/

หลงเรมระบบบรการสขภาพ กระทรวงสาธารณสขไดมการประกาศนโยบายตงแตป พ.ศ.2555 ใหด าเนนการจดเกบรวบรวมขอมลการใหบรการสาธารณสขและการแพทยเขาไวดวยกน โดยก าหนดใหมการด าเนนการจดท าระบบคลงขอมลดานการแพทยและสขภาพ โดยใชแฟมโครงสรางมาตรฐานในการจดเกบ 43 และ 17 แฟมมาตรฐาน เพอน าขอมลการมารบบรการ

Page 20: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

10

สาธารณสขรวบรวมจากทกหนวยบรการสาธารณสขในระดบจงหวด เขาสศนยขอมลระดบจงหวด และด าเนนการประมวลผลเขาสระดบเขต และระดบกระทรวง เพอรวบขอมลเขาไวดวยกนเปนศนยขอมลคลงสขภาพ (Health Data Center) หรอศนยขอมลขาวสารและสารสนเทศสขภาพ กระทรวงสาธารณสข โดยมเปาหมายใหมการใชงานไดครอบคลมทง 76 จงหวด ภายในป พ.ศ.2558 มแบบแผนการทดลอง (Pilot Test) ใชในสถานพยาบาลบางแหงกอนปรบเปลยนรปแบบการใชงานทวประเทศ ผวจยด าเนนการศกษาคนควาหาขอมลจากเนอหาขาวสารในเวบไซตทเกยวของกบระบบสขภาพบนอนเตอรเนท ท าใหทราบวางานเขยนหรอวรรณกรรมทเกยวของดานเนอหาระบบขอมลสขภาพมาจากหนวยงานในระบบสขภาพ เชน หนวยงานโรงพยาบาล สถานพยาบาลของกระทรวงสาธารณสข หนวยงานวชาการภายในของกระทรวงสาธารณสข และรวมถงนกศกษาสาขางานสาธารณสขและการแพทย โดยขอแบงชวงเวลาออกเปน 2 ชวงเวลา จากการประกาศใชงานโปรแกรมจดเกบขอมลสวนกลาง (Data Center) เปนหลก

ชวงเวลาท 1) พ.ศ.2555-2558 มการกลาวถงการเกบขอมลสขภาพในระบบแฟมขอมล 43 แฟม และ 17 แฟมมาตรฐาน ดวยโปรแกรมฐานขอมล (PROVIS) ใหเปนศนยกลางของขอมลระดบปฐมภม เปนระบบฐานขอมลสาธารณสขจงหวด อกทงยงมโปรแกรมระบบงานโรงพยาบาลสงเสรมสขภาพต าบลและศนยสขภาพชมชน (JHCIS) ทใชรวบรวบขอมลระดบทตยภม และตตยภม และสงตอขอมลเขาสระดบปฐมภมหรอจะกลาวไดวาจาก JHCIS รวบรวมเขาส PROVIS เรมมการใชงานโปรแกรมอยางแพรหลายเมอผ วจยไดสบคนขอมลเพมเตมเพอตองการทราบวาฐานขอมลเหลานนมการจดการดวยโปรแกรมฐานขอมลใด เปนโปรแกรมทรวบรวมขอมลและสงตอขอมลใหกบหนวยงานในระดบเขต และระดบกระทรวง พบวาโปรแกรม PROVIS และ JHCIS ใชโปรแกรมฐานขอมลโอเพนซอรสมายเอสควแอล (MySQL) และจดเกบฐานขอมลแบบเชงสมพนธ (Relational Database) ซงไดรบการสนบสนนการเขยนโปรแกรมจากศนยเทคโนโลยสารสนเทศและการสอสาร ส านกงานปลดกระทรวงสาธารณสขและศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (เนคเทค) ทมวตถประสงคเพอใหใชงานไดครอบคลมขอมลของโรงพยาบาลทงหมดอยางเปนระบบ สะดวกรวดเรว และมประสทธภาพตอบสนองตอการจดท ารายงานตางๆ ทงในระดบเขตระดบกระทรวง และเพอใหไดสารสนเทศตรงตามความตองการ โดยสามารถใชงานไดหลายระบบปฏบตการ (Operating System) และถกออกแบบพฒนาโปรแกรมใหสามารถแลกเปลยนขอมลระหวางโรงพยาบาลผานอนเตอรเนตโดยใชระบบการจดการฐานขอมลเชงสมพนธ (RDBMS) และพฒนาดวยโปรแกรมภาษาจาวา (Java)

Page 21: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

11

ภาพท 2.2 รปแบบการเชอมโยงขอมลน าเขาและสงออกขอมลคลงขอมลสขภาพ PROVIS ทมา: ส านกงานปลดกระทรวงสาธารณสข [online] : เขาถง 8 พ.ย. 2558. จาก http://slideplayer.in.th/slide/2216621/

ชวงเวลาท 2) พ.ศ.2558-2559 กระทรวงสาธารณสขมการพฒนาระบบบรการสขภาพหรอระบบขอมลสขภาพอยางตอเนองจนครบทกสถานพยาบาลในสงกดกระทรวงสาธารณสขมการปรบเปลยนโครงสรางการเกบขอมลสขภาพในระบบแฟมขอมล 43 แฟม และ 7 แฟมมาตรฐานหรอ 50 แฟมมาตรฐาน กระทรวงสาธารณสขมนโยบายการปรบเปลยนโครงสรางของระบบฐานขอมล เพอใหบคลากรมเวลาในการดแลใหบรการผปวยเพมขน และลดภาระการคยขอมลของหนวยงานในระดบปฐมภมลงเพอใหเกดประสทธภาพในการบรหารจดการขอมลแตยงคงไวซงขอมลทสามารถน ามาใชบรหารงานนโยบายและสามารถก าหนดกลยทธหรอยทธศาสตรในการบรหารจดการ

ขอมลในกระทรวงสาธารณสขมหลากหลายรปแบบและมาจากหลากหลายแหง สารสนเทศคอการประมวลผลขอมล ขอมลและสารสนเทศมความส าคญมากในการบรหารงานทกระดบ แตขอมลและสารสนเทศจะมการเปลยนแปลงอยตลอดเวลาการเปลยนแปลงของสภาวะสงคมและโลก ซงการเปลยนแปลงทเกดขนมผลกระทบตอสขภาพของประชาชนสงคมโลก ประเทศไทย และภายในกระทรวงสาธารณสข ซงรบผดชอบดแลสขภาพของประชาชนชาวไทย การประยกตใชขอมลขาวสารสนเทศเชงกลยทธจะมความส าคญอยางยงตอการเปลยนแปลงองคกร

Page 22: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

12

ผบรหารระดบสง และการวางแผนเชงกลยทธซงจะแตกตางกบการวางแผนปฏบตการตามปกต การประยกตใชขอมลสารสนเทศเชงกลยทธในระบบงานสาธารณสข จะด าเนนการไดอยางชดเจนในงาน 3 ดาน คอ ดานการบรหาร ดานวชาการ และดานบรการ ซงจะสอดคลองกบการด าเนนงานในระบบงานสาธารณสข (เมธ จนทจารภรณ, 2555, น. 2) จะเหนไดวาตามแนวคดของทานเมธสารสนเทศเปนสวนส าคญทจะท าใหผบรหารระดบสงกระทรวงสาธารณสขตดสนใจไดถกตอง หากมสารสนเทศทสามารถใชไดทนตามความตองการ ถกตองและทนสมย

ผนวกกบแนวคดทเหนวาขอมลทน ามากลนกรองใหผบรหารจะตองมคณภาพดวย สารสนเทศเปนทรพยากรส าคญทตองมการบรหารจดการใหเกดประโยชนอยางคมคา สวนของการเกบรวบรวมขอมล การรกษาคณภาพขอมล การวเคราะหขอมล หรอการท าใหผบรหารมความเขาใจ รจกใชระบบและสารสนเทศใหเปนประโยชนอยางเตมท ยงนบไดวานอยกวามากโดยเปรยบเทยบการลงทนในสวนของระบบคอมพวเตอรและการสอสารยงมไดถกจดการใหเกดประโยชนอยางคมคาหรอเตมศกยภาพ นอกจากจะพจารณาความตองการเกยวกบระบบสารสนเทศของผบรหารหรอผใชแลว ยงมความจ าเปนทจะพจารณาเรองของขอมลในระบบสารสนเทศวามทมาอยางไร หากระบบสารสนเทศไมมขอมลทจ าเปนตองใชเกบอยในฐานขอมลแลว ระบบยอมไมสามารถสรางสารสนเทศไดทนเวลาตามความตองการ อกทงยงตองค านงถงคณภาพของขอมลซงจะมผลกระทบโดยตรงตอคณภาพของสารสนเทศทสรางขนจากขอมลนน รวมทงการวเคราะหขอมลเพอสรางเปนสารสนเทศดวย (สชาดา กระนนทน, 2544, น. 94)

ในระบบบรการสขภาพกระทรวงสาธารณสขมนโยบายใหจดท าขอมลบรการสขภาพใหเปนทเชอถอได ในการจะน ามากลนกรองเปนระบบสารสนเทศโดยมขนตอนการผานกระบวนการตรวจสอบคณภาพตามหลกและวธการของกระทรวงสาธารณสข การตรวจสอบคณภาพขอมลผปวย เปนเรองทควรด าเนนการโดยสม าเสมอเปนระยะ เชน ด าเนนการทก 3-4 เดอน ปละ 3-4 ครง เพอวดคณภาพขอมล ใหรสถานการณทเปนปญหาอนท าใหเกดขอมลคณภาพต า เพอหาหนทางแกไขปญหา เพอใหขอมลมคณภาพดขนและพฒนาใหดขนอยางตอเนอง สมทบกบผเชยวชาญดานขอมลระบบสขภาพกลาววา ความส าคญของคณภาพขอมลในระบบบรการสขภาพ ขอมลในระบบบรการสขภาพสามารถใชประโยชนไดมากมาย โดยเกดประโยชนตอ ประชาชน สถานพยาบาล และกระทรวงสาธารณสข จงถอวาขอมลมความส าคญอยางยง หากขอมลนมคณภาพต า เชน มขอมลไมครบถวน หรอมขอมลทผดพลาดจ านวนมาก กจะไมสามารถน าไปใชประโยชนไดตามทควรจะเปน ผทเกยวของทกระดบตองเขาใจความส าคญและมหนาทบนทกขอมลใหมคณภาพ มระบบตรวจสอบคณภาพขอมล และมกลไกควบคมคณภาพขอมลใหมคณภาพสงสดลกษณะของขอมลคณภาพด ขอมลคณภาพดมลกษณะทส าคญ 4 ลกษณะดงน

Page 23: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

13

1. ครบถวน มขอมลการใหบรการทกราย มขอมลทกดานทจ าเปน 2. ถกตอง ไมมขอผดพลาด เชอถอได 3. ละเอยด ไมก ากวม ชดเจน แยกแยะประเภทตางๆ ได 4. ทนสมย เปนขอมลปจจบน สงมาภายในเวลาทก าหนด

การจดการใหขอมลมคณภาพด เปนหนาทของทมงานทก ากบดแลระบบขอมล โดยตองมกระบวนการตรวจสอบคณภาพขอมลอยางสม าเสมอเปนระยะปละ 2-4 ครง โดยถาตรวจพบวาขอมลมปญหาดานคณภาพ กตองมกจกรรมแกไขและพฒนาคณภาพใหดขนอยางตอเนอง และหากมขอมลคณภาพดแลว กตองมระบบควบคมคณภาพใหดอยางตอเนอง (ศนยมาตรฐานรหสและขอมลสขภาพแหงชาต [ศมสท.], 2558, น. 6)

ภาพท 2.3 รปแบบการจดสงขอมลศนยขอมลสขภาพ (Health Data Center )

ทมา: โรงพยาบาลสงเสรมสขภาพต าบลบานชวน [online] : เขาถง 10 พ.ย. 2558. จาก http://bn210.blogspot.com/2014/10/2558.html

กระทรวงสาธารณสขเรมมการปรบเปลยนระบบโปรแกรมฐานขอมล PROVIS เปนระบบโปรแกรมศนยขอมลคลงสขภาพ (Health Data Center) บนระบบคลาวนหรอ HDC On Cloud เปนการพฒนาอยางตอเนอง เพอการรวบรวมขอมลทไดจากระดบจงหวด และระดบเขต จากนนเขาสระดบกระทรวง ท าใหสามารถด าเนนการประมวลผลออกเปนดชนชวด และรายงานทจ าเปนได

Page 24: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

14

แบบทนททตองการ ผวจยไดท าการศกษาพบวาระบบดงกลาวยงคงใชฐานขอมลมายเอสควแอลเหมอนเชนเดม และขอมลการบรการสขภาพมการประมวลผลบนเซรฟเวอรประจ าตามก าหนดเวลาทผดแลระบบศนยขอมลสวนกลางเปนผด าเนนการ

ในป พ.ศ.2559 ศนยเทคโนโลยสารสนเทศและการสอสาร กระทรวงสาธารณสข มโครงการเพอพฒนาระบบเทคโนโลยสารสนเทศและการสอสาร ตามกรอบยทธศาสตรเทคโนโลยสารสนเทศสขภาพ มกลยทธการพฒนาคลงขอมลสขภาพ ก าหนดรปแบบการบรหารจดการคลงขอมลระบบบรการสขภาพในระบบขอมลขนาดใหญ (Big Data Management in Healthcare System) เพอใหมความเหมาะสมในการใชงานใหกบหนวยงานแตละระดบ (ศนยเทคโนโลยสารสนเทศและการสอสาร ส านกงานปลดกระทรวงสาธารณสข [ศทส.สป.สธ.], 2559, น. 58)

2.1.2 ทฤษฏฐานขอมลและการจดการฐานขอมลแบบเชงสมพนธ โอภาส เอยมสรวงศ (2558, น. 37-40) กลาววาในลกษณะของการจดการขอมล

(Database Management) เกดจากการรวบรวมจดเกบขอมลหรอเอกสารตางๆ ทรวบรวมไวในแฟมเอกสาร และน าไปจดเกบไวในตเกบเอกสาร ซงในปจจบนสามารถรวบรวมจดเกบไวในฐานขอมล จากขอจ ากดของระบบเอกสาร เชน ปญหาดานความซ าซอนของขอมล ความไมยดหยน และความไมคลองตวในหลายๆ ดาน จงเกดเทคโนโลยฐานขอมล

ฐานขอมล (Database) คอ การจดเกบขอมลอยางมระบบ ซงผใชสามารถเรยกใชขอมลในลกษณะตางๆ ได เชน การเพมเตมขอมล การเรยกดขอมล การแกไขหรอลบขอมล เปนตน โดยทวไปการจดเกบขอมลจะมการน าระบบคอมพวเตอรเขามาชวยในการจดการฐานขอมล ซงในระบบฐานขอมลปจจบนจะมการน าระบบการจดการฐานขอมล (Database Management System : DBMS) คอซอฟตแวรจดการฐานขอมลทน ามาใชเปนเครองมอเพอใหผใชสามารถโตตอบกบฐานขอมลได ตวซอฟตแวรโดยสวนใหญประกอบไปดวยฟงกชนตางๆ เพอน ามาจดการกบขอมล รวมทงภาษาทใชการสงงานซงโดยสวนมากใชภาษาขนสงภาษา SQL

ชาญชย ศภอรรถการ (2557, น. 125-126) ไดใหความหมายของคณสมบต ทรานเซคชน (Transactions) ในระบบฐานขอมลหรอ ACID หมายถงการใชขอมลตางๆ จะเกดเปนขนตอนการท างานซงอาจจะประกอบไปดวย ขนตอนเดยวหรอหลายๆ ขนตอนกได โดยทขนตอนจะตองท าใหเสรจทกขนตอนจงถอวาทรานเซคชน นนเสรจสมบรณ เพอการรบประกนความนาเชอถอของ ACID มดงน

Atomicity คอความสามารถในการรบประกนความถกตองของฐานขอมล ถาสวนใดสวนหนงของทรานเซคชนไมส าเรจ ทรานเซคชนทงหมดกจะไมส าเรจดวย

Page 25: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

15

Consistency คอความสอดคลองของฐานขอมล กอนและหลงจากการด าเนนการกบ ทรานเซคชนฐานขอมลจะยงคงสภาพความถกตอง ไมวาการด าเนนการนนจะส าเรจหรอไมกตามถาค าสงในทรานเซคชนเกดความผดพลาดขน กจะมการคนสภาพกลบไปยงจดเรมตน

Isolation คอการแบงแยกโดยทรานเซคชนหนงจะไมมผลตอทรานเซคชนอน เพราะในแตละทรานเซคชน จะถกแยกออกจากกนอยางสนเชงท าใหการท างานในทรานเซคชนหนง จะไมไปรบกวนอกทรานเซคชนหนง

Durability คอมความทนทาน โดยถามการด าเนนการกบทรานเซคชนหนงจนเสรจแลว จะมการบนทกอยางถาวรตามการด าเนนการนนลงในฐานขอมล

เพราะฉะนนฐานขอมลประกอบดวยรายละเอยดของขอมลทเกยวของกน ขอมลจะถกเกบไวอยางมระบบ เพอประโยชนในการจดการและเรยกใชขอมลไดอยางมประสทธภาพ เชน ดานโรงพยาบาลจะมฐานขอมลทเกยวของกบขอมลประวตคนไข ขอมลแพทยเชยวชาญเฉพาะโรค เปนตน ฐานขอมลเปนการเกบรวบรวมขอมลใหเปนศนยกลางขอมลอยางมระบบ สามารถเรยกใชรวมกนได ในระบบฐานขอมลทมประสทธภาพควรมฮารดแวรตางๆ ทพรอมจะอ านวยความสะดวกในการบรหารระบบฐานขอมลไดอยางมประสทธภาพ ไมวาจะเปนขนาดของหนวยความจ าหลก ความเรวของหนวยประมวลผลกลาง อปกรณน าขอมลเขาและออก รวมถงหนวยความจ าส ารองทจะรองรบการประมวลผลขอมลในระบบไดอยางมประสทธภาพ ในการประมวลผลฐานขอมลอาจจะใชโปรแกรมทแตกตางกน ทงนขนอยกบระบบคอมพวเตอรทใชวาเปนแบบใด โปรแกรมทท าหนาทควบคมดแลการสราง การเรยกใชขอมล การจดท ารายงาน การปรบเปลยน แกไขโครงสราง การควบคม ในเทคโนโลยฐานขอมลจะมแบบจ าลองขอมล (Data Model) ซงในสวนของฐานขอมล ซงมอย 1 แบบจ าลองทนยมใชกนมากในระบบฐานขอมลปจจบนคอ แบบจ าลองฐานขอมลเชงสมพนธ (Relational Database Model) ซงมโครงสรางขอมลเชงสมพนธทประกอบไปดวย 1.รเลชน 2.แอตตรบวต 3.โดเมน 4.ทปเพล 5.ดกร 6.คารดนลลต ซงในฐานขอมลจะประกอบไปดวยหลายตารางมการเชอมโยงสมพนธขอมลกน

ฐานขอมลเชงสมพนธ หมายถงตารางขอมลประกอบดวยจ านวนรเลชนตางๆ ทไดรบการจดรปแบบใหเปนบรรทดฐาน และโครงสรางหรอสคมา (Schema) บางสวนของฐานขอมลจดการโดยระบบการจดการฐานขอมลเชงสมพนธ (Relational Database Management System : RDBMS) ซงมรปแบบจ าลองขอมลทางคณตศาสตรทเกยวกบชดปฏบตการหรอโอเปอเรชน(Operations) ทใชจดการกบขอมลเหลาน

พชคณตเชงสมพนธ (The Relational Algebra) เปนแบบจ าลองขอมล ทก าหนดโครงสรางและขอบงคบแลวในการเรยกใช เปนชดปฏบตการหรอโอเปอเรชนทน ามาใชจดการกบ

Page 26: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

16

ขอมล หรอเปนโอเปอเรชนบนแบบจ าลองเชงสมพนธซงมโอเปอเรชนพนฐาน 6 แบบ คอ 1.Selection 2.Projection 3.Cartesian 4.Product 5.Union และ 6.Set Difference และสวนเรยกดขอมลอก 3 โอเปอเรชนคอ 1.Join 2.Intersection 3.Division

แคลคลสเชงสมพนธ (Relational Calculus) เปนรปแบบจ าลองขอมล ทตองใชก าหนดการทตองการขอมลอะไร สามารถก าหนดรปแบบการคนหาในลกษณะของนพจนหรอสมการทางคณตศาสตรทมตวแปร คาคงท ตวกระท า และตวเชอมอนๆ ซงผลลพธทจะไดคอทปเพล หรอแถว จากความสมพนธทสงผลใหคาสมการนนเปนจรง

สรปแคลคลสเชงสมพนธจะยดหลกเกณฑการก าหนดขอมลตางๆ วาตองการอะไรจากรเลชน (What) โดยไมสนใจวธการทไดมาซงผลลพธ ในขณะทพชคณตเชงสมพนธจะมงเนนถงวธการวาจะตองท าอยางไร (How) เพอใหไดมาซงผลลพธตามทตองการ (โอภาส เอยมสรวงศ, 2558, น. 205-219)

2.1.3 ทฤษฏการคนคนดวยภาษาสอบถามเชงโครงสรางเอสควแอล ภาษาสอบถามเชงโครงสราง (Structured Query Language : SQL) สามารถอานออกเสยงไดวา เอสควแอลซควล เปนภาษาทนยมใชงานกบการจดฐานขอมลในการเรยกใชงานฐานขอมล โดยมมาตรฐาน ANSI ประเภทชดค าสง SQL ม 3 ประเภทดวยกน 1. ภาษานยามขอมล (DDL) ประกอบดวยกลมค าสงทใชสรางตาราง และลบตาราง และเพม และลบตาราง รวมถงแกไขแอตตทรบวตางๆ ในรเลชน และการสรางล าดบดชน 2. ภาษาจดการขอมล (DML) ประกอบดวยกลมค าสง อบเดท เพม ปรบปรงและเรยกดขอมลในฐานขอมล 3. ภาษาควบคมขอมล (DCL) เปนกลมค าสงการอนญาต หรอยกเลกสทธในการใชงานฐานขอมล ชวยอ านวยความสะดวกแกผบรหารฐานขอมล ในการควบคม

2.1.4 ทฤษฏกระบวนการสอบถามขอมล ชยาพร แกนสาร (2555, น. 722-724) ไดใหความวากระบวนการสอบถามขอมล

(Query Processing) คอการประมวลแบบสอบถามขอมล เปนหนงในขนตอนของระบบการจดการฐานขอมล ท าหนาทหาค าตอบทดทสดและถกตองทสดใหกบความตองการของผใชไดค าตอบทเหมาะสมและรวดเรวประหยดคาใชจายมากทสด ซงคาใชจายจะเกยวของกบการประมวลผลทหนวยประมวลผลกลาง (CPU Time) และเวลาทใชในการดงขอมลจากอปกรณอนพทและเอาทพท (I/O Time) ในกระบวนการประมวลผลแบบสอบถามม 3 ขนตอน ดงน

Page 27: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

17

1. Parsing คอการรบค าสงมาแยกออกมาเปนสวนตางๆ เพอตรวจสอบรปแบบ และแปลงใหอยในรปทกะทดรด หรอเรยกวา Validation สงทไดจากขนตอนนคอ Relational Algebra Tree ทประกอบดวยการเลอก (Selection) การรวม (Joining) การโปรเจคชน (Projection)

2. Query Optimization จะเลอกหาวธทดทสดคอเรวหรอใชตนทนนอยสดทไดจาก Passing สามารถท าไดหลายวธทสามารถ แตวธการไหนเรวหรอตนทนต าสดจะเลอกวธนนโดยดจากคาสถตตางๆ สงทไดจากขนตอนนคอ Execution Plan คอรปแบบหรอวธการทจะเลอกหรอดงขอมลท Optimaize ดทสด

3. Query Evaluation จะประกอบดวย 2 สวนคอ Code Generation กบ Runtime Query Execution ในขนตอนนกจะคดสงทเลอกในขนตอนท 2 มาท าการสรางเปน Physical Operators ทใชในการจดการหรอดงขอมลจากไฟลขอมลในฐานขอมล และการด าเนนการค าสงใน Physical Operator หรอทเรยกวาการ Execution เพอจะไดผลลพธของการควร

ภาพท 2.4 สถาปตยกรรมกระบวนการสอบถามขอมลระบบฐานขอมล ทมา: Department of Computing Science, University of Alberta [online] : เขาถง 15 ก.ย. 2558. จาก https://webdocs.cs.ualberta.ca/~zaiane/courses/cmput391-02/slides/Lect3/sld008.htm

Page 28: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

18

2.1.5 ทฤษฏระบบจดเกบแบบกระจายขอมลของฮาดป ขอมลขนาดใหญ (Big Data) เกดจากความสามารถและประสทธภาพทสงขนในการ

สอสารผานอนเตอรเนตผานสอออนไลนตางๆ เชน การคนหาขอมลผาน Google การทวตผาน Twitter การโพสตรป การกดไลคผาน Facebook รวมถงธรกรรมอนๆ ทผานเครอขายอนเตอรเนต เปนตน ท าใหเกดขอมลธรกรรมจ านวนมหาศาล องคกรตางๆ จงหาทางน าขอมลตางๆ มาใชงานในการวเคราะหขอมล เพอหาสารสนเทศทเปนประโยชน และขบเคลอนนวตกรรมขององคกร โดยมแนวทางในการด าเนนการและกลยทธขององคกร (Gartnet, 2012)

ภาพท 2.5 กรอบการท างาน Hadoop Ecosystem ทมา: Introduction to Hadoop, www.stratapps.net [online] : เขาถง 15 ก.ย. 2558. จาก http://www.stratapps.net/intro-hadoop.php

กรอบการท างานหรอแพลตฟอรมฮาดป (Hadoop) เปนหนงในเทคโนโลยระบบขอมล

ขนาดใหญ เปนระบบการจดเกบขอมลแบบกระจาย (Distribute System) ฮาดปพฒนามาจนถงปจจบนในเวอรชน 2.6.2 มขนตอนการท างานโดยการแบงไฟลออกมาเปนไฟลยอยๆ หรอบลอกขอมล (Data Block) จดเกบในระบบ HDFS (Hadoop Distribute File System) และม Name Node (Master) ท าหนาทระบต าแหนงเกบ และม Data Node (Slave) กระจายไปเกบในเครองอนๆ และม

Page 29: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

19

YARN (Yet Another Resource Negotiator) ควบคมจดการทรพยากรและใชการประมวลผลแบบขนานแมพรดว (MRV2) ปจจบนเปนเวอรชน 2 (White, 2012, pp. 13-14) แมพรดวจงเปนการเขยนโปรแกรมควบคมความตองการขอมลทตองการคนคนผานการจบค Key/Value ทก าหนดไว YARN Resource Manager ท าหนาทควบคมคลสเตอร คอยบรหารตารางงานของ Job Tracker หรอ JobHistoryServer ทสงไปยง Node Manager (Slave) ม YARN Node Manager และ YARN Application Master ท าหนาทควบคมการท างานของแมพรดวภายในคลสเตอร การจดการทรพยากรและการจดเกบและประมวลผล YARN/MRV2 แบบใหมนจะกระท าในแตละเครองคอมพวเตอร เพอลดปรมาณการประมวลผลภายในเครอขายลง (Gunarathne & Srinath Perera, 2015, pp. 60-66)

ภาพท 2.6 กรอบการท างานของฮาดปท างานรวมกบแมพรดว ทมา: Taming Big Data using HDInsight, www.packtpub.com [online] : เขาถง 15 ก.ย. 2558. จาก https://www.packtpub.com/books/content/taming-big-data-using-hdinsight

2.1.6 ทฤษฏระบบการประมวลผลแบบขนานดวยเทคนคแมพรดว การประมวลผลขอมลแบบขนาน (Parallel Processing) ทจะน ามาใชศกษาการ

ประมวลผลนคอ MapReduce เปนสวนประมวลผลขอมล ประกอบไปดวย สองขนตอนหลกใหญคอ ขนตอนของการ Map และ Reduce

Page 30: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

20

Map หมายถงการเตรยมขอมล ใหอยในรปของ Key/Value โดยในขนตอนการ Map เราสามารถใสเงอนไขเพอตรวจสอบคากอนน ามาประมวลผล หรอเปลยนแปลงขอมลใหเหมาะสมได และปลดปลอยคาออกไปในรปแบบของการจบค

Reduce หมายถงการลดผลลพธลง จากขนตอนการ Map โดย Reduce จะเปนฟงกชนทรบคา Key/Value และน ามาประมวลผลแสดงคาผลลพธ

สามารถสรปไดวาฮาดปและแมพรดวเปนสถาปตยกรรมการจดการขอมลแบบจบค (Key Value) วธการจดเกบแบบกระจายฮาดป หรอ HDFS โดยการแบงขอมลออกเปนไฟลยอยๆ และมโปรแกรมควบคมท าหนาทระบต าแหนงเกบ โดยระบบจะกระจายขอมลไปจดเกบในเครองอนๆ ตามทก าหนด และแมพรดวมวธการประมวลผลแบบขนาน มสองขนตอนหลกคอ ขนตอนการแมพ (Map) หมายถงการเตรยมขอมลใหอยในรปคยแวล (Key/Value) โดยในขนตอนนสามารถเขยนโปรแกรมมเงอนไขเพอตรวจสอบคากอนน ามาประมวลผลหรอเปลยนแปลงคณลกษณะขอมลใหเหมาะสมได และน าสงคาออกไปในรปแบบของการจบค ขนตอนการรดว (Reduce) หมายถงการลดผลลพธลงจากขนตอนการแมพโดยรดวจะเปนฟงกชนทรบคา Key/Value และน ามาประมวลผลแสดงคาในขนตอนสดทายผลลพธจดเกบในรปแบบเทกซไฟล (Text File)

ภาพท 2.7 กรอบการท างาน MapReduce ทมา: MapReduce Exercise: Hand On Lab, Calvin College [online] : เขาถง 10 ก.พ. 2558. จาก https://cs.calvin.edu/courses/cs/374/exercises/12/lab/

Page 31: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

21

การเขยนโปรแกรมสามารถด าเนนการไดในหลากหลายรปแบบ ตวอยางตามภาพท 2.7 เมออางองกบทฤษฏการประมวลผลแบบขนานดวยแมพรดว Miner and Shook (2012, pp. 4-7) ในการก าหนดกลมงานการเขยนโปรแกรมสามารถก าหนดกลมงานยอยๆ ไดดงน 1.Record Reader (Input) เขยนโปรแกรมการอานขอมลน าเขา 2.Map (Spitting) เขยนโปรแกรมท าการแบงขอมลออกตามขอมลทระบความตองการ 3.Combiner (Mapping) เขยนโปรแกรมการรวมจ านวนกลมทมคาทเหมอนกน 4.Shuffle and Sort (Shuffing/Sorting) เขยนโปรแกรมการจดเรยงคาทเหมอนกนใหม 5.Reduce (Reducing) เขยนโปรแกรมการรวมจ านวนคาทมเหมอนกนใหม 6.Output Format (Final result) เขยนโปรแกรมการแสดงผลลพธทไดโดยการก าหนดโดยการเขยนโปรแกรมไดวาตองการผลออกมาเปนไฟลฟอรเมตประเภทใด

2.1.7 ทฤษฎการวเคราะหขอมลและสถตการวเคราะหขอมล สถตเพอการวจยทางสารสนเทศศาสตร มหลกแนวคดในการคนควาสถตเพอการวจย

ทางสารสนเทศศาสตรเปนสถตทใชเพอสรป และน าเสนอขอมลทเกบรวบรวมมาไดตามวตถประสงค และสมมตฐานของการวจย สถตทใชจะตองเหมาะสมกบชนดของตวแปรวตถประสงค และรปแบบของการศกษาวจย การวเคราะหทนาเชอถอขนอยกบคณภาพของขอมล และขอมลทไดมานนมลกษณะเปนไปตามขอตกลงเบองตนของการวเคราะหนนๆ

สถตพรรณนาเปนสถตทใชเพออธบายลกษณะของขอมลหรอเพออธบายความสมพนธระหวางขอมลซงการเลอกใชสถตพรรณนาขนอยกบวตถประสงคของการวจยและชนดของตวแปร

สถตอางองเปนสถตทใชในการอางองขอสรปจากกลมตวอยางไปยงกลมประชากรเพอเปรยบเทยบความแตกตางของขอมลโดยการท านาย การหาความสมพนธ และการวเคราะหขอมลหลายตวแปร ซงการเลอกใชสถตอางองขนอยกบวตถประสงคของการวจย รปแบบการศกษา และชนดของขอมล (มหาวทยาลยสโขทยธรรมาธราช [มสธ.], 2546, น. 313-350)

ผวจยมแนวคดการคดเลอกกลมตวอยางแบบเจาะจงเปนการเลอกกลมตวอยางใหสอดคลองกบเรองทวจย หรอจะเรยกชออยางอนวา การเลอกกลมตวอยางตามวตถประสงค การเลอกกลมตวอยางตามความมงหมาย และการเลอกกลมตวอยางโดยอาศยการตดสนใจ (Judgment Sampling) มการวางแผนก าหนดจ านวนตวอยางและเลอกกลมตวอยางทดเพอไมใหเกดความล าเอยง (สน พนธพนจ, 2552, น. 142)

เปนแนวทางการเลอกแบบความสะดวกในการคดกลมตวอยางจากขอมล เนองจากตองการทดลองเพอใหไดผลลพธดานความเรว (ประสทธภาพ) และผลลพธความแมนย าถกตอง (ประสทธผล) ระหวางระบบบรหารขอมล 2 รปแบบ ในการเกบรวบรวมขอมล และการวเคราะห

Page 32: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

22

และแปลผลสามารถใชขอมลได 2 รปแบบ คอ ขอมลเชงปรมาณและขอมลเชงคณภาพ ขอมลทง 2 แบบ จะตองมคณสมบต ทเทยงตรง และสรางความเชอมน และยงกลาวถงความไว และความเฉพาะเจาะจงในวธการไดมาซงขอมล เพอเลอกกลมควบคมเปนเทคนค และเกณฑในการคดกรองคณภาพ และเปนสงทควรใชในการท าการประเมน การวเคราะหและแปลผลขอมลเชงปรมาณ โดยทวไปจะแบงการวดดงน 1. การแบงกลม หรอนามมาตร (Nominal Scale) 2. การแบงตามต าแหนงหรอล าดบสงทปรากฏ (Ranking) หรออนดบมาตร (Ordinal Scale) 3. การใชชวงของการวด (Interval Scale) หรอชวงมาตร 4. การใชวดอตราสวนมาตร (Ratio Scale)

การวเคราะหทางสถต (Statistical Analysis) ในการประเมนเชงปรมาณตองมการทดสอบทางสถตของตวแปร หรอตวชวดทเราท าการวดกอน และวดหลงทมการปฏบตการ ในการประเมนทจะตองน าเสนออยางงายคอ การแยกแยะการวเคราะหทละขนตอน 1. น าเสนอและสรปยอผลออกมาเปนตวเลข โดยการใชตารางเปรยบเทยบ หรอใชกราฟ มคามชฌมเลขคณต ค ามธยฐาน คาฐานนยม ชวงระหวางคาสงสดและต าสด 2. บอกถงความเชอมนในกลมตวอยาง 3. ถามการพสจนสมมตฐานการรบหรอปฏเสธสมมตฐานเปนสวนของผลการประเมน (นวรตน สวรรณผอง, มธรส ทพยมงคลกล, ทองหลอ เดชไทย, และนพพร โหวธระกล, 2557, น. 183-187) การน าเสนอขอคดเหนถงจดประสงคของการอภปรายผลการพสจนและผลการประเมนประสทธภาพคอ การไดมาซงขอมลตางๆ ทเกยวของกบการพสจนขอเสนอวธการทน าเสนอ ไดแก เหตผลทงานวจยในอดตไมสามารถแกปญหาได เหตผลทงานวจยทเสนอท าได ผลการค านวณซงเปนคาเปาหมาย ผลการทดสอบหรอผลการทดลองซงเปนคาจรง คาผดพลาดซงเปนคาความตางระหวางคาเปาหมายกบคาจรง คาผดพลาดซงเปนคาความตางระหวางคาเปาหมายกบคาจรง สาเหตของคาผดพลาดและแนวทางปองกน ขอจ ากดของวธการทเสนอผลขางเคยง และงานวจยในอนาคต (โกสนทร จ านงไทย, 2559, น. 231)

2.2 งานวจยทเกยวของ Bhosale and Gadekar (2014) มงานวจยเรอง A Review Paper on Big Data and Hadoop

ปญหาของงานวจยนคอ ขอมลขนาดใหญเปนขอมลทมขนาดความหลากหลายและมความซบซอนตองใชสถาปตยกรรมใหมและกรอบการท างานขอมลใหม เทคโนโลยขอมลขนาดใหญมอลกอรทมและเทคนคการจดการขอมลและแนวทางการวเคราะหขอมล ซงกอใหเกดความคมคาในการสกดความรทซอนอยในขอมลทหลากหลายและแตกตางเหลานนอยางไร ซงเปนปญหาทยงไมกระจางแจงทผวจยบทความนตองการหาบทพสจน ฮาดป (Hadoop) เปนแพลตฟอรมหลกส าหรบการใชงานเพอการสกดขอมลขนาดใหญเหลานน

Page 33: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

23

ผวจยฉบบนจงน าเสนอการวจยเชงส ารวจในเทคโนโลยขอมลขนาดใหญและการแกปญหาดวยเทคโนโลยขอมลขนาดใหญ ดวยการศกษาทบทวนวรรณกรรมจากงานวจยทเกยวของ สมมตฐานของงานวจยนคอ เทคโนโลยขนาดใหญมวตถประสงคในการวเคราะหขอมลเพอน าขอมลทถกวเคราะหน ามาใชประโยชน โดยมวธการวจยและรปแบบการวจย ดวยการศกษาคณสมบตขอมลขนาดใหญและอะไรทเรยกวาขอมลขนาดใหญ ขอมลขนาดใหญมองคประกอบ 3 สวน หรอเรยกวา 3Vs คอ 1.ปรมาณของขอมล (Volumn) 2.ความหลากหลายของขอมล (Variety) 3.ความเรวของขอมล (Velocity) และความหมายของขอมลขนาดใหญคออะไร

ในบทความนใหนยามวา ขอมลขนาดใหญหมายถงชดขอมลหรอขอมลทมหลากหลายรปแบบ มโครงสราง, ไมมโครงสราง, กงโครงสราง มหลายประเภทเชน ขอมลเสยง, ขอมลวดโอ, ขอมลอกษร ทมาจากหลากหลายแหงขอมล และมอตราการเจรญเตบโตของขอมลทรวดเรว ท าใหมความยงยากในการจดการการประมวลผลหรอการน ามาวเคราะหในเวลาอนจ ากดโดยใชเทคโนโลยทวไป เชน ฐานขอมลเชงสมพนธและซอฟตแวรทสรางขนเองหรอซอฟตแวรประมวลผลทขายในทองตลาด

มตวแปรทส าคญ คอฮาดป (Hadoop) เปนโครงการฟรซอฟตแวรทมรปแบบการประมวลผลแบบกระจายชวยจดการชดขอมลขนาดใหญจดเกบไวในเครองเซรฟเวอรจ านวนหลายเครอง เรยกวาคลสเตอรเซรฟเวอร (Cluster Server) เพอด าเนนการจดการขอมลจ านวนเหลานในราคาทไมแพงและมประสทธภาพ และงานวจยนมวธเกบขอมลดวยเทคนควธการดวยการทบทวนวรรณกรรมทเกยวของกบเทคโนโลยขอมลขนาดใหญทมโครงสรางสถาปตยกรรมฮาดป (Hadoop) ในการจดเกบขอมลขนาดใหญแบบกระจายและการประมวลผลขอมลแบบขนาน

มเครองมอวดและวธวเคราะหขอมลดวยการวเคราะหปญหาในการประมวลผลขอมลขนาดใหญในหวขอดงน 1.ขอมลทมความแตกตางและไมครบถวน (Heterogeneity and Incompleteness) 2.ขนาดขอมลทมการขยายตว (Scale) 3.ทนเวลาในการเรยกใช (Timeliness) 4.ความเปนสวนตว (Privacy) 5.สนบสนนการท างานรวมกนของมนษย (Human Collaboration) และการวเคราะหจ าแนกองคประกอบของเทคโนโลยขอมลขนาดใหญในกลมซอฟตแวรทใชการวเคราะหประกอบไปดวย HBase, Hive, MongoDB, Redis, Cassandra, Drizzle ตามหวขอดงน 1.รายละเอยดการใชงาน (Description) 2.ภาษาทใช (Implementation language) 3.รปแบบฐานขอมล (Database Model) 4.แนวคดความถกตองตรงกน Consistency Concept) 5.การสอดคลอง (Concurrency) 6.ความทนทาน (Durability) 7.วธการท าซ าหรอส าเนาขอมล (Replication Method)

สรปผลจากการวจย บทความนอธบายแนวคดของเทคโนโลยขอมลขนาดใหญ และปญหาทจะเกดการจากประมวลผลขอมลขนาดใหญ และความแตกตางของเครองมอในเทคโนโลย

Page 34: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

24

ขอมลขนาดใหญ ซงความทาทายของขอมลขนาดใหญไมไดมแตปญหาทเกดจากการประมวลผลเทานนแตยงมการสรางใหเหนถงขนตอนการวเคราะหขอมลทจะท าใหเกดประโยชนในการน าขอมลออกมาตความจากการท างานของมนษยและใชงานในหลากหลายโปรแกรม และจะไมคมคาเลยถาจะท าการวเคราะหในบรบทเดยวและใชเพยงโดเมน (Domain) หรอกลมการท างานเดยว

Gurevich (2015) มงานวจยเรอง Comparative Survey of NoSQL/NewSQL DB Systems ปญหาของงานวจยนคอในการใชงานฐานขอมลรปแบบใหมทมความแตกตางกบแบบเชงสมพนธรปแบบดงเดมเตบโตขนอยางรวดเรว และทกสภาพแวดลอมของการใชงานจะมขอก าหนดใหมๆ ส าหรบการจดเกบขอมลและการประมวลผลทยงมประสทธภาพไมเปนทประจกษ ผวจยฉบบนจงน าเสนอวธการวจยและรปแบบการวจยทมเปาหมายหลกของการวจยคอการส ารวจเชงเปรยบเทยบของฐานขอมล NoSQL ดวยการศกษาคณลกษณะของฐานขอมล 4 แบบ คอ 1) Key-value stores 2) Document stores 3) Column family stores 4) Graph databases และของฐานขอมล NewSQL เนนลกษณะทางเทคนคดวยการเปรยบเทยบเชงคณภาพและเชงปรมาณ การประเมนผลเชงคณภาพดวยการเปรยบเทยบคณสมบตทใชไดของฐานขอมล SQL กบ NoSQL การเปรยบเทยบคณสมบต RDBMS เปน ACID และเปรยบเทยบกบคณสมบต NoSQL หรอ BASE (Availability, Graceful degradation, Performance) ทนยามโดย Eric Brewer เชนเดยวกบทฤษฏ CAP ทนยามใหกบ Cloud Computing และประเมนผลเชงปรมาณดวยขอมล 2 ชดขอมล ทมจ านวนระเบยนขอมลเทากน และขนาดขอมลแตกตางกน กบเครองคอมพวเตอรเสมอนทเทากนและใชวธการตดต งกบฐานขอมลเหมอนกน และท าการทดลองเพอประเมนผลการปฏบตดานประสทธภาพการท างาน

เครองมอในการวดดวยระบบการเปรยบเทยบ YCSB (Yahoo Cloud Serving Benchmark) และยงเปรยบเทยบฐานขอมลดวย BG (Benchmark Graph) ในระบบเครอขายสงคม มวธการคดเลอกตวแปรและมตวแปรทส าคญดงน การคดเลอกตวแปรเปนการเลอกฐานขอมลทเปนทนยมทง NoSQL และ NewSQL ดวยการเลอกดวยหวขอ 1.DB-Engine Ranking หรอการจดอนดบของขอก าหนดในการเลอกดงน 1.Google Trends 2.การจดอบดบเวบไซตในการใชคนหา Search Engines 3.การตอบค าถามทางเทคนคบนเวบไซต Stack Overflow และ DBA Stack Exchange 4.การจางงานในเวบไซตเครอขายสงคม LinkedIn 5.การหาประวตของผเชยวชาญในการคนหาผาน Search Engines 6.การคนหาในเครอขายสงคม Twitter ทมการพดถงฐานขอมลทนยมกน ซงไดผลการจดอบดบดงน Document Store มล าดบท 1.MongoDB 2.CouchDB และ Graph Database มล าดบทนยมดงน 1.Neo4j 2.OrientDB และล าดบประเภทฐานขอมลทไดรบความนยม 1.Graph Database 2.Wide column stores 3.Document stores 4.RDF Stores 5.Search engine 6.Key-value

Page 35: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

25

stores 7.Native XML Database 8.Object oriented Database 9.Multivalue Database 10.Time Series Database

และในบทความนยงมการเปรยบเทยบลกษณะการท างานเพอการน าไปใชงานทเหมาะสม ตามรปแบบฐานขอมลตามทกลาวมาในฐานขอมล NoSQL ประเภท Key-value stores และ Document stores และ Column family stores และ Graph databases และ NewSQL สมมตฐานของงานวจยนคอ การออกแบบระบบทเหมาะสมขนอยกบลกษณะของการใชงานและความตองการในการสอบถามขอมล มการวเคราะหและเปรยบเทยบลกษณะการท างานกบขอมลดวยหวขอดงตอไปน 1.รปแบบขอมล (Data model) 2.ความเปนไปไดของแบบสอบถาม (Querying possibilities) 3.การควบคมภาวะพรอมกน (Concurrency control) 4.การท าซ าส าเนา (Replication) 5.การปรบขยาย (Scalability) 6.แบงพารตชน (Partitioning) 7.ความคงเสนคงวา (Consistency) 8.คณลกษณะดานความปลอดภย (Security features/drawbacks) 9.กรณการใชงานทเหมาะสม (Use cases/Applications suitability) 10.ความนยม (Popularity) 11.ประสทธภาพ (Performance)

โดยมสภาพแวดลอมจากคณสมบตทก าหนด การสอบถามทเปนไปได, การควบคมการท างานพรอมกน, การท าซ าส าเนา, การขยายตว, การแบงชดขอมล, การตรวจสอบความถกตองตรงกนและความปลอดภยขอมล วธวเคราะหขอมลดวยการจดท าตารางเปรยบเทยบคณสมบตโครงสรางขอมลใน Old SQL, NoSQL, NewSQL ซงผลการวเคราะหคอ Old SQL มการเชอมความสมพนธ ม SQL และม ACID ผลการวเคราะหรปแบบขอมลของ NoSQL คอ ไมมคณสมบตโครงสรางเหมอน Old SQL แตมการขยายในแนวนอน และประสทธภาพประมวลผลขอมลขนาดใหญและเปนขอมลทไมตองมการจดเตรยมโครงสรางขอมลไวลวงหนา (Schema-less) และคณสมบตโครงสรางขอมล NewSQL จะเปนฐานขอมลการผสมผสานระหวาง NoSQL และ Relational Database เชน มการเชอมสมพนธ, ม SQL, ม ACID, เปน Horizontal Scalability, ใชกบขอมลขนาดใหญไดอยางมประสทธภาพแตไมม Schema-less ซง NewSQL เกดจากความตองการน า NoSQL มาด าเนนการจดท า Online transaction processing (OLTP) ทเกดการอานและเขยนจ านวนมากดวยการรบประกนตามมาตรฐาน ACID โดยการนยามการโดย Matt Aslett กลม “The 451 group” เชน VolDB และ NuoDB

ดงนนสรปไดวา NewSQL เปนการน าประโยชนของหลกการเชงสมพนธมาใชมากกวาการขยายออกไปตามหลกการขยายแบบแนวนอน และผลการท าตารางความเปนไปไดของการหาความเหมาะสมในการใชงานแบบสอบถามของฐานขอมล Key-Value store ใช Voldemort, Document store ใช MongoDB, Column store ใช Cassandra, Graph database ใช Neo4j และ New SQL ใช VoltDB และ NuoDB ทงหมดสนบสนนการท า REST API และการสนบสนนการท า

Page 36: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

26

MapReduce ยกเวน Graph database กบ NewSQL และการเปรยบเทยบภาษาสอบถาม (Query Language) ม NewSQL เทานนทสนบสนน SQL และการเปรยบเทยบการท างานเพอประเมนผลการปฏบตของประสทธภาพการท างานของฐานขอมล NoSQL และ NewSQL ดวยการเปรยบเทยบการปฏบตงานดาน CRUD (Create, Read, Update, Delete) เลอกการ Update, Delete มาท าการทดลองดวยขนาด 120 ลานระเบยนเปนขนาดเลก 1 KB แตละเรคคอรด จ านวน 6 โหนด และ 0.12 TB เปนการเปรยบเทยบระหวาง Cassandra, Hbase, Sherpa, MySQL ซงมผลดงน การอบเดทในระเบยนขนาดใหญ Hbase ดทสดและ Cassandra อนดบรองลงมา และในระเบยนขนาดเลกผลการอาน Cassandra ดทสดและ Hbase รองลงมา

ผลจากการวจยในระเบยนขนาดเลก ผลการอบเดท Hbase ดทสดและ Cassandra รองลงมา และผลการอาน MySQL ดทสดและรองลงมาคอ Sherpa บทสรปของงานวจยนคอการศกษาเปรยบเทยบรายละเอยดของ NoSQL และ NewSQL เกบขอมลบนหลายพารามเตอรทงทางดานเทคนคและไมใชเทคนค เปรยบเทยบตามในรปแบบขอมล และความสามารถในการสอบถาม, การควบคมการท างานพรอมกน, การจ าลองแบบปรบขยาย, กลยทธการแบงรปแบบสอดคลองและคณลกษณะดานความปลอดภย นอกจากนยงกลาวถงกรณการใชงานความเหมาะสมและการใชงานทเปนไปไดซงในแตละประเภทของ NoSQL ฐานขอมล NewSQL นอกจากนยงท าการวเคราะหและการเปรยบเทยบเชงปรมาณของเกบขอมลตางๆ บนพนฐานของผลทไดรบจากการใชระบบการเปรยบเทยบ YCSB แลวท าการน าเสนอผลจากการทดลอง NoSQL / NewSQL เกบขอมลในสภาพแวดลอมการลอกเลยนแบบการกระท าของเครอขายทางสงคม (ชดมาตรฐาน BG) ผลในทางปฏบตไดขอสรปคอ จ านวนของ NoSQL/NewSQL ฐานขอมลเปนประเภททแตกตางกนทงความสามารถในการคนหาขอมล และมความหลากหลายของการใชงานทมอย และทเพงเกดขนใหมทสามารถไดรบประโยชนจากหลกการและเทคนคการใหบรการโดยระบบเหลานน การเปรยบเทยบในหมผนยมมากทสดเกบขอมล NoSQL/NewSQL พรอมกบรายละเอยดของกรณการใชงานทเปนไปไดใหไวในบทความนอาจจะใหความชวยเหลอเพมเตมส าหรบ ผปฏบตงานเกยวกบการเลอกโซลชนการจดเกบขอมลทดทสดส าหรบความตองการของโปรแกรมของผใชขอมล

Vicknair, Macias, Zhendong, Zhao, Nan, Chen, and Wilkins (2010) มงานวจยเรอง A comparison of a Graph Database and Relational database ปญหาของงานวจยนคอ ฐานขอมลเชงสมพนธเปนเทคโนโลยฐานขอมลทางเลอกส าหรบการจดเกบขอมลแบบดงเดมทมผนยมใชกนมากทสดและการเรยกใชงานขอมลจ านวนมาก การสบคนมกจะใช SQL เปนภาษาแบบสอบถามทใชงานไดด ยกเวนแตขอมลทมการก าหนดความสมพนธ ใหใชรวมกนของตารางขอมล 2 ตารางขนไปจะมขนาดใหญ การใชวทยาการคอมพวเตอรเขามาชวยแกไขปญหา เชน มการใชหลกการ

Page 37: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

27

คณตศาสตรกราฟน ามาประยกตใชเรมแพรหลายในสาขาชววทยา, เคม, พนธกรรม เปนตน ซงเปนแบบจ าลองโครงสรางทมประโยชนแตมาตรฐานนจะน ามาใชงานไดอยางไร

ผวจยฉบบนจงน าเสนอการศกษามาตรฐานของโครงสรางฐานขอมลกราฟ ดวยโปรแกรม Neo4j เพอน ามาใชในการจดเกบและการสอบถาม แลวเปรยบเทยบกบฐานขอมลแบบเชงสมพนธทมความนยม MySQL กอนทจะน ามาใชในการตดสนใจเลอกใชในการจดเก บฐานขอมลใหม เพอใชเปนเทคโนโลยพนฐานในการพฒนาซอฟตแวรระบบการบนทกและการสอบถามขอมล สมมตฐานของงานวจยนคอ ทมาของขอมลสามารถอยในระดบรายละเอยดทแตกตางกน รากของกราฟสามารถดฐานขอมลทงหมดในระเบยน (Tuples) ในแฟมได และเปนเรองงายทจะใชงานแบบสอบถามและมประสทธภาพดวยรปแบบ Direct acyclic graph (DAG)

โดยมวธการวจยและรปแบบการวจยดวยการเปรยบเทยบมาตรฐานตางๆ เพอการตดสนใจตามหวขอดงน 1.การยอมรบและการสนบสนนของผใชและผผลต (Maturity / Level of Support) 2.โปรแกรมใชงานงาย (Ease of Programming) 3.ความยดหยน (Flexibility) 4.ความปลอดภยขอมล (Security) และทดลองเพอประเมนผลดานผลความเรวกบชดขอมลทก าหนดไวลวงหนา และทดสอบการสบคนขอมลดวยการใชชดแบบสอบถามทก าหนดขน มตวแปรทส าคญ จ านวนขอมลทเพมขน, รปแบบจดเกบขอมลทแตกตางกน, แบบสอบถามเหมอนกน

และมเครองมอวดและวธเกบขอมลดวยเทคนควธการ สรางฐานขอมล MySQL และ Neo4J จ านวนเทากน 12 ฐานขอมล ดวยขอมลน าหนกการบรรทก Neo4J ม Node (Nodeid, Payload) และ Edge (Source, Sink) และ MySQL เปนรปแบบขอมลกงโครงสรางม 2 ตาราง ดวยการใช XML และ JSON ในการเชอมสมพนธการจดเกบขอมลและมโครงสรางเหมอนกบ Neo4J และมจ านวนแตละชดขอมลดงน 1,000, 5,000, 10,000 และ 100,000 ตามล าดบ และในการประเมนดวยแบบสอบถามโดยการใชสมเลอกจากตวเลข และตวอกษรแบบ 8KB และตวอกษรแบบ 32KB และยงเกบขอมลการใชพนทจดเกบในฮารดดสกทจ าเปน และท าการสรางดชนไวทงสองฐานขอมล และก าหนดใหแบบสอบถามมชดค าสงส าหรบคนหาชดตวเลขดงน 1.นบจ านวนโหนดทมน าหนกบรรทกขอมลทมคาเทากน 2.นบจ านวนโหนดทมน าหนกบรรทกนอยกวาคาทก าหนดเปนตวแปรตงตน 3.แบบสอบถามมชดค าสงส าหรบคนหาชดตวอกษรดงน นบจ านวนโหนดทมขอมลตามทก าหนดตงตน ก าหนดความยาวตวอกษร 4-8 ตว แลวท าการทดสอบแบบสอบถามชดละ 10 ครงในแตละฐานขอมลแลวน ามาหาคาเฉลย เพอท าใหมนใจวากระบวนการแคชหรอระบบไมสงผลกระทบตอเวลาการคนหาขอมล โดยมสภาพแวดลอมดวยเครองเซรฟเวอรทม OS เปน Ubuntu Linux เวอรชน 9.10 และม CPU 2 Duao 3.00 GHz และม RAM 4GB และท าการเชอมตอแตละเครองเขากบระบบอนเตอรเนต และโปรแกรม MySQL เปนรน 5.1.421 และโปรแกรม Neo4J เปน

Page 38: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

28

รน 4.0 b112 วธวเคราะหขอมลดวยการสรางตารางเกบผลการทดลองและน าวเคราะหเปรยบเทยบผลทไดจากการทดลอง

ผลจากการวจยทงสองระบบด าเนนการไดกบชดแบบสอบถามทด าเนนการขนแตลกษณะโดยทวไปฐานขอมลกราฟจะไดผลประสทธภาพทดกวาในแบบสอบถามชนดฐานขอมลเชงสมพนธในคนหาตวอกษรขอความแบบเตมอยางมนยส าคญดกวาฐานขอมลเชงสมพนธ ซงกลไกในการท าดชน Lucene มผลกบตวอกษรมากกวาแบบตวเลข ทฐานขอมลเชงสมพนธมประสทธภาพมากกวาฐานขอมลกราฟ ซงเปนปญหาจากการท าดชนทยงเปนขอดอยของฐานขอมลกราฟ ในปจจยอนทส าคญในการเลอกใชงานคอการรกษาความปลอดภยทฐานขอมลกราฟยงไมไดรบการสนบสนนใน Neo4J ภายใตมาตรการรกษาความปลอดภย ACL Based (Access Control List) กยงเปนขอดอยอกจดหนงทยงตองมการปรบปรงจากผผลต

Appuswamy, Gkantsidis, Narayanan, Hodson, and Rowstron (2013) มงานวจยเรอง Scale-up vs Scale-out for Hadoop: Time to rethink ปญหาของงานวจยนคอ การวเคราะหขอมลดวยการใชแมพรดวและฮาดปเปนการใชงานการกระจายไฟลไปตามเครองคอมพวเตอรแบบสวนบคคลทเปนการเกบขอมลในฮารดดสกทไมนาเชอถอ จงมโอกาสเกดความผดพลาดสง หากแตการใชเกบขอมลกบผใหบรการทมเซรฟเวอรประสทธภาพสงจะมผลลพธทดกวาในขอมลระดบเอกซตาไบตหรอเพตาไบตหรอเทราไบต

ผวจยฉบบนจงมค าถามวามนควรจะขยายออกในแบบกระจายหรอแบบขนาน (Scale out) หรอแบบขยายขนดกวากน (Scale up) ผวจยฉบบนจงน าเสนอ การวจยเชงทดลองทน าฮารดแวรทมคณสมบตทมประสทธภาพสงน ามาเปรยบเทยบกบฮารดแวรทมประสทธภาพต าทใชฮาดปและแมพรดว สมมตฐานของงานวจยนคอการใชเซรฟเวอรทมประสทธภาพเครองเดยวจะดกวาการมเครองสวนบคคลทมหลายเครองทใชฮาดป เนองจากฮาดปจะมประสทธภาพดอยลงเมอขอมลมจ านวนมากขน และสมมตฐานทสองคอการปรบปรงประสทธภาพใหกบเครองเซรฟเวอรทมฮาดปเพอรองรบการใชงานในเครองเดยวและใชไดดกวาคลสเตอรคอมพวเตอร

และการวเคราะหขอมลดวยฮาดปและแมพรดวไดรบการออกแบบมาเพอการจดการขอมลระดบเพตาไบตท าการประเมนผลกนระหวางแบบขยายออกและแบบขยายขน โดยมวธการวจยโดยวธการทดลอง ท าการทดลองกบเครองเวรคสเตชนและเครองเซรฟเวอรสเปคสง และเซรฟเวอรทมแกนสมอง 32 แกน หนวยความจ า 512 GB เปรยบเทยบกบเวรคสเตชน 8 โหนด น าเสนอการประเมนผลวาเซรฟเวอรทมการขยายเพมขนมคาใชจายดานพลงงานและการใชพนทการจดเกบเมอเทยบกบแบบ 16 โหนดคลสเตอรจะใชตนทนมากกวากนเทาไร หรอจดทตองเรมมการปรบเปลยนจากการขยายขนาดขนไปเปนการขยายตามแนวนอน

Page 39: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

29

เครองมอในการทดลองมคลสเตอรคอมพวเตอรมจ านวน 2 กลม คอจ านวน 8 โหนด และ 16 โหนด เปนเวรคสเตชน ในแบบการขยายออก และแบบการขยายขนใชเซรฟเวอรทมประสทธภาพสงจ านวน 1 โหนด วธเกบขอมลดวยเทคนควธการใชขอมลการใชงาน (Log) ขอมลการวเคราะหแบบสอบถามจากขอมลการเขาถงเวบไซต ขอมลจากมาตรฐานขอมล TeraSortขอมลจากการจดเรยงและขอมลการเรยนรของเครอง (Machine Learning) โดยการใชโปรแกรม Mahout ทมขนาดขอมลแตกตางกนไป โดยมสภาพแวดลอมจากการใชแพลตฟอรมของฮาดป ทงในการทดสอบทงแบบการขยายออกและแบบการขยายขน การเพมประสทธภาพกบหนวยจดเกบขอมล (Storage) โดยใช SSD และใช HDFS ในการจดเกบไฟลและท าการก าหนดแบบกระจายในเครองเดยวดวยแบบจ าลองเครองในการขยายขนและการกระจายไปทเครองจรงแบบขยายออก และยงท าการก าหนดคาทเหมาะสมส าหรบงานตอชดขอมลจ านวนสงสดท 4 GB ตอการท าแมพและรดว และท าการประเมนผล วธวเคราะหขอมลดวยการใชขอมลประสทธภาพผลการด าเนนงาน (Throughput) และหนวยคาใชจายฮารดแวรทงเครองแบบเวรคสเตชนและเซรฟเวอร และคาใชจายดานพลงงานในการใชงาน เพอใหเขาใจถงขอดขอเสยของการปรบแบบการขยายขนเพอเทยบกบการปรบแบบขยายออก

ผลจากการวจยพบวาการปรบปรงกระบวนการฮาดปในการขยายแบบขนมนยส าคญในการประเมนดานการใชพลงงานและการเพมชนการจดเกบและตอคาใชจาย และยงมสวนของการใชงานหนวยความจ าทมประสทธภาพ และในการขยายแบบขนยงดกวากลมคอมพวเตอรจ านวน 8 เครองในบางงานดวย และการปรบปรงกระบวนการโอนขอมลในระบบ HDFS ไป SSD มผลตอการปรบปรงประสทธภาพและสงทกระบวนการแยทสดคอการน าเขาขอมลมผลกระทบตอประสทธภาพมากทสด และในการท าทดสอบการท าเครองขยายแบบขนานระบบคลาวดคอมพวเตอรมการใชแบนดวธในเครอขายท าใหระบบไมมประสทธภาพในการท างาน และการใชการขยายออกเปนแบบเฉพาะงานจะเปนตวเลอกทดทสด

ในบทความวจยนจงแสดงใหเหนทศทางตรงกนขามกบความรดงเดมวางานวเคราะหโดย Hadoop และ MapReduce มกจะมบรการทดขน โดยเซรฟเวอรในการขยายขนดกวากลมคลสเตอรทมการท างานการขยายออก ในกลมการวเคราะหโดยทวไปควรจะมการจดเตรยมเซรฟเวอรแบบขยายขนเปนตวเลอกทดส าหรบงานจ านวนมาก ไมวาจะเปนในคลสเตอรสวนตวหรอในบนระบบคลาวน การเพมประสทธภาพทน าเสนอในบทความนใหเปนจดเรมตนทดส าหรบการปรบปรงประสทธภาพการท างานเซรฟเวอรใหเปนแบบขยายขน (Scale up)

Singh and Reddy (2014) มงานวจยเรอง A survey on platforms for big data analytics ปญหาของงานวจยนคอ เมอขอมลขนาดใหญสงผลใหมการเปลยนแปลงตอการการวเคราะหขอมล

Page 40: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

30

รปแบบดงเดม แพลตฟอรมหรอกรอบการท างานของซอฟตแวรและฮารดแวรแบบเดมๆ ไมสามารถด าเนนการวเคราะหใดๆ ทเกยวของกบขอมลขนาดใหญและซบซอนได เชน ฮารดแวรตองท าการปรบเปลยนใหท างานไดภายใตการท างานของขอมลขนาดใหญ และซอฟตแวรทมแพลตฟอรมส าหรบการวเคราะหขอมลส าหรบการตดสนใจทส าคญ ซงปญหาดงกลาวเปนพนฐานขององคกรกอนทจะท าการตดสนใจเลอกใชแพลตฟอรมของเทคโนโลยทถกตอง โดยปกตเมอผใชตองการตดสนใจเลอกแพลตฟอรมทเหมาะสม ผใชจะตองตรวจสอบแพลตฟอรมทตองการใชในขนตอนและวธการใชงานรวมกบขอมลของพวกเขา เพอใหตรงตามความตองการของผใชและท าใหเกดความพงพอใจในการวเคราะหขอมลใหใชเวลาทเหมาะสม

ผวจยฉบบนจงน าเสนอการแกปญหาทอยบนพนฐานของแพลตฟอรมเฉพาะทางน โดยการศกษาอยางละเอยดและท าความเขาใจตอแพลตฟอรมขอมลขนาดใหญทก าลงเปนทนยมและถกน ามาทดลองการใชงานอยางกวางขวาง เชน โปรแกรม Apache Hadoop และ MapReduce และ Apache Pig และ Spark เปนตน

กลมนกวจยจ านวนมากไดพยายามสรางกรอบการท างาน สรางเทคนคการวเคราะหขอมลขนาดใหญมากขนและท าการวจยกนมาอยางตอเนองเพอจะน ามาใชงานไดจรง การพฒนามขนตอนวธการทแตกตางกนและความหลากหลายของฮารดแวรและซอฟตแวรในการใชงานขอมลขนาดใหญทมอยมลกษณะและการปฏบตทแตกตางกน การเลอกแพลตฟอรมเทคโนโลยทเหมาะสมตองมความรในเชงลกเกยวกบความสามารถของแพลตฟอรมเหลานทงหมดและงานวจยนยงเนนใหเหนถงขอดและขอเสยของแตละแพลตฟอรม โดยเฉพาะอยางยงความสามารถของแพลตฟอรมทจะปรบใหเขากบขอมลเฉพาะทางขององคกรทมแนวโนมเพมขนใหได การประมวลผลจงมบทบาทส าคญทจะน ามาใชในการตดสนใจวาแพลตฟอรมใดเหมาะสมทจะน ามาใชสรางการวเคราะหในทางปฏบตหรอไม

สมมตฐานของงานวจยนคอ 1) จะท าอยางไรใหไดผลลพธทรวดเรว 2) มขนตอนการด าเนนการอยางไรกบขอมลขนาดใหญ 3) การสรางตนแบบตองท าซ าหลายครงหรอสามารถท าครงเดยวได 4) มความจ าเปนทจะตองใชความสามารถในการประมวลผลขอมลทเรมจะมมากขนในอนาคตหรอไม 5) โปรแกรมควรใหความส าคญตอการค านวณอตราการโอนถายขอมล (I/O) หรอไม 6) โปรแกรมตองคอยควบคมจดการความลมเหลวของฮารดแวรหรอไม

โดยมรปแบบการวจยและวธการวจยมงเนนไปทการเปรยบเทยบแพลตฟอรมทงหมดดงน Scaling หรอการปรบขนาดของระบบใหไดตามความตองการในแงของการประมวลผลขอมลสามารถแบงไดออกเปน 2 รปแบบ คอ

Page 41: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

31

1) Horizontal Scaling (การขยายตามแนวนอน) จะเปนการกระจายภาระงานใหกบเซรฟเวอรจ านวนมาก ทรพยากรในการขยายตามแนวนอนมดงน

1.1) เครอขายในกลมการขยายในแนวนอนระบบเครอขาย Peer-to-Peer Network (เครอขายเพยรทเพยร) หรอ TCP/IP เปนการเชอมตอเครอขายแบบกระจายตามคอมพวเตอรหรอโหนด ซงเครองคอมพวเตอรหรอโหนดในเครอขายสามารถเปนไดทงไคลเอนตและเซรฟเวอรในเครองเดยวและใชทรพยากรรวมกนได มใชการสอสารรปแบบ Massage Passing Interface (MPI) ในการแลกเปลยนขอมลและเหมาะกบการประมวลผลซ าหลายครง (Iterative Processing) ซงเปนรปแบบเครอขายทเหมาะกบการพฒนาอลกอรทมในการวเคราะหขอมลขนาดใหญ แตกยงมขอบกพรองในการท าการปองกนความลมเหลวของการสอสารหรอ (Fault Tolerance) ดงนนจงตองใชการจดการทางซอฟตแวรปองกนความผดพลาดแทน จงท าให Apache Hadoop ซงมคณสมบตดงกลาวมประสทธภาพมากและกลายเปนทนยมแพรหลายในงานวจย ซอฟตแวรทจดอยในกลมการขยายตามแนวนอนทท าการศกษาม

1.2) Apache Hadoop ซงมองคประกอบส าคญคอ Hadoop Distributed File System (HDFS) หรอระบบกระจายไฟลทใชในการจดเกบ และ Hadoop YARN ในการจดการทรพยากรและจดตารางงานของกลมคลสเตอรคอมพวเตอร

1.3) การประมวลผล MapReduce เปนการเขยนโปรแกรมการประมวลผลขอมลทใชใน Hadoopทมลกษณะการท างาน 2 ลกษณะคอ Map และ Reduce ทอานขอมลจาก HDFS ซงเปนการประมวลผลขอมลแบบขนานจากกลมโหนดในคลสเตอรแลวท าการรวบรวมขอมลมาแสดงผลลพธสดทาย

1.4) MapReduce Wrappers เปนการเขยนควบคมพฒนาดขนมากกวา MapReduce ดวยสภาพแวดลอมของ SQL เชน Apache Pig ถกพฒนาดวย Yahoo และ Apache Hive ทถกพฒนาโดย Facebook เพอใหมมาตรฐานการประมวลผลทดกวาลดความซบซอนของการเขยนโปรแกรมแบบ MapReduce และยงม DryadLINQ ทถกพฒนาใหมความยดหยนในการใชงานมากขนใชงานรวมกบภาษา C# และ LINQ ทใชพฒนารวมกบภาษา Visual Studio.NET และนกวจยบางกลมยงท าการพฒนา Apache Mahout เพอการเรยนรเครองจกร (Machine Learning) โดยอาศยรปแบบการท างานหรอกระบวนทศนการท างานแบบ MapReduce แตทงน MapReduce ยงมขอจ ากดในดานการประมวลผลทไมสามารถสรางอลกอรทมการประมวลผลแบบซ าแลวซ าอกไดมนเปนการประมวลผลแบบกลม (Batch Processing) หรอจะกระท าใหมทกครงทมการสงรนโปรแกรมใหม ท าใหประสทธภาพในการเขาถงขอมลลดลงจงถอวาเปนคาใชจายทเกดขนในอนาคต จงมการพฒนาแกปญหาดงกลาว เชน HaLoop เปนปรบปรงประสทธภาพดวยการสรางอลกอรทมให

Page 42: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

32

สามารถใชงานหนวยความจ าส ารอง (Cache) มาท างานรวมกนเพอเกบขอมลทตองการเรยกใชบอย หรอ iMapReduce ของ Twister ทท างานในลกษณะการเกบในหนวยความจ าส ารอง

1.5) Spark เปนรปแบบการประมวลผลขอมลขนาดใหญแบบใหมไดมการพฒนาโดยกลมนกวจยมหาวทยาลยแคลฟอรเนยท างานรวมกบทมงานกลมพฒนา Hadoop เพอปรบปรงประสทธภาพในการท างานของระบบ I/O ใหดขน มลกษณะการท างานรวมกบหนวยความจ า ดวยการค านวณในหนวยความจ าและมภาษาท างานรวมกนไดคอ Java, Scala, Python และมการพสจนแลววามความเรวกวา MapReduce ถง 100 เทา เมอขอมลใชงานในหนวยความจ าและถง 10 เทา เมอขอมลอยบนฮารดดสก

1.6) BDAS (Berkeley Data Analytics Stack) เปนกรอบการท างานในกระบวนทศนของ Spark ทพฒนาขนมาเพอท าการวเคราะหขอมลหรอจะเรยกอกชอวา Tachyon มประสทธภาพทใชหนวยความจ าในระดบ I/O มากขนสามารถอานไฟลบอยและเกบในหนวยความจ าแคชจงลดการเขาถงฮารดดสกในงานทแตกตางกนได และสนบสนนการจดการตารางขอมลหลายรอยคอลมนและสามารถรองรบการประมวลผลแบบทนท (Real-time stream processing) และการตงเวลาการทรพยากรได (Multi-resource scheduling capabilities) และยงใชงานรวมกบ Amazon Elastic ไดอกดวย จงเปนทนยมในการใชงานเพมมากขน

2) Vertical Scaling (การขยายตามแนวตง) จะเปนการตดตงหนวยประมวลผลมากขนอกทงหนวยความจ าและฮารดแวรใหเรวขนโดยทวไปจะท าภายใตเซรฟเวอรเดยว

2.1) High Performance Computing (HPC) Clusters, Blades หรอ Super Computer เปนคอมพวเตอรระดบสงทไมสามารถน ามาใชงานรวมกบ Hadoop หรอ Spark ได มคาใชจายในการจดซออปกรณสง

2.2) Multicore CPU หรอเครองทมหนวยประมวลผลหลก CPU จ านวนมาก ท างานแบบคขนานมหลายแกนสมอง เนองจากมการพฒนาบอรดแบบใหมๆ ทมารองรบเพมขน และมการเรยกใชงานผานโปรแกรมทนยม เชน Java เปนตน แตยงมขอดอยคอเมอขนาดของขอมลเกนกวาหนวยจ าของระบบและการเขาถงฮารดดสก (I/O) จะกลายเปนคอขวดขนาดใหญ (Huge Bottleneck) ตองใชการท างานรวมกนกบ DDR5 หามใช DDR3 และใชรวมกบ GPU จะชวยเพมความเรวในการเขาถงขอมล

2.3) Graphics processing unit (GPU) หรอหนวยประมวลผลกราฟฟกเปนการสรางภาพในเฟรมบนบฟเฟอรในการประมวลผลภาพของวดโอและรปภาพ ถกน ามาใชงานรวมกบขนตอนวธการเรยนรของเครองจกรใหรวดเรวขน ซงขอจ ากดคอการตองใชหนวยความจ าสงสดได

Page 43: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

33

เพยง 12 GB จงไมเหมาะกบการจดการขอมลขนาดเทราไบต จงเปนจดคอขวดหากท าการประมวลผลขอมลขนาดใหญ

2.4) Field Programmable Gate Arrays (FPGA) เปนฮารดแวรทสรางขนส าหรบการใชงานเฉพาะและใชแพลตฟอรมภาษา Hardware Descriptive Language (HDL) ตวอยางการใชงานจรงคอการน ามาใชงานปองกนเครอขายหรอไฟรวอลลฮารดแวร มการท างานกบขอมลปรมาณมากในการสแกนขอมลบนเครอขาย มวธการประเมนผลดวยการวเคราะหตามสมมตฐานและมสภาพแวดลอมการวเคราะหภายใตการใชงานการวเคราะหขอมลขนาดใหญแลวใหคะแนนแตละแพลตฟอรมขอมลขนาดใหญ ขนอยกบลกษณะทเหมาะสมตางๆ เหลาน กลมระบบและแพลตฟอรม ก) การขยายขดความสามารถ (Scalability) ข) ประสทธภาพของการรบเขา/สงออกขอมล (Data I/O performance) ง) ความคงทนตอความลมเหลวของการท างาน (Fault tolerance) กลมซอฟตแวรและอลกอรทม ก) การประมวลผลแบบทนท (Real-time processing) ข) ขนาดของขอมลทรองรบ (Data size supported) ค) กระบวนการท างานซ าหรอเกบขอมลในหนวยความจ าส ารอง (Iterative task support) และใหค าแนะน าบางอยางเกยวกบความเหมาะสมของแพลตฟอรมทแตกตางส าหรบทกชนดของสถานการณทเกดขนขณะทก าลงท าวเคราะหขอมลขนาดใหญในทางปฏบตเพอทจะใหความเขาใจทครอบคลมมากขนในแงมมทแตกตางกนของปญหาขอมลขนาดใหญและวธการทพวกเขาจะถกจดการ

งานวจยนใชกรณศกษาเกยวกบการด าเนนงานของ K-Mean หมายถงขนตอนวธการจดกลมตางๆ แพลตฟอรมขอมลขนาดใหญ K-Mean Clustering วธการจดกลมไดรบการคดเลอกทนไมเพยงเพราะของมนนยม แตยงเกดจากมตตางๆ ของความซบซอนทเกยวของกบขนตอนวธ เชน การท าซ าค านวณจ านวนมากและมความสามารถในการท าคขนานบางสวนของการค านวณ และจดใหม Pseudo Code รายละเอยดของการด าเนนการของขนตอนวธ K-Mean กบฮารดแวรและซอฟตแวรทแตกตางแพลตฟอรมและจดใหมการวเคราะหในเชงลกและขอมลเชงลกในรายละเอยดขนตอนวธวเคราะหขอมลขนาดใหญในทางปฏบต

ผลจากการวจย การเปรยบเทยบระบบและแพลตฟอรมกลมการขยายตามแนวนอน ตามหวขอการทดลองดงน 1) ขดความสามารถ (Scalability) ไดรบคะแนนดทสดคอเครอขาย Peer-to-Peer, MapReduce และ Spark กลมการขยายตามแนวตง HPC ไดการประเมนดทสดแตไดรบคะแนนนอยกวาการขยายตามแนวนอน 2) การรบเขา/สงออกขอมล (I/O) กลมการขยายแนวตงไดคะแนนในกลม GPU, FPGA มากกวาการขยายแนวนอนเปนเพราะการทการประมวลผลแบบขนานอยาง Hadoop ตองด าเนนการถายโอนขอมลมากกวาโดยไมมการใชหนวยความจ าและการประมวลผล Spark มคะแนนดกวา MapReduce 3) การคงทนตอความลมเหลวของระบบ (Fault

Page 44: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

34

tolerance) กลมการขยายตามแนวนอนไดคะแนนดกวาแตจะแตกตางกบกลมการขยายตามแนวตงเพยงเลกนอย ซงคะแนนของ Spark และ MapReduce ซงใชกรอบการท างานของ Hadoop ซงมกลไลควบคมความผดพลาดมคะแนนเทากน และในกลมขยายตามแนวตง 4) การประมวลผลแบบทนท (Real-time processing) กลมการขยายตามแนวตงในกลม GPU, FPGA (HDL) ไดดกวากลมการขยายในแนวนอนเพราะการประมวลผลรวมกบหนวยความจ าของเครองจงเหมาะกบการประมวลผลในเวลาจรงมากกวา 5) การสนบสนนขนาดของขอมล (Data size supported) กลมการประมวลแบบขนานมคะแนนทดกวาซงระดบสงทสดเปนกลม Peer-to-Peer (TCP/IP) ซงในทางทฤษฏจะรองรบขอมลไดไมจ ากด และ MapReduce กบ Spark สามารถรบรองการท างานไดหลายหมนโหนดและยงสามารถประมวลผลและจดการชดขอมลขนาดใหญไดท แต HPC ในกลมการขยายแบบแนวตงสามารถรองรบขอมลขนาดเทราไบตไดซงมคะแนนเทากบ MapReduce กบ Spark 6) การสนบการท างานซ า (Iterative tasks support) กลมการขยายแบบแนวตงจะไดคะแนนดกวาทกกลม HPC, Multicore, GPU, FPGA จะมคะแนนเทากนทกกลม แตจะแตกตางกวากลมการขยายแนวนอนอยาง Spark เพยงเลกนอย และ Spark มคะแนนทดกวา MapReduce เพราะการท างานเปนลกษณะการท างานจะตองเขยนผลขอมลลงดสกทกครง ในกลมการขยายแบบแนวตงจงเหมาะสมกบการท างานซ ามากกวา

ผลการวเคราะหดวย K-Mean เพอใชในการวเคราะหขอมลขนาดใหญส าหรบการตดสนใจมการเลอกโดยปจจย 1.ขนาดของขอมล (Data size) 2.ความเรวหรอการเพมประสทธภาพการสงขอมล (Speed or throughput optimization) 3.การฝกอบรมหรอการใชแบบจ าลอง (Training / Applying a model) 4.ทดสอบขอมลการปฏบตงานจรง (Practical implications) การทดสอบการประมวลผลเซนทรอยด (Centroids) ดวยขอมลจาก Datapoints ดวยการทดสอบบนแพลตฟอรม MapReduce, MPI, GPU

สรปการวเคราะหดวย K-Mean จะดทสดเพราะลกษณะของการประมวลผลทตองการท าซ าหลายครงเพอใหเซนทรอยดมาบรรจบกน สรปขอดขอเสยของการปรบขนาดของแพลตฟอรม ความสามารถในการปรบขนาดของแพลตฟอรมแบบแนวตงจะตองมการลงทนทางการเงนเพอจดการปรมาณงานในอนาคตดวยการปรบเพมฮารดแวรแตเนองจากขอจ ากดของเซรฟเวอรทมชองส าหรบเพมหนวยความจ าหรอฮารดดสกหรอหนวยประมวลผลทไมสามารถเพมขนไดอก แตความสามารถของการปรบขนาดของแพลตฟอรมแบบแนวนอนนนชวยในการเพมประสทธภาพการท างานทละนอยและชวยลดเงนลงทน เปนการเพมขยายเพมขนได ตามความตองการขยายเซรฟเวอรตามความจ าเปน แตยงมขอเสยคอความพรอมของซอรฟแวรทจะน ามาใชรองรบการท างานใหเกดประสทธภาพและเกดประโยชนมากทสด การเลอกแพลตฟอรมทเหมาะสมส าหรบ

Page 45: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

35

การใชงานเฉพาะขนอยก บความตองการใชงานขอมลเฉพาะองคกร หรออาจจะใชหลาย แพลตฟอรมรวมกน เชน ใช Hadoop รวมกบ GPU เปนตน

Sareen and Kumar (2015) มงานวจยเรอง NoSQL Database and Its Comparision with SQL Database ปญหาของงานวจยนคอ ฐานขอมล NoSQL เปนทางเลอกทเกดขนใหม มกลไกส าหรบการจดเกบและการดงขอมลทมการสรางแบบจ าลองในวธการอนๆ ไมเหมอนกบทใชกนในฐานขอมลเชงสมพนธบางครงโครงสรางขอมลทใชฐานขอมล NoSQL จะถกมองวามความยดหยนมากกวาตารางฐานขอมลเชงสมพนธ น าไปใชกบขอมลขนาดใหญและใชงานกบเวบแบบ Real-time อปสรรคคอการยอมรบในการใชภาษาทจะน ามาแทนท SQL และขาดการเชอมสมพนธทไมสามารถท าการ Join ขามตารางได การใชงานไดบางสวนจงเกดปญหาของการเลอกใชฐานขอมล NoSQL วาจะเลอกใชอยางไรจงจะมความเหมาะสม

ผวจยฉบบนจงน าเสนอแนวคดการหาความสอดคลองในการออกแบบของฐาน NoSQL กบขอมลเพอปรบใหสามารถใชงานได สมมตฐานของงานวจยนคอ ฐานขอมล SQL และ NoSQL แตกตางกนอยางไรและมอะไรบางทแตกตาง และอรรถประโยชนของฐานขอมล NoSQL มอะไรบาง โดยมวธการวจยและรปแบบการวจยดวยการศกษาประเภทและโครงสรางของฐานขอมล NoSQL แลวท าการเปรยบเทยบฐานขอมลทนยมและเปนทรจกกนอยางด เชน Microsoft SQL และ MongoDB

มวธวเคราะหขอมลดวยการเปรยบเทยบฐานขอมล MS SQL กบ MongoDB โดยมหวขอในการประเมนผลพจารณาในการเลอกกรอบการท างาน NoSQL ดงน 1) Workload diversity หรอความหลากหลายของภาระงาน เชน การท า Real-time และวเคราะหขอมลไดทนท 2) Scalability หรอการขยายของระบบสามารถรองรบและยดหยนในสถานการณจ าเปน 3) Performance หรอการใชงานไดรวดเรวมประสทธภาพในการท างาน 4) Continuous Availability หรอความพรอมใชงานไดอยางตอเนองขอมลสามารถใชงานไดตลอดเวลา 24 ชวโมง 5) Manageability หรอการบรหารจดการในการพฒนาและการเกบรกษาขอมลหรอยายขอมลเขาฐานขอมล NoSQL 6) Cost หรอคาใชจายในการโยกยายหรอการขนใชงานและการพฒนาเพอการใชงานฐานขอมล NoSQL 7) Strong Community หรอชมชนผใชระบบทองคกรเหลานนตองการใชงานเพอทจะไดมบคลากรมารองรบและสนบสนนชวยเหลอทางดานเทคนคการใชงาน ใหสามารถใชทรพยากรทขนระบบไดอยางคมคา

มการอภปรายผลประเภทของฐานขอมล NoSQL แบงเปน 4 หวขอดงน 1) Document Database 2) Graph stores 3) Key-value stores 4) Wide-column stores และโครงสรางของ MongoDB เปนการจดเกบขอมลดวยรปแบบระเบยนเอกสารเกบไวในไบนาร JSON มสคมาและ

Page 46: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

36

หรอคอลเลคชนทเขยนควบคมดวยภาษา JSON มโครงสรางขอมลและรปแบบอารเรยทคลายของฐานขอมลเชงสมพนธ และยงสามารถท าดชนและแบบสอบถามคนคนขอมล ดชนสามารถประกาศในชองทไมซ ากนทงดชนเดยวหรอหลายดชนได และสามารถอยในเขตขอมลทมโครงสรางซอนกนได และยงรองรบการท าปองกนความลมเหลวของขอมลดวยการท าเซรฟเวอรรองรบไว 3 เครองได และอรรถประโยชนของ NoSQL แบงเปนหวขอดงน 1) Elastic scaling หรอการปรบความยดหยนไดผบรหารขอมลไมจ าเปนตองซอเซรฟเวอรใหมและไมจ าเปนตองใชฮารดแวรทมประสทธภาพสงเพอรองรบการท างาน 2) Big Data หรอรองรบขอมลขนาดใหญทเรมจะมแนวโนมปรมาณขอมลทเพมขน รองรบการท างานขอมลไดโดยไมจ าเปนตองใช RDBMS 3) No DBAs หรอการไมตองใชผเชยวชาญดแลฐานขอมล ทตองมการบรหารจดการเมอฐานขอมลเรมมขนาดใหญขน หรอไมจ าเปนตองใชผลตภณฑซอฟตแวรฐานขอมลทมประสทธภาพระดบสง 4) Economics หรอดานเศรษฐกจการใช NoSQL ไมจ าเปนตองใชเซรฟเวอรทมราคาแพงและระบบจดเกบขอมลราคาแพงคาใชจายตอกกะไบตหรอการประมวลผลรายการตอวนาทถอไดวานอยกวา RDMS มาก 5) Flexible data models หรอรปแบบของขอมลมความยดหยนการดแลรกษาระบบขอมล RDBMS นนแมมการเปลยนแปลงโครงสรางขอมลเพยงเลกนอยจะกระทบตอขอมลทงหมดตอง เชน การเพมคอลมน แตหากเปนระบบขอมล NoSQL สามารถเพมไดทนทโดยไมตองหยดระบบทงหมด

สรปผลจากการวจยฐานขอมล NoSQL มความส าคญมากขน และจะเปนสวนหนงของภมทศนฐานขอมลและเมอใชอยางเหมาะสมท าใหเกดประโยชน ทแทจรง อยางไรกตามผประกอบการควรด าเนนการดวยระมดระวง ดวยการเรยนรถงรปแบบของขอดขอเสยและขอจ ากดกบขององคกร และควรจะศกษาการใชงานใหถกตองตามกฎหมายในประเดนทเกยวของกบฐานขอมลเหลาน

ผสด บญรอด และ ประกายมาศ ศรสขทกษณ (2558) มงานวจยเรอง การคนคนขอมลขนาดใหญโดยใชภาษาสอบถามแบบไมมโครงสรางรวมกบเทคโนโลยเวบเชงความหมาย ปญหาของงานวจยนคอการคนคนขอมลใหตรงตามความตองการของผใชมความจ าเปนอยางมากในปจจบนเนองจากขอมลมปรมาณมากขนท าใหการประมวลชาและการคนคนไมตรงตามความตองการของผใชงาน ผวจยฉบบนจงน าเสนอฐานขอมลไมสมพนธน ามาประยกตใชกบการจดการขอมลขนาดใหญโดยใชแบบภาษาสอบถามแบบไมมโครงสราง และโครงสรางออนโทโลยทเปนเทคโนโลยเวบเชงความหมายมาชวยคนคนขอมลใหมประสทธภาพ สมมตฐานของงานวจยนคอแนวคดของเทคโนโลยเวบเชงความหมายสามารถน ามาชวยในการคนคนขอมลใหตรงตามความตองการของผใชงานมากยงขน

Page 47: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

37

โดยมวธการวจยการรวบรวมขอมลและวเคราะหปญหาในการจดการขอมลขนาดใหญโดยการใชภาษาสอบถามแบบไมมโครงสราง ซอฟตแวรทใชในการพฒนาฐานขอมลไมสมพนธ และวธการคนคนขอมล และมรปแบบการวจย โดยการสราง 3 สวนหลกในการท างาน ชนตดตอกบผใชงานใชบนทกขอมลจดเกบลงในฐานขอมล และสวนของเวบเชงความหมาย เปนสวนของการประมวลผลการคนคนขอมลโดยใชโครงสรางออนโทโลยก าหนดความสมพนธระหวางขอมล และสวนสดทายการบนทกขอมลลงฐานขอมล MongoDB มตวแปรทส าคญคอขอมลลกคา ประเภทลกคา ผลตภณฑ ประเภทบรการ และหนวยงานทรบผดชอบ และโครงสรางออนโทโลย เครองมอวดวธเกบขอมลดวยเทคนควธการดวยการพฒนาโครงสรางออนโทโลยเพอน าจดเกบและรองรบการคนคนขอมลขนาดใหญและการสรางภาษาสอบถามแบบไมมโครงสรางดวยเทคโนโลยเวบเชงความหมาย โดยมสภาพแวดลอมจากเทคโนโลยออนโทโลยตามวงจรชวต Ontology Life Cycle ใชซอฟตแวร Hozo Ontology Editor เวอรชน 5.2.36 และเกบโครงสรางออนโทโลยในฐานขอมล MongoDB เวอรชน 2.4.5 และท าการออกแบบโครงสรางเอกสารในรปแบบ JSON แบงขอมลออกเปน 3 สวนชอ (Subject), คณสมบต (Predicate), วตถ (Object)

วธวเคราะหขอมลดวยการทดสอบความเรวในการประมวลผลแบงการทดสอบโดยใช 3 ตวด าเนนการ คอการอาน (Select), การแกไข (Update) และการลบ (Delete) และทดสอบกบจ านวนเธรดทแตกตางกน 1, 10 , 100 และการทดสอบการคนคนกบจ านวนระเบยนทแตกตางกน 100, 1,000, 10,000, 100,000 ตามล าดบ และท าการค านวณผลจากเวลาทงหมดในการประมวลผลและใชการหาคาเฉลยเลขคณตจากการทดลองจ านวน 3 ครง

ผลจากการวจยโดยพจารณาจากจ านวนเธรดวาสามารถท างานไดมากกวาหนงโปรแกรมในเวลาเดยว และจ านวนขอมล อกทงใชเวลาทงหมดในการประมวลผล ความเรวในการอานขอมลจากฐานขอมลไมสมพนธแตการอานขอมลจ านวนเธรด 100 กบจ านวนขอมล 100 ,000 แถว ใชเวลาในการประมวลผลมากทสด แตในสวนทเหลอใชเวลาใกลเคยงกน และในสวนของการแกไขขอมลใชเวลาในการประมวลผลกบฐานขอมลไมสมพนธใชเวลาในทกขอมลและทกเทรดไดใกลเคยงกน และในสวนของการลบขอมลใชเวลาในการประมวลผลกบฐานขอมลไมสมพนธใชเวลาในลบขอมล ของฐานขอมลไมสมพนธใชเวลาในทกขอมลและทกเทรดไดใกลเคยงกน จงสรปไดวาการออกแบบและพฒนาฐานขอมลไมสมพนธ เพอรองรบการจดเกบขอมลและการคนคนขอมลขนาดใหญ โดยใชภาษาสอบถามแบบไมมโครงสรางรวมกบโครงสรางออนโทโลยทเปนเทคโนโลยเวบเชงความหมาย ใชกรณศกษาการออกแบบใบแจงคาใชบรการท าการจดเกบขอมลลงในฐานขอมลไมสมพนธแบบเอกสารโดยการจดเกบในรปแบบเอกสาร JSON และไดท าการทดลองเพอตรวจสอบประสทธภาพความเรวในการประมวลผล จาก 3 ตวด าเนนการ ไดแกการอาน, แกไข

Page 48: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

38

และการลบ ผลปรากฏวาทมการแตกตางกนมากมเพยงแตการด าเนนการดานการอานเทานน ฐานขอมลไมสมพนธจงมความเหมาะสมในการจดเกบและคนคนขอมลขนาดใหญ ซงสามารถประมวลผลไดอยางรวดเรว มรปแบบโครงสรางคลายคลงกบฐานขอมลเชงสมพนธ แตยงไมเหมาะสมกบการใชงานรวมกบเวบเชงความหมายซงตองผวจยท าการปรบปรงการออกแบบเพอใหสอดคลองตอไป

นรทธ รวยรน และ เกรยงไกร ปอแกว (2557) มงานวจยเรอง การใชแมพรดวซเชอมคอลเลคชนของฐานขอมลโนเอสควแอล (NoSQL) บนมองโกดบ (MongoDB) งานวจยฉบบน มปญหางานวจยดงนปจจบนปรมาณจ านวนขอมลทจดเกบในฐานขอมลมอตราการเตบโตทสง เมอขอมลทจดเกบมจ านวนมาก ท าใหการจดเกบลงฐานขอมลแบบเชงสมพนธและการจดการขอมลไมมประสทธภาพเทาทควร เนองจากรปแบบการจดเกบขอมลมลกษณะโครงสรางทซบซอนตองใชเวลานานในการจดการเขาถงขอมลทมปรมาณมาก จงมการน าเทคโนโลยฐานขอมล NoSQL เขามาใชในการจดเกบและจดการขอมลทมจ านวนปรมาณมากนน การเกบขอมลในฐานขอมล NoSQL นนจะเปนการเกบขอมลในลกษณะไมมความสมพนธเชงโครงสราง ซงฐานขอมล NoSQLไมรองรบการเชอมความสมพนธของขอมล งานวจยนจงไดเสนอแนวคดสรางความสมพนธของขอมลในฐานขอมล NoSQL ดวยฐานขอมล MongoDB โดยน าเทคนคหลกการเขยนโปรแกรมแบบแมพรดวมาประยกตใชในการเชอมความสมพนธขอมล และด าเนนการทดลองวดผลเพอน าคามาวเคราะหวดประสทธภาพในการจดการขอมล ในการเชอมคอลเลคชนของฐานขอมล MongoDB คณสมบตคอลเลคชนของ MongoDB ปกตไมรองรบการเชอมคอลเลคชน แตเพอเปนการน ามาประยกตใช โดยการน าขอดของฐานขอมล NoSQLในเรองการอานและเขยนขอมลทรวดเรว มาใชงานรวมกบแนวคดของฐานขอมลเชงสมพนธทลดความซ าซอนของขอมลดวยการแยกตาราง ซงหากเปรยบเทยบกบ MongoDB คอการแยกคอลเลคชน และประยกตใชวธการประมวลผลขอมลดวยวธแมพรดวซมาชวยในการเชอมคอลเลคชนของฐานขอมล MongoDB โดยเพมขนตอนการกรองขอมลของคอลเลคชน แลวน ามาสรางเปนคอลเลคชนชวคราว เพอใชในการเชอมคอลเลคชน มวธการเชอมคอลเลคชน 5 รปแบบดงน (1) Join Direct (2) MR Join (3) MR Filter Join 4) MR Left Filter Join 5) MR Right Filter Join และขอมลทใชในการทดสอบน 2 ชด คอ ชดท 1 Student ม 16 Fields และเอกสาร 9,665 Documents และ ชดท 2 Advisor ม 11 Fields 5และเอกสาร 954 Documents

สรปผลจากการทดลองไดวา การใชวธ 1) Join Direct จะใชซพยและเวลาในการเชอมคอลเลคชนนานกวาวธอน 2) MR Join ใชวธแมพรดวซในการเชอมอยางเดยวจะใชเวลานาน เนองจากแมพรดวซจะอานขอมลทงหมดในคอลเลคชน ตองมเงอนไขเพอกรองขอมลเพอชวยการ

Page 49: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

39

ประมวลผลใหรวดเรวขน 3) MR Filter Join เปนการสรางคอลเลคชนชวคราว กอนทจะเชอมคอลเลคชนซงวธนจะท าใหการเชอมท าไดเรวขนและนอยทสดในการทดลอง 4) MR Left Filter Join จะเปนการสรางคอลเลคชนชวคราวของพารามเตอรในการเชอม ซงไดความเรวในการเชอมดกวาวธท (1) และ (2) แตทงนการประมวลผลวธนกขนอยกบปรมาณขอมลและเงอนไขในการกรองขอมล ซงผลของเวลาวธ (3) จะใกลเคยงกน 5) MR Left Filter Join จะเปนการสรางคอลเลคชนชวคราวของพารามเตอรในการเชอม ผลสรปไดเหมอนกบวธท (4) สรปวธท (4) และ (5) ผลหมอนกน

Fegaras, Li, and Gupta (2012) มงานวจยเรอง An Optimization Framework for Map-Reduce Queries ปญหาของงานวจยนคอ การใชแบบสอบถามดวยแมพและรดวกบสถาปตยกรรมของฮาดปมการพฒนาใหสามารถใชรวมกบภาษา SQL อยางเชน HiveQL และ Pig Latin เปนการใหผใชท าการ Plug in เพมเขามาในระบบเพอท าการใชงานแบบสครปตการสอบถามได แตหากวาผใชงานจ าเปนตองมความเชยวชาญในการเขยนโปรแกรมแบบ Declaratively ในการสอบถามเพอเรยกใชขอมล และการรกษารหสการเขยนโปรแกรม (Source Code) ยงยาก ซงอาจจะสงผลกอใหเกดความผดพลาดของผลลพธทตองการได ผวจยฉบบนจงน าเสนอการเพมประสทธภาพใหกบการเขยนโปรแกรมแบบแมพและรดวดวยการลดค าสงการใชงานแมพและรดว ดวยการใชแบบสอบถามทมพชคณตและอกรบา (Algebra) เขามาชวยเพอใหสามารถใชงานภาษาสอบถามแบบ SQL ไดหรอเรยกวา MRQL

สมมตฐานของงานวจยนคอการปรบปรงเวรกโฟลว (Work Flow) ใหมประสทธภาพในการท าแบบสอบถามเพอคนคนขอมลสามารถน ารปแบบของฐานขอมลเชงสมพนธทมรปแบบทางคณตศาสตรพชคณตและอกรบามาใชงานไดและมประสทธภาพ โดยมวธการวจยและรปแบบการวจย ในกระบวนปรบปรง MR Job หรอการท างานของแมพรดว (MapReduce Job) มขนตอนการท างานยอยๆ ดงน 1.ปรบการท างานโอเปอเรชนแมพรดว (The MapReduce Operation) 2.ลดฟงกชนเชอมสมพนธ (Reduce-Side Join) 3.การปรบสวนการท าซ าของการเชอมสมพนธ (Fragment-Replicate Join) 4.การปรบการด าเนนการทางกายภาพอน (Other Physical Operations) และยงมการปรบแบบสอบถามใหออกเปนรปแบบอกรบา (Algebra) และท าการปรบปรงกรอบการท างานทงหมดเพอให MRQL ลดความซ าซอนของกระบวนการสอบถามแมพรดวทางกายภาพของการเขยนโปรแกรมเพอใหใชงานรวมกนกบฐานขอมลเชงสมพนธ

โดยก าหนดใหมขนตอนดงน 1.ลดความซ าซอนของแบบสอบถาม 2.สรางกราฟแบบสอบถาม 3.รปแบบทมการปรบเปลยนเปนแบบพชคณต 4.แผนผงในการวางแผนการปรบปรงผลใหเปนแบบพชคณตและท าลองและปรบปรงประสทธภาพใหดขน 5.สงเคราะหฟงกชนการรวม (Combine) ในจากกระบวนการลดงาน มตวแปรทส าคญ รปแบบหรอโมเดล MRQL และภาษา

Page 50: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

40

ไวยากรณทใช เครองมอวดวธเกบขอมลดวยเทคนควธการเกบขอมลจากเวบการปอนขอมลจากขอมล Log Running บนเครองเครอขายกลมเมฆทมการเขาใชงานของผใชใชขอมลในระบบ และตารางลกคาตามมาตรฐาน TPCH ใชจ านวน 5 ชดขอมล ขนาดเพมขนทละ 1 เทาตวเรมตงแต 4 GB ไปจนถง 20 GB โดยมสภาพแวดลอมจากการใชคลสเตอรเซรฟเวอรขนาดเลกจ านวน 9 เครอง ใชระบบปฏบตการลนกซ CentOS 5.4 ใชระบบเครอขายกกะบตสวทซ และท าการทดลองกบระบบขอมลขนาดใหญ Hadoop 0.20.2 การจดการบนพนฐานค าสงของ Clouderaโดยการควบคมการท างานของ NameNode และ JobTracker และสวนของเซรฟเวอรอกจ านวน 8 โหนดท าหนาท DataNodes และ Trackers ซงเซรฟเวอรแตละเครองจะม CPU 4 Core Xeon 3.2 GHz กบหนวยความจ า RAM 4 GB และท าการก าหนดคาใหแตกตางใน Hadoop ดงน 8 โหนด 32 แกน 6 โหนด 24 แกน และ 4 โหนด 16 แกน ในรปแบบการจดเกบแบบ HDFS และมวธวเคราะหขอมลโดยการก าหนดแบบสอบถามขนมาแบบ MRQL ซงเปนการผสมผสานระหวาง SQL และ MapReduce โดยการก าหนดใหม Select , Like, GroupBy เปนตน

ผลสรปจากการวจยเวลา การก าหนดกลมทง 3 กลมคลสเตอร 4, 6, 8หลงจากการปรบปรงประสทธภาพดวยการใช MRQL ในการก าหนด MapReduceแลวไดประสทธภาพ 50% และ 65% แตการประเมนประสทธภาพกบ PageRank ยงไมมประสทธภาพทชดเจนกบการสงเคราะหดวยกราฟ ดงนนผลการสรางกรอบการท างานใหเพมประสทธภาพของแบบสอบถามดวย MRQL สามารถน ามาด าเนนการไดเปนการลดคาใชจายในการประมวลผลในสวนของการลด (Reduce)

Khanam and Agarwal (2015) มงานวจยเรอง Map-Reduce Implementations : Survey And Performance Comparison ปญหาของงานวจยนคอการใชงานแมพรดวในภาคการวจยและในสถาบนการศกษาและภาคอตสาหกรรมเพอการวเคราะหขอมลขนาดใหญ มการใชงานในหลากหลายรปแบบแตกตางกน เชน การท าเหมองวเคราะหขอมลขนาดใหญทมการใชพารามเตอรแตกตางกน การทจะใชพารามเตอรใหมประสทธภาพและประสทธผลนนจงตองท าความเขาใจในทางเทคนคของกรอบการท างานแมพรดว

ผวจยฉบบนจงน าเสนอการวจยเชงส ารวจเพอท าความเขาใจทางเทคนคของกรอบการท างานแมพรดวและคณสมบตตางๆ ของแพลตฟอรมทมการใชงานคลายกนและยงมการสรางเปรยบเทยบพารามเตอรการใชงานทแตกตางกน และเปรยบเทยบเทคโนโลยทใชแพลตฟอรมตางกนและคณสมบตตางกนดวย และภาษาทใชในการเขยนโดยมวธการวจยดวยการสรางตารางเปรยบเทยบแสดงเทคโนโลยมดงน Hadoop, Spark, Phoenix++, MARISSA, MARIANE, MapReduce-MPI, Disco, SASReduce, BitDew, MARLA, DRYAD, DRYADLINQ, Themis,

Page 51: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

41

MR4C และคณสมบตการใชงานดวยเครองมอโปรแกรมใด และมฟงกชนใดทใชงาน ซงรปแบบการวจยโดยการใชการวจยเชงส ารวจดวยการศกษางานวจยทเกยวของเทคโนโลยทกลาวมาแลวขางตน มเครองมอวดวธเกบขอมลดวยเทคนควธการท าการหาขอดและขอเสยจากเทคโนโลย มวธวเคราะหขอมลจากการใชงานน ามาเทยบกบแมพและรดว

ผลจากการวจยเทคโนโลย Dryad พฒนาโดยไมโครซอฟท เปนการด าเนนการแบบขนานในรปแบบอลกอรทมแบบกราฟด าเนนการกบระบบไฟลทมลกษณะคลายคลงกบ Google MapReduceโดยการเรยงล าดบ Map/Distribute/Sort/Reduce เมอเปรยบเทยบกบแมพรดวแลวมความซบซอนมากกวา และเทคโนโลย DryadLINQ พฒนาโดยไมโครซอฟทเชนกนเปนรปแบบการเขยนแบบเชงวตถดวย Visual.Net ควบคมการท างานของ MapReduce และการใช SQL ทใชงานจาก LINQ (Language Integrated Query) เมอไปเทยบกนแลวจะใชเวลามากกวาแมพรดวและเทคโนโลย Spark เปนเทคโนโลยทน ามาใชงานหากเทยบกบ Hadoop แลว Spark จะเรวกวา จากท Spark มการเกบขอมลในหนวยความจ า และใชในการโตตอบกบแบบสอบถามชดขอมลขนาดใหญและมประสทธภาพดกวาในการใชงานแบบสอบถาม และย งพบวาหลายทตองการใชงานแบบสอบถามแบบโตตอบ และหลายชองทางการใชงาน จงมการพฒนาออกแบบเรยกวาความยดหยนแบบกระจายชดขอมล (Datasets) RDD ซงจะอานและเขยนเรวกวาระบบไฟลแบบกระจายและเทคโนโลย MARISSA ใหประสทธภาพดกวาการใชงาน Hadoop ทก าหนดเปนรปแบบสตรมมงและสามารถเพมประสทธภาพการใชงานรวมกบแมพรดวได และเทคโนโลย SAS มลกษณะการท างานเหมอนกบแมพและรดว แตมขอเสยคอจะด าเนนการไดเฉพาะในการใชงานไดกบเครองคอมพวเตอรสวนบคคลเทานน และจะใชไดดเฉพาะการเรยกใชงานขอมลบนตารางดานบนเทานน และยงมขอเสยทไมสามารถจดการกบความลมเหลวของ MPI และประสทธภาพของแมพรดวจะท างานไดดกวา

สรปงานวจยฉบบนจากการศกษางานวจยทเกยวของยงพบวาบรษทขนาดใหญน า Hadoop และ MapReduce น าไปใชงานในหลากหลายลกษณะของงานตงแต การประมวลผลภาพถายดาวเทยมขนาดใหญ และภมสารสนเทศขอมล วทยาศาสตร และมประสทธภาพของวธการพฒนาอลกอรทม มความยดหยนและปรบขนาดขยายไดใน Hadoop วตถประสงคหลก ออกแบบเพอใหสามารถใชงานขอมลแบบ DBMS กบแมพรดวใหสามารถใชงานไดงาย และยงสนบสนนการเขยนภาษาสครปตเพอใชงานแบบสอบถาม SQL ซงพฒนาอยในกรอบของแมพรดวซงอยางไรกตามวธการทงหมดนสามารถใชงานไดในรปแบบทแตกตางกน และลกษณะชดขอมลทแตกตางกนกมผลในการเลอกใชวธการ และยงมการสนบสนนฐานขอมลใชงานรวมกบ MapReduce ไดเชน

Page 52: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

42

MongoDB, Aster เปนตน ซงในพนฐานของระบบไฟลเหลานจะด าเนนการไดรวดเรวกวาระบบไฟล HDFS แตจะไมดกวาในระบบคลสเตอรคอมพวเตอรจ านวนมาก

Tao, Lin, and Xiao (2013) มงานวจยเรอง Minimal MapReduce Algorithms ปญหาของงานวจยนคอจากขอจ ากดของการใชงานแมพรดวทมการใชเวลาในการถายโอนขอมลบน CPU และ I/O และเครอขายในแตละเครองและถงแมวาจะมการพฒนาอลกอรทมทเนนการจดการเรองเหลานโดยเฉพาะแลว แตเปนการเขยนอลกอรทมทมจ านวนมากยงเปนปญหาในการจดท าและการตรวจสอบและอกทงการแกไขเกดขอผดพลาดได ผวจยฉบบนจงน าเสนอการเขยนอลกอรทมทมจ านวนนอยแตยงคงไวซงประสทธภาพ 0

สมมตฐานของงานวจยนคอ หนวยงานทสะสมขอมลไวเปนจ านวนมาก หากตองการจะน าขอมลมาประมวลผลขอมลมหาศาลในขนาดเทราไบตหรอสงกวามาใชงานแบบเรงดวน การเขยนโปรแกรมใหมขนตอนทสนจะชวยใหลดขนตอนจากการจบค (Map), การสม (Shuffle) และการลด (Reduce) โดยมวธการวจยดวยการศกษารปแบบขนตอนวธการประมวลผลทมประสทธภาพในแงมมทแตกตางกนดวยการก าหนดคณสมบต การสงออกขอมลขนต าในพนทจดเกบทในแตละโหนด และการจดการทราฟฟคในแตละรอบของการจดสง และอลกอรทมตองหยดการท างานหลงจากท างานครบรอบ และการหาเวลาการค านวณทเหมาะสมในแตละรอบ (รอบคงท)

มรปแบบการวจยโดยการลดขนตอนการสบเปลยนการดแลภายในเครอขายทเกดขนจากการถายโอนขอมลมการลดขนตอนการสอสารแตละเครองจะค านวณจากในแตละเครองใน 1 รอบของการจดเรยงขอมลเพราะหากงานยงไมเสรจสนจะท าการค านวณอกรอบท าใหใชเวลาในการค านวณใหม มตวแปรทส าคญคอชดขอมลเรมตนและจ านวนเครองเครองมอวดวธเกบขอมลและเทคนควธการโดยการจดเรยงขอมลใหนอยทสด โดยการสรางอลกอรทม S เปนชดขอมล และ n ดงขอมลออกมาจากโดเมน และ T เปนการแจกจายไปยงเครองในเครอขาย

โดยมสภาพแวดลอมจากการใชงานแมพรดวในบรบทเครอขายกลมเมฆวธวเคราะหขอมลจากสถตการเรยงล าดบ (TeraSort), การเลอก (Choice of ), การลดการจราจรบนเครอขาย(Removing the Broadcast Assumption)และผลจากอลกอรทมในฐานขอมลโดยการก าหนดขนตอนการเรยงล าดบนอยทสดการจดอนดบกลมโดย 1.กงเขารวมขอมล(Semi Join) 2.การจดอนดบและเสนขอบ (Ranking and Skyline) 3.การจดกลม (Group By) และผลของการใชการรวมแถบเลอน (Sliding Aggregation) 1.การจดเรยงทสมบรณ (Sorting with Perfect Balance) 2.การเลอนรวม(Sliding Aggregate Computation) ทงหมดมเปาหมายการท างานรอบเดยว มขนตอนการทดลองโดยการใชคลสเตอรคอมพวเตอรจ านวนเครองแม 1 Master และจ านวนเครองลก 56 Slave มเครอง

Page 53: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

43

คอมพวเตอรระดบเซรฟเวอรมคณสมบต CPU Xeon 2.4 GHz และ Ram 24 GB. และท าการตดตงโปรแกรมโอเพนซอรสฮาดปเวอรชน 1.0 และใช Java Virtual Machine แตละโหนดม RAM 4 GB. โดยก าหนดพารามเตอร fs.block.size มขนาด 128 MB และ io.sort.mb มขนาด 512 MB และ io.sort.record.percentage เทากบ 0.1 และ io.sort.spill.percentage เทากบ 0.9 และ io.sort.factor เทากบ 300 และ dfs.replication เทากบ 3 และใชขอมลในการทดลองจรงทมชอวา LIDAR6 และ PageView7 ขนาด 514 GB และมขนาดระเบยนของ LIDAR ม 7,350,000,000 และกลม PageViewเปน 332 GB และมขนาดระเบยน 11,800,000,000 Tuples

ผลจากการวจยในกลมท 1.การเรยงล าดบ ขอมล (Sort) Terasort มประสทธภาพดกวา HS มความแตกตางอยางมนยส าคญ ในกลมท 2 Skylineประสทธภาพของ HS ไมมคาใชจายในการกระจายของระเบยนสง 2.เสนขอบ (Skyline) การใช MR-SFS ทพฒนาจากการค านวณใน MapReduce ซงเมอเปรยบเทยบการใชขอมล LIDAR ทมขนาดขอมลเพมขน Minimal-Sky มประสทธภาพดกวา MR-SFS และมคาใชจายนอยกวาเพราะ MR-SFS มขนตอนทตดตอกนโหนดมากกวาท าการประมวลผลมเวลาทมากกวา 3.การจดกลม (Group By) ผลของ Minimal-GB จะใชงานอยางมประสทธภาพดกวา Base-GB 4.กงเขารวมขอมล (Semi Join)ผลของ Minimal-SJ ดกวาเพราะการกระจายงานไปยงโหนดตางๆ ใชเวลารวมนอยกวา จงมประสทธภาพมากวา 5.การเลอนรวม (Sliding Aggregate Computation) ผลของ Minimal-SA มประสทธภาพดกวาทกชดขอมล

ไดบทสรปจากการทดลองดงน MapReduce ไดเตบโตขนเปนสถาปตยกรรมทนยมอยางมากกบการค านวณแบบขนานกบขอมลขนาดใหญ ถงแมวาจะมวธการทมความหลากหลายของการพฒนาส าหรบ MapReduce มไมกวธทสามารถจะบรรลเปาหมายทเหมาะสมในการท าประมวลผลแบบคขนานและการเกดภาระงานทสมดลอกทงการท างานขามเครองทรวมอยภายในเครอขาย และเพมความเรวใหมากขนกบการล าดบขนตอนวธการเชงเสนของจ านวนเครองผลงานทส าคญของการวจยนคอขนตอนวธการ 4 แบบจากการทดลองท างานไดอยางมประสทธภาพรวดเรวมากขน ดวยเงอนไขของ Minimality และสามารถน าไปใชประโยชนได

ประกายมาศ ศรสขทกษณ และ ผสด บญรอด (2557) มงานวจยเรอง การเปรยบเทยบความเรวในการประมวลผลระหวางฐานขอมลเชงสมพนธ และฐานขอมลไมสมพนธแบบเอกสาร ปญหาของงานวจยนคอขอมลขาวสารทเพมขนเกนขดความสามารถของฐานขอมลเชงสมพนธการบรหารจดการขอมลทดจงเปนสงส าคญ การมตวเลอกของเทคโนโลยฐานขอมลไมสมพนธเกดขน ซงเทคโนโลยนจะน ามาใชงานไดจรงหรอไม

ผวจยฉบบนจงน าเสนอ การทดสอบความเรวในการประมวลผลของฐานขอมลไมสมพนธแบบเอกสารทมการประมวลผลเครองเดยว และการประมวลผลแบบกระจายเปรยบเทยบ

Page 54: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

44

กบฐานขอมลเชงสมพนธ ในดานการเขยน, อาน, แกไข และลบขอมล สมมตฐานของงานวจยนคอฐานขอมลไมสมพนธเหมาะสมกบการใชงานเนองจากมตนทนต าในการพฒนาและมประสทธภาพดกวา โดยมวธการวจยและมรปแบบการวจยการน าฐานขอมลเชงสมพนธ MySQL ทมการเพมประสทธภาพดวยการใชงานอนเดกซ (Index) ขอมลไวกอนลวงหนา และฐานขอมลไมสมพนธแบบเอกสาร MongoDB แบบเครองเดยวและแบบกระจายน ามาประมวลผลเปรยบเทยบกนในคณลกษณะการใชงานอาน (Read), เขยน (Insert), แกไข (Update) และลบ (Delete) กบขอมลทมการจดเตรยมไวทจ านวนระเบยนตงแต 500, 5,000, 50,000, 500,000 ซงใหเธรดในการตดตอฐานขอมล 1, 10, 100 เธรด ตามล าดบ มตวแปรทส าคญ จ านวนระเบยนขอมลและจ านวนเธรดขอมล และการทดสอบจะท าการประมวลผลจ านวน 3 ครงและท าการหาคาเฉลย เครองมอวดวธเกบขอมลดวยเทคนควธการค านวณเวลาทใชความเรวในการประมวลผลของฐานขอมลแตละแบบ โดยมสภาพแวดลอมจากเครองทใชท าการทดสอบมหนวยประมวลผลกลาง (CPU) แบบ Intel Core i5 2.27 GHz มหนวยความจ า RAM 8 GB และ HD มความจ 5800GB ทใชเปนทงเครอง Server จ านวน 1 เครอง และ Client จ านวน 3 เครอง และท าการทดสอบกบฐานขอมลเชงสมพนธ MySQL เวอรชน 5.0.51b และ ฐานขอมลไมสมพนธใช MongoDB เวอรชน 2.4.5 วธวเคราะหขอมลโดยการสรางกราฟแทงผลการทดสอบในแตละแบบมการเปรยบเทยบผลลพธดานความเรว

ผลจากการวจยในการอานเมอจ านวนเธรดมากขน MongoDB แบบประมวลผลเครองเดยวและแบบกระจายท างานไดใกลเคยงกน ท างานดกวา MySQL ประมาณ 3 เทา และในการเขยนขอมลมผลเชนเดยวกนกบการอาน และในการแกไขขอมลเมอจ านวนเธรดมากขน MongoDB แบบประมวลผลเครองเดยวและแบบกระจายไดเวลาใกลเคยงกน แตการท างานในจ านวนขอมล 500,000 ระเบยน จะท างานไดดกวา MySQL ถง 40 เทา และในการลบขอมลเมอจ านวนเธรดเพมขน MongoDB จะใชเวลาประมวลผลการลบขอมลมากขนทงในแบบเครองเดยวและแบบกระจาย แตการท างานในจ านวนขอมล 500,000 ระเบยนใช 100 เธรด 100 จะท างานไดดกวา MySQL ถง 70 เทา ผลสรปหากขอมลจ านวนเธรดนอยฐานขอมลจะมความสามารถในการประมวลผลทงหมดไดใกลเคยงกน และเมอจ านวนเธรดมากขนและจ านวนระเบยนมากขนจะเรมเหนความแตกตางการประมวลผลทชดเจนมากยงขน ดงนนฐานขอมลไมสมพนธจงมประโยชน มประสทธภาพและมคาใชจายทต ากวา

ชพนธ รตนโภคา (2555) มงานวจยเรอง การออกแบบและพฒนาระบบคนหาขอมลจราจรทางคอมพวเตอร (Log) ดวยวธ Map/Reduce บนกรอบการท างานของ Hadoop ปญหาของงานวจยนคอผใหบรการเครอขายคอมพวเตอรจ าเปนตองเกบรกษาขอมลการจราจรคอมพวเตอรไมนอยกวา 90 วน ท าใหผใหบรการเครอขายคอมพวเตอรตองเกบขอมลเปนจ านวนมาก หากมการ

Page 55: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

45

สบคนคนขอมลเพอระบตวผใชบรการตองใชเวลานานในการคนหา ผวจยฉบบนจงน าเสนอการออกแบบและพฒนาระบบคนหาขอมลจราจรคอมพวเตอรโดยน า Hadoop มาประยกตใชในการเกบขอมลจราจรคอมพวเตอร และใชวธการคนหาขอมลดวย Map/Reduce เพอใหมประสทธภาพในการคนหาขอมลไดรวดเรว

สมมตฐานของงานวจยนคอ เทคโนโลย Hadoop น ามาประยกตใชในการจดเกบขอมลขนาดใหญ โดยมวธการวจยเชงทดลองท าการแบงขอมลขนาดใหญออกเปนสวนยอยๆ แลวกระจายไปยงเครองคอมพวเตอรตางๆ ทเชอมตอกนแลวใช Map/Reduce สงค าสงคนหาขอมลกระจายไปยงเครองคอมพวเตอรทกเครองโดยไมจ าเปนตองมการยายขอมลระหวางการประมวลผล มรปแบบการวจยทน าขอมลจราจรทางคอมพวเตอรเปนแฟมขอมลตวอยางและมการเกบรวบรวมจากคอมพวเตอรแมขายทเปนสวนเชอมตออนเตอรเนตภายนอกกบเครอขายภายใน (NAT) ของวทยาลยเทคโนโลยอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ และใชการพฒนาโปรแกรมสวนตดตอกบผใชหรอ GUI ดวยภาษาจาวาเชอมตอกบไฟล HDFS บนระบบปฏบตการลนกซ และคนหาขอมลจากไฟล HDFS ดวยการเขยนโปรแกรมภาษาจาวาคนหาขอมลดวยเทคนควธ Map/Reduce ขนาดของตวอยางในการวจยมขนาด 5, 10, 20, 30, 40, 50 GB ตามล าดบ

มตวแปรทส าคญ ตวแปรตนคอขอมลจราจรทางคอมพวเตอรและตวแปรตามคอเวลาในการประมวลผล เครองมอวดวธเกบขอมลดวยเทคนควธการบนทกขอมลจากการวดหรอนบโดยใชอปกรณคอมพวเตอรในการตรวจนบ โดยมสภาพแวดลอมจากการใชจ านวนเครองคอมพวเตอรทท าการทดสอบจ านวน 11 เครอง เปนเครอง Name node (Master) จ านวน 1 เครอง และ Data node (Slave) จ านวน 10 เครอง เปนเครองทมคณลกษณะเหมอนกนทง CPU, RAM, Hard disk วธวเคราะหขอมลดวยการน าเขาขอมล ดวยการประยกตใช HDFS ท าหนาทในการเกบขอมลแบบกระจาย สามารถทจะรองรบการขยายตวของจ านวนเครองเกบขอมลได และท าการบนทกผลของเวลาในการน าเขาตามจ านวนขนาดขอมลตวอยางและจ านวนคอมพวเตอรในการจดเกบ และท าการเกบผลการวจยการคนหาขอมลจราจรทางคอมพวเตอรดวยวธ Map/Reduce ทผานการออกแบบพฒนาโปรแกรมทชวยคนหาขอมลขนาดใหญ

ซงผลการทดสอบความเรวในการคนหาขอมลจ านวนเครอง 10 เครอง และคนหาขอมลจราจรคอมพวเตอรทมขนาดสงสด 50 กกะไบต ผลจากการวจยปรากฏวาเวลาทใชในการคนหาขอมลจะมความเรวเพมขนประมาณ 10 เทา เมอเทยบกบการคนหาทใชเครองคอมพวเตอรเพยงเครองเดยว

Page 56: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

46

Dean and Ghemawat (2008) มงานวจยเรอง MapReduce: simplified data processing on large clusters ปญหาของงานวจยนคอการประมวลผลเพอค านวณขอมลการใชงานเวบไซตของ Google เพอรวบรวมท าดชนการเขาถง จ านวนหนาทเขาถงและอนๆ จะตองท าการค านวณในเครองเซรฟเวอรหลายรอยเครอง และตองท าการกระจายการค านวณไปยงเครองตางๆ และยงพบวาขอมลมขนาดใหญ จนท าใหเกดความลมเหลวในการค านวณ เกดเปนปญหาในการจดการกบขอมลทมขนาดใหญเหลาน ผวจยฉบบนจงน าเสนองานวจยทมการออกแบบการค านวณแบบงายๆ กบขอมลขนาดใหญ ดวยการค านวณแบบขนาน และยงทนทานตอความผดพลาด และเปนการกระจายภาระงานในการประมวลผลขอมล โดยไดรบแรงบนดาลใจจากการจบค (Map) และการลด (Reduce) และยงท าการออกแบบการบนทกขอมลในแบบทงายตอการค านวณแบบชดคคย (Key-value) ซงหลงจากมการปรบเปลยนรปแบบแลวท าใหสามารถค านวณแบบคขนานไดอยางงายดาย

สมมตฐานของงานวจยนคอการออกแบบโปรแกรมแบบคคยหรอรปแบบโปรแกรมทเรยกวา Map และ Reduce สามารถด าเนนการกบขอมลขนาดใหญไดอยางมประสทธภาพและงายดายและใชงานไดกบขอมลหลากหลายรปแบบ โดยมวธการวจยและรปแบบการวจยดวยวธการวจยเชงทดลองดวยการศกษาตวอยางการเขยนโปรแกรมตามก าหนดหวขอดงน 1.การกระจายการคนหา (Distributed Grep) 2.นบจ านวนการเขาถงเวบไซต (Count of URL Access Frequency) 3.การยอนกลบเขาดเวบไซตจากจดเชอมโยงของเวบไซต (Reverse Web-Link Graph) 4.การสรปค าส าคญหรอค าคนหา (Term-Vector per Host) 5.การตดค าเพอสรางดชนยอนกลบ (Inverted Index) 6.การกระจายการจดเรยง (Distributed Sort) และยงมการปรบแตงการเขยนโปรแกรมหลายรปแบบเพอใหเกดประโยชนทใชงานไดจรงกบการทดลอง มตวแปรทส าคญคอโปรแกรมแมพรดวและรปแบบการเขยนโปรแกรมขนพนฐาน เครองมอวดคอโปรแกรมทมอลกอรทมส าหรบการใชงานตามหวขอทก าหนด 7 หวขอ ทกลาวไวแลว

วธเกบขอมลดวยเทคนควธการการใชอนเตอรเฟซทแตกตางกนออกไปตามความเหมาะสมของสภาพแวดลอม เชน เหมาะกบเครองทมหนวยความจ าขนาดเลกแตมหลายหนวยประมวลผล (Multi Processor) หรอเหมาะกบกลมคอมพวเตอรขนาดใหญทมในเครอขาย โดยมสภาพแวดลอมจากกลมคอมพวเตอรขนาดใหญทใชงานในการท างานการใหบรการ Search Engine ของ Google ซงเปนคอมพวเตอรทมเครอขายขนาดใหญจ านวนหลายพนเครอง ซงเครองโดยทวไปจะมหนวยประมวลผล (CPU) x86 ใชระบบปฏบตการ Linux มหนวยความจ าส ารอง 2-4 GB. และใชระบบเครอขายดวยการดแลนขนาดความเรว 100/1000 Mbps. ในแตละเครอง ซงจ านวนเครองมตงแต 100-1,000 เครอง และมการจดเกบขอมลในฮารดดสกแบบ IDE และมระบบไฟลแบบ

Page 57: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

47

กระจายทถกพฒนาขนใน Google หรอเรยกวา GFS (Google File System) และสภาพแวดลอมสดทายเปนการก าหนดการตงเวลาในการสงชดขอมลใหกบระบบการประมวลผล

มวธวเคราะหขอมลดวยการใชขอมลการใชงานของผใชเวบไซตบนเซรฟเวอร HTTP มขนาดประมาณ 1 เทราไบตในครงแรกกอนจะขนใชงานทดลองกบขอมลจรง แลวท าการวเคราะหดวยโปรแกรม R วเคราะหดวยการแยกชดขอมลออกเปนบลอกยอยๆ ขนาด 64 เมกะไบต ควบคมดวยเครองของผใช และเรมการประมวลผลดวยการสรางชดขอมลหลายชดขอมลในแตละกลมเครอง และใชการแยกการวเคราะหขอมลแตละชดขอมลในแตละเครองดวยการท าคยคจากการท าแมพและรดว ซงแตละชดขอมลจะท าการประมวลผลจากบฟเฟอร เมอท าการประมวลผลแลวจะท าการสงผลกลบไปยงในแตละเครองของผใชแตหากเปนคอมพวเตอรเครอขายขนาดใหญจะมการท าการแบงกลม (Partition) ของแตละทควบคมการท างานดวยการท างานระยะไกลและล าดบงานตอไปจะท าการจดเรยงใหมในแตละเครองดวยการท าแมพและรดวเชนกน ซงการท าด าเนนการทงหมดจะถกสงเปนไฟลทมการด าเนนการแลวกลบไปหาโปรแกรม R ของผใช

ผลการวจยการปอนขอมลเขามอตราสงสดมากกวา 30 Gbps. 1,764 Worker ในการแมพ และเรมลดจนเปน 0 วนาท ซงในชด GFS มการน าเขา 1,000 ไฟล ใชเวลาทงหมดประมาณ 150 วนาท และมผลการจดเรยงขอมลขนาด 1 เทราไบต จากการแบงพารตชนการสงออกเปน 4,000 ไฟล ซงใชเวลาสงสดทอตรา 13 Gbps. ใชเวลาทงสน 200 วนาท และทงหมดในการท างานทใชเวลา ตงแตเรมตนการค านวณจะใชเวลา 891 วนาท เปนการอานขอมลจากฮารดดสกจากเซรฟเวอรทแตละภมภาคและท าขามเครอขายขนาดใหญระหวางประเทศ และในการทดลองการใชงานจรงใชกบ 1,000 เครองด าเนนการเสรจทงหมดภายในครงชวโมง และในการจดท าดชนขอมลขนาดใหญกบขอมลมากกวา 20 เทราไบตใชเวลาไมกวน

สรปผลจากการวจยรปแบบการเขยนโปรแกรมแมพรดวประสบความส าเรจและไดรบการใชงานในกเกล (Google) มวตถประสงคเพอการใชงานในแตละงานทแตกตางกน แตไมใชวาการเรมตนแลวจะส าเรจทงหมดยงมขอผดพลาดในชวงเรมตนมการปรบปรงการเขยนโปรแกรมและฮารดแวรดวย เชน การท างานการค านวณทชาเนองจากขอผดพลาดจากฮารดดสกเสย หรอการเขยนโคดทผดพลาดทกอใหเกดหนวยความจ าแคชหยดการท างานเปนตน ซงหากเปนปญหาทฮารดแวรหรอหนวยความจ าไมเพยงพอท าการแกไขดวยการเพมทรพยากรซงเปนจ านวนนอยแตเปนการแกปญหาทท าใหการประมวลผลดวยแมพรดวท างานไดดขนอยางมนยส าคญ ซงความส าเรจนม เหตผลหลายประการรนแรกนใชงานงายแมจะเปนโปรแกรมเมอรทไมมประสบการณกบระบบแบบขนานและระบบแบบกระจายเพราะมนซอนรายละเอยดของการทนตอความผดพลาดบนเครอขาย และยงมปญหาความหลากหลายของงาน และความหลากหลายความ

Page 58: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

48

ตองการขอมลทแกไขปญหาเหลานไดดวยแมพรดว และอกหนงขอคอไดมการพฒนาการด าเนนงานของแมพรดวการเพมเครองในคลสเตอรขนาดใหญของเครองประกอบไปดวยหลายพนเครอง การด าเนนงานท าใหการใชทรพยากรอยางมประสทธภาพเครองเหลานระบบมการก าหนดเปาหมายในการลดปรมาณของขอมลทสงผานเครอขายสามารถใชในการลดผลกระทบของเครองชาและจะจดการกบความลมเหลวของเครองและการสญเสยขอมลไดอยางมประสทธภาพ

Hollingsworth (2012) มงานวจยเรอง Hadoop and Hive as Scalable Alternatives to RDBMS : A Case Study ปญหาของงานวจยนคอ การใชงานโซลชนการจดการขอมลอยางเชน Hadoop วตถประสงคเพอใชงานส าหรบการวเคราะหขอมลขนาดใหญ แตถาเปนธรกจขนาดกลางและขนาดเลกทยงมความตองการการใชงานระบบการจดการขอมลขนาดใหญตนทนต า ซงขอมลขององคกรเหลานนบวนกจะมการสะสมจ านวนมาก

ผวจยฉบบนจงน าเสนองานวจยทมวตถประสงคในการเปรยบเทยบการขยายตวของระบบการจดการฐานขอมลเชงสมพนธและการจดการขอมลแบบกระจายส าหรบขอมลขนาดเลกและขนาดกลางโดยใชเครองมอในการวจยนคอโปรแกรมฐานขอมล MySQL และโปรแกรมMapReduce และโปรแกรม Hive ดวยการใชขอมลประวตการช าระเงนของบญชลกคา สมมตฐานของงานวจยนคอ คาใชจายจะสงขนและเพมมากขนส าหรบการใชงานในฐานขอมลเชงสมพนธทใชส าหรบการจดการขอมล หากเปรยบเทยบกบการจดการขอมลแบบกระจายทมประสทธภาพดกวาและคาใชจายต ากวาและพสจนดวยการตงค าถามดงน 1.ขนาดของขอมลของจ านวนบญชหรอของลกคา จะมวธการแกปญหาทดกวากน 2.โครงสรางขอมลจะท างานรวมกบแตละวธไดดขนหรอไม 3.ในการแกไขปญหาขอมลขนาดใหญเหลานจะมคาใชจายในการปรบเปลยนอยางไรโดยมวธการวจยดวยการทดลองระหวางระบบฐานขอมลเชงสมพนธ (RDBMS)โดยการตรวจสอบการท างานของซอฟตแวรโอเพนซอรส MySQL เปนตวแทนของระบบการจดการขอมลเชงสมพนธและการจดการขอมลแบบกระจาย (DDMSs) โดยการตรวจสอบการท างานของซอฟตแวรโอเพนซอรส Hadoop เปนตวแทนของระบบการจดการขอมลแบบกระจาย และท าการวเคราะหขอมลในชดขอมลขนาดกลางทมการใชงานจรงของสถานประกอบการธรกจขนาดกลาง ดวยโปรแกรมโอเพนซอรส MySQL ในการจดการขอมลเชงสมพนธและ MapReduce และ Hive ในการจดการขอมลแบบกระจายและใชฮารดแวรและซอรฟแวรดงนในระบบ MySQL รน 5.1 ในลนกซ RedHat-GNU ม Maximum Buffer ท 16GB และ Maximum Package 16MB และท าการลบหนวยความจ าหลงการทดลองทกครง ตดตงเครองทมหนวยประมวลผล 4 CPU และ Hadoop เวอรชน 0.20.2 ท างานรวมกบ Java เวอรชน 1.6.0.21 ดวยการท างาน 4 โหนด และลกษณะฮารดแวรเปนเชนเดยวกบ MySQL และการตดตง Hive รน 0.7.0 บนการท างานของ HDFS

Page 59: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

49

มรปแบบการวจยดงนการน าขอมลจากฐานขอมลธรกจจากระบบธรกจอจฉรยะ (Business Intelligence) มตวแปรทส าคญโปรแกรมส าหรบการจดการขอมล 3 โปรแกรมไดแก MySQL, MapReduce, Hive และจ านวนขอมลการท าธรกรรมบญชการเงนและประวตการช าระเงนของลกคา ทมการทดลองกบขอมลตงแต 200MB, 500MB, 1GB, 5GB และ 10GB ตามล าดบ และใชขอมลในการวเคราะหจาก 500 ระเบยน ถง 20,000 ระเบยน ตวแปรตนคอ จ านวนระเบยนของบญชลกคาโดยการสมขอมลบญชลกคา และขนาดขอมลทท าการทดลอง

เครองมอวดวธเกบขอมลดวยเทคนควธการ ท ากระบวนการสคมาการช าระเงนจากฐานขอมล MySQL ดงเขาท HDFS และ MySQL และสคมาแบบสอบถามการวเคราะหทงแบบ MySQL และ MapReduce และใช Hive ด าเนนการโหลดประวตการช าระเงนไปฐานขอมล HDFS ส าหรบการวเคราะหโดย Hive โดยใชขอมลการทดลองแตละขนาดทก าหนดไวแลวขางตนในการทดลองโดยการทดลองจ านวน 3 ครงตอชดขอมลโดยมสภาพแวดลอมจาก คอมพวเตอรคลสเตอรMaster จ านวน 1 เครอง และ Slave 32 เครอง ในมหาวทยาลย Boise State และใชเครอขาย Gigabit Ethernet เครอง 64 Bit Intel Core 2 Duo 3.0GHz 2GB Ram และ Harddisk 160 GB และ Master เปน Intel Xeon 2.4 GHz Hyper-threading 8 Processing threads 4 Core with 2 threads per core Harddisk SCSI with RAID-6 วธวเคราะหขอมลการวเคราะหเชงพยากรณในการวเคราะหประวตช าระทางการเงน ผลจากการวจยในการทดลองกบชดขอมลตงแต 200 MB จนถง 10 GB

ผลในการศกษาพบวาการใชงานเซรฟเวอรเดยว MySQL ท างานไดดทสด ส าหรบขนาดการทดลองตงแต 200 MB จนถง 1 GB การใชงาน MySQL มประสทธภาพทดอยกวา MapReduce ทมการใชงานบนชดขอมลขนาดใหญเกนกวา 1 GB ขนไปและ MapReduce ยงมประสทธภาพดกวา Hive และ MySQL บนชดขอมลขนาดใหญเกนกวา 2 GB จงสามารถสรปการแกปญหาทงหมดในงานวจยนคอ MapReduce มประสทธภาพมากและดทสดในทกชดขอมลขนาดเลกตงแต 200MB ถง 10GB

2.3 สรปงานวจยทเกยวของ

สรปจากการศกษางานวจยทเกยวของกบเทคโนโลยขอมลขนาดใหญการจดจ าแนกประเภทเทคโนโลยของบกดาตายงไมมมาตรฐานหรอองคกรใดจดตงขนมารองรบหรอจดท าเปนมาตรฐานสากล แตจะใชลกษณะการเตบโตของขอมลน ามาจ าแนกประเภทดงน ขอมลแบบเชงสมพนธขอมล (RDBMS) มขอมลเพมขนจะขยายเปนลกษณะแนวตง (Vertical Scaling) แตลกษณะขอมลขนาดใหญขอมลเพมขนจะขยายเปนลกษณะแนวนอน (Horizontal Scaling)

Page 60: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

50

2.3.1 การจ าแนกเทคโนโลยขอมลขนาดใหญ ผวจยจงขอจ าแนกเทคโนโลยขอมลขนาดใหญจากการศกษางานวจยทเกยวของออกไดเปน 2 กลมดงน

2.3.1.1 การจดเกบขอมล (Storage) การจดเกบนเปนลกษณะ NoSQL คอการเขยนโปรแกรมมอลกอรทมเพอควบคมการท างานการอาน, เขยน, ลบและแกไขแทนการจดการขอมลรปแบบเดมทมการใชภาษาสอบถามเชงโครงสราง SQL ในการจดการ แบงออกเปน 4 ประเภท ดงน

ก) แบบคอลมน (Columns Oriented) ข) แบบคยค (Key-Value Store) ค) แบบเอกสาร (Document Oriented) ง) แบบกราฟ (Graph Database)

2.3.1.2 การประมวลผล (Processing) เทคโนโลยการประมวลผลขอมลในเทคโนโลยบกดาตามหลากหลายรปแบบเชนกน ทงนการประมวลผลทงหมดมวตถประสงคหลกเพอการใชงานประมวลผลกบชดของขอมลขนาดเทราไบตและเพตาไบตโดยจ าแนกออกเปน 6 ประเภทดงน

ก) SQL ยงคงใชรปแบบภาษาสอบถามเชงโครงสรางในการจดการขอมลแบบเชงสมพนธ ใชงานรวมกบการจดเกบแบบ HDFS เชน Hive, Impala หรอ Tajo

ข) Key-Value มลกษณะของการประมวลผลดวยโปรแกรมมการเขยนอลกอรทมภาษาตางๆ คอยควบคมสงการ เชน Java ใชงานรวมกบแมพรดว

ค) NoSQL เปนลกษณะของการประมวลผลดวยการเขยนอลกอรทมดวยโปรแกรมภาษาตางๆ คอยควบคมสงการ เชน JSON ใชงานรวมกบ MongoDBหรอดวยภาษา Scala, Python ใชงานรวมกบ Spark

ง) NewSQL เปนลกษณะของการประมวลผลดวย SQL แตน า NoSQLมาเปนฐานขอมลเพอการขยายขอมลในลกษณะแนวนอน และในการประมวลผลยงมการน าหนวยความจ าส ารองมาใชงานรวมกบการประมวลผล (In Memory) เชน VoltDB

จ) MPP (Massively Parallel Processing) เปนการประมวลผลแบบคขนานใชหนวยประมวลผล CPU รวมกนหลายตว เชน Exadata, Greenplumn

ฉ) Graph Processing เปนลกษณะการประมวลผลแบบกราฟบนเครอขายสงคมออนไลนดวยทฤษฏกราฟ เชน Neo4j

2.3.2 การจ าแนกงานวจยทเกยวของ ผวจยไดวเคราะหงานวจยในยคขอมลขนาดใหญมโปรแกรมทเกยวของจากงานวจยมความหลากหลาย ดงนนผวจยขอแบงงานวจยทเกยวของออกเปน 2 กลม เพองายและสะดวกตอการพจารณา ดงน

Page 61: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

51

2.3.2.1 กลมน าเสนอการปรบปรงประสทธภาพของเทคโนโลยขอมลขนาดใหญ เชน แนะน าวธการปรบปรงกระบวนการภายในโปรแกรม จะท าใหเขาใจการเขยนโปรแกรมมากขนและการก าหนดคาเรมตนขนาดของไฟลขอมลเพอเพมประสทธภาพในการจดเกบและเรยกใชงานในกลมคลสเตอรขนาดเลก การน าฮาดปและแมพรดวมาประเมนประสทธภาพในกระบวนการเพอปรบปรงกระบวนการใน 2 ขนตอนแมพและรดว และการทดลองปรบปรงฮาดปและแมพรดวในการใชประมวลผลชดขอมลรปแบบตางๆ และน าแมพรดวมาสรางการเชอมโยงระหวางฐานขอมลเอกสารดวย MongoDB

2.3.2.2 กลมประเมนผลเปรยบเทยบประสทธภาพ เชน ใชเทคโนโลยขอมลขนาดใหญท าการเปรยบเทยบเชงทดลองกบกลมฐานขอมลแบบดงเดมหรอเปรยบเทยบกนในกลมฐานขอมลรปแบบใหม ตวอยางเชน ใช NoSQL เปรยบเทยบกบ RDBMS ดานการเขยน, อาน, แกไขและลบขอมล ทงแบบเครองเดยวและแบบหลายเครอง หรอ NoSQL เปรยบเทยบกบ SQL แบบเชงสาเหตดานความแตกตางของโครงสรางและรปแบบการจดการ หรอ NoSQL เปรยบเทยบเชงทดลองกบ NewSQL ในดานการน าเขา, อาน, เขยนและคนหาบนคอมพวเตอรกลมเมฆเนนดานโปรแกรมบนกลมเครอขายสงคม หรอ Graph DB เปรยบเทยบเชงทดลองกบ RDBMS ในดานการคนหาตามขนาดของตวอกษรและขนาดขอมล หรอแมพรดวเปรยบเทยบเชงทดลองกบ HiveQL และ RDBMS ดานการเขยนขอมล ดวยขอมลขนาด 200MB-10GB ทงแบบเครองเดยวและแบบหลายเครอง

2.3.3 การสรปงานวจยทเกยวของกบทใกลเคยงกบจดประสงคงานวจยนดงน 2.3.3.1 การทดสอบฮาดปแมพรดวดวยการใชขอมลขนาดเลกในการอานและเขยน

ขอมลขนาด 512MB, 2GB, 4GB และใชขนาดบลอกขอมลท 64MB และ 128MB พบวาในกลมขอมลขนาดเลกจะมประสทธภาพมากหากใชบลอกขอมล 64MB และมประสทธภาพมากขน 28.6% เมออานขอมลขนาด 512MB และเมออานขอมลขนาด 4GB ท 25.3%

2.3.3.2 การเขยนแมพรดวเชอมคอลเลคชนฐานขอมล MongoDB การเชอมหรอ Join ขอมลแบบเอกสารดวยขอมลนกเรยนและทปรกษาเพอใชเชอมความสมพนธ พบวาการด าเนนการสามารถเชอมขอมลไดและมประสทธภาพเพมขนเมอก าหนดใหท าการกรองขอมลทตองการเชอมไวลวงหนา ใชเวลาเพยง 23 วนาท

2.3.3.3 งานวจยการปรบปรงประสทธภาพการคนคนดวยแมพรดวดวยหลกการเชอมความสมพนธและท าควรแพลนเพอใหเผยขนตอนการเชอมในขนตอนทดทสด และท าการคนคนดวยภาษาสอบถามเชงโครงสรางทจ านวน 4, 6, 8 เครอง ดวยขอมลอนดบเขาดเวบไซต โดยทดลองกบ 2 กลม กลมปรบปรงประสทธภาพไดผลความเรวดขนเมอใช 8 เครอง แตจะใชเวลามากกวากลมขอมลทไมมการปรบปรงประสทธภาพ เมออลกอรทมสงเพมขอมลทระดบ 7-8 รอบ

Page 62: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

52

2.3.3.4 งานวจยการปรบปรงอลกอรทมแมพรดวเพอเพมประสทธภาพ เชน การเชอม, การจดเรยง, การจดกลมดวยขอมลหลายรปแบบ ผลรวมการประมวลผลใชเวลา 9 พนวนาทหรอ 2 ชวโมงครง ทขอมลขนาด 500GB ดวยขอมลทก าหนดสมมตขน (Synthetic Data)

2.3.3.5 งานวจยทใชแมพรดว, ไฮฟและมายเอสควแอลท าการทดสอบดวยขอมลการช าระเงนของลกคาในธรกจขนาดเลก มขอมลลกคาตงแต 500-20,000 บญช มขนาดขอมลตงแต 235MB-9GB กบเครองจ านวน 1-4 เครอง ผลสรปวามายเอสควแอลจะใชเวลามากกวาแมพรดวและไฮฟทขนาดขอมล 1 หมนบญช หรอ 5GB ใชเวลา 25 นาท แมพรดวจะใชเวลานอยทสดในการประมวลผลทง 1-4 เครอง ใชเวลาโดยประมาณ 80-90 วนาท ในทกชดขอมลทดสอบ โปรแกรมแมพรดวมประสทธภาพสม าเสมอและดทสด

ทกงานวจยมวตถประสงคคลายคลงกนคอ เพอหาความเหมาะสมและรปแบบการใชงาน ทสามารถน ามาใชกบขอมลในรปแบบตางๆ และเพอคนหาแนวทางการเพมประสทธภาพใหกบการท างานบนเทคโนโลยขอมลขนาดใหญ ซงไดผลการเปรยบเทยบทใหผลไปในทศทางเดยวกนคอ เทคโนโลยขอมลขนาดใหญจะมประสทธภาพดานความเรว เมอขอมลมขนาดใหญขน

แตทวางานวจยทเกยวของน ผวจ ยยงไมพบงานใดท าการประเมนผลความแมนย าถกตองของผลลพธขอมล งานวจยนจงขอน าเสนอ การประเมนประสทธภาพดานความเรวรวมกบการประเมนผลความถกตองของผลลพธ ดวยการประมวลผลชดขอมลทมการขยายตวของขอมลอยางเปนล าดบ เพอหาจดตดของกราฟดานผลความเรว และผลลพธทถกตองตรงกนทกชดขอมลทใชในการทดลอง

การคดเลอกเครองมอทใชในการทดลองนจากการอานงานวจยทเกยวของกบการใชงานเทคโนโลยขอมลขนาดใหญ จงสรปไดวาโปรแกรมฮาดปและแมพรดวมความเหมาะสมทจะน ามาใชงานในการวจยในครงนเนองดวยสาเหตทวา เครองมอนสามารถคนหาองคความรทางวชาการและสามารถคนควาท าการศกษาหลกการท างานขนพนฐานไดงายและสะดวก

ในยคขอมลขนาดใหญกรอบการท างานฮาดปและแมพรดวเปนโปรแกรมทสามารถรองรบไดกบระบบปฏบตการหลายระบบ การคดเลอกศกษาลกษณะรปแบบวธการใชงานสามารถศกษาไดเปนจ านวนมากท าใหสามารถน ามาศกษาไดงาย อกทงฮาดปและแมพรดวยงไดรบความนยมน ามาใชในวงการการศกษาวจยทงภาคอตสาหกรรมและภาคธรกจตางๆ อยางกวางขวางเพอพฒนาใหระบบมประสทธภาพเพมขน

ฮาดปและแมพรดวยงมขอดในการใชงานงายและสามารถเขยนไดโดยโปรแกรมเมอรทไมมประสบการณกบระบบแบบขนานและระบบแบบกระจาย ดวยการสนบสนนจากเจาของ

Page 63: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

53

ผลตภณฑท าใหโปรแกรมเมอรสามารถเขยนโปรแกรมไดงายขน เพราะโปรแกรมฮาดปและแมพรดวมการซอนรายละเอยดของการทนทานตอความผดพลาดบนเครอขาย

แตทงนโปรแกรมแมพรดวยงมขอจ ากดในดานการประมวลผลทไมสามารถสรางอลกอรทมการประมวลผลแบบซ าแลวซ าอกได เปนโปรแกรมการประมวลผลแบบกลม (Batch Processing) หรอจะกระท าใหมทกครงทมการสงรนโปรแกรมใหม ท าใหประสทธภาพในการเขาถงขอมลลดลงจงถอวาเปนคาใชจายทเกดขนในอนาคตทตองใชโปรแกรมเสรมเพมเตมเขามาจดการโดยเฉพาะ เชน โปรแกรมเทคโนโลยขอมลขนาดใหญ เชน Spark หรอ Tajo เปนตน

Page 64: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

บทท 3 แนวคด และวธด าเนนงานวจย

งานวทยานพนธนมแนวคดการวจยเพอศกษาเหตการณทเกดขนจากการทดลองวา

เกดขนไดอยางไร มสาเหตมาจากอะไร และท าไมจงเปนเชนนน การศกษาความสมพนธของชดขอมลบรการสขภาพกบเทคนควธการประมวลผลขอมล 2 รปแบบ ระหวางเทคโนโลยขอมลขนาดใหญทมรปแบบการจดเกบแบบกระจาย (ฮาดป) และการประมวลผลแบบขนาน (แมพรดว) น ามาศกษาความแตกตางระหวางกลมการประมวลผลขอมลทมหลกการทางคณตศาสตรทแตกตางกน และมสถาปตยกรรมการจดการขอมลทไมเหมอนกน และเทคนควธการสอบถามคนคนขอมลทแตกตางกนกบระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล)

การประมวลผลขอมลชดตวอยางเดยวกนเพอลดขอแตกตางและขอขดแยงของขอมล ท าการวจยดวยวธการเชงทดลองดวยชดขอมลบรการสขภาพ และท าสรางชดแบบสอบถามขนจากรายงานสรปการเจบปวย พ.ศ.2557 รายงานผปวยนอก จ านวน 2 รายงาน เปนเครองมอทน ามาใชหาประสทธภาพทางดานความเรวและประสทธผลทางดานความแมนย าถกตองของสารสนเทศ อกทงมการทดสอบการปรบปรงประสทธภาพและประสทธผลในกระบวนการสอบถามขอมลในการเรยกคนขอมลเพอใหไดประสทธภาพดานเวลาการคนคน และประสทธผลดานความถกตอง

การวเคราะหผลทางสถตโดยใชสถตและระเบยบวธวจยทางดานวทยาศาสตรและเทคโนโลยสารสนเทศมาประยกตรวมกน และน าผลลพธทางดานเวลามาวเคราะหผลขอมลทางดานประสทธภาพของเวลาและประสทธผลของผลลพธ มรายละเอยดดงน

3.1 กรอบแนวคดการออกแบบงานวจย

กรอบแนวคด (Conceptual Framework) กอนเรมออกแบบกระบวนการทดลองผวจยมแนวคดเชงวเคราะห ดวยการเกบรวบรวมขอมลจากแหลงขอมลทตยภม (Secondary Data) เชน การคนควาจากเอกสารทางราชการและหลกฐานในงานวชาการดานสาธารณสข ไดจ าแนกชวงเวลาสถานการณดานเทคโนโลยสารสนเทศของกระทรวงสาธารณสขออกเปน 2 ชวงเวลา คอกอนกระทรวงสาธารณสขเรมรวบรวมขอมลดานการเจบปวย และหลงกระทรวงเรมรวบรวมขอมลดานการเจบปวย ซงผวจยไดกลาวถงแลวในบทท 1 หนาท 1 และบทท 2 หนาท 8-14 ขอสรปจากการ

Page 65: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

55

วเคราะหขอมลเชงกราฟ (Graphical Analysis) ตามภาพท 1.1 จากกราฟผลเปนทประจกษ ขอมลมแนวโนมเพมขนขนาดใหญขนทกป เปนปญหาอกแงมมหนงของผใชขอมลกระทรวงสาธารณสข เมอผวจยตงค าถามวา ควรเรมตนจากจดใด หากพจารณาจากปญหาของกระทรวงสาธารณสข ทเปนโจทยในงานวจยคอ ปญหาการรวบรวมขอมลการเจบปวยจากสถานพยาบาลทกหนวยงานในสงกดกระทรวงสาธารณสขจากระดบอ าเภอน าขอมลเขาสระดบจงหวดเพอประมวลผลเขาสสวนกลางระดบเขตและกระทรวงสาธารณสข มขอมลจ านวนเพมขน ขนาดใหญขนในทกๆ ป การเรยกใชขอมลการมารบบรการทางการแพทย เพอท าการประมวลผลน าสารสนเทศมาใชงานการวเคราะหขอมลทางการแพทยท าไดชาลง

ค าถามเชงวเคราะห การเรมตนจากค าถาม เพอน าไปสกระบวนการคนหาค าตอบในการแกไขปญหา โดยใชเครองมอการวเคราะหปญหาดวยเทคนค 5W1H เพอวเคราะหขอมล แจกแจงหาแนวทางการแกไข

เมอผวจยพจารณาจากการทบทวนวรรณกรรมระบบบรการสขภาพไดมแนวทางการคดเชงวเคราะหเพอการเตรยมวธการทดลอง ไดพจารณาแนวคดเกยวกบการวางแผนการออกแบบการทดลอง การเตรยมวธการทดลอง จากค าถามหรอโจทยของปญหาทไดกลาวมาแลวขางตน สามารถสรปการแจกแจงไดดงน

Who ใคร (ในเรองนนมใครบาง) ผบนทกขอมลสถานพยาบาล เจาหนาทผเกยวของ ผใชขอมลจดท ารายงานหรองานวจย เจาหนาทสาธารณสขจงหวดและเขตและกระทรวง

What ท าอะไร (แตละคนท าอะไรบาง) ผบนทกขอมลบรการสขภาพเขาระบบโปรแกรมฐานขอมลของสถานพยาบาล เจาหนาทผเกยวของตรวจสอบปรบปรงแกไขขอมล 43+7 แฟม เจาหนาทผเกยวของสงขอมลของสถานพยาบาลเกบรวบรวมขอมลการเจบปวยน าสงขอมล 43+7 แฟมเขาเครองแมขายระดบจงหวด 43+7 แฟม เจาหนาทสาธารณสขระดบเขตและกระทรวงใชขอมลท ารายงานสถตการแพทยและตรวจสอบรายงานดชนชวด

Where ทไหน (เหตการณหรอสงทท านนอยทไหน) การจดสงขอมลจดท าบนเครองลกขายระดบอ าเภอเขาสเครองแมขายระดบจงหวด การจดสงขอมล 43+7 แฟม จดท าบนเครองแมขายระดบจงหวดสเครองแมขายระดบเขตและกระทรวง การประมวลผลเพอจดท ารายงานสถตและดชนชวดบนเครองแมขายระดบจงหวด การประมวลผลเพอจดท ารายงานผลการด าเนนงาน รายงานสถตการเจบปวยและดชนชวดบนเครองแมขายระดบเขตและกระทรวง

When เมอไหร (เหตการณหรอสงทท านนท าเมอวนเดอนปใด) การสงขอมลจากเครองลกขายระดบอ าเภอเขาสเครองแมขายระดบจงหวดตองด าเนนการจดท าไมเกน 7 วนนบจากวนใหบรการ การตรวจสอบและแกไขเพอการประมวลผลจดท ารายงานในเครองแมขายระดบจงหวด

Page 66: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

56

จดท าทกสนเดอน การสงขอมลเขาเครองแมขายระดบเขตและสวนกลางระดบกระทรวง จะกระท าภายในวนท 15 ของเดอนถดไปและสงแกไขขอมลยอนหลงภายในเดอนนน

Why ท าไม (เหตใดจงไดท าสงนน หรอเกดเหตการณนนๆ) การสงขอมล 43+7 แฟมเปนขอมลการบรการทางการแพทยของสถานพยาบาลภายใตสงกดกระทรวงสาธารณสขเขาสเครองแมขายระดบจงหวด ระดบเขตและระดบกระทรวงซงเปนฐานกลางขอมลสขภาพสวนกลางระดบประเทศ เพอรวบรวมขอมลการเจบปวยน ามาประมวลผลจดท ารายงานสถตทางการแพทย รายงานผลการด าเนนงานเพอการบรหารจดการน ามาใชในการบรหารงานวางนโยบายของกระทรวงสาธารณสขในการจดบรการทางการแพทย อปกรณทางแพทย หรอเพอการบรหารจดการระบบสขภาพเพอประโยชนของประชากรชาวไทยทงประเทศ

ภาพท 3.1 กระบวนการระบบการสงขอมลบรการสขภาพ ทมา: ส านกงานสาธารณสขจงหวดศรสะเกษ [online] : เขาถง 26 ก.พ. 2559. จาก http://www.khukhanph.com/2016/02/2559.html

How อยางไร (เหตการณหรอสงทท านน ท าเปนอยางไรบาง) กระทรวงสาธารณสขม

นโยบายใชโปรแกรมทพฒนาขนโดยหนวยงานศนยเทคโนโลยสารสนเทศและการสอสาร กระทรวงสาธารณสขรวมกบศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (เนคเทค) และโปรแกรมทไดรบการรบรองจากระทรวงสาธารณสขใหสามารถใชงานบนทกขอมลไดในสถานพยาบาลระดบต าบล อ าเภอและจงหวด มวตถประสงคเพอจดเกบขอมลการบรการสขภาพใน

Page 67: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

57

ฐานขอมลทมการออกแบบแฟมขอมลทมมาตรฐานโครงสรางตามทกระทรวงสาธารณสขก าหนด และเชอมโยงกนแบบมความสมพนธ โดยใชโปรแกรมโอเพนซอรสระบบการจดการฐานขอมลมายเอสควแอลเปนฐานขอมลระดบจงหวด ระดบเขต ระดบกระทรวง ใชงานไดครอบคลมทง 76 จงหวด ในป พ.ศ.2558 และศนยเทคโนโลยสารสนเทศและการสอสาร ส านกงานปลดกระทรวงสาธารณสข ยงมโครงการพฒนาระบบเทคโนโลยสารสนเทศและการสอสารตามกรอบยทธศาสตรเทคโนโลยสารสนเทศสขภาพ มกลยทธการพฒนาคลงขอมลสขภาพ ก าหนดรปแบบการบรหารจดการคลงขอมลระบบบรการสขภาพในระบบขอมลขนาดใหญ (Big Data Management in Healthcare System) เพอใหมความเหมาะสมในการใชงานใหกบหนวยงานแตละระดบ

สรปการวเคราะห 5W1H ทเกยวของกบองคประกอบของปญหาไดดงน เมอขอมลบรการสขภาพหรอขอมลการเจบปวยของผปวยของสถานพยาบาลในสงกดกระทรวงสาธารณสขมเพมขนและขนาดใหญขน เทคโนโลยฐานขอมลมายเอสควแอลทใชอยปจจบนไมเพยงพอกบจ านวนขอมลทเพมขนเปนภาระใหกบผดแลระบบทจะตองจดตารางเวลาการประมวลผลรายงานสถตและผลการด าเนนการออกจากตารางเวลาการประมวลผลขอมลการปฏบตงานประจ าวน และการดแลปรบปรงฐานขอมล จงยงไมตอบสนองการเรยกใชขอมลหรอสารสนเทศไดทนตอความตองการ อกทงโอเพนซอรสมายเอสควแอลไดมการเปลยนแปลงภายในองคกรซงปจจบนขนตรงกบออราเคล จงเกดความเสยงหากเจาของโปรแกรมเรยกเกบเงนคาบรการราคาสง อกทงผทเกยวของในการด าเนนการจดท าสารสนเทศกระทรวงสาธารณสขมโครงการพฒนาระบบเทคโนโลยสารสนเทศดวยการน าโปรแกรมเทคโนโลยบกดาตาเขามาบรหารจดการขอมลคลงขอมลระบบบรการสขภาพ ทงนยงไมทราบแนชดในสวนของโปรแกรมบรหารจดการขอมลขนาดใหญทกระทรวงเลอกใช ซงจากการศกษาเทคโนโลยบกดาตาน น ปจจบนมผลตภณฑ หลากหลายรปแบบ หลากหลายผผลต แตทกผลตภณฑ โดยสวนมากมสถาปตยกรรมภายในโปรแกรมทเหมอนกนคอ การใชกรอบการท างานฮาดปและแมพรดวเปนโครงสรางพนฐานของโปรแกรม

ในปจจบนเทคโนโลยระบบแบบกระจาย (Distributed System) และการประมวลผลแบบขนาน (Parallel Processing) เชน โปรแกรมโอเพนซอรสอาปาเชฮาดป (Apache Hadoop) เปนระบบการจดเกบแบบกระจาย (Hadoop Distributed File System : HDFS) และการประมวลผลแบบขนานดวยเทคนคแมพรดว (MapReduce) เทคโนโลยนจะสามารถน ามาชวยเหลอการประมวลผลขอมลขนาดใหญ จากคลงขอมลดานการแพทยและสขภาพ ทมการจดการฐานขอมลแบบเชงสมพนธไดหรอไม และมแนวทางในการด าเนนการอยางไร (How) หากตองปรบเปลยนวธการประมวลผล หรอหากจะตองประยกตใชกบสงทมอยเดมตองท าอยางไร (How) ซงการท างานกบ

Page 68: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

58

ขอมลขนาดใหญจะมปญหาในการจดเกบขอมล การโอนยายขอมล การส ารองขอมล และการสบคนคนขอมล จะมวธการอยางไร (How) ทจะชวยท าใหการจดการสบคนคนขอมล และน าขอมลจ านวนมากเหลานมาใชประโยชนไดภายในเวลาอนรวดเรวอยางมประสทธภาพมากทสด แตยงคงไวใหไดซงความถกตองของขอมลทไดรบการสบคนคน ดวยความส าคญของคณภาพขอมลในระบบบรการสขภาพจากลกษณะส าคญ 4 สวนคอ ครบถวน ถกตอง ละเอยด และทนสมย อกทงยงสรางโอกาสในการพฒนาสถานพยาบาลใหเจรญกาวหนาตอไปในอนาคตดวยคาใชจายในการลงทนทรพยากรและตนทนความเปนเจาของทต า

เทคโนโลยทจะน ามาใชศกษาวจยในงานวทยานพนธฉบบนจากปญหาทกลาวมาผวจยจงเลอกใชเทคโนโลยฮาดปและแมพรดวเปนโปรแกรมทน ามาใชเพอการทดลองหาความเหมาะสมในการใชงานรวมกบขอมลในระบบบรการสขภาพ

3.2 ขนตอน และวธการด าเนนงานวจย

ผวจยน าแนวคดหลกการออกแบบการวจยการทดลองขนพนฐานของการวจยเชงทดลอง 3 ประการ โดยการก าหนดตวแปร (Variable) และแบบแผนการทดลอง (Experimental design) ทใชส าหรบการออกแบบการทดลองดงน

ภาพท 3.2 การก าหนดตวแปรทใชในการทดลอง

ประการท 1 การเพมความแปรปรวนของการทดลองใหมากทสด (Maximization of experimental variance) ออกแบบการเพมความแปรปรวนของการทดลองดวยการออกแบบชดขอมลทมจ านวนระเบยนเพมขน ใชวธแบบงายก าหนดชวงขอมล โดยการก าหนดขอมลเรมตน หาแสนระเบยนเพมเปนหนงลานระเบยน และหาลานระเบยน และสบลานระเบยนตามล าดบ

Page 69: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

59

ประการท 2 การลดความแปรปรวนของความคลาดเคลอนใหนอยทสด (Minimization of error variance) ออกแบบการลดความแปรปรวนของความคลาดเคลอนในดานผลของความเรวการคนหา ดวยสภาพแวดลอมและเครองมอชนดเดยวกนในขณะท าการทดสอบ

ประการท 3 การควบคมตวแปรแทรกซอน (Control of extraneous variables) ออกแบบการควบคมตวแปรแทรกซอนโดยการทดสอบดวยกลมตวอยางและชดแบบสอบถามในการคนหาชดเดยวกน เพอลดความคลาดเคลอนของผลลพธของการทดลอง

หลกการออกแบบขนพนฐานใชเปนกรอบแนวคดน ากระบวนการทดลอง ก าหนดแบบแผนการทดลองจรง (True-experimental design) มการเกบผลการทดลองจากการประมวลผลจ านวน 3 ครง และหาคาเฉลย ท าการเปรยบเทยบระหวางกลมการทดลองประมวลผล 2 รปแบบ

การก าหนดขนตอนและวธการด าเนนการทดลอง ผวจยค านงถงการประมวลผลของระบบเทคโนโลยในการเปรยบเทยบยดหลกเครองมอทใชอยในปจจบนกบเครองมอทตองการใชในอนาคตจะรองรบการปรบเปลยนหรอไม ก าหนดแนวทางของขนตอนและวธการทดลองไวดงน

ภาพท 3.3 ขนตอนและวธด าเนนการทดลอง

Page 70: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

60

1) เตรยมขอมลชดทดสอบ 2) สมคดเลอกขอมลชดทดสอบตามกลมทก าหนด 3) เตรยมชดแบบสอบถามทดสอบเอสควแอลและแมพรดว 4) ทดสอบการประมวลผลดวยชดแบบสอบถาม 5) บนทกผลลพธจากการประมวลผล 6) น าผลลพธทไดน ามาวเคราะหสถตเปรยบเทยบการประมวลผล 7) สรปผลทไดจากการวเคราะหสถต

3.2.1 เตรยมขอมลชดทดสอบ

ชดขอมลทดสอบเปนขอมลบรการสขภาพ เกบรวบรวบขอมลจากกระทรวงสาธารณสขดวยระบบคอมพวเตอรเครองแมขายระดบจงหวด การคดเลอกน าชดขอมลทดสอบท าการคดเลอกการสมตวอยางดวยเทคนควธแบบเฉพาะเจาะจง (Purposive Sampling) การคดเลอกกลมตวอยางแบบเจาะจงเปนการเลอกกลมตวอยางโดยอาศยการตดสนใจ (Judgment Sampling) การคดเลอกนใชการตดสนใจจากผเชยวชาญขอมลสขภาพเปนผคดเลอกขอมล ท าการคดเลอกดวยเหตผลในดานขอมลผปวยเปนความลบ ขอมลการเจบปวยไมสามารถเปดเผยไดตามกฎหมายสาธารณสขทวาดวยขอมลการเจบปวยของผปวยเปนความลบ ผเชยวชาญด าเนนการตดขอมลชอและนามสกลออกจากขอมลการทดสอบ และท าการสมคดเลอกน าตวอยางกลมขอมลทดสอบเพยงบางสวนตามจ านวนทผวจยตองการทดสอบโดยการคดเลอกกลมตวอยาง 3 จงหวด จากทงสน 76 จงหวด และคดเลอกขอมลชดตวอยาง 2 แฟม จากแฟมมาตรฐาน 43 แฟม มแฟมขอมล DIAGNOSIS_OPD คอ แฟมขอมลวนจฉยโรคของผปวยนอกและผมารบบรการ

ตารางท 3.1 จ านวนขอมลชดทดสอบแฟม Diagnosis_opd

ชอแฟม จ ำนวนระเบยน ขนำดไฟล (MB)diagnosis_opd_1.txt 899,972 65.2diagnosis_opd_2.txt 5,558,268 374.0diagnosis_opd_3.txt 6,308,357 454.0

รวม 12,766,597 893.2

แฟม Diagnosis_opd

Page 71: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

61

ขอมลบรการสขภาพ ส านกนโยบายยทธศาสตรและยทธศาสตร กระทรวงสาธารณสข มการก าหนดโครงสรางมาตรฐานขอมลดานการแพทยและสขภาพไวเปนมาตรฐาน ผวจยด าเนนการสรางตารางในฐานขอมลทดสอบทมลกษณะโครงสรางไวดงน

ตารางท 3.2 โครงสรางแฟมขอมลมาตรฐานของตาราง Diagnosis_opd

เรมตนการคดกรองขอมลชดทดสอบทไดจากขนตอนการเตรยมชดขอมลกอนน าเขาระบบฐานขอมลมายเอสควแอล

ภาพท 3.4 ขนตอนการคดกรองตรวจสอบขอมลชดทดสอบ

การผานขนตอนการคดกรองตรวจสอบคณภาพขอมล มวตถประสงคในการตรวจเชคความไมสมบรณของขอมลทไดมาจากการบนทก หรอการเกดการสญหายของขอมลในกระบวนการประมวลผลหรอสงตอขอมล เพอใหเกดความเชอถอไดในขอมลชดกอนทดสอบ การ

No Field Caption Primary Type Data Not Null1 HOSPCODE รหสสถานบรการ Y CHAR(5) Y 2 PID ทะเบยนบคคล Y CHAR(15) Y 3 SEQ ล าดบท Y CHAR(16) Y 4 DATE_SERV วนทใหบรการ DATE Y5 DIAGTYPE ประเภทการวนจฉย CHAR(1) Y6 DIAGCODE รหสการวนจฉย Y CHAR(6) Y 7 CLINIC แผนกทรบบรการ CHAR(5) Y8 PROVIDER เลขทผใหบรการ CHAR(15)9 D_UPDATE วนเดอนปทปรบปรง DATETIME Y

Page 72: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

62

คดกรองขอมลเมอพบขอมลไมสมบรณ จะท าการตดขอมลทไมสมบรณของแถวหรอระเบยนนนออกจากขอมลชดทดสอบ

ภาพท 3.5 ภาพการแสดงขอมลชดตวอยางกอนคดกรองดวยโปรแกรม EmEditor

การตดขอมลทไมสมบรณ (Define Separate) ดวยวธการตรวจสอบพสจนตวอกษร (Regular Expression) และการใชอกขระพเศษ (Wildcard) ในไฟลชดตวอยาง ดวยโปรแกรมอเอมอดเตอร (EmEditor) เปนเครองมอทใชในการตรวจเชคขอมล ท าการจดแบงคอลมนดวยอกขระพเศษ เพอจดรปแบบระเบยนซงคนคอลมนดวยอกขระพเศษเสนตงหรอไพป (Pipe) ใชสญลกษณเสนในแนวต ง ( | ) ไฟลทผานการคดกรองแลวจะน าเขาฐานขอมลมายเอสควแอล ตวอยางระเบยนขอมลแฟมขอมลทวไปของประชาชน 00933|3101490000023|000002|846| 003 |||0000002|1|1956-05-20|3|014|5152|099|099|01|03|2|||||2005-01-20|1||||||1|2012-07-25 16:47:17

Page 73: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

63

ภาพท 3.6 ภาพการแสดงขอผดพลาดขอมลชดตวอยางดวยโปรแกรม EmEditor

3.2.2 สมคดเลอกขอมลชดทดสอบตามกลมทก าหนด การก าหนดขนาดตวอยางโดยการใชวธการเลอกตวอยางแบบก าหนดจ านวนหรอแบบ

โควตา (Quota Sampling) ก าหนดจ านวนตวอยางไวอยางชดเจนแลวท าการคดเลอกสมขอมลชดทดสอบตามจ านวนทก าหนด หรอการเลอกแบบงายหรอแบบสะดวก (Simple Random Sampling) ใชการสมอยางงายดวยระบบคอมพวเตอร โดยใชฟงกชน Rand() ในระบบฐานขอมล เปนการสมระเบยนออกจากฐานขอมลน ามาเกบแยกเปนตารางขอมลชดทดสอบออกเปน 4 ชด การคดเลอกจ านวนในชดดงน ชดท 1 มจ านวน 500,000 ระเบยน ชดท 2 มจ านวน 1,000,000 ระเบยน ชดท 3 มจ านวน 5,000,000 ระเบยน ชดท 4 มจ านวน 10,000,000 ระเบยน ตามล าดบ

ภาพท 3.7 ขนตอนการสมขอมลการทดสอบออกเปน 4 ชดขอมล

Page 74: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

64

ในขนตอนการสมคดเลอกขอมลชดทดสอบตามกลมทก าหนด มชดค าสงฟงกชน Rand( ) เปนชดค าสงการสม การสมในระบบฐานขอมลเพอท าการดงระเบยนบนทกแยกตารางจากระบบฐานขอมลเดม วตถประสงคเพอการควบคมจ านวนระเบยนในการทดสอบ ลดตวแปรแทรกซอนและความคลาดเคลอนทจะสงผลกระทบตอเวลาการคนหา และผลลพธทจะไดจากการทดสอบ และการตรวจสอบคณภาพของเครองมอ ใชการตรวจสอบโดยผเชยวชาญขอมลระบบสขภาพ

3.2.3 เตรยมชดแบบสอบถามทดสอบเอสควแอลและแมพรดว การเตรยมค าสงชดทดสอบหรอชดแบบสอบถามทดสอบเอสควแอลและแมพรดว ดวย

การใชชดแบบสอบถามทค านงถงหลกการใชงานการคนคนเพอจดท าสถตทางการแพทยจากสรปรายงานการปวย พ.ศ. 2557 จ านวน 2 รายงาน ดงน

1) รายงาน 10 ล าดบแรกจ านวนผปวยนอกตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) พ.ศ.2557 (รายงานตวอยาง ในภาคผนวก ก)

2) รายงานจ านวนผปวยนอกรวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) พ.ศ.2557 (รายงานตวอยาง ในภาคผนวก ก)

3.2.4 ทดสอบการประมวลผลดวยชดแบบสอบถาม ทดสอบการประมวลผลดวยชดแบบสอบถามเอสควแอลและแมพรดว ขนตอนการ

ทดสอบในระบบฐานขอมลเชงสมพนธ เปนการจดรปแบบภาษาสอบถามขอมลเอสควแอล

ภาพท 3.8 ขนตอนการประมวลผลและปรบปรงกระบวนการแบบสอบถามขอมล

ส าหรบการทดสอบประมวลผล และด าเนนการปรบปรงประสทธภาพการคนคนดวยการปรบปรงการเพมดชน ซงในการทดลองนการท าดชนคอการท าคยหลก (Primary Key) ซงคย

Page 75: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

65

หลกถอเปนขอมลทเปน Unique และ Nut Null และ Index รปแบบหนง หลงจากนนท าการประมวลผลดวยชดแบบสอบถามทจดเตรยมไวแลวน าผลทไดเกบลงในตารางบนทกผลการทดลอง และท าการปรบปรงการจดชดค าถามรปแบบภาษาสอบถาม (Query Optimizer) เพอคนหาชดแบบสอบถามทใชเวลาในการประมวลผลนอยทสด เกบขอมลผลทดทสดทปรบปรงแลวจดเกบลงในตารางบนทกผลการทดลอง

ขนตอนการทดสอบในระบบเทคโนโลยขอมลขนาดใหญ ดวยการน าชดแบบสอบถามเอสควแอล ท าการปรบเปลยนเปนการจดชดแบบสอบถามรปแบบค าสงตามภาษาโครงสรางโปรแกรมฮาดปและแมพรดว น ามาท าการประมวลผลดวยชดแบบสอบถามโปรแกรมแมพรดว ซงชดแบบสอบถามแมพรดวใชทดสอบกบไฟลทจดเกบอยในรปแบบเทกซไฟล (Text File) หรอรปแบบซเอสวไฟล (CSV) ตามขอมลตวอยางตารางท 3.3

ตารางท 3.3 ตวอยางชดขอมลจากตาราง Diagnosis_opd ทน าเขาทดสอบ

กระบวนการในขนตอนการทดสอบการท างานของระบบการจดเกบขอมลแบบกระจายฮาดปและการประมวลผลแบบขนานแมพรดวนน ผวจยเลอกใชขนตอนในการดงขอมลออกจากตารางขอมลในฐานขอมลมายเอสควแอลโดยจะใชเครองมอของการจดการฐานขอมลเชงสมพนธในระบบโปรแกรมมายเอสควแอลท าการสงออกขอมลจากตารางทไดท าการคดกรองไวเรยบรอยแลวออกเปนไฟลรปแบบซเอสวไฟล (CSV) หลงจากนนท าการน าขอมลเขาสระบบเทคโนโลย

HOSPCODE PID SEQ DATE_SERV DIAGTYPE DIAGCODE CLINIC PROVIDER D_UPDATE

00933 000003 636436 6/11/2014 1 Z123 00000 0004 6/11/2014 15:20

00933 000004 634919 19/11/2014 1 Z123 00000 0004 25/11/2014 18:21

00933 000005 634920 19/11/2014 1 Z123 00000 0004 25/11/2014 18:21

00934 022886 482116 22/6/2015 1 I10 00000 0009 11/7/2015 16:53

00934 022886 482527 28/6/2015 1 Z099 00000 0005 30/6/2015 14:56

00934 022886 483062 5/7/2015 1 Z251 00000 0017 5/7/2015 14:35

00934 022886 487831 14/9/2015 1 I10 00000 0005 8/10/2015 11:59

00941 062537 647821 13/4/2015 1 Z235 00000 0028 10/5/2015 17:57

00941 062537 647821 13/4/2015 4 Z236 00000 0028 10/5/2015 17:57

00941 062538 657548 11/5/2015 1 J069 00000 0006 11/5/2015 10:02

00941 062538 657548 11/5/2015 4 Z133 00000 0006 11/5/2015 10:02

00941 062539 639673 12/3/2015 1 Z001 00000 0005 28/3/2015 13:25

00937 027620 640775 21/2/2015 4 Z012 01100 0022 21/2/2015 17:18

00937 027620 640775 21/2/2015 4 Z133 01100 0010 21/2/2015 17:18

00937 027620 652230 11/5/2015 4 Z123 00000 0008 11/5/2015 16:54

00937 027620 652230 11/5/2015 4 Z133 00000 0008 11/5/2015 16:54

Page 76: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

66

ขอมลขนาดใหญดวยการน าเขาในระบบจดเกบขอมลแบบกระจายหรอ HDFS ในระบบฮาดป เปนการน าสงไฟลทจดเตรยมไวเขาระบบเพอรอการเรยกใชงาน เมอด าเนนการจดเตรยมขอมลในรปแบบการกระจายเรยบรอย จะด าเนนการทดสอบประมวลผลชดแบบสอบถามทจดเตรยมไวดวยเทคนคแมพรดว ตามขนตอนดงภาพท 3.9

ภาพท 3.9 ขนตอนการประมวลผลดวยเทคโนโลยขอมลขนาดใหญ

ตวอยางรปภาพท 3.10 สามารถแสดงขนตอนการประมวลผลแมพรดวเพอคนหารหสสถานพยาบาลทใหบรการสขภาพ ในตวอยางเปนชดขอมลจากตาราง Diagnosis_opd เพอคนหาจ านวนสถานพยาบาลทมรหส 00933 ในตารางขอมล โดยมขนตอน Input เพอน าขอมลเขา โปรแกรมจะท าการจบ Key/Value ตามทไดออกแบบไว Key = ชอแฟม และ Value = ชดขอมลในระเบยน แลวท าการแปลงขอมลใหอยในรปแบบ Key/Value ทสามารถใชในขนตอไปได ขนตอน Map จะท าการจบคสงทตองการคนหาโดยการปอนรหสสถานพยาบาลทตองการนบ ตวอยางเชน (Diagnosis_opd, 00933) หลงจากนนจะท า Shuffle & Sort ใหมหรอการจดเรยงตามกลมทก าหนด ตามกระบวนการท างานของโปรแกรมเพอสงไปยงขนตอนตอไป ขนตอนการ Reduce จะท าการน าขอมลทไดท าการจบค Key/Value ใหม แลวน ามาท าการนบจ านวนรหสสถานพยาบาลทตองการแลวท าการแสดงผลบนหนาจอ

Page 77: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

67

ภาพท 3.10 ขนตอนการประมวลผลชดขอมลตวอยางดวยเทคนคแมพรดว

3.2.5 บนทกผลลพธจากการประมวลผล

การบนทกผลจากการทดลองผวจยมแนวคดการด าเนนการจดเกบผลการทดลองใน 3 ขนตอนการทดลองดงน

1) ขนตอนการเตรยมขอมล เปนขนตอนการน าไฟลขอมลทมการเกบรวบรวมไวเปนรปแบบเทกซไฟลจากกระทรวงสาธารณสขน ามาคดเลอกส าหรบการทดลอง

2) ขนตอนการน าเขาขอมล เปนขนตอนการคดกรองขอมลตามจ านวนกลมของขอมลทมการขยายตวอยางเปนล าดบ ตามทก าหนดไวส าหรบใชในการทดลอง

3) ขนตอนการประมวลผล เปนขนตอนทประมวลผลดวยชดแบบสอบถามทจดเตรยมไวจากรายงานการเจบปวย และท าการประมวลผลกบเทคโนโลยขอมล 2 รปแบบ

การเกบบนทกผลการทดลองเพอน าใชในการวเคราะหขอมลดวยสถต ดวยการจดเกบผลลพธของเวลาในการประมวลผลหลงจากด าเนนการปรบปรงกระบวนการประมวลผลแลว จ านวน 3 ครง ท าการจดเกบขอมลผลการทดลองตามกลมจ านวนระเบยน ดวยการประมวลผลกบชดแบบสอบถาม จากรายงานการเจบปวย พ.ศ.2557 ม 2 กลม ดงน

กลม 1 การประมวลผลดวยเทคโนโลยระบบการจดการฐานขอมลเชงสมพนธดวยภาษาสอบถามเชงโครงสรางเอสควแอล ท าการบนทกผลการทดลองหลงจากมการปรบปรงกระบวนการสอบถามขอมล จ านวน 3 ครง ตามกลมจ านวนระเบยน บนทกผลเปนหนวยของเวลาวนาท

กลม 2 การประมวลผลเทคโนโลยระบบขอมลขนาดใหญดวยเทคนคแมพรดว ท าการบนทกผลการทดลองหลงจากมการปรบปรงกระบวนการสอบถามขอมล จ านวน 3 ครง ตามกลมจ านวนระเบยน บนทกผลเปนหนวยของเวลาวนาท

3.2.6 น าผลลพธทไดน ามาวเคราะหสถตเปรยบเทยบการประมวลผล หลงจากท าการประมวลผลกบเทคโนโลยขอมล 2 รปแบบ การน าผลลพธทไดน ามา

วเคราะหทางสถตเพอเปรยบเทยบผลลพธจากการประมวลผล มวตถประสงคเพอน าผลลพธมาอภปรายผลทางสถต เลอกใชสถตเชงพรรณนา (Descriptive Statistics) ใชเพอคนหาค าตอบจาก

Page 78: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

68

ผลลพธทไดจากขนตอนการเตรยมขอมล และน าเขาขอมล และจากการประมวลผล ประกอบดวยคาเฉลย (Mean) รอยละ (เปอรเซนต) และท าการแสดงผลดวยกราฟหรอแผนภม และสถตเชงอนมาน (Inferential Statistics) ใชเพอหาค าตอบจากสมมตฐานทไดคาดการณไวลวงหนา

การวเคราะหสถต ดวยวธการวเคราะหทางสถต t-Test Paired Two Sample for Means ดวยการใชโปรแกรม Excel มาตรการวด (Measurement Scale) คอ มาตราอตราสวน (Ratio Scale) เปนขอมลเวลาทใชในการประมวลผล มการก าหนดใหคานยส าคญท 05.0 ทจะน ามาใชทดสอบสมมตฐาน ซงเปนการก าหนดความนาจะเปนทผวจยจะยอมใหเกดความคลาดเคลอนประเภทท 1 () จากการปฏเสธสมมตฐานหลกทเปนจรง

สมมตฐานทผวจยไดสนนษฐานไว สามารถแสดงไดดงน 1) ผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยขอมล

ขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน ทดสอบจากคาเฉลยของกลมขอมลผลของเวลา คาสมมตฐานทถกพสจนดวยสถต t-Test Paired Two Sample for Means จากขอตกลง

เบองตน คอใชส าหรบการทดสอบคาเฉลยของ 2 กลม เพอวเคราะหความแตกตางของประชากรมหรอไม และมนยส าคญหรอไม สามารถใชกบขอมลมาตราอตราสวน และใชกบขอมลจ านวนนอย และเพอใชกบกลมขอมลจ านวน 2 กลม

2) ผลลพธของความแมนย าถกตองการคนคนขอมลเมอมการเปรยบเทยบระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธไมแตกตางกน

มการเปรยบเทยบผลการทดลองจากขอมลโดยการใหคาอตราเปอรเซนตความถกตองเปรยบเทยบกนระหวาง ผลลพธความถกตองของการประมวลผลดวยเทคโนโลยระบบฐานขอมลมายเอสควแอลและระบบเทคโนโลยขอมลขนาดใหญฮาดปและแมพรดวมผลลพธทถกตองตรงกน มความแมนย าเหมอนกน เทคโนโลยขอมลขนาดใหญนสามารถน ามาใชงานทดแทนกนไดหรอไม

3.2.7 สรปผลทไดจากการวเคราะหสถต สรปผลทไดจากการวเคราะห ผลลพธทจะไดจากการทดลองสามารถแสดงผลได

หลากหลายรปแบบ ผวจยมแนวคดการเลอกการสรปผลออกเปน 3 สวนคอ 1) ผลลพธทไดจากการวเคราะหผลดวยสถตเชงพรรณนา 2) ผลลพธทไดจากการวเคราะหผลดวยสถตอนมานทจะใชพสจนผลจากการ

ตงสมมตฐานวาเปนจรงตามทสนนษฐานไวหรอไม 3) น าผลทไดจากการการวเคราะหขอมลเชงสถตพรรณนาน าไปเปรยบเทยบกบ

งานวจยทเกยวของ

Page 79: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

69

3.3 เครองมอด าเนนงานวจย 3.3.1 ฮารดแวร (Hardware)

เครองเซรฟเวอร จ านวน 3 เครอง ส าหรบใชเปนเครองมอในการทดลอง ก าหนดใหเปนเครองแม (Master) 1 เครอง และเครองลก (Slave) จ านวน 2 เครอง ซงมคณสมบตเหมอนกนดงน

1) CPU Intel® XEON 2.4 GHz 2) RAM 8 GB DDR3 3) HDD 2 TB

3.3.2 ซอฟตแวร (Software) ทใชในงานวจย มรายละเอยดดงน 1) โปรแกรม EmEditor เวอรชน 15.8.1 2) โปรแกรม Ubuntu Server 14.04.4 LTS 3) โปรแกรม phpMyAdmin 5.5.9 4) โปรแกรม MySQL 5.5.47 5) โปรแกรม Apache Hadoop 2.7.2 6) โปรแกรม Eclipse Standard/SDK (Kepler Service Release 2) 7) โปรแกรม Microsoft Excel Professional Plus 2010

3.3.3 เครอขาย (Network) การเชอมตอใชรปแบบการเชอมตอแบบสตาร (Star) หรอการเชอมโยงคอมพวเตอร

ทงหมดเขาดวยผานอปกรณเครอขายสวตซ (Switch) 1) Ethernet Switch 24 Port 10/100/1000 Gigabitgh6h

ภาพท 3.11 รปแบบเครอขายคอมพวเตอรทใชในงานวจย

Page 80: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

70

3.4 สถานทท างานวจย สถานททดลองทใชในงานวจย หองทดลองขอมลขนาดใหญ คณะวศวกรรมขอมลขนาดใหญ

คณะวศวกรรมศาสตร มหาวทยาลยธรกจบณฑตย

Page 81: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

บทท 4 ผลงานวจย และสรปผลงานวจย

ผลการวจยจากการทดลองเพอการศกษาและท าความเขาใจในเทคโนโลยขอมลขนาด

ใหญทมรปแบบการจดเกบแบบกระจายฮาดป และการประมวลผลแบบขนานแมพรดว ดวยการน าชดขอมลในระบบบรการสขภาพ เปนเครองมอทน ามาใชหาประสทธภาพของเวลาในการประมวลผลการคนคนขอมล ประเมนประสทธภาพความเรวดวยการวเคราะหผลโดยใชสถต t-Test ทดสอบสมมตฐานทคาดการณไวลวงหนา มรายงานผลงานวจยดงน

4.1 ผลการเตรยมขอมลชดทดสอบ

ผลการเตรยมขอมลชดทดสอบ ท าการคดเลอกขอมลดวยเทคนควธการสมแบบเฉพาะเจาะจง การคดเลอกกลมตวอยางแบบเจาะจงเปนการเลอกกลมตวอยางโดยอาศยการตดสนใจ โดยอาศยเกณฑการตดสนใจจากผเชยวชาญขอมลในระบบบรการสขภาพ และท าการสมคดเลอกกลมขอมลชดตวอยางจากแฟมมาตรฐาน 43 แฟม คดเลอกแฟมผปวยนอกเปนขอมลชดตวอยาง และท าการสมคดเลอกน าตวอยางกลมขอมลทดสอบเพยงบางสวนตามจ านวนทผวจยตองการทดสอบ โดยการคดเลอกกลมตวอยาง 3 จงหวด จากทงสน 76 จงหวด และท าขนตอนการท าความสะอาดคดกรองขอมลทมอกขระผดพลาดหรอแถวขอมลทมคอลมนเกนหรอขาดตดออก ไดขนาดระเบยนดงตารางท 4.1 ตารางท 4.1 การคดกรองคดเลอกขอมลชดทดสอบแฟม Diagnosis_opd

จ านวนระเบยน ขนาดไฟล จ านวนระเบยน ขนาดไฟล จ านวนระเบยน ขนาดไฟล เปอรเซนต เวลาทใช

ชอแฟม กอนคดกรอง (MB) หลงคดกรอง (MB) ทถกตดออก ลดลง (MB) ถกตดออก (วนาท)

diagnosis_opd_1.txt 899,972 65.2 899,294 65.1 678 0.1 0.0753% 2,880.00

diagnosis_opd_2.txt 5,558,268 374.0 5,555,064 373.0 3,204 1.0 0.0576% 12,960.00

diagnosis_opd_3.txt 6,308,357 454.0 6,304,556 442.0 3,801 12.0 0.0603% 18,720.00

รวม 12,766,597 893.2 12,758,914 880.1 7,683 13.1 0.0602% 34,560.00

แฟม Diagnosis_opd

Page 82: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

72

ตารางท 4.2 แบงการคดกรองชดทดสอบ 4 ชด เขาระบบฐานขอมลแฟม Diagnosis_opd

การด าเนนการคดกรองขอมล เมอท าการคดเลอกขอมลเรยบรอยแลว และมการน าเขา

ขอมลลงสระบบการจดการฐานขอมลเชงสมพนธมายเอสควแอลพรอมกบบนทกเวลาทใชในการน าเขาเปนวนาท และบนทกจ านวนระเบยนทสญเสยไปกบการปฏเสธจากระบบการจดการฐานขอมลมายเอสควแอล ยกตวอยาง เชน มคาซ ากนของคยหลก (Primary Key) เปนตน จงท าใหจ านวนระเบยนลดลงแตจะไมกระทบตอเปาหมายของการทดสอบหรอจ านวนไมนอยกวาขอมลทก าหนดไวส าหรบการทดลอง 4.2 ผลการสมคดเลอกขอมลชดทดสอบตามกลมทก าหนด

การบนทกผลในขนตอนท 4.2 การสมคดเลอกขอมลชดทดสอบตามกลมทก าหนด มการเกบบนทกเวลาทใชในการสมคดเลอกขอมลชดทดสอบแลวน าเขาฐานระบบการจดการฐานขอมลมายเอสควแอลใหมอกครง เพอตรวจสอบเวลาทใชกบจ านวนระเบยนโดยเฉลย

เมอท าการสมขอมลเขาระบบการจดการฐานขอมลมายเอสควแอลเปนทเรยบรอยแลว จะท าการน าขอมลดงกลาวในแตละชดขอมลออกมาในรปแบบไฟลซเอสว (CSV) เพอท าการน าขอมลเขาในระบบเทคโนโลยขอมลขนาดใหญฮาดปหรอ HDFS และท าการเปรยบเทยบดวยการจดท าตาราง

สมคดเลอกขอมลชดทดสอบตามกลมทก าหนด การก าหนดขนาดตวอยางโดยการใชวธการเลอกตวอยางแบบก าหนดจ านวนหรอแบบโควตา ท าการคดเลอกสมขอมลชดทดสอบตามจ านวนทก าหนด หรอการเลอกแบบงายหรอแบบสะดวก ใชการสมอยางงายดวยระบบคอมพวเตอรเขาระบบฐานขอมลมายเอสควแอลในตารางแฟมขอมลทก าหนดใหมโครงสรางตามมาตรฐานในระบบบรการสขภาพ โดยใชฟงกชน Rand() ในระบบฐานขอมล เปนการสมระเบยนออกจากฐานขอมลน ามาเกบแยกเปนตารางขอมลชดทดสอบออกเปน 4 ชด การคดเลอกจ านวนในชดดงน

Page 83: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

73

ชดท 1 มจ านวน 500,000 ระเบยน ชดท 2 มจ านวน 1,000,000 ระเบยน ชดท 3 มจ านวน 5,000,000 ระเบยน ชดท 4 มจ านวน 10,000,000 ระเบยน ตามล าดบ แบงขอมลออกเปน 4 ชด หลงจากทไดขอมลทงหมดจะถกน าขอมลออกเปนไฟล CSV และท าการน าเขาระบบ HDFS ดงตารางท 4.3 ตารางท 4.3 น าเขาขอมลชดทดสอบ 4 ชด แฟม Diagnosis_opd

4.3 ผลการเตรยมค าสงชดทดสอบเอสควแอลและแมพรดว

เตรยมชดค าถามทดสอบการประมวลผลดวยภาษาสอบถามขอมลเอสควแอลและการประมวลผลดวยเทคนคแมพรดว ดวยการใชชดค าถามทค านงถงหลกการใชงานการคนคนเพอจดท าสถตทางการแพทยจากสรปรายงานการปวย พ.ศ. 2557 จ านวน 2 รายงาน

1) รายงาน 10 ล าดบแรกจ านวนผปวยนอกตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) พ.ศ.2557 (รายงานตวอยาง ในภาคผนวก ก)

2) รายงานจ านวนผปวยนอกรวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) พ.ศ.2557 (รายงานตวอยางอย ในภาคผนวก ก)

จากการเตรยมชดแบบสอบถามตามขนตอนการทดสอบขอ 4.3 พบวาตองการรายการ

21 กลมโรคหลก น ามาใชในการประมวลผลรวมกบขอมลผปวยนอก แฟม 21 กลมโรค ก าหนดใหมคยหลกเพอควบคมคาซ ากนและท าการเชอมความสมพนธเพอจดท ารายงาน ดงรปท 4.1

CSV

จ านวนระเบยน ขนาดไฟล ขนาดไฟล เวลาทใช ขนาดไฟล เวลาทใช

ชอแฟม กอนน าเขาฐานขอมล (MB) (MB) (วนาท) (MB) (วนาท)

diagnosis_opd_5h 500,000 34.1 55.6 3.01 34.12 0.17

diagnosis_opd_1m 1,000,000 68.2 110.6 6.13 68.23 0.34

diagnosis_opd_5m 5,000,000 341.0 552.0 30.37 341.16 1.07

diagnosis_opd_10m 10,000,000 682.0 1,102.0 58.56 682.34 2.12

รวม 4 แฟม 16,500,000 1,125.3 1,820.2 98.07 1,125.85 3.70

แฟม Diagnosis_opd

Import MySQL Import Hadoop

Page 84: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

74

ภาพท 4.1 การเชอมโยงความสมพนธระหวางแฟมรหสกลมโรคและแฟมผปวยนอก

และในการก าหนดการเชอมโยงตารางขอมแฟมรหสกลมโรคกบแฟมผปวยนอก ซงมจ านวนขอมลในการน าเขาทงสน 2,136 ระเบยน ตวอยางสามารถแสดงไดดงตารางท 4.4 และไดด าเนนการสรางแฟมโครงสรางในระบบฐานขอมลมายเอสควแอล ดงตารางท 4.5

ตารางท 4.4 ตวอยางขอมลในแฟมรหสกลมโรค จ านวน 2,136 ระเบยน

รหส ICD-10 ชอกลมโรค ชอโรค

A00 1 โรคตดเชอและปรสต

A01 1 โรคตดเชอและปรสต

B00 1 โรคตดเชอและปรสต

B01 1 โรคตดเชอและปรสต

C00 2 เนองอก

C01 2 เนองอก

D00 2 เนองอก

D01 2 เนองอก

D50 3 โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน

D51 3 โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน

D52 3 โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน

. . .....

. . .....

. . .....

Y88 21 สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย

Y89 21 สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย

Page 85: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

75

ตารางท 4.5 โครงสรางตารางแฟม 21 กลมโรค

No Field Caption Primary Type Data Not Null 1 Diag21_Code รหสการวนจฉย Y CHAR(6) Y 2 Diag21_Group รหสกลมโรค CHAR(20) Y 3 Diag21_Name ชอโรค CHAR(100) Y

ในการประมวลในระบบฐานขอมลมายเอสควแอล ไดด าเนนการจดท าชดค าสงส าหรบ

เตรยมการทดลองการประมวลผลแบบสอบถามขอมล รายงานท 1 และ รายงานท 2 ดงน ชดค าสงการน าเขาขอมลเพอจดเกบเขาฐานขอมลมายเอสควแอลตามจ านวนทก าหนด

ตวอยาง ชดค าสงในการน าเขาขอมลจดเกบเขาฐานขอมลมายเอสควแอล ดวยภาษาเอสควแอล Insert into diagnosis_opd_5h (hospcode, pid, seq, date_serv, diagtype, diagcode,

clinic, provider, d_update) Select * from diagnosis_opd_all order by rand() limit 500000; ชดค าสงการเคลยรคาหนวยความจ าส ารองในระบบฐานขอมลมายเอสควแอล เพอท า

การลางคาขอมลจากระบบในการเรมตน เพอเกบผลการทดลองใหมใหครบตามจ านวน 3 ครง ดงน RESET QUERY CACHE; FLUSH QUERY CACHE; FLUSH TABLES; ชดค าสงส าหรบการประมวลผลรายงานท 1 ในการประมวลผลดวยภาษาสอบถามแบบ

มโครงสรางเอสควแอล ในระบบฐานขอมลเชงสมพนธ ตวอยาง ชดค าสงส าหรบการประมวลผลการคนคนขอมลดวยภาษาสอบถามเอสควแอล รายงานท 1 และรายงานท 2 ตามล าดบ

ตวอยางภาษาสอบถามแบบมโครงสรางเอสควแอล รายงานท 1 SELECT opd_diag.opd_diag3 AS กลมโรค, opd_diag.opd_diag4 AS สาเหตกลมการ

ปวย, COUNT( opd_diag.opd_diag3 ) AS จ านวนผปวยนอก FROM `diagnosis_opd_10m`, `opd_diag` WHERE LEFT( diagnosis_opd_10m.diagcode, 3 ) = opd_diag.opd_diag1 GROUP BY opd_diag.opd_diag3 ORDER BY จ านวนผปวยนอก DESC

ตวอยางภาษาสอบถามแบบมโครงสรางเอสควแอล รายงานท 2 SELECT opd_diag.opd_diag3 AS กลมโรค, opd_diag.opd_diag4 AS สาเหตกลมการ

ปวย, COUNT( opd_diag.opd_diag3 ) AS จ านวนผปวยนอก FROM `diagnosis_opd_10m`,

Page 86: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

76

`opd_diag` WHERE LEFT( diagnosis_opd_10m.diagcode, 3 ) = opd_diag.opd_diag1 GROUP BY opd_diag.opd_diag3 ORDER BY จ านวนผปวยนอก DESC LIMIT 10

ลกษณะการ Join ตาราง มหลายรปแบบตามทฤษฏ ม 6 ลกษณะ ดงน 1) Left Join 2) Inner Join 3) Full outer join 4) Right Join 5) Left Join (If Null) 6) Right Join (If Null) ซงในการทดลองนใชคณลกษณะการ Join แบบท 1 Left Join

ชดค าสงส าหรบการน าเขาขอมลในการจดเกบในระบบไฟลขอมล HDFS เพอท าการจดเกบแบบกระจายไปยงแหลงจดเกบในเครองเซรฟเวอรในกลมคลสเตอร ดงมตวอยาง ชดค าสงในการน าเขาขอมลจดเกบในระบบเทคโนโลยขอมลขนาดใหญฮาดปมดงน

hdfs dfs -put /home/node1/Documents/testhelloworld.txt /user ชดค าสงส าหรบการประมวลผลแบบขนาน ดวยเทคนคแมพรดวเปนขนตอนการ

ด าเนนการในขนตอนการประมวลผลขอมลจ านวน 3 ครง ตวอยางชดค าสงมดงน hadoop jar report2-0.1-SNAPSHOT-jar-with-dependencies.jar -1 healthcare/data/ diag_opd/ healthcare/data/test/keng/opd10m/ healthcare/data/output/keng/report210m ชดค าสงของภาษาจาวา ส าหรบการประมวลผลขอมลออกมาเปนรปแบบ CSV ไฟล

ตองน าผลลพธโดยการใชงานค าสงดงน ตวอยางชดค าสงการประมวลผลและท าการคนหาผลลพธและน าผลลพธเขาจดเกบในระบบ HDFS ดงมตวอยางซอรสโคดดงน public class Report2 { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); if (otherArgs.length != 4) { System.err.println("Command need 4 parameters but your input are " + otherArgs.length); System.err.println("Usage: \n\t[1.]n - Top n (-1 for all) \n" + "\t[2.] Master Diagnosis OPD Input Path \n" + "\t[3.] Diagnosis OPD Input Path\n" + "\t[4.] Output Path\n"); System.exit(2); } System.out.println("-1".equals(args[0]) ? "All records" : ("Top " + args[0]));

Page 87: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

77

conf.set(AppConstant.MAX_KEY, args[0]); conf.set(AppConstant.INPUT_SEPERATOR_KEY, "\\|"); //* * Job 1 - */ Job job1 = Job.getInstance(conf, "Report2 - Joining OPD and Diagnosis"); job1.setJarByClass(Report2.class); job1.setMapOutputValueClass(Text.class); job1.setReducerClass(FinalReducer.class); job1.setOutputKeyClass(Text.class); job1.setOutputValueClass(IntWritable.class); // Master Diagnosis MultipleInputs.addInputPath(job1, new Path(args[1]), TextInputFormat.class, DiagnosisMasterMapper.class); // Diagnosis OPD MultipleInputs.addInputPath(job1, new Path(args[2]), TextInputFormat.class, DiagnosisOPDMapper.class); FileOutputFormat.setOutputPath(job1, new Path(args[3] + "/joined")); job1.waitForCompletion(true); //* * Job 2 - */ Job job2 = Job.getInstance(conf, "Report2 - Counting"); job2.setJarByClass(Report2.class); job2.setMapperClass(JoinedDataMapper.class); job2.setCombinerClass(TopNReducer.class); job2.setReducerClass(TopNReducer.class); job2.setOutputKeyClass(Text.class); job2.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job2, new Path(args[3] + "/joined")); FileOutputFormat.setOutputPath(job2, new Path(args[3] + "/final")); System.exit(job2.waitForCompletion(true) ? 0 : 1); } }

Page 88: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

78

ชดค าสงภาษาจาวาดงกลาวมการท างานใน 2 ขนตอน ดงน ขนตอนงานท 1 คอ การ Join Data ในกระบวนการยอยของการ Join Data ม 3 ขนตอน

ดงน ขนตอนท 1.1 Map phase คอการท า Map ฟงกชน ท าการจบคคย รหสกลมโรคในแตละ

ระเบยนเพอการเรยกคนขอมล ตวอยางคคย (Diag_Code, D1) เปนตน ซงจะด าเนนการในขนตอนพรอมกน 2 ไฟล CSV คอ ไฟล Diagnosis_opd และขอมลรหสกลมโรค

ขนตอนท 1.2 Shuffle phase คอ การจดท าการรวบรวม Grouping และการจดเรยงล าดบ Sorting ใหม ตวอยางคคย (Diag_Code, Diag_Group)

ขนตอนท 1.3 Reduce phase คอ การลดจ านวนคคยเพอรวบรวมเปนผลลพธ Text File ส าหรบการเรยกใชในขนตอนท 2 Counting ตวอยางคคย (Diag_Code, [D1, Diag_Group])

ภาพท 4.2 ขนตอนการ Join Data โปรแกรมแมพรดว

ขนตอนงานท 2 คอ การ Counting และSorting Data ในกระบวนการยอยของการ Counting และ Sorting Data ม 3 ขนตอนดงน

ขนตอนท 1.1 Map phase คอการท า Map ฟงกชน ท าการจบคคย รหสกลมโรคในแตละระเบยนจากไฟลผลลพธทไดจากขนตอนท 1 เพอการเรยกคนคาขอมล ตวอยางคคย (Diag_Code, Total) เปนตน

Page 89: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

79

ขนตอนท 1.2 Shuffle phase คอ การจดท าการรวบรวม Grouping และการจดเรยงล าดบ Sorting ใหม ตวอยางคคย (Diag_Code, Diag_Group)

ขนตอนท 1.3 Reduce phase คอ การลดจ านวนคคยเพอรวบรวมเปนผลลพธเทกซไฟล Text File เปนผลการคนคนทงหมดในแตละรายงาน ตวอยางคคย (Diag_Code, [D1, Diag_Group])

ภาพท 4.3 ขนตอนการ Counting และ Sorting Data โปรแกรมแมพรดว

ชดค าสงของเทคโนโลยฮาดปและแมพรดว ส าหรบการน าผลลพธในการประมวลผลขอมลออกโดยการใชงานค าสงดงน ตวอยางชดค าสงการน าผลลพธทถกจดเกบไวใน HDFS น าออกเปนรปแบบเทกซไฟล (Text File) และน าเขาในโปรแกรมเอกเซล (Excel) เพอจดเรยงขอมล

hadoop fs -copyToLocal /user/hadoopuser/healthcare/data/person/person_2015_17.txt person_2015_17.txt

สรปขนตอนในภาพรวมของวธการแมพและรดว ดงน

ภาพท 4.4 ขนตอนการคนคนขอมลดวยโปรแกรมแมพรดว

Page 90: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

80

4.4 ผลการทดลองการประมวลผลดวยชดแบบสอบถามเอสควแอลและแมพรดว น ารายงานและเครองมอทไดจดเตรยมไวในขอ 4.3 น ามาท าการประมวลผลใหม สราง

เปนชดแบบสอบถามดวยรปแบบภาษาสอบถามเชงโครงสรางเอสควแอล ท าการประมวลผลกบชดขอมลทดสอบในขอท 2 จ านวน 3 ครงตอ 1 รายงาน ตอ 1 ชดขอมลในระบบฐานขอมลเชงสมพนธ และสรางชดแบบสอบถามดวยการเขยนโปรแกรมแมพรดวใชทดสอบกบไฟลขอมลชดทดสอบทจดเกบอยในรปแบบเทกซไฟลน าเขาในโปรแกรมฮาดปจดเกบแบบกระจาย HDFS ท าการประมวลผลจ านวน 3 ครงตอ 1 ชดขอมล ผวจยเลอกใชวธการตรวจสอบความเทยงตรง (Validity) ชดแบบสอบถาม 2 รปแบบ ดวยการทดลองใชประมวลผลในชดขอมลขนาดเลก เพอตรวจเชคผลลพธทไมถกตองตรงกนของขอมล เมอพบผลทผดพลาดจะท าการตรวจเชคหาจดทผดพลาดและท าการแกไขปรบปรงขอมลทง 4 ชด กอนประมวลผลเพอบนทกผลการทดลอง

ในการทดสอบความเทยงตรง เปนเตรยมการกอนทดสอบผวจยพบวาในระบบฐานขอมลมายเอสควแอล ในขนตอนการน าขอมลเขาขอมลในฐานขอมล และขนตอนการประมวลผลจะมผลตอประสทธภาพการท างานดานความเรวอยางยงกบขอมลทมปรมาณมากขนในระดบ 10 ลานระเบยน ใชเวลาในการน าเขามากกวา 2 ชวโมงขนไป ดงนนผวจยจงไดท าการศกษาเพมเตมในสวนของความสามารถและคณสมบตเฉพาะดานของระบบฐานขอมลมายเอสควแอล พบวาในระบบฐานขอมลมาสเอสควแอลมระบบการจดการฐานขอมลเชงสมพนธหรอม Storage Engine หลายรปแบบ ผวจยเลอกใชคณสมบตทมความนยมในการใชงานเพอทดสอบดงน

InnoDB คอคณสมบตการจดการฐานขอมลแบบทรานเซคชน (Transaction) เปนการเขยนโปรแกรมการจดการฐานขอมลแบบมมาตรฐาน ACID เปนหลก หรอเรยกวาการจดการในระบบทรานเซคชน และสนบสนนการท างานแบบ Foreign Key แตมขอเสยคอจะท างานไดชากวา MyISAM

MyISAM คอ การจดการแบบดงเดมทถกออกแบบมาโดยการใชแนวคดการท างานทตารางมากกวา และจะถกอานมากกวาการอบเดท แตมขอเสยคอคณสมบตนไมสนบสนนการท างานแบบทรานเซคชนจะไมสามารถเรยกคนขอผดพลาด (Rollback) ได

จากการทดสอบผวจยจงเลอกใชคณสมบตฐานขอมลแบบ InnoDB เนองจากฐานขอมลนมความนยมการใชงานโดยทวไปในโปรแกรมระบบขอมลสขภาพ ซงคณสมบตนเปนการจดการระดบทรานเซคชน ในหนวยงานระดบปฐมภมจะมการใชงานกนมาก และจากการตดสนใจเพอเลอกผลลพธเสมอนในการปฏบตงานจรงการเรยกใชรายงานการเจบปวยน จะท าเพยงปละ 1 ครง หรอเดอนละ 1 ครงเทานน

Page 91: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

81

ตารางท 4.6 ผลการเปรยบเทยบ Database Engine ของฐานขอมลมายเอสควแอล

ในขนตอนการเตรยมการทดสอบการประมวลผลเพอปรบปรงประสทธภาพการ

ประมวลผลดวยแมพรดวผวจยไดศกษาจากงานวจยทเกยวของจงทราบวาขนาดของบลอกไซค (Block Size) มสวนส าคญทจะสงผลใหประสทธภาพการประมวลผลขนอยกบระบบเครอขายดวย ดงนน ผวจยจงท าการทดสอบดวยบลอกไซค ขนาดมาตรฐานของระบบเทคโนโลยขอมลขนาดใหญฮาดป โดยการคดเลอกการทดสอบกบขอมลขนาดสบลานระเบยนดวยเหตผลทวาขอมลขนาดใหญขนจะเหมาะสมกบการประเมนประสทธภาพมากทสด ไดผลทดสอบตารางท 4.7 ผวจยจงท าการคดเลอกขนาดบลอกไซคเปน 128MB เพอท าการทดสอบเปรยบเทยบเทคโนโลยขอมล

ตารางท 4.7 ผลการเปรยบเทยบบลอกไซคของฮาดปและแมพรดว

จ านวน คาเฉลย คาเฉลย

แบบสอบถามขอมล ชดขอมล ระเบยนขอมล InnoDB MyISAM

diagnosis_opd_5h 500,000 1.2307 2.4603

diagnosis_opd_1m 1,000,000 2.6791 4.1068

diagnosis_opd_5m 5,000,000 61.1114 12.4483

diagnosis_opd_10m 10,000,000 150.7065 27.5282

diagnosis_opd_5h 500,000 1.2118 2.3861

diagnosis_opd_1m 1,000,000 2.6439 4.2724

diagnosis_opd_5m 5,000,000 60.7291 12.2554

diagnosis_opd_10m 10,000,000 142.8611 25.2866

รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตาม

กลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

รายงานจ านวนผปวยนอก รวมตามกลมสาเหต

การปวย (ไมรวมกรงเทพมหานคร)

ขนาด

ชดขอมล มาตรฐาน 64 เมกะไบต 128 เมกะไบต

10m 125.59 232.88 94.75

ฮาดปบลอกไซต

เวลาการประมวลผลแมพรดว (วนาท)

Page 92: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

82

4.5 บนทกผลลพธจากการประมวลผล การบนทกผลในข นตอนทดสอบการประมวลผลดวยชดค าถามเอสควแอล

และแมพรดว มการเกบบนทกเวลาทใชในการประมวลผลขอมลชดทดลอง การบนทกขอมลการทดลองก าหนดขอมลทตองการบนทกไวเปนมาตรการวด คอมาตราอตราสวน เปนขอมลเวลาทใชในการประมวลผลเปนวนาท เกบบนทกผลการทดลองในเทคโนโลยขอมล 2 รปแบบ

1) ผลของการคนคนแบบสอบถามขอมล ดวยภาษาสอบถามแบบเอสควแอล เมอท าทดสอบ 1 ครงจะท าการคนคาหนวยความจ าส ารองใหม และบนทกเวลาการทดสอบจ านวน 3 ครง และใหมสตรบนทกผลการทดลองดงนโดยมสตรการบนทกดงน

สตรการบนทกผลการคนคนดวยภาษาเอสควแอล Query Time=End Time – Start Time

ตารางท 4.8 ผลของการคนคนแบบสอบถามขอมล ดวยภาษาสอบถามแบบเอสควแอล

จ านวน 1) รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

2) รายงานจ านวนผปวยนอก รวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)

ระเบยน เวลาทใช (วนาท)

ครงท 1 ครงท 2 ครงท 3 ครงท 1 ครงท 2 ครงท 3

500,000 1.8054 0.9399 0.9467 1.7556 0.9423 0.9376 1,000,000 4.2826 1.8771 1.8776 4.1826 1.8726 1.8765 5,000,000 164.1651 9.5381 9.6311 162.9354 9.6163 9.6357

10,000,000 413.7557 19.1024 19.2613 390.376 19.1001 19.1073

2) ผลของการคนคนแบบสอบถามขอมล ดวยเทคนคแมพรดว จ านวน 3 ครง การเกบ

ผลไมรวมขนตอนการน าผลออกเพอจดท าแสดงผลภาพดวยโปรแกรมเอกเซลและใหมสตรบนทกผลการทดลองดงนโดยมสตรการบนทกดงน

สตรการบนทกผลการคนคนดวยเทคนคแมพรดว MR j1 = Map j1 + Reduce j1 MR j2 = Map j2 + Reduce j2 Total Time = MR j1 + MR j2

Page 93: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

83

ในขนตอนการบนทกผลของการประมวลผลเทคโนโลยขอมลขนาดใหญ ดวยเทคนควธแมพรดวนน โดยการเกบขนจากการรายงานผลของโปรแกรมเทคโนโลยขอมขนาดใหญของแตละงาน (Job) ดงตวอยางน

Map j1 : Total time spent by all maps in occupied slots (ms) = 9444 Reduce j1 : Total time spent by all reduces in occupied slots (ms) = 3813

ตารางท 4.9 ผลของการคนคนแบบสอบถามขอมล ดวยเทคนคแมพรดว

จ านวน เวลาทใช (วนาท) ระเบยน Map j1 Reduce j1 Map j2 Reduce j2

1 2 3 1 2 3 1 2 3 1 2 3

500,000 6.245 6.245 6.956 4.144 4.144 2.800 1.920 1.920 1.937 1.933 1.933 1.875 1,000,000 9.234 9.446 9.075 4.097 3.934 4.449 1.901 1.920 1.913 1.950 1.899 1.916 5,000,000 35.298 37.618 38.236 11.884 9.795 14.253 1.983 2.913 1.929 1.926 1.903 1.938

10,000,000 128.192 134.972 108.763 28.792 27.440 29.924 1.875 1.910 1.899 3.560 1.948 1.925

จากผลการทดลองทไดเพอใหสามารถท าการเปรยบเทยบประสทธภาพดานเวลาการ

ประมวลผลดวยภาษาเอสควแอลกบวธแมพรดว ไดใกลเคยงกบจดท ารายงานใหกระบวนการจดท ารายงานจรง ซงวธแมพรดวสามารถด าเนนการไดเพยงครงเดยวสามารถท าประมวลผลขอมลไดผลลพธออกรายงานได 2 รายงาน จงท าการสรปการเปรยบเทยบการประมวลผลดวยเอสควแอลน าผลรายงานทงสองมารวมกน รายงานตวอยางท 1 + รายงานตวอยางท 2 และรปแบบการประมวลผลแบบขนานเทคนคแมพรดว ในงาน MR j1 ผลรวมกบ MR j2 ดงสามารถสรปไดดงตารางท 4.10

ตารางท 4.10 ผลการเปรยบเทยบผลรวมจากการประมวลผลเทคโนโลยขอมล 2 รปแบบ

จ านวน ภาษาสอบถามเชงโครงสรางเอสควแอล รายงานท 1 + 2 หนวยเวลาเปน (วนาท)

ภาษาสอบถามดวยแทคนคแมพรดว MR j1 + MR j2 หนวยเวลาเปน (วนาท)

ระเบยน ครงท 1 ครงท 2 ครงท 3 ครงท 1 ครงท 2 ครงท 3 500,000 3.561 1.8822 1.8843 14.2420 14.2420 13.5680

1,000,000 8.4652 3.7497 3.7541 17.1820 17.1990 17.3530 5,000,000 327.1005 19.1544 19.2668 51.0910 52.2290 56.4460

10,000,000 804.1317 38.2025 38.3686 162.4190 166.2700 142.5110

Page 94: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

84

ผลการเปรยบเทยบประสทธผลดานความแมนย าถกตองทง 2 ระบบ ท าการบนทกในตารางบนทกและไดด าเนนการเปรยบเทยบดวยคารอยละ (เปอรเซนต) ดงยกตวอยางรายงานทน ามาแสดงตารางท 4.11

ตารางท 4.11 สรปผลเปรยบเทยบความแมนย าถกตองจากการประมวลผล

รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) กลม จ านวนผปวยนอก ผลความ

โรค สาเหตกลมการปวย 5 แสน 1 ลาน 5 ลาน 10 ลาน แมนย าถกตอง

SQL MR SQL MR SQL MR SQL MR รอยละ (%)

4 โรคเก ยวกบตอมไรทอ… 40475 40475 80330 80330 402100 402100 803921 803921 100%

9 โรคระบบไหลเวยนเลอด… 38240 38240 75508 75508 378424 378424 756420 756420 100%

10 โรคระบบหายใจ… 32872 32872 66079 66079 329670 329670 661610 661610 100%

11 โรคระบบยอยอาหาร… 24665 24665 49333 49333 245614 245614 492848 492848 100%

13 โรคระบบกลามเนอ… 22666 22666 45231 45231 226363 226363 451451 451451 100%

18 อาการแสดงและสงผดปกต… 19362 19362 37941 37941 190885 190885 382004 382004 100%

5 ภาวะแปรปรวนทางจต… 10265 10265 20439 20439 102636 102636 205790 205790 100%

1 โรคตดเชอและปรสต… 8916 8916 17652 17652 87787 87787 176598 176598 100%

14 โรคระบบสบพนธรวม… 8319 8319 17144 17144 84858 84858 169937 169937 100%

7 โรคตารวมสวนประกอบ… 6943 6943 13972 13972 69832 69832 140556 140556 100%

4.6 น าผลลพธทไดมาวเคราะหสถต

น าผลลพธทไดน ามาวเคราะหสถต มวตถประสงคเพอน าผลมาอภปรายผลทางสถต เลอกใชสถตเชงพรรณนา ประกอบดวยคาเฉลย, รอยละ(เปอรเซนต) และการแสดงผลดวยกราฟหรอแผนภม และสถตเชงอนมานจะใชคนหาค าตอบสมมตฐานทไดคาดการณไวลวงหนา

การรวบรวมผลการวจยเปนวนาท จากการประมวลผลจากเทคโนโลยระบบการจดการฐานขอมลเชงสมพนธ (RDBMS) จากตารางท 4.10 เปนรายงานทรวมผลโดยการรวบรวมรายงานตวอยางท 1 สรปรวมกบรายงานตวอยางท 2 ตามกลมจ านวนระเบยน และรปแบบการจดเกบแบบกระจายฮาดปและการประมวลผลแบบขนานแมพรดว ในงาน MR Job1 ผลรวมกบ MR Job 2 จากตาราง ดงตารางท 4.10 ท าการวเคราะหผลทางสถต t-Test: Paired Two Sample for Means ดวยโปรแกรมเอกเซล ไดสรปผลการวเคราะหดวยสถตตามกลมจ านวนระเบยนดงน

Page 95: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

85

ตารางท 4.12 ผลการวเคราะห t-Test: Paired Two Sample for Means (5 แสนระเบยน)

ตารางท 4.13 ผลการวเคราะห t-Test: Paired Two Sample for Means (1 ลานระเบยน)

จ านวนการประมวลผล แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)

ครงท 1 14.242 3.561

ครงท 2 14.242 1.8822

ครงท 3 13.568 1.8843

แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)

Mean 14.01733333 2.4425

Variance 0.151425333 0.93828279

Observations 3 3

Pearson Correlation 0.49906095

Hypothesized Mean Difference 0

df 2

t Stat 23.73471762

P(T<=t) two-tail 0.001770424t Critical two-tail 4.30265273

ชดขอมล 5 แสนระเบยน

t-Test: Paired Two Sample for Means (500,000 Record)

จ านวนการประมวลผล แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)

ครงท 1 17.182 8.4652

ครงท 2 17.199 3.7497

ครงท 3 17.353 3.7541

แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)

Mean 17.24466667 5.323

Variance 0.008874333 7.40507047

Observations 3 3

Pearson Correlation -0.575440961

Hypothesized Mean Difference 0

df 2

t Stat 7.437026779

P(T<=t) two-tail 0.017604107t Critical two-tail 4.30265273

ชดขอมล 1 ลานระเบยน

t-Test: Paired Two Sample for Means (1,000,000 Record)

Page 96: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

86

ตารางท 4.14 ผลการวเคราะห t-Test: Paired Two Sample for Means (5 ลานระเบยน)

ตารางท 4.15 ผลการวเคราะห t-Test: Paired Two Sample for Means (10 ลานระเบยน)

จากผลคาเฉลยทางสถตของทกชดขอมลสามารถน ามาด าเนนการจดตารางสรปผลคาเฉลยทางสถต ดงตารางท 4.16

จ านวนการประมวลผล แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)

ครงท 1 51.091 327.1005

ครงท 2 52.229 19.1544

ครงท 3 56.446 19.2668

แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)

Mean 53.25533333 121.8405667

Variance 7.959026333 31598.73333

Observations 3 3

Pearson Correlation -0.664156311

Hypothesized Mean Difference 0

df 2

t Stat -0.661260698

P(T<=t) two-tail 0.576433824t Critical two-tail 4.30265273

t-Test: Paired Two Sample for Means (5,000,000 Record)

ชดขอมล 5 ลานระเบยน

จ านวนการประมวลผล แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)

ครงท 1 162.419 804.1317

ครงท 2 166.270 38.2025

ครงท 3 142.511 38.3686

แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)

Mean 157.0666667 293.5676

Variance 162.6081243 195506.7821

Observations 3 3

Pearson Correlation 0.363323549

Hypothesized Mean Difference 0

df 2

t Stat -0.540169293

P(T<=t) two-tail 0.643184955t Critical two-tail 4.30265273

ชดขอมล 10 ลานระเบยน

t-Test: Paired Two Sample for Means (10,000,000 Record)

Page 97: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

87

ตารางท 4.16 ตารางสรปผลเวลาเฉลยการประมวลผลเทคโนโลยขอมล 2 รปแบบ (วนาท)

จากตารางสรปผลคาเฉลยสามารถน ามาด าเนนการจดท ากราฟเพอการวเคราะหผลคาเฉลยเปรยบเทยบเทคโนโลยขอมล 2 รปบแบบ ดงภาพท 4.5

ภาพท 4.5 กราฟแสดงผลเปรยบเทยบการประมวลผลเทคโนโลยขอมล 2 รปแบบ

จ านวนระเบยนขอมล 5 แสน 1 ลาน 5 ลาน 10 ลาน

MySQL 2.44 5.32 121.84 293.56

Hadoop / MapReduce 14.01 17.24 53.25 157.06

ตารางสรปผลเปรยบเทยบคาเฉลยเวลาการประมวลผล (วนาท)คาเฉลย (Mean)

Page 98: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

88

4.7 สรปผลทไดจากการวเคราะหสถต จากสมมตฐานทคาดการณไว ลวงหนาวาผลลพธของเวลาในการคนคนขอมล เมอมการ

เปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธแตกตางกน ก าหนดคานยส าคญท 05.0 มผลค านวณสถต t-Test : Paired Two Sample for Means ดวยโปรแกรมเอกเซลดงน

ตารางท 4.12 สรปผลการวเคราะหคาเฉลยดวยสถต t-Test : Paired Two Sample for Means กลมขอมล 5 แสนระเบยน สามารถแปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.001 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = 23.73 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30

ตารางท 4.13 สรปผลการวเคราะหคาเฉลยดวยสถต t-Test: Paired Two Sample for Means กลมขอมล 1 ลานระเบยน สามารถแปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.017 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = 7.43 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30

ตารางท 4.14 สรปผลการวเคราะหคาเฉลยดวยสถต t-Test: Paired Two Sample for Means กลมขอมล 5 ลานระเบยน สามารถแปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.576 มากกวาคาแอลฟา 0.05 หรอคาสถต t = -0.661 มคาระหวางจดจดวกฤต (t Critical) -4.30 ถง 4.30

ตารางท 4.15 สรปผลการวเคราะหคาเฉลยดวยสถต t-Test: Paired Two Sample for Means กลมขอมล 10 ลานระเบยน สามารถแปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.643 มากกวาคาแอลฟา 0.05 หรอคาสถต t = -0.54 มคาระหวางจดวกฤต (t Critical) -4.30 ถง 4.30

จากผลทดลองการสอบถามคนคนดวยเทคโนโลยขอมล 2 รปแบบ มความถกตองและแมนย าตรงกน 100% ในทกชดขอมลและทกรายงาน ตามตวอยางตารางท 4.11 เปรยบเทยบผลลพธการประมวลผลดวยรายงานตวอยางท 1 และรายงานตวอยางท 2 (ภาคผนวก ข)

4.8 สรปผลจากการทดลอง

สรปผลทไดจากการวเคราะห ผลลพธทจะไดจากการทดลอง ผวจยมแนวคดการเลอกการอภปรายผลออกเปน 3 สวนคอ

4.8.1 การวเคราะหผลดวยสถตเชงพรรณนาจากผลการทดลอง จากผลการทดลองการน าเขาในระบบฐานขอมลเชงสมพนธมคาทน าเสนอผล 2 สวน

ดงน 1) ขนาดหนวยความจขอมล 2) หนวยเวลาทใชในกระบวนการน าเขา จากการทดลองน าเขาขอมลทง 2 กลม จะสงเกตไดในตารางท 4.3 มหนวยความจทเพมขนจากไฟลทจดเตรยมไวกอนน าเขาในตารางท 4.2 ซงสวนนเปนคาโอเวอรเฮดในระบบฐานขอมลเปนสวนทน ามาใชในการจดการฐานขอมลควบคมการท างานของขอมล และสงเกตไดวาขนาดของไฟลและเวลาในการ

Page 99: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

89

น าเขาระหวางกลมเทคโนโลยระบบขอมลขนาดใหญ และเทคโนโลยระบบขอมลฐานขอมลเชงสมพนธ (RDBMS) ในตารางท 4.3 นอยกวา แตหากน าไปเทยบกบตารางท 4.2 จะเพมขนเลกนอย

จากตารางท 4.8 และ 4.9 เปรยบเทยบผลการทดลองการประมวลผลขอมล 2 รปแบบ จากผลการทดลองหากเปรยบเทยบแตละชดขอมลมผลคาเฉลยรายงานตวอยางท 1 มากกวารายงาน 2 เลกนอย เนองจากมขนตอนการก าหนดล าดบการแสดงผลทเพมขน และผลกลม MR j1 มผลคาเฉลยมากทสดเปนผลจาก 2 ขนตอน คอหลงจากน าขอมลเขาจดเกบแบบกระจาย HDFS การเรยกคนคนขอมลโปรแกรมจะสงการประมวลผลและรวบรวมผลขอมลทถกจดเกบในแตเครอง Slave แลวน าผลลพธสงคนกลบมาใหเครอง Master และจะท าทกครงทมการประมวลผล และมค าสงการ Join หรอการเชอมสมพนธจะน าระเบยนทงหมดในแฟมผปวยนอกมาเชอมกบแฟม 21 กลมโรคหลกดวยรปแบบ Nested Loop Join หรอการเชอมสมพนธโดยไมมการจดเรยง ( Index) กอน ระเบยนมากขนยงใชเวลามากขน แลวน าผลรวมทไดจดเกบในไฟลผลลพธเพอใชในขนตอนตอไป ซงสงเกตไดวางาน MR j2 ใชเวลาใกลเคยงกนทกชดขอมล เนองจากขนตอนนใชผลจาก MR j1 น ามาประมวลผลใหมดวยการจบคขอมล รวม เรยงล าดบใหม และบนทกเปนผลลพธใหมไวในรปแบบเทกซไฟล (Text File)

จากตารางท 4.10 ผลของการคนคนแบบสอบถามขอมล ดวยภาษาสอบถามแบบมโครงสรางเอสควแอล จะสงเกตไดวาผลของครงท 1 ของการประมวลผลจากรายงานตวอยางท 1 และรายงานท 2 จะมผลมากกวาการประมวลผลครงท 2 และครงท เนองจากในระบบการจดการขอมลเชงสมพนธมการจดการทเรยกวาแคช (Cache) ซงในการทดลองไดมการใชค าสงเคลยรคาแคชดวยการใช Query Cache เปนการเคลยรคาทหนวยความจ าส ารอง (Ram) แตยงคงมผลกบการประมวลผลในครงแรกท าใหการประมวลผลในครงใชเวลามากกวาครงท 2 และครงท 3 ซงในการทดสอบผวจยไดทดสอบการเคลยรคาแคชดวยวธการรสตารทเครองเซรฟเวอรใหมพบวาในทกครงทมการปดและเปดเครองใหมการประมวลผลเรมตนจะใชเวลามากกวาอยเสมอ แตทวาในการสอบถามคนคนแบบเทคนควธแมพรดวจะใกลเคยงกนทกครงเนองจากในระบบเทคโนโลยขอมลขนาดใหญทใชในการทดสอบไมมฟงกชนการจดเกบขอมลทท าการประมวลผลในหนวยความจ า จงท าใหมผลใกลเคยงกนทกครง

น าผลคาเฉลยทางสถตจากตารางท 4.12 และ 4.13 และ 4.14 และ 4.15 น ามาด าเนนการจดตารางสรปผลคาเฉลย ดงตารางท 4.16 และจดท ากราฟเพอการวเคราะหแผนภาพ เมอน าผลรวมคาเฉลยทกขนตอน ระหวางผลความเรวการประมวลผลของฐานขอมลเชงสมพนธมายเอสควแอลดวยภาษาสอบถามเชงโครงสรางเอสควแอล (SQL) ทรวมคาเฉลยจากรายงานตวอยางท 1 และรายงานตวอยางท 2 เปรยบเทยบการประมวลผลเทคโนโลยขอมลขนาดใหญฮาดปและแมพรดวท

Page 100: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

90

รวมคาเฉลย 2 ขนตอนแมพและรดว มผลคาเฉลยมากกวาทกชดขอมลทดสอบและมแนวโนมเพมมากขนตามชดขอมล ดงภาพกราฟท 4.5 เพอท าการหาจดตดของขอมลทเทคโนโลยระบบการจดการฐานขอมลเชงสมพนธ (RDBMS) มขอมลจ านวนระเบยนเทาใด ทประสทธภาพของ RDBMS ท างานมประสทธภาพนอยกวาเทคโนโลยขอมลขนาดใหญ สามารถน ามาเปนจดทตองการปรบเปลยน หรอน าเสนอการเตรยมความพรอมการปรบปรงจากระบบเดมไปสระบบใหม ในการใชงานรวมกบขอมลในระบบขอมลสขภาพส าหรบผลดานประสทธภาพความเรวทคาดหวงวาจะคนพบจดตดระหวางเพอเตรยมการปรบเปลยนระบบ และเลงเหนถงจดทตองควรปองกนจากการประมวลผลเพอเรยกรายงานไดไมทนตอความตองการใชงาน จากการทดลองนสามารถหาจดตดของกราฟดานผลความเรววาจดใด อยทจ านวนระเบยนขอมลโดยประมาณ 1 ลานระเบยน ทระบบฐานขอมลเชงสมพนธด าเนนการไดต ากวาหรอมประสทธภาพดอยกวาเทคโนโลยขอมลขนาดใหญฮาดปแลแมพรดว เปนจดทตองเรมมการพจารณาการปรบเปลยน

แตทงนการพจารณานเปนสวนของการเรยกใชงานการประมวลผลทตารางแฟมขอมลหลกจ านวน 9 คอลมนและแฟมขอมลเชอมสมพนธ 1 คอลมน และ 1 การเชอมสมพนธ (Join) เทานน การใชเวลาในการประมวลผลอาจจะมากขนตามล าดบหากมตารางแฟมขอมลในการเชอมโยงมากกวา 1 การเชอมโยงและหรอจ านวนคอลมนในแฟมขอมลมจ านวนมากขน

4.8.2 การวเคราะหผลดวยสถตอนมานทจะใชพสจนผลจากการตงสมมตฐาน จากสมมตฐานทคาดการณวาผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบ

ระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน สรปผลจากการทดลอง จากสมมตฐานทคาดการณไว ลวงหนาวาผลลพธของเวลาใน

การคนคนขอมล เมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธแตกตางกน ในทกๆ ชดขอมล ดงน

ตารางท 4.12 กลมขอมล 5 แสนระเบยน เมอ P-Value (two tail) ทไดเทากบ 0.001 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = 23.73 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30 จงเปนการยอมรบสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ แตกตางกน

ตารางท 4.13 กลมขอมล 1 ลานระเบยน เมอ P-Value (two tail) ทไดเทากบ 0.017 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = 23.73 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30 จงเปนการยอมรบสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ แตกตางกน

ตารางท 4.14 กลมขอมล 5 ลานระเบยน เมอ P-Value (two tail) ทไดเทากบ 0.002 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = -0.661 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30 จงเปนการปฏเสธสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ ไมแตกตางกน เนองจากมายเอสควแอลใช

Page 101: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

91

เวลาในการประมวลผลครงท 1 สง แตในครงท 2 และครงท 3 ลดลงเปนจ านวนมาก เพราะมระบบการสรางหนวยความจ าส ารอง (Cache) จงท าใหการวเคราะหดวยสถตมผลไมแตกตางกน

ตารางท 4.15 กลมขอมล 10 ลานระเบยน เมอ P-Value (two tail) ทไดเทากบ 0.003 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = -0.540 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30 จงเปนการปฏเสธสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ ไมแตกตางกน 30 จงเปนการปฏเสธสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ ไมแตกตางกน เนองจากมายเอสควแอลใชเวลาในการประมวลผลครงท 1 สง แตในครงท 2 และครงท 3 ลดลงเปนจ านวนมาก เพราะมระบบการสรางหนวยความจ าส ารอง (Cache) จงท าใหการวเคราะหดวยสถตมผลไมแตกตางกน

จากสมมตฐานทคาดการณไวลวงหนาวาผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน นนการประเมนผลทางสถตมผลทยอมรบสมมตฐานเฉพาะในกลมชดขอมล 5 แสนและ 1 ลานระเบยน แตมการปฏเสธสมมตฐานในกลมชดขอมล 5 ลานและ 10 ลานระเบยน

ผวจยไดวเคราะหสาเหตจากการปฏเสธสมมตฐาน ผลกบการประมวลผลในครงแรกท าใหการประมวลผลในครง 1 ใชเวลามากกวาครงท 2 และครงท 3 ซงในการทดสอบผวจยไดทดสอบการเคลยรคาแคชดวยวธการรสตารทเครองเซรฟเวอรใหม พบวาในทกครงทมการปดและเปดเครองใหม เมอการประมวลผลเรมตนจะใชเวลามากกวาครงท 2 และ 3 อยเสมอ จงคาดวาเปนสาเหตในการทดสอบสมมตฐานทางสถตเกดความคลาดเคลอน

เนองจากในระบบการจดการฐานขอมลเชงสมพนธมระบบฟงกชนเพอชวยในการจดเกบขอมลทตองการเรยกใชงานบอยครง ในฮารดแวร (แรม, ฮารดดสก) เพอท าใหการคนหาในครงตอไปสะดวกและรวดเรวมากยงขน นอกจากนระบบการจดการฐานขอมลมายเอสควแอลยงมการจดการแคชอกหลายประเภท เชน Table Cache หรอ Thread Cache (Schwartz et al., 2012, pp. 353-354)

จากตารางท 4.11 ผลทดลองการเปรยบเทยบผลการสอบถามคนคนขอมลมความถกตองและแมนย าตรงกนของเทคโนโลย 2 รปแบบ พบวามผลลพธถกตองตรงกนในทกชดขอมลและทกรายงาน 100% ดงตวอยางทน ามาแสดงเปนรายงานท 1 ชดขอมล 5 แสนระเบยน และ 1 ลานระเบยน และ 5 ลานระเบยน และ 10 ลานระเบยน

สรปผลไดวาจากสมมตฐานทคาดการณไวลวงหนาวาผลลพธของความแมนย าถกตองการคนคนขอมลเมอมการเปรยบเทยบระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธไมแตกตางกน เปนการยอมรบสมมตฐาน

Page 102: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

92

4.8.3 การวเคราะหผลดวยสถตเชงพรรณนาจากผลการทดลองน าไปเปรยบเทยบกบงานวจยทเกยวของ

การเปรยบเทยบกบงานวจยทเกยวของทมความใกลเคยงกบการวจยทดลองน ผลการทดลองทไดตางกบงานวจยทเกยวของทมการใชแมพรดว, ไฮฟและมายเอสควแอล ท าทดสอบดวยขอมลการช าระเงนของลกคาในธรกจขนาดเลก มขนาดขอมลตงแต 235MB – 9GB กบเครองจ านวน 1-4 เครอง ผลงานวจยนสรปวามายเอสควแอลจะใชเวลามากกวาแมพรดวและไฮฟทขนาดขอมลหนงหมนบญช 5GB ใชเวลา 25 นาท แมพรดวจะใชเวลาประมาณ 80 - 90 วนาท และในทกชดขอมลทดสอบโปรแกรมแมพรดวมประสทธภาพสม าเสมอและดทสด สามารถประมวลผลขอมลขนาดเลกไดด (Hollingsworth, 2012, pp. 43-44)

ซงสามารถสรปผลทไดจากการทดลองสอดคลองกบบทความวจยนทพบวาขนาดขอมล 682MB และมระเบยนขอมลสบลานจะใชเวลาในการประมวลดวยเทคโนโลยระบบขอมลขนาดใหญฮาดปและแมพรดวทมผลการทดลองท 157 วนาท นอยกวาการประมวลผลมายเอสควแอลทใชเวลา 293 วนาท จงสามารถสรปผลการทดลองไดวาเมอขอมลเรมมขนาดใหญขน การประมวลดวยเทคโนโลยขอมลขนาดใหญ อยางโปรแกรมโอเพนซอรสฮาดปและแมพรดวสามารถน ามาใชงานไดอยางเปนอยางดกบขอมลในระบบขอมลสขภาพ

ผลการทดลองทไดเทคโนโลยขอมลขนาดใหญเหมาะกบการใชงานประมวลผลชดขอมลขนาดใหญ (ชพนธ รตนโภคา, 2555, น. 27) เมอจ านวนขอมลเรมมขนาดใหญ ในการพจารณาควรพจารณาขอมลตงแตระดบขอมลจ านวนขอมลกกะไบต (GB) และเทราไบต (TB) และเพตาไบต (PB)

Page 103: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

บทท 5 อภปรายผลงานวจย และขอเสนอแนะ

ในปจจบนเทคโนโลยระบบการจดเกบแบบกระจายและการประมวลผลแบบขนานทม

ในระบบนเวศขอมลขนาดใหญ เชน โปรแกรมโอเพนซอรสฮาดปและแมพรดวจะสามารถน ามาประมวลผลขอมลระบบสขภาพขนาดใหญจากคลงขอมลดานการแพทยและสขภาพทมการจดการฐานขอมลเชงสมพนธไดหรอไม และมแนวทางอยางไรหากตองปรบเปลยนวธการประมวลผล หรอหากจะตองประยกตใชกบสงทมอยเดมตองท าอยางไร ซงการท างานกบขอมลขนาดใหญจะมปญหาในการจดเกบขอมล การโอนยายขอมล และการส ารองขอมล อกทงการคนคนขอมลจะมวธการอยางไร ทจะชวยท าใหการจดการคนคนขอมล และน าขอมลจ านวนมากเหลานมาใชประโยชนไดภายในเวลาอนรวดเรวและมประสทธภาพมากทสด แตยงคงไวใหไดซงความแมนย าถกตองของขอมลทไดรบการคนคน ดวยความส าคญของคณภาพขอมลในระบบบรการสขภาพจากลกษณะส าคญ 4 สวนคอ ครบถวน ถกตอง ละเอยด และทนสมย

5.1 อภปรายงานวจย

การอภปรายผลการวจยจากการทดลองเพอคนหาค าตอบตามจดประสงคงานวจย 1) เพอศกษาแนวทางทเหมาะสมในการจดเกบขอมลบรการสขภาพบนสถาปตยกรรมขอมลขนาดใหญ 2) เพอเสรมสรางความรและความเขาใจในเทคโนโลยขอมล ระหวางเทคโนโลยขอมลขนาดใหญทมรปแบบการจดเกบแบบกระจาย (ฮาดป) และการประมวลผลแบบขนาน (แมพรดว) มสถาปตยกรรมการจดการขอมลและใชหลกการทางคณตศาสตร และรปแบบเทคนควธการสอบถามคนคนขอมลทแตกตางกนกบ ระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) และน ามาประยกตใชในการจดท าสถตขอมลการเจบปวย 3) เพอเปรยบเทยบประสทธภาพดานเวลาการประมวลผลและความถกตองแมนย าในการคนคนขอมล ผลการศกษาในงานวจยทเกยวของและจากผลการทดลองผวจยขอแบงการอภปรายผลเปนประเดนหวขอตามวตถประสงคงานวจย ดงน

5.1.1 เพอศกษาแนวทางทเหมาะสมในการจดเกบขอมลบรการสขภาพบนสถาปตยกรรมขอมลขนาดใหญ แบงการอภปรายผลดงน

Page 104: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

94

เทคโนโลยการจดเกบแบบกระจายฮาดปและการประมวลผลแมพรดวสามารถน ามาประยกตใชรวมกนกบคลงขอมลดานการแพทยและสขภาพได ขอมลในระบบบรการสขภาพเปนขอมลทมการจดการขอมลแบบมโครงสรางเปนแฟมทมโครงสรางมาตรฐานในการจดเกบ 43+7 แฟมมาตรฐาน และเปนชดขอมลทมการเชอมความสมพนธกน โดยพจารณาจากผลจากการทดลองดงน

การจดเกบขอมลโดยการด าเนนการจบเกบในปจจบนมการการจดสงขอมลจดท าบนเครองลกขายระดบอ าเภอเขาสเครองแมขายระดบจงหวด การจดสงขอมล 43+7 แฟม จดท าบนเครองแมขายระดบจงหวดสเครองแมขายระดบเขตและกระทรวง การประมวลผลเพอจดท ารายงานสถตและดชนชวดบนเครองแมขายระดบจงหวด และบนเครองแมขายระดบเขต และกระทรวงสาธารณสขในระดบประเทศ เปนไฟลขอมลรปแบบเทกซไฟล ซงสามารถน าขอมลเขาใชงานในกรอบการท างานฮาดปไดทนท โปรแกรมฮาดปย งเปนโปรแกรมทสามารถรองรบไดกบ ระบบปฏบตการหลายรปแบบ มลกษณะการจดเกบแบบกระจายทมเทกซไฟลเปนไฟลขอมลหลก สามารถจดเกบไดทงแบบเครองเดยวและหลายเครอง จากผลการทดลองฮาดปใชพนทจดเกบนอยกวาและใชเวลาน าเขานอยกวา เนองจากในการจดการฐานขอมลเชงสมพนธมระบบควบคมการท างาน และผลของเวลาในการจดเกบในระบบฐานขอมลเชงสมพนธ ดงนนระบบฐานขอมลมการจดการเชงสมพนธจงเปนตนทนอกทางหนง หากเทยบกบเทคโนโลยฮาดปทมตนทนการจดเกบนอยกวา และเหมาะสมกบการจดเกบขอมลแบบเทกซไฟลในระบบงานปจจบน

การประมวลผลโดยกรอบการท างานแมพรดวมรปแบบวธการใชแบบจบค เปนการเขยนโปรแกรมประมวลผลดวยอลกอรทมควบคมความตองการขอมลผานการจบค Key/Value จากผลการทดลองสามารถน ามาใชกบชดขอมลระบบบรการสขภาพได โดยชดขอมลสบลานระเบยนมายเอสควแอลใชเวลาในการประมวลผล 2 รายงาน ใชเวลาการสอบถามคนคนขอมลมากกวา เปรยบเทยบกบการประมวลผลดวยเทคนคแมพรดว แมวาแมพรดวใชการประมวลผลครงเดยวได 2 รายงาน จากกราฟเปรยบเทยบรปท 4.5 จะเหนไดวาเมอชดขอมลมระเบยนเพมขนจะสงผลตอเวลาในการประมวลผลเปนล าดบและมแนวโนมเพมมากขน เมอขอมลเรมมจ านวนมากขนการประมวลผลจงเหมาะสมทจะเรมมการปรบเปลยนมาใชเทคโนโลยขอมลขนาดใหญ และผลลพธทไดการประมวลผลดวยโปรแกรมฮาดปและแมพรดวหากเทยบผลกบระบบฐานขอมลเชงสมพนธ มผลลพธถกตองตรงกนในทกชดขอมลและทกรายงานผลลพธจากการทดลอง (ภาคผนวก ข.)

ผวจยวเคราะหปจจยหรอสาเหตความเหมาะสมในการน าเทคโนโลยขอมลขนาดใหญมาใชงานกบขอมลระบบบรการสขภาพจากการทดลองพบวา การประมวลผลดวยแมพรดวนนมขนตอนมากกวาไมสงผลตอประสทธภาพดานเวลาในการประมวลผล เชน ขนตอน MR j1 ชดสบ

Page 105: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

95

ลานใชเวลาเฉลย 157.06 วนาท. ใชเวลามากในขนตอนการเชอมสมพนธ และประมวลผลเพอนบจ านวนในแตละกลมโรคกอน ตางกบขนตอน MR j2 ชดสบลาน ใชประมวลผลรวมแตละกลมโรคจากไฟลทรบจาก MR j1 ดงนนในขนตอน MR j1 มผลตอเวลาการประมวลผลเพอคนคนขอมลมากทสด ซงเปรยบเทยบกบระบบการจดการฐานขอมลเชงสมพนธ (RDBMS) ทเมอขอมลเพมมากขนการเชอมสมพนธหรอการ Join จะใชเวลาในการประมวลผลเพมสงขน หากมการปรบปรงประสทธภาพการด าเนนการดงกลาวจะท าใหมประสทธภาพทางดานเวลามากขนไดสารสนเทศททนสมย สถาปตยกรรมนเปนทนยมอยางมากกบการค านวณแบบขนานใชงานกบขอมลขนาดใหญ ถงแมวาจะมวธการ ทมความหลากหลายของการพฒนาส าหรบเทคนคแมพรดว มไมกวธทสามารถจะบรรลเปาหมายทเหมาะสมในการท าประมวลผลแบบคขนาน และการเกดภาระงานทสมดลอกทงการท างานขามเครองทรวมอยภายในเครอขาย และเพมความเรวใหมากขน (Tao et al., 2013)

โปรแกรมฮาดปและแมพรดวจะมประสทธภาพสง ขนอยกบขนาดของขอมลในแตละงานทตองการประมวลผล และชดขอมลทเชอมสมพนธตองมการกรองขอมลไวลวงหนาจะสงผลดตอความเรว และสามารถใชประมวลผลกบชดขอมลทมโครงสรางเชงสมพนธได หากการน ามาใชงานตองเขาใจกระบวนการท างานในโปรแกรมเพอปรบการตงคาเรมตนใหเหมาะสม และปรบปรงวธเขยนโปรแกรมเพอประยกตใชกบงานในชดขอมลเฉพาะทตองการ และจ าเปนตองก าหนดรปแบบผลลพธไวลวงหนาจงจะเกดประสทธภาพอยางสงสด ผลจากการวจยพบวาการปรบปรงกระบวนการฮาดปในการขยายแบบขนมนยส าคญ ในการประเมนดานการใชพลงงานและการเพมชนการจดเกบ (Rack) และดานคาใชจาย อกทงยงมสวนของการใชงานภายในหนวยความจ าทมประสทธภาพ (Appuswamy et al., 2013)

แตยงมขอจ ากดทตองใชทรพยากรบคคลทมความเชยวชาญในการจดท าโปรแกรมเฉพาะทางนไวใหในแตละความตองการขอมลหรอแตละองคกรโดยเฉพาะ แตทวาผผลตสนบสนนการจดท าโปรแกรมเพอใหสามารถโปรแกรมเมอรประสบการณนอยใชงานไดงายและสะดวก (Dean & Ghemawat, 2008, p. 1) รปแบบวธการคนคนดวยโปรแกรมแมพรดวใชรปแบบการจดเกบลกษณะของแถวหรอระเบยนขอมลและท าการนบจากจ านวนตวอกษร (Digit) 3 ตวแรกของขอมลรหส ICD10 เพอท าการเชอมสมพนธกบขอมลหลก 21 กลมโรค และท าการเรยกคนขอมลดวยวธการนบจ านวน ซงเปนวธการทท าไดอยางมประสทธภาพและประสทธผลในการทดลอง แตการใชชดแบบสอบถามขอมลหากมการใชค าสงหรอโปรแกรมค าสงทไมเขาใจผลลพธทตองการ และชดขอมลทถกจดเตรยมไวไมถกตองและมคณภาพ หรอตรงตามผลลพธทตองการ อกทงการเชอมสมพนธของขอมลหากไมมคณภาพและถกตอง ตวแปรตนเหลานจะสงผลสง ท าใหตวแปรตาม คอผลลพธการประมวลผลผดพลาดได

Page 106: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

96

ส าหรบผลดานประสทธภาพความเรวตามแนวคดทคาดหวงวาจะคนพบจดทการประมวลผลดวยระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) มประสทธภาพดอยกวาเทคโนโลยขอมลขนาดใหญทมรปแบบการจดเกบแบบกระจาย (ฮาดป) และการประมวลผลแบบขนาน (แมพรดว) เพอเตรยมการปรบเปลยนระบบ หรอเลงเหนถงจดทตองควรปองกนจากการประมวลผลเพอเรยกรายงาน จากการทดลองนสามารถหาจดตดของเสนกราฟดานผลความเรววาขอมลจ านวน 1 ลานระเบยน ระบบฐานขอมลเชงสมพนธด าเนนการไดหรอมประสทธภาพดอยกวาเทคโนโลยขอมลขนาดใหญฮาดปแลtแมพรดว

5.1.2 เพอเสรมสรางความรและความเขาใจในเทคโนโลยขอมล ระหวางเทคโนโลยขอมลขนาดใหญทมรปแบบการจดเกบแบบกระจาย (ฮาดป) และการประมวลผลแบบขนาน (แมพรดว) มสถาปตยกรรมการจดการขอมลและใชหลกการทางคณตศาสตรและรปแบบเทคนควธการสอบถามคนคนขอมลทแตกตางกนกบ ระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) และน ามาประยกตใชในการจดท าสถตขอมลการเจบปวย ระบบฐานขอมลเชงสมพนธ (RDBMS) มขอแตกตางกบเทคโนโลยขอมลขนาดใหญ แบงการอภปรายผลไดดงน

1) ใชขนตอนทตางกนในการคนคนขอมล เชน RDBMS จดเรยงกอนแสดงผลคนขอมล แตแมพรดว ขนอยกบแตละการเขยนโปรแกรมเพอการสอบถามคนคนขอมล

2) ใชหลกทางคณตศาสตรตางกนในการคนคนขอมล เชน RDBMS ใชทฤษฏเซต แต แมพรดวใชแบบอารเรย

3) รปแบบการเรยกคนตางกน เชน RDBMS ใชภาษามโครงสรางเอสควแอลเพยงอยางเดยว แตแมพรดวมการเขยนโปรแกรมแบบมอลกอรทม และสามารถเขยนไดหลากหลายรปแบบ

4) การจดการขอมลตางกน เชน RDBMS มการจดการฐานขอมลตามคณสมบต ACID และแบบตารางสมพนธ แตแมพรดวใชรปแบบการจบคขอมล (Key/Value)

5.1.3 เพอเปรยบเทยบประสทธภาพดานเวลาการประมวลผล และความถกตองแมนย าในการคนคนขอมล แบงการอภปรายผลเปน 2 หวขอ ดงน

เทคโนโลยการจดเกบแบบกระจายฮาดปและการประมวลผลแมพรดวสามารถน ามาประยกตใชเพอการประมวลผลขอมลจากคลงขอมลดานการแพทยและสขภาพใหไดผลลพธไดรวดเรวขน การใชชดแบบสอบถามขอมลหากมการเรยกใชค าสงทไมเขาใจผลลพธทตองการลวงหนา และมการปรบปรงกระบวนการคนคนเพอเพมประสทธภาพ พบวาตวแปรตนกลมนมความสมพนธโดยตรงทจะสงผลตอตวแปรตาม คอเวลาทใชในการประมวลผลขอมล

เทคโนโลยการจดเกบแบบกระจายฮาดปและการประมวลผลแมพรดวสามารถน ามาประยกตใชเพอการประมวลผลขอมลจากคลงขอมลระบบบรการสขภาพได และสามารถใชงาน

Page 107: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

97

ไดผลลพธในการคนคนทถกตอง และหากมการปรบปรงกระบวนการคนคนเพอเพมประสทธภาพ พบวาตวแปรตนเหลานไมสงผลตอตวแปรตาม คอผลลพธการประมวลผล 5.2 ขอเสนอแนะ

5.2.1 การจบค เชอมความสมพนธทดในการเขยนโปรแกรมแมพรดวจะท าใหไดผลลพธทถกตอง และขอมลทใชในการเชอมความสมพนธตองเขาใจประเภทของขอมลทใชในการจบคความสมพนธ และตองท าความเขาใจผลลพธทตองการวาตองการแสดงผลรปแบบใด เพอควบคมคณภาพการเขยนโปรแกรมใหไดตามผลลพธทตองการ จงจะเปลยนขอมลใหออกมาเปนสารสนเทศทถกตองในรปแบบทตองการ เพอใหผใชสามารถน าไปใชงานตอไดอยางมคณภาพ เชน ในการเรยกใชตามรายงานตวอยางในการทดลองตองการตามรหสกลมโรค ซงเปนรหสทรวมรหส ICD10 หลายรหสเขาดวยกน เชน A00-A99 เปนตน

5.2.2 ผลของการคนคนแบบสอบถามขอมล ดวยภาษาสอบถามแบบมโครงสรางเอสควแอล จะสงเกตไดวาผลของครงท 1 ของการประมวลผลจากรายงานตวอยางท 1 และรายงานท 2 จะมผลมากกวาการประมวลผลครงท 2 และครงท เนองจากในระบบการจดการขอมลเชงสมพนธมการจดการทเรยกวาแคช (Cache) ซงในการทดลองไดมการใชค าสงเคลยรคาแคชดวยการใช Query Cache เปนการเคลยรคาทหนวยความจ าส ารอง (Ram) แตยงคงมผลกบการประมวลผลในครงแรกท าใหการประมวลผลในครง 1 ใชเวลามากกวาครงท 2 และครงท 3 ซงในการทดสอบผวจยไดทดสอบการเคลยรคาแคชดวยวธการรสตารทเครองเซรฟเวอรใหม พบวาในทกครงทมการปดและเปดเครองใหม เมอการประมวลผลเรมตนจะใชเวลามากกวาครงท 2 และ 3 อยเสมอ จงเปนสาเหตในการทดสอบสมมตฐานทางสถตเกดความคลาดเคลอนได ผวจยจงน าเสนอหากมงานวจยเพอการเปรยบเทยบกบงานวจยน ควรจะมการปรบปรงในสวนของหนวยความจ าดงกลาว และการก าหนดแผนการทดสอบ โดยทยงไมไดค านงถงผลของปจจยอนๆ ของระบบฐานขอมลเชงสมพนธอาจจะท าใหผลการทดสอบของสมมตฐานทางสถตเกดคลาดเคลอนได หรอหาสถตวจยอนทเหมาะสมมากกวาเพอท าการวจยตอไป

5.2.3 ในดานความปลอดภยของระบบจดเกบรปแบบเทกซไฟลเปนอกหนงเรองทตองน ามาพจารณาในการปองกนการเขาถง ควรก าหนดขอบเขตใหผใช ใชไดเฉพาะสวนงานทเกยวของและควรใชอยในพนทศนยขอมลจะปลอดภยสง การรกษาความปลอดภยเปนหนงในประเดนทส าคญทสดของการจดเกบขอมลสมยใหม ประเภทของขอมลทส าคญหรอขอมลสวนบคคลสามารถทเกบไวใน NoSQL ควรมความปลอดภยจากหวขอทควรตรวจสอบดงน 1.การรบรองความถกตอง (Authentication) 2.การใหสทธ (Authorization) 3.การตรวจสอบ (Auditing) 4.การเขารหส

Page 108: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

98

(Encryption) กลายเปนความกงวลหลกส าหรบบรษททจะเลอกเทคโนโลยขอมลขนาดใหญทจะน ามาใชน (Gurevich, 2015, pp. 52-54) จงสามารถน ามาเปนงานการวจยเพมเตมตอไป

5.2.4 จากผลรวมคาเฉลยความเรว ผวจยสงเกตในขนตอนการทดสอบ เมอเทยบขนตอนการประมวลผลกนแลวพบวาหากใชขนตอนในการเขยนค าสงโปรแกรมแมพรดวใหเหมอนหรอใกลเคยงกบขนตอนของการใชภาษาสอบถามเชงโครงสรางเอสควแอล จะเปนการลดเวลาในขนตอนการประมวลผลได ในสวนการจบคเชอมความสมพนธลงได อกทงการเพมการเรยงล าดบอนเดกซไวลวงหนา การสรางคอลเลคชนชวคราวขนมากอนทจะเชอมกนนนจะท าใหการเชอมคอลเลคชนท าไดเรวขน (นรทธ รวยรน และ เกรยงไกร ปอแกว, 2557, น. 28) และการก าหนดขนาดบลอกขอมลใน HDFS จะเปนการเพมประสทธภาพความเรวได ในการก าหนดการใชงานควรจะก าหนดคณสมบตของโปรแกรมการประมวลผลแบบกระจายฮาดปไวทขนาดบลอกไซต 128MB ซงศกษาวธการเพมประสทธภาพเพมเตมได

5.2.5 ผวจยจงขอน าเสนอแนวทางการน าไปใชรวมกบขอมลบรการสขภาพ เทคโนโลยขอมลขนาดใหญสามารถน ามาใชงานรวมกบขอมลในระบบฐานขอมลเชงสมพนธแบบมโครงสรางได สามารถจดเกบขอมลและน ามาวเคราะหขอมลระบบบรการสขภาพได อางองจากผลการทดสอบในงานวจยนทพบวาการจดเกบขอมลแบบกระจายฮาดป และการประมวลผลแบบขนานแมพรดว น ามาใชประมวลผลขอมลบรการสขภาพมความถกตองแมนย าของผลลพธ สามารถน าจดท าแบบ ETL (Extract Transform Load) ได หรอการแตกไฟลเทกไฟลออกและท าความสะอาดขอมลและท าการน าเขาในระบบโปรแกรมฮาดป ในปจจบนมระบบเทคโนโลยสนบสนนหลายรปแบบทสามารถน ามาใชการประมวลผลนอกเหนอจากแมพรดว เชน ในระบบขอมลขนาดใหญหรอ Big Data Eco System เชน HBase หรอ Hive หรอโปรแกรมอนๆ เชน Spark หรอโปรแกรม Tajo เปนโปรแกรมทสามารถน ามาใชเปนแบบสอบถามคนคนขอมลรวมกบเทคโนโลยการจดเกบแบบกระจายฮาดปได ทสามารถใชงานรปแบบภาษาสอบถามเอสควแอลได ความพรอมของซอรฟแวรทจะน ามาใชรองรบการท างานใหเกดประสทธภาพและเกดประโยชนมากทสด การเลอกแพลตฟอรมทเหมาะสมส าหรบการใชงานเฉพาะขนอยกบความตองการใชงานขอมลเฉพาะองคกร หรออาจจะใชหลายแพลตฟอรมรวมกน (Singh and Reddy, 2014)

Page 109: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

99

ภาพท 5.1 แนวทางทผวจยน าเสนอการประมวลผลแบบ ETL (Extract Transform Load)

บรษทขนาดใหญน าฮาดปและแมพรดว น าไปใชงานในหลากหลายลกษณะของงานและมประสทธภาพของงาน ดวยวธการพฒนาอลกอรทมใหมความยดหยนและปรบขนาดขยายไดในฮาดป วตถประสงคหลกการออกแบบเพอใหสามารถใชงานขอมลแบบฐานขอมลใชงานรวมกบแมพรดวใหสามารถใชงานไดงาย และยงสนบสนนการเขยนภาษาสครปตเพอใชงานแบบสอบถามเชงโครงสรางเอสควแอล ซงพฒนาอยในกรอบของแมพรดว ซงอยางไรกตามวธการทงหมดนสามารถใชงานไดในรปแบบทแตกตางกน และลกษณะชดขอมลทแตกตางกนกมผลในการเลอกใชวธการ แตยงมการใชงานใแมพรดวรวมกบสนบสนนฐานขอมลได (Khanam & Agarwal, 2015, p. 124) 5.3 งานวจยในอนาคต

5.3.1 เทคโนโลยการจดเกบแบบกระจายฮาดปและการประมวลผลแมพรดว สามารถน ามาประยกตใชเพอการประมวลผลแบบทนทเมอมอนพตขอมลเขามาใหมไดหรอไม โดยการน าขอมลระบบบรการสขน ามาใชงานเปรยบเทยบกบระบบเทคโนโลยขอมลอน ทมความคณสมบตทสามารถประมวลผลไดแบบทนท (Real-time processing) เชน เทคโนโลยขอมลขนาดใหญประเภท NewSQL ทสามารถรองรบกบภาษาสอบถามเชงโครงสรางเอสควแอลได หรอเทคโนโลยขอมลอนๆ ทสามารถใชงานในระบบการจดเกบแบบกระจายฮาดปได

5.3.2 การทดลองครงนมการเรยกใชงานการประมวลผลทมตารางแฟมขอมลหลก จ านวน 9 คอลมน และแฟมขอมลเชอมสมพนธ 1 คอลมน และ 1 การเชอมสมพนธ (Join) เทานน การใชเวลาในการประมวลผลอาจจะมากขนตามล าดบหากมตารางแฟมขอมลในการเชอมโยงมากกวา 1 การเชอมโยงและหรอจ านวนคอลมนในแฟมขอมลมจ านวนมากขน ควรมการทดลองเพมเตมในสวน

Page 110: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

100

ของการใชแฟมขอมลทมากกวา 2 ตาราง และมการเชอมความสมพนธมากกวา 1 ความสมพนธเพอดผลกระทบทเกดขนจากการประมวลผลวามผลตอเทคโนโลยขอมลขนาดใหญหรอไม

5.3.3 เทคโนโลยการจดเกบแบบกระจายฮาดปมวธการค านวณคาใชจายในการใชทรพยากรหลก เชน ซพย และแรม และสตอเรจ หรอ I/O หรอไม สามารถน ามาใชเพอหาความคมคาในการใชงานไดหรอไม งานวจยในอนาคตควรจะใชท าการศกษาเพมเตมได ดวยการเพมจ านวนเครองเซรฟเวอรในระบบเครอขายตามหลกการใชงานจรงทงในศนยคอมพวเตอรของกระทรวงและหรอของระดบเขตและระดบจงหวดเพอสามารถน ามาประยกตตามการใชงานจรงได

5.3.4 เนองจากรายงานตวอยางทง 2 รายงาน ทใชประโยชนในการสบคน มการออกรายงานเพยงปละ 1 ครง หรอเดอนละ 1 ครง เทานน ท าใหดเหมอนวาเวลาทระบบการจดการฐานขอมลมายเอสควแอลทประมวลผลดวยภาษาสอบถามเชงโครงสรางเอสควแอลใชในการออกรายงานทมากกวา จะไมเปนปญหากบหนวยงานในสาธารณสขเทาใด จงควรเลอกโจทยเปนรายงานทออกทกวนหรอทกสปดาห เพอใหทราบวาจะมผลกระทบมากกวาในการปฏบตงานจรงหรอไมในงานวจยครงตอไป

5.3.5 การทดลองแบบสอบถามอนๆ เพมเตม แบบสอบถามทมความหลากหลายของการเรยกใชรายงาน สมควรจะมการทดลองเพมเตมเนองจากในลกษณะการปฏบตงานจรงจะมรายงานทหลากหลายรปแบบ กบค าสงทใชสอบถามคนคนทหลากหลายมากกวา เพอเปรยบเทยบใหเหนความแตกตาง และประสทธภาพทชดเจน เนองจากบางค าสงภาษาสอบถามเอสควแอลอาจจะท าไดรวดเรวมากกวา แตในบางสถานการณหรอบางรายงานหรอบางชดแบบสอบถามอาจจะไมเหมาะกบการใชงานดวยโปรแกรมการประมวลผลดวยเทคนคแมพรดว

Page 111: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

บรรณานกรม

Page 112: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

102

บรรณานกรม ภาษาไทย กระทรวงสาธารณสข. ส านกบรหารการสาธารณสข. (2555). แผนพฒนาระบบบรการสขภาพ

(Service Plan). กรงเทพฯ: ชมชนสหกรณการเกษตร. น. 1. กระทรวงสาธารณสข. ศนยเทคโนโลยสารสนเทศและการสอสาร. (2559). ยทธศาสตรเทคโนโลย

สารสนเทศสขภาพ ป 2559–2556 (ฉบบรางไมมตพมพ). ส านกงานปลดกระทรวงสาธารณสข, นนทบร. น. 58.

กระทรวงสาธารณสข. ส านกนโยบายและยทธศาสตร. (2559). คมอการปฏบตงานการจดเกบและจดสงขอมลตามโครงสรางมาตรฐานขอมลสขภาพ กระทรวงสาธารณสข Version 2.1 (มกราคม 2559) ปงบประมาณ 2559. กรงเทพฯ: เอสพ กอปปปรน. น. 36.

กระทรวงสาธารณสข. ส านกนโยบายและยทธศาสตร. (2556). สรปรายงานการปวย พ.ศ.2557. นนทบร: องคการสงเคราะหทหารผานศก. น. 5-15.

กระทรวงสาธารณสข. ส านกนโยบายและยทธศาสตร. (2553). บญชจ าแนกโรคระหวางประเทศ ฉบบประเทศไทย (องกฤษ-ไทย) ICD-10-TM for PCU : ตารางการจดกลมและดรรชนรหสหตถการ. นนทบร: องคการสงเคราะหทหารผานศก. น. 1.

เกรยงศกด เจรญวงศศกด. (2553). การคดเชงวเคราะห (พมพครงท 5). กรงเทพฯ: ซคเซสมเดย. น. 74-75. โกสนทร จ านงไทย. (2559). การท าวจยและเขยนบทความวจย ในสายวศวกรรมศาสตร

เทคโนโลย และวทยาศาสตร. กรงเทพฯ: ส านกพมพแหงจฬาลงกรณมหาวทยาลย. น. 231. ชาญชย ศภอรรถกร. (2557). จดการฐานขอมลดวย MySQL ฉบบสมบรณ (พมพครงท 5).

กรงเทพฯ: รไววา. น. 125-126. ชยาพร แกนสาร. (2555, กนยายน–ธนวาคม). การวเคราะหแผนการสบคนเพอประเมน

ประสทธภาพการท างานของออพตไมเซอรทมตอค าสงเอสควแอลแบบซเลกชน. วารสารวชาการพระจอมเกลาพระนครเหนอ, 22(3), 721-734.

ชพนธ รตนโภคา. (2555, กนยายน–ธนวาคม). การออกแบบและพฒนาระบบคนหาขอมลจราจรทางคอมพวเตอรดวยวธ Map/Reduce บนกรอบการท างานของ Hadoop. วารสารวชาการเทคโนโลยอตสาหกรรม, 8(3), 18-27.

Page 113: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

103

นรทธ รวยรน, เกรยงไกร ปอแกว, (2557, เมษายน-มถนายน). การใชแมพรดวซเชอมคอลเลคชนของฐานขอมลโนเอสควแอลบนมองโกดบ. วารสารวจย มข.(บศ.), 14(2), 23-34.

นวรตน สวรรณผอง, มธรส ทพยมงคลกล, ทองหลอ เดชไทย, และนพพร โหวธระกล. (2557). นโยบายสขภาพ : การจดท า วเคราะหและประเมนผล.

นครปฐม: ส านกพมพมหาวทยาลยมหดล. น. 183-187. ประกายมาศ ศรสขทกษณ, ผสด บญรอด, (2557, พฤษภาคม). การเปรยบเทยบความเรวในการ

ประมวลผลระหวางฐานขอมลเชงสมพนธและฐานขอมลไมสมพนธแบบเอกสาร. The Tenth National Conference on Computing and Information Technology, 281-286. ผสด บญรอด, ประกายมาศ ศรสขทกษณ, (2558, พฤษภาคม-สงหาคม). การคนคนขอมลขนาด

ใหญโดยใชภาษาสอบถามแบบไมมโครงสรางรวมกบเทคโนโลยเวบเชงความหมาย. วารสารวชาการพระจอมเกลาพระนครเหนอ, 25(2), 255-264.

เมธ จนทจารภรณ. (2556). การจดการเชงกลยทธในการพฒนาสขภาพ : หนวยท 5 ขอมลและสารสนเทศเชงกลยทธ (พมพครงท 2). นนทบร: มหาวทยลยสโขทยธรรมาธราช. น. 2.

มหาวทยาลยสโขทยธรรมาธราช. บณฑตศกษา . (2546). การวจยทางสารสนเทศศาสตร. นนทบร: มหาวทยาลยสโขทยธรรมาธราช. น. 313-350. สชาดา กระนนทน. (2544). เทคโนโลยสารสนเทศสถต : ขอมลในระบบสารสนเทศ (พมพครงท 4). กรงเทพฯ: โรงพมพแหงจฬาลงกรณมหาวทยาลย. น. 94 สน พนธพนจ. (2555). เทคนคการวจยทางวทยาศาสตร (พมพครงท 2). กรงเทพฯ: พมพดการพมพ. น. 141-142. โอภาส เอยมสรวงศ. (2558). ระบบฐานขอมล : ฉบบปรบปรงเพมเตม. กรงเทพฯ: ซเอดยเคชน. น. 37-40. โอภาส เอยมสรวงศ, และสมโภชน ชนเอยม. (2558). คณตศาสตรคอมพวเตอร. กรงเทพฯ: ว.พรนท(1991). น. 205-219.

Page 114: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

104

ภาษาตางประเทศ Appuswamy R., & Gkantsidis C., & Narayanan D., Hodson O., & Rowstron, A. (2013). Scale-up

vs Scale-out for Hadoop: Time to rethink?. SoCC’13. Retrieved June 27, 2016, from http://dl.acm.org/citation.cfm?id=2523629

Bhosale S. H., & Gadekar P. D. (2014). A Review Paper on Big Data and Hadoop. International Journal of Scientific and Research Publications, 4(10), 1-7.

Dean J., & Ghemawat S. (2004). MapReduce: Simplied Data Processing on Large Clusters. Google Inc., OSDI 2004, 51(1), 107-113. Retrieved June 28, 2016, from http://dl.acm.org/citation.cfm?id=1327492

Fegaras L., & Li C., & Gupta, U. (2012). An Optimization Framework for Map-Reduce Queries. EDBT2012. Retrieved June 28, 2016, from http://dl.acm.org/citation.cfm?id=2247601

Gunarathne, T., & Perera S. (2015). Hadoop MapReduce v2 Cookbook Second Edition. (2nd eds.) Birmingham, UK: Packt Publishing. pp. 60- 66.

Gurevich Y., (2015). Comparative Survey of NoSQL / NewSQL DB Systems. (Department Computer Science, The Open University of Israel, Ra’anana). 30-31. Retrieved

July 3, 2016, from http://www.openu.ac.il/lists/mediaserver_documents/academic/cs/ ComparativeSurvey.pdf Hollingsworth R. M., (2012). Hadoop and Hive as Scalable Alternatives to RDBMS: A Case

Study. (Department of Computer Science, Boise State University, Boise). Retrieved June 28, 2016, from http://scholarworks.boisestate.edu/cs_gradproj/2/

Khanam, Z., & Agarwal, S. (2015). Map-Reduce Implementations: Survey And Performance Comparison. International Journal of Computer Science & Information Technology

(IJCSIT), 7(4), 119-126. Miner, D., & Shook, A. (2012). MapReduce Design Pattern. CA: O’Reilly Media. pp. 4-7. Sareen P., & Kumar P. (2015). NoSQL Database and its Comparison With SQL Database.

International Journal of Computer Science & Communication Networks, 5(5), 293-298. Schwartz, B., Zaitsev, P., & Tkachenko, V. (2012). High Performance MySQL Third Edition.

CA: O’Reilly Media. pp. 210-238.

Page 115: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

105

Singh D., & Reddy K. C. (2014). A survey on platforms for big data analytics. Journal of Big Data, 1(8), 1-20. Retrieved July 7, 2016, from http://www.journalofbigdata.com/content/1/1/8

Tao Y., & Lin W., & Xiao, X. (2013). Minimal MapReduce Algorithms. SIGMOD’13, 529-540. Retrieved June 28, 2016, from http://dl.acm.org/citation.cfm?id=2463719

Vicknair C., Macias M., Zhao Z., Nan X., Chen Y., & Wilkins, D. (2010). A Comparison of a Graph Database and a Relational Database. ACM SE’10, 15(17).

Retrieved June 29, 2016, from http://dl.acm.org/citation.cfm?id=1900067 White, T. (2012). Hadoop The Definitive Guide. (3rd ed.). CA: O’Reilly Media. pp. 13–14.

Page 116: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

ภาคผนวก

Page 117: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

ภาคผนวก ก

รายงานการเจบปวย พ.ศ.2537

ขอมลการปวยผปวยนอก

Page 118: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

108

Page 119: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

109

Page 120: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

110

Page 121: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

111

Page 122: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

112

Page 123: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

113

Page 124: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

ภาคผนวก ข

ผลลพธการทดลองแบบสอบถามคนคนขอมล

Page 125: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

115

1. การแสดงผลลพธ SQL รายงาน 1 จ านวนขอมล 500,000 ระเบยน

Page 126: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

116

2. การแสดงผลลพธ MapReduce รายงาน 1 จ านวนขอมล 500,000 ระเบยน

Page 127: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

117

3. การแสดงผลลพธ MapReduce รายงาน 1 และ รายงาน 2 จ านวนขอมล 500,000 ระเบยน

ICD-10 Group Total

โรคเกยวกบตอมไรทอ โภชนาการ และเมตะบอลสม 4 40,475.00

โรคระบบไหลเวยนเลอด 9 38,240.00

โรคระบบหายใจ 10 32,872.00

โรคระบบยอยอาหาร รวมโรคในชองปาก 11 24,665.00

โรคระบบกลามเนอ รวมโครงราง และเนอยดเสรม 13 22,666.00

อาการแสดงและสงผดปกตทพบไดจากการตรวจทางคลนกและทาง

หองปฏบตการทไมสามารถจ าแนกโรคในกลมอ 18 19,362.00

ภาวะแปรปรวนทางจตและพฤตกรรม 5 10,265.00

โรคตดเชอและปรสต 1 8,916.00

โรคระบบสบพนธรวมปสสาวะ 14 8,319.00

โรคตารวมสวนประกอบของตา 7 6,943.00

โรคผวหนงและเนอเยอใตผวหนง 12 6,919.00

สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย 21 4,295.00

โรคระบบประสาท 6 4,254.00

โรคหและปมกกห 8 2,010.00

โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน 3 1,732.00

เนองอก 2 1,691.00

ภาวะแทรกในการตงครรภ การคลอด และระยะหลงคลอด 15 1,125.00

อบตเหตจากการขนสง และผลทตามมา 20 1,035.00

ภาวะผดปกตของทารกแรกเกดขนในระยะปรก าหนด 16 355.00

รปรางผดปกตแตก าเนด การพการจนผดรปแตก าเนดและโครโมโซมผดปกต 17 263.00

การเปนพษและผลทตามมา 19 47.00

Page 128: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

118

4. การแสดงผลลพธ SQL รายงาน 1 จ านวนขอมล 1,000,000 ระเบยน

Page 129: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

119

5. การแสดงผลลพธ SQL รายงาน 2 จ านวนขอมล 1,000,000 ระเบยน

Page 130: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

120

6. การแสดงผลลพธ MapReduce รายงาน 1 และ รายงาน 2 จ านวนขอมล 1,000,000 ระเบยน

ICD-10 Group Total

โรคเกยวกบตอมไรทอ โภชนาการ และเมตะบอลสม 4 80,330

โรคระบบไหลเวยนเลอด 9 75,508

โรคระบบหายใจ 10 66,079

โรคระบบยอยอาหาร รวมโรคในชองปาก 11 49,333

โรคระบบกลามเนอ รวมโครงราง และเนอยดเสรม 13 45,231

อาการแสดงและสงผดปกตทพบไดจากการตรวจทางคลนกและทางหองปฏบตการทไม

สามารถจ าแนกโรคในกลมอ 18 37,941

ภาวะแปรปรวนทางจตและพฤตกรรม 5 20,439

โรคตดเชอและปรสต 1 17,652

โรคระบบสบพนธรวมปสสาวะ 14 17,144

โรคตารวมสวนประกอบของตา 7 13,972

โรคผวหนงและเนอเยอใตผวหนง 12 13,574

สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย 21 8,795

โรคระบบประสาท 6 8,451

โรคหและปมกกห 8 3,947

โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน 3 3,435

เนองอก 2 3,405

ภาวะแทรกในการตงครรภ การคลอด และระยะหลงคลอด 15 2,181

อบตเหตจากการขนสง และผลทตามมา 20 1,995

ภาวะผดปกตของทารกแรกเกดขนในระยะปรก าหนด 16 790

รปรางผดปกตแตก าเนด การพการจนผดรปแตก าเนดและโครโมโซมผดปกต 17 600

การเปนพษและผลทตามมา 19 97

Page 131: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

121

7. การแสดงผลลพธ SQL รายงาน 1 จ านวนขอมล 5,000,000 ระเบยน

Page 132: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

122

8. การแสดงผลลพธ SQL รายงาน 2 จ านวนขอมล 5,000,000 ระเบยน

Page 133: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

123

9. การแสดงผลลพธ MapReduce รายงาน 1 และ รายงาน 2 จ านวนขอมล 5,000,000 ระเบยน

ICD-10 Group Total

โรคเกยวกบตอมไรทอ โภชนาการ และเมตะบอลสม 4 402,100

โรคระบบไหลเวยนเลอด 9 378,424

โรคระบบหายใจ 10 329,670

โรคระบบยอยอาหาร รวมโรคในชองปาก 11 245,614

โรคระบบกลามเนอ รวมโครงราง และเนอยดเสรม 13 226,363

อาการแสดงและสงผดปกตทพบไดจากการตรวจทางคลนกและทางหองปฏบตการ

ทไมสามารถจ าแนกโรคในกลมอ 18 190,885

ภาวะแปรปรวนทางจตและพฤตกรรม 5 102,636

โรคตดเชอและปรสต 1 87,787

โรคระบบสบพนธรวมปสสาวะ 14 84,858

โรคตารวมสวนประกอบของตา 7 69,832

โรคผวหนงและเนอเยอใตผวหนง 12 68,727

สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย 21 43,910

โรคระบบประสาท 6 42,980

โรคหและปมกกห 8 19,171

โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน 3 17,340

เนองอก 2 16,922

ภาวะแทรกในการตงครรภ การคลอด และระยะหลงคลอด 15 11,142

อบตเหตจากการขนสง และผลทตามมา 20 10,130

ภาวะผดปกตของทารกแรกเกดขนในระยะปรก าหนด 16 3,822

รปรางผดปกตแตก าเนด การพการจนผดรปแตก าเนดและโครโมโซมผดปกต 17 2,933

การเปนพษและผลทตามมา 19 469

Page 134: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

124

10. การแสดงผลลพธ SQL รายงาน 1 จ านวนขอมล 10,000,000 ระเบยน

Page 135: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

125

11. การแสดงผลลพธ SQL รายงาน 2 จ านวนขอมล 10,000,000 ระเบยน

Page 136: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

126

12. การแสดงผลลพธ MapReduce รายงาน 1 และ รายงาน 2 จ านวนขอมล 10,000,000 ระเบยน

ICD-10 GROUP Total

โรคเกยวกบตอมไรทอ โภชนาการ และเมตะบอลสม 4 803,920

โรคระบบไหลเวยนเลอด 9 756,420

โรคระบบหายใจ 10 661,610

โรคระบบยอยอาหาร รวมโรคในชองปาก 11 492,848

โรคระบบกลามเนอ รวมโครงราง และเนอยดเสรม 13 451,449

อาการแสดงและสงผดปกตทพบไดจากการตรวจทางคลนกและทางหองปฏบตการ 18 382,004

ภาวะแปรปรวนทางจตและพฤตกรรม 5 205,790

โรคตดเชอและปรสต 1 176,598

โรคระบบสบพนธรวมปสสาวะ 14 169,937

โรคตารวมสวนประกอบของตา 7 140,556

โรคผวหนงและเนอเยอใตผวหนง 12 137,255

สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย 21 87,206

โรคระบบประสาท 6 86,051

โรคหและปมกกห 8 38,637

โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน 3 34,405

เนองอก 2 33,841

ภาวะแทรกในการตงครรภ การคลอด และระยะหลงคลอด 15 22,267

อบตเหตจากการขนสง และผลทตามมา 20 20,216

ภาวะผดปกตของทารกแรกเกดขนในระยะปรก าหนด 16 7,700

รปรางผดปกตแตก าเนด การพการจนผดรปแตก าเนดและโครโมโซมผดปกต 17 5,939

การเปนพษและผลทตามมา 19 918

Page 137: การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่ (ฮา ...libdoc.dpu.ac.th/thesis/Rachatha.Tim.pdf ·

127

ประวตผเขยน

ชอ – นามสกล นายรชต ทมาสรวชกจ ประวตการศกษา พ.ศ. 2543 ปรญญาตร การจดการสารสนเทศคอมพวเตอร มหาวทยาลยเซนตจอหน ต าแหนงและสถานทท างานปจจบน ประกอบธรกจสวนตว ประสบการณการท างาน IT Support Supervisor

บรษท ฮอกไกโด อนเตอรเนชนแนล จ ากด IT Manager บรษท บโอโน (ประเทศไทย) จ ากด Senior POS Officer บรษท ไทยแฟรนไชซง จ ากด System Support บรษท เซนทรล เรสตอรองส กรป จ ากด System Develop บรษท ไฮไฟ โอเรยนท (ไทย) จ ากด