การเปรียบเทียบการค้นคืนข้อมูลบนเทคโนโลยีข้อมูลขนาดใหญ่...
Post on 18-Jul-2020
7 Views
Preview:
TRANSCRIPT
การเปรยบเทยบการคนคนขอมลบนเทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) กบระบบฐานขอมลเชงสมพนธ (มายเอสควแอล)
กรณศกษา : ชดขอมลบรการสขภาพ
รชต ทมาสรวชกจ
วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตรวทยาศาสตรมหาบณฑต สาขาวชาเทคโนโลยคอมพวเตอรและการสอสาร
วทยาลยนวตกรรมดานเทคโนโลยและวศวกรรมศาสตร มหาวทยาลยธรกจบณฑตย
พ.ศ. 2560
Comparative Study between Big Data Technology (Hadoop / MapReduce) and Relational Database Query System (MySQL)
Case study: Healthcare Dataset
Rachatha Timasornwichakit
A Thesis Submitted in Partial Fulfillment of Requirements For the Degree of Master of Science
Department of Computer and Communication Technology, College of Innovative Technology and Engineering
Dhurakij Pundit University 2017
ฆ
หวขอวทยานพนธ การเปรยบเทยบการคนคนขอมลบนเทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) กบระบบฐานขอมลเชงสมพนธ (มายเอสควแอล) กรณศกษา : ชดขอมลบรการสขภาพ ชอผเขยน รชต ทมาสรวชกจ อาจารยทปรกษา ผศ.ดร.วรพล พงษเพชร อาจารยทปรกษารวม รศ.ดร.นพ.วรรษา เปาอนทร สาขาวชา เทคโนโลยคอมพวเตอรและการสอสาร ปการศกษา 2559
บทคดยอ
งานวทยานพนธนมวตถประสงคในการจดท าดงน 1) เพอศกษาแนวทางทเหมาะสมในการจดเกบขอมลบรการสขภาพบนสถาปตยกรรมขอมลขนาดใหญ 2) เพอเสรมสรางความรและความเขาใจในเทคโนโลยขอมลระหวางเทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) ซงมสถาปตยกรรมการจดการขอมลและใชหลกการทางคณตศาสตร และเทคนควธการสอบถามคนคนขอมลทแตกตางกนกบระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) และน ามาประยกตใชในการจดท าสถตขอมลการเจบปวย 3) เพอเปรยบเทยบประสทธภาพดานเวลาการประมวลผลและความถกตองแมนย าในการคนคนขอมล
ท าการศกษาเปรยบเทยบดวยการวจยเชงทดลอง มขนตอนวธการศกษาความแตกตางของเทคนควธการประมวลผลขอมล 2 รปแบบ ดวยการน าชดขอมลในระบบบรการสขภาพ คดเลอกแฟมผปวยนอกเปนชดขอมลตวอยาง ท าการแบงขอมลออกเปน 4 ชด มขนาดระเบยนหาแสน, หนงลาน, หาลานและสบลานระเบยนตามล าดบ และสรางชดแบบสอบถามขนจากรายงานสรปการเจบปวย พ.ศ.2557 จ านวน 2 รายงาน เปนเครองมอทน ามาใชหาประสทธภาพของเวลาในการประมวลผลแบบสอบถามคนคนขอมล
ประเมนประสทธภาพความเรวดวยการวเคราะหผลคาเฉลยโดยใชสถต t-Test : Paired Two Sample for Means ทดสอบสมมตฐานทคาดการณวาผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธแตกตางกน และการประเมนผลลพธความถกตองและแมนย าการคนคนดวยคาสถตรอยละ
ผลในการวจยพบวา เมอขอมลเรมมขนาดใหญ ทจ านวนตงแตขอมล 1-10 ลานระเบยน เทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) จะใชเวลาในการประมวลผลนอยกวาระบบการ
ง
จดการฐานขอมลเชงสมพนธ (มายเอสควแอล) และจากผลการวเคราะหสถตประสทธภาพดานความเรว สรปผลไดวาในการวเคราะหชดขอมล 5 แสนระเบยน และ 1 ลานระเบยน เทคโนโลยขอมลขนาดใหญใชเวลานอยกวาอยางมนยส าคญทางสถต แตในชดขอมล 5 ลานระเบยน และ 10 ลานระเบยนใชเวลาไมตางกน และประสทธผลของผลการสอบถามคนคนมความถกตองแมนย าตรงกนทกชดขอมล 100% เปนการยอมรบสมมตฐานทคาดการณไวลวงหนา
จ
Thesis Title Comparative Study between Big Data (Hadoop / MapReduce) and Relational Database Query System (MySQL) Case study: Healthcare Dataset Author Rachatha Timasornwichakit Thesis Advisor Asst. Prof. Dr.Worapol Pongpech Co-Thesis Advisor Assoc.Prof. Dr.Wansa Paoin Department Computer and Communication Technology Academic Year 2016
ABSTRACT
The objectives of this study are 1) to study the proper method to store and analyze the data of illness in Big Data architecture. 2) to compare different big data technology (Hadoop / MapReduce) and the relation database (MySQL) by using experimental research, studying the different between the groups of mathematics data compilation with different storage architecture and retrieval methods. 3) to study different methods of data processing format with the two sets of data in the healthcare system, the patient's sample data set were selected, the sample set was divided into four series with a record of five hundred thousand, one million, five million and ten million records respectively. Create a set of questionnaires and 2 reports of the illness from 2014 as a tool to be used for query processing performance in data retrieval.
Rated and speed of performance were analyzed using t-Test : Paired Two Sample for Means to compare between hadoop/mapreduce and relational databases system. The accuracy and precision of results were also measured.
The test results showed that the efficiency of hadoop/mapreduce use less time to process in one - ten million records. The hadoop/mapreduce used more time to process five hundred thousand records and one million, but one - five million records both technologies performed with no significant statistical different. The accuracy of data processing by both technologies were 100%.
ช
กตตกรรมประกาศ
วทยานพนธฉบบนส าเรจลลวงไดอยางสมบรณ โดยไดรบความอนเคราะหอยางดยงจากทาน ผศ.ดร.วรพล พงษเพชร และทาน รศ.ดร.นพ.วรรษา เปาอนทร ผวจยขอกราบขอบพระคณและจารกพระคณนไวในความทรงจ าอยางมรเลอนวาความส าเรจของงานวทยานพนธฉบบนเกดขนไดเพราะความกรณาของทานทไดใหค าแนะน า ตรวจทาน และแกไขขอบกพรองตาง ๆ ดวยความเอาใจใสเปนอยางด ตลอดจนใหความร ชแนะแหลงคนควาหาขอมล หลกส าคญในงานวจยและสรางโอกาสในการศกษาแกผวจยตลอดเวลาทไดศกษาภายในมหาวทยาลยแหงน และกราบขอบพระคณทานคณะกรรมการผทรงคณวฒทกทาน ทใหค าแนะน าทมประโยชนในงานวทยานพนธฉบบน และกราบขอบพระคณทานอาจารยนกล พมเสน ผดแลหองปฏบตการวศวกรรมขอมลขนาดใหญ ด าเนนการตดตงโปรแกรมฮาดปเครองแมขายพรอมเครอขาย และนายนฐพงษ หนสงห นกศกษาวศวกรรมขอมลขนาดใหญ ผเขยนโปรแกรมแมพรดวส าหรบงานทดลองในครงน
ขอขอบคณเจาหนาทเลขานการ คณะวศวกรรมศาสตรทกทาน ทไดใหค าแนะน าและชวยเหลอประสานงานจนวทยานพนธฉบบนเสรจลลวงไปไดดวยด ตลอดจนพนองนกศกษาสาขาวชาเทคโนโลยคอมพวเตอรและการสอสารทกทานทใหก าลงใจ และพนองนกศกษาสาขาวชาวศวกรรมขอมลขนาดใหญ ทรวมแบงปนความรกนในหองทดลอง ขอใหทกทานประสบความส าเรจในหนาทการงานทกทาน
ขอขอบคณคณะผบรหารของบรษท ฮอกไกโด อนเตอรเนชนแนล แฟรนไชส จ ากด ทใหความอนเคราะหวนและเวลาในการเขาศกษาหาความรใหแกผวจยเปนอยางด
สดทายนผวจยขอมอบคณความดทงานวจยน ทผวจยคาดหวงวาจะมใหแกสงคมแดบดาและมารดาผใหก าเนดผวจยมายงโลกใบน เปนผอยเบองหลงในความส าเรจในครงน ผซงปลกฝงความคดใหผวจยใฝการศกษา และไมยอทอตออปสรรคในชวต และเปนคนดของสงคมคอยชวยเหลอตอบแทนสงคม ตลอดจนขอขอบคณครอบครว พ นอง และเครอญาตทกทานทคอยเปนก าลงใจใหพยายามสท าเลมวทยานพนธฉบบนใหส าเรจจวบจนจบการศกษาได
รชต ทมาสรวชกจ
ซ
สารบญ หนา
บทคดยอภาษาไทย …………………………………………......................……………….. ฆ บทคดยอภาษาองกฤษ……………………………………………….............….....……….. จ กตตกรรมประกาศ…………………………………………………………………………... ช สารบญตาราง...……………………………………………………………………………... ญ สารบญภาพ…………………………………..................……………………….………… ฎ บทท 1. บทน า………………………………………………………………….……..…….. 1 1.1 ทมาและความส าคญของปญหา…………………………………..……..…….. 1 1.2 วตถประสงคของการวจย………………………………………...……………. 3 1.3 สมมตฐานของการวจย………………………………………...………………. 3 1.4 ประโยชนทคาดวาจะไดรบ……………………………………………………. 4 1.5 ขอบเขตการวจย………………………………………………………….….... 4 1.6 นยามศพท………………………………………………………...…………... 4 2. ทฤษฎ และผลงานวจยทเกยวของ………………………..……….…….………….. 7 2.1 ทฤษฎทเกยวของ…………………………………...…….……………………. 7 2.2 งานวจยทเกยวของ…………………………..……….………………………… 22 2.3 สรปงานวจยทเกยวของ…….………………..……….………………………… 49 3. แนวคด และวธด าเนนงานวจย……………………………………………………… 54 3.1 กรอบแนวคดการออกแบบงานวจย……………………………………………. 54 3.2 ขนตอนและวธการด าเนนงานวจย……………………………………………... 58 3.3 เครองมอด าเนนงานวจย………………..……………….……………………... 69 3.4 สถานทท างานวจย………………………….…….……………........................ 70 4. ผลงานวจย และสรปผลงานวจย…………………………………………………..... 71 4.1 ผลการเตรยมขอมลชดทดสอบ........................................................................... 71 4.2 ผลการสมคดเลอกขอมลชดทดสอบตามกลมทก าหนด……………………...… 72
ฌ
สารบญ (ตอ) บทท หนา 4.3 ผลการเตรยมชดแบบสอบถามทดสอบเอสควแอลและแมพรดว.….…….......... 73 4.4 ผลการทดสอบการประมวลผลดวยชดค าถามเอสควแอลและแมพรดว…..……. 80 4.5 ผลการทดสอบการประมวลผลดวยชดแบบสอบถามเอสควแอลและแมพรดว... 82 4.6 น าผลลพธทไดน ามาวเคราะหสถต............................................….……............ 84 4.7 สรปผลทไดจากการวเคราะหสถต….……………………………….…............ 88 4.8 สรปผลจากการทดลอง……………….………………………….……............. 88 5. อภปรายผลงานวจย และขอเสนอแนะ……………...……………………………… 94 5.1 อภปรายผลการวจย……..…………………………………...…………………. 94 5.2 ขอเสนอแนะ……………………….………………………..……...…………. 97 5.3 งานวจยในอนาคต……………………………………...……………………… 99 บรรณานกรม…………………………………………………………………………...…… 101 ภาคผนวก………………………………………………………………….………………… 106 ก ………...................................................................................................................... 107 ข ………...................................................................................................................... 114 ประวตผเขยน.......................................................................................................................... 127
ญ
สารบญตาราง ตารางท หนา 3.1 จ านวนขอมลชดทดสอบแฟม Diagnosis_opd.................................................... 60 3.2 โครงสรางแฟมขอมลมาตรฐานของตาราง Diagnosis_opd……………...…..… 61 3.3 ตวอยางชดขอมลจากตาราง Diagnosis_opd ทน าเขาทดสอบ…………..……… 65 4.1 การคดกรองคดเลอกขอมลชดทดสอบแฟม Diagnosis_opd.............................. 71 4.2 แบงการคดกรองชดทดสอบ 4 ชด เขาระบบฐานขอมลแฟม Diagnosis_opd..… 72 4.3 น าเขาขอมลชดทดสอบ 4 ชด แฟม Diagnosis_opd ...............................……… 73 4.4 ตวอยางขอมลในแฟมกลมโรค ขอมลจ านวน 2,136 ระเบยน.................……… 74 4.5 โครงสรางตารางแฟม 21 กลมโรค.........................................................……… 75 4.6 ผลการเปรยบเทยบ Database Engine ของฐานขอมลมายเอสควแอล................. 81 4.7 ผลการเปรยบเทยบบลอกไซคของฮาดปและแมพรดว........................................ 81 4.8 ผลของการคนคนแบบสอบถามขอมลดวยภาษาสอบถามเอสควแอล..........…... 82 4.9 ผลของการคนคนแบบสอบถามขอมล ดวยเทคนคแมพรดว…………................ 83 4.10 ผลการเปรยบเทยบผลรวมจากการประมวลผลเทคโนโลยขอมล 2 รปแบบ...... 83 4.11 สรปผลเปรยบเทยบความแมนย าถกตองจากการประมวลผล…..……...….….. 84 4.12 ผลการวเคราะห t-Test: Paired Two Sample for Means (5 แสนระเบยน)......... 85 4.13 ผลการวเคราะห t-Test: Paired Two Sample for Means (1 แสนระเบยน)......... 85 4.14 ผลการวเคราะห t-Test: Paired Two Sample for Means (5 ลานระเบยน)......... 86 4.15 ผลการวเคราะห t-Test: Paired Two Sample for Means (10 ลานระเบยน)........ 86 4.16 ตารางสรปผลเวลาเฉลยการประมวลผลเทคโนโลยขอมล 2 รปแบบ (วนาท)... 87
ฎ
สารบญภาพ ภาพท หนา 1.1 กราฟจ านวนผปวยนอกและผปวยในตามการจ าแนกกลมโรค พ.ศ.2551-2555... 2 2.1 แผนภาพการจดระดบบรการสขภาพ กระทรวงสาธารณสข……..……......…… 9 2.2 รปแบบการเชอมโยงขอมลน าเขาและสงออกขอมลคลงขอมลสขภาพ PROVIS 11 2.3 รปแบบการจดสงขอมลศนยขอมลสขภาพ (Health Data Center )……..…….... 13 2.4 สถาปตยกรรมกระบวนการสอบถามขอมลระบบฐานขอมล..........……..……... 17 2.5 กรอบการท างาน Hadoop Ecosystem……..……………………………….…... 18 2.6 กรอบการท างานของฮาดปท างานรวมกบแมพรดว...……..…………...………. 19 2.7 กรอบการท างานแมพรดว................................................................................... 20 3.1 กระบวนการระบบการสงขอมลบรการสขภาพ.................................................. 56 3.2 การก าหนดตวแปรทใชในการทดลอง................................................................. 58 3.3 ขนตอนและวธด าเนนการทดลอง........................................................................ 59 3.4 ขนตอนการคดกรองตรวจสอบขอมลชดทดสอบ................................................ 61 3.5 ภาพการแสดงขอมลชดตวอยางกอนคดกรองดวยโปรแกรม EmEditor.............. 62 3.6 ภาพการแสดงขอผดพลาดขอมลชดตวอยางดวยโปรแกรม EmEditor................ 63 3.7 ขนตอนการสมขอมลการทดสอบออกเปน 4 ชดขอมล....................................... 63 3.8 ขนตอนการประมวลผลและปรบปรงกระบวนการแบบสอบถามขอมล.............. 64 3.9 ขนตอนการประมวลผลดวยเทคโนโลยขอมลขนาดใหญ.................................... 66 3.10 ขนตอนการประมวลผลชดขอมลตวอยางดวยเทคนคแมพรดว......................... 67 3.11 รปแบบเครอขายคอมพวเตอรทใชในงานวจย................................................... 69 4.1 การเชอมโยงความสมพนธระหวางแฟมรหสกลมโรคและแฟมผปวยนอก......... 74 4.2 ขนตอนการ Join Data โปรแกรมแมพรดว…..................................................... 78 4.3 ขนตอนการ Counting และ Sorting Data โปรแกรมแมพรดว…........................ 79 4.4 ขนตอนการคนคนขอมลดวยโปรแกรมแมพรดว…............................................. 79 4.5 กราฟแสดงผลเปรยบเทยบการเปรยบเทยบเทคโนโลยขอมล 2 รปแบบ…......... 87 5.1 แนวทางทผวจยน าเสนอการประมวลผลแบบ ETL (Extract Transform Load)... 99
บทท1 บทน า
1.1 ทมาและความส าคญของปญหา
กระทรวงสาธารณสข มหนาทรบผดชอบดแลสขภาพของประชาชน โดยการจดใหมระบบบรการสขภาพทครอบคลมทงการสงเสรมสขภาพ การปองกนโรค การรกษาพยาบาล และการฟนฟสภาพ มการจดระบบบรการสขภาพออกเปนหลายระดบไดแก บรการระดบปฐมภม (Primary Care) บรการระดบทตยภม (Secondary Care) และบรการระดบตตยภม (Tertiary Care) โดยมงหวงใหบรการแตละระดบมบทบาทหนาททแตกตางกน และเชอมโยงกนดวยระบบสงตอ เพอใหสามารถจดบรการสขภาพทมคณภาพ และเกดการใชทรพยากรทมอยจ ากดอยางมประสทธภาพ ตลอดจนเปนระบบบรการสขภาพทมศกยภาพรองรบปญหาทางการแพทยและสาธารณสขทมความซบซอนในระดบพนทได (ส านกบรหารการสาธารณสข [สบรส.], 2555, น. 1) โดยมกรอบแนวคด “เครอขายบรการทไรรอยตอ” ทสามารถเชอมโยงบรการทง 3 ระดบเขาดวยกน และมนโยบายใหด าเนนการจดเกบรวบรวมขอมลการใหบรการสาธารณสขและการแพทยเขาไวดวยกน มการด าเนนการจดท าระบบคลงขอมลดานการแพทยและสขภาพ (Health Data Center : HDC) ใชแฟมโครงสรางมาตรฐานในการจดเกบ 43 และ 7 แฟมมาตรฐาน เพอน าขอมลการมารบบรการสาธารณสขรวบรวมจากทกหนวยบรการสาธารณสขในระดบจงหวด เขาสศนยขอมลระดบจงหวด และด าเนนการประมวลผลเขาสระดบเขต และระดบกระทรวงอยางเปนล าดบ มเปาหมายใหใชงานไดครอบคลมทง 76 จงหวด ภายในป พ.ศ.2558
ส านกงานสถตแหงชาตไดรายงานสถตจ านวนผปวยใน(In Patient Department : IPD) และจ านวนผปวยนอก(Out Patient Department : OPD) จ าแนกตามกลมสาเหตการเจบปวย จากสถานบรการสาธารณสข ของกระทรวงสาธารณสขทวประเทศ ตงแตป พ.ศ.2551ถง พ.ศ.2555 จากรายงานเหนไดวามแนวโนมการเพมขนของขอมลผปวยใน และขอมลผปวยนอกทกๆ ปและเมอสถานพยาบาลในประเทศไทยทกสถานพยาบาล ทกระดบตงแตระดบปฐมภม ทตยภม และตตยภมตองจดสงขอมลเวชระเบยนผปวยทมการตรวจสอบคณภาพขอมลเรยบรอยแลวน าเขาสระบบคลงขอมลดานการแพทยและสขภาพ มวตถประสงคเพอการประมวลผลจดท ารายงานและการวเคราะห เชน รายงานขอมลทรพยากรสาธารณสข รายงานจ านวนผปวย รายงานการก าเนดและการ
2
เสยชวตทวประเทศเปนประจ าทกๆ เดอน หรอรายงานการปวย เปนขอมลทแสดงความชกของโรคตางๆ ทมผมารบบรการรกษาพยาบาลในสถานบรการทกระดบ ในการรวบรวมขอมลการปวยจากระบบรายงานจากฐานขอมลผปวยรายบคคลมาประมวลผลและวเคราะหขอมลเปนประจ าทกป เรมปรบเปลยนจากระบบแบบรายงานเดม รายงานผปวยนอก ตามกลมสาเหต 21 กลมโรค (รง.504) และรายงานผปวยในรายโรค ตามกลมสาเหต 75 กลมโรค (รง.505) ตงแตป 2556 (ส านกนโยบายและยทธศาสตร ส านกงานปลดกระทรวงสาธารณสข [สนย.สป.สธ.], 2556, น. 1-3) เพอน ามาจดท าเปนเครองชวดทางสขภาพ (Health Indicators) ท าใหเกดขอมลเปนจ านวนมากในฐานขอมลและสงผลตอการประมวลผลขอมล (Data Processing) ในการใชเวลาการค านวณและพนทจดเกบขอมล (Storage) ทตองการเพมขน
จากจ านวนขอมลผปวยในรายงานส านกงานสถตแหงชาต หากอนมานวาขอมลผปวย 1 ราย มการบนทกขอมลลงฐานขอมลหนงระเบยน (Record) หรอเทากบ 1 กโลไบต (KB) ยกตวอยางขอมลในป พ.ศ.2555 มจ านวนผปวยนอกและผปวยในรวมทงสน 195,045,075 ราย จะมขนาดของขอมลโดยประมาณเทากบ 186 กกะไบต (GB)
ภาพท 1.1 กราฟจ านวนผปวยนอกและผปวยในตามการจ าแนกกลมโรค ป พ.ศ.2551-2555 ทมา: ส านกงานสถตแหงชาต [online] : เขาถง 28 ต.ค. 2558. จาก http://service.nso.go.th/nso/web/statseries/statseries09.html
3
ดงน นเ มอน าขอมลการมารบบรการสาธารณสขรวบรวมจากทกหนวยบรการสาธารณสข เขาจดเกบไวในเซรฟเวอร (Server) ในแตละเดอนมขอมลเพมขนและขนาดใหญขน การประมวลผลขอมลจ าเปนตองใชทรพยากรรองรบการประมวลผลขอมล เชนอปกรณจดเกบขอมล (Storage) และหนวยประมวลผลกลาง (Central Processing Unit : CPU) และหนวยความจ าหลก (RAM) เพอน ามารองรบในการประมวลผลขอมลจ านวนมากเมอตองด าเนนการท ารายงานทางสถตและดชนชวดใหแลวเสรจทนเวลาและทนตอความตองการกอใหเกดคาใชจายทตองจดหาเซรฟเวอรทมประสทธภาพในการประมวลผลสง การประมวลผลในระบบนเรยกวาการประมวลผลแบบรวมศนย (Centralized Computing)
เมอขอมลถกรวบรวมจดเกบในคลงขอมลดานการแพทยและสขภาพในแตละปเปนจ านวนหลายเทราไบต (TB) จะเกดเปนขอมลมหาศาลหรอเรยกอกชอวาขอมลขนาดใหญ (Big Data) หากตองการน ามาประมวลผลเปรยบเทยบทางสถต งานเวชสถต งานวเคราะหทางการแพทยโดยใชหลกการทางคณตศาสตร หรอท าดชนชวด ปญหาส าคญคอ เวลาทใชการประมวลผลในแตละงาน (Batch Processing) จะตองใชเวลานานอยางหลกเลยงไมได จ าเปนตองหาแนวทางใหมน ามาใชจดการกบฐานขอมลขนาดใหญนโดยเฉพาะ 1.2 วตถประสงคของการวจย 1. เพอศกษาแนวทางทเหมาะสมในการจดเกบและวเคราะหขอมลการเจบปวยทรวบรวมขอมลการใหบรการสขภาพโดยกระทรวงสาธารณสข ดวยสถาปตยกรรมขอมลขนาดใหญ 2. เพอศกษาทฤษฏการท างานของอลกอรทมคนคนขอมลบนเทคโนโลยขอมลขนาดใหญและน ามาประยกตใชในการจดท าสถตขอมลการเจบปวย 3. เปรยบเทยบประสทธภาพดานเวลาและความแมนย าถกตองในการคนคนขอมลบนระบบเทคโนโลยขอมลขนาดใหญกบเทคโนโลยระบบฐานขอมลเชงสมพนธ
1.3 สมมตฐานของการวจย 1. ผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยระบบขอมลขนาดใหญกบเทคโนโลยระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน 2. ผลลพธของความแมนย าถกตองการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยระบบขอมลขนาดใหญกบเทคโนโลยระบบฐานขอมลเชงสมพนธ มผลลพธไมแตกตางกน
4
1.4 ประโยชนทคาดวาจะไดรบ 1. ไดแนวทางทเหมาะสมในการจดเกบและวเคราะหขอมลการเจบปวยทมการรวบรวมขอมลการใหบรการสขภาพโดยกระทรวงสาธารณสข ดวยสถาปตยกรรมขอมลขนาดใหญ 2. สามารถน าทฤษฏกรอบการท างานของระบบขอมลขนาดใหญใชก าหนดเทคนคและจ าลองรปแบบค าหรอประโยคการคนคนขอมลเพอใหไดผลลพธทถกตองและแมนย าได 3. สามารถน าทฤษฏกรอบการท างานของระบบขอมลขนาดใหญใชการคนคนขอมลเพอจดท าสถตขอมลการเจบปวยไดอยางมประสทธภาพและประสทธผล 4. สามารถน าประสทธภาพของเวลาและความเรวทใชในการประมวลผลมาวเคราะห เพอหาเกณฑการประเมนความคมคาของคาใชจายในการประมวลผลสอบถามและการใชทรพยากรได
1.5 ขอบเขตของการวจย
1. ศกษาโครงสรางระบบสขภาพของกระทรวงสาธารณสขแหงประเทศไทยเพอใชในการวางแนวทางงานวทยานพนธ 2. ศกษาเครองมอและกรอบการท างานในเทคโนโลยระบบขอมลขนาดใหญเพอใชในการน าเขาขอมลจดเกบขอมลการประมวลผลขอมลและการแสดงรายงานขอมลการเจบปวย 3. ศกษาเครองมอและกรอบการท างานในเทคโนโลยระบบขอมลขนาดใหญเพอใชก าหนดเทคนคและจ าลองรปแบบค าหรอประโยคการคนคนขอมลเพอใหไดผลลพธทถกตองและแมนย า 4. ศกษาเครองมอในเทคโนโลยระบบขอมลขนาดใหญเพอใชการวเคราะหขอมลและจดท าสถตการเจบปวยดวยขอมลบรการสขภาพ 5. ศกษากระบวนการปรบปรงประสทธภาพการคนคนขอมลและประเมนความคมคาของการใชทรพยากร เพอปรบปรงรปแบบการคนคนใหไดผลลพธของเวลาทดทสด 6. จดเกบขอมลเวลาและความแมนย าถกตองในการคนคนขอมลระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธเพอเปรยบเทยบและน าผลทดลองมาวเคราะหเชงสถต
1.6 นยามศพท
ผปวยใน (In Patient Department : IPD) หมายถง ผปวยทลงทะเบยนเขารบการรกษาตวในโรงพยาบาลหรอสถานพยาล โดยไดรบการวนจฉยและค าแนะน าจากแพทยตองนอนพกรกษาตวในโรงพยาบาลตงแต 6 ชวโมงขนไป
5
ผปวยนอก (Out Patient Department : OPD) หมายถง ผปวยทลงทะเบยนเขารบการรกษาทโรงพยาบาลหรอสถานพยาบาล โดยไมตองนอนพกรกษาตวในโรงพยาบาลผปวยสามารถกลบบานไดในวนทเขารบการรกษา
เวชสถต (Medical Statistics) หมายถง สถตทางการแพทย เปนการเกบรวบรวมขอมลทางการแพทยเพอการน าเสนอขอมลทางการแพทย น ามาใชในงานวเคราะหทางการแพทยโดยใชหลกการทางคณตศาสตร สถต และน าผลการวเคราะหขอมลมาสรปเพอน าไปใชในการจดท ารายงานทางการแพทย เพอการพฒนา และการศกษาวจยทางการแพทย
ระบบสขภาพ (Health System) หมายถง ระบบทมงหวงใหประชาชนมสขภาวะกายและจตทด ผานกระบวนการสรางเสรมสขภาพ ปองกนโรค รกษาโรค ฟนฟการท างานของรางกาย และกระบวนการสรางความแขงแกรงและความพรอมของสาธารณสขในการรบมอโรคตดตอ โรคไมตดตอ และภยพบต นอกเหนอการตอบสนองความคาดหวงของประชาชนแลว ระบบสขภาพทดควรเหนคณคาและศกดศรในความเปนมนษยของทกคน ยดมนในหลกศลธรรม คณธรรม จรยธรรมในการด าเนนการ และใหความเทาเทยมดานสทธประโยชนแกประชาชนทกกลมอยางเหมาะสม ระบบสขภาพทสมบรณจงมประชาชนเปนศนยกลาง แวดลอมดวยกจกรรมทมงสงเสรม ฟนฟ และธ ารงสขภาพของประชาชน
ระบบบรการสขภาพ (Health Care System) หมายถง ระบบบรการสขภาพเปนสวนหนงของระบบสขภาพ เปนระบบบรการตางๆ ทจดขนเพอเปนการดแลสขภาพของประชาชนทงทางดานการสรางเสรมสขภาพ การควบคมปองกนโรค การรกษาพยาบาล และการฟนฟสมรรถภาพ ทเปนแบบผสมผสานหรอเฉพาะดาน เฉพาะเรอง เปาประสงคของระบบบรการสขภาพทดคอ ความเปนธรรมในการรวมจายคาบรการสขภาพ การใหบรการสขภาพเพอสงมอบการบรการเพอสงเสรมสขภาพ, การใหบรการในลกษณะสาธารณสขมลฐาน, การใหบรการผปวยซ าซอน, การใหบรการสขภาพเพอครอบครว, การใหบรการระบบสงตอ, การใหบรการเฉพาะกลมประชากร ทงนหากเปนสวนทรฐจดขน สนบสนนใหจดขน หรออยภายใตการควบคมก ากบของรฐ เพอประชาชนโดยทวไป ในอดตจะเรยกในสวนนวา บรการสาธารณสข
ขอมลบรการสขภาพ (Health Care Data) หมายถง ขอมลทไดจากการส ารวจสขภาพ, ขอมลทะเบยนสถตชพ, ขอมลการเฝาระวงโรคและการบาดเจบ, ขอมลทะเบยนโรค, ขอมลบรการสขภาพจากสถานพยาบาล, แบบบนทกการรกษาทางการแพทยของผปวย, ขอมลเพอใชรวบรวมน ามาวเคราะหน าไปใชเพอการบรหารคาใชจายและทรพยากรเพอใชในการดแลสขภาพของประชาชนหรอจะกลาวสนๆ ไดวา ขอมลทเกยวของกบการเจบปวยทถกจดเกบไวอยางเปนระบบ
6
และระเบยบขนตอนแบบแผนในการรวบรวมและจดเกบ และมการตรวจสอบคณภาพขอมลอยางมระบบเปนขนตอนกอนน าเขาระบบคลงขอมลสขภาพ
ฐานขอมลเชงสมพนธ (Relational Database) หมายถง ขอมลทถกจดเกบขอมลในรปของตาราง (Table) หลายๆ ตารางทมความสมพนธกน ในแตละตารางแบงออกเปนแถว และในแตละแถวจะแบงออกเปนคอลมน (Column) ในทางทฤษฏใชแบบจ าลองโมเดลเชงสมพนธ (Relational Database Model) โดยใชหลกพนฐานทางคณตศาสตร
ขอมลขนาดใหญ (Big Data) หมายถง ปรมาณของจ านวนขอมลทมมหาศาล ทงขอมลทมโครงสรางและไมมโครงสรางทเกดจากขอมลการปฏบตงานทกๆ วนของธรกจ ขอมลขนาดใหญมคณลกษณะ 3 ประการ คอ 1.ปรมาณ (Volume) ขอมลทรวบรวมจากแหลงขอมลหลากหลายแหลงและหลากหลายประเภท 2.หลากหลาย (Variety) ขอมลมลกษณะรปแบบของขอมลทแตกตางกน 3.รวดเรว (Velocity) ขอมลเกดขนไดตลอดเวลาและสามารถรวบรวมขอมลไดอยางทนท งานวทยานพนธนหมายถงขอมลบรการสขภาพทมการจดเกบขอมลแบบเชงสมพนธอยางมโครงสราง
ระบบสอบถามคนคนขอมลคอ กระบวนการดงหรอคนหาขอมลยอนหลงจากทมการจดเกบไว ซงอาจจะหมายถงการจดเกบแบบทมโครงสรางหรอไมมโครงสรางหรอกงโครงสราง เพอน าออกเปนสารสนเทศตามความตองการของผใช
บทท 2 ทฤษฎ และผลงานวจยทเกยวของ
งานวทยานพนธฉบบนน าเสนอแนวคดการเปรยบเทยบประสทธภาพของเวลาในการคนคนขอมลดวยภาษาสอบถามเชงโครงสรางและผลลพธความถกตองในการประมวลผลขอมล ระหวางเทคโนโลยขอมลขนาดใหญ (ฮาดปและแมพรดว) กบระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) ซงมการใชทฤษฏทเกยวของ 6 ทฤษฏดงน
ก. ทฤษฏฐานขอมลและการจดการฐานขอมลแบบเชงสมพนธ ข. ทฤษฏการคนคนดวยภาษาสอบถามเชงโครงสรางเอสควแอล ค. ทฤษฏกระบวนการสอบถามขอมล ง. ทฤษฏระบบจดเกบแบบกระจายขอมลบนกรอบการท างานฮาดป จ. ทฤษฏระบบการประมวลผลแบบขนานดวยเทคนคแมพรดว ฉ. ทฤษฎการวเคราะหขอมลและสถตการวเคราะหขอมล
2.1 ทฤษฏทเกยวของ
ผวจยมแนวทางการเขยนงานทฤษฏทเกยวของโดยการน าวตถประสงคและขอบเขตของงานวจยเปนหวขอหลกเพอทบทวนวรรณกรรม ผวจยขอน าเสนอเปนหวขอดงน
2.1.1 การทบทวนวรรณกรรมระบบสขภาพของกระทรวงสาธารณสขแหงประเทศไทย การทบทวนวรรณกรรมระบบบรการสขภาพจะท าใหผจดท าวจยฉบบนเขาใจและรจก
กบวงการสาธารณสขแหงประเทศไทยใหดยงขน ดวยการศกษาโครงสรางระบบสขภาพของกระทรวงสาธารณสขของประเทศไทย โดยการศกษาคนควากบเอกสารงานวจย เอกสารงานวชาการ และแผนนโยบายของกระทรวงสาธารณสข และบทความตางๆ ของหนวยงานทเกยวของกบกระทรวงสาธารณสข ท าความเขาใจเรองราวในวงการสาธารณสขของประเทศไทยในปจจบน อกทงยงศกษาแนวทางในการจดเกบและวเคราะหขอมลการเจบปวยทไดมการรวบรวมขอมลการใหบรการสขภาพและการคนควาขอมลน ามากลนกรองประเดนปญหาดวยแนวทางการคดเชงวเคราะห ผเชยวชาญดานการคดเชงวเคราะหกลาวไววา หลกการคดเชงวเคราะหโดยพนฐานเกยวของกบการจ าแนกแจกแจงขอมลออกเปนสวนๆ ตรวจสอบอยางละเอยด หาความสมพนธเชง
8
เหตผล เพอท าความเขาใจ กอนทจะประเมนและตดสนใจเกยวกบเรองนน เราตองเรยนรทจะมองสงนน “ตามเนอผา” หรอ “มองสงทเหนใหเปนเชนทมนเปนอย” เพอใหรวาเรองนนเกยวกบอะไร ไมดวนสรปหรอดวนแสดงทศนะใดๆ เกยวกบเรองนน เปนการแสดงความปรารถนาสบสาวเรองนนในระดบลกลงกวาเดม โดยพยายามท าความเขาใจ หาทมาทไปเกยวกบเรองนน เชอมโยงความสมพนธเชงเหตผล เพอใหรขอเทจจรงกอนทจะด าเนนการใดๆ ลงไป (เกรยงศกด เจรญวงศศกด, 2553, น. 74-75) การคดเชงวเคราะหจะน ามาใชศกษาทบทวนงานวรรณกรรมระบบสขภาพเพอคนหาปญหาของกระทรวงสาธารณสข สามารถสรปความเปนมาในสงทเกดขน ตงแตกอนเรมระบบบรการสขภาพและหลงเรมระบบบรการสขภาพ ไดพอสงเขปดงตอไปน
กอนเรมระบบบรการสขภาพ ประเทศไทยเรมมการพฒนารหสกลมโรคเพอใหการบนทกขอมลเปนไปตามมาตรฐานและหลกการสากลโลกขององคการอนามยโลก (Word Health Organization หรอ WHO) ในป พ.ศ.2543 โดยเรมจากส านกนโยบายและยทธศาสตร ส านกงานปลดกระทรวงสาธารณสข เรมพฒนาบญชจ าแนกโรคฉบบประเทศไทย ฉบบท 1 เพอใชเปนแนวทางในการใหรหสกลมโรค ท าใหการบนทกขอมลผปวยทเขารบบรการในสถานพยาบาลในสงกดกระทรวงสาธารณสขมมาตรฐานเปนไปในแนวทางเดยวกนมวตถประสงคเพอน าขอมลการวนจฉยทางการแพทยแปรเปลยนมาเปนสารสนเทศ ส าหรบน ามาวเคราะหและวางแผนทางดานงานสาธารณสข ดแลสขภาพของประชากรชาวไทย อกทงในเรองการจดสรรทรพยากรทงทางดานบคลากรและงบประมาณใหเหมาะสมและเพยงพอ ถกตองตรงตอความตองการในแตละสวนงานและหรอหนวยงานทเกยวของดานสาธารณสข กอใหเกดการพฒนาระบบสาธารณสขของประเทศไทยอยางย งยนซงมการพฒนามการด าเนนการจดท าและปรบปรง (Revision) รหสมาแลวหลายครงหลายฉบบ อยางตอเนองจนถง พ.ศ.2559 เปนฉบบทบทวนและปรบปรงใหมป พ.ศ.2557
ในป พ.ศ. 2544 แพทยสภาไดมการประกาศใชคมอคาธรรมเนยมแพทย เปนแนวทาง แตมใชเปนการบงคบอยางมบทลงโทษ ซงถอวาเปนการใชรหส ICD-10-TM สวนหตถการและการผาตดอยางเปนทางการครงแรก และในระยะเวลาตอมาไดมโรงพยาบาลภาครฐและเอกชนบางสวนใชรหส ICD-10-TM ในกรณทตองการเกบขอมลการผาตดและหตถการทมรายละเอยดมากกวา ICD-9-CM และไดเรมมการประกาศใชรหส ICD-10-TM for PCU Procedures ทวประเทศไทยเปนครงแรกในเดอนพฤษภาคม 2553 (ส านกนโยบายและยทธศาสตร ส านกงานปลดกระทรวงสาธารณสข [สนย.สป.สธ.], 2553, น. 1)
กระทรวงสาธารณสข ไดออกแผนพฒนาระบบบรการสาธารณสขในสวนภมภาค พ.ศ.2554 เพอจดใหมระบบบรการสขภาพทครอบคลมทงการสงเสรมสขภาพ การปองกนโรค การรกษาพยาบาล และการฟนฟสภาพ มการจดระบบบรการสขภาพออกเปน 3 ระดบ ไดแก บรการ
9
ระดบปฐมภม (Primary Care) บรการระดบทตยภม (Secondary Care) และบรการระดบตตยภม (Tertiary Care) โดยมงหวงใหบรการแตละระดบมบทบาทหนาททแตกตางกน และเชอมโยงกนดวยระบบสงตอ เพอใหสามารถจดบรการสขภาพทมคณภาพ โดยมกรอบแนวคด “เครอขายบรการทไรรอยตอ” ทสามารถเชอมโยงบรการทง 3 ระดบเขาดวยกนตงแตระดบปฐมภม ทตยภม และตตยภม ในแตละจงหวดจะตองมเครอขายบรการระดบจงหวดทสามารถรองรบการสงตอตามมาตรฐานระดบจงหวดไดอยางสมบรณ และใหส านกงานสาธารณสขจงหวดเปนผรบผดชอบการตงศนยการแพทยชมชนเมองและเปนศนยกลางประสานงานแมขายระดบปฐมภม
ภาพท 2.1 แผนภาพการจดระดบบรการสขภาพ กระทรวงสาธารณสข ทมา: ศนยมาตรฐานรหสและขอมลสขภาพแหงชาต [online] : เขาถง 28 ต.ค. 2558. จาก http://www.thcc.or.th/
หลงเรมระบบบรการสขภาพ กระทรวงสาธารณสขไดมการประกาศนโยบายตงแตป พ.ศ.2555 ใหด าเนนการจดเกบรวบรวมขอมลการใหบรการสาธารณสขและการแพทยเขาไวดวยกน โดยก าหนดใหมการด าเนนการจดท าระบบคลงขอมลดานการแพทยและสขภาพ โดยใชแฟมโครงสรางมาตรฐานในการจดเกบ 43 และ 17 แฟมมาตรฐาน เพอน าขอมลการมารบบรการ
10
สาธารณสขรวบรวมจากทกหนวยบรการสาธารณสขในระดบจงหวด เขาสศนยขอมลระดบจงหวด และด าเนนการประมวลผลเขาสระดบเขต และระดบกระทรวง เพอรวบขอมลเขาไวดวยกนเปนศนยขอมลคลงสขภาพ (Health Data Center) หรอศนยขอมลขาวสารและสารสนเทศสขภาพ กระทรวงสาธารณสข โดยมเปาหมายใหมการใชงานไดครอบคลมทง 76 จงหวด ภายในป พ.ศ.2558 มแบบแผนการทดลอง (Pilot Test) ใชในสถานพยาบาลบางแหงกอนปรบเปลยนรปแบบการใชงานทวประเทศ ผวจยด าเนนการศกษาคนควาหาขอมลจากเนอหาขาวสารในเวบไซตทเกยวของกบระบบสขภาพบนอนเตอรเนท ท าใหทราบวางานเขยนหรอวรรณกรรมทเกยวของดานเนอหาระบบขอมลสขภาพมาจากหนวยงานในระบบสขภาพ เชน หนวยงานโรงพยาบาล สถานพยาบาลของกระทรวงสาธารณสข หนวยงานวชาการภายในของกระทรวงสาธารณสข และรวมถงนกศกษาสาขางานสาธารณสขและการแพทย โดยขอแบงชวงเวลาออกเปน 2 ชวงเวลา จากการประกาศใชงานโปรแกรมจดเกบขอมลสวนกลาง (Data Center) เปนหลก
ชวงเวลาท 1) พ.ศ.2555-2558 มการกลาวถงการเกบขอมลสขภาพในระบบแฟมขอมล 43 แฟม และ 17 แฟมมาตรฐาน ดวยโปรแกรมฐานขอมล (PROVIS) ใหเปนศนยกลางของขอมลระดบปฐมภม เปนระบบฐานขอมลสาธารณสขจงหวด อกทงยงมโปรแกรมระบบงานโรงพยาบาลสงเสรมสขภาพต าบลและศนยสขภาพชมชน (JHCIS) ทใชรวบรวบขอมลระดบทตยภม และตตยภม และสงตอขอมลเขาสระดบปฐมภมหรอจะกลาวไดวาจาก JHCIS รวบรวมเขาส PROVIS เรมมการใชงานโปรแกรมอยางแพรหลายเมอผ วจยไดสบคนขอมลเพมเตมเพอตองการทราบวาฐานขอมลเหลานนมการจดการดวยโปรแกรมฐานขอมลใด เปนโปรแกรมทรวบรวมขอมลและสงตอขอมลใหกบหนวยงานในระดบเขต และระดบกระทรวง พบวาโปรแกรม PROVIS และ JHCIS ใชโปรแกรมฐานขอมลโอเพนซอรสมายเอสควแอล (MySQL) และจดเกบฐานขอมลแบบเชงสมพนธ (Relational Database) ซงไดรบการสนบสนนการเขยนโปรแกรมจากศนยเทคโนโลยสารสนเทศและการสอสาร ส านกงานปลดกระทรวงสาธารณสขและศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (เนคเทค) ทมวตถประสงคเพอใหใชงานไดครอบคลมขอมลของโรงพยาบาลทงหมดอยางเปนระบบ สะดวกรวดเรว และมประสทธภาพตอบสนองตอการจดท ารายงานตางๆ ทงในระดบเขตระดบกระทรวง และเพอใหไดสารสนเทศตรงตามความตองการ โดยสามารถใชงานไดหลายระบบปฏบตการ (Operating System) และถกออกแบบพฒนาโปรแกรมใหสามารถแลกเปลยนขอมลระหวางโรงพยาบาลผานอนเตอรเนตโดยใชระบบการจดการฐานขอมลเชงสมพนธ (RDBMS) และพฒนาดวยโปรแกรมภาษาจาวา (Java)
11
ภาพท 2.2 รปแบบการเชอมโยงขอมลน าเขาและสงออกขอมลคลงขอมลสขภาพ PROVIS ทมา: ส านกงานปลดกระทรวงสาธารณสข [online] : เขาถง 8 พ.ย. 2558. จาก http://slideplayer.in.th/slide/2216621/
ชวงเวลาท 2) พ.ศ.2558-2559 กระทรวงสาธารณสขมการพฒนาระบบบรการสขภาพหรอระบบขอมลสขภาพอยางตอเนองจนครบทกสถานพยาบาลในสงกดกระทรวงสาธารณสขมการปรบเปลยนโครงสรางการเกบขอมลสขภาพในระบบแฟมขอมล 43 แฟม และ 7 แฟมมาตรฐานหรอ 50 แฟมมาตรฐาน กระทรวงสาธารณสขมนโยบายการปรบเปลยนโครงสรางของระบบฐานขอมล เพอใหบคลากรมเวลาในการดแลใหบรการผปวยเพมขน และลดภาระการคยขอมลของหนวยงานในระดบปฐมภมลงเพอใหเกดประสทธภาพในการบรหารจดการขอมลแตยงคงไวซงขอมลทสามารถน ามาใชบรหารงานนโยบายและสามารถก าหนดกลยทธหรอยทธศาสตรในการบรหารจดการ
ขอมลในกระทรวงสาธารณสขมหลากหลายรปแบบและมาจากหลากหลายแหง สารสนเทศคอการประมวลผลขอมล ขอมลและสารสนเทศมความส าคญมากในการบรหารงานทกระดบ แตขอมลและสารสนเทศจะมการเปลยนแปลงอยตลอดเวลาการเปลยนแปลงของสภาวะสงคมและโลก ซงการเปลยนแปลงทเกดขนมผลกระทบตอสขภาพของประชาชนสงคมโลก ประเทศไทย และภายในกระทรวงสาธารณสข ซงรบผดชอบดแลสขภาพของประชาชนชาวไทย การประยกตใชขอมลขาวสารสนเทศเชงกลยทธจะมความส าคญอยางยงตอการเปลยนแปลงองคกร
12
ผบรหารระดบสง และการวางแผนเชงกลยทธซงจะแตกตางกบการวางแผนปฏบตการตามปกต การประยกตใชขอมลสารสนเทศเชงกลยทธในระบบงานสาธารณสข จะด าเนนการไดอยางชดเจนในงาน 3 ดาน คอ ดานการบรหาร ดานวชาการ และดานบรการ ซงจะสอดคลองกบการด าเนนงานในระบบงานสาธารณสข (เมธ จนทจารภรณ, 2555, น. 2) จะเหนไดวาตามแนวคดของทานเมธสารสนเทศเปนสวนส าคญทจะท าใหผบรหารระดบสงกระทรวงสาธารณสขตดสนใจไดถกตอง หากมสารสนเทศทสามารถใชไดทนตามความตองการ ถกตองและทนสมย
ผนวกกบแนวคดทเหนวาขอมลทน ามากลนกรองใหผบรหารจะตองมคณภาพดวย สารสนเทศเปนทรพยากรส าคญทตองมการบรหารจดการใหเกดประโยชนอยางคมคา สวนของการเกบรวบรวมขอมล การรกษาคณภาพขอมล การวเคราะหขอมล หรอการท าใหผบรหารมความเขาใจ รจกใชระบบและสารสนเทศใหเปนประโยชนอยางเตมท ยงนบไดวานอยกวามากโดยเปรยบเทยบการลงทนในสวนของระบบคอมพวเตอรและการสอสารยงมไดถกจดการใหเกดประโยชนอยางคมคาหรอเตมศกยภาพ นอกจากจะพจารณาความตองการเกยวกบระบบสารสนเทศของผบรหารหรอผใชแลว ยงมความจ าเปนทจะพจารณาเรองของขอมลในระบบสารสนเทศวามทมาอยางไร หากระบบสารสนเทศไมมขอมลทจ าเปนตองใชเกบอยในฐานขอมลแลว ระบบยอมไมสามารถสรางสารสนเทศไดทนเวลาตามความตองการ อกทงยงตองค านงถงคณภาพของขอมลซงจะมผลกระทบโดยตรงตอคณภาพของสารสนเทศทสรางขนจากขอมลนน รวมทงการวเคราะหขอมลเพอสรางเปนสารสนเทศดวย (สชาดา กระนนทน, 2544, น. 94)
ในระบบบรการสขภาพกระทรวงสาธารณสขมนโยบายใหจดท าขอมลบรการสขภาพใหเปนทเชอถอได ในการจะน ามากลนกรองเปนระบบสารสนเทศโดยมขนตอนการผานกระบวนการตรวจสอบคณภาพตามหลกและวธการของกระทรวงสาธารณสข การตรวจสอบคณภาพขอมลผปวย เปนเรองทควรด าเนนการโดยสม าเสมอเปนระยะ เชน ด าเนนการทก 3-4 เดอน ปละ 3-4 ครง เพอวดคณภาพขอมล ใหรสถานการณทเปนปญหาอนท าใหเกดขอมลคณภาพต า เพอหาหนทางแกไขปญหา เพอใหขอมลมคณภาพดขนและพฒนาใหดขนอยางตอเนอง สมทบกบผเชยวชาญดานขอมลระบบสขภาพกลาววา ความส าคญของคณภาพขอมลในระบบบรการสขภาพ ขอมลในระบบบรการสขภาพสามารถใชประโยชนไดมากมาย โดยเกดประโยชนตอ ประชาชน สถานพยาบาล และกระทรวงสาธารณสข จงถอวาขอมลมความส าคญอยางยง หากขอมลนมคณภาพต า เชน มขอมลไมครบถวน หรอมขอมลทผดพลาดจ านวนมาก กจะไมสามารถน าไปใชประโยชนไดตามทควรจะเปน ผทเกยวของทกระดบตองเขาใจความส าคญและมหนาทบนทกขอมลใหมคณภาพ มระบบตรวจสอบคณภาพขอมล และมกลไกควบคมคณภาพขอมลใหมคณภาพสงสดลกษณะของขอมลคณภาพด ขอมลคณภาพดมลกษณะทส าคญ 4 ลกษณะดงน
13
1. ครบถวน มขอมลการใหบรการทกราย มขอมลทกดานทจ าเปน 2. ถกตอง ไมมขอผดพลาด เชอถอได 3. ละเอยด ไมก ากวม ชดเจน แยกแยะประเภทตางๆ ได 4. ทนสมย เปนขอมลปจจบน สงมาภายในเวลาทก าหนด
การจดการใหขอมลมคณภาพด เปนหนาทของทมงานทก ากบดแลระบบขอมล โดยตองมกระบวนการตรวจสอบคณภาพขอมลอยางสม าเสมอเปนระยะปละ 2-4 ครง โดยถาตรวจพบวาขอมลมปญหาดานคณภาพ กตองมกจกรรมแกไขและพฒนาคณภาพใหดขนอยางตอเนอง และหากมขอมลคณภาพดแลว กตองมระบบควบคมคณภาพใหดอยางตอเนอง (ศนยมาตรฐานรหสและขอมลสขภาพแหงชาต [ศมสท.], 2558, น. 6)
ภาพท 2.3 รปแบบการจดสงขอมลศนยขอมลสขภาพ (Health Data Center )
ทมา: โรงพยาบาลสงเสรมสขภาพต าบลบานชวน [online] : เขาถง 10 พ.ย. 2558. จาก http://bn210.blogspot.com/2014/10/2558.html
กระทรวงสาธารณสขเรมมการปรบเปลยนระบบโปรแกรมฐานขอมล PROVIS เปนระบบโปรแกรมศนยขอมลคลงสขภาพ (Health Data Center) บนระบบคลาวนหรอ HDC On Cloud เปนการพฒนาอยางตอเนอง เพอการรวบรวมขอมลทไดจากระดบจงหวด และระดบเขต จากนนเขาสระดบกระทรวง ท าใหสามารถด าเนนการประมวลผลออกเปนดชนชวด และรายงานทจ าเปนได
14
แบบทนททตองการ ผวจยไดท าการศกษาพบวาระบบดงกลาวยงคงใชฐานขอมลมายเอสควแอลเหมอนเชนเดม และขอมลการบรการสขภาพมการประมวลผลบนเซรฟเวอรประจ าตามก าหนดเวลาทผดแลระบบศนยขอมลสวนกลางเปนผด าเนนการ
ในป พ.ศ.2559 ศนยเทคโนโลยสารสนเทศและการสอสาร กระทรวงสาธารณสข มโครงการเพอพฒนาระบบเทคโนโลยสารสนเทศและการสอสาร ตามกรอบยทธศาสตรเทคโนโลยสารสนเทศสขภาพ มกลยทธการพฒนาคลงขอมลสขภาพ ก าหนดรปแบบการบรหารจดการคลงขอมลระบบบรการสขภาพในระบบขอมลขนาดใหญ (Big Data Management in Healthcare System) เพอใหมความเหมาะสมในการใชงานใหกบหนวยงานแตละระดบ (ศนยเทคโนโลยสารสนเทศและการสอสาร ส านกงานปลดกระทรวงสาธารณสข [ศทส.สป.สธ.], 2559, น. 58)
2.1.2 ทฤษฏฐานขอมลและการจดการฐานขอมลแบบเชงสมพนธ โอภาส เอยมสรวงศ (2558, น. 37-40) กลาววาในลกษณะของการจดการขอมล
(Database Management) เกดจากการรวบรวมจดเกบขอมลหรอเอกสารตางๆ ทรวบรวมไวในแฟมเอกสาร และน าไปจดเกบไวในตเกบเอกสาร ซงในปจจบนสามารถรวบรวมจดเกบไวในฐานขอมล จากขอจ ากดของระบบเอกสาร เชน ปญหาดานความซ าซอนของขอมล ความไมยดหยน และความไมคลองตวในหลายๆ ดาน จงเกดเทคโนโลยฐานขอมล
ฐานขอมล (Database) คอ การจดเกบขอมลอยางมระบบ ซงผใชสามารถเรยกใชขอมลในลกษณะตางๆ ได เชน การเพมเตมขอมล การเรยกดขอมล การแกไขหรอลบขอมล เปนตน โดยทวไปการจดเกบขอมลจะมการน าระบบคอมพวเตอรเขามาชวยในการจดการฐานขอมล ซงในระบบฐานขอมลปจจบนจะมการน าระบบการจดการฐานขอมล (Database Management System : DBMS) คอซอฟตแวรจดการฐานขอมลทน ามาใชเปนเครองมอเพอใหผใชสามารถโตตอบกบฐานขอมลได ตวซอฟตแวรโดยสวนใหญประกอบไปดวยฟงกชนตางๆ เพอน ามาจดการกบขอมล รวมทงภาษาทใชการสงงานซงโดยสวนมากใชภาษาขนสงภาษา SQL
ชาญชย ศภอรรถการ (2557, น. 125-126) ไดใหความหมายของคณสมบต ทรานเซคชน (Transactions) ในระบบฐานขอมลหรอ ACID หมายถงการใชขอมลตางๆ จะเกดเปนขนตอนการท างานซงอาจจะประกอบไปดวย ขนตอนเดยวหรอหลายๆ ขนตอนกได โดยทขนตอนจะตองท าใหเสรจทกขนตอนจงถอวาทรานเซคชน นนเสรจสมบรณ เพอการรบประกนความนาเชอถอของ ACID มดงน
Atomicity คอความสามารถในการรบประกนความถกตองของฐานขอมล ถาสวนใดสวนหนงของทรานเซคชนไมส าเรจ ทรานเซคชนทงหมดกจะไมส าเรจดวย
15
Consistency คอความสอดคลองของฐานขอมล กอนและหลงจากการด าเนนการกบ ทรานเซคชนฐานขอมลจะยงคงสภาพความถกตอง ไมวาการด าเนนการนนจะส าเรจหรอไมกตามถาค าสงในทรานเซคชนเกดความผดพลาดขน กจะมการคนสภาพกลบไปยงจดเรมตน
Isolation คอการแบงแยกโดยทรานเซคชนหนงจะไมมผลตอทรานเซคชนอน เพราะในแตละทรานเซคชน จะถกแยกออกจากกนอยางสนเชงท าใหการท างานในทรานเซคชนหนง จะไมไปรบกวนอกทรานเซคชนหนง
Durability คอมความทนทาน โดยถามการด าเนนการกบทรานเซคชนหนงจนเสรจแลว จะมการบนทกอยางถาวรตามการด าเนนการนนลงในฐานขอมล
เพราะฉะนนฐานขอมลประกอบดวยรายละเอยดของขอมลทเกยวของกน ขอมลจะถกเกบไวอยางมระบบ เพอประโยชนในการจดการและเรยกใชขอมลไดอยางมประสทธภาพ เชน ดานโรงพยาบาลจะมฐานขอมลทเกยวของกบขอมลประวตคนไข ขอมลแพทยเชยวชาญเฉพาะโรค เปนตน ฐานขอมลเปนการเกบรวบรวมขอมลใหเปนศนยกลางขอมลอยางมระบบ สามารถเรยกใชรวมกนได ในระบบฐานขอมลทมประสทธภาพควรมฮารดแวรตางๆ ทพรอมจะอ านวยความสะดวกในการบรหารระบบฐานขอมลไดอยางมประสทธภาพ ไมวาจะเปนขนาดของหนวยความจ าหลก ความเรวของหนวยประมวลผลกลาง อปกรณน าขอมลเขาและออก รวมถงหนวยความจ าส ารองทจะรองรบการประมวลผลขอมลในระบบไดอยางมประสทธภาพ ในการประมวลผลฐานขอมลอาจจะใชโปรแกรมทแตกตางกน ทงนขนอยกบระบบคอมพวเตอรทใชวาเปนแบบใด โปรแกรมทท าหนาทควบคมดแลการสราง การเรยกใชขอมล การจดท ารายงาน การปรบเปลยน แกไขโครงสราง การควบคม ในเทคโนโลยฐานขอมลจะมแบบจ าลองขอมล (Data Model) ซงในสวนของฐานขอมล ซงมอย 1 แบบจ าลองทนยมใชกนมากในระบบฐานขอมลปจจบนคอ แบบจ าลองฐานขอมลเชงสมพนธ (Relational Database Model) ซงมโครงสรางขอมลเชงสมพนธทประกอบไปดวย 1.รเลชน 2.แอตตรบวต 3.โดเมน 4.ทปเพล 5.ดกร 6.คารดนลลต ซงในฐานขอมลจะประกอบไปดวยหลายตารางมการเชอมโยงสมพนธขอมลกน
ฐานขอมลเชงสมพนธ หมายถงตารางขอมลประกอบดวยจ านวนรเลชนตางๆ ทไดรบการจดรปแบบใหเปนบรรทดฐาน และโครงสรางหรอสคมา (Schema) บางสวนของฐานขอมลจดการโดยระบบการจดการฐานขอมลเชงสมพนธ (Relational Database Management System : RDBMS) ซงมรปแบบจ าลองขอมลทางคณตศาสตรทเกยวกบชดปฏบตการหรอโอเปอเรชน(Operations) ทใชจดการกบขอมลเหลาน
พชคณตเชงสมพนธ (The Relational Algebra) เปนแบบจ าลองขอมล ทก าหนดโครงสรางและขอบงคบแลวในการเรยกใช เปนชดปฏบตการหรอโอเปอเรชนทน ามาใชจดการกบ
16
ขอมล หรอเปนโอเปอเรชนบนแบบจ าลองเชงสมพนธซงมโอเปอเรชนพนฐาน 6 แบบ คอ 1.Selection 2.Projection 3.Cartesian 4.Product 5.Union และ 6.Set Difference และสวนเรยกดขอมลอก 3 โอเปอเรชนคอ 1.Join 2.Intersection 3.Division
แคลคลสเชงสมพนธ (Relational Calculus) เปนรปแบบจ าลองขอมล ทตองใชก าหนดการทตองการขอมลอะไร สามารถก าหนดรปแบบการคนหาในลกษณะของนพจนหรอสมการทางคณตศาสตรทมตวแปร คาคงท ตวกระท า และตวเชอมอนๆ ซงผลลพธทจะไดคอทปเพล หรอแถว จากความสมพนธทสงผลใหคาสมการนนเปนจรง
สรปแคลคลสเชงสมพนธจะยดหลกเกณฑการก าหนดขอมลตางๆ วาตองการอะไรจากรเลชน (What) โดยไมสนใจวธการทไดมาซงผลลพธ ในขณะทพชคณตเชงสมพนธจะมงเนนถงวธการวาจะตองท าอยางไร (How) เพอใหไดมาซงผลลพธตามทตองการ (โอภาส เอยมสรวงศ, 2558, น. 205-219)
2.1.3 ทฤษฏการคนคนดวยภาษาสอบถามเชงโครงสรางเอสควแอล ภาษาสอบถามเชงโครงสราง (Structured Query Language : SQL) สามารถอานออกเสยงไดวา เอสควแอลซควล เปนภาษาทนยมใชงานกบการจดฐานขอมลในการเรยกใชงานฐานขอมล โดยมมาตรฐาน ANSI ประเภทชดค าสง SQL ม 3 ประเภทดวยกน 1. ภาษานยามขอมล (DDL) ประกอบดวยกลมค าสงทใชสรางตาราง และลบตาราง และเพม และลบตาราง รวมถงแกไขแอตตทรบวตางๆ ในรเลชน และการสรางล าดบดชน 2. ภาษาจดการขอมล (DML) ประกอบดวยกลมค าสง อบเดท เพม ปรบปรงและเรยกดขอมลในฐานขอมล 3. ภาษาควบคมขอมล (DCL) เปนกลมค าสงการอนญาต หรอยกเลกสทธในการใชงานฐานขอมล ชวยอ านวยความสะดวกแกผบรหารฐานขอมล ในการควบคม
2.1.4 ทฤษฏกระบวนการสอบถามขอมล ชยาพร แกนสาร (2555, น. 722-724) ไดใหความวากระบวนการสอบถามขอมล
(Query Processing) คอการประมวลแบบสอบถามขอมล เปนหนงในขนตอนของระบบการจดการฐานขอมล ท าหนาทหาค าตอบทดทสดและถกตองทสดใหกบความตองการของผใชไดค าตอบทเหมาะสมและรวดเรวประหยดคาใชจายมากทสด ซงคาใชจายจะเกยวของกบการประมวลผลทหนวยประมวลผลกลาง (CPU Time) และเวลาทใชในการดงขอมลจากอปกรณอนพทและเอาทพท (I/O Time) ในกระบวนการประมวลผลแบบสอบถามม 3 ขนตอน ดงน
17
1. Parsing คอการรบค าสงมาแยกออกมาเปนสวนตางๆ เพอตรวจสอบรปแบบ และแปลงใหอยในรปทกะทดรด หรอเรยกวา Validation สงทไดจากขนตอนนคอ Relational Algebra Tree ทประกอบดวยการเลอก (Selection) การรวม (Joining) การโปรเจคชน (Projection)
2. Query Optimization จะเลอกหาวธทดทสดคอเรวหรอใชตนทนนอยสดทไดจาก Passing สามารถท าไดหลายวธทสามารถ แตวธการไหนเรวหรอตนทนต าสดจะเลอกวธนนโดยดจากคาสถตตางๆ สงทไดจากขนตอนนคอ Execution Plan คอรปแบบหรอวธการทจะเลอกหรอดงขอมลท Optimaize ดทสด
3. Query Evaluation จะประกอบดวย 2 สวนคอ Code Generation กบ Runtime Query Execution ในขนตอนนกจะคดสงทเลอกในขนตอนท 2 มาท าการสรางเปน Physical Operators ทใชในการจดการหรอดงขอมลจากไฟลขอมลในฐานขอมล และการด าเนนการค าสงใน Physical Operator หรอทเรยกวาการ Execution เพอจะไดผลลพธของการควร
ภาพท 2.4 สถาปตยกรรมกระบวนการสอบถามขอมลระบบฐานขอมล ทมา: Department of Computing Science, University of Alberta [online] : เขาถง 15 ก.ย. 2558. จาก https://webdocs.cs.ualberta.ca/~zaiane/courses/cmput391-02/slides/Lect3/sld008.htm
18
2.1.5 ทฤษฏระบบจดเกบแบบกระจายขอมลของฮาดป ขอมลขนาดใหญ (Big Data) เกดจากความสามารถและประสทธภาพทสงขนในการ
สอสารผานอนเตอรเนตผานสอออนไลนตางๆ เชน การคนหาขอมลผาน Google การทวตผาน Twitter การโพสตรป การกดไลคผาน Facebook รวมถงธรกรรมอนๆ ทผานเครอขายอนเตอรเนต เปนตน ท าใหเกดขอมลธรกรรมจ านวนมหาศาล องคกรตางๆ จงหาทางน าขอมลตางๆ มาใชงานในการวเคราะหขอมล เพอหาสารสนเทศทเปนประโยชน และขบเคลอนนวตกรรมขององคกร โดยมแนวทางในการด าเนนการและกลยทธขององคกร (Gartnet, 2012)
ภาพท 2.5 กรอบการท างาน Hadoop Ecosystem ทมา: Introduction to Hadoop, www.stratapps.net [online] : เขาถง 15 ก.ย. 2558. จาก http://www.stratapps.net/intro-hadoop.php
กรอบการท างานหรอแพลตฟอรมฮาดป (Hadoop) เปนหนงในเทคโนโลยระบบขอมล
ขนาดใหญ เปนระบบการจดเกบขอมลแบบกระจาย (Distribute System) ฮาดปพฒนามาจนถงปจจบนในเวอรชน 2.6.2 มขนตอนการท างานโดยการแบงไฟลออกมาเปนไฟลยอยๆ หรอบลอกขอมล (Data Block) จดเกบในระบบ HDFS (Hadoop Distribute File System) และม Name Node (Master) ท าหนาทระบต าแหนงเกบ และม Data Node (Slave) กระจายไปเกบในเครองอนๆ และม
19
YARN (Yet Another Resource Negotiator) ควบคมจดการทรพยากรและใชการประมวลผลแบบขนานแมพรดว (MRV2) ปจจบนเปนเวอรชน 2 (White, 2012, pp. 13-14) แมพรดวจงเปนการเขยนโปรแกรมควบคมความตองการขอมลทตองการคนคนผานการจบค Key/Value ทก าหนดไว YARN Resource Manager ท าหนาทควบคมคลสเตอร คอยบรหารตารางงานของ Job Tracker หรอ JobHistoryServer ทสงไปยง Node Manager (Slave) ม YARN Node Manager และ YARN Application Master ท าหนาทควบคมการท างานของแมพรดวภายในคลสเตอร การจดการทรพยากรและการจดเกบและประมวลผล YARN/MRV2 แบบใหมนจะกระท าในแตละเครองคอมพวเตอร เพอลดปรมาณการประมวลผลภายในเครอขายลง (Gunarathne & Srinath Perera, 2015, pp. 60-66)
ภาพท 2.6 กรอบการท างานของฮาดปท างานรวมกบแมพรดว ทมา: Taming Big Data using HDInsight, www.packtpub.com [online] : เขาถง 15 ก.ย. 2558. จาก https://www.packtpub.com/books/content/taming-big-data-using-hdinsight
2.1.6 ทฤษฏระบบการประมวลผลแบบขนานดวยเทคนคแมพรดว การประมวลผลขอมลแบบขนาน (Parallel Processing) ทจะน ามาใชศกษาการ
ประมวลผลนคอ MapReduce เปนสวนประมวลผลขอมล ประกอบไปดวย สองขนตอนหลกใหญคอ ขนตอนของการ Map และ Reduce
20
Map หมายถงการเตรยมขอมล ใหอยในรปของ Key/Value โดยในขนตอนการ Map เราสามารถใสเงอนไขเพอตรวจสอบคากอนน ามาประมวลผล หรอเปลยนแปลงขอมลใหเหมาะสมได และปลดปลอยคาออกไปในรปแบบของการจบค
Reduce หมายถงการลดผลลพธลง จากขนตอนการ Map โดย Reduce จะเปนฟงกชนทรบคา Key/Value และน ามาประมวลผลแสดงคาผลลพธ
สามารถสรปไดวาฮาดปและแมพรดวเปนสถาปตยกรรมการจดการขอมลแบบจบค (Key Value) วธการจดเกบแบบกระจายฮาดป หรอ HDFS โดยการแบงขอมลออกเปนไฟลยอยๆ และมโปรแกรมควบคมท าหนาทระบต าแหนงเกบ โดยระบบจะกระจายขอมลไปจดเกบในเครองอนๆ ตามทก าหนด และแมพรดวมวธการประมวลผลแบบขนาน มสองขนตอนหลกคอ ขนตอนการแมพ (Map) หมายถงการเตรยมขอมลใหอยในรปคยแวล (Key/Value) โดยในขนตอนนสามารถเขยนโปรแกรมมเงอนไขเพอตรวจสอบคากอนน ามาประมวลผลหรอเปลยนแปลงคณลกษณะขอมลใหเหมาะสมได และน าสงคาออกไปในรปแบบของการจบค ขนตอนการรดว (Reduce) หมายถงการลดผลลพธลงจากขนตอนการแมพโดยรดวจะเปนฟงกชนทรบคา Key/Value และน ามาประมวลผลแสดงคาในขนตอนสดทายผลลพธจดเกบในรปแบบเทกซไฟล (Text File)
ภาพท 2.7 กรอบการท างาน MapReduce ทมา: MapReduce Exercise: Hand On Lab, Calvin College [online] : เขาถง 10 ก.พ. 2558. จาก https://cs.calvin.edu/courses/cs/374/exercises/12/lab/
21
การเขยนโปรแกรมสามารถด าเนนการไดในหลากหลายรปแบบ ตวอยางตามภาพท 2.7 เมออางองกบทฤษฏการประมวลผลแบบขนานดวยแมพรดว Miner and Shook (2012, pp. 4-7) ในการก าหนดกลมงานการเขยนโปรแกรมสามารถก าหนดกลมงานยอยๆ ไดดงน 1.Record Reader (Input) เขยนโปรแกรมการอานขอมลน าเขา 2.Map (Spitting) เขยนโปรแกรมท าการแบงขอมลออกตามขอมลทระบความตองการ 3.Combiner (Mapping) เขยนโปรแกรมการรวมจ านวนกลมทมคาทเหมอนกน 4.Shuffle and Sort (Shuffing/Sorting) เขยนโปรแกรมการจดเรยงคาทเหมอนกนใหม 5.Reduce (Reducing) เขยนโปรแกรมการรวมจ านวนคาทมเหมอนกนใหม 6.Output Format (Final result) เขยนโปรแกรมการแสดงผลลพธทไดโดยการก าหนดโดยการเขยนโปรแกรมไดวาตองการผลออกมาเปนไฟลฟอรเมตประเภทใด
2.1.7 ทฤษฎการวเคราะหขอมลและสถตการวเคราะหขอมล สถตเพอการวจยทางสารสนเทศศาสตร มหลกแนวคดในการคนควาสถตเพอการวจย
ทางสารสนเทศศาสตรเปนสถตทใชเพอสรป และน าเสนอขอมลทเกบรวบรวมมาไดตามวตถประสงค และสมมตฐานของการวจย สถตทใชจะตองเหมาะสมกบชนดของตวแปรวตถประสงค และรปแบบของการศกษาวจย การวเคราะหทนาเชอถอขนอยกบคณภาพของขอมล และขอมลทไดมานนมลกษณะเปนไปตามขอตกลงเบองตนของการวเคราะหนนๆ
สถตพรรณนาเปนสถตทใชเพออธบายลกษณะของขอมลหรอเพออธบายความสมพนธระหวางขอมลซงการเลอกใชสถตพรรณนาขนอยกบวตถประสงคของการวจยและชนดของตวแปร
สถตอางองเปนสถตทใชในการอางองขอสรปจากกลมตวอยางไปยงกลมประชากรเพอเปรยบเทยบความแตกตางของขอมลโดยการท านาย การหาความสมพนธ และการวเคราะหขอมลหลายตวแปร ซงการเลอกใชสถตอางองขนอยกบวตถประสงคของการวจย รปแบบการศกษา และชนดของขอมล (มหาวทยาลยสโขทยธรรมาธราช [มสธ.], 2546, น. 313-350)
ผวจยมแนวคดการคดเลอกกลมตวอยางแบบเจาะจงเปนการเลอกกลมตวอยางใหสอดคลองกบเรองทวจย หรอจะเรยกชออยางอนวา การเลอกกลมตวอยางตามวตถประสงค การเลอกกลมตวอยางตามความมงหมาย และการเลอกกลมตวอยางโดยอาศยการตดสนใจ (Judgment Sampling) มการวางแผนก าหนดจ านวนตวอยางและเลอกกลมตวอยางทดเพอไมใหเกดความล าเอยง (สน พนธพนจ, 2552, น. 142)
เปนแนวทางการเลอกแบบความสะดวกในการคดกลมตวอยางจากขอมล เนองจากตองการทดลองเพอใหไดผลลพธดานความเรว (ประสทธภาพ) และผลลพธความแมนย าถกตอง (ประสทธผล) ระหวางระบบบรหารขอมล 2 รปแบบ ในการเกบรวบรวมขอมล และการวเคราะห
22
และแปลผลสามารถใชขอมลได 2 รปแบบ คอ ขอมลเชงปรมาณและขอมลเชงคณภาพ ขอมลทง 2 แบบ จะตองมคณสมบต ทเทยงตรง และสรางความเชอมน และยงกลาวถงความไว และความเฉพาะเจาะจงในวธการไดมาซงขอมล เพอเลอกกลมควบคมเปนเทคนค และเกณฑในการคดกรองคณภาพ และเปนสงทควรใชในการท าการประเมน การวเคราะหและแปลผลขอมลเชงปรมาณ โดยทวไปจะแบงการวดดงน 1. การแบงกลม หรอนามมาตร (Nominal Scale) 2. การแบงตามต าแหนงหรอล าดบสงทปรากฏ (Ranking) หรออนดบมาตร (Ordinal Scale) 3. การใชชวงของการวด (Interval Scale) หรอชวงมาตร 4. การใชวดอตราสวนมาตร (Ratio Scale)
การวเคราะหทางสถต (Statistical Analysis) ในการประเมนเชงปรมาณตองมการทดสอบทางสถตของตวแปร หรอตวชวดทเราท าการวดกอน และวดหลงทมการปฏบตการ ในการประเมนทจะตองน าเสนออยางงายคอ การแยกแยะการวเคราะหทละขนตอน 1. น าเสนอและสรปยอผลออกมาเปนตวเลข โดยการใชตารางเปรยบเทยบ หรอใชกราฟ มคามชฌมเลขคณต ค ามธยฐาน คาฐานนยม ชวงระหวางคาสงสดและต าสด 2. บอกถงความเชอมนในกลมตวอยาง 3. ถามการพสจนสมมตฐานการรบหรอปฏเสธสมมตฐานเปนสวนของผลการประเมน (นวรตน สวรรณผอง, มธรส ทพยมงคลกล, ทองหลอ เดชไทย, และนพพร โหวธระกล, 2557, น. 183-187) การน าเสนอขอคดเหนถงจดประสงคของการอภปรายผลการพสจนและผลการประเมนประสทธภาพคอ การไดมาซงขอมลตางๆ ทเกยวของกบการพสจนขอเสนอวธการทน าเสนอ ไดแก เหตผลทงานวจยในอดตไมสามารถแกปญหาได เหตผลทงานวจยทเสนอท าได ผลการค านวณซงเปนคาเปาหมาย ผลการทดสอบหรอผลการทดลองซงเปนคาจรง คาผดพลาดซงเปนคาความตางระหวางคาเปาหมายกบคาจรง คาผดพลาดซงเปนคาความตางระหวางคาเปาหมายกบคาจรง สาเหตของคาผดพลาดและแนวทางปองกน ขอจ ากดของวธการทเสนอผลขางเคยง และงานวจยในอนาคต (โกสนทร จ านงไทย, 2559, น. 231)
2.2 งานวจยทเกยวของ Bhosale and Gadekar (2014) มงานวจยเรอง A Review Paper on Big Data and Hadoop
ปญหาของงานวจยนคอ ขอมลขนาดใหญเปนขอมลทมขนาดความหลากหลายและมความซบซอนตองใชสถาปตยกรรมใหมและกรอบการท างานขอมลใหม เทคโนโลยขอมลขนาดใหญมอลกอรทมและเทคนคการจดการขอมลและแนวทางการวเคราะหขอมล ซงกอใหเกดความคมคาในการสกดความรทซอนอยในขอมลทหลากหลายและแตกตางเหลานนอยางไร ซงเปนปญหาทยงไมกระจางแจงทผวจยบทความนตองการหาบทพสจน ฮาดป (Hadoop) เปนแพลตฟอรมหลกส าหรบการใชงานเพอการสกดขอมลขนาดใหญเหลานน
23
ผวจยฉบบนจงน าเสนอการวจยเชงส ารวจในเทคโนโลยขอมลขนาดใหญและการแกปญหาดวยเทคโนโลยขอมลขนาดใหญ ดวยการศกษาทบทวนวรรณกรรมจากงานวจยทเกยวของ สมมตฐานของงานวจยนคอ เทคโนโลยขนาดใหญมวตถประสงคในการวเคราะหขอมลเพอน าขอมลทถกวเคราะหน ามาใชประโยชน โดยมวธการวจยและรปแบบการวจย ดวยการศกษาคณสมบตขอมลขนาดใหญและอะไรทเรยกวาขอมลขนาดใหญ ขอมลขนาดใหญมองคประกอบ 3 สวน หรอเรยกวา 3Vs คอ 1.ปรมาณของขอมล (Volumn) 2.ความหลากหลายของขอมล (Variety) 3.ความเรวของขอมล (Velocity) และความหมายของขอมลขนาดใหญคออะไร
ในบทความนใหนยามวา ขอมลขนาดใหญหมายถงชดขอมลหรอขอมลทมหลากหลายรปแบบ มโครงสราง, ไมมโครงสราง, กงโครงสราง มหลายประเภทเชน ขอมลเสยง, ขอมลวดโอ, ขอมลอกษร ทมาจากหลากหลายแหงขอมล และมอตราการเจรญเตบโตของขอมลทรวดเรว ท าใหมความยงยากในการจดการการประมวลผลหรอการน ามาวเคราะหในเวลาอนจ ากดโดยใชเทคโนโลยทวไป เชน ฐานขอมลเชงสมพนธและซอฟตแวรทสรางขนเองหรอซอฟตแวรประมวลผลทขายในทองตลาด
มตวแปรทส าคญ คอฮาดป (Hadoop) เปนโครงการฟรซอฟตแวรทมรปแบบการประมวลผลแบบกระจายชวยจดการชดขอมลขนาดใหญจดเกบไวในเครองเซรฟเวอรจ านวนหลายเครอง เรยกวาคลสเตอรเซรฟเวอร (Cluster Server) เพอด าเนนการจดการขอมลจ านวนเหลานในราคาทไมแพงและมประสทธภาพ และงานวจยนมวธเกบขอมลดวยเทคนควธการดวยการทบทวนวรรณกรรมทเกยวของกบเทคโนโลยขอมลขนาดใหญทมโครงสรางสถาปตยกรรมฮาดป (Hadoop) ในการจดเกบขอมลขนาดใหญแบบกระจายและการประมวลผลขอมลแบบขนาน
มเครองมอวดและวธวเคราะหขอมลดวยการวเคราะหปญหาในการประมวลผลขอมลขนาดใหญในหวขอดงน 1.ขอมลทมความแตกตางและไมครบถวน (Heterogeneity and Incompleteness) 2.ขนาดขอมลทมการขยายตว (Scale) 3.ทนเวลาในการเรยกใช (Timeliness) 4.ความเปนสวนตว (Privacy) 5.สนบสนนการท างานรวมกนของมนษย (Human Collaboration) และการวเคราะหจ าแนกองคประกอบของเทคโนโลยขอมลขนาดใหญในกลมซอฟตแวรทใชการวเคราะหประกอบไปดวย HBase, Hive, MongoDB, Redis, Cassandra, Drizzle ตามหวขอดงน 1.รายละเอยดการใชงาน (Description) 2.ภาษาทใช (Implementation language) 3.รปแบบฐานขอมล (Database Model) 4.แนวคดความถกตองตรงกน Consistency Concept) 5.การสอดคลอง (Concurrency) 6.ความทนทาน (Durability) 7.วธการท าซ าหรอส าเนาขอมล (Replication Method)
สรปผลจากการวจย บทความนอธบายแนวคดของเทคโนโลยขอมลขนาดใหญ และปญหาทจะเกดการจากประมวลผลขอมลขนาดใหญ และความแตกตางของเครองมอในเทคโนโลย
24
ขอมลขนาดใหญ ซงความทาทายของขอมลขนาดใหญไมไดมแตปญหาทเกดจากการประมวลผลเทานนแตยงมการสรางใหเหนถงขนตอนการวเคราะหขอมลทจะท าใหเกดประโยชนในการน าขอมลออกมาตความจากการท างานของมนษยและใชงานในหลากหลายโปรแกรม และจะไมคมคาเลยถาจะท าการวเคราะหในบรบทเดยวและใชเพยงโดเมน (Domain) หรอกลมการท างานเดยว
Gurevich (2015) มงานวจยเรอง Comparative Survey of NoSQL/NewSQL DB Systems ปญหาของงานวจยนคอในการใชงานฐานขอมลรปแบบใหมทมความแตกตางกบแบบเชงสมพนธรปแบบดงเดมเตบโตขนอยางรวดเรว และทกสภาพแวดลอมของการใชงานจะมขอก าหนดใหมๆ ส าหรบการจดเกบขอมลและการประมวลผลทยงมประสทธภาพไมเปนทประจกษ ผวจยฉบบนจงน าเสนอวธการวจยและรปแบบการวจยทมเปาหมายหลกของการวจยคอการส ารวจเชงเปรยบเทยบของฐานขอมล NoSQL ดวยการศกษาคณลกษณะของฐานขอมล 4 แบบ คอ 1) Key-value stores 2) Document stores 3) Column family stores 4) Graph databases และของฐานขอมล NewSQL เนนลกษณะทางเทคนคดวยการเปรยบเทยบเชงคณภาพและเชงปรมาณ การประเมนผลเชงคณภาพดวยการเปรยบเทยบคณสมบตทใชไดของฐานขอมล SQL กบ NoSQL การเปรยบเทยบคณสมบต RDBMS เปน ACID และเปรยบเทยบกบคณสมบต NoSQL หรอ BASE (Availability, Graceful degradation, Performance) ทนยามโดย Eric Brewer เชนเดยวกบทฤษฏ CAP ทนยามใหกบ Cloud Computing และประเมนผลเชงปรมาณดวยขอมล 2 ชดขอมล ทมจ านวนระเบยนขอมลเทากน และขนาดขอมลแตกตางกน กบเครองคอมพวเตอรเสมอนทเทากนและใชวธการตดต งกบฐานขอมลเหมอนกน และท าการทดลองเพอประเมนผลการปฏบตดานประสทธภาพการท างาน
เครองมอในการวดดวยระบบการเปรยบเทยบ YCSB (Yahoo Cloud Serving Benchmark) และยงเปรยบเทยบฐานขอมลดวย BG (Benchmark Graph) ในระบบเครอขายสงคม มวธการคดเลอกตวแปรและมตวแปรทส าคญดงน การคดเลอกตวแปรเปนการเลอกฐานขอมลทเปนทนยมทง NoSQL และ NewSQL ดวยการเลอกดวยหวขอ 1.DB-Engine Ranking หรอการจดอนดบของขอก าหนดในการเลอกดงน 1.Google Trends 2.การจดอบดบเวบไซตในการใชคนหา Search Engines 3.การตอบค าถามทางเทคนคบนเวบไซต Stack Overflow และ DBA Stack Exchange 4.การจางงานในเวบไซตเครอขายสงคม LinkedIn 5.การหาประวตของผเชยวชาญในการคนหาผาน Search Engines 6.การคนหาในเครอขายสงคม Twitter ทมการพดถงฐานขอมลทนยมกน ซงไดผลการจดอบดบดงน Document Store มล าดบท 1.MongoDB 2.CouchDB และ Graph Database มล าดบทนยมดงน 1.Neo4j 2.OrientDB และล าดบประเภทฐานขอมลทไดรบความนยม 1.Graph Database 2.Wide column stores 3.Document stores 4.RDF Stores 5.Search engine 6.Key-value
25
stores 7.Native XML Database 8.Object oriented Database 9.Multivalue Database 10.Time Series Database
และในบทความนยงมการเปรยบเทยบลกษณะการท างานเพอการน าไปใชงานทเหมาะสม ตามรปแบบฐานขอมลตามทกลาวมาในฐานขอมล NoSQL ประเภท Key-value stores และ Document stores และ Column family stores และ Graph databases และ NewSQL สมมตฐานของงานวจยนคอ การออกแบบระบบทเหมาะสมขนอยกบลกษณะของการใชงานและความตองการในการสอบถามขอมล มการวเคราะหและเปรยบเทยบลกษณะการท างานกบขอมลดวยหวขอดงตอไปน 1.รปแบบขอมล (Data model) 2.ความเปนไปไดของแบบสอบถาม (Querying possibilities) 3.การควบคมภาวะพรอมกน (Concurrency control) 4.การท าซ าส าเนา (Replication) 5.การปรบขยาย (Scalability) 6.แบงพารตชน (Partitioning) 7.ความคงเสนคงวา (Consistency) 8.คณลกษณะดานความปลอดภย (Security features/drawbacks) 9.กรณการใชงานทเหมาะสม (Use cases/Applications suitability) 10.ความนยม (Popularity) 11.ประสทธภาพ (Performance)
โดยมสภาพแวดลอมจากคณสมบตทก าหนด การสอบถามทเปนไปได, การควบคมการท างานพรอมกน, การท าซ าส าเนา, การขยายตว, การแบงชดขอมล, การตรวจสอบความถกตองตรงกนและความปลอดภยขอมล วธวเคราะหขอมลดวยการจดท าตารางเปรยบเทยบคณสมบตโครงสรางขอมลใน Old SQL, NoSQL, NewSQL ซงผลการวเคราะหคอ Old SQL มการเชอมความสมพนธ ม SQL และม ACID ผลการวเคราะหรปแบบขอมลของ NoSQL คอ ไมมคณสมบตโครงสรางเหมอน Old SQL แตมการขยายในแนวนอน และประสทธภาพประมวลผลขอมลขนาดใหญและเปนขอมลทไมตองมการจดเตรยมโครงสรางขอมลไวลวงหนา (Schema-less) และคณสมบตโครงสรางขอมล NewSQL จะเปนฐานขอมลการผสมผสานระหวาง NoSQL และ Relational Database เชน มการเชอมสมพนธ, ม SQL, ม ACID, เปน Horizontal Scalability, ใชกบขอมลขนาดใหญไดอยางมประสทธภาพแตไมม Schema-less ซง NewSQL เกดจากความตองการน า NoSQL มาด าเนนการจดท า Online transaction processing (OLTP) ทเกดการอานและเขยนจ านวนมากดวยการรบประกนตามมาตรฐาน ACID โดยการนยามการโดย Matt Aslett กลม “The 451 group” เชน VolDB และ NuoDB
ดงนนสรปไดวา NewSQL เปนการน าประโยชนของหลกการเชงสมพนธมาใชมากกวาการขยายออกไปตามหลกการขยายแบบแนวนอน และผลการท าตารางความเปนไปไดของการหาความเหมาะสมในการใชงานแบบสอบถามของฐานขอมล Key-Value store ใช Voldemort, Document store ใช MongoDB, Column store ใช Cassandra, Graph database ใช Neo4j และ New SQL ใช VoltDB และ NuoDB ทงหมดสนบสนนการท า REST API และการสนบสนนการท า
26
MapReduce ยกเวน Graph database กบ NewSQL และการเปรยบเทยบภาษาสอบถาม (Query Language) ม NewSQL เทานนทสนบสนน SQL และการเปรยบเทยบการท างานเพอประเมนผลการปฏบตของประสทธภาพการท างานของฐานขอมล NoSQL และ NewSQL ดวยการเปรยบเทยบการปฏบตงานดาน CRUD (Create, Read, Update, Delete) เลอกการ Update, Delete มาท าการทดลองดวยขนาด 120 ลานระเบยนเปนขนาดเลก 1 KB แตละเรคคอรด จ านวน 6 โหนด และ 0.12 TB เปนการเปรยบเทยบระหวาง Cassandra, Hbase, Sherpa, MySQL ซงมผลดงน การอบเดทในระเบยนขนาดใหญ Hbase ดทสดและ Cassandra อนดบรองลงมา และในระเบยนขนาดเลกผลการอาน Cassandra ดทสดและ Hbase รองลงมา
ผลจากการวจยในระเบยนขนาดเลก ผลการอบเดท Hbase ดทสดและ Cassandra รองลงมา และผลการอาน MySQL ดทสดและรองลงมาคอ Sherpa บทสรปของงานวจยนคอการศกษาเปรยบเทยบรายละเอยดของ NoSQL และ NewSQL เกบขอมลบนหลายพารามเตอรทงทางดานเทคนคและไมใชเทคนค เปรยบเทยบตามในรปแบบขอมล และความสามารถในการสอบถาม, การควบคมการท างานพรอมกน, การจ าลองแบบปรบขยาย, กลยทธการแบงรปแบบสอดคลองและคณลกษณะดานความปลอดภย นอกจากนยงกลาวถงกรณการใชงานความเหมาะสมและการใชงานทเปนไปไดซงในแตละประเภทของ NoSQL ฐานขอมล NewSQL นอกจากนยงท าการวเคราะหและการเปรยบเทยบเชงปรมาณของเกบขอมลตางๆ บนพนฐานของผลทไดรบจากการใชระบบการเปรยบเทยบ YCSB แลวท าการน าเสนอผลจากการทดลอง NoSQL / NewSQL เกบขอมลในสภาพแวดลอมการลอกเลยนแบบการกระท าของเครอขายทางสงคม (ชดมาตรฐาน BG) ผลในทางปฏบตไดขอสรปคอ จ านวนของ NoSQL/NewSQL ฐานขอมลเปนประเภททแตกตางกนทงความสามารถในการคนหาขอมล และมความหลากหลายของการใชงานทมอย และทเพงเกดขนใหมทสามารถไดรบประโยชนจากหลกการและเทคนคการใหบรการโดยระบบเหลานน การเปรยบเทยบในหมผนยมมากทสดเกบขอมล NoSQL/NewSQL พรอมกบรายละเอยดของกรณการใชงานทเปนไปไดใหไวในบทความนอาจจะใหความชวยเหลอเพมเตมส าหรบ ผปฏบตงานเกยวกบการเลอกโซลชนการจดเกบขอมลทดทสดส าหรบความตองการของโปรแกรมของผใชขอมล
Vicknair, Macias, Zhendong, Zhao, Nan, Chen, and Wilkins (2010) มงานวจยเรอง A comparison of a Graph Database and Relational database ปญหาของงานวจยนคอ ฐานขอมลเชงสมพนธเปนเทคโนโลยฐานขอมลทางเลอกส าหรบการจดเกบขอมลแบบดงเดมทมผนยมใชกนมากทสดและการเรยกใชงานขอมลจ านวนมาก การสบคนมกจะใช SQL เปนภาษาแบบสอบถามทใชงานไดด ยกเวนแตขอมลทมการก าหนดความสมพนธ ใหใชรวมกนของตารางขอมล 2 ตารางขนไปจะมขนาดใหญ การใชวทยาการคอมพวเตอรเขามาชวยแกไขปญหา เชน มการใชหลกการ
27
คณตศาสตรกราฟน ามาประยกตใชเรมแพรหลายในสาขาชววทยา, เคม, พนธกรรม เปนตน ซงเปนแบบจ าลองโครงสรางทมประโยชนแตมาตรฐานนจะน ามาใชงานไดอยางไร
ผวจยฉบบนจงน าเสนอการศกษามาตรฐานของโครงสรางฐานขอมลกราฟ ดวยโปรแกรม Neo4j เพอน ามาใชในการจดเกบและการสอบถาม แลวเปรยบเทยบกบฐานขอมลแบบเชงสมพนธทมความนยม MySQL กอนทจะน ามาใชในการตดสนใจเลอกใชในการจดเก บฐานขอมลใหม เพอใชเปนเทคโนโลยพนฐานในการพฒนาซอฟตแวรระบบการบนทกและการสอบถามขอมล สมมตฐานของงานวจยนคอ ทมาของขอมลสามารถอยในระดบรายละเอยดทแตกตางกน รากของกราฟสามารถดฐานขอมลทงหมดในระเบยน (Tuples) ในแฟมได และเปนเรองงายทจะใชงานแบบสอบถามและมประสทธภาพดวยรปแบบ Direct acyclic graph (DAG)
โดยมวธการวจยและรปแบบการวจยดวยการเปรยบเทยบมาตรฐานตางๆ เพอการตดสนใจตามหวขอดงน 1.การยอมรบและการสนบสนนของผใชและผผลต (Maturity / Level of Support) 2.โปรแกรมใชงานงาย (Ease of Programming) 3.ความยดหยน (Flexibility) 4.ความปลอดภยขอมล (Security) และทดลองเพอประเมนผลดานผลความเรวกบชดขอมลทก าหนดไวลวงหนา และทดสอบการสบคนขอมลดวยการใชชดแบบสอบถามทก าหนดขน มตวแปรทส าคญ จ านวนขอมลทเพมขน, รปแบบจดเกบขอมลทแตกตางกน, แบบสอบถามเหมอนกน
และมเครองมอวดและวธเกบขอมลดวยเทคนควธการ สรางฐานขอมล MySQL และ Neo4J จ านวนเทากน 12 ฐานขอมล ดวยขอมลน าหนกการบรรทก Neo4J ม Node (Nodeid, Payload) และ Edge (Source, Sink) และ MySQL เปนรปแบบขอมลกงโครงสรางม 2 ตาราง ดวยการใช XML และ JSON ในการเชอมสมพนธการจดเกบขอมลและมโครงสรางเหมอนกบ Neo4J และมจ านวนแตละชดขอมลดงน 1,000, 5,000, 10,000 และ 100,000 ตามล าดบ และในการประเมนดวยแบบสอบถามโดยการใชสมเลอกจากตวเลข และตวอกษรแบบ 8KB และตวอกษรแบบ 32KB และยงเกบขอมลการใชพนทจดเกบในฮารดดสกทจ าเปน และท าการสรางดชนไวทงสองฐานขอมล และก าหนดใหแบบสอบถามมชดค าสงส าหรบคนหาชดตวเลขดงน 1.นบจ านวนโหนดทมน าหนกบรรทกขอมลทมคาเทากน 2.นบจ านวนโหนดทมน าหนกบรรทกนอยกวาคาทก าหนดเปนตวแปรตงตน 3.แบบสอบถามมชดค าสงส าหรบคนหาชดตวอกษรดงน นบจ านวนโหนดทมขอมลตามทก าหนดตงตน ก าหนดความยาวตวอกษร 4-8 ตว แลวท าการทดสอบแบบสอบถามชดละ 10 ครงในแตละฐานขอมลแลวน ามาหาคาเฉลย เพอท าใหมนใจวากระบวนการแคชหรอระบบไมสงผลกระทบตอเวลาการคนหาขอมล โดยมสภาพแวดลอมดวยเครองเซรฟเวอรทม OS เปน Ubuntu Linux เวอรชน 9.10 และม CPU 2 Duao 3.00 GHz และม RAM 4GB และท าการเชอมตอแตละเครองเขากบระบบอนเตอรเนต และโปรแกรม MySQL เปนรน 5.1.421 และโปรแกรม Neo4J เปน
28
รน 4.0 b112 วธวเคราะหขอมลดวยการสรางตารางเกบผลการทดลองและน าวเคราะหเปรยบเทยบผลทไดจากการทดลอง
ผลจากการวจยทงสองระบบด าเนนการไดกบชดแบบสอบถามทด าเนนการขนแตลกษณะโดยทวไปฐานขอมลกราฟจะไดผลประสทธภาพทดกวาในแบบสอบถามชนดฐานขอมลเชงสมพนธในคนหาตวอกษรขอความแบบเตมอยางมนยส าคญดกวาฐานขอมลเชงสมพนธ ซงกลไกในการท าดชน Lucene มผลกบตวอกษรมากกวาแบบตวเลข ทฐานขอมลเชงสมพนธมประสทธภาพมากกวาฐานขอมลกราฟ ซงเปนปญหาจากการท าดชนทยงเปนขอดอยของฐานขอมลกราฟ ในปจจยอนทส าคญในการเลอกใชงานคอการรกษาความปลอดภยทฐานขอมลกราฟยงไมไดรบการสนบสนนใน Neo4J ภายใตมาตรการรกษาความปลอดภย ACL Based (Access Control List) กยงเปนขอดอยอกจดหนงทยงตองมการปรบปรงจากผผลต
Appuswamy, Gkantsidis, Narayanan, Hodson, and Rowstron (2013) มงานวจยเรอง Scale-up vs Scale-out for Hadoop: Time to rethink ปญหาของงานวจยนคอ การวเคราะหขอมลดวยการใชแมพรดวและฮาดปเปนการใชงานการกระจายไฟลไปตามเครองคอมพวเตอรแบบสวนบคคลทเปนการเกบขอมลในฮารดดสกทไมนาเชอถอ จงมโอกาสเกดความผดพลาดสง หากแตการใชเกบขอมลกบผใหบรการทมเซรฟเวอรประสทธภาพสงจะมผลลพธทดกวาในขอมลระดบเอกซตาไบตหรอเพตาไบตหรอเทราไบต
ผวจยฉบบนจงมค าถามวามนควรจะขยายออกในแบบกระจายหรอแบบขนาน (Scale out) หรอแบบขยายขนดกวากน (Scale up) ผวจยฉบบนจงน าเสนอ การวจยเชงทดลองทน าฮารดแวรทมคณสมบตทมประสทธภาพสงน ามาเปรยบเทยบกบฮารดแวรทมประสทธภาพต าทใชฮาดปและแมพรดว สมมตฐานของงานวจยนคอการใชเซรฟเวอรทมประสทธภาพเครองเดยวจะดกวาการมเครองสวนบคคลทมหลายเครองทใชฮาดป เนองจากฮาดปจะมประสทธภาพดอยลงเมอขอมลมจ านวนมากขน และสมมตฐานทสองคอการปรบปรงประสทธภาพใหกบเครองเซรฟเวอรทมฮาดปเพอรองรบการใชงานในเครองเดยวและใชไดดกวาคลสเตอรคอมพวเตอร
และการวเคราะหขอมลดวยฮาดปและแมพรดวไดรบการออกแบบมาเพอการจดการขอมลระดบเพตาไบตท าการประเมนผลกนระหวางแบบขยายออกและแบบขยายขน โดยมวธการวจยโดยวธการทดลอง ท าการทดลองกบเครองเวรคสเตชนและเครองเซรฟเวอรสเปคสง และเซรฟเวอรทมแกนสมอง 32 แกน หนวยความจ า 512 GB เปรยบเทยบกบเวรคสเตชน 8 โหนด น าเสนอการประเมนผลวาเซรฟเวอรทมการขยายเพมขนมคาใชจายดานพลงงานและการใชพนทการจดเกบเมอเทยบกบแบบ 16 โหนดคลสเตอรจะใชตนทนมากกวากนเทาไร หรอจดทตองเรมมการปรบเปลยนจากการขยายขนาดขนไปเปนการขยายตามแนวนอน
29
เครองมอในการทดลองมคลสเตอรคอมพวเตอรมจ านวน 2 กลม คอจ านวน 8 โหนด และ 16 โหนด เปนเวรคสเตชน ในแบบการขยายออก และแบบการขยายขนใชเซรฟเวอรทมประสทธภาพสงจ านวน 1 โหนด วธเกบขอมลดวยเทคนควธการใชขอมลการใชงาน (Log) ขอมลการวเคราะหแบบสอบถามจากขอมลการเขาถงเวบไซต ขอมลจากมาตรฐานขอมล TeraSortขอมลจากการจดเรยงและขอมลการเรยนรของเครอง (Machine Learning) โดยการใชโปรแกรม Mahout ทมขนาดขอมลแตกตางกนไป โดยมสภาพแวดลอมจากการใชแพลตฟอรมของฮาดป ทงในการทดสอบทงแบบการขยายออกและแบบการขยายขน การเพมประสทธภาพกบหนวยจดเกบขอมล (Storage) โดยใช SSD และใช HDFS ในการจดเกบไฟลและท าการก าหนดแบบกระจายในเครองเดยวดวยแบบจ าลองเครองในการขยายขนและการกระจายไปทเครองจรงแบบขยายออก และยงท าการก าหนดคาทเหมาะสมส าหรบงานตอชดขอมลจ านวนสงสดท 4 GB ตอการท าแมพและรดว และท าการประเมนผล วธวเคราะหขอมลดวยการใชขอมลประสทธภาพผลการด าเนนงาน (Throughput) และหนวยคาใชจายฮารดแวรทงเครองแบบเวรคสเตชนและเซรฟเวอร และคาใชจายดานพลงงานในการใชงาน เพอใหเขาใจถงขอดขอเสยของการปรบแบบการขยายขนเพอเทยบกบการปรบแบบขยายออก
ผลจากการวจยพบวาการปรบปรงกระบวนการฮาดปในการขยายแบบขนมนยส าคญในการประเมนดานการใชพลงงานและการเพมชนการจดเกบและตอคาใชจาย และยงมสวนของการใชงานหนวยความจ าทมประสทธภาพ และในการขยายแบบขนยงดกวากลมคอมพวเตอรจ านวน 8 เครองในบางงานดวย และการปรบปรงกระบวนการโอนขอมลในระบบ HDFS ไป SSD มผลตอการปรบปรงประสทธภาพและสงทกระบวนการแยทสดคอการน าเขาขอมลมผลกระทบตอประสทธภาพมากทสด และในการท าทดสอบการท าเครองขยายแบบขนานระบบคลาวดคอมพวเตอรมการใชแบนดวธในเครอขายท าใหระบบไมมประสทธภาพในการท างาน และการใชการขยายออกเปนแบบเฉพาะงานจะเปนตวเลอกทดทสด
ในบทความวจยนจงแสดงใหเหนทศทางตรงกนขามกบความรดงเดมวางานวเคราะหโดย Hadoop และ MapReduce มกจะมบรการทดขน โดยเซรฟเวอรในการขยายขนดกวากลมคลสเตอรทมการท างานการขยายออก ในกลมการวเคราะหโดยทวไปควรจะมการจดเตรยมเซรฟเวอรแบบขยายขนเปนตวเลอกทดส าหรบงานจ านวนมาก ไมวาจะเปนในคลสเตอรสวนตวหรอในบนระบบคลาวน การเพมประสทธภาพทน าเสนอในบทความนใหเปนจดเรมตนทดส าหรบการปรบปรงประสทธภาพการท างานเซรฟเวอรใหเปนแบบขยายขน (Scale up)
Singh and Reddy (2014) มงานวจยเรอง A survey on platforms for big data analytics ปญหาของงานวจยนคอ เมอขอมลขนาดใหญสงผลใหมการเปลยนแปลงตอการการวเคราะหขอมล
30
รปแบบดงเดม แพลตฟอรมหรอกรอบการท างานของซอฟตแวรและฮารดแวรแบบเดมๆ ไมสามารถด าเนนการวเคราะหใดๆ ทเกยวของกบขอมลขนาดใหญและซบซอนได เชน ฮารดแวรตองท าการปรบเปลยนใหท างานไดภายใตการท างานของขอมลขนาดใหญ และซอฟตแวรทมแพลตฟอรมส าหรบการวเคราะหขอมลส าหรบการตดสนใจทส าคญ ซงปญหาดงกลาวเปนพนฐานขององคกรกอนทจะท าการตดสนใจเลอกใชแพลตฟอรมของเทคโนโลยทถกตอง โดยปกตเมอผใชตองการตดสนใจเลอกแพลตฟอรมทเหมาะสม ผใชจะตองตรวจสอบแพลตฟอรมทตองการใชในขนตอนและวธการใชงานรวมกบขอมลของพวกเขา เพอใหตรงตามความตองการของผใชและท าใหเกดความพงพอใจในการวเคราะหขอมลใหใชเวลาทเหมาะสม
ผวจยฉบบนจงน าเสนอการแกปญหาทอยบนพนฐานของแพลตฟอรมเฉพาะทางน โดยการศกษาอยางละเอยดและท าความเขาใจตอแพลตฟอรมขอมลขนาดใหญทก าลงเปนทนยมและถกน ามาทดลองการใชงานอยางกวางขวาง เชน โปรแกรม Apache Hadoop และ MapReduce และ Apache Pig และ Spark เปนตน
กลมนกวจยจ านวนมากไดพยายามสรางกรอบการท างาน สรางเทคนคการวเคราะหขอมลขนาดใหญมากขนและท าการวจยกนมาอยางตอเนองเพอจะน ามาใชงานไดจรง การพฒนามขนตอนวธการทแตกตางกนและความหลากหลายของฮารดแวรและซอฟตแวรในการใชงานขอมลขนาดใหญทมอยมลกษณะและการปฏบตทแตกตางกน การเลอกแพลตฟอรมเทคโนโลยทเหมาะสมตองมความรในเชงลกเกยวกบความสามารถของแพลตฟอรมเหลานทงหมดและงานวจยนยงเนนใหเหนถงขอดและขอเสยของแตละแพลตฟอรม โดยเฉพาะอยางยงความสามารถของแพลตฟอรมทจะปรบใหเขากบขอมลเฉพาะทางขององคกรทมแนวโนมเพมขนใหได การประมวลผลจงมบทบาทส าคญทจะน ามาใชในการตดสนใจวาแพลตฟอรมใดเหมาะสมทจะน ามาใชสรางการวเคราะหในทางปฏบตหรอไม
สมมตฐานของงานวจยนคอ 1) จะท าอยางไรใหไดผลลพธทรวดเรว 2) มขนตอนการด าเนนการอยางไรกบขอมลขนาดใหญ 3) การสรางตนแบบตองท าซ าหลายครงหรอสามารถท าครงเดยวได 4) มความจ าเปนทจะตองใชความสามารถในการประมวลผลขอมลทเรมจะมมากขนในอนาคตหรอไม 5) โปรแกรมควรใหความส าคญตอการค านวณอตราการโอนถายขอมล (I/O) หรอไม 6) โปรแกรมตองคอยควบคมจดการความลมเหลวของฮารดแวรหรอไม
โดยมรปแบบการวจยและวธการวจยมงเนนไปทการเปรยบเทยบแพลตฟอรมทงหมดดงน Scaling หรอการปรบขนาดของระบบใหไดตามความตองการในแงของการประมวลผลขอมลสามารถแบงไดออกเปน 2 รปแบบ คอ
31
1) Horizontal Scaling (การขยายตามแนวนอน) จะเปนการกระจายภาระงานใหกบเซรฟเวอรจ านวนมาก ทรพยากรในการขยายตามแนวนอนมดงน
1.1) เครอขายในกลมการขยายในแนวนอนระบบเครอขาย Peer-to-Peer Network (เครอขายเพยรทเพยร) หรอ TCP/IP เปนการเชอมตอเครอขายแบบกระจายตามคอมพวเตอรหรอโหนด ซงเครองคอมพวเตอรหรอโหนดในเครอขายสามารถเปนไดทงไคลเอนตและเซรฟเวอรในเครองเดยวและใชทรพยากรรวมกนได มใชการสอสารรปแบบ Massage Passing Interface (MPI) ในการแลกเปลยนขอมลและเหมาะกบการประมวลผลซ าหลายครง (Iterative Processing) ซงเปนรปแบบเครอขายทเหมาะกบการพฒนาอลกอรทมในการวเคราะหขอมลขนาดใหญ แตกยงมขอบกพรองในการท าการปองกนความลมเหลวของการสอสารหรอ (Fault Tolerance) ดงนนจงตองใชการจดการทางซอฟตแวรปองกนความผดพลาดแทน จงท าให Apache Hadoop ซงมคณสมบตดงกลาวมประสทธภาพมากและกลายเปนทนยมแพรหลายในงานวจย ซอฟตแวรทจดอยในกลมการขยายตามแนวนอนทท าการศกษาม
1.2) Apache Hadoop ซงมองคประกอบส าคญคอ Hadoop Distributed File System (HDFS) หรอระบบกระจายไฟลทใชในการจดเกบ และ Hadoop YARN ในการจดการทรพยากรและจดตารางงานของกลมคลสเตอรคอมพวเตอร
1.3) การประมวลผล MapReduce เปนการเขยนโปรแกรมการประมวลผลขอมลทใชใน Hadoopทมลกษณะการท างาน 2 ลกษณะคอ Map และ Reduce ทอานขอมลจาก HDFS ซงเปนการประมวลผลขอมลแบบขนานจากกลมโหนดในคลสเตอรแลวท าการรวบรวมขอมลมาแสดงผลลพธสดทาย
1.4) MapReduce Wrappers เปนการเขยนควบคมพฒนาดขนมากกวา MapReduce ดวยสภาพแวดลอมของ SQL เชน Apache Pig ถกพฒนาดวย Yahoo และ Apache Hive ทถกพฒนาโดย Facebook เพอใหมมาตรฐานการประมวลผลทดกวาลดความซบซอนของการเขยนโปรแกรมแบบ MapReduce และยงม DryadLINQ ทถกพฒนาใหมความยดหยนในการใชงานมากขนใชงานรวมกบภาษา C# และ LINQ ทใชพฒนารวมกบภาษา Visual Studio.NET และนกวจยบางกลมยงท าการพฒนา Apache Mahout เพอการเรยนรเครองจกร (Machine Learning) โดยอาศยรปแบบการท างานหรอกระบวนทศนการท างานแบบ MapReduce แตทงน MapReduce ยงมขอจ ากดในดานการประมวลผลทไมสามารถสรางอลกอรทมการประมวลผลแบบซ าแลวซ าอกไดมนเปนการประมวลผลแบบกลม (Batch Processing) หรอจะกระท าใหมทกครงทมการสงรนโปรแกรมใหม ท าใหประสทธภาพในการเขาถงขอมลลดลงจงถอวาเปนคาใชจายทเกดขนในอนาคต จงมการพฒนาแกปญหาดงกลาว เชน HaLoop เปนปรบปรงประสทธภาพดวยการสรางอลกอรทมให
32
สามารถใชงานหนวยความจ าส ารอง (Cache) มาท างานรวมกนเพอเกบขอมลทตองการเรยกใชบอย หรอ iMapReduce ของ Twister ทท างานในลกษณะการเกบในหนวยความจ าส ารอง
1.5) Spark เปนรปแบบการประมวลผลขอมลขนาดใหญแบบใหมไดมการพฒนาโดยกลมนกวจยมหาวทยาลยแคลฟอรเนยท างานรวมกบทมงานกลมพฒนา Hadoop เพอปรบปรงประสทธภาพในการท างานของระบบ I/O ใหดขน มลกษณะการท างานรวมกบหนวยความจ า ดวยการค านวณในหนวยความจ าและมภาษาท างานรวมกนไดคอ Java, Scala, Python และมการพสจนแลววามความเรวกวา MapReduce ถง 100 เทา เมอขอมลใชงานในหนวยความจ าและถง 10 เทา เมอขอมลอยบนฮารดดสก
1.6) BDAS (Berkeley Data Analytics Stack) เปนกรอบการท างานในกระบวนทศนของ Spark ทพฒนาขนมาเพอท าการวเคราะหขอมลหรอจะเรยกอกชอวา Tachyon มประสทธภาพทใชหนวยความจ าในระดบ I/O มากขนสามารถอานไฟลบอยและเกบในหนวยความจ าแคชจงลดการเขาถงฮารดดสกในงานทแตกตางกนได และสนบสนนการจดการตารางขอมลหลายรอยคอลมนและสามารถรองรบการประมวลผลแบบทนท (Real-time stream processing) และการตงเวลาการทรพยากรได (Multi-resource scheduling capabilities) และยงใชงานรวมกบ Amazon Elastic ไดอกดวย จงเปนทนยมในการใชงานเพมมากขน
2) Vertical Scaling (การขยายตามแนวตง) จะเปนการตดตงหนวยประมวลผลมากขนอกทงหนวยความจ าและฮารดแวรใหเรวขนโดยทวไปจะท าภายใตเซรฟเวอรเดยว
2.1) High Performance Computing (HPC) Clusters, Blades หรอ Super Computer เปนคอมพวเตอรระดบสงทไมสามารถน ามาใชงานรวมกบ Hadoop หรอ Spark ได มคาใชจายในการจดซออปกรณสง
2.2) Multicore CPU หรอเครองทมหนวยประมวลผลหลก CPU จ านวนมาก ท างานแบบคขนานมหลายแกนสมอง เนองจากมการพฒนาบอรดแบบใหมๆ ทมารองรบเพมขน และมการเรยกใชงานผานโปรแกรมทนยม เชน Java เปนตน แตยงมขอดอยคอเมอขนาดของขอมลเกนกวาหนวยจ าของระบบและการเขาถงฮารดดสก (I/O) จะกลายเปนคอขวดขนาดใหญ (Huge Bottleneck) ตองใชการท างานรวมกนกบ DDR5 หามใช DDR3 และใชรวมกบ GPU จะชวยเพมความเรวในการเขาถงขอมล
2.3) Graphics processing unit (GPU) หรอหนวยประมวลผลกราฟฟกเปนการสรางภาพในเฟรมบนบฟเฟอรในการประมวลผลภาพของวดโอและรปภาพ ถกน ามาใชงานรวมกบขนตอนวธการเรยนรของเครองจกรใหรวดเรวขน ซงขอจ ากดคอการตองใชหนวยความจ าสงสดได
33
เพยง 12 GB จงไมเหมาะกบการจดการขอมลขนาดเทราไบต จงเปนจดคอขวดหากท าการประมวลผลขอมลขนาดใหญ
2.4) Field Programmable Gate Arrays (FPGA) เปนฮารดแวรทสรางขนส าหรบการใชงานเฉพาะและใชแพลตฟอรมภาษา Hardware Descriptive Language (HDL) ตวอยางการใชงานจรงคอการน ามาใชงานปองกนเครอขายหรอไฟรวอลลฮารดแวร มการท างานกบขอมลปรมาณมากในการสแกนขอมลบนเครอขาย มวธการประเมนผลดวยการวเคราะหตามสมมตฐานและมสภาพแวดลอมการวเคราะหภายใตการใชงานการวเคราะหขอมลขนาดใหญแลวใหคะแนนแตละแพลตฟอรมขอมลขนาดใหญ ขนอยกบลกษณะทเหมาะสมตางๆ เหลาน กลมระบบและแพลตฟอรม ก) การขยายขดความสามารถ (Scalability) ข) ประสทธภาพของการรบเขา/สงออกขอมล (Data I/O performance) ง) ความคงทนตอความลมเหลวของการท างาน (Fault tolerance) กลมซอฟตแวรและอลกอรทม ก) การประมวลผลแบบทนท (Real-time processing) ข) ขนาดของขอมลทรองรบ (Data size supported) ค) กระบวนการท างานซ าหรอเกบขอมลในหนวยความจ าส ารอง (Iterative task support) และใหค าแนะน าบางอยางเกยวกบความเหมาะสมของแพลตฟอรมทแตกตางส าหรบทกชนดของสถานการณทเกดขนขณะทก าลงท าวเคราะหขอมลขนาดใหญในทางปฏบตเพอทจะใหความเขาใจทครอบคลมมากขนในแงมมทแตกตางกนของปญหาขอมลขนาดใหญและวธการทพวกเขาจะถกจดการ
งานวจยนใชกรณศกษาเกยวกบการด าเนนงานของ K-Mean หมายถงขนตอนวธการจดกลมตางๆ แพลตฟอรมขอมลขนาดใหญ K-Mean Clustering วธการจดกลมไดรบการคดเลอกทนไมเพยงเพราะของมนนยม แตยงเกดจากมตตางๆ ของความซบซอนทเกยวของกบขนตอนวธ เชน การท าซ าค านวณจ านวนมากและมความสามารถในการท าคขนานบางสวนของการค านวณ และจดใหม Pseudo Code รายละเอยดของการด าเนนการของขนตอนวธ K-Mean กบฮารดแวรและซอฟตแวรทแตกตางแพลตฟอรมและจดใหมการวเคราะหในเชงลกและขอมลเชงลกในรายละเอยดขนตอนวธวเคราะหขอมลขนาดใหญในทางปฏบต
ผลจากการวจย การเปรยบเทยบระบบและแพลตฟอรมกลมการขยายตามแนวนอน ตามหวขอการทดลองดงน 1) ขดความสามารถ (Scalability) ไดรบคะแนนดทสดคอเครอขาย Peer-to-Peer, MapReduce และ Spark กลมการขยายตามแนวตง HPC ไดการประเมนดทสดแตไดรบคะแนนนอยกวาการขยายตามแนวนอน 2) การรบเขา/สงออกขอมล (I/O) กลมการขยายแนวตงไดคะแนนในกลม GPU, FPGA มากกวาการขยายแนวนอนเปนเพราะการทการประมวลผลแบบขนานอยาง Hadoop ตองด าเนนการถายโอนขอมลมากกวาโดยไมมการใชหนวยความจ าและการประมวลผล Spark มคะแนนดกวา MapReduce 3) การคงทนตอความลมเหลวของระบบ (Fault
34
tolerance) กลมการขยายตามแนวนอนไดคะแนนดกวาแตจะแตกตางกบกลมการขยายตามแนวตงเพยงเลกนอย ซงคะแนนของ Spark และ MapReduce ซงใชกรอบการท างานของ Hadoop ซงมกลไลควบคมความผดพลาดมคะแนนเทากน และในกลมขยายตามแนวตง 4) การประมวลผลแบบทนท (Real-time processing) กลมการขยายตามแนวตงในกลม GPU, FPGA (HDL) ไดดกวากลมการขยายในแนวนอนเพราะการประมวลผลรวมกบหนวยความจ าของเครองจงเหมาะกบการประมวลผลในเวลาจรงมากกวา 5) การสนบสนนขนาดของขอมล (Data size supported) กลมการประมวลแบบขนานมคะแนนทดกวาซงระดบสงทสดเปนกลม Peer-to-Peer (TCP/IP) ซงในทางทฤษฏจะรองรบขอมลไดไมจ ากด และ MapReduce กบ Spark สามารถรบรองการท างานไดหลายหมนโหนดและยงสามารถประมวลผลและจดการชดขอมลขนาดใหญไดท แต HPC ในกลมการขยายแบบแนวตงสามารถรองรบขอมลขนาดเทราไบตไดซงมคะแนนเทากบ MapReduce กบ Spark 6) การสนบการท างานซ า (Iterative tasks support) กลมการขยายแบบแนวตงจะไดคะแนนดกวาทกกลม HPC, Multicore, GPU, FPGA จะมคะแนนเทากนทกกลม แตจะแตกตางกวากลมการขยายแนวนอนอยาง Spark เพยงเลกนอย และ Spark มคะแนนทดกวา MapReduce เพราะการท างานเปนลกษณะการท างานจะตองเขยนผลขอมลลงดสกทกครง ในกลมการขยายแบบแนวตงจงเหมาะสมกบการท างานซ ามากกวา
ผลการวเคราะหดวย K-Mean เพอใชในการวเคราะหขอมลขนาดใหญส าหรบการตดสนใจมการเลอกโดยปจจย 1.ขนาดของขอมล (Data size) 2.ความเรวหรอการเพมประสทธภาพการสงขอมล (Speed or throughput optimization) 3.การฝกอบรมหรอการใชแบบจ าลอง (Training / Applying a model) 4.ทดสอบขอมลการปฏบตงานจรง (Practical implications) การทดสอบการประมวลผลเซนทรอยด (Centroids) ดวยขอมลจาก Datapoints ดวยการทดสอบบนแพลตฟอรม MapReduce, MPI, GPU
สรปการวเคราะหดวย K-Mean จะดทสดเพราะลกษณะของการประมวลผลทตองการท าซ าหลายครงเพอใหเซนทรอยดมาบรรจบกน สรปขอดขอเสยของการปรบขนาดของแพลตฟอรม ความสามารถในการปรบขนาดของแพลตฟอรมแบบแนวตงจะตองมการลงทนทางการเงนเพอจดการปรมาณงานในอนาคตดวยการปรบเพมฮารดแวรแตเนองจากขอจ ากดของเซรฟเวอรทมชองส าหรบเพมหนวยความจ าหรอฮารดดสกหรอหนวยประมวลผลทไมสามารถเพมขนไดอก แตความสามารถของการปรบขนาดของแพลตฟอรมแบบแนวนอนนนชวยในการเพมประสทธภาพการท างานทละนอยและชวยลดเงนลงทน เปนการเพมขยายเพมขนได ตามความตองการขยายเซรฟเวอรตามความจ าเปน แตยงมขอเสยคอความพรอมของซอรฟแวรทจะน ามาใชรองรบการท างานใหเกดประสทธภาพและเกดประโยชนมากทสด การเลอกแพลตฟอรมทเหมาะสมส าหรบ
35
การใชงานเฉพาะขนอยก บความตองการใชงานขอมลเฉพาะองคกร หรออาจจะใชหลาย แพลตฟอรมรวมกน เชน ใช Hadoop รวมกบ GPU เปนตน
Sareen and Kumar (2015) มงานวจยเรอง NoSQL Database and Its Comparision with SQL Database ปญหาของงานวจยนคอ ฐานขอมล NoSQL เปนทางเลอกทเกดขนใหม มกลไกส าหรบการจดเกบและการดงขอมลทมการสรางแบบจ าลองในวธการอนๆ ไมเหมอนกบทใชกนในฐานขอมลเชงสมพนธบางครงโครงสรางขอมลทใชฐานขอมล NoSQL จะถกมองวามความยดหยนมากกวาตารางฐานขอมลเชงสมพนธ น าไปใชกบขอมลขนาดใหญและใชงานกบเวบแบบ Real-time อปสรรคคอการยอมรบในการใชภาษาทจะน ามาแทนท SQL และขาดการเชอมสมพนธทไมสามารถท าการ Join ขามตารางได การใชงานไดบางสวนจงเกดปญหาของการเลอกใชฐานขอมล NoSQL วาจะเลอกใชอยางไรจงจะมความเหมาะสม
ผวจยฉบบนจงน าเสนอแนวคดการหาความสอดคลองในการออกแบบของฐาน NoSQL กบขอมลเพอปรบใหสามารถใชงานได สมมตฐานของงานวจยนคอ ฐานขอมล SQL และ NoSQL แตกตางกนอยางไรและมอะไรบางทแตกตาง และอรรถประโยชนของฐานขอมล NoSQL มอะไรบาง โดยมวธการวจยและรปแบบการวจยดวยการศกษาประเภทและโครงสรางของฐานขอมล NoSQL แลวท าการเปรยบเทยบฐานขอมลทนยมและเปนทรจกกนอยางด เชน Microsoft SQL และ MongoDB
มวธวเคราะหขอมลดวยการเปรยบเทยบฐานขอมล MS SQL กบ MongoDB โดยมหวขอในการประเมนผลพจารณาในการเลอกกรอบการท างาน NoSQL ดงน 1) Workload diversity หรอความหลากหลายของภาระงาน เชน การท า Real-time และวเคราะหขอมลไดทนท 2) Scalability หรอการขยายของระบบสามารถรองรบและยดหยนในสถานการณจ าเปน 3) Performance หรอการใชงานไดรวดเรวมประสทธภาพในการท างาน 4) Continuous Availability หรอความพรอมใชงานไดอยางตอเนองขอมลสามารถใชงานไดตลอดเวลา 24 ชวโมง 5) Manageability หรอการบรหารจดการในการพฒนาและการเกบรกษาขอมลหรอยายขอมลเขาฐานขอมล NoSQL 6) Cost หรอคาใชจายในการโยกยายหรอการขนใชงานและการพฒนาเพอการใชงานฐานขอมล NoSQL 7) Strong Community หรอชมชนผใชระบบทองคกรเหลานนตองการใชงานเพอทจะไดมบคลากรมารองรบและสนบสนนชวยเหลอทางดานเทคนคการใชงาน ใหสามารถใชทรพยากรทขนระบบไดอยางคมคา
มการอภปรายผลประเภทของฐานขอมล NoSQL แบงเปน 4 หวขอดงน 1) Document Database 2) Graph stores 3) Key-value stores 4) Wide-column stores และโครงสรางของ MongoDB เปนการจดเกบขอมลดวยรปแบบระเบยนเอกสารเกบไวในไบนาร JSON มสคมาและ
36
หรอคอลเลคชนทเขยนควบคมดวยภาษา JSON มโครงสรางขอมลและรปแบบอารเรยทคลายของฐานขอมลเชงสมพนธ และยงสามารถท าดชนและแบบสอบถามคนคนขอมล ดชนสามารถประกาศในชองทไมซ ากนทงดชนเดยวหรอหลายดชนได และสามารถอยในเขตขอมลทมโครงสรางซอนกนได และยงรองรบการท าปองกนความลมเหลวของขอมลดวยการท าเซรฟเวอรรองรบไว 3 เครองได และอรรถประโยชนของ NoSQL แบงเปนหวขอดงน 1) Elastic scaling หรอการปรบความยดหยนไดผบรหารขอมลไมจ าเปนตองซอเซรฟเวอรใหมและไมจ าเปนตองใชฮารดแวรทมประสทธภาพสงเพอรองรบการท างาน 2) Big Data หรอรองรบขอมลขนาดใหญทเรมจะมแนวโนมปรมาณขอมลทเพมขน รองรบการท างานขอมลไดโดยไมจ าเปนตองใช RDBMS 3) No DBAs หรอการไมตองใชผเชยวชาญดแลฐานขอมล ทตองมการบรหารจดการเมอฐานขอมลเรมมขนาดใหญขน หรอไมจ าเปนตองใชผลตภณฑซอฟตแวรฐานขอมลทมประสทธภาพระดบสง 4) Economics หรอดานเศรษฐกจการใช NoSQL ไมจ าเปนตองใชเซรฟเวอรทมราคาแพงและระบบจดเกบขอมลราคาแพงคาใชจายตอกกะไบตหรอการประมวลผลรายการตอวนาทถอไดวานอยกวา RDMS มาก 5) Flexible data models หรอรปแบบของขอมลมความยดหยนการดแลรกษาระบบขอมล RDBMS นนแมมการเปลยนแปลงโครงสรางขอมลเพยงเลกนอยจะกระทบตอขอมลทงหมดตอง เชน การเพมคอลมน แตหากเปนระบบขอมล NoSQL สามารถเพมไดทนทโดยไมตองหยดระบบทงหมด
สรปผลจากการวจยฐานขอมล NoSQL มความส าคญมากขน และจะเปนสวนหนงของภมทศนฐานขอมลและเมอใชอยางเหมาะสมท าใหเกดประโยชน ทแทจรง อยางไรกตามผประกอบการควรด าเนนการดวยระมดระวง ดวยการเรยนรถงรปแบบของขอดขอเสยและขอจ ากดกบขององคกร และควรจะศกษาการใชงานใหถกตองตามกฎหมายในประเดนทเกยวของกบฐานขอมลเหลาน
ผสด บญรอด และ ประกายมาศ ศรสขทกษณ (2558) มงานวจยเรอง การคนคนขอมลขนาดใหญโดยใชภาษาสอบถามแบบไมมโครงสรางรวมกบเทคโนโลยเวบเชงความหมาย ปญหาของงานวจยนคอการคนคนขอมลใหตรงตามความตองการของผใชมความจ าเปนอยางมากในปจจบนเนองจากขอมลมปรมาณมากขนท าใหการประมวลชาและการคนคนไมตรงตามความตองการของผใชงาน ผวจยฉบบนจงน าเสนอฐานขอมลไมสมพนธน ามาประยกตใชกบการจดการขอมลขนาดใหญโดยใชแบบภาษาสอบถามแบบไมมโครงสราง และโครงสรางออนโทโลยทเปนเทคโนโลยเวบเชงความหมายมาชวยคนคนขอมลใหมประสทธภาพ สมมตฐานของงานวจยนคอแนวคดของเทคโนโลยเวบเชงความหมายสามารถน ามาชวยในการคนคนขอมลใหตรงตามความตองการของผใชงานมากยงขน
37
โดยมวธการวจยการรวบรวมขอมลและวเคราะหปญหาในการจดการขอมลขนาดใหญโดยการใชภาษาสอบถามแบบไมมโครงสราง ซอฟตแวรทใชในการพฒนาฐานขอมลไมสมพนธ และวธการคนคนขอมล และมรปแบบการวจย โดยการสราง 3 สวนหลกในการท างาน ชนตดตอกบผใชงานใชบนทกขอมลจดเกบลงในฐานขอมล และสวนของเวบเชงความหมาย เปนสวนของการประมวลผลการคนคนขอมลโดยใชโครงสรางออนโทโลยก าหนดความสมพนธระหวางขอมล และสวนสดทายการบนทกขอมลลงฐานขอมล MongoDB มตวแปรทส าคญคอขอมลลกคา ประเภทลกคา ผลตภณฑ ประเภทบรการ และหนวยงานทรบผดชอบ และโครงสรางออนโทโลย เครองมอวดวธเกบขอมลดวยเทคนควธการดวยการพฒนาโครงสรางออนโทโลยเพอน าจดเกบและรองรบการคนคนขอมลขนาดใหญและการสรางภาษาสอบถามแบบไมมโครงสรางดวยเทคโนโลยเวบเชงความหมาย โดยมสภาพแวดลอมจากเทคโนโลยออนโทโลยตามวงจรชวต Ontology Life Cycle ใชซอฟตแวร Hozo Ontology Editor เวอรชน 5.2.36 และเกบโครงสรางออนโทโลยในฐานขอมล MongoDB เวอรชน 2.4.5 และท าการออกแบบโครงสรางเอกสารในรปแบบ JSON แบงขอมลออกเปน 3 สวนชอ (Subject), คณสมบต (Predicate), วตถ (Object)
วธวเคราะหขอมลดวยการทดสอบความเรวในการประมวลผลแบงการทดสอบโดยใช 3 ตวด าเนนการ คอการอาน (Select), การแกไข (Update) และการลบ (Delete) และทดสอบกบจ านวนเธรดทแตกตางกน 1, 10 , 100 และการทดสอบการคนคนกบจ านวนระเบยนทแตกตางกน 100, 1,000, 10,000, 100,000 ตามล าดบ และท าการค านวณผลจากเวลาทงหมดในการประมวลผลและใชการหาคาเฉลยเลขคณตจากการทดลองจ านวน 3 ครง
ผลจากการวจยโดยพจารณาจากจ านวนเธรดวาสามารถท างานไดมากกวาหนงโปรแกรมในเวลาเดยว และจ านวนขอมล อกทงใชเวลาทงหมดในการประมวลผล ความเรวในการอานขอมลจากฐานขอมลไมสมพนธแตการอานขอมลจ านวนเธรด 100 กบจ านวนขอมล 100 ,000 แถว ใชเวลาในการประมวลผลมากทสด แตในสวนทเหลอใชเวลาใกลเคยงกน และในสวนของการแกไขขอมลใชเวลาในการประมวลผลกบฐานขอมลไมสมพนธใชเวลาในทกขอมลและทกเทรดไดใกลเคยงกน และในสวนของการลบขอมลใชเวลาในการประมวลผลกบฐานขอมลไมสมพนธใชเวลาในลบขอมล ของฐานขอมลไมสมพนธใชเวลาในทกขอมลและทกเทรดไดใกลเคยงกน จงสรปไดวาการออกแบบและพฒนาฐานขอมลไมสมพนธ เพอรองรบการจดเกบขอมลและการคนคนขอมลขนาดใหญ โดยใชภาษาสอบถามแบบไมมโครงสรางรวมกบโครงสรางออนโทโลยทเปนเทคโนโลยเวบเชงความหมาย ใชกรณศกษาการออกแบบใบแจงคาใชบรการท าการจดเกบขอมลลงในฐานขอมลไมสมพนธแบบเอกสารโดยการจดเกบในรปแบบเอกสาร JSON และไดท าการทดลองเพอตรวจสอบประสทธภาพความเรวในการประมวลผล จาก 3 ตวด าเนนการ ไดแกการอาน, แกไข
38
และการลบ ผลปรากฏวาทมการแตกตางกนมากมเพยงแตการด าเนนการดานการอานเทานน ฐานขอมลไมสมพนธจงมความเหมาะสมในการจดเกบและคนคนขอมลขนาดใหญ ซงสามารถประมวลผลไดอยางรวดเรว มรปแบบโครงสรางคลายคลงกบฐานขอมลเชงสมพนธ แตยงไมเหมาะสมกบการใชงานรวมกบเวบเชงความหมายซงตองผวจยท าการปรบปรงการออกแบบเพอใหสอดคลองตอไป
นรทธ รวยรน และ เกรยงไกร ปอแกว (2557) มงานวจยเรอง การใชแมพรดวซเชอมคอลเลคชนของฐานขอมลโนเอสควแอล (NoSQL) บนมองโกดบ (MongoDB) งานวจยฉบบน มปญหางานวจยดงนปจจบนปรมาณจ านวนขอมลทจดเกบในฐานขอมลมอตราการเตบโตทสง เมอขอมลทจดเกบมจ านวนมาก ท าใหการจดเกบลงฐานขอมลแบบเชงสมพนธและการจดการขอมลไมมประสทธภาพเทาทควร เนองจากรปแบบการจดเกบขอมลมลกษณะโครงสรางทซบซอนตองใชเวลานานในการจดการเขาถงขอมลทมปรมาณมาก จงมการน าเทคโนโลยฐานขอมล NoSQL เขามาใชในการจดเกบและจดการขอมลทมจ านวนปรมาณมากนน การเกบขอมลในฐานขอมล NoSQL นนจะเปนการเกบขอมลในลกษณะไมมความสมพนธเชงโครงสราง ซงฐานขอมล NoSQLไมรองรบการเชอมความสมพนธของขอมล งานวจยนจงไดเสนอแนวคดสรางความสมพนธของขอมลในฐานขอมล NoSQL ดวยฐานขอมล MongoDB โดยน าเทคนคหลกการเขยนโปรแกรมแบบแมพรดวมาประยกตใชในการเชอมความสมพนธขอมล และด าเนนการทดลองวดผลเพอน าคามาวเคราะหวดประสทธภาพในการจดการขอมล ในการเชอมคอลเลคชนของฐานขอมล MongoDB คณสมบตคอลเลคชนของ MongoDB ปกตไมรองรบการเชอมคอลเลคชน แตเพอเปนการน ามาประยกตใช โดยการน าขอดของฐานขอมล NoSQLในเรองการอานและเขยนขอมลทรวดเรว มาใชงานรวมกบแนวคดของฐานขอมลเชงสมพนธทลดความซ าซอนของขอมลดวยการแยกตาราง ซงหากเปรยบเทยบกบ MongoDB คอการแยกคอลเลคชน และประยกตใชวธการประมวลผลขอมลดวยวธแมพรดวซมาชวยในการเชอมคอลเลคชนของฐานขอมล MongoDB โดยเพมขนตอนการกรองขอมลของคอลเลคชน แลวน ามาสรางเปนคอลเลคชนชวคราว เพอใชในการเชอมคอลเลคชน มวธการเชอมคอลเลคชน 5 รปแบบดงน (1) Join Direct (2) MR Join (3) MR Filter Join 4) MR Left Filter Join 5) MR Right Filter Join และขอมลทใชในการทดสอบน 2 ชด คอ ชดท 1 Student ม 16 Fields และเอกสาร 9,665 Documents และ ชดท 2 Advisor ม 11 Fields 5และเอกสาร 954 Documents
สรปผลจากการทดลองไดวา การใชวธ 1) Join Direct จะใชซพยและเวลาในการเชอมคอลเลคชนนานกวาวธอน 2) MR Join ใชวธแมพรดวซในการเชอมอยางเดยวจะใชเวลานาน เนองจากแมพรดวซจะอานขอมลทงหมดในคอลเลคชน ตองมเงอนไขเพอกรองขอมลเพอชวยการ
39
ประมวลผลใหรวดเรวขน 3) MR Filter Join เปนการสรางคอลเลคชนชวคราว กอนทจะเชอมคอลเลคชนซงวธนจะท าใหการเชอมท าไดเรวขนและนอยทสดในการทดลอง 4) MR Left Filter Join จะเปนการสรางคอลเลคชนชวคราวของพารามเตอรในการเชอม ซงไดความเรวในการเชอมดกวาวธท (1) และ (2) แตทงนการประมวลผลวธนกขนอยกบปรมาณขอมลและเงอนไขในการกรองขอมล ซงผลของเวลาวธ (3) จะใกลเคยงกน 5) MR Left Filter Join จะเปนการสรางคอลเลคชนชวคราวของพารามเตอรในการเชอม ผลสรปไดเหมอนกบวธท (4) สรปวธท (4) และ (5) ผลหมอนกน
Fegaras, Li, and Gupta (2012) มงานวจยเรอง An Optimization Framework for Map-Reduce Queries ปญหาของงานวจยนคอ การใชแบบสอบถามดวยแมพและรดวกบสถาปตยกรรมของฮาดปมการพฒนาใหสามารถใชรวมกบภาษา SQL อยางเชน HiveQL และ Pig Latin เปนการใหผใชท าการ Plug in เพมเขามาในระบบเพอท าการใชงานแบบสครปตการสอบถามได แตหากวาผใชงานจ าเปนตองมความเชยวชาญในการเขยนโปรแกรมแบบ Declaratively ในการสอบถามเพอเรยกใชขอมล และการรกษารหสการเขยนโปรแกรม (Source Code) ยงยาก ซงอาจจะสงผลกอใหเกดความผดพลาดของผลลพธทตองการได ผวจยฉบบนจงน าเสนอการเพมประสทธภาพใหกบการเขยนโปรแกรมแบบแมพและรดวดวยการลดค าสงการใชงานแมพและรดว ดวยการใชแบบสอบถามทมพชคณตและอกรบา (Algebra) เขามาชวยเพอใหสามารถใชงานภาษาสอบถามแบบ SQL ไดหรอเรยกวา MRQL
สมมตฐานของงานวจยนคอการปรบปรงเวรกโฟลว (Work Flow) ใหมประสทธภาพในการท าแบบสอบถามเพอคนคนขอมลสามารถน ารปแบบของฐานขอมลเชงสมพนธทมรปแบบทางคณตศาสตรพชคณตและอกรบามาใชงานไดและมประสทธภาพ โดยมวธการวจยและรปแบบการวจย ในกระบวนปรบปรง MR Job หรอการท างานของแมพรดว (MapReduce Job) มขนตอนการท างานยอยๆ ดงน 1.ปรบการท างานโอเปอเรชนแมพรดว (The MapReduce Operation) 2.ลดฟงกชนเชอมสมพนธ (Reduce-Side Join) 3.การปรบสวนการท าซ าของการเชอมสมพนธ (Fragment-Replicate Join) 4.การปรบการด าเนนการทางกายภาพอน (Other Physical Operations) และยงมการปรบแบบสอบถามใหออกเปนรปแบบอกรบา (Algebra) และท าการปรบปรงกรอบการท างานทงหมดเพอให MRQL ลดความซ าซอนของกระบวนการสอบถามแมพรดวทางกายภาพของการเขยนโปรแกรมเพอใหใชงานรวมกนกบฐานขอมลเชงสมพนธ
โดยก าหนดใหมขนตอนดงน 1.ลดความซ าซอนของแบบสอบถาม 2.สรางกราฟแบบสอบถาม 3.รปแบบทมการปรบเปลยนเปนแบบพชคณต 4.แผนผงในการวางแผนการปรบปรงผลใหเปนแบบพชคณตและท าลองและปรบปรงประสทธภาพใหดขน 5.สงเคราะหฟงกชนการรวม (Combine) ในจากกระบวนการลดงาน มตวแปรทส าคญ รปแบบหรอโมเดล MRQL และภาษา
40
ไวยากรณทใช เครองมอวดวธเกบขอมลดวยเทคนควธการเกบขอมลจากเวบการปอนขอมลจากขอมล Log Running บนเครองเครอขายกลมเมฆทมการเขาใชงานของผใชใชขอมลในระบบ และตารางลกคาตามมาตรฐาน TPCH ใชจ านวน 5 ชดขอมล ขนาดเพมขนทละ 1 เทาตวเรมตงแต 4 GB ไปจนถง 20 GB โดยมสภาพแวดลอมจากการใชคลสเตอรเซรฟเวอรขนาดเลกจ านวน 9 เครอง ใชระบบปฏบตการลนกซ CentOS 5.4 ใชระบบเครอขายกกะบตสวทซ และท าการทดลองกบระบบขอมลขนาดใหญ Hadoop 0.20.2 การจดการบนพนฐานค าสงของ Clouderaโดยการควบคมการท างานของ NameNode และ JobTracker และสวนของเซรฟเวอรอกจ านวน 8 โหนดท าหนาท DataNodes และ Trackers ซงเซรฟเวอรแตละเครองจะม CPU 4 Core Xeon 3.2 GHz กบหนวยความจ า RAM 4 GB และท าการก าหนดคาใหแตกตางใน Hadoop ดงน 8 โหนด 32 แกน 6 โหนด 24 แกน และ 4 โหนด 16 แกน ในรปแบบการจดเกบแบบ HDFS และมวธวเคราะหขอมลโดยการก าหนดแบบสอบถามขนมาแบบ MRQL ซงเปนการผสมผสานระหวาง SQL และ MapReduce โดยการก าหนดใหม Select , Like, GroupBy เปนตน
ผลสรปจากการวจยเวลา การก าหนดกลมทง 3 กลมคลสเตอร 4, 6, 8หลงจากการปรบปรงประสทธภาพดวยการใช MRQL ในการก าหนด MapReduceแลวไดประสทธภาพ 50% และ 65% แตการประเมนประสทธภาพกบ PageRank ยงไมมประสทธภาพทชดเจนกบการสงเคราะหดวยกราฟ ดงนนผลการสรางกรอบการท างานใหเพมประสทธภาพของแบบสอบถามดวย MRQL สามารถน ามาด าเนนการไดเปนการลดคาใชจายในการประมวลผลในสวนของการลด (Reduce)
Khanam and Agarwal (2015) มงานวจยเรอง Map-Reduce Implementations : Survey And Performance Comparison ปญหาของงานวจยนคอการใชงานแมพรดวในภาคการวจยและในสถาบนการศกษาและภาคอตสาหกรรมเพอการวเคราะหขอมลขนาดใหญ มการใชงานในหลากหลายรปแบบแตกตางกน เชน การท าเหมองวเคราะหขอมลขนาดใหญทมการใชพารามเตอรแตกตางกน การทจะใชพารามเตอรใหมประสทธภาพและประสทธผลนนจงตองท าความเขาใจในทางเทคนคของกรอบการท างานแมพรดว
ผวจยฉบบนจงน าเสนอการวจยเชงส ารวจเพอท าความเขาใจทางเทคนคของกรอบการท างานแมพรดวและคณสมบตตางๆ ของแพลตฟอรมทมการใชงานคลายกนและยงมการสรางเปรยบเทยบพารามเตอรการใชงานทแตกตางกน และเปรยบเทยบเทคโนโลยทใชแพลตฟอรมตางกนและคณสมบตตางกนดวย และภาษาทใชในการเขยนโดยมวธการวจยดวยการสรางตารางเปรยบเทยบแสดงเทคโนโลยมดงน Hadoop, Spark, Phoenix++, MARISSA, MARIANE, MapReduce-MPI, Disco, SASReduce, BitDew, MARLA, DRYAD, DRYADLINQ, Themis,
41
MR4C และคณสมบตการใชงานดวยเครองมอโปรแกรมใด และมฟงกชนใดทใชงาน ซงรปแบบการวจยโดยการใชการวจยเชงส ารวจดวยการศกษางานวจยทเกยวของเทคโนโลยทกลาวมาแลวขางตน มเครองมอวดวธเกบขอมลดวยเทคนควธการท าการหาขอดและขอเสยจากเทคโนโลย มวธวเคราะหขอมลจากการใชงานน ามาเทยบกบแมพและรดว
ผลจากการวจยเทคโนโลย Dryad พฒนาโดยไมโครซอฟท เปนการด าเนนการแบบขนานในรปแบบอลกอรทมแบบกราฟด าเนนการกบระบบไฟลทมลกษณะคลายคลงกบ Google MapReduceโดยการเรยงล าดบ Map/Distribute/Sort/Reduce เมอเปรยบเทยบกบแมพรดวแลวมความซบซอนมากกวา และเทคโนโลย DryadLINQ พฒนาโดยไมโครซอฟทเชนกนเปนรปแบบการเขยนแบบเชงวตถดวย Visual.Net ควบคมการท างานของ MapReduce และการใช SQL ทใชงานจาก LINQ (Language Integrated Query) เมอไปเทยบกนแลวจะใชเวลามากกวาแมพรดวและเทคโนโลย Spark เปนเทคโนโลยทน ามาใชงานหากเทยบกบ Hadoop แลว Spark จะเรวกวา จากท Spark มการเกบขอมลในหนวยความจ า และใชในการโตตอบกบแบบสอบถามชดขอมลขนาดใหญและมประสทธภาพดกวาในการใชงานแบบสอบถาม และย งพบวาหลายทตองการใชงานแบบสอบถามแบบโตตอบ และหลายชองทางการใชงาน จงมการพฒนาออกแบบเรยกวาความยดหยนแบบกระจายชดขอมล (Datasets) RDD ซงจะอานและเขยนเรวกวาระบบไฟลแบบกระจายและเทคโนโลย MARISSA ใหประสทธภาพดกวาการใชงาน Hadoop ทก าหนดเปนรปแบบสตรมมงและสามารถเพมประสทธภาพการใชงานรวมกบแมพรดวได และเทคโนโลย SAS มลกษณะการท างานเหมอนกบแมพและรดว แตมขอเสยคอจะด าเนนการไดเฉพาะในการใชงานไดกบเครองคอมพวเตอรสวนบคคลเทานน และจะใชไดดเฉพาะการเรยกใชงานขอมลบนตารางดานบนเทานน และยงมขอเสยทไมสามารถจดการกบความลมเหลวของ MPI และประสทธภาพของแมพรดวจะท างานไดดกวา
สรปงานวจยฉบบนจากการศกษางานวจยทเกยวของยงพบวาบรษทขนาดใหญน า Hadoop และ MapReduce น าไปใชงานในหลากหลายลกษณะของงานตงแต การประมวลผลภาพถายดาวเทยมขนาดใหญ และภมสารสนเทศขอมล วทยาศาสตร และมประสทธภาพของวธการพฒนาอลกอรทม มความยดหยนและปรบขนาดขยายไดใน Hadoop วตถประสงคหลก ออกแบบเพอใหสามารถใชงานขอมลแบบ DBMS กบแมพรดวใหสามารถใชงานไดงาย และยงสนบสนนการเขยนภาษาสครปตเพอใชงานแบบสอบถาม SQL ซงพฒนาอยในกรอบของแมพรดวซงอยางไรกตามวธการทงหมดนสามารถใชงานไดในรปแบบทแตกตางกน และลกษณะชดขอมลทแตกตางกนกมผลในการเลอกใชวธการ และยงมการสนบสนนฐานขอมลใชงานรวมกบ MapReduce ไดเชน
42
MongoDB, Aster เปนตน ซงในพนฐานของระบบไฟลเหลานจะด าเนนการไดรวดเรวกวาระบบไฟล HDFS แตจะไมดกวาในระบบคลสเตอรคอมพวเตอรจ านวนมาก
Tao, Lin, and Xiao (2013) มงานวจยเรอง Minimal MapReduce Algorithms ปญหาของงานวจยนคอจากขอจ ากดของการใชงานแมพรดวทมการใชเวลาในการถายโอนขอมลบน CPU และ I/O และเครอขายในแตละเครองและถงแมวาจะมการพฒนาอลกอรทมทเนนการจดการเรองเหลานโดยเฉพาะแลว แตเปนการเขยนอลกอรทมทมจ านวนมากยงเปนปญหาในการจดท าและการตรวจสอบและอกทงการแกไขเกดขอผดพลาดได ผวจยฉบบนจงน าเสนอการเขยนอลกอรทมทมจ านวนนอยแตยงคงไวซงประสทธภาพ 0
สมมตฐานของงานวจยนคอ หนวยงานทสะสมขอมลไวเปนจ านวนมาก หากตองการจะน าขอมลมาประมวลผลขอมลมหาศาลในขนาดเทราไบตหรอสงกวามาใชงานแบบเรงดวน การเขยนโปรแกรมใหมขนตอนทสนจะชวยใหลดขนตอนจากการจบค (Map), การสม (Shuffle) และการลด (Reduce) โดยมวธการวจยดวยการศกษารปแบบขนตอนวธการประมวลผลทมประสทธภาพในแงมมทแตกตางกนดวยการก าหนดคณสมบต การสงออกขอมลขนต าในพนทจดเกบทในแตละโหนด และการจดการทราฟฟคในแตละรอบของการจดสง และอลกอรทมตองหยดการท างานหลงจากท างานครบรอบ และการหาเวลาการค านวณทเหมาะสมในแตละรอบ (รอบคงท)
มรปแบบการวจยโดยการลดขนตอนการสบเปลยนการดแลภายในเครอขายทเกดขนจากการถายโอนขอมลมการลดขนตอนการสอสารแตละเครองจะค านวณจากในแตละเครองใน 1 รอบของการจดเรยงขอมลเพราะหากงานยงไมเสรจสนจะท าการค านวณอกรอบท าใหใชเวลาในการค านวณใหม มตวแปรทส าคญคอชดขอมลเรมตนและจ านวนเครองเครองมอวดวธเกบขอมลและเทคนควธการโดยการจดเรยงขอมลใหนอยทสด โดยการสรางอลกอรทม S เปนชดขอมล และ n ดงขอมลออกมาจากโดเมน และ T เปนการแจกจายไปยงเครองในเครอขาย
โดยมสภาพแวดลอมจากการใชงานแมพรดวในบรบทเครอขายกลมเมฆวธวเคราะหขอมลจากสถตการเรยงล าดบ (TeraSort), การเลอก (Choice of ), การลดการจราจรบนเครอขาย(Removing the Broadcast Assumption)และผลจากอลกอรทมในฐานขอมลโดยการก าหนดขนตอนการเรยงล าดบนอยทสดการจดอนดบกลมโดย 1.กงเขารวมขอมล(Semi Join) 2.การจดอนดบและเสนขอบ (Ranking and Skyline) 3.การจดกลม (Group By) และผลของการใชการรวมแถบเลอน (Sliding Aggregation) 1.การจดเรยงทสมบรณ (Sorting with Perfect Balance) 2.การเลอนรวม(Sliding Aggregate Computation) ทงหมดมเปาหมายการท างานรอบเดยว มขนตอนการทดลองโดยการใชคลสเตอรคอมพวเตอรจ านวนเครองแม 1 Master และจ านวนเครองลก 56 Slave มเครอง
43
คอมพวเตอรระดบเซรฟเวอรมคณสมบต CPU Xeon 2.4 GHz และ Ram 24 GB. และท าการตดตงโปรแกรมโอเพนซอรสฮาดปเวอรชน 1.0 และใช Java Virtual Machine แตละโหนดม RAM 4 GB. โดยก าหนดพารามเตอร fs.block.size มขนาด 128 MB และ io.sort.mb มขนาด 512 MB และ io.sort.record.percentage เทากบ 0.1 และ io.sort.spill.percentage เทากบ 0.9 และ io.sort.factor เทากบ 300 และ dfs.replication เทากบ 3 และใชขอมลในการทดลองจรงทมชอวา LIDAR6 และ PageView7 ขนาด 514 GB และมขนาดระเบยนของ LIDAR ม 7,350,000,000 และกลม PageViewเปน 332 GB และมขนาดระเบยน 11,800,000,000 Tuples
ผลจากการวจยในกลมท 1.การเรยงล าดบ ขอมล (Sort) Terasort มประสทธภาพดกวา HS มความแตกตางอยางมนยส าคญ ในกลมท 2 Skylineประสทธภาพของ HS ไมมคาใชจายในการกระจายของระเบยนสง 2.เสนขอบ (Skyline) การใช MR-SFS ทพฒนาจากการค านวณใน MapReduce ซงเมอเปรยบเทยบการใชขอมล LIDAR ทมขนาดขอมลเพมขน Minimal-Sky มประสทธภาพดกวา MR-SFS และมคาใชจายนอยกวาเพราะ MR-SFS มขนตอนทตดตอกนโหนดมากกวาท าการประมวลผลมเวลาทมากกวา 3.การจดกลม (Group By) ผลของ Minimal-GB จะใชงานอยางมประสทธภาพดกวา Base-GB 4.กงเขารวมขอมล (Semi Join)ผลของ Minimal-SJ ดกวาเพราะการกระจายงานไปยงโหนดตางๆ ใชเวลารวมนอยกวา จงมประสทธภาพมากวา 5.การเลอนรวม (Sliding Aggregate Computation) ผลของ Minimal-SA มประสทธภาพดกวาทกชดขอมล
ไดบทสรปจากการทดลองดงน MapReduce ไดเตบโตขนเปนสถาปตยกรรมทนยมอยางมากกบการค านวณแบบขนานกบขอมลขนาดใหญ ถงแมวาจะมวธการทมความหลากหลายของการพฒนาส าหรบ MapReduce มไมกวธทสามารถจะบรรลเปาหมายทเหมาะสมในการท าประมวลผลแบบคขนานและการเกดภาระงานทสมดลอกทงการท างานขามเครองทรวมอยภายในเครอขาย และเพมความเรวใหมากขนกบการล าดบขนตอนวธการเชงเสนของจ านวนเครองผลงานทส าคญของการวจยนคอขนตอนวธการ 4 แบบจากการทดลองท างานไดอยางมประสทธภาพรวดเรวมากขน ดวยเงอนไขของ Minimality และสามารถน าไปใชประโยชนได
ประกายมาศ ศรสขทกษณ และ ผสด บญรอด (2557) มงานวจยเรอง การเปรยบเทยบความเรวในการประมวลผลระหวางฐานขอมลเชงสมพนธ และฐานขอมลไมสมพนธแบบเอกสาร ปญหาของงานวจยนคอขอมลขาวสารทเพมขนเกนขดความสามารถของฐานขอมลเชงสมพนธการบรหารจดการขอมลทดจงเปนสงส าคญ การมตวเลอกของเทคโนโลยฐานขอมลไมสมพนธเกดขน ซงเทคโนโลยนจะน ามาใชงานไดจรงหรอไม
ผวจยฉบบนจงน าเสนอ การทดสอบความเรวในการประมวลผลของฐานขอมลไมสมพนธแบบเอกสารทมการประมวลผลเครองเดยว และการประมวลผลแบบกระจายเปรยบเทยบ
44
กบฐานขอมลเชงสมพนธ ในดานการเขยน, อาน, แกไข และลบขอมล สมมตฐานของงานวจยนคอฐานขอมลไมสมพนธเหมาะสมกบการใชงานเนองจากมตนทนต าในการพฒนาและมประสทธภาพดกวา โดยมวธการวจยและมรปแบบการวจยการน าฐานขอมลเชงสมพนธ MySQL ทมการเพมประสทธภาพดวยการใชงานอนเดกซ (Index) ขอมลไวกอนลวงหนา และฐานขอมลไมสมพนธแบบเอกสาร MongoDB แบบเครองเดยวและแบบกระจายน ามาประมวลผลเปรยบเทยบกนในคณลกษณะการใชงานอาน (Read), เขยน (Insert), แกไข (Update) และลบ (Delete) กบขอมลทมการจดเตรยมไวทจ านวนระเบยนตงแต 500, 5,000, 50,000, 500,000 ซงใหเธรดในการตดตอฐานขอมล 1, 10, 100 เธรด ตามล าดบ มตวแปรทส าคญ จ านวนระเบยนขอมลและจ านวนเธรดขอมล และการทดสอบจะท าการประมวลผลจ านวน 3 ครงและท าการหาคาเฉลย เครองมอวดวธเกบขอมลดวยเทคนควธการค านวณเวลาทใชความเรวในการประมวลผลของฐานขอมลแตละแบบ โดยมสภาพแวดลอมจากเครองทใชท าการทดสอบมหนวยประมวลผลกลาง (CPU) แบบ Intel Core i5 2.27 GHz มหนวยความจ า RAM 8 GB และ HD มความจ 5800GB ทใชเปนทงเครอง Server จ านวน 1 เครอง และ Client จ านวน 3 เครอง และท าการทดสอบกบฐานขอมลเชงสมพนธ MySQL เวอรชน 5.0.51b และ ฐานขอมลไมสมพนธใช MongoDB เวอรชน 2.4.5 วธวเคราะหขอมลโดยการสรางกราฟแทงผลการทดสอบในแตละแบบมการเปรยบเทยบผลลพธดานความเรว
ผลจากการวจยในการอานเมอจ านวนเธรดมากขน MongoDB แบบประมวลผลเครองเดยวและแบบกระจายท างานไดใกลเคยงกน ท างานดกวา MySQL ประมาณ 3 เทา และในการเขยนขอมลมผลเชนเดยวกนกบการอาน และในการแกไขขอมลเมอจ านวนเธรดมากขน MongoDB แบบประมวลผลเครองเดยวและแบบกระจายไดเวลาใกลเคยงกน แตการท างานในจ านวนขอมล 500,000 ระเบยน จะท างานไดดกวา MySQL ถง 40 เทา และในการลบขอมลเมอจ านวนเธรดเพมขน MongoDB จะใชเวลาประมวลผลการลบขอมลมากขนทงในแบบเครองเดยวและแบบกระจาย แตการท างานในจ านวนขอมล 500,000 ระเบยนใช 100 เธรด 100 จะท างานไดดกวา MySQL ถง 70 เทา ผลสรปหากขอมลจ านวนเธรดนอยฐานขอมลจะมความสามารถในการประมวลผลทงหมดไดใกลเคยงกน และเมอจ านวนเธรดมากขนและจ านวนระเบยนมากขนจะเรมเหนความแตกตางการประมวลผลทชดเจนมากยงขน ดงนนฐานขอมลไมสมพนธจงมประโยชน มประสทธภาพและมคาใชจายทต ากวา
ชพนธ รตนโภคา (2555) มงานวจยเรอง การออกแบบและพฒนาระบบคนหาขอมลจราจรทางคอมพวเตอร (Log) ดวยวธ Map/Reduce บนกรอบการท างานของ Hadoop ปญหาของงานวจยนคอผใหบรการเครอขายคอมพวเตอรจ าเปนตองเกบรกษาขอมลการจราจรคอมพวเตอรไมนอยกวา 90 วน ท าใหผใหบรการเครอขายคอมพวเตอรตองเกบขอมลเปนจ านวนมาก หากมการ
45
สบคนคนขอมลเพอระบตวผใชบรการตองใชเวลานานในการคนหา ผวจยฉบบนจงน าเสนอการออกแบบและพฒนาระบบคนหาขอมลจราจรคอมพวเตอรโดยน า Hadoop มาประยกตใชในการเกบขอมลจราจรคอมพวเตอร และใชวธการคนหาขอมลดวย Map/Reduce เพอใหมประสทธภาพในการคนหาขอมลไดรวดเรว
สมมตฐานของงานวจยนคอ เทคโนโลย Hadoop น ามาประยกตใชในการจดเกบขอมลขนาดใหญ โดยมวธการวจยเชงทดลองท าการแบงขอมลขนาดใหญออกเปนสวนยอยๆ แลวกระจายไปยงเครองคอมพวเตอรตางๆ ทเชอมตอกนแลวใช Map/Reduce สงค าสงคนหาขอมลกระจายไปยงเครองคอมพวเตอรทกเครองโดยไมจ าเปนตองมการยายขอมลระหวางการประมวลผล มรปแบบการวจยทน าขอมลจราจรทางคอมพวเตอรเปนแฟมขอมลตวอยางและมการเกบรวบรวมจากคอมพวเตอรแมขายทเปนสวนเชอมตออนเตอรเนตภายนอกกบเครอขายภายใน (NAT) ของวทยาลยเทคโนโลยอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ และใชการพฒนาโปรแกรมสวนตดตอกบผใชหรอ GUI ดวยภาษาจาวาเชอมตอกบไฟล HDFS บนระบบปฏบตการลนกซ และคนหาขอมลจากไฟล HDFS ดวยการเขยนโปรแกรมภาษาจาวาคนหาขอมลดวยเทคนควธ Map/Reduce ขนาดของตวอยางในการวจยมขนาด 5, 10, 20, 30, 40, 50 GB ตามล าดบ
มตวแปรทส าคญ ตวแปรตนคอขอมลจราจรทางคอมพวเตอรและตวแปรตามคอเวลาในการประมวลผล เครองมอวดวธเกบขอมลดวยเทคนควธการบนทกขอมลจากการวดหรอนบโดยใชอปกรณคอมพวเตอรในการตรวจนบ โดยมสภาพแวดลอมจากการใชจ านวนเครองคอมพวเตอรทท าการทดสอบจ านวน 11 เครอง เปนเครอง Name node (Master) จ านวน 1 เครอง และ Data node (Slave) จ านวน 10 เครอง เปนเครองทมคณลกษณะเหมอนกนทง CPU, RAM, Hard disk วธวเคราะหขอมลดวยการน าเขาขอมล ดวยการประยกตใช HDFS ท าหนาทในการเกบขอมลแบบกระจาย สามารถทจะรองรบการขยายตวของจ านวนเครองเกบขอมลได และท าการบนทกผลของเวลาในการน าเขาตามจ านวนขนาดขอมลตวอยางและจ านวนคอมพวเตอรในการจดเกบ และท าการเกบผลการวจยการคนหาขอมลจราจรทางคอมพวเตอรดวยวธ Map/Reduce ทผานการออกแบบพฒนาโปรแกรมทชวยคนหาขอมลขนาดใหญ
ซงผลการทดสอบความเรวในการคนหาขอมลจ านวนเครอง 10 เครอง และคนหาขอมลจราจรคอมพวเตอรทมขนาดสงสด 50 กกะไบต ผลจากการวจยปรากฏวาเวลาทใชในการคนหาขอมลจะมความเรวเพมขนประมาณ 10 เทา เมอเทยบกบการคนหาทใชเครองคอมพวเตอรเพยงเครองเดยว
46
Dean and Ghemawat (2008) มงานวจยเรอง MapReduce: simplified data processing on large clusters ปญหาของงานวจยนคอการประมวลผลเพอค านวณขอมลการใชงานเวบไซตของ Google เพอรวบรวมท าดชนการเขาถง จ านวนหนาทเขาถงและอนๆ จะตองท าการค านวณในเครองเซรฟเวอรหลายรอยเครอง และตองท าการกระจายการค านวณไปยงเครองตางๆ และยงพบวาขอมลมขนาดใหญ จนท าใหเกดความลมเหลวในการค านวณ เกดเปนปญหาในการจดการกบขอมลทมขนาดใหญเหลาน ผวจยฉบบนจงน าเสนองานวจยทมการออกแบบการค านวณแบบงายๆ กบขอมลขนาดใหญ ดวยการค านวณแบบขนาน และยงทนทานตอความผดพลาด และเปนการกระจายภาระงานในการประมวลผลขอมล โดยไดรบแรงบนดาลใจจากการจบค (Map) และการลด (Reduce) และยงท าการออกแบบการบนทกขอมลในแบบทงายตอการค านวณแบบชดคคย (Key-value) ซงหลงจากมการปรบเปลยนรปแบบแลวท าใหสามารถค านวณแบบคขนานไดอยางงายดาย
สมมตฐานของงานวจยนคอการออกแบบโปรแกรมแบบคคยหรอรปแบบโปรแกรมทเรยกวา Map และ Reduce สามารถด าเนนการกบขอมลขนาดใหญไดอยางมประสทธภาพและงายดายและใชงานไดกบขอมลหลากหลายรปแบบ โดยมวธการวจยและรปแบบการวจยดวยวธการวจยเชงทดลองดวยการศกษาตวอยางการเขยนโปรแกรมตามก าหนดหวขอดงน 1.การกระจายการคนหา (Distributed Grep) 2.นบจ านวนการเขาถงเวบไซต (Count of URL Access Frequency) 3.การยอนกลบเขาดเวบไซตจากจดเชอมโยงของเวบไซต (Reverse Web-Link Graph) 4.การสรปค าส าคญหรอค าคนหา (Term-Vector per Host) 5.การตดค าเพอสรางดชนยอนกลบ (Inverted Index) 6.การกระจายการจดเรยง (Distributed Sort) และยงมการปรบแตงการเขยนโปรแกรมหลายรปแบบเพอใหเกดประโยชนทใชงานไดจรงกบการทดลอง มตวแปรทส าคญคอโปรแกรมแมพรดวและรปแบบการเขยนโปรแกรมขนพนฐาน เครองมอวดคอโปรแกรมทมอลกอรทมส าหรบการใชงานตามหวขอทก าหนด 7 หวขอ ทกลาวไวแลว
วธเกบขอมลดวยเทคนควธการการใชอนเตอรเฟซทแตกตางกนออกไปตามความเหมาะสมของสภาพแวดลอม เชน เหมาะกบเครองทมหนวยความจ าขนาดเลกแตมหลายหนวยประมวลผล (Multi Processor) หรอเหมาะกบกลมคอมพวเตอรขนาดใหญทมในเครอขาย โดยมสภาพแวดลอมจากกลมคอมพวเตอรขนาดใหญทใชงานในการท างานการใหบรการ Search Engine ของ Google ซงเปนคอมพวเตอรทมเครอขายขนาดใหญจ านวนหลายพนเครอง ซงเครองโดยทวไปจะมหนวยประมวลผล (CPU) x86 ใชระบบปฏบตการ Linux มหนวยความจ าส ารอง 2-4 GB. และใชระบบเครอขายดวยการดแลนขนาดความเรว 100/1000 Mbps. ในแตละเครอง ซงจ านวนเครองมตงแต 100-1,000 เครอง และมการจดเกบขอมลในฮารดดสกแบบ IDE และมระบบไฟลแบบ
47
กระจายทถกพฒนาขนใน Google หรอเรยกวา GFS (Google File System) และสภาพแวดลอมสดทายเปนการก าหนดการตงเวลาในการสงชดขอมลใหกบระบบการประมวลผล
มวธวเคราะหขอมลดวยการใชขอมลการใชงานของผใชเวบไซตบนเซรฟเวอร HTTP มขนาดประมาณ 1 เทราไบตในครงแรกกอนจะขนใชงานทดลองกบขอมลจรง แลวท าการวเคราะหดวยโปรแกรม R วเคราะหดวยการแยกชดขอมลออกเปนบลอกยอยๆ ขนาด 64 เมกะไบต ควบคมดวยเครองของผใช และเรมการประมวลผลดวยการสรางชดขอมลหลายชดขอมลในแตละกลมเครอง และใชการแยกการวเคราะหขอมลแตละชดขอมลในแตละเครองดวยการท าคยคจากการท าแมพและรดว ซงแตละชดขอมลจะท าการประมวลผลจากบฟเฟอร เมอท าการประมวลผลแลวจะท าการสงผลกลบไปยงในแตละเครองของผใชแตหากเปนคอมพวเตอรเครอขายขนาดใหญจะมการท าการแบงกลม (Partition) ของแตละทควบคมการท างานดวยการท างานระยะไกลและล าดบงานตอไปจะท าการจดเรยงใหมในแตละเครองดวยการท าแมพและรดวเชนกน ซงการท าด าเนนการทงหมดจะถกสงเปนไฟลทมการด าเนนการแลวกลบไปหาโปรแกรม R ของผใช
ผลการวจยการปอนขอมลเขามอตราสงสดมากกวา 30 Gbps. 1,764 Worker ในการแมพ และเรมลดจนเปน 0 วนาท ซงในชด GFS มการน าเขา 1,000 ไฟล ใชเวลาทงหมดประมาณ 150 วนาท และมผลการจดเรยงขอมลขนาด 1 เทราไบต จากการแบงพารตชนการสงออกเปน 4,000 ไฟล ซงใชเวลาสงสดทอตรา 13 Gbps. ใชเวลาทงสน 200 วนาท และทงหมดในการท างานทใชเวลา ตงแตเรมตนการค านวณจะใชเวลา 891 วนาท เปนการอานขอมลจากฮารดดสกจากเซรฟเวอรทแตละภมภาคและท าขามเครอขายขนาดใหญระหวางประเทศ และในการทดลองการใชงานจรงใชกบ 1,000 เครองด าเนนการเสรจทงหมดภายในครงชวโมง และในการจดท าดชนขอมลขนาดใหญกบขอมลมากกวา 20 เทราไบตใชเวลาไมกวน
สรปผลจากการวจยรปแบบการเขยนโปรแกรมแมพรดวประสบความส าเรจและไดรบการใชงานในกเกล (Google) มวตถประสงคเพอการใชงานในแตละงานทแตกตางกน แตไมใชวาการเรมตนแลวจะส าเรจทงหมดยงมขอผดพลาดในชวงเรมตนมการปรบปรงการเขยนโปรแกรมและฮารดแวรดวย เชน การท างานการค านวณทชาเนองจากขอผดพลาดจากฮารดดสกเสย หรอการเขยนโคดทผดพลาดทกอใหเกดหนวยความจ าแคชหยดการท างานเปนตน ซงหากเปนปญหาทฮารดแวรหรอหนวยความจ าไมเพยงพอท าการแกไขดวยการเพมทรพยากรซงเปนจ านวนนอยแตเปนการแกปญหาทท าใหการประมวลผลดวยแมพรดวท างานไดดขนอยางมนยส าคญ ซงความส าเรจนม เหตผลหลายประการรนแรกนใชงานงายแมจะเปนโปรแกรมเมอรทไมมประสบการณกบระบบแบบขนานและระบบแบบกระจายเพราะมนซอนรายละเอยดของการทนตอความผดพลาดบนเครอขาย และยงมปญหาความหลากหลายของงาน และความหลากหลายความ
48
ตองการขอมลทแกไขปญหาเหลานไดดวยแมพรดว และอกหนงขอคอไดมการพฒนาการด าเนนงานของแมพรดวการเพมเครองในคลสเตอรขนาดใหญของเครองประกอบไปดวยหลายพนเครอง การด าเนนงานท าใหการใชทรพยากรอยางมประสทธภาพเครองเหลานระบบมการก าหนดเปาหมายในการลดปรมาณของขอมลทสงผานเครอขายสามารถใชในการลดผลกระทบของเครองชาและจะจดการกบความลมเหลวของเครองและการสญเสยขอมลไดอยางมประสทธภาพ
Hollingsworth (2012) มงานวจยเรอง Hadoop and Hive as Scalable Alternatives to RDBMS : A Case Study ปญหาของงานวจยนคอ การใชงานโซลชนการจดการขอมลอยางเชน Hadoop วตถประสงคเพอใชงานส าหรบการวเคราะหขอมลขนาดใหญ แตถาเปนธรกจขนาดกลางและขนาดเลกทยงมความตองการการใชงานระบบการจดการขอมลขนาดใหญตนทนต า ซงขอมลขององคกรเหลานนบวนกจะมการสะสมจ านวนมาก
ผวจยฉบบนจงน าเสนองานวจยทมวตถประสงคในการเปรยบเทยบการขยายตวของระบบการจดการฐานขอมลเชงสมพนธและการจดการขอมลแบบกระจายส าหรบขอมลขนาดเลกและขนาดกลางโดยใชเครองมอในการวจยนคอโปรแกรมฐานขอมล MySQL และโปรแกรมMapReduce และโปรแกรม Hive ดวยการใชขอมลประวตการช าระเงนของบญชลกคา สมมตฐานของงานวจยนคอ คาใชจายจะสงขนและเพมมากขนส าหรบการใชงานในฐานขอมลเชงสมพนธทใชส าหรบการจดการขอมล หากเปรยบเทยบกบการจดการขอมลแบบกระจายทมประสทธภาพดกวาและคาใชจายต ากวาและพสจนดวยการตงค าถามดงน 1.ขนาดของขอมลของจ านวนบญชหรอของลกคา จะมวธการแกปญหาทดกวากน 2.โครงสรางขอมลจะท างานรวมกบแตละวธไดดขนหรอไม 3.ในการแกไขปญหาขอมลขนาดใหญเหลานจะมคาใชจายในการปรบเปลยนอยางไรโดยมวธการวจยดวยการทดลองระหวางระบบฐานขอมลเชงสมพนธ (RDBMS)โดยการตรวจสอบการท างานของซอฟตแวรโอเพนซอรส MySQL เปนตวแทนของระบบการจดการขอมลเชงสมพนธและการจดการขอมลแบบกระจาย (DDMSs) โดยการตรวจสอบการท างานของซอฟตแวรโอเพนซอรส Hadoop เปนตวแทนของระบบการจดการขอมลแบบกระจาย และท าการวเคราะหขอมลในชดขอมลขนาดกลางทมการใชงานจรงของสถานประกอบการธรกจขนาดกลาง ดวยโปรแกรมโอเพนซอรส MySQL ในการจดการขอมลเชงสมพนธและ MapReduce และ Hive ในการจดการขอมลแบบกระจายและใชฮารดแวรและซอรฟแวรดงนในระบบ MySQL รน 5.1 ในลนกซ RedHat-GNU ม Maximum Buffer ท 16GB และ Maximum Package 16MB และท าการลบหนวยความจ าหลงการทดลองทกครง ตดตงเครองทมหนวยประมวลผล 4 CPU และ Hadoop เวอรชน 0.20.2 ท างานรวมกบ Java เวอรชน 1.6.0.21 ดวยการท างาน 4 โหนด และลกษณะฮารดแวรเปนเชนเดยวกบ MySQL และการตดตง Hive รน 0.7.0 บนการท างานของ HDFS
49
มรปแบบการวจยดงนการน าขอมลจากฐานขอมลธรกจจากระบบธรกจอจฉรยะ (Business Intelligence) มตวแปรทส าคญโปรแกรมส าหรบการจดการขอมล 3 โปรแกรมไดแก MySQL, MapReduce, Hive และจ านวนขอมลการท าธรกรรมบญชการเงนและประวตการช าระเงนของลกคา ทมการทดลองกบขอมลตงแต 200MB, 500MB, 1GB, 5GB และ 10GB ตามล าดบ และใชขอมลในการวเคราะหจาก 500 ระเบยน ถง 20,000 ระเบยน ตวแปรตนคอ จ านวนระเบยนของบญชลกคาโดยการสมขอมลบญชลกคา และขนาดขอมลทท าการทดลอง
เครองมอวดวธเกบขอมลดวยเทคนควธการ ท ากระบวนการสคมาการช าระเงนจากฐานขอมล MySQL ดงเขาท HDFS และ MySQL และสคมาแบบสอบถามการวเคราะหทงแบบ MySQL และ MapReduce และใช Hive ด าเนนการโหลดประวตการช าระเงนไปฐานขอมล HDFS ส าหรบการวเคราะหโดย Hive โดยใชขอมลการทดลองแตละขนาดทก าหนดไวแลวขางตนในการทดลองโดยการทดลองจ านวน 3 ครงตอชดขอมลโดยมสภาพแวดลอมจาก คอมพวเตอรคลสเตอรMaster จ านวน 1 เครอง และ Slave 32 เครอง ในมหาวทยาลย Boise State และใชเครอขาย Gigabit Ethernet เครอง 64 Bit Intel Core 2 Duo 3.0GHz 2GB Ram และ Harddisk 160 GB และ Master เปน Intel Xeon 2.4 GHz Hyper-threading 8 Processing threads 4 Core with 2 threads per core Harddisk SCSI with RAID-6 วธวเคราะหขอมลการวเคราะหเชงพยากรณในการวเคราะหประวตช าระทางการเงน ผลจากการวจยในการทดลองกบชดขอมลตงแต 200 MB จนถง 10 GB
ผลในการศกษาพบวาการใชงานเซรฟเวอรเดยว MySQL ท างานไดดทสด ส าหรบขนาดการทดลองตงแต 200 MB จนถง 1 GB การใชงาน MySQL มประสทธภาพทดอยกวา MapReduce ทมการใชงานบนชดขอมลขนาดใหญเกนกวา 1 GB ขนไปและ MapReduce ยงมประสทธภาพดกวา Hive และ MySQL บนชดขอมลขนาดใหญเกนกวา 2 GB จงสามารถสรปการแกปญหาทงหมดในงานวจยนคอ MapReduce มประสทธภาพมากและดทสดในทกชดขอมลขนาดเลกตงแต 200MB ถง 10GB
2.3 สรปงานวจยทเกยวของ
สรปจากการศกษางานวจยทเกยวของกบเทคโนโลยขอมลขนาดใหญการจดจ าแนกประเภทเทคโนโลยของบกดาตายงไมมมาตรฐานหรอองคกรใดจดตงขนมารองรบหรอจดท าเปนมาตรฐานสากล แตจะใชลกษณะการเตบโตของขอมลน ามาจ าแนกประเภทดงน ขอมลแบบเชงสมพนธขอมล (RDBMS) มขอมลเพมขนจะขยายเปนลกษณะแนวตง (Vertical Scaling) แตลกษณะขอมลขนาดใหญขอมลเพมขนจะขยายเปนลกษณะแนวนอน (Horizontal Scaling)
50
2.3.1 การจ าแนกเทคโนโลยขอมลขนาดใหญ ผวจยจงขอจ าแนกเทคโนโลยขอมลขนาดใหญจากการศกษางานวจยทเกยวของออกไดเปน 2 กลมดงน
2.3.1.1 การจดเกบขอมล (Storage) การจดเกบนเปนลกษณะ NoSQL คอการเขยนโปรแกรมมอลกอรทมเพอควบคมการท างานการอาน, เขยน, ลบและแกไขแทนการจดการขอมลรปแบบเดมทมการใชภาษาสอบถามเชงโครงสราง SQL ในการจดการ แบงออกเปน 4 ประเภท ดงน
ก) แบบคอลมน (Columns Oriented) ข) แบบคยค (Key-Value Store) ค) แบบเอกสาร (Document Oriented) ง) แบบกราฟ (Graph Database)
2.3.1.2 การประมวลผล (Processing) เทคโนโลยการประมวลผลขอมลในเทคโนโลยบกดาตามหลากหลายรปแบบเชนกน ทงนการประมวลผลทงหมดมวตถประสงคหลกเพอการใชงานประมวลผลกบชดของขอมลขนาดเทราไบตและเพตาไบตโดยจ าแนกออกเปน 6 ประเภทดงน
ก) SQL ยงคงใชรปแบบภาษาสอบถามเชงโครงสรางในการจดการขอมลแบบเชงสมพนธ ใชงานรวมกบการจดเกบแบบ HDFS เชน Hive, Impala หรอ Tajo
ข) Key-Value มลกษณะของการประมวลผลดวยโปรแกรมมการเขยนอลกอรทมภาษาตางๆ คอยควบคมสงการ เชน Java ใชงานรวมกบแมพรดว
ค) NoSQL เปนลกษณะของการประมวลผลดวยการเขยนอลกอรทมดวยโปรแกรมภาษาตางๆ คอยควบคมสงการ เชน JSON ใชงานรวมกบ MongoDBหรอดวยภาษา Scala, Python ใชงานรวมกบ Spark
ง) NewSQL เปนลกษณะของการประมวลผลดวย SQL แตน า NoSQLมาเปนฐานขอมลเพอการขยายขอมลในลกษณะแนวนอน และในการประมวลผลยงมการน าหนวยความจ าส ารองมาใชงานรวมกบการประมวลผล (In Memory) เชน VoltDB
จ) MPP (Massively Parallel Processing) เปนการประมวลผลแบบคขนานใชหนวยประมวลผล CPU รวมกนหลายตว เชน Exadata, Greenplumn
ฉ) Graph Processing เปนลกษณะการประมวลผลแบบกราฟบนเครอขายสงคมออนไลนดวยทฤษฏกราฟ เชน Neo4j
2.3.2 การจ าแนกงานวจยทเกยวของ ผวจยไดวเคราะหงานวจยในยคขอมลขนาดใหญมโปรแกรมทเกยวของจากงานวจยมความหลากหลาย ดงนนผวจยขอแบงงานวจยทเกยวของออกเปน 2 กลม เพองายและสะดวกตอการพจารณา ดงน
51
2.3.2.1 กลมน าเสนอการปรบปรงประสทธภาพของเทคโนโลยขอมลขนาดใหญ เชน แนะน าวธการปรบปรงกระบวนการภายในโปรแกรม จะท าใหเขาใจการเขยนโปรแกรมมากขนและการก าหนดคาเรมตนขนาดของไฟลขอมลเพอเพมประสทธภาพในการจดเกบและเรยกใชงานในกลมคลสเตอรขนาดเลก การน าฮาดปและแมพรดวมาประเมนประสทธภาพในกระบวนการเพอปรบปรงกระบวนการใน 2 ขนตอนแมพและรดว และการทดลองปรบปรงฮาดปและแมพรดวในการใชประมวลผลชดขอมลรปแบบตางๆ และน าแมพรดวมาสรางการเชอมโยงระหวางฐานขอมลเอกสารดวย MongoDB
2.3.2.2 กลมประเมนผลเปรยบเทยบประสทธภาพ เชน ใชเทคโนโลยขอมลขนาดใหญท าการเปรยบเทยบเชงทดลองกบกลมฐานขอมลแบบดงเดมหรอเปรยบเทยบกนในกลมฐานขอมลรปแบบใหม ตวอยางเชน ใช NoSQL เปรยบเทยบกบ RDBMS ดานการเขยน, อาน, แกไขและลบขอมล ทงแบบเครองเดยวและแบบหลายเครอง หรอ NoSQL เปรยบเทยบกบ SQL แบบเชงสาเหตดานความแตกตางของโครงสรางและรปแบบการจดการ หรอ NoSQL เปรยบเทยบเชงทดลองกบ NewSQL ในดานการน าเขา, อาน, เขยนและคนหาบนคอมพวเตอรกลมเมฆเนนดานโปรแกรมบนกลมเครอขายสงคม หรอ Graph DB เปรยบเทยบเชงทดลองกบ RDBMS ในดานการคนหาตามขนาดของตวอกษรและขนาดขอมล หรอแมพรดวเปรยบเทยบเชงทดลองกบ HiveQL และ RDBMS ดานการเขยนขอมล ดวยขอมลขนาด 200MB-10GB ทงแบบเครองเดยวและแบบหลายเครอง
2.3.3 การสรปงานวจยทเกยวของกบทใกลเคยงกบจดประสงคงานวจยนดงน 2.3.3.1 การทดสอบฮาดปแมพรดวดวยการใชขอมลขนาดเลกในการอานและเขยน
ขอมลขนาด 512MB, 2GB, 4GB และใชขนาดบลอกขอมลท 64MB และ 128MB พบวาในกลมขอมลขนาดเลกจะมประสทธภาพมากหากใชบลอกขอมล 64MB และมประสทธภาพมากขน 28.6% เมออานขอมลขนาด 512MB และเมออานขอมลขนาด 4GB ท 25.3%
2.3.3.2 การเขยนแมพรดวเชอมคอลเลคชนฐานขอมล MongoDB การเชอมหรอ Join ขอมลแบบเอกสารดวยขอมลนกเรยนและทปรกษาเพอใชเชอมความสมพนธ พบวาการด าเนนการสามารถเชอมขอมลไดและมประสทธภาพเพมขนเมอก าหนดใหท าการกรองขอมลทตองการเชอมไวลวงหนา ใชเวลาเพยง 23 วนาท
2.3.3.3 งานวจยการปรบปรงประสทธภาพการคนคนดวยแมพรดวดวยหลกการเชอมความสมพนธและท าควรแพลนเพอใหเผยขนตอนการเชอมในขนตอนทดทสด และท าการคนคนดวยภาษาสอบถามเชงโครงสรางทจ านวน 4, 6, 8 เครอง ดวยขอมลอนดบเขาดเวบไซต โดยทดลองกบ 2 กลม กลมปรบปรงประสทธภาพไดผลความเรวดขนเมอใช 8 เครอง แตจะใชเวลามากกวากลมขอมลทไมมการปรบปรงประสทธภาพ เมออลกอรทมสงเพมขอมลทระดบ 7-8 รอบ
52
2.3.3.4 งานวจยการปรบปรงอลกอรทมแมพรดวเพอเพมประสทธภาพ เชน การเชอม, การจดเรยง, การจดกลมดวยขอมลหลายรปแบบ ผลรวมการประมวลผลใชเวลา 9 พนวนาทหรอ 2 ชวโมงครง ทขอมลขนาด 500GB ดวยขอมลทก าหนดสมมตขน (Synthetic Data)
2.3.3.5 งานวจยทใชแมพรดว, ไฮฟและมายเอสควแอลท าการทดสอบดวยขอมลการช าระเงนของลกคาในธรกจขนาดเลก มขอมลลกคาตงแต 500-20,000 บญช มขนาดขอมลตงแต 235MB-9GB กบเครองจ านวน 1-4 เครอง ผลสรปวามายเอสควแอลจะใชเวลามากกวาแมพรดวและไฮฟทขนาดขอมล 1 หมนบญช หรอ 5GB ใชเวลา 25 นาท แมพรดวจะใชเวลานอยทสดในการประมวลผลทง 1-4 เครอง ใชเวลาโดยประมาณ 80-90 วนาท ในทกชดขอมลทดสอบ โปรแกรมแมพรดวมประสทธภาพสม าเสมอและดทสด
ทกงานวจยมวตถประสงคคลายคลงกนคอ เพอหาความเหมาะสมและรปแบบการใชงาน ทสามารถน ามาใชกบขอมลในรปแบบตางๆ และเพอคนหาแนวทางการเพมประสทธภาพใหกบการท างานบนเทคโนโลยขอมลขนาดใหญ ซงไดผลการเปรยบเทยบทใหผลไปในทศทางเดยวกนคอ เทคโนโลยขอมลขนาดใหญจะมประสทธภาพดานความเรว เมอขอมลมขนาดใหญขน
แตทวางานวจยทเกยวของน ผวจ ยยงไมพบงานใดท าการประเมนผลความแมนย าถกตองของผลลพธขอมล งานวจยนจงขอน าเสนอ การประเมนประสทธภาพดานความเรวรวมกบการประเมนผลความถกตองของผลลพธ ดวยการประมวลผลชดขอมลทมการขยายตวของขอมลอยางเปนล าดบ เพอหาจดตดของกราฟดานผลความเรว และผลลพธทถกตองตรงกนทกชดขอมลทใชในการทดลอง
การคดเลอกเครองมอทใชในการทดลองนจากการอานงานวจยทเกยวของกบการใชงานเทคโนโลยขอมลขนาดใหญ จงสรปไดวาโปรแกรมฮาดปและแมพรดวมความเหมาะสมทจะน ามาใชงานในการวจยในครงนเนองดวยสาเหตทวา เครองมอนสามารถคนหาองคความรทางวชาการและสามารถคนควาท าการศกษาหลกการท างานขนพนฐานไดงายและสะดวก
ในยคขอมลขนาดใหญกรอบการท างานฮาดปและแมพรดวเปนโปรแกรมทสามารถรองรบไดกบระบบปฏบตการหลายระบบ การคดเลอกศกษาลกษณะรปแบบวธการใชงานสามารถศกษาไดเปนจ านวนมากท าใหสามารถน ามาศกษาไดงาย อกทงฮาดปและแมพรดวยงไดรบความนยมน ามาใชในวงการการศกษาวจยทงภาคอตสาหกรรมและภาคธรกจตางๆ อยางกวางขวางเพอพฒนาใหระบบมประสทธภาพเพมขน
ฮาดปและแมพรดวยงมขอดในการใชงานงายและสามารถเขยนไดโดยโปรแกรมเมอรทไมมประสบการณกบระบบแบบขนานและระบบแบบกระจาย ดวยการสนบสนนจากเจาของ
53
ผลตภณฑท าใหโปรแกรมเมอรสามารถเขยนโปรแกรมไดงายขน เพราะโปรแกรมฮาดปและแมพรดวมการซอนรายละเอยดของการทนทานตอความผดพลาดบนเครอขาย
แตทงนโปรแกรมแมพรดวยงมขอจ ากดในดานการประมวลผลทไมสามารถสรางอลกอรทมการประมวลผลแบบซ าแลวซ าอกได เปนโปรแกรมการประมวลผลแบบกลม (Batch Processing) หรอจะกระท าใหมทกครงทมการสงรนโปรแกรมใหม ท าใหประสทธภาพในการเขาถงขอมลลดลงจงถอวาเปนคาใชจายทเกดขนในอนาคตทตองใชโปรแกรมเสรมเพมเตมเขามาจดการโดยเฉพาะ เชน โปรแกรมเทคโนโลยขอมลขนาดใหญ เชน Spark หรอ Tajo เปนตน
บทท 3 แนวคด และวธด าเนนงานวจย
งานวทยานพนธนมแนวคดการวจยเพอศกษาเหตการณทเกดขนจากการทดลองวา
เกดขนไดอยางไร มสาเหตมาจากอะไร และท าไมจงเปนเชนนน การศกษาความสมพนธของชดขอมลบรการสขภาพกบเทคนควธการประมวลผลขอมล 2 รปแบบ ระหวางเทคโนโลยขอมลขนาดใหญทมรปแบบการจดเกบแบบกระจาย (ฮาดป) และการประมวลผลแบบขนาน (แมพรดว) น ามาศกษาความแตกตางระหวางกลมการประมวลผลขอมลทมหลกการทางคณตศาสตรทแตกตางกน และมสถาปตยกรรมการจดการขอมลทไมเหมอนกน และเทคนควธการสอบถามคนคนขอมลทแตกตางกนกบระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล)
การประมวลผลขอมลชดตวอยางเดยวกนเพอลดขอแตกตางและขอขดแยงของขอมล ท าการวจยดวยวธการเชงทดลองดวยชดขอมลบรการสขภาพ และท าสรางชดแบบสอบถามขนจากรายงานสรปการเจบปวย พ.ศ.2557 รายงานผปวยนอก จ านวน 2 รายงาน เปนเครองมอทน ามาใชหาประสทธภาพทางดานความเรวและประสทธผลทางดานความแมนย าถกตองของสารสนเทศ อกทงมการทดสอบการปรบปรงประสทธภาพและประสทธผลในกระบวนการสอบถามขอมลในการเรยกคนขอมลเพอใหไดประสทธภาพดานเวลาการคนคน และประสทธผลดานความถกตอง
การวเคราะหผลทางสถตโดยใชสถตและระเบยบวธวจยทางดานวทยาศาสตรและเทคโนโลยสารสนเทศมาประยกตรวมกน และน าผลลพธทางดานเวลามาวเคราะหผลขอมลทางดานประสทธภาพของเวลาและประสทธผลของผลลพธ มรายละเอยดดงน
3.1 กรอบแนวคดการออกแบบงานวจย
กรอบแนวคด (Conceptual Framework) กอนเรมออกแบบกระบวนการทดลองผวจยมแนวคดเชงวเคราะห ดวยการเกบรวบรวมขอมลจากแหลงขอมลทตยภม (Secondary Data) เชน การคนควาจากเอกสารทางราชการและหลกฐานในงานวชาการดานสาธารณสข ไดจ าแนกชวงเวลาสถานการณดานเทคโนโลยสารสนเทศของกระทรวงสาธารณสขออกเปน 2 ชวงเวลา คอกอนกระทรวงสาธารณสขเรมรวบรวมขอมลดานการเจบปวย และหลงกระทรวงเรมรวบรวมขอมลดานการเจบปวย ซงผวจยไดกลาวถงแลวในบทท 1 หนาท 1 และบทท 2 หนาท 8-14 ขอสรปจากการ
55
วเคราะหขอมลเชงกราฟ (Graphical Analysis) ตามภาพท 1.1 จากกราฟผลเปนทประจกษ ขอมลมแนวโนมเพมขนขนาดใหญขนทกป เปนปญหาอกแงมมหนงของผใชขอมลกระทรวงสาธารณสข เมอผวจยตงค าถามวา ควรเรมตนจากจดใด หากพจารณาจากปญหาของกระทรวงสาธารณสข ทเปนโจทยในงานวจยคอ ปญหาการรวบรวมขอมลการเจบปวยจากสถานพยาบาลทกหนวยงานในสงกดกระทรวงสาธารณสขจากระดบอ าเภอน าขอมลเขาสระดบจงหวดเพอประมวลผลเขาสสวนกลางระดบเขตและกระทรวงสาธารณสข มขอมลจ านวนเพมขน ขนาดใหญขนในทกๆ ป การเรยกใชขอมลการมารบบรการทางการแพทย เพอท าการประมวลผลน าสารสนเทศมาใชงานการวเคราะหขอมลทางการแพทยท าไดชาลง
ค าถามเชงวเคราะห การเรมตนจากค าถาม เพอน าไปสกระบวนการคนหาค าตอบในการแกไขปญหา โดยใชเครองมอการวเคราะหปญหาดวยเทคนค 5W1H เพอวเคราะหขอมล แจกแจงหาแนวทางการแกไข
เมอผวจยพจารณาจากการทบทวนวรรณกรรมระบบบรการสขภาพไดมแนวทางการคดเชงวเคราะหเพอการเตรยมวธการทดลอง ไดพจารณาแนวคดเกยวกบการวางแผนการออกแบบการทดลอง การเตรยมวธการทดลอง จากค าถามหรอโจทยของปญหาทไดกลาวมาแลวขางตน สามารถสรปการแจกแจงไดดงน
Who ใคร (ในเรองนนมใครบาง) ผบนทกขอมลสถานพยาบาล เจาหนาทผเกยวของ ผใชขอมลจดท ารายงานหรองานวจย เจาหนาทสาธารณสขจงหวดและเขตและกระทรวง
What ท าอะไร (แตละคนท าอะไรบาง) ผบนทกขอมลบรการสขภาพเขาระบบโปรแกรมฐานขอมลของสถานพยาบาล เจาหนาทผเกยวของตรวจสอบปรบปรงแกไขขอมล 43+7 แฟม เจาหนาทผเกยวของสงขอมลของสถานพยาบาลเกบรวบรวมขอมลการเจบปวยน าสงขอมล 43+7 แฟมเขาเครองแมขายระดบจงหวด 43+7 แฟม เจาหนาทสาธารณสขระดบเขตและกระทรวงใชขอมลท ารายงานสถตการแพทยและตรวจสอบรายงานดชนชวด
Where ทไหน (เหตการณหรอสงทท านนอยทไหน) การจดสงขอมลจดท าบนเครองลกขายระดบอ าเภอเขาสเครองแมขายระดบจงหวด การจดสงขอมล 43+7 แฟม จดท าบนเครองแมขายระดบจงหวดสเครองแมขายระดบเขตและกระทรวง การประมวลผลเพอจดท ารายงานสถตและดชนชวดบนเครองแมขายระดบจงหวด การประมวลผลเพอจดท ารายงานผลการด าเนนงาน รายงานสถตการเจบปวยและดชนชวดบนเครองแมขายระดบเขตและกระทรวง
When เมอไหร (เหตการณหรอสงทท านนท าเมอวนเดอนปใด) การสงขอมลจากเครองลกขายระดบอ าเภอเขาสเครองแมขายระดบจงหวดตองด าเนนการจดท าไมเกน 7 วนนบจากวนใหบรการ การตรวจสอบและแกไขเพอการประมวลผลจดท ารายงานในเครองแมขายระดบจงหวด
56
จดท าทกสนเดอน การสงขอมลเขาเครองแมขายระดบเขตและสวนกลางระดบกระทรวง จะกระท าภายในวนท 15 ของเดอนถดไปและสงแกไขขอมลยอนหลงภายในเดอนนน
Why ท าไม (เหตใดจงไดท าสงนน หรอเกดเหตการณนนๆ) การสงขอมล 43+7 แฟมเปนขอมลการบรการทางการแพทยของสถานพยาบาลภายใตสงกดกระทรวงสาธารณสขเขาสเครองแมขายระดบจงหวด ระดบเขตและระดบกระทรวงซงเปนฐานกลางขอมลสขภาพสวนกลางระดบประเทศ เพอรวบรวมขอมลการเจบปวยน ามาประมวลผลจดท ารายงานสถตทางการแพทย รายงานผลการด าเนนงานเพอการบรหารจดการน ามาใชในการบรหารงานวางนโยบายของกระทรวงสาธารณสขในการจดบรการทางการแพทย อปกรณทางแพทย หรอเพอการบรหารจดการระบบสขภาพเพอประโยชนของประชากรชาวไทยทงประเทศ
ภาพท 3.1 กระบวนการระบบการสงขอมลบรการสขภาพ ทมา: ส านกงานสาธารณสขจงหวดศรสะเกษ [online] : เขาถง 26 ก.พ. 2559. จาก http://www.khukhanph.com/2016/02/2559.html
How อยางไร (เหตการณหรอสงทท านน ท าเปนอยางไรบาง) กระทรวงสาธารณสขม
นโยบายใชโปรแกรมทพฒนาขนโดยหนวยงานศนยเทคโนโลยสารสนเทศและการสอสาร กระทรวงสาธารณสขรวมกบศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (เนคเทค) และโปรแกรมทไดรบการรบรองจากระทรวงสาธารณสขใหสามารถใชงานบนทกขอมลไดในสถานพยาบาลระดบต าบล อ าเภอและจงหวด มวตถประสงคเพอจดเกบขอมลการบรการสขภาพใน
57
ฐานขอมลทมการออกแบบแฟมขอมลทมมาตรฐานโครงสรางตามทกระทรวงสาธารณสขก าหนด และเชอมโยงกนแบบมความสมพนธ โดยใชโปรแกรมโอเพนซอรสระบบการจดการฐานขอมลมายเอสควแอลเปนฐานขอมลระดบจงหวด ระดบเขต ระดบกระทรวง ใชงานไดครอบคลมทง 76 จงหวด ในป พ.ศ.2558 และศนยเทคโนโลยสารสนเทศและการสอสาร ส านกงานปลดกระทรวงสาธารณสข ยงมโครงการพฒนาระบบเทคโนโลยสารสนเทศและการสอสารตามกรอบยทธศาสตรเทคโนโลยสารสนเทศสขภาพ มกลยทธการพฒนาคลงขอมลสขภาพ ก าหนดรปแบบการบรหารจดการคลงขอมลระบบบรการสขภาพในระบบขอมลขนาดใหญ (Big Data Management in Healthcare System) เพอใหมความเหมาะสมในการใชงานใหกบหนวยงานแตละระดบ
สรปการวเคราะห 5W1H ทเกยวของกบองคประกอบของปญหาไดดงน เมอขอมลบรการสขภาพหรอขอมลการเจบปวยของผปวยของสถานพยาบาลในสงกดกระทรวงสาธารณสขมเพมขนและขนาดใหญขน เทคโนโลยฐานขอมลมายเอสควแอลทใชอยปจจบนไมเพยงพอกบจ านวนขอมลทเพมขนเปนภาระใหกบผดแลระบบทจะตองจดตารางเวลาการประมวลผลรายงานสถตและผลการด าเนนการออกจากตารางเวลาการประมวลผลขอมลการปฏบตงานประจ าวน และการดแลปรบปรงฐานขอมล จงยงไมตอบสนองการเรยกใชขอมลหรอสารสนเทศไดทนตอความตองการ อกทงโอเพนซอรสมายเอสควแอลไดมการเปลยนแปลงภายในองคกรซงปจจบนขนตรงกบออราเคล จงเกดความเสยงหากเจาของโปรแกรมเรยกเกบเงนคาบรการราคาสง อกทงผทเกยวของในการด าเนนการจดท าสารสนเทศกระทรวงสาธารณสขมโครงการพฒนาระบบเทคโนโลยสารสนเทศดวยการน าโปรแกรมเทคโนโลยบกดาตาเขามาบรหารจดการขอมลคลงขอมลระบบบรการสขภาพ ทงนยงไมทราบแนชดในสวนของโปรแกรมบรหารจดการขอมลขนาดใหญทกระทรวงเลอกใช ซงจากการศกษาเทคโนโลยบกดาตาน น ปจจบนมผลตภณฑ หลากหลายรปแบบ หลากหลายผผลต แตทกผลตภณฑ โดยสวนมากมสถาปตยกรรมภายในโปรแกรมทเหมอนกนคอ การใชกรอบการท างานฮาดปและแมพรดวเปนโครงสรางพนฐานของโปรแกรม
ในปจจบนเทคโนโลยระบบแบบกระจาย (Distributed System) และการประมวลผลแบบขนาน (Parallel Processing) เชน โปรแกรมโอเพนซอรสอาปาเชฮาดป (Apache Hadoop) เปนระบบการจดเกบแบบกระจาย (Hadoop Distributed File System : HDFS) และการประมวลผลแบบขนานดวยเทคนคแมพรดว (MapReduce) เทคโนโลยนจะสามารถน ามาชวยเหลอการประมวลผลขอมลขนาดใหญ จากคลงขอมลดานการแพทยและสขภาพ ทมการจดการฐานขอมลแบบเชงสมพนธไดหรอไม และมแนวทางในการด าเนนการอยางไร (How) หากตองปรบเปลยนวธการประมวลผล หรอหากจะตองประยกตใชกบสงทมอยเดมตองท าอยางไร (How) ซงการท างานกบ
58
ขอมลขนาดใหญจะมปญหาในการจดเกบขอมล การโอนยายขอมล การส ารองขอมล และการสบคนคนขอมล จะมวธการอยางไร (How) ทจะชวยท าใหการจดการสบคนคนขอมล และน าขอมลจ านวนมากเหลานมาใชประโยชนไดภายในเวลาอนรวดเรวอยางมประสทธภาพมากทสด แตยงคงไวใหไดซงความถกตองของขอมลทไดรบการสบคนคน ดวยความส าคญของคณภาพขอมลในระบบบรการสขภาพจากลกษณะส าคญ 4 สวนคอ ครบถวน ถกตอง ละเอยด และทนสมย อกทงยงสรางโอกาสในการพฒนาสถานพยาบาลใหเจรญกาวหนาตอไปในอนาคตดวยคาใชจายในการลงทนทรพยากรและตนทนความเปนเจาของทต า
เทคโนโลยทจะน ามาใชศกษาวจยในงานวทยานพนธฉบบนจากปญหาทกลาวมาผวจยจงเลอกใชเทคโนโลยฮาดปและแมพรดวเปนโปรแกรมทน ามาใชเพอการทดลองหาความเหมาะสมในการใชงานรวมกบขอมลในระบบบรการสขภาพ
3.2 ขนตอน และวธการด าเนนงานวจย
ผวจยน าแนวคดหลกการออกแบบการวจยการทดลองขนพนฐานของการวจยเชงทดลอง 3 ประการ โดยการก าหนดตวแปร (Variable) และแบบแผนการทดลอง (Experimental design) ทใชส าหรบการออกแบบการทดลองดงน
ภาพท 3.2 การก าหนดตวแปรทใชในการทดลอง
ประการท 1 การเพมความแปรปรวนของการทดลองใหมากทสด (Maximization of experimental variance) ออกแบบการเพมความแปรปรวนของการทดลองดวยการออกแบบชดขอมลทมจ านวนระเบยนเพมขน ใชวธแบบงายก าหนดชวงขอมล โดยการก าหนดขอมลเรมตน หาแสนระเบยนเพมเปนหนงลานระเบยน และหาลานระเบยน และสบลานระเบยนตามล าดบ
59
ประการท 2 การลดความแปรปรวนของความคลาดเคลอนใหนอยทสด (Minimization of error variance) ออกแบบการลดความแปรปรวนของความคลาดเคลอนในดานผลของความเรวการคนหา ดวยสภาพแวดลอมและเครองมอชนดเดยวกนในขณะท าการทดสอบ
ประการท 3 การควบคมตวแปรแทรกซอน (Control of extraneous variables) ออกแบบการควบคมตวแปรแทรกซอนโดยการทดสอบดวยกลมตวอยางและชดแบบสอบถามในการคนหาชดเดยวกน เพอลดความคลาดเคลอนของผลลพธของการทดลอง
หลกการออกแบบขนพนฐานใชเปนกรอบแนวคดน ากระบวนการทดลอง ก าหนดแบบแผนการทดลองจรง (True-experimental design) มการเกบผลการทดลองจากการประมวลผลจ านวน 3 ครง และหาคาเฉลย ท าการเปรยบเทยบระหวางกลมการทดลองประมวลผล 2 รปแบบ
การก าหนดขนตอนและวธการด าเนนการทดลอง ผวจยค านงถงการประมวลผลของระบบเทคโนโลยในการเปรยบเทยบยดหลกเครองมอทใชอยในปจจบนกบเครองมอทตองการใชในอนาคตจะรองรบการปรบเปลยนหรอไม ก าหนดแนวทางของขนตอนและวธการทดลองไวดงน
ภาพท 3.3 ขนตอนและวธด าเนนการทดลอง
60
1) เตรยมขอมลชดทดสอบ 2) สมคดเลอกขอมลชดทดสอบตามกลมทก าหนด 3) เตรยมชดแบบสอบถามทดสอบเอสควแอลและแมพรดว 4) ทดสอบการประมวลผลดวยชดแบบสอบถาม 5) บนทกผลลพธจากการประมวลผล 6) น าผลลพธทไดน ามาวเคราะหสถตเปรยบเทยบการประมวลผล 7) สรปผลทไดจากการวเคราะหสถต
3.2.1 เตรยมขอมลชดทดสอบ
ชดขอมลทดสอบเปนขอมลบรการสขภาพ เกบรวบรวบขอมลจากกระทรวงสาธารณสขดวยระบบคอมพวเตอรเครองแมขายระดบจงหวด การคดเลอกน าชดขอมลทดสอบท าการคดเลอกการสมตวอยางดวยเทคนควธแบบเฉพาะเจาะจง (Purposive Sampling) การคดเลอกกลมตวอยางแบบเจาะจงเปนการเลอกกลมตวอยางโดยอาศยการตดสนใจ (Judgment Sampling) การคดเลอกนใชการตดสนใจจากผเชยวชาญขอมลสขภาพเปนผคดเลอกขอมล ท าการคดเลอกดวยเหตผลในดานขอมลผปวยเปนความลบ ขอมลการเจบปวยไมสามารถเปดเผยไดตามกฎหมายสาธารณสขทวาดวยขอมลการเจบปวยของผปวยเปนความลบ ผเชยวชาญด าเนนการตดขอมลชอและนามสกลออกจากขอมลการทดสอบ และท าการสมคดเลอกน าตวอยางกลมขอมลทดสอบเพยงบางสวนตามจ านวนทผวจยตองการทดสอบโดยการคดเลอกกลมตวอยาง 3 จงหวด จากทงสน 76 จงหวด และคดเลอกขอมลชดตวอยาง 2 แฟม จากแฟมมาตรฐาน 43 แฟม มแฟมขอมล DIAGNOSIS_OPD คอ แฟมขอมลวนจฉยโรคของผปวยนอกและผมารบบรการ
ตารางท 3.1 จ านวนขอมลชดทดสอบแฟม Diagnosis_opd
ชอแฟม จ ำนวนระเบยน ขนำดไฟล (MB)diagnosis_opd_1.txt 899,972 65.2diagnosis_opd_2.txt 5,558,268 374.0diagnosis_opd_3.txt 6,308,357 454.0
รวม 12,766,597 893.2
แฟม Diagnosis_opd
61
ขอมลบรการสขภาพ ส านกนโยบายยทธศาสตรและยทธศาสตร กระทรวงสาธารณสข มการก าหนดโครงสรางมาตรฐานขอมลดานการแพทยและสขภาพไวเปนมาตรฐาน ผวจยด าเนนการสรางตารางในฐานขอมลทดสอบทมลกษณะโครงสรางไวดงน
ตารางท 3.2 โครงสรางแฟมขอมลมาตรฐานของตาราง Diagnosis_opd
เรมตนการคดกรองขอมลชดทดสอบทไดจากขนตอนการเตรยมชดขอมลกอนน าเขาระบบฐานขอมลมายเอสควแอล
ภาพท 3.4 ขนตอนการคดกรองตรวจสอบขอมลชดทดสอบ
การผานขนตอนการคดกรองตรวจสอบคณภาพขอมล มวตถประสงคในการตรวจเชคความไมสมบรณของขอมลทไดมาจากการบนทก หรอการเกดการสญหายของขอมลในกระบวนการประมวลผลหรอสงตอขอมล เพอใหเกดความเชอถอไดในขอมลชดกอนทดสอบ การ
No Field Caption Primary Type Data Not Null1 HOSPCODE รหสสถานบรการ Y CHAR(5) Y 2 PID ทะเบยนบคคล Y CHAR(15) Y 3 SEQ ล าดบท Y CHAR(16) Y 4 DATE_SERV วนทใหบรการ DATE Y5 DIAGTYPE ประเภทการวนจฉย CHAR(1) Y6 DIAGCODE รหสการวนจฉย Y CHAR(6) Y 7 CLINIC แผนกทรบบรการ CHAR(5) Y8 PROVIDER เลขทผใหบรการ CHAR(15)9 D_UPDATE วนเดอนปทปรบปรง DATETIME Y
62
คดกรองขอมลเมอพบขอมลไมสมบรณ จะท าการตดขอมลทไมสมบรณของแถวหรอระเบยนนนออกจากขอมลชดทดสอบ
ภาพท 3.5 ภาพการแสดงขอมลชดตวอยางกอนคดกรองดวยโปรแกรม EmEditor
การตดขอมลทไมสมบรณ (Define Separate) ดวยวธการตรวจสอบพสจนตวอกษร (Regular Expression) และการใชอกขระพเศษ (Wildcard) ในไฟลชดตวอยาง ดวยโปรแกรมอเอมอดเตอร (EmEditor) เปนเครองมอทใชในการตรวจเชคขอมล ท าการจดแบงคอลมนดวยอกขระพเศษ เพอจดรปแบบระเบยนซงคนคอลมนดวยอกขระพเศษเสนตงหรอไพป (Pipe) ใชสญลกษณเสนในแนวต ง ( | ) ไฟลทผานการคดกรองแลวจะน าเขาฐานขอมลมายเอสควแอล ตวอยางระเบยนขอมลแฟมขอมลทวไปของประชาชน 00933|3101490000023|000002|846| 003 |||0000002|1|1956-05-20|3|014|5152|099|099|01|03|2|||||2005-01-20|1||||||1|2012-07-25 16:47:17
63
ภาพท 3.6 ภาพการแสดงขอผดพลาดขอมลชดตวอยางดวยโปรแกรม EmEditor
3.2.2 สมคดเลอกขอมลชดทดสอบตามกลมทก าหนด การก าหนดขนาดตวอยางโดยการใชวธการเลอกตวอยางแบบก าหนดจ านวนหรอแบบ
โควตา (Quota Sampling) ก าหนดจ านวนตวอยางไวอยางชดเจนแลวท าการคดเลอกสมขอมลชดทดสอบตามจ านวนทก าหนด หรอการเลอกแบบงายหรอแบบสะดวก (Simple Random Sampling) ใชการสมอยางงายดวยระบบคอมพวเตอร โดยใชฟงกชน Rand() ในระบบฐานขอมล เปนการสมระเบยนออกจากฐานขอมลน ามาเกบแยกเปนตารางขอมลชดทดสอบออกเปน 4 ชด การคดเลอกจ านวนในชดดงน ชดท 1 มจ านวน 500,000 ระเบยน ชดท 2 มจ านวน 1,000,000 ระเบยน ชดท 3 มจ านวน 5,000,000 ระเบยน ชดท 4 มจ านวน 10,000,000 ระเบยน ตามล าดบ
ภาพท 3.7 ขนตอนการสมขอมลการทดสอบออกเปน 4 ชดขอมล
64
ในขนตอนการสมคดเลอกขอมลชดทดสอบตามกลมทก าหนด มชดค าสงฟงกชน Rand( ) เปนชดค าสงการสม การสมในระบบฐานขอมลเพอท าการดงระเบยนบนทกแยกตารางจากระบบฐานขอมลเดม วตถประสงคเพอการควบคมจ านวนระเบยนในการทดสอบ ลดตวแปรแทรกซอนและความคลาดเคลอนทจะสงผลกระทบตอเวลาการคนหา และผลลพธทจะไดจากการทดสอบ และการตรวจสอบคณภาพของเครองมอ ใชการตรวจสอบโดยผเชยวชาญขอมลระบบสขภาพ
3.2.3 เตรยมชดแบบสอบถามทดสอบเอสควแอลและแมพรดว การเตรยมค าสงชดทดสอบหรอชดแบบสอบถามทดสอบเอสควแอลและแมพรดว ดวย
การใชชดแบบสอบถามทค านงถงหลกการใชงานการคนคนเพอจดท าสถตทางการแพทยจากสรปรายงานการปวย พ.ศ. 2557 จ านวน 2 รายงาน ดงน
1) รายงาน 10 ล าดบแรกจ านวนผปวยนอกตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) พ.ศ.2557 (รายงานตวอยาง ในภาคผนวก ก)
2) รายงานจ านวนผปวยนอกรวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) พ.ศ.2557 (รายงานตวอยาง ในภาคผนวก ก)
3.2.4 ทดสอบการประมวลผลดวยชดแบบสอบถาม ทดสอบการประมวลผลดวยชดแบบสอบถามเอสควแอลและแมพรดว ขนตอนการ
ทดสอบในระบบฐานขอมลเชงสมพนธ เปนการจดรปแบบภาษาสอบถามขอมลเอสควแอล
ภาพท 3.8 ขนตอนการประมวลผลและปรบปรงกระบวนการแบบสอบถามขอมล
ส าหรบการทดสอบประมวลผล และด าเนนการปรบปรงประสทธภาพการคนคนดวยการปรบปรงการเพมดชน ซงในการทดลองนการท าดชนคอการท าคยหลก (Primary Key) ซงคย
65
หลกถอเปนขอมลทเปน Unique และ Nut Null และ Index รปแบบหนง หลงจากนนท าการประมวลผลดวยชดแบบสอบถามทจดเตรยมไวแลวน าผลทไดเกบลงในตารางบนทกผลการทดลอง และท าการปรบปรงการจดชดค าถามรปแบบภาษาสอบถาม (Query Optimizer) เพอคนหาชดแบบสอบถามทใชเวลาในการประมวลผลนอยทสด เกบขอมลผลทดทสดทปรบปรงแลวจดเกบลงในตารางบนทกผลการทดลอง
ขนตอนการทดสอบในระบบเทคโนโลยขอมลขนาดใหญ ดวยการน าชดแบบสอบถามเอสควแอล ท าการปรบเปลยนเปนการจดชดแบบสอบถามรปแบบค าสงตามภาษาโครงสรางโปรแกรมฮาดปและแมพรดว น ามาท าการประมวลผลดวยชดแบบสอบถามโปรแกรมแมพรดว ซงชดแบบสอบถามแมพรดวใชทดสอบกบไฟลทจดเกบอยในรปแบบเทกซไฟล (Text File) หรอรปแบบซเอสวไฟล (CSV) ตามขอมลตวอยางตารางท 3.3
ตารางท 3.3 ตวอยางชดขอมลจากตาราง Diagnosis_opd ทน าเขาทดสอบ
กระบวนการในขนตอนการทดสอบการท างานของระบบการจดเกบขอมลแบบกระจายฮาดปและการประมวลผลแบบขนานแมพรดวนน ผวจยเลอกใชขนตอนในการดงขอมลออกจากตารางขอมลในฐานขอมลมายเอสควแอลโดยจะใชเครองมอของการจดการฐานขอมลเชงสมพนธในระบบโปรแกรมมายเอสควแอลท าการสงออกขอมลจากตารางทไดท าการคดกรองไวเรยบรอยแลวออกเปนไฟลรปแบบซเอสวไฟล (CSV) หลงจากนนท าการน าขอมลเขาสระบบเทคโนโลย
HOSPCODE PID SEQ DATE_SERV DIAGTYPE DIAGCODE CLINIC PROVIDER D_UPDATE
00933 000003 636436 6/11/2014 1 Z123 00000 0004 6/11/2014 15:20
00933 000004 634919 19/11/2014 1 Z123 00000 0004 25/11/2014 18:21
00933 000005 634920 19/11/2014 1 Z123 00000 0004 25/11/2014 18:21
00934 022886 482116 22/6/2015 1 I10 00000 0009 11/7/2015 16:53
00934 022886 482527 28/6/2015 1 Z099 00000 0005 30/6/2015 14:56
00934 022886 483062 5/7/2015 1 Z251 00000 0017 5/7/2015 14:35
00934 022886 487831 14/9/2015 1 I10 00000 0005 8/10/2015 11:59
00941 062537 647821 13/4/2015 1 Z235 00000 0028 10/5/2015 17:57
00941 062537 647821 13/4/2015 4 Z236 00000 0028 10/5/2015 17:57
00941 062538 657548 11/5/2015 1 J069 00000 0006 11/5/2015 10:02
00941 062538 657548 11/5/2015 4 Z133 00000 0006 11/5/2015 10:02
00941 062539 639673 12/3/2015 1 Z001 00000 0005 28/3/2015 13:25
00937 027620 640775 21/2/2015 4 Z012 01100 0022 21/2/2015 17:18
00937 027620 640775 21/2/2015 4 Z133 01100 0010 21/2/2015 17:18
00937 027620 652230 11/5/2015 4 Z123 00000 0008 11/5/2015 16:54
00937 027620 652230 11/5/2015 4 Z133 00000 0008 11/5/2015 16:54
66
ขอมลขนาดใหญดวยการน าเขาในระบบจดเกบขอมลแบบกระจายหรอ HDFS ในระบบฮาดป เปนการน าสงไฟลทจดเตรยมไวเขาระบบเพอรอการเรยกใชงาน เมอด าเนนการจดเตรยมขอมลในรปแบบการกระจายเรยบรอย จะด าเนนการทดสอบประมวลผลชดแบบสอบถามทจดเตรยมไวดวยเทคนคแมพรดว ตามขนตอนดงภาพท 3.9
ภาพท 3.9 ขนตอนการประมวลผลดวยเทคโนโลยขอมลขนาดใหญ
ตวอยางรปภาพท 3.10 สามารถแสดงขนตอนการประมวลผลแมพรดวเพอคนหารหสสถานพยาบาลทใหบรการสขภาพ ในตวอยางเปนชดขอมลจากตาราง Diagnosis_opd เพอคนหาจ านวนสถานพยาบาลทมรหส 00933 ในตารางขอมล โดยมขนตอน Input เพอน าขอมลเขา โปรแกรมจะท าการจบ Key/Value ตามทไดออกแบบไว Key = ชอแฟม และ Value = ชดขอมลในระเบยน แลวท าการแปลงขอมลใหอยในรปแบบ Key/Value ทสามารถใชในขนตอไปได ขนตอน Map จะท าการจบคสงทตองการคนหาโดยการปอนรหสสถานพยาบาลทตองการนบ ตวอยางเชน (Diagnosis_opd, 00933) หลงจากนนจะท า Shuffle & Sort ใหมหรอการจดเรยงตามกลมทก าหนด ตามกระบวนการท างานของโปรแกรมเพอสงไปยงขนตอนตอไป ขนตอนการ Reduce จะท าการน าขอมลทไดท าการจบค Key/Value ใหม แลวน ามาท าการนบจ านวนรหสสถานพยาบาลทตองการแลวท าการแสดงผลบนหนาจอ
67
ภาพท 3.10 ขนตอนการประมวลผลชดขอมลตวอยางดวยเทคนคแมพรดว
3.2.5 บนทกผลลพธจากการประมวลผล
การบนทกผลจากการทดลองผวจยมแนวคดการด าเนนการจดเกบผลการทดลองใน 3 ขนตอนการทดลองดงน
1) ขนตอนการเตรยมขอมล เปนขนตอนการน าไฟลขอมลทมการเกบรวบรวมไวเปนรปแบบเทกซไฟลจากกระทรวงสาธารณสขน ามาคดเลอกส าหรบการทดลอง
2) ขนตอนการน าเขาขอมล เปนขนตอนการคดกรองขอมลตามจ านวนกลมของขอมลทมการขยายตวอยางเปนล าดบ ตามทก าหนดไวส าหรบใชในการทดลอง
3) ขนตอนการประมวลผล เปนขนตอนทประมวลผลดวยชดแบบสอบถามทจดเตรยมไวจากรายงานการเจบปวย และท าการประมวลผลกบเทคโนโลยขอมล 2 รปแบบ
การเกบบนทกผลการทดลองเพอน าใชในการวเคราะหขอมลดวยสถต ดวยการจดเกบผลลพธของเวลาในการประมวลผลหลงจากด าเนนการปรบปรงกระบวนการประมวลผลแลว จ านวน 3 ครง ท าการจดเกบขอมลผลการทดลองตามกลมจ านวนระเบยน ดวยการประมวลผลกบชดแบบสอบถาม จากรายงานการเจบปวย พ.ศ.2557 ม 2 กลม ดงน
กลม 1 การประมวลผลดวยเทคโนโลยระบบการจดการฐานขอมลเชงสมพนธดวยภาษาสอบถามเชงโครงสรางเอสควแอล ท าการบนทกผลการทดลองหลงจากมการปรบปรงกระบวนการสอบถามขอมล จ านวน 3 ครง ตามกลมจ านวนระเบยน บนทกผลเปนหนวยของเวลาวนาท
กลม 2 การประมวลผลเทคโนโลยระบบขอมลขนาดใหญดวยเทคนคแมพรดว ท าการบนทกผลการทดลองหลงจากมการปรบปรงกระบวนการสอบถามขอมล จ านวน 3 ครง ตามกลมจ านวนระเบยน บนทกผลเปนหนวยของเวลาวนาท
3.2.6 น าผลลพธทไดน ามาวเคราะหสถตเปรยบเทยบการประมวลผล หลงจากท าการประมวลผลกบเทคโนโลยขอมล 2 รปแบบ การน าผลลพธทไดน ามา
วเคราะหทางสถตเพอเปรยบเทยบผลลพธจากการประมวลผล มวตถประสงคเพอน าผลลพธมาอภปรายผลทางสถต เลอกใชสถตเชงพรรณนา (Descriptive Statistics) ใชเพอคนหาค าตอบจาก
68
ผลลพธทไดจากขนตอนการเตรยมขอมล และน าเขาขอมล และจากการประมวลผล ประกอบดวยคาเฉลย (Mean) รอยละ (เปอรเซนต) และท าการแสดงผลดวยกราฟหรอแผนภม และสถตเชงอนมาน (Inferential Statistics) ใชเพอหาค าตอบจากสมมตฐานทไดคาดการณไวลวงหนา
การวเคราะหสถต ดวยวธการวเคราะหทางสถต t-Test Paired Two Sample for Means ดวยการใชโปรแกรม Excel มาตรการวด (Measurement Scale) คอ มาตราอตราสวน (Ratio Scale) เปนขอมลเวลาทใชในการประมวลผล มการก าหนดใหคานยส าคญท 05.0 ทจะน ามาใชทดสอบสมมตฐาน ซงเปนการก าหนดความนาจะเปนทผวจยจะยอมใหเกดความคลาดเคลอนประเภทท 1 () จากการปฏเสธสมมตฐานหลกทเปนจรง
สมมตฐานทผวจยไดสนนษฐานไว สามารถแสดงไดดงน 1) ผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางเทคโนโลยขอมล
ขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน ทดสอบจากคาเฉลยของกลมขอมลผลของเวลา คาสมมตฐานทถกพสจนดวยสถต t-Test Paired Two Sample for Means จากขอตกลง
เบองตน คอใชส าหรบการทดสอบคาเฉลยของ 2 กลม เพอวเคราะหความแตกตางของประชากรมหรอไม และมนยส าคญหรอไม สามารถใชกบขอมลมาตราอตราสวน และใชกบขอมลจ านวนนอย และเพอใชกบกลมขอมลจ านวน 2 กลม
2) ผลลพธของความแมนย าถกตองการคนคนขอมลเมอมการเปรยบเทยบระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธไมแตกตางกน
มการเปรยบเทยบผลการทดลองจากขอมลโดยการใหคาอตราเปอรเซนตความถกตองเปรยบเทยบกนระหวาง ผลลพธความถกตองของการประมวลผลดวยเทคโนโลยระบบฐานขอมลมายเอสควแอลและระบบเทคโนโลยขอมลขนาดใหญฮาดปและแมพรดวมผลลพธทถกตองตรงกน มความแมนย าเหมอนกน เทคโนโลยขอมลขนาดใหญนสามารถน ามาใชงานทดแทนกนไดหรอไม
3.2.7 สรปผลทไดจากการวเคราะหสถต สรปผลทไดจากการวเคราะห ผลลพธทจะไดจากการทดลองสามารถแสดงผลได
หลากหลายรปแบบ ผวจยมแนวคดการเลอกการสรปผลออกเปน 3 สวนคอ 1) ผลลพธทไดจากการวเคราะหผลดวยสถตเชงพรรณนา 2) ผลลพธทไดจากการวเคราะหผลดวยสถตอนมานทจะใชพสจนผลจากการ
ตงสมมตฐานวาเปนจรงตามทสนนษฐานไวหรอไม 3) น าผลทไดจากการการวเคราะหขอมลเชงสถตพรรณนาน าไปเปรยบเทยบกบ
งานวจยทเกยวของ
69
3.3 เครองมอด าเนนงานวจย 3.3.1 ฮารดแวร (Hardware)
เครองเซรฟเวอร จ านวน 3 เครอง ส าหรบใชเปนเครองมอในการทดลอง ก าหนดใหเปนเครองแม (Master) 1 เครอง และเครองลก (Slave) จ านวน 2 เครอง ซงมคณสมบตเหมอนกนดงน
1) CPU Intel® XEON 2.4 GHz 2) RAM 8 GB DDR3 3) HDD 2 TB
3.3.2 ซอฟตแวร (Software) ทใชในงานวจย มรายละเอยดดงน 1) โปรแกรม EmEditor เวอรชน 15.8.1 2) โปรแกรม Ubuntu Server 14.04.4 LTS 3) โปรแกรม phpMyAdmin 5.5.9 4) โปรแกรม MySQL 5.5.47 5) โปรแกรม Apache Hadoop 2.7.2 6) โปรแกรม Eclipse Standard/SDK (Kepler Service Release 2) 7) โปรแกรม Microsoft Excel Professional Plus 2010
3.3.3 เครอขาย (Network) การเชอมตอใชรปแบบการเชอมตอแบบสตาร (Star) หรอการเชอมโยงคอมพวเตอร
ทงหมดเขาดวยผานอปกรณเครอขายสวตซ (Switch) 1) Ethernet Switch 24 Port 10/100/1000 Gigabitgh6h
ภาพท 3.11 รปแบบเครอขายคอมพวเตอรทใชในงานวจย
70
3.4 สถานทท างานวจย สถานททดลองทใชในงานวจย หองทดลองขอมลขนาดใหญ คณะวศวกรรมขอมลขนาดใหญ
คณะวศวกรรมศาสตร มหาวทยาลยธรกจบณฑตย
บทท 4 ผลงานวจย และสรปผลงานวจย
ผลการวจยจากการทดลองเพอการศกษาและท าความเขาใจในเทคโนโลยขอมลขนาด
ใหญทมรปแบบการจดเกบแบบกระจายฮาดป และการประมวลผลแบบขนานแมพรดว ดวยการน าชดขอมลในระบบบรการสขภาพ เปนเครองมอทน ามาใชหาประสทธภาพของเวลาในการประมวลผลการคนคนขอมล ประเมนประสทธภาพความเรวดวยการวเคราะหผลโดยใชสถต t-Test ทดสอบสมมตฐานทคาดการณไวลวงหนา มรายงานผลงานวจยดงน
4.1 ผลการเตรยมขอมลชดทดสอบ
ผลการเตรยมขอมลชดทดสอบ ท าการคดเลอกขอมลดวยเทคนควธการสมแบบเฉพาะเจาะจง การคดเลอกกลมตวอยางแบบเจาะจงเปนการเลอกกลมตวอยางโดยอาศยการตดสนใจ โดยอาศยเกณฑการตดสนใจจากผเชยวชาญขอมลในระบบบรการสขภาพ และท าการสมคดเลอกกลมขอมลชดตวอยางจากแฟมมาตรฐาน 43 แฟม คดเลอกแฟมผปวยนอกเปนขอมลชดตวอยาง และท าการสมคดเลอกน าตวอยางกลมขอมลทดสอบเพยงบางสวนตามจ านวนทผวจยตองการทดสอบ โดยการคดเลอกกลมตวอยาง 3 จงหวด จากทงสน 76 จงหวด และท าขนตอนการท าความสะอาดคดกรองขอมลทมอกขระผดพลาดหรอแถวขอมลทมคอลมนเกนหรอขาดตดออก ไดขนาดระเบยนดงตารางท 4.1 ตารางท 4.1 การคดกรองคดเลอกขอมลชดทดสอบแฟม Diagnosis_opd
จ านวนระเบยน ขนาดไฟล จ านวนระเบยน ขนาดไฟล จ านวนระเบยน ขนาดไฟล เปอรเซนต เวลาทใช
ชอแฟม กอนคดกรอง (MB) หลงคดกรอง (MB) ทถกตดออก ลดลง (MB) ถกตดออก (วนาท)
diagnosis_opd_1.txt 899,972 65.2 899,294 65.1 678 0.1 0.0753% 2,880.00
diagnosis_opd_2.txt 5,558,268 374.0 5,555,064 373.0 3,204 1.0 0.0576% 12,960.00
diagnosis_opd_3.txt 6,308,357 454.0 6,304,556 442.0 3,801 12.0 0.0603% 18,720.00
รวม 12,766,597 893.2 12,758,914 880.1 7,683 13.1 0.0602% 34,560.00
แฟม Diagnosis_opd
72
ตารางท 4.2 แบงการคดกรองชดทดสอบ 4 ชด เขาระบบฐานขอมลแฟม Diagnosis_opd
การด าเนนการคดกรองขอมล เมอท าการคดเลอกขอมลเรยบรอยแลว และมการน าเขา
ขอมลลงสระบบการจดการฐานขอมลเชงสมพนธมายเอสควแอลพรอมกบบนทกเวลาทใชในการน าเขาเปนวนาท และบนทกจ านวนระเบยนทสญเสยไปกบการปฏเสธจากระบบการจดการฐานขอมลมายเอสควแอล ยกตวอยาง เชน มคาซ ากนของคยหลก (Primary Key) เปนตน จงท าใหจ านวนระเบยนลดลงแตจะไมกระทบตอเปาหมายของการทดสอบหรอจ านวนไมนอยกวาขอมลทก าหนดไวส าหรบการทดลอง 4.2 ผลการสมคดเลอกขอมลชดทดสอบตามกลมทก าหนด
การบนทกผลในขนตอนท 4.2 การสมคดเลอกขอมลชดทดสอบตามกลมทก าหนด มการเกบบนทกเวลาทใชในการสมคดเลอกขอมลชดทดสอบแลวน าเขาฐานระบบการจดการฐานขอมลมายเอสควแอลใหมอกครง เพอตรวจสอบเวลาทใชกบจ านวนระเบยนโดยเฉลย
เมอท าการสมขอมลเขาระบบการจดการฐานขอมลมายเอสควแอลเปนทเรยบรอยแลว จะท าการน าขอมลดงกลาวในแตละชดขอมลออกมาในรปแบบไฟลซเอสว (CSV) เพอท าการน าขอมลเขาในระบบเทคโนโลยขอมลขนาดใหญฮาดปหรอ HDFS และท าการเปรยบเทยบดวยการจดท าตาราง
สมคดเลอกขอมลชดทดสอบตามกลมทก าหนด การก าหนดขนาดตวอยางโดยการใชวธการเลอกตวอยางแบบก าหนดจ านวนหรอแบบโควตา ท าการคดเลอกสมขอมลชดทดสอบตามจ านวนทก าหนด หรอการเลอกแบบงายหรอแบบสะดวก ใชการสมอยางงายดวยระบบคอมพวเตอรเขาระบบฐานขอมลมายเอสควแอลในตารางแฟมขอมลทก าหนดใหมโครงสรางตามมาตรฐานในระบบบรการสขภาพ โดยใชฟงกชน Rand() ในระบบฐานขอมล เปนการสมระเบยนออกจากฐานขอมลน ามาเกบแยกเปนตารางขอมลชดทดสอบออกเปน 4 ชด การคดเลอกจ านวนในชดดงน
73
ชดท 1 มจ านวน 500,000 ระเบยน ชดท 2 มจ านวน 1,000,000 ระเบยน ชดท 3 มจ านวน 5,000,000 ระเบยน ชดท 4 มจ านวน 10,000,000 ระเบยน ตามล าดบ แบงขอมลออกเปน 4 ชด หลงจากทไดขอมลทงหมดจะถกน าขอมลออกเปนไฟล CSV และท าการน าเขาระบบ HDFS ดงตารางท 4.3 ตารางท 4.3 น าเขาขอมลชดทดสอบ 4 ชด แฟม Diagnosis_opd
4.3 ผลการเตรยมค าสงชดทดสอบเอสควแอลและแมพรดว
เตรยมชดค าถามทดสอบการประมวลผลดวยภาษาสอบถามขอมลเอสควแอลและการประมวลผลดวยเทคนคแมพรดว ดวยการใชชดค าถามทค านงถงหลกการใชงานการคนคนเพอจดท าสถตทางการแพทยจากสรปรายงานการปวย พ.ศ. 2557 จ านวน 2 รายงาน
1) รายงาน 10 ล าดบแรกจ านวนผปวยนอกตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) พ.ศ.2557 (รายงานตวอยาง ในภาคผนวก ก)
2) รายงานจ านวนผปวยนอกรวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) พ.ศ.2557 (รายงานตวอยางอย ในภาคผนวก ก)
จากการเตรยมชดแบบสอบถามตามขนตอนการทดสอบขอ 4.3 พบวาตองการรายการ
21 กลมโรคหลก น ามาใชในการประมวลผลรวมกบขอมลผปวยนอก แฟม 21 กลมโรค ก าหนดใหมคยหลกเพอควบคมคาซ ากนและท าการเชอมความสมพนธเพอจดท ารายงาน ดงรปท 4.1
CSV
จ านวนระเบยน ขนาดไฟล ขนาดไฟล เวลาทใช ขนาดไฟล เวลาทใช
ชอแฟม กอนน าเขาฐานขอมล (MB) (MB) (วนาท) (MB) (วนาท)
diagnosis_opd_5h 500,000 34.1 55.6 3.01 34.12 0.17
diagnosis_opd_1m 1,000,000 68.2 110.6 6.13 68.23 0.34
diagnosis_opd_5m 5,000,000 341.0 552.0 30.37 341.16 1.07
diagnosis_opd_10m 10,000,000 682.0 1,102.0 58.56 682.34 2.12
รวม 4 แฟม 16,500,000 1,125.3 1,820.2 98.07 1,125.85 3.70
แฟม Diagnosis_opd
Import MySQL Import Hadoop
74
ภาพท 4.1 การเชอมโยงความสมพนธระหวางแฟมรหสกลมโรคและแฟมผปวยนอก
และในการก าหนดการเชอมโยงตารางขอมแฟมรหสกลมโรคกบแฟมผปวยนอก ซงมจ านวนขอมลในการน าเขาทงสน 2,136 ระเบยน ตวอยางสามารถแสดงไดดงตารางท 4.4 และไดด าเนนการสรางแฟมโครงสรางในระบบฐานขอมลมายเอสควแอล ดงตารางท 4.5
ตารางท 4.4 ตวอยางขอมลในแฟมรหสกลมโรค จ านวน 2,136 ระเบยน
รหส ICD-10 ชอกลมโรค ชอโรค
A00 1 โรคตดเชอและปรสต
A01 1 โรคตดเชอและปรสต
B00 1 โรคตดเชอและปรสต
B01 1 โรคตดเชอและปรสต
C00 2 เนองอก
C01 2 เนองอก
D00 2 เนองอก
D01 2 เนองอก
D50 3 โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน
D51 3 โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน
D52 3 โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน
. . .....
. . .....
. . .....
Y88 21 สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย
Y89 21 สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย
75
ตารางท 4.5 โครงสรางตารางแฟม 21 กลมโรค
No Field Caption Primary Type Data Not Null 1 Diag21_Code รหสการวนจฉย Y CHAR(6) Y 2 Diag21_Group รหสกลมโรค CHAR(20) Y 3 Diag21_Name ชอโรค CHAR(100) Y
ในการประมวลในระบบฐานขอมลมายเอสควแอล ไดด าเนนการจดท าชดค าสงส าหรบ
เตรยมการทดลองการประมวลผลแบบสอบถามขอมล รายงานท 1 และ รายงานท 2 ดงน ชดค าสงการน าเขาขอมลเพอจดเกบเขาฐานขอมลมายเอสควแอลตามจ านวนทก าหนด
ตวอยาง ชดค าสงในการน าเขาขอมลจดเกบเขาฐานขอมลมายเอสควแอล ดวยภาษาเอสควแอล Insert into diagnosis_opd_5h (hospcode, pid, seq, date_serv, diagtype, diagcode,
clinic, provider, d_update) Select * from diagnosis_opd_all order by rand() limit 500000; ชดค าสงการเคลยรคาหนวยความจ าส ารองในระบบฐานขอมลมายเอสควแอล เพอท า
การลางคาขอมลจากระบบในการเรมตน เพอเกบผลการทดลองใหมใหครบตามจ านวน 3 ครง ดงน RESET QUERY CACHE; FLUSH QUERY CACHE; FLUSH TABLES; ชดค าสงส าหรบการประมวลผลรายงานท 1 ในการประมวลผลดวยภาษาสอบถามแบบ
มโครงสรางเอสควแอล ในระบบฐานขอมลเชงสมพนธ ตวอยาง ชดค าสงส าหรบการประมวลผลการคนคนขอมลดวยภาษาสอบถามเอสควแอล รายงานท 1 และรายงานท 2 ตามล าดบ
ตวอยางภาษาสอบถามแบบมโครงสรางเอสควแอล รายงานท 1 SELECT opd_diag.opd_diag3 AS กลมโรค, opd_diag.opd_diag4 AS สาเหตกลมการ
ปวย, COUNT( opd_diag.opd_diag3 ) AS จ านวนผปวยนอก FROM `diagnosis_opd_10m`, `opd_diag` WHERE LEFT( diagnosis_opd_10m.diagcode, 3 ) = opd_diag.opd_diag1 GROUP BY opd_diag.opd_diag3 ORDER BY จ านวนผปวยนอก DESC
ตวอยางภาษาสอบถามแบบมโครงสรางเอสควแอล รายงานท 2 SELECT opd_diag.opd_diag3 AS กลมโรค, opd_diag.opd_diag4 AS สาเหตกลมการ
ปวย, COUNT( opd_diag.opd_diag3 ) AS จ านวนผปวยนอก FROM `diagnosis_opd_10m`,
76
`opd_diag` WHERE LEFT( diagnosis_opd_10m.diagcode, 3 ) = opd_diag.opd_diag1 GROUP BY opd_diag.opd_diag3 ORDER BY จ านวนผปวยนอก DESC LIMIT 10
ลกษณะการ Join ตาราง มหลายรปแบบตามทฤษฏ ม 6 ลกษณะ ดงน 1) Left Join 2) Inner Join 3) Full outer join 4) Right Join 5) Left Join (If Null) 6) Right Join (If Null) ซงในการทดลองนใชคณลกษณะการ Join แบบท 1 Left Join
ชดค าสงส าหรบการน าเขาขอมลในการจดเกบในระบบไฟลขอมล HDFS เพอท าการจดเกบแบบกระจายไปยงแหลงจดเกบในเครองเซรฟเวอรในกลมคลสเตอร ดงมตวอยาง ชดค าสงในการน าเขาขอมลจดเกบในระบบเทคโนโลยขอมลขนาดใหญฮาดปมดงน
hdfs dfs -put /home/node1/Documents/testhelloworld.txt /user ชดค าสงส าหรบการประมวลผลแบบขนาน ดวยเทคนคแมพรดวเปนขนตอนการ
ด าเนนการในขนตอนการประมวลผลขอมลจ านวน 3 ครง ตวอยางชดค าสงมดงน hadoop jar report2-0.1-SNAPSHOT-jar-with-dependencies.jar -1 healthcare/data/ diag_opd/ healthcare/data/test/keng/opd10m/ healthcare/data/output/keng/report210m ชดค าสงของภาษาจาวา ส าหรบการประมวลผลขอมลออกมาเปนรปแบบ CSV ไฟล
ตองน าผลลพธโดยการใชงานค าสงดงน ตวอยางชดค าสงการประมวลผลและท าการคนหาผลลพธและน าผลลพธเขาจดเกบในระบบ HDFS ดงมตวอยางซอรสโคดดงน public class Report2 { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); if (otherArgs.length != 4) { System.err.println("Command need 4 parameters but your input are " + otherArgs.length); System.err.println("Usage: \n\t[1.]n - Top n (-1 for all) \n" + "\t[2.] Master Diagnosis OPD Input Path \n" + "\t[3.] Diagnosis OPD Input Path\n" + "\t[4.] Output Path\n"); System.exit(2); } System.out.println("-1".equals(args[0]) ? "All records" : ("Top " + args[0]));
77
conf.set(AppConstant.MAX_KEY, args[0]); conf.set(AppConstant.INPUT_SEPERATOR_KEY, "\\|"); //* * Job 1 - */ Job job1 = Job.getInstance(conf, "Report2 - Joining OPD and Diagnosis"); job1.setJarByClass(Report2.class); job1.setMapOutputValueClass(Text.class); job1.setReducerClass(FinalReducer.class); job1.setOutputKeyClass(Text.class); job1.setOutputValueClass(IntWritable.class); // Master Diagnosis MultipleInputs.addInputPath(job1, new Path(args[1]), TextInputFormat.class, DiagnosisMasterMapper.class); // Diagnosis OPD MultipleInputs.addInputPath(job1, new Path(args[2]), TextInputFormat.class, DiagnosisOPDMapper.class); FileOutputFormat.setOutputPath(job1, new Path(args[3] + "/joined")); job1.waitForCompletion(true); //* * Job 2 - */ Job job2 = Job.getInstance(conf, "Report2 - Counting"); job2.setJarByClass(Report2.class); job2.setMapperClass(JoinedDataMapper.class); job2.setCombinerClass(TopNReducer.class); job2.setReducerClass(TopNReducer.class); job2.setOutputKeyClass(Text.class); job2.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job2, new Path(args[3] + "/joined")); FileOutputFormat.setOutputPath(job2, new Path(args[3] + "/final")); System.exit(job2.waitForCompletion(true) ? 0 : 1); } }
78
ชดค าสงภาษาจาวาดงกลาวมการท างานใน 2 ขนตอน ดงน ขนตอนงานท 1 คอ การ Join Data ในกระบวนการยอยของการ Join Data ม 3 ขนตอน
ดงน ขนตอนท 1.1 Map phase คอการท า Map ฟงกชน ท าการจบคคย รหสกลมโรคในแตละ
ระเบยนเพอการเรยกคนขอมล ตวอยางคคย (Diag_Code, D1) เปนตน ซงจะด าเนนการในขนตอนพรอมกน 2 ไฟล CSV คอ ไฟล Diagnosis_opd และขอมลรหสกลมโรค
ขนตอนท 1.2 Shuffle phase คอ การจดท าการรวบรวม Grouping และการจดเรยงล าดบ Sorting ใหม ตวอยางคคย (Diag_Code, Diag_Group)
ขนตอนท 1.3 Reduce phase คอ การลดจ านวนคคยเพอรวบรวมเปนผลลพธ Text File ส าหรบการเรยกใชในขนตอนท 2 Counting ตวอยางคคย (Diag_Code, [D1, Diag_Group])
ภาพท 4.2 ขนตอนการ Join Data โปรแกรมแมพรดว
ขนตอนงานท 2 คอ การ Counting และSorting Data ในกระบวนการยอยของการ Counting และ Sorting Data ม 3 ขนตอนดงน
ขนตอนท 1.1 Map phase คอการท า Map ฟงกชน ท าการจบคคย รหสกลมโรคในแตละระเบยนจากไฟลผลลพธทไดจากขนตอนท 1 เพอการเรยกคนคาขอมล ตวอยางคคย (Diag_Code, Total) เปนตน
79
ขนตอนท 1.2 Shuffle phase คอ การจดท าการรวบรวม Grouping และการจดเรยงล าดบ Sorting ใหม ตวอยางคคย (Diag_Code, Diag_Group)
ขนตอนท 1.3 Reduce phase คอ การลดจ านวนคคยเพอรวบรวมเปนผลลพธเทกซไฟล Text File เปนผลการคนคนทงหมดในแตละรายงาน ตวอยางคคย (Diag_Code, [D1, Diag_Group])
ภาพท 4.3 ขนตอนการ Counting และ Sorting Data โปรแกรมแมพรดว
ชดค าสงของเทคโนโลยฮาดปและแมพรดว ส าหรบการน าผลลพธในการประมวลผลขอมลออกโดยการใชงานค าสงดงน ตวอยางชดค าสงการน าผลลพธทถกจดเกบไวใน HDFS น าออกเปนรปแบบเทกซไฟล (Text File) และน าเขาในโปรแกรมเอกเซล (Excel) เพอจดเรยงขอมล
hadoop fs -copyToLocal /user/hadoopuser/healthcare/data/person/person_2015_17.txt person_2015_17.txt
สรปขนตอนในภาพรวมของวธการแมพและรดว ดงน
ภาพท 4.4 ขนตอนการคนคนขอมลดวยโปรแกรมแมพรดว
80
4.4 ผลการทดลองการประมวลผลดวยชดแบบสอบถามเอสควแอลและแมพรดว น ารายงานและเครองมอทไดจดเตรยมไวในขอ 4.3 น ามาท าการประมวลผลใหม สราง
เปนชดแบบสอบถามดวยรปแบบภาษาสอบถามเชงโครงสรางเอสควแอล ท าการประมวลผลกบชดขอมลทดสอบในขอท 2 จ านวน 3 ครงตอ 1 รายงาน ตอ 1 ชดขอมลในระบบฐานขอมลเชงสมพนธ และสรางชดแบบสอบถามดวยการเขยนโปรแกรมแมพรดวใชทดสอบกบไฟลขอมลชดทดสอบทจดเกบอยในรปแบบเทกซไฟลน าเขาในโปรแกรมฮาดปจดเกบแบบกระจาย HDFS ท าการประมวลผลจ านวน 3 ครงตอ 1 ชดขอมล ผวจยเลอกใชวธการตรวจสอบความเทยงตรง (Validity) ชดแบบสอบถาม 2 รปแบบ ดวยการทดลองใชประมวลผลในชดขอมลขนาดเลก เพอตรวจเชคผลลพธทไมถกตองตรงกนของขอมล เมอพบผลทผดพลาดจะท าการตรวจเชคหาจดทผดพลาดและท าการแกไขปรบปรงขอมลทง 4 ชด กอนประมวลผลเพอบนทกผลการทดลอง
ในการทดสอบความเทยงตรง เปนเตรยมการกอนทดสอบผวจยพบวาในระบบฐานขอมลมายเอสควแอล ในขนตอนการน าขอมลเขาขอมลในฐานขอมล และขนตอนการประมวลผลจะมผลตอประสทธภาพการท างานดานความเรวอยางยงกบขอมลทมปรมาณมากขนในระดบ 10 ลานระเบยน ใชเวลาในการน าเขามากกวา 2 ชวโมงขนไป ดงนนผวจยจงไดท าการศกษาเพมเตมในสวนของความสามารถและคณสมบตเฉพาะดานของระบบฐานขอมลมายเอสควแอล พบวาในระบบฐานขอมลมาสเอสควแอลมระบบการจดการฐานขอมลเชงสมพนธหรอม Storage Engine หลายรปแบบ ผวจยเลอกใชคณสมบตทมความนยมในการใชงานเพอทดสอบดงน
InnoDB คอคณสมบตการจดการฐานขอมลแบบทรานเซคชน (Transaction) เปนการเขยนโปรแกรมการจดการฐานขอมลแบบมมาตรฐาน ACID เปนหลก หรอเรยกวาการจดการในระบบทรานเซคชน และสนบสนนการท างานแบบ Foreign Key แตมขอเสยคอจะท างานไดชากวา MyISAM
MyISAM คอ การจดการแบบดงเดมทถกออกแบบมาโดยการใชแนวคดการท างานทตารางมากกวา และจะถกอานมากกวาการอบเดท แตมขอเสยคอคณสมบตนไมสนบสนนการท างานแบบทรานเซคชนจะไมสามารถเรยกคนขอผดพลาด (Rollback) ได
จากการทดสอบผวจยจงเลอกใชคณสมบตฐานขอมลแบบ InnoDB เนองจากฐานขอมลนมความนยมการใชงานโดยทวไปในโปรแกรมระบบขอมลสขภาพ ซงคณสมบตนเปนการจดการระดบทรานเซคชน ในหนวยงานระดบปฐมภมจะมการใชงานกนมาก และจากการตดสนใจเพอเลอกผลลพธเสมอนในการปฏบตงานจรงการเรยกใชรายงานการเจบปวยน จะท าเพยงปละ 1 ครง หรอเดอนละ 1 ครงเทานน
81
ตารางท 4.6 ผลการเปรยบเทยบ Database Engine ของฐานขอมลมายเอสควแอล
ในขนตอนการเตรยมการทดสอบการประมวลผลเพอปรบปรงประสทธภาพการ
ประมวลผลดวยแมพรดวผวจยไดศกษาจากงานวจยทเกยวของจงทราบวาขนาดของบลอกไซค (Block Size) มสวนส าคญทจะสงผลใหประสทธภาพการประมวลผลขนอยกบระบบเครอขายดวย ดงนน ผวจยจงท าการทดสอบดวยบลอกไซค ขนาดมาตรฐานของระบบเทคโนโลยขอมลขนาดใหญฮาดป โดยการคดเลอกการทดสอบกบขอมลขนาดสบลานระเบยนดวยเหตผลทวาขอมลขนาดใหญขนจะเหมาะสมกบการประเมนประสทธภาพมากทสด ไดผลทดสอบตารางท 4.7 ผวจยจงท าการคดเลอกขนาดบลอกไซคเปน 128MB เพอท าการทดสอบเปรยบเทยบเทคโนโลยขอมล
ตารางท 4.7 ผลการเปรยบเทยบบลอกไซคของฮาดปและแมพรดว
จ านวน คาเฉลย คาเฉลย
แบบสอบถามขอมล ชดขอมล ระเบยนขอมล InnoDB MyISAM
diagnosis_opd_5h 500,000 1.2307 2.4603
diagnosis_opd_1m 1,000,000 2.6791 4.1068
diagnosis_opd_5m 5,000,000 61.1114 12.4483
diagnosis_opd_10m 10,000,000 150.7065 27.5282
diagnosis_opd_5h 500,000 1.2118 2.3861
diagnosis_opd_1m 1,000,000 2.6439 4.2724
diagnosis_opd_5m 5,000,000 60.7291 12.2554
diagnosis_opd_10m 10,000,000 142.8611 25.2866
รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตาม
กลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)
รายงานจ านวนผปวยนอก รวมตามกลมสาเหต
การปวย (ไมรวมกรงเทพมหานคร)
ขนาด
ชดขอมล มาตรฐาน 64 เมกะไบต 128 เมกะไบต
10m 125.59 232.88 94.75
ฮาดปบลอกไซต
เวลาการประมวลผลแมพรดว (วนาท)
82
4.5 บนทกผลลพธจากการประมวลผล การบนทกผลในข นตอนทดสอบการประมวลผลดวยชดค าถามเอสควแอล
และแมพรดว มการเกบบนทกเวลาทใชในการประมวลผลขอมลชดทดลอง การบนทกขอมลการทดลองก าหนดขอมลทตองการบนทกไวเปนมาตรการวด คอมาตราอตราสวน เปนขอมลเวลาทใชในการประมวลผลเปนวนาท เกบบนทกผลการทดลองในเทคโนโลยขอมล 2 รปแบบ
1) ผลของการคนคนแบบสอบถามขอมล ดวยภาษาสอบถามแบบเอสควแอล เมอท าทดสอบ 1 ครงจะท าการคนคาหนวยความจ าส ารองใหม และบนทกเวลาการทดสอบจ านวน 3 ครง และใหมสตรบนทกผลการทดลองดงนโดยมสตรการบนทกดงน
สตรการบนทกผลการคนคนดวยภาษาเอสควแอล Query Time=End Time – Start Time
ตารางท 4.8 ผลของการคนคนแบบสอบถามขอมล ดวยภาษาสอบถามแบบเอสควแอล
จ านวน 1) รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)
2) รายงานจ านวนผปวยนอก รวมตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร)
ระเบยน เวลาทใช (วนาท)
ครงท 1 ครงท 2 ครงท 3 ครงท 1 ครงท 2 ครงท 3
500,000 1.8054 0.9399 0.9467 1.7556 0.9423 0.9376 1,000,000 4.2826 1.8771 1.8776 4.1826 1.8726 1.8765 5,000,000 164.1651 9.5381 9.6311 162.9354 9.6163 9.6357
10,000,000 413.7557 19.1024 19.2613 390.376 19.1001 19.1073
2) ผลของการคนคนแบบสอบถามขอมล ดวยเทคนคแมพรดว จ านวน 3 ครง การเกบ
ผลไมรวมขนตอนการน าผลออกเพอจดท าแสดงผลภาพดวยโปรแกรมเอกเซลและใหมสตรบนทกผลการทดลองดงนโดยมสตรการบนทกดงน
สตรการบนทกผลการคนคนดวยเทคนคแมพรดว MR j1 = Map j1 + Reduce j1 MR j2 = Map j2 + Reduce j2 Total Time = MR j1 + MR j2
83
ในขนตอนการบนทกผลของการประมวลผลเทคโนโลยขอมลขนาดใหญ ดวยเทคนควธแมพรดวนน โดยการเกบขนจากการรายงานผลของโปรแกรมเทคโนโลยขอมขนาดใหญของแตละงาน (Job) ดงตวอยางน
Map j1 : Total time spent by all maps in occupied slots (ms) = 9444 Reduce j1 : Total time spent by all reduces in occupied slots (ms) = 3813
ตารางท 4.9 ผลของการคนคนแบบสอบถามขอมล ดวยเทคนคแมพรดว
จ านวน เวลาทใช (วนาท) ระเบยน Map j1 Reduce j1 Map j2 Reduce j2
1 2 3 1 2 3 1 2 3 1 2 3
500,000 6.245 6.245 6.956 4.144 4.144 2.800 1.920 1.920 1.937 1.933 1.933 1.875 1,000,000 9.234 9.446 9.075 4.097 3.934 4.449 1.901 1.920 1.913 1.950 1.899 1.916 5,000,000 35.298 37.618 38.236 11.884 9.795 14.253 1.983 2.913 1.929 1.926 1.903 1.938
10,000,000 128.192 134.972 108.763 28.792 27.440 29.924 1.875 1.910 1.899 3.560 1.948 1.925
จากผลการทดลองทไดเพอใหสามารถท าการเปรยบเทยบประสทธภาพดานเวลาการ
ประมวลผลดวยภาษาเอสควแอลกบวธแมพรดว ไดใกลเคยงกบจดท ารายงานใหกระบวนการจดท ารายงานจรง ซงวธแมพรดวสามารถด าเนนการไดเพยงครงเดยวสามารถท าประมวลผลขอมลไดผลลพธออกรายงานได 2 รายงาน จงท าการสรปการเปรยบเทยบการประมวลผลดวยเอสควแอลน าผลรายงานทงสองมารวมกน รายงานตวอยางท 1 + รายงานตวอยางท 2 และรปแบบการประมวลผลแบบขนานเทคนคแมพรดว ในงาน MR j1 ผลรวมกบ MR j2 ดงสามารถสรปไดดงตารางท 4.10
ตารางท 4.10 ผลการเปรยบเทยบผลรวมจากการประมวลผลเทคโนโลยขอมล 2 รปแบบ
จ านวน ภาษาสอบถามเชงโครงสรางเอสควแอล รายงานท 1 + 2 หนวยเวลาเปน (วนาท)
ภาษาสอบถามดวยแทคนคแมพรดว MR j1 + MR j2 หนวยเวลาเปน (วนาท)
ระเบยน ครงท 1 ครงท 2 ครงท 3 ครงท 1 ครงท 2 ครงท 3 500,000 3.561 1.8822 1.8843 14.2420 14.2420 13.5680
1,000,000 8.4652 3.7497 3.7541 17.1820 17.1990 17.3530 5,000,000 327.1005 19.1544 19.2668 51.0910 52.2290 56.4460
10,000,000 804.1317 38.2025 38.3686 162.4190 166.2700 142.5110
84
ผลการเปรยบเทยบประสทธผลดานความแมนย าถกตองทง 2 ระบบ ท าการบนทกในตารางบนทกและไดด าเนนการเปรยบเทยบดวยคารอยละ (เปอรเซนต) ดงยกตวอยางรายงานทน ามาแสดงตารางท 4.11
ตารางท 4.11 สรปผลเปรยบเทยบความแมนย าถกตองจากการประมวลผล
รายงาน 10 ล าดบแรก จ านวนผปวยนอก ตามกลมสาเหตการปวย (ไมรวมกรงเทพมหานคร) กลม จ านวนผปวยนอก ผลความ
โรค สาเหตกลมการปวย 5 แสน 1 ลาน 5 ลาน 10 ลาน แมนย าถกตอง
SQL MR SQL MR SQL MR SQL MR รอยละ (%)
4 โรคเก ยวกบตอมไรทอ… 40475 40475 80330 80330 402100 402100 803921 803921 100%
9 โรคระบบไหลเวยนเลอด… 38240 38240 75508 75508 378424 378424 756420 756420 100%
10 โรคระบบหายใจ… 32872 32872 66079 66079 329670 329670 661610 661610 100%
11 โรคระบบยอยอาหาร… 24665 24665 49333 49333 245614 245614 492848 492848 100%
13 โรคระบบกลามเนอ… 22666 22666 45231 45231 226363 226363 451451 451451 100%
18 อาการแสดงและสงผดปกต… 19362 19362 37941 37941 190885 190885 382004 382004 100%
5 ภาวะแปรปรวนทางจต… 10265 10265 20439 20439 102636 102636 205790 205790 100%
1 โรคตดเชอและปรสต… 8916 8916 17652 17652 87787 87787 176598 176598 100%
14 โรคระบบสบพนธรวม… 8319 8319 17144 17144 84858 84858 169937 169937 100%
7 โรคตารวมสวนประกอบ… 6943 6943 13972 13972 69832 69832 140556 140556 100%
4.6 น าผลลพธทไดมาวเคราะหสถต
น าผลลพธทไดน ามาวเคราะหสถต มวตถประสงคเพอน าผลมาอภปรายผลทางสถต เลอกใชสถตเชงพรรณนา ประกอบดวยคาเฉลย, รอยละ(เปอรเซนต) และการแสดงผลดวยกราฟหรอแผนภม และสถตเชงอนมานจะใชคนหาค าตอบสมมตฐานทไดคาดการณไวลวงหนา
การรวบรวมผลการวจยเปนวนาท จากการประมวลผลจากเทคโนโลยระบบการจดการฐานขอมลเชงสมพนธ (RDBMS) จากตารางท 4.10 เปนรายงานทรวมผลโดยการรวบรวมรายงานตวอยางท 1 สรปรวมกบรายงานตวอยางท 2 ตามกลมจ านวนระเบยน และรปแบบการจดเกบแบบกระจายฮาดปและการประมวลผลแบบขนานแมพรดว ในงาน MR Job1 ผลรวมกบ MR Job 2 จากตาราง ดงตารางท 4.10 ท าการวเคราะหผลทางสถต t-Test: Paired Two Sample for Means ดวยโปรแกรมเอกเซล ไดสรปผลการวเคราะหดวยสถตตามกลมจ านวนระเบยนดงน
85
ตารางท 4.12 ผลการวเคราะห t-Test: Paired Two Sample for Means (5 แสนระเบยน)
ตารางท 4.13 ผลการวเคราะห t-Test: Paired Two Sample for Means (1 ลานระเบยน)
จ านวนการประมวลผล แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)
ครงท 1 14.242 3.561
ครงท 2 14.242 1.8822
ครงท 3 13.568 1.8843
แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)
Mean 14.01733333 2.4425
Variance 0.151425333 0.93828279
Observations 3 3
Pearson Correlation 0.49906095
Hypothesized Mean Difference 0
df 2
t Stat 23.73471762
P(T<=t) two-tail 0.001770424t Critical two-tail 4.30265273
ชดขอมล 5 แสนระเบยน
t-Test: Paired Two Sample for Means (500,000 Record)
จ านวนการประมวลผล แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)
ครงท 1 17.182 8.4652
ครงท 2 17.199 3.7497
ครงท 3 17.353 3.7541
แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)
Mean 17.24466667 5.323
Variance 0.008874333 7.40507047
Observations 3 3
Pearson Correlation -0.575440961
Hypothesized Mean Difference 0
df 2
t Stat 7.437026779
P(T<=t) two-tail 0.017604107t Critical two-tail 4.30265273
ชดขอมล 1 ลานระเบยน
t-Test: Paired Two Sample for Means (1,000,000 Record)
86
ตารางท 4.14 ผลการวเคราะห t-Test: Paired Two Sample for Means (5 ลานระเบยน)
ตารางท 4.15 ผลการวเคราะห t-Test: Paired Two Sample for Means (10 ลานระเบยน)
จากผลคาเฉลยทางสถตของทกชดขอมลสามารถน ามาด าเนนการจดตารางสรปผลคาเฉลยทางสถต ดงตารางท 4.16
จ านวนการประมวลผล แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)
ครงท 1 51.091 327.1005
ครงท 2 52.229 19.1544
ครงท 3 56.446 19.2668
แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)
Mean 53.25533333 121.8405667
Variance 7.959026333 31598.73333
Observations 3 3
Pearson Correlation -0.664156311
Hypothesized Mean Difference 0
df 2
t Stat -0.661260698
P(T<=t) two-tail 0.576433824t Critical two-tail 4.30265273
t-Test: Paired Two Sample for Means (5,000,000 Record)
ชดขอมล 5 ลานระเบยน
จ านวนการประมวลผล แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)
ครงท 1 162.419 804.1317
ครงท 2 166.270 38.2025
ครงท 3 142.511 38.3686
แมพรดว ( MR j1+MR j2) มายเอสควแอล (รายงาน 1+2)
Mean 157.0666667 293.5676
Variance 162.6081243 195506.7821
Observations 3 3
Pearson Correlation 0.363323549
Hypothesized Mean Difference 0
df 2
t Stat -0.540169293
P(T<=t) two-tail 0.643184955t Critical two-tail 4.30265273
ชดขอมล 10 ลานระเบยน
t-Test: Paired Two Sample for Means (10,000,000 Record)
87
ตารางท 4.16 ตารางสรปผลเวลาเฉลยการประมวลผลเทคโนโลยขอมล 2 รปแบบ (วนาท)
จากตารางสรปผลคาเฉลยสามารถน ามาด าเนนการจดท ากราฟเพอการวเคราะหผลคาเฉลยเปรยบเทยบเทคโนโลยขอมล 2 รปบแบบ ดงภาพท 4.5
ภาพท 4.5 กราฟแสดงผลเปรยบเทยบการประมวลผลเทคโนโลยขอมล 2 รปแบบ
จ านวนระเบยนขอมล 5 แสน 1 ลาน 5 ลาน 10 ลาน
MySQL 2.44 5.32 121.84 293.56
Hadoop / MapReduce 14.01 17.24 53.25 157.06
ตารางสรปผลเปรยบเทยบคาเฉลยเวลาการประมวลผล (วนาท)คาเฉลย (Mean)
88
4.7 สรปผลทไดจากการวเคราะหสถต จากสมมตฐานทคาดการณไว ลวงหนาวาผลลพธของเวลาในการคนคนขอมล เมอมการ
เปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธแตกตางกน ก าหนดคานยส าคญท 05.0 มผลค านวณสถต t-Test : Paired Two Sample for Means ดวยโปรแกรมเอกเซลดงน
ตารางท 4.12 สรปผลการวเคราะหคาเฉลยดวยสถต t-Test : Paired Two Sample for Means กลมขอมล 5 แสนระเบยน สามารถแปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.001 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = 23.73 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30
ตารางท 4.13 สรปผลการวเคราะหคาเฉลยดวยสถต t-Test: Paired Two Sample for Means กลมขอมล 1 ลานระเบยน สามารถแปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.017 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = 7.43 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30
ตารางท 4.14 สรปผลการวเคราะหคาเฉลยดวยสถต t-Test: Paired Two Sample for Means กลมขอมล 5 ลานระเบยน สามารถแปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.576 มากกวาคาแอลฟา 0.05 หรอคาสถต t = -0.661 มคาระหวางจดจดวกฤต (t Critical) -4.30 ถง 4.30
ตารางท 4.15 สรปผลการวเคราะหคาเฉลยดวยสถต t-Test: Paired Two Sample for Means กลมขอมล 10 ลานระเบยน สามารถแปลผลไดดงน เมอ P-Value (two tail) ทไดเทากบ 0.643 มากกวาคาแอลฟา 0.05 หรอคาสถต t = -0.54 มคาระหวางจดวกฤต (t Critical) -4.30 ถง 4.30
จากผลทดลองการสอบถามคนคนดวยเทคโนโลยขอมล 2 รปแบบ มความถกตองและแมนย าตรงกน 100% ในทกชดขอมลและทกรายงาน ตามตวอยางตารางท 4.11 เปรยบเทยบผลลพธการประมวลผลดวยรายงานตวอยางท 1 และรายงานตวอยางท 2 (ภาคผนวก ข)
4.8 สรปผลจากการทดลอง
สรปผลทไดจากการวเคราะห ผลลพธทจะไดจากการทดลอง ผวจยมแนวคดการเลอกการอภปรายผลออกเปน 3 สวนคอ
4.8.1 การวเคราะหผลดวยสถตเชงพรรณนาจากผลการทดลอง จากผลการทดลองการน าเขาในระบบฐานขอมลเชงสมพนธมคาทน าเสนอผล 2 สวน
ดงน 1) ขนาดหนวยความจขอมล 2) หนวยเวลาทใชในกระบวนการน าเขา จากการทดลองน าเขาขอมลทง 2 กลม จะสงเกตไดในตารางท 4.3 มหนวยความจทเพมขนจากไฟลทจดเตรยมไวกอนน าเขาในตารางท 4.2 ซงสวนนเปนคาโอเวอรเฮดในระบบฐานขอมลเปนสวนทน ามาใชในการจดการฐานขอมลควบคมการท างานของขอมล และสงเกตไดวาขนาดของไฟลและเวลาในการ
89
น าเขาระหวางกลมเทคโนโลยระบบขอมลขนาดใหญ และเทคโนโลยระบบขอมลฐานขอมลเชงสมพนธ (RDBMS) ในตารางท 4.3 นอยกวา แตหากน าไปเทยบกบตารางท 4.2 จะเพมขนเลกนอย
จากตารางท 4.8 และ 4.9 เปรยบเทยบผลการทดลองการประมวลผลขอมล 2 รปแบบ จากผลการทดลองหากเปรยบเทยบแตละชดขอมลมผลคาเฉลยรายงานตวอยางท 1 มากกวารายงาน 2 เลกนอย เนองจากมขนตอนการก าหนดล าดบการแสดงผลทเพมขน และผลกลม MR j1 มผลคาเฉลยมากทสดเปนผลจาก 2 ขนตอน คอหลงจากน าขอมลเขาจดเกบแบบกระจาย HDFS การเรยกคนคนขอมลโปรแกรมจะสงการประมวลผลและรวบรวมผลขอมลทถกจดเกบในแตเครอง Slave แลวน าผลลพธสงคนกลบมาใหเครอง Master และจะท าทกครงทมการประมวลผล และมค าสงการ Join หรอการเชอมสมพนธจะน าระเบยนทงหมดในแฟมผปวยนอกมาเชอมกบแฟม 21 กลมโรคหลกดวยรปแบบ Nested Loop Join หรอการเชอมสมพนธโดยไมมการจดเรยง ( Index) กอน ระเบยนมากขนยงใชเวลามากขน แลวน าผลรวมทไดจดเกบในไฟลผลลพธเพอใชในขนตอนตอไป ซงสงเกตไดวางาน MR j2 ใชเวลาใกลเคยงกนทกชดขอมล เนองจากขนตอนนใชผลจาก MR j1 น ามาประมวลผลใหมดวยการจบคขอมล รวม เรยงล าดบใหม และบนทกเปนผลลพธใหมไวในรปแบบเทกซไฟล (Text File)
จากตารางท 4.10 ผลของการคนคนแบบสอบถามขอมล ดวยภาษาสอบถามแบบมโครงสรางเอสควแอล จะสงเกตไดวาผลของครงท 1 ของการประมวลผลจากรายงานตวอยางท 1 และรายงานท 2 จะมผลมากกวาการประมวลผลครงท 2 และครงท เนองจากในระบบการจดการขอมลเชงสมพนธมการจดการทเรยกวาแคช (Cache) ซงในการทดลองไดมการใชค าสงเคลยรคาแคชดวยการใช Query Cache เปนการเคลยรคาทหนวยความจ าส ารอง (Ram) แตยงคงมผลกบการประมวลผลในครงแรกท าใหการประมวลผลในครงใชเวลามากกวาครงท 2 และครงท 3 ซงในการทดสอบผวจยไดทดสอบการเคลยรคาแคชดวยวธการรสตารทเครองเซรฟเวอรใหมพบวาในทกครงทมการปดและเปดเครองใหมการประมวลผลเรมตนจะใชเวลามากกวาอยเสมอ แตทวาในการสอบถามคนคนแบบเทคนควธแมพรดวจะใกลเคยงกนทกครงเนองจากในระบบเทคโนโลยขอมลขนาดใหญทใชในการทดสอบไมมฟงกชนการจดเกบขอมลทท าการประมวลผลในหนวยความจ า จงท าใหมผลใกลเคยงกนทกครง
น าผลคาเฉลยทางสถตจากตารางท 4.12 และ 4.13 และ 4.14 และ 4.15 น ามาด าเนนการจดตารางสรปผลคาเฉลย ดงตารางท 4.16 และจดท ากราฟเพอการวเคราะหแผนภาพ เมอน าผลรวมคาเฉลยทกขนตอน ระหวางผลความเรวการประมวลผลของฐานขอมลเชงสมพนธมายเอสควแอลดวยภาษาสอบถามเชงโครงสรางเอสควแอล (SQL) ทรวมคาเฉลยจากรายงานตวอยางท 1 และรายงานตวอยางท 2 เปรยบเทยบการประมวลผลเทคโนโลยขอมลขนาดใหญฮาดปและแมพรดวท
90
รวมคาเฉลย 2 ขนตอนแมพและรดว มผลคาเฉลยมากกวาทกชดขอมลทดสอบและมแนวโนมเพมมากขนตามชดขอมล ดงภาพกราฟท 4.5 เพอท าการหาจดตดของขอมลทเทคโนโลยระบบการจดการฐานขอมลเชงสมพนธ (RDBMS) มขอมลจ านวนระเบยนเทาใด ทประสทธภาพของ RDBMS ท างานมประสทธภาพนอยกวาเทคโนโลยขอมลขนาดใหญ สามารถน ามาเปนจดทตองการปรบเปลยน หรอน าเสนอการเตรยมความพรอมการปรบปรงจากระบบเดมไปสระบบใหม ในการใชงานรวมกบขอมลในระบบขอมลสขภาพส าหรบผลดานประสทธภาพความเรวทคาดหวงวาจะคนพบจดตดระหวางเพอเตรยมการปรบเปลยนระบบ และเลงเหนถงจดทตองควรปองกนจากการประมวลผลเพอเรยกรายงานไดไมทนตอความตองการใชงาน จากการทดลองนสามารถหาจดตดของกราฟดานผลความเรววาจดใด อยทจ านวนระเบยนขอมลโดยประมาณ 1 ลานระเบยน ทระบบฐานขอมลเชงสมพนธด าเนนการไดต ากวาหรอมประสทธภาพดอยกวาเทคโนโลยขอมลขนาดใหญฮาดปแลแมพรดว เปนจดทตองเรมมการพจารณาการปรบเปลยน
แตทงนการพจารณานเปนสวนของการเรยกใชงานการประมวลผลทตารางแฟมขอมลหลกจ านวน 9 คอลมนและแฟมขอมลเชอมสมพนธ 1 คอลมน และ 1 การเชอมสมพนธ (Join) เทานน การใชเวลาในการประมวลผลอาจจะมากขนตามล าดบหากมตารางแฟมขอมลในการเชอมโยงมากกวา 1 การเชอมโยงและหรอจ านวนคอลมนในแฟมขอมลมจ านวนมากขน
4.8.2 การวเคราะหผลดวยสถตอนมานทจะใชพสจนผลจากการตงสมมตฐาน จากสมมตฐานทคาดการณวาผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบ
ระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน สรปผลจากการทดลอง จากสมมตฐานทคาดการณไว ลวงหนาวาผลลพธของเวลาใน
การคนคนขอมล เมอมการเปรยบเทยบระหวางเทคโนโลยขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธแตกตางกน ในทกๆ ชดขอมล ดงน
ตารางท 4.12 กลมขอมล 5 แสนระเบยน เมอ P-Value (two tail) ทไดเทากบ 0.001 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = 23.73 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30 จงเปนการยอมรบสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ แตกตางกน
ตารางท 4.13 กลมขอมล 1 ลานระเบยน เมอ P-Value (two tail) ทไดเทากบ 0.017 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = 23.73 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30 จงเปนการยอมรบสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ แตกตางกน
ตารางท 4.14 กลมขอมล 5 ลานระเบยน เมอ P-Value (two tail) ทไดเทากบ 0.002 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = -0.661 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30 จงเปนการปฏเสธสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ ไมแตกตางกน เนองจากมายเอสควแอลใช
91
เวลาในการประมวลผลครงท 1 สง แตในครงท 2 และครงท 3 ลดลงเปนจ านวนมาก เพราะมระบบการสรางหนวยความจ าส ารอง (Cache) จงท าใหการวเคราะหดวยสถตมผลไมแตกตางกน
ตารางท 4.15 กลมขอมล 10 ลานระเบยน เมอ P-Value (two tail) ทไดเทากบ 0.003 นอยกวาคาแอลฟา 0.05 หรอคาสถต t = -0.540 มคามากกวาจดวกฤต (t Critical) -4.30 ถง 4.30 จงเปนการปฏเสธสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ ไมแตกตางกน 30 จงเปนการปฏเสธสมมตฐานวาเทคโนโลยขอมลทง 2 รปแบบ ไมแตกตางกน เนองจากมายเอสควแอลใชเวลาในการประมวลผลครงท 1 สง แตในครงท 2 และครงท 3 ลดลงเปนจ านวนมาก เพราะมระบบการสรางหนวยความจ าส ารอง (Cache) จงท าใหการวเคราะหดวยสถตมผลไมแตกตางกน
จากสมมตฐานทคาดการณไวลวงหนาวาผลลพธของเวลาการคนคนขอมลเมอมการเปรยบเทยบระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธทแตกตางกน นนการประเมนผลทางสถตมผลทยอมรบสมมตฐานเฉพาะในกลมชดขอมล 5 แสนและ 1 ลานระเบยน แตมการปฏเสธสมมตฐานในกลมชดขอมล 5 ลานและ 10 ลานระเบยน
ผวจยไดวเคราะหสาเหตจากการปฏเสธสมมตฐาน ผลกบการประมวลผลในครงแรกท าใหการประมวลผลในครง 1 ใชเวลามากกวาครงท 2 และครงท 3 ซงในการทดสอบผวจยไดทดสอบการเคลยรคาแคชดวยวธการรสตารทเครองเซรฟเวอรใหม พบวาในทกครงทมการปดและเปดเครองใหม เมอการประมวลผลเรมตนจะใชเวลามากกวาครงท 2 และ 3 อยเสมอ จงคาดวาเปนสาเหตในการทดสอบสมมตฐานทางสถตเกดความคลาดเคลอน
เนองจากในระบบการจดการฐานขอมลเชงสมพนธมระบบฟงกชนเพอชวยในการจดเกบขอมลทตองการเรยกใชงานบอยครง ในฮารดแวร (แรม, ฮารดดสก) เพอท าใหการคนหาในครงตอไปสะดวกและรวดเรวมากยงขน นอกจากนระบบการจดการฐานขอมลมายเอสควแอลยงมการจดการแคชอกหลายประเภท เชน Table Cache หรอ Thread Cache (Schwartz et al., 2012, pp. 353-354)
จากตารางท 4.11 ผลทดลองการเปรยบเทยบผลการสอบถามคนคนขอมลมความถกตองและแมนย าตรงกนของเทคโนโลย 2 รปแบบ พบวามผลลพธถกตองตรงกนในทกชดขอมลและทกรายงาน 100% ดงตวอยางทน ามาแสดงเปนรายงานท 1 ชดขอมล 5 แสนระเบยน และ 1 ลานระเบยน และ 5 ลานระเบยน และ 10 ลานระเบยน
สรปผลไดวาจากสมมตฐานทคาดการณไวลวงหนาวาผลลพธของความแมนย าถกตองการคนคนขอมลเมอมการเปรยบเทยบระหวางระบบขอมลขนาดใหญกบระบบฐานขอมลเชงสมพนธ มผลลพธไมแตกตางกน เปนการยอมรบสมมตฐาน
92
4.8.3 การวเคราะหผลดวยสถตเชงพรรณนาจากผลการทดลองน าไปเปรยบเทยบกบงานวจยทเกยวของ
การเปรยบเทยบกบงานวจยทเกยวของทมความใกลเคยงกบการวจยทดลองน ผลการทดลองทไดตางกบงานวจยทเกยวของทมการใชแมพรดว, ไฮฟและมายเอสควแอล ท าทดสอบดวยขอมลการช าระเงนของลกคาในธรกจขนาดเลก มขนาดขอมลตงแต 235MB – 9GB กบเครองจ านวน 1-4 เครอง ผลงานวจยนสรปวามายเอสควแอลจะใชเวลามากกวาแมพรดวและไฮฟทขนาดขอมลหนงหมนบญช 5GB ใชเวลา 25 นาท แมพรดวจะใชเวลาประมาณ 80 - 90 วนาท และในทกชดขอมลทดสอบโปรแกรมแมพรดวมประสทธภาพสม าเสมอและดทสด สามารถประมวลผลขอมลขนาดเลกไดด (Hollingsworth, 2012, pp. 43-44)
ซงสามารถสรปผลทไดจากการทดลองสอดคลองกบบทความวจยนทพบวาขนาดขอมล 682MB และมระเบยนขอมลสบลานจะใชเวลาในการประมวลดวยเทคโนโลยระบบขอมลขนาดใหญฮาดปและแมพรดวทมผลการทดลองท 157 วนาท นอยกวาการประมวลผลมายเอสควแอลทใชเวลา 293 วนาท จงสามารถสรปผลการทดลองไดวาเมอขอมลเรมมขนาดใหญขน การประมวลดวยเทคโนโลยขอมลขนาดใหญ อยางโปรแกรมโอเพนซอรสฮาดปและแมพรดวสามารถน ามาใชงานไดอยางเปนอยางดกบขอมลในระบบขอมลสขภาพ
ผลการทดลองทไดเทคโนโลยขอมลขนาดใหญเหมาะกบการใชงานประมวลผลชดขอมลขนาดใหญ (ชพนธ รตนโภคา, 2555, น. 27) เมอจ านวนขอมลเรมมขนาดใหญ ในการพจารณาควรพจารณาขอมลตงแตระดบขอมลจ านวนขอมลกกะไบต (GB) และเทราไบต (TB) และเพตาไบต (PB)
บทท 5 อภปรายผลงานวจย และขอเสนอแนะ
ในปจจบนเทคโนโลยระบบการจดเกบแบบกระจายและการประมวลผลแบบขนานทม
ในระบบนเวศขอมลขนาดใหญ เชน โปรแกรมโอเพนซอรสฮาดปและแมพรดวจะสามารถน ามาประมวลผลขอมลระบบสขภาพขนาดใหญจากคลงขอมลดานการแพทยและสขภาพทมการจดการฐานขอมลเชงสมพนธไดหรอไม และมแนวทางอยางไรหากตองปรบเปลยนวธการประมวลผล หรอหากจะตองประยกตใชกบสงทมอยเดมตองท าอยางไร ซงการท างานกบขอมลขนาดใหญจะมปญหาในการจดเกบขอมล การโอนยายขอมล และการส ารองขอมล อกทงการคนคนขอมลจะมวธการอยางไร ทจะชวยท าใหการจดการคนคนขอมล และน าขอมลจ านวนมากเหลานมาใชประโยชนไดภายในเวลาอนรวดเรวและมประสทธภาพมากทสด แตยงคงไวใหไดซงความแมนย าถกตองของขอมลทไดรบการคนคน ดวยความส าคญของคณภาพขอมลในระบบบรการสขภาพจากลกษณะส าคญ 4 สวนคอ ครบถวน ถกตอง ละเอยด และทนสมย
5.1 อภปรายงานวจย
การอภปรายผลการวจยจากการทดลองเพอคนหาค าตอบตามจดประสงคงานวจย 1) เพอศกษาแนวทางทเหมาะสมในการจดเกบขอมลบรการสขภาพบนสถาปตยกรรมขอมลขนาดใหญ 2) เพอเสรมสรางความรและความเขาใจในเทคโนโลยขอมล ระหวางเทคโนโลยขอมลขนาดใหญทมรปแบบการจดเกบแบบกระจาย (ฮาดป) และการประมวลผลแบบขนาน (แมพรดว) มสถาปตยกรรมการจดการขอมลและใชหลกการทางคณตศาสตร และรปแบบเทคนควธการสอบถามคนคนขอมลทแตกตางกนกบ ระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) และน ามาประยกตใชในการจดท าสถตขอมลการเจบปวย 3) เพอเปรยบเทยบประสทธภาพดานเวลาการประมวลผลและความถกตองแมนย าในการคนคนขอมล ผลการศกษาในงานวจยทเกยวของและจากผลการทดลองผวจยขอแบงการอภปรายผลเปนประเดนหวขอตามวตถประสงคงานวจย ดงน
5.1.1 เพอศกษาแนวทางทเหมาะสมในการจดเกบขอมลบรการสขภาพบนสถาปตยกรรมขอมลขนาดใหญ แบงการอภปรายผลดงน
94
เทคโนโลยการจดเกบแบบกระจายฮาดปและการประมวลผลแมพรดวสามารถน ามาประยกตใชรวมกนกบคลงขอมลดานการแพทยและสขภาพได ขอมลในระบบบรการสขภาพเปนขอมลทมการจดการขอมลแบบมโครงสรางเปนแฟมทมโครงสรางมาตรฐานในการจดเกบ 43+7 แฟมมาตรฐาน และเปนชดขอมลทมการเชอมความสมพนธกน โดยพจารณาจากผลจากการทดลองดงน
การจดเกบขอมลโดยการด าเนนการจบเกบในปจจบนมการการจดสงขอมลจดท าบนเครองลกขายระดบอ าเภอเขาสเครองแมขายระดบจงหวด การจดสงขอมล 43+7 แฟม จดท าบนเครองแมขายระดบจงหวดสเครองแมขายระดบเขตและกระทรวง การประมวลผลเพอจดท ารายงานสถตและดชนชวดบนเครองแมขายระดบจงหวด และบนเครองแมขายระดบเขต และกระทรวงสาธารณสขในระดบประเทศ เปนไฟลขอมลรปแบบเทกซไฟล ซงสามารถน าขอมลเขาใชงานในกรอบการท างานฮาดปไดทนท โปรแกรมฮาดปย งเปนโปรแกรมทสามารถรองรบไดกบ ระบบปฏบตการหลายรปแบบ มลกษณะการจดเกบแบบกระจายทมเทกซไฟลเปนไฟลขอมลหลก สามารถจดเกบไดทงแบบเครองเดยวและหลายเครอง จากผลการทดลองฮาดปใชพนทจดเกบนอยกวาและใชเวลาน าเขานอยกวา เนองจากในการจดการฐานขอมลเชงสมพนธมระบบควบคมการท างาน และผลของเวลาในการจดเกบในระบบฐานขอมลเชงสมพนธ ดงนนระบบฐานขอมลมการจดการเชงสมพนธจงเปนตนทนอกทางหนง หากเทยบกบเทคโนโลยฮาดปทมตนทนการจดเกบนอยกวา และเหมาะสมกบการจดเกบขอมลแบบเทกซไฟลในระบบงานปจจบน
การประมวลผลโดยกรอบการท างานแมพรดวมรปแบบวธการใชแบบจบค เปนการเขยนโปรแกรมประมวลผลดวยอลกอรทมควบคมความตองการขอมลผานการจบค Key/Value จากผลการทดลองสามารถน ามาใชกบชดขอมลระบบบรการสขภาพได โดยชดขอมลสบลานระเบยนมายเอสควแอลใชเวลาในการประมวลผล 2 รายงาน ใชเวลาการสอบถามคนคนขอมลมากกวา เปรยบเทยบกบการประมวลผลดวยเทคนคแมพรดว แมวาแมพรดวใชการประมวลผลครงเดยวได 2 รายงาน จากกราฟเปรยบเทยบรปท 4.5 จะเหนไดวาเมอชดขอมลมระเบยนเพมขนจะสงผลตอเวลาในการประมวลผลเปนล าดบและมแนวโนมเพมมากขน เมอขอมลเรมมจ านวนมากขนการประมวลผลจงเหมาะสมทจะเรมมการปรบเปลยนมาใชเทคโนโลยขอมลขนาดใหญ และผลลพธทไดการประมวลผลดวยโปรแกรมฮาดปและแมพรดวหากเทยบผลกบระบบฐานขอมลเชงสมพนธ มผลลพธถกตองตรงกนในทกชดขอมลและทกรายงานผลลพธจากการทดลอง (ภาคผนวก ข.)
ผวจยวเคราะหปจจยหรอสาเหตความเหมาะสมในการน าเทคโนโลยขอมลขนาดใหญมาใชงานกบขอมลระบบบรการสขภาพจากการทดลองพบวา การประมวลผลดวยแมพรดวนนมขนตอนมากกวาไมสงผลตอประสทธภาพดานเวลาในการประมวลผล เชน ขนตอน MR j1 ชดสบ
95
ลานใชเวลาเฉลย 157.06 วนาท. ใชเวลามากในขนตอนการเชอมสมพนธ และประมวลผลเพอนบจ านวนในแตละกลมโรคกอน ตางกบขนตอน MR j2 ชดสบลาน ใชประมวลผลรวมแตละกลมโรคจากไฟลทรบจาก MR j1 ดงนนในขนตอน MR j1 มผลตอเวลาการประมวลผลเพอคนคนขอมลมากทสด ซงเปรยบเทยบกบระบบการจดการฐานขอมลเชงสมพนธ (RDBMS) ทเมอขอมลเพมมากขนการเชอมสมพนธหรอการ Join จะใชเวลาในการประมวลผลเพมสงขน หากมการปรบปรงประสทธภาพการด าเนนการดงกลาวจะท าใหมประสทธภาพทางดานเวลามากขนไดสารสนเทศททนสมย สถาปตยกรรมนเปนทนยมอยางมากกบการค านวณแบบขนานใชงานกบขอมลขนาดใหญ ถงแมวาจะมวธการ ทมความหลากหลายของการพฒนาส าหรบเทคนคแมพรดว มไมกวธทสามารถจะบรรลเปาหมายทเหมาะสมในการท าประมวลผลแบบคขนาน และการเกดภาระงานทสมดลอกทงการท างานขามเครองทรวมอยภายในเครอขาย และเพมความเรวใหมากขน (Tao et al., 2013)
โปรแกรมฮาดปและแมพรดวจะมประสทธภาพสง ขนอยกบขนาดของขอมลในแตละงานทตองการประมวลผล และชดขอมลทเชอมสมพนธตองมการกรองขอมลไวลวงหนาจะสงผลดตอความเรว และสามารถใชประมวลผลกบชดขอมลทมโครงสรางเชงสมพนธได หากการน ามาใชงานตองเขาใจกระบวนการท างานในโปรแกรมเพอปรบการตงคาเรมตนใหเหมาะสม และปรบปรงวธเขยนโปรแกรมเพอประยกตใชกบงานในชดขอมลเฉพาะทตองการ และจ าเปนตองก าหนดรปแบบผลลพธไวลวงหนาจงจะเกดประสทธภาพอยางสงสด ผลจากการวจยพบวาการปรบปรงกระบวนการฮาดปในการขยายแบบขนมนยส าคญ ในการประเมนดานการใชพลงงานและการเพมชนการจดเกบ (Rack) และดานคาใชจาย อกทงยงมสวนของการใชงานภายในหนวยความจ าทมประสทธภาพ (Appuswamy et al., 2013)
แตยงมขอจ ากดทตองใชทรพยากรบคคลทมความเชยวชาญในการจดท าโปรแกรมเฉพาะทางนไวใหในแตละความตองการขอมลหรอแตละองคกรโดยเฉพาะ แตทวาผผลตสนบสนนการจดท าโปรแกรมเพอใหสามารถโปรแกรมเมอรประสบการณนอยใชงานไดงายและสะดวก (Dean & Ghemawat, 2008, p. 1) รปแบบวธการคนคนดวยโปรแกรมแมพรดวใชรปแบบการจดเกบลกษณะของแถวหรอระเบยนขอมลและท าการนบจากจ านวนตวอกษร (Digit) 3 ตวแรกของขอมลรหส ICD10 เพอท าการเชอมสมพนธกบขอมลหลก 21 กลมโรค และท าการเรยกคนขอมลดวยวธการนบจ านวน ซงเปนวธการทท าไดอยางมประสทธภาพและประสทธผลในการทดลอง แตการใชชดแบบสอบถามขอมลหากมการใชค าสงหรอโปรแกรมค าสงทไมเขาใจผลลพธทตองการ และชดขอมลทถกจดเตรยมไวไมถกตองและมคณภาพ หรอตรงตามผลลพธทตองการ อกทงการเชอมสมพนธของขอมลหากไมมคณภาพและถกตอง ตวแปรตนเหลานจะสงผลสง ท าใหตวแปรตาม คอผลลพธการประมวลผลผดพลาดได
96
ส าหรบผลดานประสทธภาพความเรวตามแนวคดทคาดหวงวาจะคนพบจดทการประมวลผลดวยระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) มประสทธภาพดอยกวาเทคโนโลยขอมลขนาดใหญทมรปแบบการจดเกบแบบกระจาย (ฮาดป) และการประมวลผลแบบขนาน (แมพรดว) เพอเตรยมการปรบเปลยนระบบ หรอเลงเหนถงจดทตองควรปองกนจากการประมวลผลเพอเรยกรายงาน จากการทดลองนสามารถหาจดตดของเสนกราฟดานผลความเรววาขอมลจ านวน 1 ลานระเบยน ระบบฐานขอมลเชงสมพนธด าเนนการไดหรอมประสทธภาพดอยกวาเทคโนโลยขอมลขนาดใหญฮาดปแลtแมพรดว
5.1.2 เพอเสรมสรางความรและความเขาใจในเทคโนโลยขอมล ระหวางเทคโนโลยขอมลขนาดใหญทมรปแบบการจดเกบแบบกระจาย (ฮาดป) และการประมวลผลแบบขนาน (แมพรดว) มสถาปตยกรรมการจดการขอมลและใชหลกการทางคณตศาสตรและรปแบบเทคนควธการสอบถามคนคนขอมลทแตกตางกนกบ ระบบการจดการฐานขอมลเชงสมพนธ (มายเอสควแอล) และน ามาประยกตใชในการจดท าสถตขอมลการเจบปวย ระบบฐานขอมลเชงสมพนธ (RDBMS) มขอแตกตางกบเทคโนโลยขอมลขนาดใหญ แบงการอภปรายผลไดดงน
1) ใชขนตอนทตางกนในการคนคนขอมล เชน RDBMS จดเรยงกอนแสดงผลคนขอมล แตแมพรดว ขนอยกบแตละการเขยนโปรแกรมเพอการสอบถามคนคนขอมล
2) ใชหลกทางคณตศาสตรตางกนในการคนคนขอมล เชน RDBMS ใชทฤษฏเซต แต แมพรดวใชแบบอารเรย
3) รปแบบการเรยกคนตางกน เชน RDBMS ใชภาษามโครงสรางเอสควแอลเพยงอยางเดยว แตแมพรดวมการเขยนโปรแกรมแบบมอลกอรทม และสามารถเขยนไดหลากหลายรปแบบ
4) การจดการขอมลตางกน เชน RDBMS มการจดการฐานขอมลตามคณสมบต ACID และแบบตารางสมพนธ แตแมพรดวใชรปแบบการจบคขอมล (Key/Value)
5.1.3 เพอเปรยบเทยบประสทธภาพดานเวลาการประมวลผล และความถกตองแมนย าในการคนคนขอมล แบงการอภปรายผลเปน 2 หวขอ ดงน
เทคโนโลยการจดเกบแบบกระจายฮาดปและการประมวลผลแมพรดวสามารถน ามาประยกตใชเพอการประมวลผลขอมลจากคลงขอมลดานการแพทยและสขภาพใหไดผลลพธไดรวดเรวขน การใชชดแบบสอบถามขอมลหากมการเรยกใชค าสงทไมเขาใจผลลพธทตองการลวงหนา และมการปรบปรงกระบวนการคนคนเพอเพมประสทธภาพ พบวาตวแปรตนกลมนมความสมพนธโดยตรงทจะสงผลตอตวแปรตาม คอเวลาทใชในการประมวลผลขอมล
เทคโนโลยการจดเกบแบบกระจายฮาดปและการประมวลผลแมพรดวสามารถน ามาประยกตใชเพอการประมวลผลขอมลจากคลงขอมลระบบบรการสขภาพได และสามารถใชงาน
97
ไดผลลพธในการคนคนทถกตอง และหากมการปรบปรงกระบวนการคนคนเพอเพมประสทธภาพ พบวาตวแปรตนเหลานไมสงผลตอตวแปรตาม คอผลลพธการประมวลผล 5.2 ขอเสนอแนะ
5.2.1 การจบค เชอมความสมพนธทดในการเขยนโปรแกรมแมพรดวจะท าใหไดผลลพธทถกตอง และขอมลทใชในการเชอมความสมพนธตองเขาใจประเภทของขอมลทใชในการจบคความสมพนธ และตองท าความเขาใจผลลพธทตองการวาตองการแสดงผลรปแบบใด เพอควบคมคณภาพการเขยนโปรแกรมใหไดตามผลลพธทตองการ จงจะเปลยนขอมลใหออกมาเปนสารสนเทศทถกตองในรปแบบทตองการ เพอใหผใชสามารถน าไปใชงานตอไดอยางมคณภาพ เชน ในการเรยกใชตามรายงานตวอยางในการทดลองตองการตามรหสกลมโรค ซงเปนรหสทรวมรหส ICD10 หลายรหสเขาดวยกน เชน A00-A99 เปนตน
5.2.2 ผลของการคนคนแบบสอบถามขอมล ดวยภาษาสอบถามแบบมโครงสรางเอสควแอล จะสงเกตไดวาผลของครงท 1 ของการประมวลผลจากรายงานตวอยางท 1 และรายงานท 2 จะมผลมากกวาการประมวลผลครงท 2 และครงท เนองจากในระบบการจดการขอมลเชงสมพนธมการจดการทเรยกวาแคช (Cache) ซงในการทดลองไดมการใชค าสงเคลยรคาแคชดวยการใช Query Cache เปนการเคลยรคาทหนวยความจ าส ารอง (Ram) แตยงคงมผลกบการประมวลผลในครงแรกท าใหการประมวลผลในครง 1 ใชเวลามากกวาครงท 2 และครงท 3 ซงในการทดสอบผวจยไดทดสอบการเคลยรคาแคชดวยวธการรสตารทเครองเซรฟเวอรใหม พบวาในทกครงทมการปดและเปดเครองใหม เมอการประมวลผลเรมตนจะใชเวลามากกวาครงท 2 และ 3 อยเสมอ จงเปนสาเหตในการทดสอบสมมตฐานทางสถตเกดความคลาดเคลอนได ผวจยจงน าเสนอหากมงานวจยเพอการเปรยบเทยบกบงานวจยน ควรจะมการปรบปรงในสวนของหนวยความจ าดงกลาว และการก าหนดแผนการทดสอบ โดยทยงไมไดค านงถงผลของปจจยอนๆ ของระบบฐานขอมลเชงสมพนธอาจจะท าใหผลการทดสอบของสมมตฐานทางสถตเกดคลาดเคลอนได หรอหาสถตวจยอนทเหมาะสมมากกวาเพอท าการวจยตอไป
5.2.3 ในดานความปลอดภยของระบบจดเกบรปแบบเทกซไฟลเปนอกหนงเรองทตองน ามาพจารณาในการปองกนการเขาถง ควรก าหนดขอบเขตใหผใช ใชไดเฉพาะสวนงานทเกยวของและควรใชอยในพนทศนยขอมลจะปลอดภยสง การรกษาความปลอดภยเปนหนงในประเดนทส าคญทสดของการจดเกบขอมลสมยใหม ประเภทของขอมลทส าคญหรอขอมลสวนบคคลสามารถทเกบไวใน NoSQL ควรมความปลอดภยจากหวขอทควรตรวจสอบดงน 1.การรบรองความถกตอง (Authentication) 2.การใหสทธ (Authorization) 3.การตรวจสอบ (Auditing) 4.การเขารหส
98
(Encryption) กลายเปนความกงวลหลกส าหรบบรษททจะเลอกเทคโนโลยขอมลขนาดใหญทจะน ามาใชน (Gurevich, 2015, pp. 52-54) จงสามารถน ามาเปนงานการวจยเพมเตมตอไป
5.2.4 จากผลรวมคาเฉลยความเรว ผวจยสงเกตในขนตอนการทดสอบ เมอเทยบขนตอนการประมวลผลกนแลวพบวาหากใชขนตอนในการเขยนค าสงโปรแกรมแมพรดวใหเหมอนหรอใกลเคยงกบขนตอนของการใชภาษาสอบถามเชงโครงสรางเอสควแอล จะเปนการลดเวลาในขนตอนการประมวลผลได ในสวนการจบคเชอมความสมพนธลงได อกทงการเพมการเรยงล าดบอนเดกซไวลวงหนา การสรางคอลเลคชนชวคราวขนมากอนทจะเชอมกนนนจะท าใหการเชอมคอลเลคชนท าไดเรวขน (นรทธ รวยรน และ เกรยงไกร ปอแกว, 2557, น. 28) และการก าหนดขนาดบลอกขอมลใน HDFS จะเปนการเพมประสทธภาพความเรวได ในการก าหนดการใชงานควรจะก าหนดคณสมบตของโปรแกรมการประมวลผลแบบกระจายฮาดปไวทขนาดบลอกไซต 128MB ซงศกษาวธการเพมประสทธภาพเพมเตมได
5.2.5 ผวจยจงขอน าเสนอแนวทางการน าไปใชรวมกบขอมลบรการสขภาพ เทคโนโลยขอมลขนาดใหญสามารถน ามาใชงานรวมกบขอมลในระบบฐานขอมลเชงสมพนธแบบมโครงสรางได สามารถจดเกบขอมลและน ามาวเคราะหขอมลระบบบรการสขภาพได อางองจากผลการทดสอบในงานวจยนทพบวาการจดเกบขอมลแบบกระจายฮาดป และการประมวลผลแบบขนานแมพรดว น ามาใชประมวลผลขอมลบรการสขภาพมความถกตองแมนย าของผลลพธ สามารถน าจดท าแบบ ETL (Extract Transform Load) ได หรอการแตกไฟลเทกไฟลออกและท าความสะอาดขอมลและท าการน าเขาในระบบโปรแกรมฮาดป ในปจจบนมระบบเทคโนโลยสนบสนนหลายรปแบบทสามารถน ามาใชการประมวลผลนอกเหนอจากแมพรดว เชน ในระบบขอมลขนาดใหญหรอ Big Data Eco System เชน HBase หรอ Hive หรอโปรแกรมอนๆ เชน Spark หรอโปรแกรม Tajo เปนโปรแกรมทสามารถน ามาใชเปนแบบสอบถามคนคนขอมลรวมกบเทคโนโลยการจดเกบแบบกระจายฮาดปได ทสามารถใชงานรปแบบภาษาสอบถามเอสควแอลได ความพรอมของซอรฟแวรทจะน ามาใชรองรบการท างานใหเกดประสทธภาพและเกดประโยชนมากทสด การเลอกแพลตฟอรมทเหมาะสมส าหรบการใชงานเฉพาะขนอยกบความตองการใชงานขอมลเฉพาะองคกร หรออาจจะใชหลายแพลตฟอรมรวมกน (Singh and Reddy, 2014)
99
ภาพท 5.1 แนวทางทผวจยน าเสนอการประมวลผลแบบ ETL (Extract Transform Load)
บรษทขนาดใหญน าฮาดปและแมพรดว น าไปใชงานในหลากหลายลกษณะของงานและมประสทธภาพของงาน ดวยวธการพฒนาอลกอรทมใหมความยดหยนและปรบขนาดขยายไดในฮาดป วตถประสงคหลกการออกแบบเพอใหสามารถใชงานขอมลแบบฐานขอมลใชงานรวมกบแมพรดวใหสามารถใชงานไดงาย และยงสนบสนนการเขยนภาษาสครปตเพอใชงานแบบสอบถามเชงโครงสรางเอสควแอล ซงพฒนาอยในกรอบของแมพรดว ซงอยางไรกตามวธการทงหมดนสามารถใชงานไดในรปแบบทแตกตางกน และลกษณะชดขอมลทแตกตางกนกมผลในการเลอกใชวธการ แตยงมการใชงานใแมพรดวรวมกบสนบสนนฐานขอมลได (Khanam & Agarwal, 2015, p. 124) 5.3 งานวจยในอนาคต
5.3.1 เทคโนโลยการจดเกบแบบกระจายฮาดปและการประมวลผลแมพรดว สามารถน ามาประยกตใชเพอการประมวลผลแบบทนทเมอมอนพตขอมลเขามาใหมไดหรอไม โดยการน าขอมลระบบบรการสขน ามาใชงานเปรยบเทยบกบระบบเทคโนโลยขอมลอน ทมความคณสมบตทสามารถประมวลผลไดแบบทนท (Real-time processing) เชน เทคโนโลยขอมลขนาดใหญประเภท NewSQL ทสามารถรองรบกบภาษาสอบถามเชงโครงสรางเอสควแอลได หรอเทคโนโลยขอมลอนๆ ทสามารถใชงานในระบบการจดเกบแบบกระจายฮาดปได
5.3.2 การทดลองครงนมการเรยกใชงานการประมวลผลทมตารางแฟมขอมลหลก จ านวน 9 คอลมน และแฟมขอมลเชอมสมพนธ 1 คอลมน และ 1 การเชอมสมพนธ (Join) เทานน การใชเวลาในการประมวลผลอาจจะมากขนตามล าดบหากมตารางแฟมขอมลในการเชอมโยงมากกวา 1 การเชอมโยงและหรอจ านวนคอลมนในแฟมขอมลมจ านวนมากขน ควรมการทดลองเพมเตมในสวน
100
ของการใชแฟมขอมลทมากกวา 2 ตาราง และมการเชอมความสมพนธมากกวา 1 ความสมพนธเพอดผลกระทบทเกดขนจากการประมวลผลวามผลตอเทคโนโลยขอมลขนาดใหญหรอไม
5.3.3 เทคโนโลยการจดเกบแบบกระจายฮาดปมวธการค านวณคาใชจายในการใชทรพยากรหลก เชน ซพย และแรม และสตอเรจ หรอ I/O หรอไม สามารถน ามาใชเพอหาความคมคาในการใชงานไดหรอไม งานวจยในอนาคตควรจะใชท าการศกษาเพมเตมได ดวยการเพมจ านวนเครองเซรฟเวอรในระบบเครอขายตามหลกการใชงานจรงทงในศนยคอมพวเตอรของกระทรวงและหรอของระดบเขตและระดบจงหวดเพอสามารถน ามาประยกตตามการใชงานจรงได
5.3.4 เนองจากรายงานตวอยางทง 2 รายงาน ทใชประโยชนในการสบคน มการออกรายงานเพยงปละ 1 ครง หรอเดอนละ 1 ครง เทานน ท าใหดเหมอนวาเวลาทระบบการจดการฐานขอมลมายเอสควแอลทประมวลผลดวยภาษาสอบถามเชงโครงสรางเอสควแอลใชในการออกรายงานทมากกวา จะไมเปนปญหากบหนวยงานในสาธารณสขเทาใด จงควรเลอกโจทยเปนรายงานทออกทกวนหรอทกสปดาห เพอใหทราบวาจะมผลกระทบมากกวาในการปฏบตงานจรงหรอไมในงานวจยครงตอไป
5.3.5 การทดลองแบบสอบถามอนๆ เพมเตม แบบสอบถามทมความหลากหลายของการเรยกใชรายงาน สมควรจะมการทดลองเพมเตมเนองจากในลกษณะการปฏบตงานจรงจะมรายงานทหลากหลายรปแบบ กบค าสงทใชสอบถามคนคนทหลากหลายมากกวา เพอเปรยบเทยบใหเหนความแตกตาง และประสทธภาพทชดเจน เนองจากบางค าสงภาษาสอบถามเอสควแอลอาจจะท าไดรวดเรวมากกวา แตในบางสถานการณหรอบางรายงานหรอบางชดแบบสอบถามอาจจะไมเหมาะกบการใชงานดวยโปรแกรมการประมวลผลดวยเทคนคแมพรดว
บรรณานกรม
102
บรรณานกรม ภาษาไทย กระทรวงสาธารณสข. ส านกบรหารการสาธารณสข. (2555). แผนพฒนาระบบบรการสขภาพ
(Service Plan). กรงเทพฯ: ชมชนสหกรณการเกษตร. น. 1. กระทรวงสาธารณสข. ศนยเทคโนโลยสารสนเทศและการสอสาร. (2559). ยทธศาสตรเทคโนโลย
สารสนเทศสขภาพ ป 2559–2556 (ฉบบรางไมมตพมพ). ส านกงานปลดกระทรวงสาธารณสข, นนทบร. น. 58.
กระทรวงสาธารณสข. ส านกนโยบายและยทธศาสตร. (2559). คมอการปฏบตงานการจดเกบและจดสงขอมลตามโครงสรางมาตรฐานขอมลสขภาพ กระทรวงสาธารณสข Version 2.1 (มกราคม 2559) ปงบประมาณ 2559. กรงเทพฯ: เอสพ กอปปปรน. น. 36.
กระทรวงสาธารณสข. ส านกนโยบายและยทธศาสตร. (2556). สรปรายงานการปวย พ.ศ.2557. นนทบร: องคการสงเคราะหทหารผานศก. น. 5-15.
กระทรวงสาธารณสข. ส านกนโยบายและยทธศาสตร. (2553). บญชจ าแนกโรคระหวางประเทศ ฉบบประเทศไทย (องกฤษ-ไทย) ICD-10-TM for PCU : ตารางการจดกลมและดรรชนรหสหตถการ. นนทบร: องคการสงเคราะหทหารผานศก. น. 1.
เกรยงศกด เจรญวงศศกด. (2553). การคดเชงวเคราะห (พมพครงท 5). กรงเทพฯ: ซคเซสมเดย. น. 74-75. โกสนทร จ านงไทย. (2559). การท าวจยและเขยนบทความวจย ในสายวศวกรรมศาสตร
เทคโนโลย และวทยาศาสตร. กรงเทพฯ: ส านกพมพแหงจฬาลงกรณมหาวทยาลย. น. 231. ชาญชย ศภอรรถกร. (2557). จดการฐานขอมลดวย MySQL ฉบบสมบรณ (พมพครงท 5).
กรงเทพฯ: รไววา. น. 125-126. ชยาพร แกนสาร. (2555, กนยายน–ธนวาคม). การวเคราะหแผนการสบคนเพอประเมน
ประสทธภาพการท างานของออพตไมเซอรทมตอค าสงเอสควแอลแบบซเลกชน. วารสารวชาการพระจอมเกลาพระนครเหนอ, 22(3), 721-734.
ชพนธ รตนโภคา. (2555, กนยายน–ธนวาคม). การออกแบบและพฒนาระบบคนหาขอมลจราจรทางคอมพวเตอรดวยวธ Map/Reduce บนกรอบการท างานของ Hadoop. วารสารวชาการเทคโนโลยอตสาหกรรม, 8(3), 18-27.
103
นรทธ รวยรน, เกรยงไกร ปอแกว, (2557, เมษายน-มถนายน). การใชแมพรดวซเชอมคอลเลคชนของฐานขอมลโนเอสควแอลบนมองโกดบ. วารสารวจย มข.(บศ.), 14(2), 23-34.
นวรตน สวรรณผอง, มธรส ทพยมงคลกล, ทองหลอ เดชไทย, และนพพร โหวธระกล. (2557). นโยบายสขภาพ : การจดท า วเคราะหและประเมนผล.
นครปฐม: ส านกพมพมหาวทยาลยมหดล. น. 183-187. ประกายมาศ ศรสขทกษณ, ผสด บญรอด, (2557, พฤษภาคม). การเปรยบเทยบความเรวในการ
ประมวลผลระหวางฐานขอมลเชงสมพนธและฐานขอมลไมสมพนธแบบเอกสาร. The Tenth National Conference on Computing and Information Technology, 281-286. ผสด บญรอด, ประกายมาศ ศรสขทกษณ, (2558, พฤษภาคม-สงหาคม). การคนคนขอมลขนาด
ใหญโดยใชภาษาสอบถามแบบไมมโครงสรางรวมกบเทคโนโลยเวบเชงความหมาย. วารสารวชาการพระจอมเกลาพระนครเหนอ, 25(2), 255-264.
เมธ จนทจารภรณ. (2556). การจดการเชงกลยทธในการพฒนาสขภาพ : หนวยท 5 ขอมลและสารสนเทศเชงกลยทธ (พมพครงท 2). นนทบร: มหาวทยลยสโขทยธรรมาธราช. น. 2.
มหาวทยาลยสโขทยธรรมาธราช. บณฑตศกษา . (2546). การวจยทางสารสนเทศศาสตร. นนทบร: มหาวทยาลยสโขทยธรรมาธราช. น. 313-350. สชาดา กระนนทน. (2544). เทคโนโลยสารสนเทศสถต : ขอมลในระบบสารสนเทศ (พมพครงท 4). กรงเทพฯ: โรงพมพแหงจฬาลงกรณมหาวทยาลย. น. 94 สน พนธพนจ. (2555). เทคนคการวจยทางวทยาศาสตร (พมพครงท 2). กรงเทพฯ: พมพดการพมพ. น. 141-142. โอภาส เอยมสรวงศ. (2558). ระบบฐานขอมล : ฉบบปรบปรงเพมเตม. กรงเทพฯ: ซเอดยเคชน. น. 37-40. โอภาส เอยมสรวงศ, และสมโภชน ชนเอยม. (2558). คณตศาสตรคอมพวเตอร. กรงเทพฯ: ว.พรนท(1991). น. 205-219.
104
ภาษาตางประเทศ Appuswamy R., & Gkantsidis C., & Narayanan D., Hodson O., & Rowstron, A. (2013). Scale-up
vs Scale-out for Hadoop: Time to rethink?. SoCC’13. Retrieved June 27, 2016, from http://dl.acm.org/citation.cfm?id=2523629
Bhosale S. H., & Gadekar P. D. (2014). A Review Paper on Big Data and Hadoop. International Journal of Scientific and Research Publications, 4(10), 1-7.
Dean J., & Ghemawat S. (2004). MapReduce: Simplied Data Processing on Large Clusters. Google Inc., OSDI 2004, 51(1), 107-113. Retrieved June 28, 2016, from http://dl.acm.org/citation.cfm?id=1327492
Fegaras L., & Li C., & Gupta, U. (2012). An Optimization Framework for Map-Reduce Queries. EDBT2012. Retrieved June 28, 2016, from http://dl.acm.org/citation.cfm?id=2247601
Gunarathne, T., & Perera S. (2015). Hadoop MapReduce v2 Cookbook Second Edition. (2nd eds.) Birmingham, UK: Packt Publishing. pp. 60- 66.
Gurevich Y., (2015). Comparative Survey of NoSQL / NewSQL DB Systems. (Department Computer Science, The Open University of Israel, Ra’anana). 30-31. Retrieved
July 3, 2016, from http://www.openu.ac.il/lists/mediaserver_documents/academic/cs/ ComparativeSurvey.pdf Hollingsworth R. M., (2012). Hadoop and Hive as Scalable Alternatives to RDBMS: A Case
Study. (Department of Computer Science, Boise State University, Boise). Retrieved June 28, 2016, from http://scholarworks.boisestate.edu/cs_gradproj/2/
Khanam, Z., & Agarwal, S. (2015). Map-Reduce Implementations: Survey And Performance Comparison. International Journal of Computer Science & Information Technology
(IJCSIT), 7(4), 119-126. Miner, D., & Shook, A. (2012). MapReduce Design Pattern. CA: O’Reilly Media. pp. 4-7. Sareen P., & Kumar P. (2015). NoSQL Database and its Comparison With SQL Database.
International Journal of Computer Science & Communication Networks, 5(5), 293-298. Schwartz, B., Zaitsev, P., & Tkachenko, V. (2012). High Performance MySQL Third Edition.
CA: O’Reilly Media. pp. 210-238.
105
Singh D., & Reddy K. C. (2014). A survey on platforms for big data analytics. Journal of Big Data, 1(8), 1-20. Retrieved July 7, 2016, from http://www.journalofbigdata.com/content/1/1/8
Tao Y., & Lin W., & Xiao, X. (2013). Minimal MapReduce Algorithms. SIGMOD’13, 529-540. Retrieved June 28, 2016, from http://dl.acm.org/citation.cfm?id=2463719
Vicknair C., Macias M., Zhao Z., Nan X., Chen Y., & Wilkins, D. (2010). A Comparison of a Graph Database and a Relational Database. ACM SE’10, 15(17).
Retrieved June 29, 2016, from http://dl.acm.org/citation.cfm?id=1900067 White, T. (2012). Hadoop The Definitive Guide. (3rd ed.). CA: O’Reilly Media. pp. 13–14.
ภาคผนวก
ภาคผนวก ก
รายงานการเจบปวย พ.ศ.2537
ขอมลการปวยผปวยนอก
108
109
110
111
112
113
ภาคผนวก ข
ผลลพธการทดลองแบบสอบถามคนคนขอมล
115
1. การแสดงผลลพธ SQL รายงาน 1 จ านวนขอมล 500,000 ระเบยน
116
2. การแสดงผลลพธ MapReduce รายงาน 1 จ านวนขอมล 500,000 ระเบยน
117
3. การแสดงผลลพธ MapReduce รายงาน 1 และ รายงาน 2 จ านวนขอมล 500,000 ระเบยน
ICD-10 Group Total
โรคเกยวกบตอมไรทอ โภชนาการ และเมตะบอลสม 4 40,475.00
โรคระบบไหลเวยนเลอด 9 38,240.00
โรคระบบหายใจ 10 32,872.00
โรคระบบยอยอาหาร รวมโรคในชองปาก 11 24,665.00
โรคระบบกลามเนอ รวมโครงราง และเนอยดเสรม 13 22,666.00
อาการแสดงและสงผดปกตทพบไดจากการตรวจทางคลนกและทาง
หองปฏบตการทไมสามารถจ าแนกโรคในกลมอ 18 19,362.00
ภาวะแปรปรวนทางจตและพฤตกรรม 5 10,265.00
โรคตดเชอและปรสต 1 8,916.00
โรคระบบสบพนธรวมปสสาวะ 14 8,319.00
โรคตารวมสวนประกอบของตา 7 6,943.00
โรคผวหนงและเนอเยอใตผวหนง 12 6,919.00
สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย 21 4,295.00
โรคระบบประสาท 6 4,254.00
โรคหและปมกกห 8 2,010.00
โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน 3 1,732.00
เนองอก 2 1,691.00
ภาวะแทรกในการตงครรภ การคลอด และระยะหลงคลอด 15 1,125.00
อบตเหตจากการขนสง และผลทตามมา 20 1,035.00
ภาวะผดปกตของทารกแรกเกดขนในระยะปรก าหนด 16 355.00
รปรางผดปกตแตก าเนด การพการจนผดรปแตก าเนดและโครโมโซมผดปกต 17 263.00
การเปนพษและผลทตามมา 19 47.00
118
4. การแสดงผลลพธ SQL รายงาน 1 จ านวนขอมล 1,000,000 ระเบยน
119
5. การแสดงผลลพธ SQL รายงาน 2 จ านวนขอมล 1,000,000 ระเบยน
120
6. การแสดงผลลพธ MapReduce รายงาน 1 และ รายงาน 2 จ านวนขอมล 1,000,000 ระเบยน
ICD-10 Group Total
โรคเกยวกบตอมไรทอ โภชนาการ และเมตะบอลสม 4 80,330
โรคระบบไหลเวยนเลอด 9 75,508
โรคระบบหายใจ 10 66,079
โรคระบบยอยอาหาร รวมโรคในชองปาก 11 49,333
โรคระบบกลามเนอ รวมโครงราง และเนอยดเสรม 13 45,231
อาการแสดงและสงผดปกตทพบไดจากการตรวจทางคลนกและทางหองปฏบตการทไม
สามารถจ าแนกโรคในกลมอ 18 37,941
ภาวะแปรปรวนทางจตและพฤตกรรม 5 20,439
โรคตดเชอและปรสต 1 17,652
โรคระบบสบพนธรวมปสสาวะ 14 17,144
โรคตารวมสวนประกอบของตา 7 13,972
โรคผวหนงและเนอเยอใตผวหนง 12 13,574
สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย 21 8,795
โรคระบบประสาท 6 8,451
โรคหและปมกกห 8 3,947
โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน 3 3,435
เนองอก 2 3,405
ภาวะแทรกในการตงครรภ การคลอด และระยะหลงคลอด 15 2,181
อบตเหตจากการขนสง และผลทตามมา 20 1,995
ภาวะผดปกตของทารกแรกเกดขนในระยะปรก าหนด 16 790
รปรางผดปกตแตก าเนด การพการจนผดรปแตก าเนดและโครโมโซมผดปกต 17 600
การเปนพษและผลทตามมา 19 97
121
7. การแสดงผลลพธ SQL รายงาน 1 จ านวนขอมล 5,000,000 ระเบยน
122
8. การแสดงผลลพธ SQL รายงาน 2 จ านวนขอมล 5,000,000 ระเบยน
123
9. การแสดงผลลพธ MapReduce รายงาน 1 และ รายงาน 2 จ านวนขอมล 5,000,000 ระเบยน
ICD-10 Group Total
โรคเกยวกบตอมไรทอ โภชนาการ และเมตะบอลสม 4 402,100
โรคระบบไหลเวยนเลอด 9 378,424
โรคระบบหายใจ 10 329,670
โรคระบบยอยอาหาร รวมโรคในชองปาก 11 245,614
โรคระบบกลามเนอ รวมโครงราง และเนอยดเสรม 13 226,363
อาการแสดงและสงผดปกตทพบไดจากการตรวจทางคลนกและทางหองปฏบตการ
ทไมสามารถจ าแนกโรคในกลมอ 18 190,885
ภาวะแปรปรวนทางจตและพฤตกรรม 5 102,636
โรคตดเชอและปรสต 1 87,787
โรคระบบสบพนธรวมปสสาวะ 14 84,858
โรคตารวมสวนประกอบของตา 7 69,832
โรคผวหนงและเนอเยอใตผวหนง 12 68,727
สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย 21 43,910
โรคระบบประสาท 6 42,980
โรคหและปมกกห 8 19,171
โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน 3 17,340
เนองอก 2 16,922
ภาวะแทรกในการตงครรภ การคลอด และระยะหลงคลอด 15 11,142
อบตเหตจากการขนสง และผลทตามมา 20 10,130
ภาวะผดปกตของทารกแรกเกดขนในระยะปรก าหนด 16 3,822
รปรางผดปกตแตก าเนด การพการจนผดรปแตก าเนดและโครโมโซมผดปกต 17 2,933
การเปนพษและผลทตามมา 19 469
124
10. การแสดงผลลพธ SQL รายงาน 1 จ านวนขอมล 10,000,000 ระเบยน
125
11. การแสดงผลลพธ SQL รายงาน 2 จ านวนขอมล 10,000,000 ระเบยน
126
12. การแสดงผลลพธ MapReduce รายงาน 1 และ รายงาน 2 จ านวนขอมล 10,000,000 ระเบยน
ICD-10 GROUP Total
โรคเกยวกบตอมไรทอ โภชนาการ และเมตะบอลสม 4 803,920
โรคระบบไหลเวยนเลอด 9 756,420
โรคระบบหายใจ 10 661,610
โรคระบบยอยอาหาร รวมโรคในชองปาก 11 492,848
โรคระบบกลามเนอ รวมโครงราง และเนอยดเสรม 13 451,449
อาการแสดงและสงผดปกตทพบไดจากการตรวจทางคลนกและทางหองปฏบตการ 18 382,004
ภาวะแปรปรวนทางจตและพฤตกรรม 5 205,790
โรคตดเชอและปรสต 1 176,598
โรคระบบสบพนธรวมปสสาวะ 14 169,937
โรคตารวมสวนประกอบของตา 7 140,556
โรคผวหนงและเนอเยอใตผวหนง 12 137,255
สาเหตภายนอกอน ๆ ทท าใหปวยหรอตาย 21 87,206
โรคระบบประสาท 6 86,051
โรคหและปมกกห 8 38,637
โรคเลอดและอวยวะสรางเลอด และความผดปกตเกยวกบภมคมกน 3 34,405
เนองอก 2 33,841
ภาวะแทรกในการตงครรภ การคลอด และระยะหลงคลอด 15 22,267
อบตเหตจากการขนสง และผลทตามมา 20 20,216
ภาวะผดปกตของทารกแรกเกดขนในระยะปรก าหนด 16 7,700
รปรางผดปกตแตก าเนด การพการจนผดรปแตก าเนดและโครโมโซมผดปกต 17 5,939
การเปนพษและผลทตามมา 19 918
127
ประวตผเขยน
ชอ – นามสกล นายรชต ทมาสรวชกจ ประวตการศกษา พ.ศ. 2543 ปรญญาตร การจดการสารสนเทศคอมพวเตอร มหาวทยาลยเซนตจอหน ต าแหนงและสถานทท างานปจจบน ประกอบธรกจสวนตว ประสบการณการท างาน IT Support Supervisor
บรษท ฮอกไกโด อนเตอรเนชนแนล จ ากด IT Manager บรษท บโอโน (ประเทศไทย) จ ากด Senior POS Officer บรษท ไทยแฟรนไชซง จ ากด System Support บรษท เซนทรล เรสตอรองส กรป จ ากด System Develop บรษท ไฮไฟ โอเรยนท (ไทย) จ ากด
top related