weka dataprepocessing

24
ขขขขขขขขขขขขขขขขขขขขขขขขข (Preprocessing) กกกกกกกกกกกกก (Filters) กก Weka

Upload: -

Post on 18-Dec-2014

319 views

Category:

Education


6 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Weka dataprepocessing

ขั้��นตอนขั้องการเตร�ยมขั้�อม�ล (Preprocessing)

การใช้�ตั�วกรอง (Filters) ใน Weka

Page 2: Weka dataprepocessing

การใช้� GainRatioAttributeEval คื�อ การ select attributes การเล�อกแอทร�บิ�วท��ม�คืวาม

สาคื�ญน�อยออกเพื่��อดู�ประส�ทธิ�ภาพื่ในการทานายหล�งจากท��ไดู�ต�ดูแอทร�บิ�วบิางต�วออกซึ่(�งส)วนใหญ)จะให�คื)าคืวามถู�กต�องส�งขั้(�นเพื่ราะแอทร�บิ�วท��เหล�อจะเป+นแอทรร�บิ�วท��ม�คืวาม

สาคื�ญ อ�ลกกอร�ท(มท��ม�ให�ใช้�เช้)นGainRatioAttributeEval, OneRAtributeEval,CfsSubsetEval

Page 3: Weka dataprepocessing

เร��อง Filter ในส่�วนการทา Discretizeการเร�ยกใช้�ตั�วกรอง (Filter) ตั�วกรอง (Filter) เป็�นตั�วท��ท�าหน�าท��ระบุ�ข้�อมู�ล

ย�อยข้องระเบุ�ยนท��จะถู�กแส่ดง แบุ�งออกเป็�น 2 ล�กษณะ คื�อ Supervised

แปลงขั้�อม�ลแบิบิอ�ตโนม�ต� Unsupervised

แปลงขั้�อม�ลท��ผู้��ใช้�ก/าหนดูเอง

Page 4: Weka dataprepocessing

ตั�วกรองแบุบุอ�ตัโนมู�ตั) (Supervised)

แอททร)บุ)วท* (Attribute)

ล�กษณะระเบุ�ยน (Instance)

AttributeSelection Resample ClassOrder SpreadSubsample Discretize StratifiedRemoveFol

ds NorminalToBinary

Page 5: Weka dataprepocessing

ตั�วกรองท��ผู้��ใช้�กาหนดเอง (Unsupervised)

แอททร)บุ)วท* (Attribute)

ล�กษณะระเบุ�ยน (Instance)

Add Randomize Discretize (unsupervised)

RemoveFold

Normalize ReplaceMissing Value NumbericToBinary Resample

Page 6: Weka dataprepocessing

เทคืน)คืการกรองแอททร)บุ)วตั*และอ�ลกอร)ท,มูในการจ�าแนก1 .การกรองแอตัทร)บุ)วตั*

(Attribute Selection) 2. การจ�าแนกป็ระเภทข้�อมู�ล

(Classification)

Page 7: Weka dataprepocessing

การกรองแอตัทร)บุ)วตั* (Attribute Selection)

เทคืน�คืการกรองแอตทร�บิ�วต0 เป1นการลดูจ/านวนแอตทร�บิ�วต0ท��ไม)เก��ยวขั้�องออก โดูยแอตทร�บิ�วต0ถู�กต�ดูออกไปเหล�อเฉพื่าะแอทร�บิ�วต0ท��ม�คืวามส�มพื่�นธิ0ก�นเท)าน��น

ขั้�อดู�ขั้องการลดูจ/านวนแอตทร�บิ�วต0 คื�อ ใช้�แอตทร�บิ�วต0ท��ม�คืวามส/าคื�ญมาท/าให�ผู้ลการจ/าแนก (Classiffcation) ไดู�คื)าคืวามถู�กต�อง ส�งขั้(�นและเวลาในการประมวลผู้ลลดูลง

งานว�จ�ยทางดู�านการท/าเหม�องขั้�อม�ลท��ไดู�น/าเทคืน�คืการกรองแอตทร�บิ�วต0มาใช้� เช้)น งานว�จ�ยท��ใช้�ฐานขั้�อม�ล UCI ซึ่(�งประกอบิดู�วยฐานขั้�อม�ลย)อย 9 ฐานขั้�อม�ลในการกรอง เทคืน�คืการกรองแอททร�บิ�วต0ในท��น��ม� 4 ว�ธิ� คื�อ

Page 8: Weka dataprepocessing

ว�ธิ�ท�� 1 InfoGain Attribute Evaluation เป1น การลดูจ/านวนแอตทร�บิ�วต0ท��ใช้�การประเม�นคื)าขั้องแอตทร�บิ�วต0โดูยว�ดู Infromation Gain [5,6] ซึ่(�งเป1นต�วว�ดูคืวามส�มพื่�นธิ0ขั้องแอททร�บิ�วต0ให�ก�บิคืลาสน��นๆ

ว�ธิ�ท�� 2 GainRatio Attribute Evaluatio เป1นการลดูจ/านวนแอตทร�บิ�วต0ท��ใช้�การประเม�นคื)าขั้องแอตทร�บิ�วต0โดูยว�ดู Gain Ratio [5,6] ซึ่(�งว�ดูคืวามส�มพื่�นธิ0ขั้อง แอตทร�บิ�วต0อ�กประเภทหน(�งแต)จะม�การปร�บิสเกลตามคื)าขั้องขั้�อม�ลในแอททร�บิ�วต0ท��สนใจให�ก�บิคืลาสน��นๆ

Page 9: Weka dataprepocessing

ว�ธิ�ท�� 3 OneR Attribute Avaluation เป1นการลดูจ/านวนแอตทร�บิ�วต0ท��ใช้�กฎ (Rule) กฎ หร�อท��เร�ยกว)า IR โดูยการสร�างต�นไม�ต�ดูส�นใจหน(�งระดู�บิ แล�วสร�างกฎจากต�นไม�น��น โดูยกฎท��สร�างไดู�จากแต)ละแอตทร�บิ�วต0จะม�กฎท��แตกต)างก�น และเล�อกกฎท��ม�คื)าคืวามผู้�ดูพื่ลาดูน�อยส6ดูเพื่�ยงกฎเดู�ยวจากแอตทร�บิ�วต0น��น แอตทร�บิ�วต0ท��ม�คื)าคืวามผู้�ดูพื่ลาดูน�อยส6ดูเป1นแอตทร�บิ�วต0ท��ดู�ท��ส6ดู

ว�ธิ�ท�� 4 ChiSquare Attribute Avaluation เป1นการลดูจ/านวนแอตทร�บิ�วต0ท��ใช้�การประเม�นคื)าแอตทร�บิ�วต0 โดูยคื/านวณคื)า Chi-Square ทางสถู�ต� งานว�จ�ยท��ใขั้�หล�กการน�� เช้)น งานว�จ�ยดู�านช้�วสารสนเทศ

Page 10: Weka dataprepocessing

การจ�าแนกป็ระเภทข้�อมู�ล (Classification)

J48 เป็�นอ�ลกอร)ท,มูในการจ�าแนกโดยใช้�ตั�นไมู� การตั�ดส่)นใจว)ธี�น�0 จะใช้�ข้�อมู�ลในการส่ร�างตั�นไมู�ตั�ดส่)นใจ โดยท��แตั�ละโหนด หมูายถู,ง แอตัทร)บุ)วตั* แตั�ละก)�งข้องตั�นไมู�เป็�นผู้ลในการทดส่อบุ และโหนดใบุแส่ดงคืลาส่

NBTree เป็�นอ�ลกอร)ท,มูในการจ�าแนกโดยใช้�หล�กการข้องตั�นไมู� ตั�ดส่)นใจ และทฤษฎี�เบุร*ร�วมูก�น

IBK เป็�นอ�ลกอร)ท,มูในการจ�าแนกแบุบุ K-Nearest Neighbor โดยท�� K เป็�นตั�วบุอกจ�านวนกรณ�ท��ตั�องการคื�นหาในการท�านาย กรณ�ใหมู� เช้�น 1-NN หมูายถู,ง ว)ธี�น�0จะหาคื�า 1 กรณ�ท��ใกล�เคื�ยงกรณ�ใหมู�มูากท��ส่�ดและก�าหนดเง��อนไข้ใหมู�ให�ก�บุคืลาส่ท��ใกล�เคื�ยงมูากท��ส่�ด

RBFNetwork เป็�นโคืรงข้�ายป็ระส่าทเท�ยมูป็ระกอบุด�วย 3 ช้�0น คื�อ ช้�0นข้�อมู�ลเข้�า ช้�0นซ่�อน และช้�0นผู้ลล�พธี* โดยใช้�ฟั6งช้��นกระตั��นแบุบุเรเด�ยล ป็กตั)จะใช้� Gaussian Function

Naïve Bays เป็�นอ�ลกอร)ท,มูในการจ�าแนกโดยใช้�หล�กการทฤษฎี�เบุย* โดยมู�เง��อนไข้ว�า ข้�อมู�ลตั�องเป็�นอ)ส่ระตั�อก�น โดยท�าการหาคื�าคืวามูน�าจะเป็�นข้อง x เมู��อร��คืลาส่ จากผู้ลคื�ณข้องคืวามูน�าจะเป็�นข้องแอททร)บุ)วตั*ท�กตั�วข้อง x

Page 11: Weka dataprepocessing

Attribute คืวามูหมูายId หมายเลขั้ประจาต�วท��ไม)ซึ่�าก�น

อาย� (age) อาย6ขั้องล�กคื�าในป9 (ต�วเลขั้)

เพศ (sex) เพื่ศช้าย / หญ�ง

ภ�มู)ภาคื (region) inner_city / ช้นบิท / เม�อง / ช้านเม�อง

เง)นได� (income) รายไดู�ขั้องล�กคื�า (ต�วเลขั้)

แตั�งงานแล�ว (married) เป1นล�กคื�าสมรส (Yes / No)

เด8ก (children) จ/านวนบิ6ตร (ต�วเลขั้)

รถูยนตั* (car) ล�กคื�าจะเป1นเจ�าขั้องรถู (Yes / No)

save_acct (save_act) ล�กคื�าจะม�บิ�ญช้�ออมทร�พื่ย0 (Yes / No)

current_acct (current_act)

ล�กคื�าจะม�บิ�ญช้�ป:จจ6บิ�น (Yes / No)

การจ�านอง (mortgage) ล�กคื�าจะม�การจานอง (Yes / No)

คืวามูห�าวหาญ (pep) ล�กคื�าไม)ซึ่��อ PEP (Personal ห6�น Plan) หล�งจากท��ส)งล)าส6ดู (Yes / No)

Page 12: Weka dataprepocessing

ขั้��นตอนการท/างาน เม��อต�องการเร��มใช้�งาน Filters ให�ผู้��ใช้�งานท/าการคืล�กท��ป6;ม

Choose ในกรอบิ Filters เพื่��อทาการเล�อกร�ปแบิบิการ ทา Filters

Page 13: Weka dataprepocessing

Open file “bank-data.csv”

Page 14: Weka dataprepocessing

เน��องจากขั้�อม�ลไม)ไดู�อย�)ในร�ปแบิบิ .ARFF จะม�กล)อง โต�ตอบิแจ�งเต�อนให�เราใช้�ต�วแปลงเป1น .arff

คืล�กท��ป6;ม" “User Coverter” และคืล�กตกลงในกล)องโต�ตอบิถู�ดูไปท��ปรากฏขั้(�น

Page 15: Weka dataprepocessing
Page 16: Weka dataprepocessing
Page 17: Weka dataprepocessing

การกรองคื�ณส่มูบุ�ตั) ในต�วอย)างไฟล0 ขั้�อม�ลแต)ละระเบิ�ยนจะไม)ซึ่/�าก�นโดูยม�

การระบิ6รห�สล�กคื�า คื�อ ใช้�แอททร�บิ�วต0 “id” เป1นต�ว ก/าหนดู เราจ/าเป1นต�องลบิแอตทร�บิ�วต0น��ก)อน

ในขั้��นตอนการท/าเหม�องขั้�อม�ล เราสามารถูท/าเช้)นน��ไดู� โดูยใช้�ต�วกรองคื6ณสมบิ�ต�ใน WEKA “ในช้)อง ต�ว

” กรอง ให�คืล�กท�� "เล�อก" ซึ่(�งป6;มน��จะแสดูงหน�าต)างป>อปอ�พื่ท��ม�

รายช้��อต�วกรองใช้�ไดู� เล��อนลงรายช้��อและเล�อก“weka/filters/unsupervised/attribute/

Remove” ตามล/าดู�บิ

Page 18: Weka dataprepocessing
Page 19: Weka dataprepocessing

ท/าการก/าหนดูคื)าโดูยใส)ดู�ช้น�ขั้องแอตทร�บิ�วต0จะถู�กกรอง ออก

ในกรณ�น��เราป+อนเลขั้ 1 ซึ่(�งเป1นดู�ช้น�ขั้องแอททร�บิ� “id” ดู� ไดู�ท��แผู้งดู�านซึ่�าย และตรวจสอบิให�แน)ใจว)าท��

“invertSelection” ต�วเล�อกถู�กต��งคื)าเป1นเท?จ (False) “จากน��นคืล�ก OK”

“จากน��นในกล)องต�วกรองจะเห?นว)า ม�คื)า -R 1” ปรากฎ

Page 20: Weka dataprepocessing
Page 21: Weka dataprepocessing
Page 22: Weka dataprepocessing

คืล�กท�� “Apply” เพื่��อใช้�ต�วกรองน��ไปใช้�ก�บิขั้�อม�ล “ขั้�อม�ลน��จะเป1นการลบิแอททร�บิ�วต0 id” และท/าการสร�าง

คืวามส�มพื่�นธิ0การท/างานใหม)

Page 23: Weka dataprepocessing
Page 24: Weka dataprepocessing