Download - cluster analysis
1. บทน าเกยวกบการวเคราะหจดกลม Cluster Analysis
Cluster Analysis เปนเทคนคทใชจ าแนกหรอแบง Case (หมายถง คน สตว สงของ หรอ
องคกร ฯลฯ) หรอแบงตวแปรออกเปนกลมยอย ๆ ตงแต 2 กลมขนไป Case ทอยในกลมเดยวกน
จะมลกษณะทเหมอนกนหรอคลายกนสวน Case ทอยตางกลมกนจะมลกษณะทแตกตางกน ดงนน
การพจารณาเลอกลกษณะหรอตวแปรทจะน ามาใชในการแบงกลม Case จงมความส าคญ
นอกจากนน Case ใด Case หนงจะตองอยในกลมหนงเพยงกลมเดยวถาน าเทคนค Cluster
Analysis มาใชในการแบงกลมตวแปร จะใหตวแปรอยในกลมเดยวกนมความสมพนธกนมากกวา
ตวแปรทอยตางกลมกน ตวแปรทอยตางกลมกนมความสมพนธกนนอยหรอไมมความสมพนธกนเลย
(กลยา วานชยบญชา 2544. : 123)
การวเคราะหจดกลม(Cluster Analysis)เปนการวเคราะหเพอศกษาวาบคคล (Cases) หรอ
สงตางๆ (Objects) จะสามารถน ามาจดกลมกนตามความเหมอน (Similarity) หรอความแตกตาง
(Dissimilarity or Distance) ของตวแปร (Variables) ไดกกลม อยางไรบาง บคคลหรอสงทมความ
คลายคลงกนในตวแปรทน ามาวเคราะหจะถกจดอยในกลม (Cluster) เดยวกน สวนบคคลหรอสงท
แตกตางกนในตวแปรจะถกจดอยคนละกลมกนมหลายเทคนคการวเคราะห
2. ความหมายของการวเคราะหจดกลม Cluster Analysis
เปนเทคนคการแบงกลมหนวยขอมล หรอเปนการแบงคน สตว สงของ องคกร ฯลฯ
ออกเปนกลมยอยอยางนอย 2 กลม โดยมหลกเกณฑในการแบงดงน “ใหหนวยทอยในกลม
เดยวกนมลกษณะทสนใจเหมอนกนหรอคลายกน แตหนวยทอยตางกลมกนจะมลกษณะทสนใจ
ตางกน”
ค าวาลกษณะทสนใจอาจจะมหลาย ๆ ตวแปร เชน ถาสนใจความคดเหนทางดาน
การเมอง จะมค าถามหลาย ๆ ค าถามดานการเมอง และจะน าค าตอบเหลานนมาแบงกลม
(กลยา วานชยบญชา. 2552 : 286)
การวเคราะหจดกลม
(Cluster Analysis)
2
การจด Case (หมายถง คน สตว สงของ หรอ องคกร ฯลฯ) หรอเปนการจดตวแปร
ออกเปนกลมยอย ๆ ตงแต 2 กลมขนไป Case ทอยในกลมเดยวกนจะมลกษณะทเหมอนกนหรอ
คลายกน สวน Case ทอยตางกลมกนจะมลกษณะทแตกตางกน
ตวแปรทอยในกลมเดยวกนจะมความสมพนธกนมากกวาตวแปรทอยตางกลมกน
ตวแปรทอยตางกลมกนจะมความสมพนธกนนอยหรอไมมความสมพนธกนเลย
ตวอยางท 1 ถาตองการแบงกลมคน 6 คน คอ นาย A,B,C,D,E,F โดยพจารณาจากอายและรายได
โดยมขอมลดงแสดงในตารางท 1
ตารางท 1 แสดงอายและรายได
ชอ รายได(1,000 บาท) อาย(ป)
A 5 25
B 6 26
C 15 34
D 16 35
E 25 40
F 30 39
ภาพท 1 แสดงการวเคราะหกลมอายและรายได (กลยา วานชยบญชา. 2552 : 286)
3
จากตวอยางซงเปนกราฟ 2 มต คออายและรายได หรอ 2 ตวแปร เปาหมาย คอ
จะแบง 6 คน(n =6) เปนกลมยอย โดยใหคนทอยในกลมยอยเดยวกนมอายและรายไดเทากนหรอ
ใกลเคยงกนสวนคนทอยตางกลมกนจะมอายและรายไดแตกตางกน จากการพลอตกราฟอาย
รายไดในตารางท 1 ท าใหตดสนใจไดวา ควรจะเปน 3 กลม
กลมท 1 : ประกอบดวยนาย A และ B ซงมอายนอยและรายไดต า
กลมท 2 : ประกอบดวยนาย C และ D ซงมอายกลางคน (34-35 ป)และรายได
ปานกลาง
กลมท 3 : ประกอบดวยนาย E และ F ซงมอายกลางคน (39-40 ป) และรายได
มาก
แตจะพบวาในทางปฏบตจ านวนตวแปรทน ามาพจารณาในการแบงกลมจะมากกวา 2 ตวแปร
ท าใหเขยนกราฟหรอท าการแบงกลมโดยใชกราฟยากขน จงตองศกษาหรอแบงกลมตวอยางหรอ
ความคลายซงจะไดกลาวตอไปในหวขอการวดความคลายหรอความตาง
3. วตถประสงคของการวเคราะหจดกลม Cluster Analysis
การวเคราะหกลมเปนเทคนคทใชในการจดกลมโดยไมทราบมากอนวาควรมกกลม
แตจะแบงตามคาของตวแปรทน ามาใชในการแบง โดยใหหนวยทอยในกลมเดยวกน มความ
คลายกนในตวแปรทศกษา แตหนวยทอยตางกลมกนจะมความตางกน ดงเชนในตวอยางท 1 คน
ทอยในกลมเดยวกนมอายและรายไดใกลเคยงกน ส าหรบวตถประสงคของการแบงกลมหรอจด
กลมจะขนกบสาขาทจะน าไปประยกตใชดงน
ดานการแพทย
1. จดกลมคนไขตามอาการหรอความรนแรงของโรค เพอใชวธการรกษา
ทแตกตางกนตามความรนแรงของโรค
2. จดกลมโรงพยาบาลทมประสทธภาพคลายกนไวดวยกน
3. จดกลมประเทศตาง ๆ ตามความเจรญดานสาธารณสข โดยใชตวแปรหรอ
ดชนดานสาธารณสข เชน อตราคนปวยโรคตาง ๆ อายเฉลย คารกษาพยาบาลเฉลยตอ
ประชากร 1 คน เปนตน
4
ดานการตลาด
1. แบงผบรโภคหรอลกคาตามพฤตกรรมการบรโภคสนคาตาง ๆ โดยใหลกคา
ทมพฤตกรรมการบรโภคหรอการซอสนคาทคลายกนอยในกลมเดยวกน สวนลกคาทมพฤตกรรม
การบรโภคตางกนจะอยตางกลมกน เมอจดกลมแลวจะท าใหสามารถวางแผน
กลยทธทางการตลาดส าหรบลกคาแตละกลมไดอยางมประสทธภาพ ตวแปรทน ามาใชในการจด
กลมอาจใชตวแปรดานพฤตกรรมตาง ๆ ของลกคา
2. ใชวางแผนทางดานการตลาดในพนททแตกตางกน โดยเรมตนดวยการใช
เทคนคการวเคราะหกลมแบงพนท หรอจงหวดทประชากรมพฤตกรรมการบรโภคคลายกน หรอ
มลกษณะประชากรศาสตรคลายกน เชน จ านวนประชากร รายไดเฉลย ขนาดพนท อาชพ
ทศนคตของคนในพนท หรอเปนพนททมสภาพเศรษฐกจคลายกนไวในกลมเดยวกน
ดานการศกษา
จดกลมนกเรยนตามผลการเรยน (GPAX) ระดบสตปญญา (IQ)
ระดบการศกษาของผปกครอง เพอใหไดนกเรยนในกลมเดยวกน ผลการเรยน ระดบสตปญญา
และระดบการศกษาของผปกครองใกลเคยงกน สวนนกเรยนทอยตางกลมกนจะมผลการเรยน
ระดบสตปญญา และการศกษาของผปกครองตางกน เพอใหครผสอนสามารถวางแผนหรอเลอก
เนอหา วธการสอนตามความเหมาะสมของแตละกลม โดยตางกลมกนอาจตองใช
วธการสอนทแตกตางกน เพอท าใหเกดผลสมฤทธมากทสด
การน าเทคนคการวเคราะหกลมไปใชในงานดานตาง ๆ นนจะพบวาการเลอก
ตวแปรทน ามาใชในการจดกลมนนมความส าคญมาก ถาผวจยเลอกตวแปรทไมไดท าให
คนทอยตางกลมกนมความแตกตางกนแลว จะท าใหไมสามารถจดกลมไดถกตอง เชน
ดานการตลาด ซงเปนการจดกลมพนทหรอจงหวด ผวจยจะตองศกษาวา ตวแปรใดบางทม
อทธพลทท าใหกลมตาง เชน จ านวนประชากร รายไดเฉลย อาชพ สภาวะเศรษฐกจ ฯลฯ เขา
มาใชในการจดกลม หรอดานการแพทย ซงเปนการจดกลมประเภท โดยใชขอมลดานสาธารณสข ตวแปรทใชอาจเปนจ านวนแพทยตอจ านวนประชากร จ านวนเภสชกรและพยาบาล
ตอจ านวนประชากร จ านวนเตยงในโรงพยาบาลตอจ านวนประชากร อตราคนปวย อายเฉลย
คารกษาพยาบาล เปนตน โดยตองการจดกลมประเทศทมระบบสาธารณสขคลายกนอยในกลมเดยวกน เมอท าการจดกลมแลว ควรจะศกษาลกษณะของบคคล หรอขององคกรทอย
ในกลมเดยวกน เพอน ามาใชวางแผนงานตอไป
5
สชาต ประสทธรฐสนธ(2540) ไดกลาวถงวตถประสงคของ เทคนควธ Cluster
Analysis วา เทคนค Cluster Analysis มวตถประสงคทส าคญอย 2 ประการ คอ การจดกลมหนวย
วเคราะห การจดกลมตวแปร ซงมความสอดคลองกบ กลยา วานชยบญชา (2548) และสามารถ
กลาวโดยรวมคอ เพอจดกลม Case ซงจะเปนประโยชนในงานดานตาง ๆ เ ชน การตลาด
การแพทย การปกครอง ฯลฯ ดงตวอยางตอไปน
ตวอยางท 1 ใชศกษาพฤตกรรมการบรโภคของกลมผบรโภคทอยตางกลมกน
ซงจะท าใหสามารถวางกลยทธทางการตลาดไดอยางมประสทธภาพมากขน การทจะสามารถแยก
กลมผบรโภคออกเปนกลมยอยได จะตองพจารณาถงตวแปรทใชในการจดกลมผบรโภค ทจะท าให
ผทอยตางกลมกนมพฤตกรรมการบรโภคทแตกตางกน ตวแปรดงกลาวอาจจะประกอบดวยอาชพ
อาย รายได เปนตน
ตวอยางท 2 ใชวางแผนเพอการทดสอบตลาด เชน อาจจะมการจดกลมพนทหรอ
จงหวดโดยรวมพนท หรอจงหวดทคลายกนไวดวยกน เพอจะไดก าหนดกลยทธทางการตลาด
ทแตกตางกนส าหรบพนททอยทตางกลมกน ส าหรบตวแปรทควรน ามาพจารณาในการจดกลม
อาจจะเปนจ านวนประชากร รายไดเฉลย อาชพของคนในพนท พฤตกรรม ทศนคตของคนใน
พนท เปนตน
ตวอยางท 3 การเปรยบเทยบรถยนตยหอตาง ๆ โดยท 1 Case คอ รถยนต 1 ยหอ
ซงพจารณาจากตวแปร เชน ความถในการซอม ลกสบ ระบบเบรก คาใชจายตอกโลเมตร
ราคา เปนตน
ตวอยางท 4 การจดกลมประเทศ อาจใชดชนทางดานสาธารณสข เปนตวแปรทใชใน
การจดกลม เชน จ านวนแพทย เภสชกร พยาบาล จ านวนเตยงในโรงพยาบาล สดสวนของไขมน
และแปงในอาหาร ในทน 1 Case คอ 1 ประเทศ โดยใหประเทศทมระบบสาธารณสขคลายกนอย
ดวยกน ถาประเทศทมระบบสาธารณสขตางกนจะอยตางกลมกน
จากตวอยางท 1 และ 2 ขางตน จะพบวาการเลอกตวแปรเพอน ามาใชจดกลม Case
มความส าคญมาก เพราะถาผวจยเลอกตวแปรทไมไดท า Case แตกตางกนแลว จะท าให
ไมสามารถจดกลมไดถกตอง การเลอกจะตองพจารณาวาตวแปรใดบางทมอทธพลท าใหเกดความ
แตกตาง ในตวอยางท 2 การจดกลมจงหวด ถาไมไดน าตวแปร จ านวนประชากร รายได อาชพ
เขามาพจารณาจดกลมกอาจไมสามารถสรางเกณฑในการจดกลมไดถกตอง และเมอแบง Case
เปนกลมยอยแลว จะสามารถศกษาถง Profile หรอลกษณะของกลมยอยแตละกลมได
6
เพอน ามาใชวางแผนดานการตลาดตอไป (กรณทเปนเรองการศกษาพฤตกรรมผบรโภค) เมอใช
จดกลมตวแปร การจดกลมตวแปรทมความสมพนธกนไวดวยกน จะเปนการลดจ านวนขอมลทม
จ านวนมากใหนอยลง ท าใหงายตอการวเคราะห เชน เดมม 100 Case 20 ตวแปร รวมขอมล
ทงหมด 2,000 คา (100 × 20) แตถาจดกลมตวแปร 20 ตว เหลอเพยง 3 กลม จะท าใหขอมล
ลดลงเหลอเพยง 300 คา (3 × 100)
นอกจากนน การจดกลมตวแปรท าใหทราบวาตวแปรใดบางทมความสมพนธกน
การเปลยนแปลงของตวแปรบางตวยอมมผลกระทบตอตวแปรอน ๆ ทมความสมพนธกบ
ตวแปรดงกลาว
4. ขอตกลงเบองตนเกยวกบการวเคราะหจดกลม Cluster Analysis
1. ไมทราบจ านวนกลมมากอนวามกกลม
2. ไมทราบมากอนวาหนวยหรอคนใดจะอยกลมใด
3. หนวยหรอคนใดคนหนงจะตองอยกลมใดกลมหนงเพยงกลมเดยว
4. ตวแปรทใชในการแบงมมากกวา 1 ตวและตวแปรอาจจะเปนตวแปรทมคาไดเพยง
1 คาหรอตวแปรเชงคณภาพหรอตวแปรเชงปรมาณ
5. รายละเอยดเนอหาการวเคราะหจดกลม Cluster Analysis
5.1 คณสมบตของเทคนควธ Cluster Analysis
สชาต ประสทธรฐสนธ(2540) ไดกลาวถงคณสมบตของเทคนควธ Cluster Analysis
ไวหลายประการดวยกนซงมรายละเอยดดงน
5.1.1 ความตองการทางดานขอมล ส าหรบการวเคราะหจดกลมหนวยวเคราะหผวจย
อาจใชขอมลทระบหนวยวเคราะหและตวแปรตามทจดเกบมาไดเลย เชน การวเคราะห
หมายเหต : สวนใหญจะใชเทคนค Cluster Analysis ในการจดกลม Case มากกวา
การจดกลมตวแปร การจดกลมตวแปรจะใชเทคนค Factor Analysis ในทนจงจะแสดง
ตวอยางเฉพาะการจดกลม Case
7
ทไดกลาวมาแลวของตน สวนการวเคราะหจดกลมตวแปร ผวจยไมอาจจะใชแฟมขอมลดงกลาวได
โดยใชเมตรกแสดงความสมพนธระหวางตวแปร แทนได
5.1.2 แนวคดพนฐาน สงส าคญทสดของการวเคราะหการจดกลมคอ ตวแปรทใช
หากผวจยไมไดเกบขอมลเกยวกบตวแปรทส าคญ ๆ ผลทไดกจะไมดหรอท าใหไขวเขวได ทงน
เพราะตวแปร ทเลอกไวตงแตแรกจะเปนสงทก าหนดคณสมบตของสงทระบความเปนกลมยอย
เชน ในการจดกลมโรงเรยนในเมอง หากผวจยไมเกบขอมลเกยวกบ จ านวนนกเรยนและคร
ขนาดของโรงเรยนกไมอาจเปนเกณฑในการจดกลมได
5.1.3 ความคลายกนของหนวย ความคดเกยวกบความคลายของหนวยศกษา
เปนเทคนคของการวเคราะหทางสถตหลายวธ โดยทวไปการวดความคลายจะพจารณาจาก
ความหางระหวางวตถ หรอพจารณาจากความคลายกน
5.1.4 การวดความหาง วธการวดความหางสามารถวดไดหลายวธ วธการหนงทนยม
วดกนมากกคอ วธทเรยกวา ระยะหางเชงยคลดยกก าลงสอง (Squared Euclidean distance)
คอ ผลรวมของผลตางยกก าลงสองของทกตวแปร เชน ตองการดความหางกนของเบยร 2 ยหอ
ซงเราทราบราคาตนทน และแคลอรของเบยรทง 2 ยหอ
ตารางท 2 แสดงคาของแคลอรและตนทน (สชาต ประสทธรฐสนธ : 2540)
แคลลอร ตนทน
บดไวเซอร
โลเวนบราว
114
157
43
48
ความแตกตางระหวางเบยรทง 2 คอ (คอ (114 - 157)2 + (43 - 48) 2 เทากบ 132 +52 หรอ 194
อยางไรกด ความแตกตางระหวางหนวยของการวดในแตละตวแปรกจะเปนปญหาในการ
วดคาความหาง ดงนน จงจาเปนทจะตอง ท าใหตวแปรทกตวอยในมาตรวดเดยวกน คอการท าให
ตวแปรทกตวมคาเฉลยเปน 0 และสวนเบยงแบนมาตาฐานเปน 1 ซงผลทไดคอ คาคะแนน
มาตรฐาน ซงจะไดเปนคา ดงตารางท 3
8
ตารางท 3 แสดงคะแนนมาตรฐานของคาของแคลอรและตนทน(สชาต ประสทธรฐสนธ:2540)
ยหอ แคลลอร ตนทน
บดไวเซอร
โลเวนบราว
0.38
0.81
-0.46
-0.11
ไมวาจะท าการค านวณหาความหางหรอความคลายดวยวธใดกตาม ผวจยจะตอง
ตดสนใจวาจะปรบสเกลตวใดบาง เพอท าใหตวแปรมสเกลเหมอนกน มฉะนนแลวคาความหางหรอ
ความตางจะขนอยกบขนาดของมาตรวดของตวแปรทมขนาดใหญกวา ซงการปรบท าไดหลายวธ
เชน การหารดวยคาเบยงเบนมาตรฐาน คาพสย คาเฉลย
เมอท าการปรบคามาตรฐานแลว จงค านวณหาคาความตางหรอความคลายกน
ชนดตาง ๆ ซงวธตาง ๆ นนจะใหน าหนกของขอมลทตางกน ซงจะกลาวถงรายละเอยดของ
สตรทใชในการวเคราะหแตละวธตอไป
5.2 ประเภทของเทคนค Cluster Analysis เทคนค Cluster Analysis แบงเปนหลายประเภทหรอเทคนคยอย โดยเทคนคทใช
กนมากม 2 เทคนค คอ
5.2.1 Hierarchical Cluster Analysis 5.2.2 K-Means Cluster Analysis
นอกจากน ยงมเทคนค 2 Step Cluster Analysis และเทคนคดงกลาวมวตถประสงค
และวธการทแตกตางกน ซงจะไดกลาวถงเทคนค Hierarchical Cluster Analysis และเทคนค
K-Means Cluster Analysis
5.2.1 Hierarchical Cluster Analysis
เปนเทคนคทนยมใชกนมากในการแบงกลม Case หรอแบงกลมตวแปร โดยมเงอนไขดงน
1. ในกรณทใชในการแบง Case นน จ านวน Case ตองไมมากนก (จ านวน Case ควรต ากวา
200 ถาตงแต 200 ขนไปใช K-Means Cluster) และจ านวนตวแปรตองไมมากเชนกน 2. ไมจ าเปนตองทราบจ านวนกลมมากอน
3. ไมจ าเปนเปนตองทราบวาตวแปรใดหรอ Case ใดอยกลมใดกอน
9
ขนตอนของเทคนค Hierarchical Cluster ส าหรบการแบงกลม Case
ขนท 1 เลอกตวแปรหรอปจจยทคาดวามอทธพลทท าให Case ตางกน นนคอ ตวแปร
นนจะท าใหสามารถแบงกลม Case ไดชดเจน ขนตอนนเปนขนตอนทส าคญ
ขนท 2 เลอกวธการวดระยะหางระหวาง Case แตละค หรอเลอกวธการค านวณเพอวดคา
ความคลายของ Case แตละค
ขนท 3 เลอกหลกเกณฑในการรวมกลม หรอรวม Cluster
5.3 การวดความคลาย (Similarity Measure) ดงทไดกลาวมาแลวถงหลกเกณฑ
ของเทคนค Cluster วาจะใชในการจด Case ทคลายกนไวในกลมเดยวกน หรอจดกลมตวแปรท
สมพนธกนไวในกลมเดยวกน นนคอ จะมการวดความคลายกนของ Case ทละค ในกรณทเปนการ
จดกลม Case สวนการจดกลมตวแปร การวดความคลายจะเปนการวดความคลายของตวแปรแต
ละค คอ การหาคาสมประสทธสหสมพนธเมอตองการจดกลม Case จะตองหาความคลายของ
Case ถง n C2
ค เมอมขอมล Case = n แตถาตองการจดกลมตวแปรจะตองหาความสมพนธของ
ตวแปรทละครวมถง k C2
ค เมอมตวแปร k ตว การวดความคลายของ Case แตละคอาจจะวด
ดวยระยะหาง (Distance) หรอวดดวยคาความคลาย (Similarity) แตการวดความสมพนธของตว
แปรจะวดดวยคาสมประสทธสหสมพนธเพยรสน (Pearson correlation)ส าหรบวธการค านวณ
ระยะหาง หรอคาความคลายของ Case แตละค จะแตกตางกนเมอชนดของขอมลตางกน ซงชนด
ของขอมลหรอตวแปรทสามารถใชเทคนค Hierarchical Cluster ได
ม 3 ประเภท คอ
1. ขอมลเปนสเกลอนตรภาค (Interval scale) หรอสเกลอตราสวน (Ratio scale)
2. ขอมลทอยในรปความถ (Count Data)
หมายเหต : เงอนไขในขอ 2 และขอ 3 จะตรงขามกบเงอนไขของเทคนค Discriminant
ซงจ าเปนตองทราบจ านวนกลมมากอนและตองทราบ Case ใดอยกลมไหนมากอน
10
3. ขอมลอยในรป Binary นนคอ มได 2 คา คอ 0 กบ 1 หรอกลาวไดวา ขอมลท
น ามาใชในเทคนค Hierarchical จะเปนขอมลชนดตวเลข หรอเปนเชงปรมาณ (Interval หรอ Ratio
scale) หรอขอมลอยในรปความถ หรอ Binary
กรณทวดความคลายดวยระยะหาง ถาระยะหางระหวาง Case คใดต า
แสดงวา Case คนนอยใกลกน หรอมความคลายกน ควรจะจดใหอยในกลมหรอ Cluster เดยวกน
ส าหรบวธการค านวณจะขนอยกบชนดของขอมลทง 3 ชนดขางตน
กรณทวดความคลายดวยของ Case ถาคาความคลายของ Case คใดมคา
มากแสดงวา Case คนนคลายกนมาก จงควรจดใหอยในกลมเดยวกน การค านวณคาความคลาย
จะแตกตางกน ถาชนดของขอมลแตกตางกน
กรณทวดความคลายของตวแปรดวยคาสมประสทธสหสมพนธ ถาตวแปร
คใด มคาสมประสทธสหสมพนธมาก แสดงวาคนนสมพนธกนมากควรจดไวในกลมเดยวกน
5.4 หลกการการรวมกลม (Methods for Combining Cluster)
ส าหรบหลกการในการรวมกลมของเทคนค Hierarchical Cluster
นนมหลายวธ วธทนยมกนมาก คอ Agglomerative Hierarchical Cluster Analysis หรอในโปรแกรม
SPSS เรยกวา Agglomerative Schedule ซงหลกการเกณฑของ Agglomerative schedule จะท า
การรวมกลม Cluster อยางเปนขนตอนดงน
กอนท าการวเคราะหจะก าหนดให 1 กลม หรอ 1 Cluster ม Case 1 Case นนคอ ถอวาแตละ Case เปน 1 Cluster จงมจ านวน Cluster เทากบจ านวนขอมลหรอจ านวน Case กรณทมจ านวนขอมล n Case จะม n Cluster หรอ n กลม ขนท 1 : รวม Case 2 Case ใหอยในกลมเดยวกน หรอ Cluster เดยวกน โดย พจารณาจากคาระยะหางหรอคาความคลาย ขนท 2 : พจารณาวาควรจะรวม Case ท 3 เขาอยในกลมเดยวกบ 2 Case แรก หรอควรจะรวม 2 Case ใหมเขาอยในกลมใหมอกกลมหนง โดยพจารณาจากคาระยะหางหรอคาความคลาย ท าขนท 3, 4 , … โดยใชเกณฑเดยวกบขนท 2 นนคอ ในแตละขนอาจจะรวม
Case ใหมเขาไปในกลมทมอยแลว หรอรวม Case ใหม 2 Case เปนกลมใหม ท าเชนน ไปเรอย ๆ
จนกระทงได ทก Case อยในกลมเดยวกน นนคอ สดทายมเพยง 1 กลมหรอ 1 Cluster และCase
ใดทถกจดกลมแลวจะไมมการเปลยนแปลง
11
หลกเกณฑในการรวมกลม
หลกเกณฑในการรวมกลมในแตละขนตอนขางตนมหลายวธ ในทนจะกลาวถง
เฉพาะวธทมในโปรแกรม SPSS ซงจะปรากฏในค าสง Method ดงน
1. Between – groups Linkage หรอเรยกวาวธ Average Linkage Between Groups
หรอเรยกกวา UPGMA (Unweightede Pair-Group Method Using Arithmetic Average)
ภาพท 2 Average Linkage (กลยา วานชยบญชา. 2550 : 217)
พจารณาวา ควรรวม cluster ท i และ j ไวดวยกนหรอรวม cluster ท i และ k หรอควร
จะรวม cluster ท j และ k ไวดวยกน โดยพจารณาระหางเฉลยระหวาง cluster เชน
dij = ระยะหางเฉลย ของ cluster ท i และ j
dik
= ระยะหางเฉลย ของ cluster ท i และ j
djk
= ระยะหางเฉลย ของ cluster ท i และ j
Cluster ท i Cluster ท j
Cluster ท k
12
เลอกรวม cluster ทมระยะหางเฉลยต าสด เชน จากตวอยางนไดคาระหวาง dikต าสดก
จะรวม cluster I และ k เขาดวยกน
2. Within-group Linkage Technique หรอเรยกวา Average Linkage Within
Groups Method วธนจะรวม Cluster เขาดวยกนถาระยะหางเฉลยระหวางทก Case ใน Cluster
นน ๆ มคานอยทสด
3. Nearest Neighbor หรอเรยกวา Single Linkage
ในทน dij
ระยะหางทสนทสดของ cluster i และ j
d ik
ระยะหางทสนทสดของ cluster i และ k
djk
ระยะหางทสนทสดของ cluster j และ k
หาคาต าสด dij
, d ik
และ djk, d
ikถาไดวา d
jk ต าสดกจะรวม cluster k และ j เขาดวยกน
ภาพท 3 Single Linkage (กลยา วานชยบญชา. 2550 : 218)
d
d
Cluster ท i
Cluster ท j
Cluster ท k
d
13
4. Furthest Neighbor Technique หรอเรยกวา Complete Linkage
dij
ระยะหางทยาวทสดของ cluster i และ j
d ik
ระยะหางทยาวทสดของ cluster i และ k
dkj
ระยะหางทยาวทสดของ cluster k และ j
แลวเปรยบเทยบคา dij
,d ik,d
kj เลอกคาต าสด ถาไดวา d
ikต าสด กรวม cluster i และ k เขา
ดวยกน
ภาพท 4 Complete Linkage (กลยา วานชยบญชา. 2550 : 218)
5. Centroid Clustering เปนการรวม cluster 2 cluster เขาดวยกน โดยพจารณาจากระยะหางของ
จดกลางของ cluster 2 cluster โดยท d
ij
ระยะหางจดกลางของ cluster ท i และ cluster ท j d
ij
ระยะหางจดกลางของ cluster ท i และ cluster ท k d
ij
ระยะหางจดกลางของ cluster ท j และ cluster ท k แลวเลอกคาระยะหางทต าสด เชน ถาได d
kj ต าสด กจะรวม cluster k และ j เขาดวยกน
d
Cluster ท i
Cluster ท j
Cluster ท k
d
d
14
ภาพท 5 Centroid Clustering (กลยา วานชยบญชา. 2550 : 219)
6. Median Clustering
วธนจะรวม Cluster 2 Cluster เขาดวยกน โดยใหแตละ Cluster ส าคญเทากน(ให
น าหนกเทากน) ในขณะทวธของ Centroid Clustering จะใหความส าคญแก Cluster มขนาดใหญ
มากกวา Cluster ทมขนาดเลก (ใหน าหนกไมเทากน) Median Clustering จะใชคา Median เปนคา
กลางของ Centroid ถาระยะหาง ระหวางคา Median ของ Clustering จะใชคา Median เปนคากลาง
ของ Centroid ถาระยะหาง ระหวางคา Median ของ Cluster คใดต าจะรวม Cluster คนนเขาดวยกน
7. Ward’s Method
หลกการของวธนจะพจารณาจากคา Sum of the squared within-cluster distance
โดยจะรวม Cluster ทท าใหคา Sum of square within-cluster distance เพมขนนอยทสด
โดยคา Square within-cluster distance คอคา Square Euclidean distance ของแตละ Case กบ
Cluster Mean
5.2.2 K-Means Cluster Analysis 1) หลกการของเทคนค K-Means Clusteringเปนเทคนคการจ าแนก
Case ออกเปนกลมยอย จะใชเมอมจ านวน Case มาก โดยจะตองก าหนดจ านวนกลมหรอจ านวน
Cluster ทตองการ เชน ก าหนดใหม k กลม เทคนค K-Means จะมการท างานหลาย ๆ
รอบ (Iteration) โดยในแตละรอบจะมการรวม Cases ใหไปอยในกลมใดกลมหนง โดยเลอกกลม
ท Case นนมระยะหางจากคากลางของกลมนอยทสด แลวค านวณคากลางของกลมใหม จะท า
เชนนจนกระทงคากลางของกลมไมเปลยนแปลง หรอครบจ านวนรอบทก าหนดไว
Cluster ท i Cluster ท j Centroid
15
2) ชนดของตวแปรทใชในเทคนค K-Means Clustering ตวแปรทใชใน
เทคนค K-Means Clustering จะตองเปนตวแปรเชงปรมาณ คอ เปนสเกลอนตรภาค(Interval
Scale) หรอสเกลอตราสวน(Ration Scale) โดยไมสามารถใชกบขอมลทอยในรปความถ หรอ
Binary เหมอนเทคนค Hierarchical
3) ขนตอนการวเคราะหของวธ K-Means การวเคราะหจ าแนกกลมดวย
เทคนควธ K-Means Clustering สามารถสรป ขนตอนของการวเคราะหได 4 ขนตอนดงน
ขนท 1 จดกลมขอมลเปน k กลม ซงมการแบงไดหลายวธดงน
- แบงอยางสม
- แบงดวยผศกษาเอง
ขนท 2 ค านวณหาจดกงกลางกลมของแตละกลม เชน จดกลางกลมของกลม
ท C คอ c
x
ขนท 3 มวธการพจารณา 2 แบบ โดยจะค านวณ
แบบท 1 ค านวณหาระยะหางจากแตละหนวยไปยงจดกลางกลมของทกกลม
และจะพจารณายายหนวยไปยงกลมทมระยะหางต าสด
แบบท 2 ค านวณระยะหางก าลงสองของแตละหนวยไปยงจดกลางกลมทหนวย
นนอย โดยให ESSZ(Error Sum Square) เทากบระยะหางก าลงสองของแตละหนวยไปยงจดกลางกลม
โดยท C ( i ) หมายถง กลมของหนวยท i
ESS = ผลบวกของระยะหางจากแตละหนวยในกลมไปยงจดกลางกลมรวมทก
กลม กลมใดทมคา ESS ต า แสดงวาหนวยทอยในกลมนนมความคลายคลงกน
ขนท 4 การพจารณายายกลม จะใชเกณฑการยายตามคาทค านวณไดในขนท 3
แบบท 1 จะท าการยายหนวยท i ไปยงกลมทท าใหระยะหางจากหนวยท i ไปยง
จดกลางกลมมคาต าสด
แบบท 2 จะท าการยายหนวยท i ไปยงกลมทท าใหคา ESS มคาต าสด
16
ถาขนท 4 ไมมการยายกลมอกแลว แสดงวากลมทแบงไดนนเหมาะสมแลว แตถาในนนท 4
มการยายกลม กลมทมหนวยยายเขาหรอยายออกจะตองท าการค านวณหาจดกลางกลมใหม
นนคอตองกลบไปท าขนท 2
4) ขอแตกตางระหวางเทคนค Hierarchical กบวธ K-Means
กลยา วานชยบญชา (2548(ข)) ไดจ าแนกขอแตกตางระหวางเทคนค Hierarchical
กบวธ K-Means ไวดงน
1. เทคนค K-Means ใชเมอมจ านวน Case หรอจ านวนขอมลมาก โดยทวไป
นยมใชเมอ n ≥ 200 เพราะเมอ n มาก เทคนค K-Means จะงายกวา และใชระยะเวลาในการ
ค านวณนอยกวาการใชเทคนค Hierarchical หรอกลาวไดวาเมอมจ านวน Case ไมมากควรใช
เทคนค Hierarchical
2. เทคนค K-Means นน ผใชจะตองก าหนดจ านวนกลมทแนนอนไว
ลวงหนากรณทผวเคราะหยงไมแนใจวาควรมกกลมจงจะเหมาะสม ผวเคราะหอาจจะใชวธใดวธ
หนงดงตอไปน
- ท าการวเคราะหดวยวธ K-Means หลาย ๆ ครง แตละครงก าหนด
จ านวนกลมแตกตางกนไป เชน เปน 3, 4 หรอ 5 กลม แลวพจารณาหาจ านวนกลมทเหมาะสม แต
เมอมขอมลมากวธนจะท าใหเสยเวลามาก
- ใชขอมลบางสวนท าการวเคราะหโดยวธ Hierarchical เพอหาจ านวน
กลมทควรจะเปนจากนนจงใชเทคนค K-Means กบขอมลทงหมดทม
3. เทคนค Hierarchical นน ผวเคราะหจะ Standardized ขอมลหรอไมกได
แตโดยวธ K-Means จะตองท าการ Standardized ขอมลกอนเสมอ
4. วธ K-Means จะหาระยะหางโดยวธ Euclidean Distance โดยอตโนมต
ขณะท Hierarchical ผวเคราะหมสทธทจะเลอกวธการค านวณระยะหาง หรอความคลายได
17
ขอแตกตางระหวางการจ าแนกกลมดวยเทคนค Cluster Analysis และเทคนค
Discriminant Analysis
กลยา วานชยบญชา(2550)เทคนคการแบงดวย Cluster Analysis ซงแบง Case
ทคลายกนอยในกลมเดยวกน และ Case ทตางกนอยตางกลมกน ซงคลายกบเทคนค
Discriminant Analysis แตจะพบวายงมขอแตกตางระหวางเทคนคทง 2 ดงน
ตารางท 4 ความแตกตางระหวางเทคนค Cluster & Discriminant
Cluster Analysis Discriminant Analysis
1. ไมจ าเปนตองทราบกอนวามกกลม 1. ตองทราบมากอนวามกกลม โดยผวจยเปน
ผจดกลมเอง และก าหนดเองวาจะมกกลม
2. ไมทราบมากอนวา Case ใดอยกลมไหน 2. ทราบมากอนวา Case ใดอยกลมไหน
เนองจากผวจยเปนผจดกลมมากอน
3. ไมมสมการแสดงความสมพนธ 3. มสมการแสดงความสมพนธ
18
ขนตอนการใช SPSS ในการจดกลม Case
เทคนค Hierarchical Cluster
เทคนค K-Means
19
1. ขนตอนการใช SPSS ในการจดกลม Cases ดวยเทคนค Hierarchical Cluster
ขนท 1 : สรางแฟมขอมล ซงอาจจะสรางโดย
ก) ใชขอมลจรงทม ซงจะมตวแปรหลาย ๆ ตวทจะนามาใชในการแบง Case หรอ
แบงกลมตวแปรโดยใหค านวณหาคาระยะหาง หรอคาความคลายของ Case แตละค ถาหนวยของ
ตวแปรตางกน อาจจะมผลตอคาระยะหาง และคาความคลาย ซงทาใหเกดผลตอการจดกลมดวย
ตวแปรทมคามากจะมอทธพล ตอคาระยะหางมากกวาตวแปรทมคานอย (เนองจากหนวยตางกน)
เชน ถาวดความคลายของนางกลยา และนายชาตรโดยตวแปรทวดคอ อาย (ป) และรายได (หนวย
: 10,000 บาท)
ตารางท 5 ขอมลดบ
อาย(ป) รายได(10,000บาท
กลยา
ชาตร
45
60
2
7
ตารางท 6 ขอมลท Standardized แลว
อาย(ป) รายได(10,000บาท
กลยา
ชาตร
.707
-.707
-.707
.707
ถาในทนใช Euclidean Distance ในการหาระยะหางระหวางนางกลยา และนายชาตรโดยใช
ขอมลในตารางท 5 ไดระยะหางของอายและรายได = (45 – 60)2 + (2 – 7)2 = 225 + 25 = 250
นนคอ ระยะหาง 250 นนเปนอทธพลของตวแปรอาย = (255 / 250) x 100 = 90% อก 10% เปน
อทธพลของตวแปรรายได
แตถาใชขอมลทท า Standardized แลว ในทนคอ การท า Z-score จากตารางท 6 ไดคา
ระยะหางของ Euclidean distance ในรป Z-score เปน (-.707 – (-.707) 2 + (-.707 - .707) 2 =
.999 ซงเปนผลจากอาย และรายไดเทา ๆ กน คอ อยางละ 50% จงควรทาการเปลยนแปลงขอมล
ดบของตวแปรตาง ๆ เพอก าจดอทธพลของหนวยทตางกนออกไป
20
ข) ใชขอมลทเปลยนแปลงแลว เชน ขอมลท Standardized แลว หรอเปลยนแปลงขอมล
ของทกตวแปรใหมคาต าสดเปน 0 และคาสงสดเปน 1 ในค าสงยอยของ Hierarchical Cluster จะม
การใหเลอกวธการ Standardized หลายวธ ซงจะกลาวถงในตวอยางท 1ในกรณทไมตองการใช
ค าสงยอยของค าสง Hierarchical Cluster เพอค านวณคา Z-score ของตวแปรทกตวทตองการ
น ามาใชในการจดกลม แตตองการท า Standardized ขอมลเองหลงจากทมการสรางแฟมขอมล
แลว ใหใชค าสง ดงน Analyze Descriptive statistics Descriptive จะแสดงหนาจอ
ดงภาพท 6
ภาพท 6 Descriptive statistics box
21
ใหเลอกตวแปรอยางนอย 1 ตว ใสใน box ของ variable (s) สาหรบเทคนค Cluster จะตอง
เลอกตวแปรทกตวทจะใชแบงกลม Case แลวเลอก
Save Standardized values as variables.
ในกรณนจะไดตวแปรใหมอยในรป Z-score โดยตวแปรใหมทกตวจะอยในแฟมขอมลเดม
ตอทายจากตวแปรทมในแฟมเดม และตวแปรใหมทกตวจะมชอเหมอนตวแปรเดมแตน าหนาดวย
ตว Z ซงหมายถงตวแปรเดมทค านวณใหอยในรป Z-score ดงแสดงในภาพท 7
ภาพท 7 Z-score
22
ขนท 2 : ใชค าสงการจดกลมใน ดงน
Analyze Classify Hierarchical Cluster
ภาพท 8 Hierarchical Cluster Dialog box
จากภาพท 8 อธบายไดดงน
สวนท 1 : Variable (s) box ถาตองการจดกลม Case จะตองเลอกตวแปรทมคาเปน
ตวเลข (Numeric variable) อยางนอย 1 ตว แตถาตองการจดกลมตวแปร จะตองเลอกตวแปรทม
คาเปนตวเลขอยางนอย 3 ตว
สวนท 2 : Label Case By เปนการระบชอ Case หรอความหมายของ Case เชน
ถาแบงกลมจงหวด กรณน 1 Case คอ 1 จงหวด ถาสรางตวแปร Province ทระบชอจงหวด
จะเลอกตวแปร Province มาใสในน โดยทตวแปรทจะอยใน box ของ Label Cases by จะตองเปน
ตวแปร Nominal และเปนชนด String ถาไมเลอกตวแปรใสใน Box ของ Label Cases by ผลลพธจะ
ใหหมายเลข Case
23
สวนท 3 : Cluster ผวเคราะหตองเลอกวาตองการจดกลม Case หรอจดกลมตวแปร อยางใด
อยางหนงเพยงอยางเดยว
Cases เลอกทางเลอกน ถาตองการจดกลม Case
Variables เลอกทางเลอกน ถาตองการจดกลมตวแปร
สวนท 4 : Display ผใชสามารถเลอกใหผลลพธแสดงทงคาสถต และกราฟ หรออาจเลอก
ทางเลอกใดทางเลอกหนงกได
Statistics แสดงคาสถตในผลลพธ
Plots แสดงกราฟในผลลพธ
จากภาพท 8 เลอก จะไดหนาจอดงภาพท 9
ภาพท 9 Hierarchical Cluster Analysis : Statistics
จากภาพท 9 แบงเปน 2 สวนดงน สวนท 1 : สวนนม 2 ทางเลอก ผใชสามารถเลอกทางเลอกใดทางเลอกหนง หรอ 2
ทางเลอกกได ดงน Agglomeration schedule จะแสดงขนตอนการรวมกลม Case Proximity matrix จะแสดง Matrix ของระยะหางระหวาง Case แตละค
24
สวนท 2 : Cluster Membership จะแสดงวาแตละ Case เปนสมาชกกลมใด หรอ Cluster
ใด ผใชสามารถเลอกใดทางเลอดหนงจากตอไปน
None ไมแสดงการเปนสมาชกของ Case ทางเลอกนเปน Default
Single solutions จะแสดงสมาชกของ cluster โดยก าหนดจ านวน Cluster (กลม)
ทตองการโดยตองใสเลขจ านวนเตมทมคาตงแต 1 ขนไป เชน ถาตองการสมาชกของกลม 3 กลม
ใสหมายเลข 3 ลงใน
Range of solutions จะแสดงสมาชกของ Cluster โดยก าหนดชวงของจ านวนกลม
โดยตองระบจ านวนกลมต าสด และสงสด โดยเลขทใสใน ทงสองจะตองเปนเลข
จ านวนเตม มคาตงแต 2 ขนไป และคาแรกตองนอยกวาคาทสองเสมอ
จากหนาจอภาพท 8 เลอก จะแสดงหนาจอดงภาพ
ภาพท 10 Hierarchical Cluster Analysis :Plots
25
จากภาพท 10 แบงออกเปน 3 สวน ดงน
สวนท 1 : Dendrogram จะใหกราฟ ซงแสดงถงการรวมกนของ Cluster และใหคา
ระยะหางในแตละขนตอนดวย โดยจะเปลยนหนวยระยะหางของขอมลเดม เปนระยะหางมคา
ในชวง 1 ถง 25
สวนท 2 : Icicle หมายถง Icicle Plots ซงม 3 ทางเลอก ใหผใชเลอกทางเลอกใดทางเลอกหนง
All Clusters แสดง Icicle Plot ของทก Cluster
Specified range of clusters แสดง Icicle Plot ตามชวงของจานวน Cluster ทกาหนด
โดยใสเลขจานวนเตมบวกในชอง Start, Stop และ By โดย Start นอยกวา Stop สวน By หมายถง
การเพมขนครงละ เชน ใสเลข 3, 7 และ 2 จะทาให Icicle Plot แสดง 3, 5, 7 กลมหรอ Cluster เปนตน
None ไมแสดง Icicle Plot
สวนท 3 : Orientation มทางเลอกดงน
Vertical แสดง Icicle Plot ในแนวตง
Horizontal แสดง Icicle Plot ในแนวนอน
จากหนาจอภาพท 8 เลอก จะแสดงหนาจอดงภาพ
ภาพท 11 Hierarchical Cluster Analysis : Method
26
จากภาพท 11 แบงออกเปน 4 สวน
สวนท 1 : Cluster Method เลอกวธการรวมกลม Cluster ผใชสามารถคลกเครองหมาย
ซงมวธในการรวมกลม Cluster
Between-group linkage : Average linkage between groups (UPGMA)
Within-group linkage : Average linkage within groups
Nearest neighbor : Single linkage
Furthest neighbor : Complete linkage
Centroid clustering
Medain clustering
Ward’s method
สวนท 2 : Measure วธการวดระยะหางและความคลาย ซงการเลอกวธการวดระยะหาง
หรอความคลายจะขนกบชนดของขอมลทแบงเปน 3 ประเภท ดงน
Interval หมายถง ขอมลชนด Interval หรอ Radio scale จะค านวณหาระยะหางและ
ความคลายโดยผใชตองเลอกวธการโดยการคลก จะได
เพมสตร
Count ใชกบขอมลทอยในรปความถ โดยวดความแตกตางหรอระยะหาง โดยเลอก
วธการทางสถต ดงน
เพมสตร
Binary ใชกบขอมลทมคาไดเพยง 2 คา โดย SPSS จะสรางตาราง 2 X 2 ของ case
ให A, b, c, d คอความถ
วธการค านวณระยะหางมหลายวธดงน
เพมสตร
สวนท 3 : Transform Value เมอตองการเปลยนแปลงคาของ case หรอตวแปรเพอทา
ใหตวแปรมความส าคญเทากน เมอขอมลเดมมสเกลตางกน โดยจะท าการ Standardize ขอมล
Standardize กอนจะทาการค านวณคาระยะหาง หรอความคลาย สาหรบขอมลชนด
Interval หรอ Count เทานน โดยผใชตองเลอก 1 ทางเลอก ดงตอไปน
None ไมท าการ Standardize แตใหใชขอมลเดม
27
Z score ท าการ Standardize ขอมลใหเปน Z score ทมคาเฉลย 0 คาเบยงเบน
มาตรฐาน 1
Range – 1 to 1 ท า Standardize ขอมลใหมคาระหวาง – 1 ถง 1
Range 0 to 1 ท า Standardize ขอมลใหมคาระหวาง 0 ถง 1
สวนท 4 : Transform Measure ใชเฉพาะขอมลชนด Interval หรอ Count เทานน
ใชในการ Standardize ขอมลส าหรบ Case หรอคาของขอมลกอน ทจะค านวณคา proximity โดยม
ทางเลอกดงน
Absolute values จะค านวณคาสมบรณของระยะหาง
Change sign เปนการเปลยนความคลายใหเปนความไมคลาย (ความหาง) หรอเปลยน
ความไมคลายใหเปนความคลาย
Rescale to 0 – 1 range เปนการเปลยนระยะหางใหมคาในชวง 0
ถง 1 ซงถอเปนการท า Standardize อยางหนง โดยการน าคาระยะหางทสนทสดไปลบจาก
ระยะหางตาง ๆ แลวหารดวยคาพสยระยะหางจากภาพท 8 คลกปมจะแสดงหนาจอดงภาพ
ภาพท 12 : Save
28
ในหนาจอภาพท 12 เปนการใหระบกลมท Case หรอตวแปรเปนสมาชกอย ในตาราง
Cluster Membership ในผลลพธ ซงมทางเลอกดงน
None ไมตองการบนทกเลขทกลม
Single solution บนทกเลขทกลมโดยทระบจานวนกลมทแนนอนเพยงคาเดยว
Range of solutions ใหบนทกเลขทกลมกรณทก าหนดวาจ านวนกลมหลาย ๆ แบบ
เชน จ านวนบนทกเลขทกลมของแตละ case เมอแบงเปน 2, 3, 4, 5 หมายถงใส from เปน 2 และ
through เปน 5 โดยทคาทใสใน box ตองเปนเลขจ านวนเตมบวกทมากกวา 1 และเลขใน box ทสอง
ตองมคามากกวา box แรก
ตวอยางการใชเทคนค Hierarchical Cluster Analysis
ตวอยางท 1 ส าหรบตวอยางท 1 จะใชเทคนค Hieratchical Cluster แบงกลมCaseโดยไม
จ าเปนตองทราบจ านวนกลมทแนนอน และไมตองทราบวาแตละ Case อยกลมใดบาง ส าหรบ
ตวอยางนจะใชขอมลแค 20 Caseแรกในการจดกลม เนองจากไมตองการใหผลลพธทไดยาวเกนไป
จนท าใหไมสะดวกในการอธบายความหมาย โดยมขนตอนดงน
ขนท 1 : สรางแฟมขอมล ซงจะม case หรอตวแปรหลายๆตว ทจะน ามาใชในการแบง
case หรอแบงกลมตวแปร ซงในทนจะใชแฟมขอมล cars ซงมอยในโปรแกรม SPSS โดยใชขอมล
แค 20 case แรกในการจดกลม เนองจากไมตองการใหผลลพธทไดยาวเกนไป
ขนท 2 : เลอก Case ท 1 – 20 เพอใชในการวเคราะห โดยใชค าสง
Data Select Case จะไดหนาจอภาพท 13
29
ภาพท 13 Select Case
ในหนาจอภาพท 13 เลอก Based on time or case range
คลก จะไดหนาจอภาพท 13
ใส ใน First case และ ใน box ของ Last case
คลก และคลก
30
ขนท 3 : ท าการแบงกลมดวยเทคนค Hierarchical Cluster โดยใชค าสง
Analyze Classify Hierarchical Cluster … จะไดหนาจอภาพท 14
ภาพท 14 : Hierarchical Cluster
จากหนาจอภาพท 14
เลอกตวแปรทคาดวาจะท าใหมความแตกตางระหวางกลมแตกตางกน จงเลอกตว
แปร 5 ตวดงน ใสใน box ของ Variables (s)
ในสวนของ Cluster เลอก Cases เนองจากตองการจดกลม (Case)
ในสวน Display เลอก
Stratistics
Plots
31
จากหนาจอภาพท 14 คลก จะไดหนาจอภาพท 15 เลอก
ภาพท 15 Statistics
จากภาพท 15 เลอก
Agglomeration schedule
Proximity matrix
Range of solutions แลวปอนคา
คลก กลบไปหนาจอภาพท 14
32
จากหนาจอภาพท 14 คลก จะไดหนาจอภาพท 16
ภาพท 16 : Plots
เลอก Dendogram
ในสวนของ Icicle เลอก All Clusters
คลก จะกลบไปหนาจอภาพท 14
33
จากหนาจอภาพท 14 คลก จะไดหนาจอภาพท 17
ภาพท 17 : Method
ในสวน Cluster Method เลอก Between – groups Linkage
ในสวนของ Measure เลอก Interval เนองจากตวแปรทง 5 ตวทเลอก เปนขอมล
Ratio scale และเลอก Square Euclidean distance
ในสวนของ Transform Values เลอก Z scores เนองจากตวแปรทง 4 ตวขางตนม
หนวยทแตกตางกน และ By Variable
คลก จะกลบไปหนาจอภาพท 14
34
จากหนาจอภาพท 14 คลก จะไดหนาจอภาพท 18
ภาพท 18 : Save
เลอก Range of solution :
คลก และ จะไดผลลพธดงแสดงในตารางท
ตารางท 7 Case Processing Summarya
Case Processing Summarya
Cases
Valid Missing Total
N Percent N Percent N Percent
14 70.0% 6 30.0% 20 100.0%
a. Squared Euclidean Distance used
35
จากตารางท 7 ระบวาจากขอมล 20 Case มคา Missing อย 6 จงมจ านวนCaseน ามา
วเคราะหเพยง 14 หรอคดเปน 70% (14/20)
ตารางท 8 Proximity Matrix
จากตารางท 8 : Proximity Matrix คาตาง ๆ ในตารางท 8 เปนระยะหางของ Case แตละ
คโดยระยะหางทใชคอ คา Squared Euclidean Distance เชน case 1 และ case 9 หางกน 28.593
ขณะท case 1 และ case 3 หางกนเพยง 1.024 ดงนน ควรจดCase case 1 และ case 3 ใหอยใน
กลมเดยวกน นนคอ case 1 และ case 3 มคาตวแปร 5 ตว ดงกลาวคลายกน ในขณะเดยวกน
ควรจด case 1 และ case 9 อยตางกลมกน หรอ case 1 และ case 3 มความแตกตางกนในตวแปร
ทง 5 ตว
Case
Squared Euclidean Distance
1:Case 1 2:Case 2 3:Case 3 4:Case 4 5:Case 5 9:Case 9
………. 13:Case 19 14:Case 20
1:Case 1 .000 6.302 1.024 2.319 1.974 28.953 - 11.307 25.208
2:Case 2 6.302 .000 5.360 1.800 4.071 11.079 - 3.368 10.148
3:Case 3 1.024 5.360 .000 2.603 .797 23.971 - 8.191 19.213
4:Case 4 2.319 1.800 2.603 .000 1.952 21.153 - 7.471 16.350
5:Case 5 1.974 4.071 .797 1.952 .000 22.681 - 5.848 18.117
6:Case 6 18.914 6.407 14.979 13.892 13.962 1.354 - 4.288 10.073
7:Case 7 30.418 12.413 24.340 22.737 22.351 .663 - 7.722 9.576
8:Case 8 30.160 12.580 23.700 22.598 21.198 1.599 - 6.953 9.887
9:Case 9 28.953 11.079 23.971 21.153 22.681 .000 - 8.887 9.970
10:Case 10 17.610 6.643 11.987 12.417 9.635 5.954 - 2.094 7.362
11:Case 16 9.841 1.796 6.585 5.115 4.779 8.723 - .804 5.856
12:Case 17 18.698 8.074 13.644 12.353 9.079 13.552 - 3.079 11.370
13:Case 19 11.307 3.368 8.191 7.471 5.848 8.887 - .000 8.969
14:Case 20 25.208 10.148 19.213 16.350 18.117 9.970 - 8.969 .000
This is a dissimilarity matrix
36
ตารางท 9 Agglomeration Schedule
Agglomeration Schedule
Stage
Cluster Combined
Coefficients
Stage Cluster First Appears
Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2
1 7 8 .239 0 0 4
2 3 5 .797 0 0 5
3 11 13 .804 0 0 8
4 7 9 1.131 1 0 6
5 1 3 1.499 0 2 10
6 6 7 1.735 0 4 11
7 2 4 1.800 0 0 10
8 10 11 2.148 0 3 9
9 10 12 3.025 8 0 11
10 1 2 3.768 5 7 13
11 6 10 7.180 6 9 12
12 6 14 9.133 11 0 13
13 1 6 14.933 10 12 0
จากตารางท 9 เปนผลจากการใชวธ Between – groups linkage ในหนาจอภาพท 17
(หนาจอ Method) ในการรวมกลม Case นนคอ ในแตละ Stage จะบอกวามการรวม Case คใดบาง
ใหอยในกลมเดยวกน เชน
Stage 1 : จะจดท 7 และ Case ท 8 อยในกลมเดยวกน เนองจากCase ท 7 และ 8
มระยะหางกนสนทสด (จากตารางท 9 ) ซงระยะหาง (คา Squared Euclidean Distance) คอคาใน
Column ของ Coefficients ซงเทากบ .239 และคา Next Stage ใน Column สดทาย = 4 หมายถง
กลมหรอ Cluster ทมCaseท 7 และ 10 จะรวมกบ Case อนตอไปใน stage ท 4
Stage 2 : มการจดให Case ท 3 และ Case ท 5 ใหอยในกลมหรอ Cluster เดยวกน
ซง Case ท 3 และ 5 มระยะหาง = .797 และกลมทมCaseท 3 และ 5 อยจะรวมกบCaseอนอกใน
Stage ท 5 (Next Stage = 5)
37
Stage 4 : มการจด Caseท 7 และ 9 ใหอยในกลมเดยวกน แตCaseท 7 อยกลมเดยวกบ
Caseท 8 ในขนท 1 แลว โดยพจารณา Column ของ Stage Cluster First Appears ในสวนของ
Cluster 1 = 1 เปนการระบวา Caseท 7 ถกรวมกบCaseท 8 ใน Stage ท 1 แลว ดงนน Caseท 7
และ 8 และ 9 จะรวมอยในกลมเดยวกน และจาก Column ของ Next Stage = 6 แสดงวาจะมCase
ใหมอก 1 Case มารวมกบกลมนใน Stage ท 6 ส าหรบการรวม Caseท 9 เขาในกลมเดมทมอยแลว
(กลมทม Case 7 และ 8) จะใชวธ Between-groups linkage (Average Linkage) นนคอ ใชคาเฉลย
ของระยะหางระหวางCase 9กบ Case 7 และระยะหางระหวางCase 9 และ 8 (จากตารางท 8 )
Stage 10 : จะมการน า Case ท 2 มารวมกบกลมทมCaseท 2 และ 4 อยแต Case ท 1 น ถก
รวมอยในกลมทม Case ท 3 Stage ท 51 และเปนเชนนไปเรอย ๆ จนถง Stage ท 13 จะเปนการ
รวมทก Case อยในกลมเดยวกนซงจะแสดงดวยกราฟในรปท : Dendogram ดงทไดกลาวแลววา
เทคนค Cluster ในขนแรกจะให จ านวนกลม = จ านวน Case นนคอ ในตวอยางนม 14 Case
(เนองจากมการ Missing 6 Case) จงเรมตนม 14 กลม ๆ ละ 1 Case แลวจงคอย ๆ รวม Case ทละ
ค ดงในตารางท 8 จนในทสดเหลอกลมเดยว ดงนน การพจารณาวาควรแบงเปนกกลมยอยจงอย
ทการพจารณาของผวเคราะหโดยจะพจารณาจากระยะหาง หรอความคลาย
38
ตารางท 10 Cluster Membership
Cluster Membership
Case 4 Clusters 3 Clusters 2 Clusters
1:Case 1 1 1 1
2:Case 2 1 1 1
3:Case 3 1 1 1
4:Case 4 1 1 1
5:Case 5 1 1 1
6:Case 6 2 2 2
7:Case 7 2 2 2
8:Case 8 2 2 2
9:Case 9 2 2 2
10:Case 10 3 2 2
11:Case 16 3 2 2
12:Case 17 3 2 2
13:Case 19 3 2 2
14:Case 20 4 3 2
จากตารางท 10 เปนการระบวาแตละ Case อยกลมใดโดยแบงเปน 3 รปแบบ (ตามทระบใน
หนาจอภาพท 18 ) ดงน
1) กรณทม 4 กลม (4 Clusters) เมอม 4 กลม คอ
กลมท 1 : ม 5 Case คอ 1, 2, 3, 4 และ 5
กลมท 2 : ม 4 Case คอ 6, 7, 8, และ 9
กลมท 3 : ม 4 Case คอ 10, 16, 17 และ 19
กลมท 4 : ม 1 Case คอ 20
2) กรณทม 3 กลม (3 Clusters) เมอม 3 กลม
กลมท 1 : ม 5 Case คอ 1, 2, 3, 4 และ 5
กลมท 2 : ม 8 Case คอ 6, 7, 8, 9, 10, 16, 17 และ 19
กลมท 3 : ม 1 Case คอ 20
39
จะพบวาทงกรณทม 4 กลมและ 3 กลม Case 20 จะเปน Case เดยวทไมสามารถรวมกลมกบCaseอน ๆ ได เนองจากแตกตางจากCaseอน ๆ มาก (ระยะหางมาก)
3) กรณทม 2 กลม (2 Clusters) กลมท 1 : ม Case คอ 1, 2, 3, 4 และ 5 กลมท 2 : ม 13 Case คอ 6, 7, 8, 9, 10, 16, 17,19และ 20
จะพบวากรณทม 3 กลมและ 2 กลม กลมท 2 จะเหมอนกน กลมท 1 กจะเหมอนกนยกเวน Case 20 ทถาแบงเปน 2 กลมจะถกจดใหอยในกลมท 1 ทงนเนองจากระยะหางเฉลยของCase 20 กบCaseอน ๆ ในกลมท 1 สนกวากลมท 2 หรอมความคลายCaseอน ๆ ในกลมท 1 มากกวา
การพจารณาวาควรจดแบง Case เปนกกลมจงจะเหมาะสม จะพจารณาจากระยะหางในตารางท 8 คา Coefficient ในตารางท 9 ตารางท 10
ตารางท 11
ตารางท 11 เปนผลจากการเลอก All Clusters ในสวน Icicle ของหนาจอ Plots ภาพท 16 จะพบวาถาในขนตอนใดมการรวม Case กจะเชอมดวยเครองหมาย X
ซงจะพบวาจะพจารณาคอนขางยาก ดงนน จงจะปรบตารางท 11 เปนภาพท 19 ท าใหพจารณางายขนกวาในแตละขนมการรวม Case ใดบาง
40
การสรางภาพท 19 มขนตอนดงน
1. เมออยทหนาจอผลลพธ เลอก Edit Options
2. เลอก Scripts tab
3. ในสวนของ Autoscripts เลอก Enable Autoscripts
4. เลอก Cluster_Table_Icicle_Create แลวคลก
5. ใชค าสง Hierarchical Cluster..ใหมอกครง จะไดผลลพธใหมและตารางท 11
จะแสดงอยในของภาพท 19
ภาพท 19 : Vertical Icicle
จากภาพท 19 Block bar ทอยสวนบนของตาราง หมายถง แตละCase ในแถวท 1 หรอเมอม 1 กลม หรอ 1 Cluster จะเปนสด าหมด หมายถงทก Case เชอม
กนหรอรวมอยในกลมเดยวกน ในแถวสดทายหรอเมอม 13 กลมหรอ 18 Clusters จะพบวาCaseท 7 กบ 8 จะรวมอย
ในกลมเดยวกน เนองจากมการระบายสด าเชอมCase 7 และ 8 ในแถวท 12 หรอเมอม 17 Clusters จะรวม Caseท 3 และ 5 หรอCase 3และ 5
เขาอยในกลมเดยวกน เนองจากมการระบายสด าเชอม Case 3 และ 5 ในแถวท 11 หรอเมอม 11 Clusters จะรวมCaseท 19 หรอCase 16
41
การพจารณาเลอกจ านวนกลมทเหมาะสม
ดงไดกลาวมาแลววา ผลลพธของเทคนค Cluster ไมไดใหคาสถต หรอผลการทดสอบ
สมมตฐานเพอใหตดสนใจหาจ านวนกลมทเหมาะสม ผวเคราะหจะตองพจารณาความเหมาะสมเอง
โดยอาจใชระยะหาง หรอความคลาย โดยใช dendogram ซงผวเคราะหจะสามารถพจารณาจ านวน
กลมจาก dendogram โดยการก าหนดตวเลขระหวาง หรอความคลายเปนเกณฑใน การตดสนใจ
1) การใช Dendogram ส าหรบ Dendogram ถาก าหนดระยะหางระหวางกลม เปน
หนวยทแตกตางกนไปกจะไดจ านวน Cluster ทแตกตางกนไป คอยงระหางยงมาก จ านวน Cluster กจะ
เพมขน
2) การพจารณาลกษณะ (Profile) ของแตละกลมยอย จากการใชค าสง Save
หนาจอภาพท 14 เมอเลอก Rang of solutions และใส จ านวน Cluster เปน 2 – 4 จะท าให
โปรแกรม SPSS สรางตวแปรใหมในแฟมขอมลอก 3 ตวคอ clu4_1, clu3_1 และ clu2_1 โดยท
clu4_1 หมายถงตวแปรทแสดงเลขทกลมขอแตละ case สวนเลข 4 หมายถง ม 4 กลม
หรอ 4 clusters และ 1 หมายถงการวเคราะหครงท 1
clu2_1 เปนตวแปรทแสดงเลขท Cluster ของแตละ case กรณทม 2 clusters และเปน การวเคราะหครงท 1
ภาพท 20 แสดงคาของตวแปร clu4_1, clu3_1 และ clu2_1
42
ถาในหนาจอ Hierachical Cluster Analysis ภาพท 14 เลอกตวแปร Company ใสใน Label
cases by โปรแกรมจะไมมการ Save ตวแปร clu4_1, clu3_1 และ clu2_1 ให แตจะม Warning ดงน
Warning
ดงนนในหนาจอ Hierarchical Clusters จะตองไมเลอกตวแปรใสใน box ของ Label Cases by
โปรแกรม SPSS จงจะ Save ตวแปร clu4_1, clu3_1 และ clu2_1 ใหในแฟมขอมล ซงถอวา
ตวแปร clu4_1, clu3_1 clu2_1 เปนตวแปรใหม และสามารถน าตวแปรเหลานมาวเคราะหตอไปน
โดยมขนตอนดงน
ขนท 1 : หาจ านวนCase หรอ Cases ในแตละ Cluster โดยใชค าสงดงน
Analyze Descriptive Statistics requencies … จะไดหนาจอภาพท 21
ภาพท 21 Frequencies
SAVE will not be performed, since original
Case number unknown
!! Warning ระบวาจะไมม
การ save ให ตามทเลอก
ในหนาจอ
43
เลอกตวแปร clu2_1, clu3_1 และ clu3_1 ใสใน box ของ Variable (s)
เลอก Display frequency tables
คลก จะไดผลลพธดงตาราง
Average Linkage (Between Groups)
Frequency Percent Valid Percent
Cumulative
Percent
Valid 1 5 1.2 35.7 35.7
2 9 2.2 64.3 100.0
Total 14 3.4 100.0
Missing System 392 96.6
Total 406 100.0
Average Linkage (Between Groups)
Frequency Percent Valid Percent
Cumulative
Percent
Valid 1 5 1.2 35.7 35.7
2 8 2.0 57.1 92.9
3 1 .2 7.1 100.0
Total 14 3.4 100.0
Missing System 392 96.6
Total 406 100.0
44
Average Linkage (Between Groups)
Frequency Percent Valid Percent
Cumulative
Percent
Valid 1 5 1.2 35.7 35.7
2 4 1.0 28.6 64.3
3 4 1.0 28.6 92.9
4 1 .2 7.1 100.0
Total 14 3.4 100.0
Missing System 392 96.6
Total 406 100.0
ภาพท 22 : Average Linkage (Between Groups)
จากภาพท 22
1. แสดงจ านวนและเปอรเซนตของแตละ Cluster เมอแบงเปน 2 Clusters Cluster ท 1 ม 5
Case หรอรอยละ 35.7Cluster ท 2 ม 9 Case คดเปนรอยละ 64.3
2. ใชเมอแบงเปน 3 Clusters จะพบวามการแบง Cluster ท 1 ม 5 Case เหมอนเดม
Cluster ท 2 ม 8 Case จากเดม เปน 9
3. แสดงกรณทแบงเปน 4 Clusters จะพบวามการแบง Cluster ท 2 ม 4 Case จากเดมเปน
8 Case และ Cluster ท 3 ม 4 Case และ Cluster ท 4 ม 1 Case
การพจารณาวาจ านวน Cluster ควรเปน 2 หรอ 3 หรอ 4 นอกจากจะใช Dendogram ดงท
ไดกลาวมาแลว ยงอาจจะพจารณาจากจ านวน
45
ขนท 2 : การสรางกราฟแสดงคาเฉลยของตวแปรทใชแบงกลม
1) ปรบคาตวแปร mpq, engine, horse ,weight และ accel ใหอยในรป Standardized
เพอก าจดความแตกตางของหนวย โดยท าดงน
Analyze Descriptive Statistics Descriptives … จะไดหนาจอภาพท 23
ภาพท 23 Descriptives
ในหนาจอภาพท 23 เลอกตวแปร Miles per Gallon, Engine Displacement, Horsepower,
Vehicle Weight และ Time to Accelerate ใสใน Variable (s) box
เลอก Save standardized values as variables
คลกปม จะไดผลลพธเปนคาตวแปร zengine, zhors, zweight และ zaccel อยใน
แฟมขอมล ซงเปนตวแปรท Standardized แลว
46
2) ใชคาสง Graphs Line จะไดหนาจอภาพท 24
ภาพท 24 Line Charts
เลอก Multiple
สวนของ Data In Chart Are เลอก Summaries of separate variables
คลกปม จะไดหนาจอภาพท 25
47
ภาพท 25 Multiple Line Charts
จากหนาจอภาพท 25
เลอกตวแปร ใสใน box ของ Lines Represent ดงรป
เลอกตวแปร clu4_1 ใสใน box ของ Category Axis
คลกปม จะไดผลลพธดงภาพท 26
ภาพท 26 Line Chart
48
2. ขนตอนการใช SPSS ในการจดกลม Cases ดวยเทคนค K-Means
Clustering
ตวอยางท 2 ในตวอยางนจะใชแฟมขอมลทมอยในโปรแกรม SPSS คอแฟมขอมล World
95 for Missing Values ถงแมแฟม World 95 for Missing Values จะมจ านวน case นอยกวา 200
แตกมากพอทจะใชวธ K-Means ไดแฟม World 95 for Missing Values เปนแฟมแสดงตวแปรตาง ๆ ของ
แตละประเทศจ านวน 109 ประเทศ
ขนท 1 : ท าการ Standardized ตวแปรทน ามาวเคราะห
Analyze Descriptive Statistics Descriptives จะไดหนาจอภาพท 27
ภาพท 27 : Descriptives
ในหนาจอภาพท 27 เลอกตวแปร 11 ตว คอ urban, lifeexpf, literacy, pop_incr, babymort, birth_rt, death_rt, log_gdp, b_to_d, fertility และ log_pop ใสใน box ของ Variable (s) (ตวแปรทง 11 ตว เปนตวแปรชนดตวเลข) เลอก Save standardized values as variables จะไดตวแปรใหม 11 ตวทมชอเดมแตม Z น าหนาตอจากตวแปรสดทายในแฟมขอมล
49
ขนท 2 : การจ าแนกกลมดวยเทคนค K-Means โดยใชค าสง
Analyze Classify K-Means Clusters … จะไดหนาจอภาพท 28
ภาพท 28 K-Means Clusters Analysis
จากหนาจอภาพท 28
เลอกตวแปร zurban, zlifeezp, zliterac, zpop_inc, zbabymor, zbirth_r, zdeath_r,
zlog_gdp, zb_to_d, zfertilt และ zlog_pop ใสใน box ของ Variables
เลอกตวแปร county ซงเปนตวแปรชนด String ใสใน box ของ Label Cases by
ในสวนของ number of Clusters ใส 4 หมายถงตองการแบงประเทศออกเปน 4 กลม
ในสวนของ Method เลอก Iterate and classify
คลกปม จะไดหนาจอภาพท 29
50
ภาพท 29 : Iterate
หนาจอภาพท 29 ประกอบดวย
สวนท 1 : Maximum Iteration เปนการก าหนดจ านวนรอบ (Iteration) ในการค านวณ
ซงตวเลขทใสใน box ตองมคาตงแต 1 ถง 999 โดยโปรแกรมจะค านวณไมเกนจ านวนรอบท
ก าหนด
ในตวอยางนใหเลอกเปลยนเปน 30 รอบ
สวนท 2 : Convergence Criterion เปนการก าหนดการหยดการค านวณ โดยการ
ก าหนดสดสวนของระยะหางทสนทสด ระหวางคากลางของ Cluster ในตอนเรมแรก โดยคาท
ก าหนดใน box จะตองมากกวา 0 แตไมเกน 1
สวนท 3 : Use running means ถาเลอกทางเลอกนหมายถงจะใหหาคากลางของ
Cluster ทกครงทมการก าหนด Case ใหแก Cluster ถาไมเลอกจะมการค านวณคากลางใหมตอเมอ
ไดก าหนด Cluster ใหแกทก Case แลว
ในหนาจอภาพท 28 คลกปม จะไดหนาจอภาพท 30
51
ภาพท 30 : Save
ในหนาจอภาพท 30 มทางเลอก 2 ทางคอ
Cluster membership จะสรางคาตวแปรใหมซงเปนตวแปรทระบกลมคอ Cluster
ทแตละ case เปนสมาชกอย
Distance from cluster center จะสรางตวแปรใหม โดยตวแปรใหมนจะระบคา
Euclidean distance จากแตละ case ไปยงคากลางของกลม
ในตวอยางนเลอกทง 2 สวนคอ
Cluster membership
และ Distance from cluster center
จากหนาจอภาพท 28 คลกปม จะไดหนาจอภาพท 31
52
ภาพท 31 : Options
หนาจอภาพท 31 ประกอบดวย 2 สวนคอ
สวนท 1 : Statistics ม 3 ทางเลอกคอ
Initial cluster centers เปนการใหแสดงคากลางของแตละกลมในตอนเรมแรก
ANOVA Table ใหคาสถต F เพอแสดงความแตกตางระหวางกลมของตวแปร
แตละตวเมออยตางกลมกน
Cluster information for each case จะแสดงรายละเอยดของ Cluster ใหส าหรบ
แตละ Case ในตวอยางนเลอกทง 3 ทางเลอก
สวนท 2 : Missing Values มทางเลอกส าหรบคา Missing คอ
Exclude cases listwise
Exclude cases pairwise
ในตวอยางนเลอก Exclude cases listwise
53
ตารางท 12 : Initial Cluster
Initial Cluster Centers
Cluster
1 2 3 4
zurban -1.59 -1.26 1.63 1.80
zlifeexp -2.47 -1.06 .74 .84
zliterac -2.16 -1.15 -.23 .42
zbirth_r 2.19 .25 .17 -.80
zpop_inc .93 .18 2.97 -.40
zbabymor 3.30 .96 -.78 -.96
zlog_gdp -1.79 -1.58 .66 1.22
zb_to_d -.37 -.14 5.08 -.25
zfertilt 1.75 .48 .23 -.88
zlog_pop .30 2.82 -1.31 -1.00
Zscore(death_rt) Death rate
per 1000 people 2.92547 .10408 -1.77684 -.83638
.
คาตาง ๆในตารางท 11 แสดงคาเฉลยของตวแปรแตละตวท Standardized
ใน Cluster ตาง ๆ หรอถาเปนคากลางของ Cluster ในตอนเรมตนนนเอง ในทนม 4 กลม
หรอ 4 Clusters เนองจากไดก าหนดไวในหนาจอภาพท 28
54
ตารางท 13 : Iteration Historya
Iteration Historya
Iteration
Change in Cluster Centers
1 2 3 4
1 1.827 3.007 .821 1.782
2 .253 .430 2.166 .407
3 .421 .328 .309 .066
4 .022 .009 .044 .001
5 .001 .068 .318 2.857E-5
6 6.134E-5 .002 .040 5.952E-7
7 3.229E-6 5.900E-5 .005 1.240E-8
8 1.699E-7 1.735E-6 .001 2.583E-10
9 8.944E-9 5.104E-8 7.760E-5 5.382E-12
10 4.707E-10 1.501E-9 9.701E-6 1.119E-13
11 2.477E-11 4.415E-11 1.213E-6 2.299E-15
12 1.304E-12 1.299E-12 1.516E-7 2.776E-17
13 6.872E-14 3.824E-14 1.895E-8 .000
14 3.647E-15 1.238E-15 2.368E-9 .000
15 2.668E-16 .000 2.960E-10 .000
16 .000 .000 3.700E-11 .000
17 .000 .000 4.625E-12 .000
18 .000 .000 5.780E-13 .000
19 .000 .000 7.237E-14 .000
20 .000 .000 8.910E-15 .000
21 .000 .000 1.429E-15 .000
22 .000 .000 6.799E-17 .000
23 .000 .000 .000 .000
55
Iteration Historya
Iteration
Change in Cluster Centers
1 2 3 4
1 1.827 3.007 .821 1.782
2 .253 .430 2.166 .407
3 .421 .328 .309 .066
4 .022 .009 .044 .001
5 .001 .068 .318 2.857E-5
6 6.134E-5 .002 .040 5.952E-7
7 3.229E-6 5.900E-5 .005 1.240E-8
8 1.699E-7 1.735E-6 .001 2.583E-10
9 8.944E-9 5.104E-8 7.760E-5 5.382E-12
10 4.707E-10 1.501E-9 9.701E-6 1.119E-13
11 2.477E-11 4.415E-11 1.213E-6 2.299E-15
12 1.304E-12 1.299E-12 1.516E-7 2.776E-17
13 6.872E-14 3.824E-14 1.895E-8 .000
14 3.647E-15 1.238E-15 2.368E-9 .000
15 2.668E-16 .000 2.960E-10 .000
16 .000 .000 3.700E-11 .000
17 .000 .000 4.625E-12 .000
18 .000 .000 5.780E-13 .000
19 .000 .000 7.237E-14 .000
20 .000 .000 8.910E-15 .000
21 .000 .000 1.429E-15 .000
22 .000 .000 6.799E-17 .000
23 .000 .000 .000 .000
a. Convergence achieved due to no or small change in cluster centers. The
maximum absolute coordinate change for any center is .000. The current
iteration is 23. The minimum distance between initial centers is 5.381.
56
ความหมายของผลลพธตารางท 13
เปนการแสดงคาเฉลย หรอคากลางของแตละ Cluster ทเปลยนไปในแตละรอบของ
การค านวณจะพบวาในตวอยางนก าหนดใหมจ านวนรอบสงสด = 30 รอบ แตในตารางแสดงแค
23 รอบ (Iteration) เนองจากในรอบท 23 ไมมการเปลยนแปลงของคากลางเมอเทยบกบคากลาง
ของรอบท 22 (ใน Iteration ท 23 คาทเปลยนไปของคากลางเปนศนยหมด)
ตารางท 14 Cluster Membership
Cluster Membership
Case
Number country Cluster Distance
1 1 2.284
2 Argentina 4 1.458
3 Armenia 4 1.963
4 Australia 4 1.081
5 Austria 4 1.133
6 Azerbaijan 4 1.875
7 Bahrain 3 1.533
8 Bangladesh 1 2.434
9 Barbados 4 2.836
10 Belarus 4 .723
11 Belgium 4 1.306
12 Bolivia 2 1.234
13 Bosnia . .
14 Botswana 2 2.320
15 Brazil 2 2.494
16 Bulgaria 4 1.209
17 Burkina Faso 1 1.127
18 Burundi 1 1.638
19 Cambodia 1 .732
57
20 Cameroon 1 2.055
21 Canada 4 .990
22 Cent. Afri.R 1 2.118
23 Chile 4 1.972
24 China 2 3.527
25 Colombia 2 1.841
26 Costa Rica 3 1.711
27 Croatia 4 1.422
28 Cuba 4 1.457
29 Czech Rep. . .
30 Denmark 4 1.298
31 Domincan R. 2 1.422
32 Ecuador 2 1.348
33 Egypt 2 1.743
34 El Salvador 2 1.082
35 Estonia 4 1.541
36 Ethiopia 1 1.660
37 Finland 4 1.036
38 France 4 1.305
39 Gabon 2 3.295
40 Gambia 1 1.892
41 Georgia 4 1.046
42 Germany 4 1.643
43 Greece 4 .797
44 Guatemala 2 1.176
45 Haiti 1 1.515
46 Honduras 2 1.408
47 Hong Kong 4 1.736
48 Hungary 4 1.356
49 Iceland 4 2.815
50 India 2 3.356
51 Indonesia 2 2.308
58
52 Iran 2 2.109
53 Iraq 2 2.518
54 Ireland 4 1.114
55 Israel 4 2.001
56 Italy 4 1.399
57 Japan 4 1.891
58 Jordan 3 1.488
59 Kenya 1 2.294
60 Kuwait 3 3.514
61 Latvia 4 1.265
62 Lebanon 2 2.046
63 Liberia 1 1.928
64 Libya 2 2.882
65 Lithuania 4 .870
66 Malaysia 2 1.441
67 Mexico 2 2.170
68 Morocco 2 1.186
69 N. Korea 2 1.936
70 Netherlands 4 .975
71 New Zealand 4 1.093
72 Nicaragua 2 1.676
73 Nigeria 1 2.227
74 Norway 4 .999
75 Oman . .
76 Pakistan 1 2.420
77 Panama 3 2.140
78 Paraguay 3 1.384
79 Peru 2 1.279
80 Philippines 2 1.329
81 Poland 4 1.079
82 Portugal 4 1.753
83 Romania 4 1.348
59
84 Russia 4 1.872
85 Rwanda 1 1.778
86 S. Korea 4 1.388
87 Saudi Arabia 2 2.521
88 Senegal 1 1.895
89 Singapore 4 1.877
90 Somalia 1 1.926
91 South Africa 2 .854
92 Spain 4 1.105
93 Sweden 4 .929
94 Switzerland 4 1.061
95 Syria 2 2.572
96 Taiwan . .
97 Tanzania 1 1.068
98 Thailand 2 2.471
99 Turkey 2 1.471
100 U.Arab Em. 3 1.936
101 UK 4 1.493
102 USA 4 2.211
103 Uganda 1 2.098
104 Ukraine 4 1.763
105 Uruguay 4 1.357
106 Uzbekistan 2 1.220
107 Venezuela 2 2.369
108 Vietnam 2 2.206
109 Zambia 1 1.958
ความหมายของผลลพธตารางท 14
ตารางท 14 เปนขอมลทงหมด ทแสดงถง Cluster ทแตละ Case อย
เชน Case ท 8 คอ ประเทศ Bangladesh อยใน Cluster ท 1 และมระยะหางจากคากลางของ
Cluster ท 1 มากทสดคอ 2.434 เนองจากมทงหมด 109 ประเทศ
60
ตารางท 15 Final Cluster Centers
Final Cluster Centers
Cluster
1 2 3 4
zurban -1.31 -.16 .47 .67
zlifeexp -1.80 -.14 .55 .77
zliterac -1.62 -.17 .13 .80
zbirth_r 1.50 .34 .31 -.93
zpop_inc .91 .48 1.30 -.93
zbabymor 1.72 .23 -.56 -.79
zlog_gdp -1.38 -.44 .20 .85
zb_to_d -.13 .54 2.34 -.72
zfertilt 1.49 .20 .26 -.87
zlog_pop .04 .43 -1.11 -.12
Zscore: Death rate per 1000
people 1.53829 -.54783 -1.32340 -.04378
ความหมายของผลลพธตารางท 15
คาในตารางท 15 เปนคาเฉลยตวแปรท Standardized แลว คาเฉลยเหลานคอ
คากลาง ของแตละ Cluster จะพบวาคาเฉลยของตวแปร babymort จะแตกตางกนเมออย Cluster
ทตางกน และแตกตางกนมากเมอเทยบกบตวแปรอนๆนนคอ คาเฉลยของ babymort ใน Cluster ท
1=1.72 หรอ มากกวาคาเฉลยรวม 1.72 เทาของคาเบยงเบนมาตรฐาน ขณะทของ Cluster ท 4
เปน -.79 หรอนอยกวาคาเฉลยรวมถง .79 เทาของคาเบยงเบนมาตรฐาน ในท านองเดยวกบ
ตวแปร lifeexp, birth_literac กมคาเฉลยแตกตางกนมากเมออยตาง Cluster กน
61
ตารางท 16 Distances between Final Cluster Centers
ความหมายของผลลพธตารางท 16
คาในตารางท 16 เปนระยะหางระหวางคากลางของทง 4 Cluster จะพบวา Cluster
ท 1 มระยะหางจาก Cluster ท 4 มากทสด คอ 6.737 และใกล Cluster 2 มากทสด คอ 4.173 และ
Cluster 3 กใกล Cluster 2 มากทสดเชนกน
Distances between Final Cluster Centers
Cluster 1 2 3 4
1 4.173 6.177 6.737
2 4.173 2.977 3.475
3 6.177 2.977 4.560
4 6.737 3.475 4.560
62
ตารางท 17 ANOVA
ANOVA
Cluster Error
F Sig. Mean Square df Mean Square df
zurban 19.036 3 .448 101 42.503 .000
zlifeexp 31.285 3 .125 101 251.110 .000
zliterac 27.455 3 .230 101 119.473 .000
zbirth_r 29.559 3 .151 101 195.412 .000
zpop_inc 24.944 3 .281 101 88.834 .000
zbabymor 30.299 3 .146 101 208.237 .000
zlog_gdp 25.814 3 .287 101 89.954 .000
zb_to_d 23.952 3 .286 101 83.702 .000
zfertilt 26.731 3 .223 101 119.723 .000
zlog_pop 5.056 3 .897 101 5.638 .001
Zscore: Death rate per 1000
people
23.185 3 .352 101 65.798 .000
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the
differences among cases in different clusters. The observed significance levels are not corrected for this and thus
cannot be interpreted as tests of the hypothesis that the cluster means are equal.
ความหมายของผลลพธตารางท 17 : ANOVA (1-Way ANOVA)
เปนการแสดงคา Mean Square ระหวาง Cluster (Between – cluster Mean Square)
และ Mean Square Error หรอ Within – Cluster Mean Square และใหคาสถต F โดยทจะไมใช
คาสถต F และคา Significance ใน Column สดทายของตาราง ในการทดสอบคาความแตกตาง
ระหวางคาเฉลยของแตละตวแปรเมออยตาง Cluster กน จะพบวาคาเฉลยของตวแปร lifeexp
63
เมอมตางกลมกนจะมความแตกตางกนมากทสด เนองจากคาสถต F สงสด คอ 251.110 และของ
ตวแปรzbabymor รองลงมาคอ F = 208.237 ซงอาจจะแตกตางจากค าอธบายของตารางท 6.4
เลกนอย เนองจากตารางท 6.4 เปรยบเทยบเฉพาะคาเฉลย ในตารางนใชคา Mean Square
มาเปรยบเทยบกน สวนตวแปร log_pop มคาเฉลยแตกตางกนนอยทสดเมออยตาง Cluster
กน (F=5.638)
ตารางท 18 Number of Cases in each Cluster
Number of Cases in each
Cluster
Cluster 1 20.000
2 33.000
3 7.000
4 45.000
Valid 105.000
Missing 4.000
ความหมายของผลลพธตารางท 18
จากตารางจะแสดงจ านวน Case หรอ ประเทศทอยในแตละ Cluster จะพบวาประเทศ
สวนใหญอยใน Cluster ท 4 สวน Cluster ท 3 จะมจ านวนประเทศนอยทสด
64
การประเมนผลของการจ าแนกกลม
เพอทจะใหเขาใจความหมายของกลม หรอ Cluster มากขน จงควรจะบนทก
เลขทกลม และระยะหางจากแตละ Case ไปยงคากลางของกลมท Case นนอย (ในหนาจอภาพ
ท 30) ซงหมายเลข Cluster ทแตละ Case อยจะอยในตวแปรชอ qcl_1 และระยะหางจากแตละ
Case ไปยงคากลางของกลมจะอยในตวแปรชอ qcl_2 ซงอยทายแฟมขอมล
ภาพท 32 ตวแปร QCL_1 และ QCl_2
65
วธท 1 : ในทนจะวเคราะหตวแปร qcl_1 โดยใชค าสง Crosstabs เพอแสดงจ านวน และ เปอรเซนต
ของประเทศในทวปตาง ๆ ทถกจดอยใน Cluster ตางๆ โดยใชค าสง
Analyze Descriptive Statistics Crosstabs… จะไดหนาจอภาพท 33
ภาพท 33 Crosstabs
เลอกตวแปร qcl_1 ใสใน box ของ Row
เลอกตวแปร region2 ใสใน box ของ Column
66
ตารางท 19 geographical region * Cluster Number of Case Crosstabulation
geographical region * Cluster Number of Case Crosstabulation
Count
Cluster Number of Case
Total
1 2 3
4
geographical region
Europe 0 0 0 17 17
East Europe 0 0 0 12 12
Pacific/Asia
4 8 0 6 18
Africa
15 4 0 0 19
Middle East
0 9 4 3 16
Latin America
1 12 3 5 21
Total 20 33 7 43 103
ความหมายของผลลพธตารางท 19
คาในตารางท 19 แสดงจ านวนประเทศในแตละทวปทอยใน Cluster 1-4 จะพบวาทก
ประเทศในยโรปอยใน Cluster ท 4 หมด (17 ประเทศ) และประเทศใน East Europe กอยใน Cluster
ท 4 ทงหมดเชนกน (12 ประเทศ) ขณะทประเทศใน Africa สวนใหญอยใน Cluster ท 1 และประเทศ
ใน Latin America สวนใหญอยใน Cluster ท 2
ตารางท 20 Cluster Number of Case * geographical region Crosstabulation
Cluster Number of Case * geographical region Crosstabulation
geographical region
Total Europe East Europe Pacific/Asia Africa Middle East Latn America
Cluster
Number of
Case
1 Count 0 0 4 15 0 1 20
% within Cluster
Number of Case .0% .0% 20.0% 75.0% .0% 5.0% 100.0%
2 Count 0 0 8 4 5 13 30
% within Cluster
Number of Case .0% .0% 26.7% 13.3% 16.7% 43.3% 100.0%
3 Count 0 0 0 0 8 2 10
% within Cluster
Number of Case .0% .0% .0% .0% 80.0% 20.0% 100.0%
4 Count 17 12 6 0 3 5 43
% within Cluster
Number of Case 39.5% 27.9% 14.0% .0% 7.0% 11.6% 100.0%
Total Count 17 12 18 19 16 21 103
% within Cluster
Number of Case 16.5% 11.7% 17.5% 18.4% 15.5% 20.4% 100.0%
ความหมายของผลลพธตารางท 20
ตารางท 20 ไดจากการใชค าสง Crosstabs แลวคลกปม เลอกเฉพาะ %
of Row เปนการแสดงเปอรเซนตของประเทศในทวปตางๆ ทอยใน Cluster 1-4 โดยประเทศ ใน
ยโรป และ East Europe อยใน Cluster ท 4 ถง 100 % ในขณะทประเทศใน Asia อยใน Cluster 2
เทากบ 44.4% สวนประเทศใน Africa อยใน Cluster 1 รอยละ 78.9 เปนตน
สรป
การทประเทศในยโรปอยใน Cluster ท 4 ถง 100% และประเทศไทยในทวปอนอยใน
Cluster ท 4 นอย เนองจากประเทศในยโรปมคาตวแปรตาง ๆ แตกตางจากประเทศในทวปอน ๆ
คอนขางมาก เมอ พจารณาจากตารางท 15 : Final Cluster Center จะพบวา ใน Cluster ท 4
- ตวแปร urban (สดสวนของประชากรทอาศยอยในเมอง) มคาเฉลยสงกวา Cluster
อน ๆ หมายถงประเทศทอยใน Cluster ท 4 จะเปนประเทศทประชากรอาศยในเมองในสดสวนทสง
กวาประเทศทอยใน Cluster 1 – 3
- ตวแปร Literacy (อตราการอานหนงสอไดของประชากร) ของ Cluster 4
มคาเฉลยเปนบวก (.80) ขณะทของ Cluster 1-3 เปนคาลบ นนคอประเทศทอยใน Cluster ท 4
มอตราการอานหนงสออกสงกวาอตราเฉลยรวม ในขณะทอก 3 Cluster ต ากวาอตราเฉลยรวม
- ตวแปร pop_inc (อตราการเพมขนของประชากร) ของ cluster 4 มคาเฉลยเปนลบ (-
.93) ขณะทของ Cluster 1 – 3 เปนคาบวก นนคอ ประเทศทอยใน Cluster ท 4 ม อตราการเพมขน
ของประชากร ต ากวาอตราการเพมขนเฉลยรวม ในขณะทของ Cluster 1 – 2 สงกวา
- ตวแปร babymort อตราการตายของทารก) ของ Cluster 4 มคาเฉลยตดลบ = -.79
ขณะทของ Cluster 1 – 2 เปนบวก และของ Cluster 3 เปนลบ = -.56 หมายความวา
ประเทศใน Cluster 4 มอตราการตายของทารกโดยเฉลย ต ากวาอตราเฉลยรวม
- ตวแปร deth_rt (อตราการตาย) และ birth_rt (อตราการเกด) ประเทศใน Cluster
ท 4 ม อตราต ากวาประเทศใน Cluster 1 – 3
- ฯลฯ
69
วธท 2 : การวเคราะหโดยใชกราฟ
เนองจากการวเคราะหโดยใช K-Mean Clustering ไดสรางตวแปรใหม 2 ตว คอ qcl_1
และ qcl_2 จงน าตวแปรทงสองมาวเคราะหดวยกราฟ โดยใชค าสง
Graphs Scatter …
เลอก Simple แลวคลกปม จะไดหนาจอภาพท 34
ภาพท 34 Simple Scatter plot
70
เลอกตวแปร qcl_2 (ระยะหางจาก Case ไปยงคากลางของ Cluster) ใสใน box ของ Y Axis
เลอกตวแปร qcl_1 (เลขท Cluster ท Case อย) ใสใน box ของ X Axis
เลอกตวแปร region 2 (ทวป) ใสใน box ของ Set Markers by
เลอกตวแปร countery (ชอประเทศ) ใสใน box ของ Label cases by จะไดภาพท 35
ภาพท 35 Cluster Number of Case
ภาพท 35 แสดงประเทศในทวปตาง ๆ ทอยใน Cluster 1 – 4 โดยแกนตง
แสดงระยะหางของแตละ Case จากคากลางของ Cluster ท Case อย จะพบวาใน Cluster
ท 3 ม 1 Case ทหางจากคากลางมากแสดงวาประเทศนตางประเทศอนใน Cluster เดยวกน
71