การวิเคราะห์กลุ่ม ( cluster analysis )

62
•1 กกกกกกกกกกกกกกกกก (Cluster Analysis) โโโ โโโโโโโโโโโโโ โโโโโโ โโโ โโโโโโโโโโ โโโโโ

Upload: kioko

Post on 19-Mar-2016

158 views

Category:

Documents


8 download

DESCRIPTION

การวิเคราะห์กลุ่ม ( Cluster Analysis ). โดย นางสาวจิตรลดา ทองอันตัง นายสุขสมพรอโนไท. 1.ความหมายของ Cluster Analysis - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •1

การวเคราะหกลม (Cluster Analysis)

โดยนางสาวจตรลดา ทองอนตง

นายสขสมพร อโนไท

Page 2: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •2

1.ความหมายของ Cluster Analysis

- เปนเทคนคทใชจำาแนกหรอจด Case (หมายถง คน สตว สงของ หรอ องคกร ฯลฯ) หรอจดตวแปรออกเปนกลมยอย ๆ ตงแต 2 กลมขนไป Case ทอยในกลม

เดยวกนจะมลกษณะทเหมอนกนหรอคลายกน สวน Case ทอยตางกลมกนจะม

ลกษณะทแตกตางกน - ตวแปรอยในกลมเดยวกนมความสมพนธกนมากกวาตวแปรทอยตางกลมกน ตวแปรทอยตางกลมกนมความสมพนธกนนอยห

รอไมมความสมพนธกนเลย

Page 3: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •3

Cluster Analysisจดกลมโดยพยายามใหสงทอยในกลมเดยวกน

มความคลายคลงกนมากทสด (Minimize Intra-Cluster Distances) และพยายามให

แตละกลมมความแตกตางกนมากทสด (Maximize Inter-Cluster Distances)

Inter-cluster distances are maximized

Intra-cluster distances are

minimized

Page 4: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •4

Cluster Analysis• การวเคราะหเพอศกษาวาบคคล (Cases) หรอ

สงตางๆ (Objects) จะสามารถนำามาจดกลมกนตามความเหมอน (Similarity) หรอความแตกตาง (Dissimilarity or Distance) ของตวแปร (Variables) ไดกกลม อยางไรบาง• บคคลหรอสงทมความคลายคลงกนในตวแปรท

นำามาวเคราะหจะถกจดอยในกลม (Cluster) เดยวกน สวนบคคลหรอสงทแตกตางกนในตวแปรจะถกจดอยคนละกลมกน

Page 5: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •5

2.ขอสมมตหรอเงอนไขเทคนดการวเคราะหกลม

1 .ไมทราบจำานวนกลมมากอนวามกกลม2. ไมทราบมากอนวาหนวยไหนหรอคนใดจะอย

กลมใด3. หนวยหรอคนใดคนหนงจะตองอยกลมใดกลม

หนงเพยงกลมเดยว4. ตวแปรทใชในการแบงกลมมมากกวา 1 ตว

และตวแปรอาจเปนตวแปรตวแปรทมคาไดเพยง 2 คา หรอเปนตวแปรเชงคณภาพ หรอ

ตวแปรเปนปรมาณ

Page 6: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •6

3. วตถประสงคของ Cluster Analysis

เพอจดกลม Case ซงจะเปนประโยชนในงานดานตาง ๆ เชนการตลาด การแพทย การปกครอง ฯลฯ ดงตวอยางตอไปน

Page 7: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •7•04/24/23

ตวอยางท 1 ใชศกษาพฤตกรรมการบรโภคของกลมผบรโภคทอยตางกลมกน

ซงจะทำาใหสามารถวางกลยทธทางการตลาดไดอยางมประสทธภาพมากขน การทจะสามารถแยกกลมผบรโภคเปนกลม

ยอยได จะตองพจารณาถงตวแปรทใชในการแบงกลมผบรโภค ทจะทำาใหผทอย

ตางกลมกนมพฤตกรรมการบรโภคทแตกตางกน ตวแปรดงกลาวอาจประกอบดวย

อาชพ อาย รายได เปนตน

Page 8: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •8

ตวอยางท 2 การเปรยบเทยบรถยนตยหอตางๆ โดยท 1 Case คอรถยนต

1 ยหอซงพจารณาจากตวแปร เชน ความถในการซอม ลกสบ ระบบแบรก คาใชจายตอกโลเมตรราคาเปนตน

Page 9: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •9

ขอสงเกต จากตวอยางท 1 ขางตน จะพบวาการเลอกตวแปรเพอนำามาใชจดกลม Case มความ

สำาคญมาก เพราะถาผวจยเลอกตวแปรทไมไดทำา Case แตกตางกนแลว จะทำาใหไม

สามารถจดกลมไดถกตอง การเลอกจะตองพจารณาวาตวแปรใดบางทมอทธพลทำาใหเกด

ความแตกตาง นอกจากนน การจดกลมตวแปรทำาใหทราบวาตวแปรใดบางทมความสมพนธกน การเปลยนแปลงของตวแปร

บางตวยอมมผลกระทบตอตวแปรอน ๆ ทมความสมพนธกบตวแปรดงกลาว

Page 10: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •10

4.การวดความคลาย (Similarity Measure)

ดงทไดกลาวมาแลวถงหลกเกณฑของเทคนค Cluster วาจะใชในการจด Case ท

คลายกนไวในกลมเดยวกน หรอจดกลมตวแปรทสมพนธกนไวในกลมเดยวกน นนคอ จะมความ

วดคลายกนของ Case ทละค ในกรณทเปนการจดกลม Case สวนการจดกลมตวแปร การวดความคลายจะเปนการวดความคลายของ

ตวแปรแตละค คอการหาคาสมประสทธสหสมพนธ เมอตองการจดกลม Case

Page 11: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •11•04/24/23

41. การวดคาความตาง ของหนวย 2หนวย เชน คน 2 คน หรอ 2 องคกร เปนการหาระยะหาง ระหวาง 2 หนวย เชนการศกษา ความตางของคน 2 คน (นาย ก และ นาย ข ) ในดานรายไดรายจาย ถานาย ก และนาย ข มความตางกนนอย หรอระยะหางตางกนนอย หรอถาระยะหาง ก และ ข มรายไดไกลศนย แสดงวา ก และ ข อยใกลกน หรอคายกน จงควรใหนาย ก และ นาย ข อยในกลมเดยวกน แตถานาย ก และ นาย จ มความตางกนมากหรออยหางกนมากจงมรยะหางมาก กจะจดใหนาย ก และนาย จ อยคนละลม

Page 12: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •12•04/24/23

ระยะหางยดลดกำาลงสอง (Euclidean Distance)

Page 13: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •13

ตวอยาง 3 การศกษาความแตกตางของอายและรายไดของนายสาวจอย และนางสาวพลอยไดขอมลดงน อาย

(ป)รายได(บาท)

จอย 20 7,200พลอย 40 7,500คาเฉลย 30 7,350คาเบยงเบนมาตรฐาน

ขอมลดบ

•การวดความตางของนางสาวจอย และนางสาวพลอย ในทนจะใชระยะหางยคลดกำาลงสองระยะหาง= =400+90,000=90,400

Page 14: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •14

คาเบยงเบนมาตรฐาน

Page 15: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •15

อาย รายได จอย พลอย

คามาตฐานของขอมล

Page 16: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •16•04/24/23

Page 17: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •17•04/24/23

ระยะหางของจอย และพลอย =ซงเปนผลจากอายและรายได

เทากน คอรอยละ 50 ดงนนกอนใชเทคนคการวเคราะกลมควรปรบหรอจำากดหนวยของ

ตวแปรทแตกตางกนออกไป ดงในตวอยางนปรบใหเปนคา

มาตรฐานทไมมหนวย

Page 18: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •18•04/24/23

43. การคำานวณระยะหางและความคลายของขอมลทมคาไดเพยงสองคา (Binary

data)การวดความคลายและความตางของ 2 หนวย หรอ 2 คนจะตองสรางตาราง

ขนาด 2 2 เพอศกษาความคลาย หรอความตาง การสรางความคลายหรอความตางของนาย วน และ กน พจรณาดงน

ตวอยาง 4 การวดความสามารถดานภาษา ถาพดภาษาองกฤไดจะได

หมายเลข 1 ถาพดไมไดหมายเลข 0ตวอยาง เชนถามตวแปร 4 ตว (X1,

X2 , X3 , X4 )

Page 19: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •19•04/24/23

X1 X2 X3 X4

วน 0 1 0 1

กน 1 1 0 0

•จากตารางจะพบวา วน และ กน คลายกนใน X2 และ X 3

แตตางกน X1 และ X4

Page 20: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •20•04/24/23

นายกน รวม1 0

นาย วน

1 1 1 20 1 1 2

รวม 2 2 4

เชน X A1=

Page 21: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •21•04/24/23

•ในรปทวไปกรณทมตวแปร p (X1, X2 ,… Xp ) ตารางความถเพอเปรยบเทยบความคลาย

และความตางของท i และ j จะเปน

หนวยท j รวม1 0

หนวยท i

1 a b a+b0 c d C+d

รวม a+c b+d a+b+c+d

Page 22: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •22•04/24/23

1. ระยะหางยคลดกำาลงสอง (Square Euclidean Distance)

2. ระยะหางยคลด (Euclidean Distance)

44. การวดความตาง

Page 23: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •23

45 การวดความคลาย•Simple Matching เปนการใหหนกเทากนกบ

ลกษณะทเหมอนกน

Page 24: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •24

ตวอยาง 5 จากการตอบถามความคดเหนดวยคำาถาม 6 คำาถามตอสามภรรยา 1 คโดยคำาถามเปน

ดงน

x1 x2 x3 x4 x5 x6สาม 1 1 1 1 0 0ภรรยา

0 1 1 1 0 0

Page 25: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •25

ภรรยาสาม

รวม1 (เหนดวย)

0 (ไมเหนดวย)

1 (เหนดวย) 3 0 30 (ไมเหน

ดวย)1 2 3

รวม 4 2 P=6

นำาขอมลมาสรางตารางความถจำาแนก 2 ทาง

Page 26: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •26

5. ประเภทของเทคนค Cluster Analysis เทคนค Cluster Analysis แบงเปนหลายประเภทหรอเทคนคยอย โดยเทคนดทใชกนมากม 2 เทคนค คอ

Hierarchical Cluster Analysis

K-Means Cluster Analysis

Page 27: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •27•04/24/23

51 เทคนค Hierarchical Cluster Analysis เปนเทคนคทใชกนมากในการแบงกลม Case หรอแบงกลมตวแปรโดยมเงอนไขดงตอไปน

1. ในกรณทใชการแบง Case นน จำานวน Case ไมตองมากนก (จำานวน Case ควรตำากวา 200 ถาตง 200 ขนไปใช K-Means Cluster ) และจำานวนตวแปรไมตองมากเชนกน

2. ไมจำาเปนตองทราบจำานวนกลมากอน 3 . ไมจำาเปนตองทราบวาตวแปรใด หรอ

Case ใดอยกลมใดมากอน

Page 28: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •28•04/24/23

6 . การวเคราะหกลมแบบขนตอน (Hierarchical Cluster Aalysis) การวเคราะหกลมแบบขนตอน (Hierarchical Cluster Aalysis ) เปนการทำาการแบงกลมแบบเปนขนตอน และเมอนำาหนวยหนงไวในกลมใดหนงแลว จะไมมการยายหนวยนนไปไวกลมอน ๆ อก

เชน จดใหนายวชย อยกลมท 3 กจะไมมการยายนายวชยไปอยกลมอน ๆ ในขณะทวธการวเคราะหกลมแบบไมเปนขนตอน ถาจดแลวอาจมการยายกลมได เชน เดมในตอนแรก จดนายวชยในกลมท

3 ภายหลงอาจจะยายนายวชยไปกลมท 1หรอ (2 กรณทม 3 กลม)

Page 29: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •29

6.1 เทคนค Hierarchical Cluster Analysis

แบงเปน 2 เทคนคยอยคอ1. Agglomerative

Hierarchical Cluster Analysis

2. Divisive Hierarchical Cluster Analysis

สำาหรบโปรแกรมสำาเรจรปทวไป จะใชเทคนค Agglomerative

Hierarchical Cluster Analysis

Page 30: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •30

6.1.1 Agglomerative HierarchicalCluster Analysis เรมตนจะสมมตวาม n กลมยอย

สงของ หรอ item ทมระยะสนทสด หรอคลายกนมากทสดจะรวมเขาดวยกนเปนก

ลมกอน จงเหลอ n-1 กลมยอย จากนนหาระยะทางหรอความคลายจาก n – 1 กลมยอยใหม แลวดวากลมยอยใดมระยะทางสนทสด หรอคลายกนมากทสดกรวมกลมยอยนนเขาดวยกน ทำาเชนนตอ ๆ ไป

ในทายทสดแลวจะมเพยง 1 กลมซงประกอบดวยสงของ n สง

Page 31: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •31

ขอจำากดของวธ Agglomerative Hierarchical Cluster Analysis

เนองจากวธ Agglomerative Hierarchical Cluster Analysis จะเรมตนใหจำานวน case = จำานวน cluster เชน ม n case = ม n cluster แลวคอย ๆ ลดจำานวน cluster ทละ 1 โดยรวมกลม 2 cluster ทคลายกนมากทสด หรอตางกนนอยทสดเขาดวยกน จงคอยๆ ลดจำานวน cluster

ครงละ 1 ดงนน ถาม n มาก เชน n = 1,000 คน จะตองทำาการรวมกลม 999

ครงโดยเรมจากม 1,000 cluster แลวลดเหลอ 999 cluster , 998 cluster เปนเชนนไปเรอย ๆ จนเหลอ 1 cluster ซงจะทำาใหเสยเวลามาก ดงนนโดยทวไปถามจำานวน

case มากวา 200 case จงไมนยมใชเทคนค Hierarchical Cluster

Page 32: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •32

ใน Agglomerative Hierarchical Cluster

Analysis จะมวธทเรยกวา Linkage method ทเปนทรจกกนโดยทวไปม 3 วธคอ

1. single linkage (หรอเรยกวา nearest neighbor ) 2. complete linkage (หรอ

furthest neighbor) 3. average linkage (หรอ average distance) แนวคด

ทง 3 วธอธบายดวยรปดงน

Page 33: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •33

Page 34: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •34

ชนดของขอมลหรอตวแปรทสามารถใช

เทคนค Hierarchical Cluster ได ม 3 ประเภท คอ

1. ขอมลเปนสเกลอนตรภาค (Interval scale) หรอสเกล อตราสวน (Ratio

scale)2. ขอมลทอยในรปความถ (Count

Data)3. ขอมลอยในรป Binary นนคอ มได 2

คา คอ 0 กบ 1 หรอ คณภาพ

Page 35: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •35

กรณทวดความคลายดวยระยะหาง

ถาระยะหางระหวาง Case คใดตำา แสดงวา Case คนน

อยใกลกน หรอมความคลายกน ควรจะจดใหอยในกลม หรอ

Cluster เดยวกน สำาหรบวธการคำานวณจะขนอยกบชนดของขอมลทง 3 ชนดขางตน (Interval scale , Count

Data , Binary )

Page 36: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •36

กรณทวดความคลายดวยของ Case

ถาคาความคลายของ Case คใดมคามากแสดงวา Case คนนคลายกนมาก จงควรจด

ใหอยในกลมเดยวกน การคำานวณคาความคลายจะแตก

ตางกน ถาชนดของขอมลแตกตางกน

Page 37: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •37

กรณทวดความคลายของตวแปรดวยคาสมประสทธสห

สมพนธ ถาตวแปรคใด มคา

สมประสทธสหสมพนธมาก แสดงวาคนนสมพนธกนมาก

ควรจดไวในกลมเดยวกน

Page 38: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •38

•หลกเกณฑในการรวมกลม1. Between – groups Linkage

หรอเรยกวาวธ Average Linkage Between Groups หรอเรยกกวา

UPGMA (Unweightede Pair-Group Method Using Arithmetic

Average)

Page 39: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •39

• วธนจะคำานวณหาระยะหางเฉลยของทกคของ Case

โดยท Case หนงอยใน Cluster ท i สวนอก Case

หนงอยใน Cluster ท j ถา Cluster ท i มระยะหาง

เฉลยจาก Cluster ท j สนกวาระยะหางจาก Cluster อนจะนำา Cluster ท i และ j รวมกนเปน

Cluster เดยวกน

Page 40: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •40

2. Within-group Linkage Technique

วธนจะรวม Cluster เขาดวยกน ถาระยะหางเฉลยระหวางทก Case ใน Cluster นน ๆ

มคานอยทสด

Page 41: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •41

•วธนจะรวม Cluster 2 Cluster เขาดวยกนโดยพจารณาจากระยะหางทสนทสด โดยท dik เปนระยะหางทสนทสดระหวาง Cluster i และ k ในรปจะรวม Cluster i และ j เขาดวยกน

เพราะ dij < dik

3. Nearest Neighbor หรอเรยกวา Single Linkage

Page 42: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •42

4. Furthest Neighbor Technique หรอเรยกวา Complete Linkage

วธนจะรวม Cluster 2 Cluster เขาดวยกนโดยพจารณาจากระยะหางทยาวทสด

dik = ระยะหางทยาวทสดของ Cluster ท i และ kdij = ระยะหางทยาวทสดของ Cluste ท i และ jในทน dij < dik จงรวม Cluster ท i และ j เขาเปน

Cluster เดยวกน

Page 43: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •43

5. Centroid Clustering

•วธการนจะคำานวณหาระยะหางระหวาง Centroid ของ Cluster ทละค ในทนจะเรยกคาเฉลย หรอคา

กลางของแตละ Cluster วา Centroid ของ Cluster เนองจากการจดกลมCase จะพจารณาจากตวแปรหลาย ๆ ตวพรอม ๆ กน จงเรยกคากลางหรอ

คาเฉลยวา Centroid ถาระยะหางระหวาง Centroid ของ Cluster คใดตำาจะรวม Cluster ค

นนเขาเปน Cluster เดยวกน

Page 44: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •44

6. Median Clustering วธนจะรวม Cluster 2 Cluster เขาดวยกน โดยใหแตละ Cluster สำาคญเทากน (ใหนำาหนกเทากน) ในขณะทวธของ Centroid Clustering จะใหความสำาคญแก Cluster มขนาดใหญ

มากกวา Cluster ทมขนาดเลก (ใหนำาหนกไมเทากน) Median Clustering

จะใชคา Median เปนคากลางของ Centroid ถาระยะหาง ระหวางคา

Median ของ Clustering จะใชคา Median เปนคากลางของ Centroid ถาระยะหาง ระหวางคา Median ของ Cluster คใดตำาจะรวม Cluster คนน

เขาดวยกน

Page 45: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •45

7. Ward’s Method วธนจะพจารณาจากคา Sum of

the squared within-cluster distance โดยจะรวม Cluster ท

ทำาใหคา Sum of square within-cluster distance เพมขนนอยทสด โดยคา Square within-

cluster distance คอคา Square Euclidean distance ของแตละ

Case กบ Cluster Mean

Page 46: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •46

8 . การพจารณาเลอกจำานวนกลมทเหมาะสม

• ผลลพธของเทคนค Cluster ไมไดใหคาสถต หรอผลการ ทดสอบสมมตฐานเพอใหตดสนใจหาจำานวนกลมทเหมาะสม ตองพจารณาความเหมาะสมเอง โดยอาจใชระยะหางหรอความคลาย

โดยใช1) การใช Dendogram สำาหรบ

Dendogram ถากำาหนดระยะหางระหวางกลม เปนหนวยทแตกตางกนไปกจะไดจำานวน

Cluster ทแตกตางกนไป คอยงระหางยงมาก จำานวน Cluster กจะเพมขน

2) Multidimension Scaling3 ) Discriminant

Page 47: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •47

6.1.2 Divisive Hierarchical Cluster

Analysis คอ กลมทประกอบดวยสงของ หรอ item จำานวน n สง แบงออกเปน 2 กลมชนดทสงของในกลมมระยะทางไกลทสด ขนตอไปก

จะม 3 กลมยอย ทำาเชนนตอ ๆ ไป จะเหนวาในทายทสดแลวจะม n

กลมยอยซงแตละกลมยอยประกอบดวยสงของ 1 สง

Page 48: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •48

9. การวเคราะหกลมแบบไมเปนขนตอน (Nonhierarchical

Cluster Analysis หรอบางครงเรยกวา K – Means Cluster

Analysis )

• คอ ตองกำาหนดเองวาจะตองแบงเปนกกลม เชน k กลม จงเรยก

วธนวา K-Means Clustering สรปไดดงน

Page 49: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •49

ขนตอนการจดกลมดงน1. จดสงของออกเปน K กลม

คราว ๆ กอน2. หา Centroid (ในทนคอคาเฉลย ) ของแตละกลม เราจะจด

สงของลงในกลมทอยใกล Centroid มากทสด ในกรณท

กลมทจดไดในขอ 1. ไมเปนไปตามน เราตองกลบไปเรมทขอ 1. ใหม

3. กลบไปทำาขอ 2.

Page 50: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •50

9 .1 หลกการของเทคนค K-Means Clustering

เปนเทคนคการจำาแนก Case ออกเปนกลมยอย จะใชเมอมจำานวน Case มาก โดยจะตองกำาหนดจำานวนกลม หรอจำานวน

Cluster ทตองการ เชนกำาหนดใหม k กลม เทคนค K-Means จะมการทำางานหลาย ๆ รอบ (Iteration) โดยในแตละ

รอบจะมการรวม Cases ใหไปอยในกลมใดกลมหนง โดยเลอกกลมท Case นนมระยะ

หางจากคากลางของกลมนอยทสด แลวคำานวณคากลางของกลมใหม จะทำาเชนนจน

กระทงคากลางของกลมไมเปลยนแปลง หรอครบจำานวนรอบทกำาหนดไว

Page 51: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •51

9 .2 ชนดของตวแปรทใชในเทคนค K-Means

Clustering ตวแปรทใชในเทคนค K-

Means Clustering จะตองเปนตวแปรเชงปรมาณ คอ เปน

สเกลอนตรภาค (Interval Scale)

หรอสเกลอตราสวน(Ratio Scale) โดยไมสามารถใชกบขอมลทอยในรปความถ หรอ

Binary เหมอนเทคนค Hierarchical

Page 52: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •52

9 .3 ขนตอนการวเคราะหของวธ K-Means ม 4 ขนตอนดงน

ขนท 1 จดกลมขอมลเปน k กลม ซงมการแบงไดหลายวธดงน

- แบงอยางสม- แบงดวยผศกษาเอง

•ขนท 2 คำานวณหาจดกงกลางกลมของแตละกลม เชน จดกลางกลมของกลมท C

คอ •ขนท 3 มวธการพจารณา 2 แบบ โดยจะ

คำานวณ

Page 53: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •53

แบบท 1 คำานวณหาระยะหางจากแตละหนวยไปยงจดกลางกลมของทกกลมและจะพจารณายายหนวยไปยง

กลมทมระยะหางตำาสดแบบท 2 คำานวณระยะหางกำาลงสองของแตละหนวยไปยงจดกลางกลมทหนวยนนอย โดยให ESSZ(Error

Sum Square) เทากบระยะหางกำาลงสองของแตละหนวยไปยงจดกลาง

กลม สตรทใช

Page 54: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •54

ขนท 4 การพจารณายายกลม จะใชเกณฑการยายตามคาทคำานวณไดในขน

ท 3 ถาขนท 4 ไมมการยายกลมอกแลว แสดงวากลมทแบงไดนนเหมาะสมแลว แตถาในขนท 4 มการยายกลม กลมทมหนวยยายเขาหรอยายออกจะตอง

ทำาการคำานวณหาจดกลางกลมใหมนนคอตองกลบไปทำาขนท 2

Page 55: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •55

9 .4 ขอแตกตางระหวางเทคนค Hierarchical กบวธ K-Means

1. เทคนค K-Means ใชเมอมจำานวน Case หรอจำานวนขอมลมาก

โดยทวไปนยมใชเมอ n ≥ 200 เพราะเมอ n มาก เทคนค K-Means จะงายกวา และใชระยะเวลาในการคำานวณนอยกวาการใชเทคนค Hierarchical หรอกลาวไดวาเมอมจำานวน Case ไมมาก

ควรใชเทคนค Hierarchical

Page 56: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •56

2. เทคนค K-Means นน ผใชจะตองกำาหนดจำานวนกลมทแนนอนไวลวงหนา กรณทผ

วเคราะหยงไมแนใจวาควรมกกลมจงจะเหมาะสม ผวเคราะหอาจจะใชวธใดวธหนงดงตอไปน

- ทำาการวเคราะหดวยวธ K-Means หลาย ๆ ครง แตละครงกำาหนด

จำานวนกลม แตกตางกนไป เชน เปน 3, 4 หรอ 5 กลม แลวพจารณา หาจำานวนกลมทเหมาะสม แตเมอมขอมลมากวธนจะทำาใหเสย

เวลามาก-ใชขอมลบางสวนทำาการวเคราะหโดยวธ

Hierarchical เพอหาจำานวนกลมทควรจะเปนจากนนจงใชเทคนค K-

Means กบขอมลทงหมดทม

Page 57: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •57

3. เทคนค Hierarchical นน ผวเคราะหจะ Standardized ขอมลหรอไมกได แตโดยวธ K-Means จะตองทำาการ Standardized ขอมล

กอนเสมอ4. วธ K-Means จะหาระยะหางโดย

วธ Euclidean Distance โดยอตโนมต

•ขณะท Hierarchical ผวเคราะหมสทธทจะเลอกวธการคำานวณระยะหาง

หรอความคลายได

Page 58: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •58

ขอแตกตางระหวางการจำาแนกกลมดวยเทคนค

Cluster Analysis และเทคนค Discriminant Analysis

• Cluster Analysis1. ไมจำาเปนตองทราบกอนวามกกลม

2. ไมทราบมากอนวา Case ใดอยกลมไหน3. ไมมสมการแสดงความสมพนธDiscriminant Analysis

1. ตองทราบมากอนวามกกลม โดยผวจยเปนผจดกลมเอง และกำาหนดเอง จะมกกลม

2. ทราบมากอนวา Case ใดอยกลมไหนเนองจากผวจยเปนผจดกลมมากอน.

3. มสมการแสดงความสมพนธ

Page 59: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •59

ตวอยางการใชเทคนคตาง ๆ ตวอยางการใชเทคนค Hierarchical

Cluster ในการจดกลม การจดกลมจงหวด

ตวแปรทใชม 5 ตวแปร และขอมลทใชเปนขอมลป 2550

1. ผลผลตมวลรวมของจงหวด ป 2550

2. รายไดเฉลยตอครวเรอน ป 2550 3. รายจายเฉลยตอครวเรอน ป 2550

4. จำานวนเดกเกดใหม ป 25505. จำานวนผเสยชวต ป 2550

Page 60: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •60

Page 61: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •61

ตวอยาง ขอมลเกยวกบเบยร20ยหอผวจยตองการทราบวาเบยรทง20ยหอนจะจดรวมกนไดอยางไรโดยพจารณาจากตวแปรตางๆตอไปน calories, sodium, alcohol, cost

•04/24/23

Page 62: การวิเคราะห์กลุ่ม ( Cluster  Analysis )

• •62