cluster analysis

33
LOGO

Upload: -

Post on 14-Jun-2015

2.209 views

Category:

Documents


3 download

DESCRIPTION

การวิเคราะห์ cluster analysis

TRANSCRIPT

LOGO

การจด Case (หมายถง คน สตว สงของ หรอ องคกร ฯลฯ) หรอเปนการจดตวแปรออกเปนกลมยอย ๆ ตงแต 2 กลมขนไป Case ทอยในกลมเดยวกนจะมลกษณะทเหมอนกนหรอคลายกน สวน Case ทอยตางกลมกนจะมลกษณะทแตกตางกน

ตวแปรทอยในกลมเดยวกนจะมความสมพนธกนมากกวาตวแปรทอยตางกลมกน

ตวแปรทอยตางกลมกนจะมความสมพนธกนนอยหรอไมมความสมพนธกนเลย

www.themegallery.com Company Logo

ชอ รายได(1,000 บาท)

อาย(ป)

A 5 25 B 6 26 C 15 34 D 16 35 E 25 40 F 30 39

ตวอยางท 1 ถาตองการแบงกลมคน 6 คน คอ นาย A,B,C,D,E,F โดยพจารณาจากอายและรายไดโดยมขอมลดงแสดงในตารางท 1

แสดงการวเคราะหกลมอายและรายได

จากตวอยางซงเปนกราฟ 2 มต คออายและรายได หรอ 2 ตวแปร เปาหมาย คอ จะแบง 6 คน(n =6) เปนกลมยอย โดยใหคนทอยในกลมยอยเดยวกนมอายและรายไดเทากนหรอใกลเคยงกนสวนคนทอยตางกลมกนจะมอายและรายไดแตกตางกน จากการพลอตกราฟอายรายไดในตารางท 1 ท าใหตดสนใจไดวา ควรจะเปน 3 กลม กลมท 1 : ประกอบดวยนาย A และ B ซงมอายนอยและรายไดต า กลมท 2 : ประกอบดวยนาย C และ D ซงมอายกลางคน (34-35 ป)และรายไดปานกลาง กลมท 3 : ประกอบดวยนาย E และ F ซงมอายกลางคน (39-40 ป) และรายไดมาก

วตถประสงคของการวเคราะหจดกลม Cluster Analysis

การวเคราะหกลมเปนเทคนคทใชในการจดกลมโดยไมทราบมากอนวาควรมกกลม แตจะแบงตามคาของตวแปรทน ามาใชในการแบง โดยใหหนวยทอยในกลมเดยวกน มความคลายกนในตวแปรทศกษา แตหนวยทอยตางกลมกนจะมความตางกน ดงเชนในตวอยางท 1 คนทอยในกลมเดยวกนมอายและรายไดใกลเคยงกน ส าหรบวตถประสงคของการแบงกลมหรอจดกลมจะขนกบสาขาทจะน าไปประยกตใช

การน าเทคนคการวเคราะหกลมไปใชในงานดานตาง ๆ จะพบวาการเลอกตวแปรทน ามาใชในการจดกลมนนมความส าคญมาก ถาผวจยเลอกตวแปรทไมไดท าใหคนทอยตางกลมกนม ความแตกตางกนแลว จะท าใหไมสามารถจดกลมไดถกตอง เชน ดานการตลาด ซงเปนการจดกลมพนทหรอจงหวด ผวจยจะตองศกษาวา ตวแปรใดบางทมอทธพลทท าใหกลมตาง ๆ เชน จ านวนประชากร รายไดเฉลย อาชพ สภาวะเศรษฐกจ

สชาต ประสทธรฐสนธ(2540) ไดกลาวถงวตถประสงคของ เทคนควธ Cluster Analysis วา เทคนค Cluster Analysis มวตถประสงคทส าคญอย 2 ประการ คอ การจดกลมหนวยวเคราะห การจดกลมตวแปร ซงมความสอดคลองกบ กลยา วานชย บญชา (2548) และสามารถกลาวโดยรวมคอ เพอจดกลม Case ซงจะเปนประโยชนในงานดานตาง ๆ เ ชน การตลาด การแพทย การปกครอง ฯลฯ

ขอตกลงเบองตนเกยวกบการวเคราะหจดกลม Cluster Analysis

1. ไมทราบจ านวนกลมมากอนวามกกลม

2. ไมทราบมากอนวาหนวยหรอคนใดจะอยกลมใด

3. หนวยหรอคนใดคนหนงจะตองอยกลมใดกลมหนงเพยงกลมเดยว

4. ตวแปรทใชในการแบงมมากกวา 1 ตวและตวแปรอาจจะเปนตวแปรทมคาไดเพยง 1 คาหรอตวแปรเชงคณภาพหรอตวแปรเชงปรมาณ

การวดความหาง

ส าหรบการวเคราะหจดกลมหนวยวเคราะหผวจย อาจใชขอมลทระบหนวยวเคราะหและตวแปรตามทจดเกบมาไดเลย

• สงส าคญทสดของการวเคราะหการจดกลมคอ ตวแปรทใช หากผวจยไมไดเกบขอมลเกยวกบตวแปรทส าคญ ๆ •ผลทไดกจะไมดหรอท าใหไขวเขวได

ความคดเกยวกบความคลายของหนวยศกษา เปนเทคนคของการวเคราะหทางสถตหลายวธ โดยทวไปการวดความคลายจะพจารณาจากความหางระหวางวตถ หรอพจารณาจากความคลายกน

ความตองการทางดานขอมล

แนวคดพนฐาน

ความคลายกนของหนวย

วธการวดความหางสามารถวดไดหลายวธ วธการหนงทนยม วดกนมากกคอ วธทเรยกวา ระยะหางเชงยคลดยกก าลงสอง (Squared Euclidean distance)คอ ผลรวมของผลตางยกก าลงสองของทกตวแปร

4

1

2

3

1

เทคนค Cluster Analysis แบงเปนหลายประเภทหรอเทคนคยอย โดยเทคนคทใชกนมากม 2 เทคนค คอ

Hierarchical Cluster Analysis

2 K-Means Cluster Analysis

เปนเทคนคทนยมใชกนมากในการแบงกลม Case หรอแบงกลมตวแปร โดยมเงอนไขดงน

ในกรณทใชในการแบง Case นน จ านวน Case ตองไมมากนก (จ านวน Case ควรต ากวา 200 ถาตงแต 200 ขนไปใช K-Means Cluster) และจ านวนตวแปรตองไมมาก

ไมจ าเปนตองทราบจ านวนกลมมากอน

ไมจ าเปนเปนตองทราบวาตวแปรใดหรอ Case ใดอยกลมใดกอน

1

2

3

ขนตอนของเทคนค Hierarchical Cluster ส าหรบการแบงกลม Case

1

2

3

ขนท 1 เลอกตวแปรหรอปจจยทคาดวามอทธพลทท าให Case ตางกน ตวแปรจะท าใหสามารถแบงกลม Case ไดชดเจน ขนตอนนเปนขนตอนทส าคญ

ขนท 2ทเลอกวธการวดระยะหางระหวาง Case แตละค หรอเลอกวธการค านวณเพอวดคา ความคลายของ Case แตละค

เลอกหลกเกณฑในการรวมกลม หรอรวม Cluster

การวดความคลาย (Similarity Measure)

การวดความคลายกนของ Case ทละค ในกรณทเปนการจดกลม Case สวนการจดกลมตวแปร การวดความคลายจะเปนการวดความคลายของตวแปรแตละค คอ การหาคาสมประสทธสหสมพนธเมอตองการจดกลม Case จะตองหาความคลายของ Case ถง C ค เมอมขอมล Case = n แตถาตองการจดกลมตวแปรจะตองหาความสมพนธของตวแปรทละครวมถง C ค เมอมตวแปร k ตว การวดความคลายของ Case แตละคอาจจะวดดวยระยะหาง (Distance) หรอวดดวยคาความคลาย (Similarity) แตการวดความสมพนธของตวแปรจะวดดวยคาสมประสทธสหสมพนธเพยรสน (Pearson correlation)

ส าหรบวธการค านวณระยะหาง หรอคาความคลายของ Case แตละค จะแตกตางกนเมอชนดของขอมลตางกน ซงชนดของขอมลหรอตวแปรทสามารถใชเทคนค Hierarchical Cluster ได ม 3 ประเภท คอ 1. ขอมลเปนสเกลอนตรภาค (Interval scale) หรอสเกลอตราสวน (Ratio scale) 2. ขอมลทอยในรปความถ (Count Data) 3. ขอมลอยในรป Binary นนคอ มได 2 คา คอ 0 กบ 1 หรอกลาวไดวา ขอมลทน ามาใชในเทคนค Hierarchical จะเปนขอมลชนดตวเลข หรอเปนเชงปรมาณ (Interval หรอ Ratio scale) หรอขอมลอยในรปความถ หรอ Binary

การวดความคลาย (Similarity Measure)(ตอ)

หลกการการรวมกลม (Methods for Combining Cluster)

ขนท1 ขนท2 ขนท3,4

ในแตละขนอาจจะรวม Case ใหมเขาไปในกลมทมอยแลว หรอรวม Case ใหม 2 Case เปนกลมใหม ท าเชนน ไปเรอย ๆ จนกระทงได ทก Case อยในกลมเดยวกน นนคอ สดทายมเพยง 1 กลม

พจารณาวาควรจะรวม Case ท 3 เขาอยในกลมเดยวกบ 2 Case แรก หรอควรจะรวม 2 Case ใหมเขาอยในกลมใหมอกกลมหนง โดยพจารณาจากคาระยะหางหรอคาความคลาย

รวม Case 2 Case ใหอยในกลมเดยวกน หรอ Cluster เดยวกน โดย พจารณาจากคาระยะหางหรอคาความคลาย

ส าหรบหลกการในการรวมกลมของเทคนค Hierarchical Cluster นนมหลายวธ วธทนยมกนมาก คอ Agglomerative Hierarchical Cluster Analysis หรอในโปรแกรม SPSS เรยกวา Agglomerative Schedule ซงหลกการเกณฑของ Agglomerative schedule จะท าการรวมกลม Cluster อยางเปนขนตอนดงน

หลกเกณฑในการรวมกลม

1. Between – groups Linkage หรอเรยกวาวธ Average Linkage Between Groups หรอเรยกกวา UPGMA (Unweightede Pair-Group Method Using Arithmetic Average)

พจารณาวา ควรรวม cluster ท i และ j ไวดวยกนหรอรวม cluster ท i และ k หรอควรจะรวม cluster ท j และ k ไวดวยกน โดยพจารณาระหางเฉลยระหวาง cluster เชน d = ระยะหางเฉลย ของ cluster ท i และ j d = ระยะหางเฉลย ของ cluster ท i และ j d = ระยะหางเฉลย ของ cluster ท i และ j เลอกรวม cluster ทมระยะหางเฉลยต าสด เชน จากตวอยางนไดคาระหวาง d ต าสด กจะรวม cluster I และ k เขาดวยกน

2. Within-group Linkage Technique หรอเรยกวา Average Linkage Within Groups Method วธนจะรวม Cluster เขาดวยกนถาระยะหางเฉลยระหวางทก Case ใน Cluster นน ๆ มคานอยทสด

3. Nearest Neighbor หรอเรยกวา Single Linkage ในทน d ระยะหางทสนทสดของ cluster i และ j d ระยะหางทสนทสดของ cluster i และ k d ระยะหางทสนทสดของ cluster j และ k หาคาต าสด d , d และ d , d ถาไดวา d ต าสดกจะรวม cluster k และ j เขาดวยกน

4. Furthest Neighbor Technique หรอเรยกวา Complete Linkage d ระยะหางทยาวทสดของ cluster i และ j d ระยะหางทยาวทสดของ cluster i และ k d ระยะหางทยาวทสดของ cluster k และ j แลวเปรยบเทยบคา d ,d ,d เลอกคาต าสด ถาไดวา d ต าสด กรวม cluster i และ k เขาดวยกน

5. Centroid Clustering เปนการรวม cluster 2 cluster เขาดวยกน โดยพจารณาจากระยะหางของจดกลางของ cluster 2 cluster โดยท d ระยะหางจดกลางของ cluster ท i และ cluster ท j d ระยะหางจดกลางของ cluster ท i และ cluster ท k d ระยะหางจดกลางของ cluster ท j และ cluster ท k แลวเลอกคาระยะหางทต าสด เชน ถาได d ต าสด กจะรวม cluster k และ j เขาดวยกน

6. Median Clustering วธนจะรวม Cluster 2 Cluster เขาดวยกน โดยใหแตละ Cluster ส าคญเทากน(ใหน าหนกเทากน) ในขณะทวธของ Centroid Clustering จะใหความส าคญแก Cluster มขนาดใหญมากกวา Cluster ทมขนาดเลก (ใหน าหนกไมเทากน) Median Clustering จะใชคา Median เปนคากลางของ Centroid ถาระยะหาง ระหวางคา Median ของ Clustering จะใชคา Median เปนคากลางของ Centroid ถาระยะหาง ระหวางคา Median ของ Cluster คใดต าจะรวม Cluster คนนเขาดวยกน

7. Ward’s Method หลกการของวธนจะพจารณาจากคา Sum of the squared within-cluster distance โดยจะรวม Cluster ทท าใหคา Sum of square within-cluster distance เพมขนนอยทสด โดยคา Square within-cluster distance คอคา Square Euclidean distance ของแตละ Case กบ Cluster Mean

K-Means Cluster Analysis

หลกการของเทคนค K-Means Clustering

เปนเทคนคการจ าแนก Case ออกเปนกลมยอย จะใชเมอมจ านวน Case มาก โดยจะตองก าหนดจ านวนกลมหรอจ านวน Cluster ทตองการ เชน ก าหนดใหม k กลม เทคนค K-Means จะมการท างานหลาย ๆ รอบ (Iteration) โดยในแตละรอบจะมการรวม Cases ใหไปอยในกลมใดกลมหนง โดยเลอกกลมท Case นนมระยะหางจากคากลางของกลมนอยทสด แลวค านวณคากลางของกลมใหม จะท าเชนนจนกระทงคากลางของกลมไมเปลยนแปลง หรอครบจ านวนรอบทก าหนดไว

K-Means Cluster Analysis(ตอ)

ตวแปรทใชในเทคนค K-Means Clustering จะตองเปนตวแปรเชงปรมาณ คอ เปนสเกลอนตรภาค(Interval Scale) หรอสเกลอตราสวน(Ration Scale) โดยไมสามารถใชกบขอมลทอยในรปความถ หรอ Binary เหมอนเทคนค Hierarchical

K-Means Cluster Analysis(ตอ)

ขนตอนการวเคราะหของวธ K-Means

การวเคราะหจ าแนกกลมดวยเทคนควธ K-Means Clustering สามารถสรป ขนตอนของการวเคราะหได 4 ขนตอนดงน

ขนท 1 จดกลมขอมลเปน k กลม ซงมการแบงไดหลายวธดงน - แบงอยางสม - แบงดวยผศกษาเอง ขนท 2 ค านวณหาจดกงกลางกลมของแตละกลม เชน จดกลางกลมของกลมท C

K-Means Cluster Analysis(ตอ)

ขนท 3 มวธการพจารณา 2 แบบ โดยจะค านวณ แบบท 1 ค านวณหาระยะหางจากแตละหนวยไปยงจดกลางกลมของทกกลมและจะพจารณายายหนวยไปยงกลมทมระยะหางต าสด แบบท 2 ค านวณระยะหางก าลงสองของแตละหนวยไปยงจดกลางกลมทหนวยนนอย โดยให ESSZ(Error Sum Square) เทากบระยะหางก าลงสองของแตละหนวยไปยงจดกลางกลม โดยท C ( i ) หมายถง กลมของหนวยท i ESS = ผลบวกของระยะหางจากแตละหนวยในกลมไปยงจดกลางกลมรวมทกกลม กลมใดทมคา ESS ต า แสดงวาหนวยทอยในกลมนนมความคลายคลงกน

K-Means Cluster Analysis(ตอ)

ขนท 4 การพจารณายายกลม จะใชเกณฑการยายตามคาทค านวณไดในขนท 3 แบบท 1 จะท าการยายหนวยท i ไปยงกลมทท าใหระยะหางจากหนวยท i ไปยงจดกลางกลมมคาต าสด แบบท 2 จะท าการยายหนวยท i ไปยงกลมทท าใหคา ESS มคาต าสดถาขนท 4 ไมมการยายกลมอกแลว แสดงวากลมทแบงไดนนเหมาะสมแลว แตถาในนนท 4 มการยายกลม กลมทมหนวยยายเขาหรอยายออกจะตองท าการค านวณหาจดกลางกลมใหมนนคอตองกลบไปท าขนท 2

ขอแตกตางระหวางเทคนค Hierarchical กบวธ K-Means

1. เทคนค K-Means ใชเมอมจ านวน Case หรอจ านวนขอมลมาก โดยทวไป นยมใชเมอ n ≥ 200 เพราะเมอ n มาก เทคนค K-Means 2. เทคนค K-Means นน ผใชจะตองก าหนดจ านวนกลมทแนนอนไว ลวงหนากรณทผวเคราะหยงไมแนใจวาควรมกกลมจงจะเหมาะสม 3. เทคนค Hierarchical นน ผวเคราะหจะ Standardized ขอมลหรอไมกได แตโดยวธ K-Means จะตองท าการ Standardized ขอมลกอนเสมอ 3. วธ K-Means จะหาระยะหางโดยวธ Euclidean Distance โดยอตโนมตขณะท Hierarchical ผวเคราะหมสทธทจะเลอกวธการค านวณระยะหาง หรอความคลายได

K-Means Cluster Analysis(ตอ)

ขอแตกตางระหวางการจ าแนกกลมดวยเทคนค Cluster Analysis และเทคนค Discriminant Analysis

Cluster Analysis Discriminant Analysis

1. ไมจ าเปนตองทราบกอนวามกกลม 1. ตองทราบมากอนวามกกลม โดยผวจยเปน ผจดกลมเอง และก าหนดเองวาจะมกกลม

2. ไมทราบมากอนวา Case ใดอยกลมไหน 2. ทราบมากอนวา Case ใดอยกลมไหนเนองจากผวจยเปนผจดกลมมากอน

3. ไมมสมการแสดงความสมพนธ 3. มสมการแสดงความสมพนธ

ขนตอนการใช SPSS ในการจดกลม Case