f6 linda wänström - ida.liu.se732g08/f6_2015.pdf · 12 cl18 5 3 0.4115 0.0126 .940 1.5459 ... 5...
TRANSCRIPT
Multivariata metoderF6
Linda Wänström
Linköpings universitet
7 oktober
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 1 / 22
Klusteranalys
Antag n observationer på en vektor med slumpvariablerX′ = (X1,X2, ...,Xp).
Syfte:
dela in observationerna i grupper som vi inte känner till i förvägGrupperna (klustren) ska vara så homogena som möjligt med avseendepå några (intressanta) variabler
När kluster ska bildas studeras avståndet mellan objekt (och kluster)
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 2 / 22
Klustringsmetoder
Klustren bildas så att avstånden mellan objekt inom kluster är så småsom möjligt och avstånden mellan objekt mellan kluster är så storasom möjligt
Ofta används det euklidiska avståndet
Hierarkiska metoder
Avstånd mellan parvisa objekt beräknasI ett första steg är antal kluster = antal objektLägg ihop (länka) de kluster som är närmast varandraI ett sista steg har alla kluster länkats och det finns bara ett kluster
Icke-hierarkiska metoder
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 3 / 22
Länkningsmetoder
"Nearest neighbor"
Beräkna alla avstånd mellan kluster (objekt)Det par med kortast avstånd slås ihop till ett nytt klusterBeräkna alla avstånd mellan kluster - använd det närmaste objektet iett kluster för att beräkna avståndetc.
"Furthest neighbor"
Använd de objekt som är längst ifrån varandra för att definiera avståndmellan kluster
Genomsnittslänkning (group average linking)
Genomsnittligt avstånd mellan kluster används för att definieraavståndet
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 4 / 22
Steg i klusteranalys
Välj intressanta variabler
Standardisera alla variabler
Beräkna euklidiska avståndet mellan alla parvisa objekt(observationer)
Använd en länkningsmetod för att bilda kluster
Rita ett dendogram
Välj antal kluster
Så få kluster som möjligtHomogena kluster
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 5 / 22
Exempel
data small; input obs sex ds pm prr prc ppvt;datalines;1 2 10 111 103 91 672 1 12 97 103 100 873 2 12 105 118 86 764 2 13 114 125 99 1295 2 11 107 95 101 996 1 10 118 108 131 1097 2 12 122 135 112 1328 1 6 131 119 121 1379 2 11 93 94 94 9010 1 12 115 118 118 14211 2 18 120 112 121 2012 1 13 114 135 123 12913 1 11 112 131 100 12114 1 12 125 135 126 13615 1 12 116 108 113 11516 1 9 107 95 90 6717 2 9 111 112 104 8518 1 13 131 111 99 9519 1 14 110 118 106 11120 1 9 123 97 118 104;run;
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 6 / 22
proc cluster noeigen method=com rmsstd rsquare nonorm out=tree;id obs;var dsz pmz prrz prcz ppvtz;proc tree data=tree out=klus1 nclusters=2;id obs;copy dsz pmz prrz prcz ppvtz;proc sort; by cluster;proc print; by cluster;var obs dsz pmz prrz prcz ppvtz;run;proc means; by cluster;run;
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 7 / 22
Cluster History
Numberof
Clusters
Clusters Joined Freq New ClusterRMS Std Dev
SemipartialRSquare
RSquare MaximumDistance
Tie
19 1 16 2 0.2616 0.0036 .996 0.8274
18 2 9 2 0.3141 0.0052 .991 0.9932
17 4 13 2 0.3153 0.0052 .986 0.997
16 7 14 2 0.3516 0.0065 .979 1.1118
15 10 15 2 0.3845 0.0078 .972 1.216
14 CL16 12 3 0.3782 0.0085 .963 1.2387
13 6 20 2 0.4555 0.0109 .952 1.4405
12 CL18 5 3 0.4115 0.0126 .940 1.5459
11 CL17 19 3 0.4094 0.0124 .927 1.6743
10 CL19 17 3 0.4398 0.0168 .910 1.7861
9 CL11 CL15 5 0.4970 0.0266 .884 2.0448
8 CL10 3 4 0.5314 0.0242 .860 2.1441
7 CL8 CL12 7 0.5723 0.0410 .819 2.5209
6 CL13 8 3 0.6987 0.0405 .778 2.5591
5 CL9 CL14 8 0.5750 0.0548 .723 2.7427
4 CL5 18 9 0.6435 0.0525 .671 3.2587
3 CL4 CL6 12 0.7881 0.1338 .537 4.1862
2 CL7 11 8 0.8883 0.1873 .350 5.2071
1 CL2 CL3 20 1.0000 0.3497 .000 6.4012
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 8 / 22
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 9 / 22
CLUSTER=1
Obs Obs dsz pmz prrz prcz ppvtz
1 1 0.60004 0.31435 0.77605 1.26592 1.17092
2 16 1.01386 0.71996 1.36174 1.34172 1.17092
3 2 0.22760 1.73398 0.77605 0.58369 0.51310
4 9 0.18622 2.13959 1.43495 1.03851 0.41443
5 5 0.18622 0.71996 1.36174 0.50788 0.11841
6 17 1.01386 0.31435 0.11714 0.28047 0.57888
7 3 0.22760 0.92276 0.32213 1.64494 0.87490
8 11 2.71053 0.59827 0.11714 1.00819 2.71680
CLUSTER=2
Obs Obs dsz pmz prrz prcz ppvtz
9 4 0.64142 0.01014 0.83461 0.65949 0.86832
10 13 0.18622 0.21295 1.27389 0.58369 0.60520
11 7 0.22760 0.80108 1.56673 0.32596 0.96700
12 14 0.22760 1.10529 1.56673 1.38720 1.09856
13 10 0.22760 0.09126 0.32213 0.78078 1.29591
14 15 0.22760 0.19266 0.40999 0.40176 0.40785
15 12 0.64142 0.01014 1.56673 1.15979 0.86832
16 6 0.60004 0.39547 0.40999 1.76622 0.21050
17 20 1.01386 0.90248 1.21532 0.78078 0.04605
18 19 1.05525 0.41575 0.32213 0.12887 0.27628
19 8 2.25533 1.71370 0.39534 1.00819 1.13145
20 18 0.64142 1.71370 0.19035 0.65949 0.24997
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 10 / 22
The MEANS ProcedureCLUSTER=1
Variable N Mean Std Dev Minimum Maximum
Obs
dsz
pmz
prrz
prcz
ppvtz
8
8
8
8
8
8
8.0000000
0.0206911
0.7833335
0.7028333
0.7068678
0.9447956
6.2564253
1.1911822
0.8551836
0.6709972
0.8352527
0.8045954
1.0000000
1.0138630
2.1395905
1.4349513
1.6449363
2.7168014
17.0000000
2.7105318
0.5982741
0.3221319
1.0081868
0.1184078
CLUSTER=2
Variable N Mean Std Dev Minimum Maximum
Obs
dsz
pmz
prrz
prcz
ppvtz
12
12
12
12
12
12
12.1666667
0.0137941
0.5222223
0.4685555
0.4649282
0.6271228
5.2886385
0.9076389
0.7197882
0.9176068
0.8271293
0.4869116
4.0000000
2.2553280
0.4157498
1.2153159
0.6594906
0.2499720
20.0000000
1.0552452
1.7137005
1.5667326
1.7662220
1.2959077
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 11 / 22
Flerdimensionell skalning (MDS)
En visualiseringsmetod
Från en matris med avstånd (olikhetsmatris/likhetsmatris) mellanolika objekt ska en "karta" ritas
"Objekt": Städer, politiker, fotbollsspelare, skolämnen, TV-program...
Syfte: Visualisera avstånden mellan objekten. Ta reda på vilkadimensionerna i "kartan" är.
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 12 / 22
Steg i MDS
En avståndsmatris för n objekt med avstånd δij tas fram
Mahalanobis avstånd/euklidiska avstånd (m.a.p. intressanta variabler)Någon/några personers "olikhetsbedömningar" för flera objektAntal gånger politiker röstat olika i valKorrelationsmatris (likhetsmatris)
Antal dimensioner t bestäms
Startkoordinater i t dimensioner antas för objekten
Euklidiska avstånd, dij mellan objekten beräknas
Någon typ av regression till avstånden dij = α+ βδij + εij anpassas
STRESS =(
∑(dij − d̂ij )2/ ∑ d̂ij)1/2
beräknas och kartan justeras såSTRESS minimeras
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 13 / 22
Exempel: Vad tänker Bertil på när han bedömer likhetenmellan olika skolämnen?
"Hur lika tycker du att följande ämnen är (från 0=helt lika, till 10=heltolika)?
data subjects;input (Ma Fy Ke En Sv Sam Hi Re Geo);datalines;0 2 4 7 7 6 9 8 82 0 3 7 7 6 9 9 94 3 0 8 8 8 9 9 67 7 8 0 3 5 6 6 77 7 8 3 0 4 3 5 66 6 8 5 4 0 3 4 49 9 9 6 3 3 0 2 58 9 9 6 5 4 2 0 78 9 6 7 6 4 5 7 0;proc mds data =subjects level=ordinal dimension=2;run;
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 14 / 22
Iteration Type BadnessofFit
Criterion
Change inCriterion
Convergence Measures
Monotone Gradient
0 Initial 0.1841 . . .
1 Monotone 0.1595 0.0247 0.0952 0.7643
2 GauNew 0.1027 0.0568 . .
3 Monotone 0.1002 0.002522 0.0224 0.2608
4 GauNew 0.0996 0.000519 . .
5 Monotone 0.0950 0.004613 0.0306 0.1954
6 GauNew 0.0947 0.000352 . .
7 Monotone 0.0941 0.000582 0.0114 0.1745
8 GauNew 0.0935 0.000616 . .
9 Monotone 0.0935 0.000042 0.005279 0.1460
10 GauNew 0.0925 0.000980 . 0.009962
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 15 / 22
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 16 / 22
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 17 / 22
proc mds data =subjects level=ordinal dimension=3;run;
Iteration Type BadnessofFit
Criterion
Change inCriterion
Convergence Measures
Monotone Gradient
0 Initial 0.0891 . . .
1 Monotone 0.0839 0.005150 0.0305 0.6319
2 GauNew 0.0642 0.0198 . .
3 Monotone 0.0622 0.001943 0.0132 0.3187
4 GauNew 0.0616 0.000600 . .
5 Monotone 0.0555 0.006150 0.0259 0.2896
6 GauNew 0.0545 0.000995 . .
7 Monotone 0.0529 0.001580 0.0128 0.1960
8 GauNew 0.0525 0.000402 . .
9 Monotone 0.0524 0.000125 0.004339 0.1620
10 GauNew 0.0517 0.000666 . 0.0171
11 GauNew 0.0517 7.4324E6 . 0.003463
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 18 / 22
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 19 / 22
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 20 / 22
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 21 / 22
Wänström (Linköpings universitet) Multivariata metoder 7 oktober 22 / 22