meth11
Post on 16-Nov-2015
5 Views
Preview:
DESCRIPTION
TRANSCRIPT
-
24.06.2009
1
methodenlehre ll Clusteranalyse
Clusteranalyse
Thomas Schfer | SS 2009 1
methodenlehre ll Clusteranalyse
Grundidee
MglicheAnwendungsgebiete
DieClusteranalyse
g g g
Vorgehensweise
Beispiele
Thomas Schfer | SS 2009 2
-
24.06.2009
2
methodenlehre ll Clusteranalyse
Grundidee:EineheterogeneGesamtheitvonFllen(Personen/Objekte)soll in homogene Gruppen oder Cluster aufgeteilt werden
DieClusteranalyse
sollinhomogeneGruppenoderCluster aufgeteiltwerden.DabeiwirddiehnlichkeitderFlleaufallenrelevantenVariablenbercksichtigt
DiezweizentralenFragen:
WiewirdhnlichkeitvonFllenbestimmt?
Thomas Schfer | SS 2009
WiewirddieGruppenaufteilungvorgenommen,wenndiehnlichkeitzwischenFllenbekanntist?
3
AnalyseeinerheterogenenGesamtheitvonObjekten,mitdemZiel,homogeneTeilmengenzuidentifizieren.
methodenlehre ll Clusteranalyse
AufteilungvonPersonen/ObjekteninSubgruppen
ErstellenvonTypologien
Clusteranalyse:mglicheAnwendungen
yp g
Marktforschung(Konsumentengruppen,Kaufverhalten,Produktanalyse)
DifferenzierenvonBevlkerungsgruppen
Thomas Schfer | SS 2009 4
-
24.06.2009
3
methodenlehre ll Clusteranalyse
Clusteranalyse:Vorgehensweise
BestimmungderhnlichkeitPrfungderMerkmalsausprgungfrje2PersonenoderObjekteundMessungderUnterschiede/bereinstimmungenmitHilfeeinesZahlenwertes(Proximittsma)
AuswahldesFusionierungsalgorithmus
Personen/ObjektewerdenaufgrundihrerhnlichkeitswertezuGruppenzusammengefasst.
BestimmungderClusterzahlEntscheidungberClusteranzahl,Zielkonflikt:Handhabbarkeit(geringeClusteranzahl)&hoheLsungsgte(hoheClusterzahl)
Thomas Schfer | SS 2009 5
g g ( )
InterpretationderClusterundberprfenderGte
InhaltlicheInterpretationderresultierendenCluster
methodenlehre ll Clusteranalyse
BestimmungderhnlichkeitVariable1 Variable2 Variablej
Objekt1
Objekt2j.::
Objektk
Objekt1 Objekt2 ObjektkObjekt1
Rohdatenmatrix
Thomas Schfer | SS 2009 6
Objekt2.::
Objektk
Distanz oderhnlichkeitsmatrix
-
24.06.2009
4
methodenlehre ll Clusteranalyse
Proximittsmae
(hnlichkeits bzw.Distanzmae)
Auswahleineshnlichkeits/Distanzmaes
beiNominalSkalen beimetrischenSkalenTanimotoKoeffizientMKoeffizientKulczynskiKoeffizientRRKoeffizientDiceKoeffizient
L1 NormL2 NormQKorrelationsKoeffizientMahalanobisDistanz
Thomas Schfer | SS 2009 7
.
methodenlehre ll Clusteranalyse
Auswahleineshnlichkeits/Distanzmaes
Rohdatenmatrix
Objekt1
Objekt2
Objekt3 1 1 1 0 0 0
1 1 0 1 0 0
0 1 0 1 1 1
Thomas Schfer | SS 2009 8
Objekt4 1 0 0 0 1 0
0 nichtvorhanden1 vorhanden
-
24.06.2009
5
methodenlehre ll Clusteranalyse
Auswahleineshnlichkeits/Distanzmaes
ZeilensummeObjekt1
Ei h ft i htEi h ft
Objekt2
Eigenschaftnichtvorhanden(0)
Eigenschaftvorhanden(1)
Eigenschaftvorhanden(1)
Eigenschaftnichth d (0)
a
b
c
d
a+c
b+d
Thomas Schfer | SS 2009 9
Spaltensumme
vorhanden(0) b d
a+b c+d
b+d
m
methodenlehre ll Clusteranalyse
Auswahleineshnlichkeits/Distanzmaes
Rohdatenmatrix
Objekt1
Objekt2
Objekt3 1 1 1 0 0 0
1 1 0 1 0 0
0 1 0 1 1 1
b
Thomas Schfer | SS 2009 10
Objekt4 1 0 0 0 1 0ab c
-
24.06.2009
6
methodenlehre ll Clusteranalyse
Auswahleineshnlichkeits/Distanzmaes
Fallx
Fall y +
Nichtbereinstimmung sollkeineRollespielen Fally
+ a c
b d
z.B.TanimotoKoeffizient:
cbaaKoeffTanimoto++
= .
Nichtbereinstimmung sollbercksichtigtwerden(z.B.beiechtdichotomenDaten)
+ Eigenschaftvorhanden Eigenschaftnichtvorhandena:AnzahlderVariablen,indenen fr beide Flle die
Thomas Schfer | SS 2009 11
( )z.B.MKoeffizient(SimpleMatching):
dcbadaM+++
+=
denenfrbeideFlledieEigenschaftvorhandenistb:AnzahlderVariablen,indenendieEigenschaftfrFallxvorhandenist,aberfrFallynichtusw.
methodenlehre ll Clusteranalyse
Auswahleineshnlichkeits/Distanzmaes
AufbauderDistanz oderhnlichkeitsmatrixObjekt1 Objekt2 Objekt3Objektk
Objekt1
Objekt2
Objekt 3
1
? 1
? ? 1
Thomas Schfer | SS 2009 12
Objekt3:
Objektk
? ? 1
? ? ? 1
-
24.06.2009
7
methodenlehre ll Clusteranalyse
Auswahleineshnlichkeits/Distanzmaes
echtehnlichkeitsmae z.B.QKorrelationskoeffizient(wenn Kovariation inhaltlichwichtigist)
Abstandsmae z.B.MinkowskiMetriken(wenn absoluterAbstandinhaltlichwichtigist)
z.B.CityBlockMetrik(L1 Norm),EuklidischeDistanz(L2 Norm)
Thomas Schfer | SS 2009 13
methodenlehre ll Clusteranalyse
Auswahleineshnlichkeits/Distanzmaes
hnlichkeitsermittlungbeimetrischerVariablenstrukturamhufigstenangewandteDistanznorm:MinkowskiMetriken
EuklidischeDistanz:r=2
CityBlockMetrik:r=1:
==
J
jbjajba XXd
1,
Thomas Schfer | SS 2009 14
(oftauchquadriert):
==
J
jba X bjX ajd
1
2,
x,x:WertderVariablenjbeidenObjektenk,l (j=1,2,J)
d:DistanzderObjektekundl
r>1:MinkowskiKonstante
k,l
k,j l,j
_
-
24.06.2009
8
methodenlehre ll Clusteranalyse
Auswahleineshnlichkeits/Distanzmaes
k
Variable2
-
Xk,2
l,2
45
67
Thomas Schfer | SS 2009
Variable1
l
X - Xk,1 l,1
X k
12345678
12
3
15
methodenlehre ll Clusteranalyse
ZurMessungderhnlichkeitzwischenObjektensind
Auswahleineshnlichkeits/Distanzmaes
Distanzmaeimmerdanngeeignet,wennderabsoluteAbstandzwischenObjektenvonInteresseistunddieUnhnlichkeitdannalsumsogreranzusehenist,wennzweiObjekteweitentferntvoneinanderliegen.
hnlichkeitsmaeimmerdanngeeignet,wennderprimre
Thomas Schfer | SS 2009
g g , phnlichkeitsaspektimGleichlaufzweierProfilezusehenist,unabhngigdavon,aufwelchemNiveaudieObjekteliegen.
16
-
24.06.2009
9
methodenlehre ll Clusteranalyse
Auswahleineshnlichkeits/Distanzmaes
UnternehmenA Unternehmen BJahr
Gewinn
2006
2003
2000
Thomas Schfer | SS 2009 17
dieProfilebeiderUnternehmensindgleich,einhnlichkeitsmawrdeeinenhohenWertliefern
diebeidenUnternehmenhabenaberabsolutgeseheneinengroenAbstand,einDistanzmawrdedahereinenkleinenWertliefern
methodenlehre ll Clusteranalyse
Clusteralgorithmen
Clusterverfahren
HierarchischeVerfahren
agglomerativ divisiv
GraphentheoretischeVerfahren
PartitionierendeVerfahren
Austauschverfahren
Optimierungsverfahren
IteriertesMinimaldistanz
Verfahren
Thomas Schfer | SS 2009 18
SingleLinkage
WardCompleteLinkage
AverageLinkage
Centroid Median
-
24.06.2009
10
methodenlehre ll Clusteranalyse
PartitionierendeVerfahren Anfangsgruppierungvorgeben
S k i V l Obj kt i d G
Clusteralgorithmen
SukzessiveVerlagerungvonObjekteninandereGruppen Zielkriterium:MinimierungderVarianzinnerhalbder
Gruppen(Gruppeneinteilungreversibel)
HierarchischeVerfahren
a) agglomerativ:anfangssovieleGruppenwieFlle,
Thomas Schfer | SS 2009
sukzessivesZusammenfassenderGruppen
b) divisiv:anfangsalleFlleineinerGruppe,sukzessivesAufteilenderFlleinGruppen(Gruppeneinteilungnichtreversibel)
19
methodenlehre ll Clusteranalyse
AlgorithmenfrhierarchischeClusteranalyse
Singlelinkage
(nchster Nachbar)
Complete linkage
(entferntester Nachbar)(nchsterNachbar) (entferntesterNachbar)
Thomas Schfer | SS 2009 20
Average linkage:mittlereDistanzallerFlleeinesClustersvonallenFllendesanderenClusters
-
24.06.2009
11
methodenlehre ll Clusteranalyse
AlgorithmenfrhierarchischeClusteranalyse
SingleLinkageDasSingleLinkage VerfahrenneigtzurKettenbildung undkanndaherAusreierausfindigmachen.Nachdemmandieseentfernthat,kannmanmitVerfahrenfortfahren,dieschnehomogeneClusterbilden,z.B.Average Linkage oderWard.
Thomas Schfer | SS 2009 21
Ward VerfahrenVereinigediejenigenObjekte,diedieStreuungineinerGruppeamwenigstenerhhen(homogeneCluster).
methodenlehre ll Clusteranalyse
nachstatistischenKriterien z.B.EntwicklungdesHeterogenittsmaes( hl )
BestimmungderClusterzahl
(z.B.perFehlerquadratsumme)
Dendrogramm durchsachlogischberlegungen
Konfliktzwischender HeterogenittsanforderungderClusterzahlundderHandhabbarkeitderClusterlsung
auf die Clusterzahl beschrnken (nicht nach den in den
Thomas Schfer | SS 2009
aufdieClusterzahlbeschrnken(nichtnachdenindenClusternzusammengefasstenFllengehen)
22
-
24.06.2009
12
methodenlehre ll Clusteranalyse
DasHeterogenittsmagibtdiedurchschnittlicheUnhnlichkeitderObjekteindenClusternan.Diesesteigtnatrlich je weniger Cluster man whlt Gnstig ist es nach
BestimmungderClusterzahl
natrlich,jewenigerClustermanwhlt.Gnstigistes,nacheinemSprungindiesemMazusuchen.
EsgibtimmereinenSchrittwenigeralsursprnglicheFlle.
VonderGesamtzahlderFlleziehtmandenSchrittvor demSprung
Thomas Schfer | SS 2009 23
mglicheSprnge
a de Sc tt o de Sp u gab,umdieAnzahlderClusterzubestimmen.Hierz.B.16 11=5
methodenlehre ll Clusteranalyse
DasDendrogramm gibtdasHeterogenittsmagewissermaengrafischwiederundhilftso,dieAnzahlvonClustern zu bestimmen
BestimmungderClusterzahl
Clusternzubestimmen.
MansuchtsozusagendiegrteDistanz,aufdernichtspassiert.
Thomas Schfer | SS 2009 24
-
24.06.2009
13
methodenlehre ll Clusteranalyse
NachderBestimmungderClusterzahlmssendieClusterinterpretiertwerden.
Dazuschautman,welcheWertedieFlle
InterpretationderCluster
indenClusternnunaufdenAusgangsvariablenhaben,mitdenendieAnalysegemachtwurde.
Weiterhinkannmansichberlegen,wasdieFlleindenClusternverbindenknnte.
EineMglichkeitdafrist,dassmansichpotenzielleVariablen diefrdieClusterung verantwortlichseinknnten
Thomas Schfer | SS 2009
ganzeigenlsst(Label immeralsString).
Soknntemanz.B.finden,dassbeizweiClusterndaseineClusterausFrauen,dasandereausMnnernbesteht.
25
methodenlehre ll Clusteranalyse
Clusteranalysemitden4EntscheidungsstilendesDMQ(Vigilance,Hypervigilance,Buckpassing,Procrastination)
aufgrund dieser Variablen sollen Cluster von Studierenden gesucht
Beispiel
aufgrunddieserVariablensollenClustervonStudierendengesuchtwerden,diesichhnlichsind
betrachtenwir20Studierende(Flle)undbeginnenzunchstmitdemSingleLinkage Verfahren(nchsterNachbar),ummglicheAusreierzuentdecken
Thomas Schfer | SS 2009 26
Ausreier
-
24.06.2009
14
methodenlehre ll Clusteranalyse
nachEntfernenderAusreiersuchenwirmitdemWardVerfahrennachhomogenenClustern
Beispiel
Thomas Schfer | SS 2009 27
methodenlehre ll Clusteranalyse
frdiegefundenenClustersehenwirunsdieWertederenthaltenenPersonenaufdenAusgangsvariablenan,umzusehen,wiegenausiesichunterscheiden(z.B.mitBoxplots)
Beispiel
( p )
Thomas Schfer | SS 2009 28
-
24.06.2009
15
methodenlehre ll Clusteranalyse
diegefundenenClusterknnenanhandderAusgangsvariablennherbeschriebenwerden
k h h l h h
Beispiel
sieknnenvonnunanhinsichtlichverschiedenerAnwendungeneinzelnbetrachtetoderuntersuchtwerden(z.B.frForschungszwecke)
untersuchtmanzustzlich,obdieClustersichdurchbestimmteMerkmale(Label)systematischunterscheiden,kannmanauchdasalsweiteresForschungsergebnisbenutzen
Thomas Schfer | SS 2009 29
methodenlehre ll Clusteranalyse
StudievonJankowskiundZill(2009) LassensichBands(bspw.Korn,Metallica)nachbestimmtenKriterien
(bspw.AnzahlderMitglieder,Liedanzahl,amerikanischodernicht,
Beispiel2
( p g , , ,Bewertung)zuClusterngruppieren?
13Versuchspersonen(inverschiedeneAlbenhineingehrt)
Thomas Schfer | SS 2009 30
-
24.06.2009
16
methodenlehre ll Clusteranalyse
Beispiel2
Thomas Schfer | SS 2009 31
dieseInformationenknntemanz.B.nutzen,umCDsimGeschftnachhnlichkeitzugruppieren
methodenlehre ll Clusteranalyse
WielassensichdieStadtteilevonChemnitzzuhomogenenClusternzusammenfassen?
Variablen:Alt t kt
Beispiel3
Altersstruktur Geschlecht Familienstand Auslnderanteil Bevlkerungsdichte Bevlkerungsentwicklung Haushalte(Gren,Formen) Mobilitt/Wanderungen Hilfebedrftigkeit
Thomas Schfer | SS 2009
FlchenimStadtteil StrukturderWohngebude Wohnungsgren Bausubstanzen WahlergebnisseBundestagswahl2005
32
Chempirica (http://www.chempirica.de/stadtteilanalyse.htm)
-
24.06.2009
17
methodenlehre ll Clusteranalyse
ClusteranalysemitSPSSI
Thomas Schfer | SS 2009 33
methodenlehre ll Clusteranalyse
ClusteranalysemitSPSSII
Thomas Schfer | SS 2009 34
-
24.06.2009
18
methodenlehre ll Clusteranalyse
VergleichFaktorenanalyse Clusteranalyse
Variablen
FlleGemeinsameAusgangsbasis FlleAusgangsbasis
(meist)Variablen
(meist)Variablen
(meist)Flle
(meist)Flle
Korrelationsmatrix
Distanz/hnlichkeitmatrix
Thomas Schfer | SS 2009 35
Variablen Flle matrix
ZIEL Dimensionsreduktion Gruppenbildung
top related