meth11

18
24.06.2009 1 methodenlehre ll – Clusteranalyse Clusteranalyse Thomas Schäfer | SS 2009 1 methodenlehre ll – Clusteranalyse Grundidee gliche Anwendungsgebiete Die Clusteranalyse Vorgehensweise Beispiele Thomas Schäfer | SS 2009 2

Upload: ek

Post on 16-Nov-2015

5 views

Category:

Documents


1 download

DESCRIPTION

meth11

TRANSCRIPT

  • 24.06.2009

    1

    methodenlehre ll Clusteranalyse

    Clusteranalyse

    Thomas Schfer | SS 2009 1

    methodenlehre ll Clusteranalyse

    Grundidee

    MglicheAnwendungsgebiete

    DieClusteranalyse

    g g g

    Vorgehensweise

    Beispiele

    Thomas Schfer | SS 2009 2

  • 24.06.2009

    2

    methodenlehre ll Clusteranalyse

    Grundidee:EineheterogeneGesamtheitvonFllen(Personen/Objekte)soll in homogene Gruppen oder Cluster aufgeteilt werden

    DieClusteranalyse

    sollinhomogeneGruppenoderCluster aufgeteiltwerden.DabeiwirddiehnlichkeitderFlleaufallenrelevantenVariablenbercksichtigt

    DiezweizentralenFragen:

    WiewirdhnlichkeitvonFllenbestimmt?

    Thomas Schfer | SS 2009

    WiewirddieGruppenaufteilungvorgenommen,wenndiehnlichkeitzwischenFllenbekanntist?

    3

    AnalyseeinerheterogenenGesamtheitvonObjekten,mitdemZiel,homogeneTeilmengenzuidentifizieren.

    methodenlehre ll Clusteranalyse

    AufteilungvonPersonen/ObjekteninSubgruppen

    ErstellenvonTypologien

    Clusteranalyse:mglicheAnwendungen

    yp g

    Marktforschung(Konsumentengruppen,Kaufverhalten,Produktanalyse)

    DifferenzierenvonBevlkerungsgruppen

    Thomas Schfer | SS 2009 4

  • 24.06.2009

    3

    methodenlehre ll Clusteranalyse

    Clusteranalyse:Vorgehensweise

    BestimmungderhnlichkeitPrfungderMerkmalsausprgungfrje2PersonenoderObjekteundMessungderUnterschiede/bereinstimmungenmitHilfeeinesZahlenwertes(Proximittsma)

    AuswahldesFusionierungsalgorithmus

    Personen/ObjektewerdenaufgrundihrerhnlichkeitswertezuGruppenzusammengefasst.

    BestimmungderClusterzahlEntscheidungberClusteranzahl,Zielkonflikt:Handhabbarkeit(geringeClusteranzahl)&hoheLsungsgte(hoheClusterzahl)

    Thomas Schfer | SS 2009 5

    g g ( )

    InterpretationderClusterundberprfenderGte

    InhaltlicheInterpretationderresultierendenCluster

    methodenlehre ll Clusteranalyse

    BestimmungderhnlichkeitVariable1 Variable2 Variablej

    Objekt1

    Objekt2j.::

    Objektk

    Objekt1 Objekt2 ObjektkObjekt1

    Rohdatenmatrix

    Thomas Schfer | SS 2009 6

    Objekt2.::

    Objektk

    Distanz oderhnlichkeitsmatrix

  • 24.06.2009

    4

    methodenlehre ll Clusteranalyse

    Proximittsmae

    (hnlichkeits bzw.Distanzmae)

    Auswahleineshnlichkeits/Distanzmaes

    beiNominalSkalen beimetrischenSkalenTanimotoKoeffizientMKoeffizientKulczynskiKoeffizientRRKoeffizientDiceKoeffizient

    L1 NormL2 NormQKorrelationsKoeffizientMahalanobisDistanz

    Thomas Schfer | SS 2009 7

    .

    methodenlehre ll Clusteranalyse

    Auswahleineshnlichkeits/Distanzmaes

    Rohdatenmatrix

    Objekt1

    Objekt2

    Objekt3 1 1 1 0 0 0

    1 1 0 1 0 0

    0 1 0 1 1 1

    Thomas Schfer | SS 2009 8

    Objekt4 1 0 0 0 1 0

    0 nichtvorhanden1 vorhanden

  • 24.06.2009

    5

    methodenlehre ll Clusteranalyse

    Auswahleineshnlichkeits/Distanzmaes

    ZeilensummeObjekt1

    Ei h ft i htEi h ft

    Objekt2

    Eigenschaftnichtvorhanden(0)

    Eigenschaftvorhanden(1)

    Eigenschaftvorhanden(1)

    Eigenschaftnichth d (0)

    a

    b

    c

    d

    a+c

    b+d

    Thomas Schfer | SS 2009 9

    Spaltensumme

    vorhanden(0) b d

    a+b c+d

    b+d

    m

    methodenlehre ll Clusteranalyse

    Auswahleineshnlichkeits/Distanzmaes

    Rohdatenmatrix

    Objekt1

    Objekt2

    Objekt3 1 1 1 0 0 0

    1 1 0 1 0 0

    0 1 0 1 1 1

    b

    Thomas Schfer | SS 2009 10

    Objekt4 1 0 0 0 1 0ab c

  • 24.06.2009

    6

    methodenlehre ll Clusteranalyse

    Auswahleineshnlichkeits/Distanzmaes

    Fallx

    Fall y +

    Nichtbereinstimmung sollkeineRollespielen Fally

    + a c

    b d

    z.B.TanimotoKoeffizient:

    cbaaKoeffTanimoto++

    = .

    Nichtbereinstimmung sollbercksichtigtwerden(z.B.beiechtdichotomenDaten)

    + Eigenschaftvorhanden Eigenschaftnichtvorhandena:AnzahlderVariablen,indenen fr beide Flle die

    Thomas Schfer | SS 2009 11

    ( )z.B.MKoeffizient(SimpleMatching):

    dcbadaM+++

    +=

    denenfrbeideFlledieEigenschaftvorhandenistb:AnzahlderVariablen,indenendieEigenschaftfrFallxvorhandenist,aberfrFallynichtusw.

    methodenlehre ll Clusteranalyse

    Auswahleineshnlichkeits/Distanzmaes

    AufbauderDistanz oderhnlichkeitsmatrixObjekt1 Objekt2 Objekt3Objektk

    Objekt1

    Objekt2

    Objekt 3

    1

    ? 1

    ? ? 1

    Thomas Schfer | SS 2009 12

    Objekt3:

    Objektk

    ? ? 1

    ? ? ? 1

  • 24.06.2009

    7

    methodenlehre ll Clusteranalyse

    Auswahleineshnlichkeits/Distanzmaes

    echtehnlichkeitsmae z.B.QKorrelationskoeffizient(wenn Kovariation inhaltlichwichtigist)

    Abstandsmae z.B.MinkowskiMetriken(wenn absoluterAbstandinhaltlichwichtigist)

    z.B.CityBlockMetrik(L1 Norm),EuklidischeDistanz(L2 Norm)

    Thomas Schfer | SS 2009 13

    methodenlehre ll Clusteranalyse

    Auswahleineshnlichkeits/Distanzmaes

    hnlichkeitsermittlungbeimetrischerVariablenstrukturamhufigstenangewandteDistanznorm:MinkowskiMetriken

    EuklidischeDistanz:r=2

    CityBlockMetrik:r=1:

    ==

    J

    jbjajba XXd

    1,

    Thomas Schfer | SS 2009 14

    (oftauchquadriert):

    ==

    J

    jba X bjX ajd

    1

    2,

    x,x:WertderVariablenjbeidenObjektenk,l (j=1,2,J)

    d:DistanzderObjektekundl

    r>1:MinkowskiKonstante

    k,l

    k,j l,j

    _

  • 24.06.2009

    8

    methodenlehre ll Clusteranalyse

    Auswahleineshnlichkeits/Distanzmaes

    k

    Variable2

    -

    Xk,2

    l,2

    45

    67

    Thomas Schfer | SS 2009

    Variable1

    l

    X - Xk,1 l,1

    X k

    12345678

    12

    3

    15

    methodenlehre ll Clusteranalyse

    ZurMessungderhnlichkeitzwischenObjektensind

    Auswahleineshnlichkeits/Distanzmaes

    Distanzmaeimmerdanngeeignet,wennderabsoluteAbstandzwischenObjektenvonInteresseistunddieUnhnlichkeitdannalsumsogreranzusehenist,wennzweiObjekteweitentferntvoneinanderliegen.

    hnlichkeitsmaeimmerdanngeeignet,wennderprimre

    Thomas Schfer | SS 2009

    g g , phnlichkeitsaspektimGleichlaufzweierProfilezusehenist,unabhngigdavon,aufwelchemNiveaudieObjekteliegen.

    16

  • 24.06.2009

    9

    methodenlehre ll Clusteranalyse

    Auswahleineshnlichkeits/Distanzmaes

    UnternehmenA Unternehmen BJahr

    Gewinn

    2006

    2003

    2000

    Thomas Schfer | SS 2009 17

    dieProfilebeiderUnternehmensindgleich,einhnlichkeitsmawrdeeinenhohenWertliefern

    diebeidenUnternehmenhabenaberabsolutgeseheneinengroenAbstand,einDistanzmawrdedahereinenkleinenWertliefern

    methodenlehre ll Clusteranalyse

    Clusteralgorithmen

    Clusterverfahren

    HierarchischeVerfahren

    agglomerativ divisiv

    GraphentheoretischeVerfahren

    PartitionierendeVerfahren

    Austauschverfahren

    Optimierungsverfahren

    IteriertesMinimaldistanz

    Verfahren

    Thomas Schfer | SS 2009 18

    SingleLinkage

    WardCompleteLinkage

    AverageLinkage

    Centroid Median

  • 24.06.2009

    10

    methodenlehre ll Clusteranalyse

    PartitionierendeVerfahren Anfangsgruppierungvorgeben

    S k i V l Obj kt i d G

    Clusteralgorithmen

    SukzessiveVerlagerungvonObjekteninandereGruppen Zielkriterium:MinimierungderVarianzinnerhalbder

    Gruppen(Gruppeneinteilungreversibel)

    HierarchischeVerfahren

    a) agglomerativ:anfangssovieleGruppenwieFlle,

    Thomas Schfer | SS 2009

    sukzessivesZusammenfassenderGruppen

    b) divisiv:anfangsalleFlleineinerGruppe,sukzessivesAufteilenderFlleinGruppen(Gruppeneinteilungnichtreversibel)

    19

    methodenlehre ll Clusteranalyse

    AlgorithmenfrhierarchischeClusteranalyse

    Singlelinkage

    (nchster Nachbar)

    Complete linkage

    (entferntester Nachbar)(nchsterNachbar) (entferntesterNachbar)

    Thomas Schfer | SS 2009 20

    Average linkage:mittlereDistanzallerFlleeinesClustersvonallenFllendesanderenClusters

  • 24.06.2009

    11

    methodenlehre ll Clusteranalyse

    AlgorithmenfrhierarchischeClusteranalyse

    SingleLinkageDasSingleLinkage VerfahrenneigtzurKettenbildung undkanndaherAusreierausfindigmachen.Nachdemmandieseentfernthat,kannmanmitVerfahrenfortfahren,dieschnehomogeneClusterbilden,z.B.Average Linkage oderWard.

    Thomas Schfer | SS 2009 21

    Ward VerfahrenVereinigediejenigenObjekte,diedieStreuungineinerGruppeamwenigstenerhhen(homogeneCluster).

    methodenlehre ll Clusteranalyse

    nachstatistischenKriterien z.B.EntwicklungdesHeterogenittsmaes( hl )

    BestimmungderClusterzahl

    (z.B.perFehlerquadratsumme)

    Dendrogramm durchsachlogischberlegungen

    Konfliktzwischender HeterogenittsanforderungderClusterzahlundderHandhabbarkeitderClusterlsung

    auf die Clusterzahl beschrnken (nicht nach den in den

    Thomas Schfer | SS 2009

    aufdieClusterzahlbeschrnken(nichtnachdenindenClusternzusammengefasstenFllengehen)

    22

  • 24.06.2009

    12

    methodenlehre ll Clusteranalyse

    DasHeterogenittsmagibtdiedurchschnittlicheUnhnlichkeitderObjekteindenClusternan.Diesesteigtnatrlich je weniger Cluster man whlt Gnstig ist es nach

    BestimmungderClusterzahl

    natrlich,jewenigerClustermanwhlt.Gnstigistes,nacheinemSprungindiesemMazusuchen.

    EsgibtimmereinenSchrittwenigeralsursprnglicheFlle.

    VonderGesamtzahlderFlleziehtmandenSchrittvor demSprung

    Thomas Schfer | SS 2009 23

    mglicheSprnge

    a de Sc tt o de Sp u gab,umdieAnzahlderClusterzubestimmen.Hierz.B.16 11=5

    methodenlehre ll Clusteranalyse

    DasDendrogramm gibtdasHeterogenittsmagewissermaengrafischwiederundhilftso,dieAnzahlvonClustern zu bestimmen

    BestimmungderClusterzahl

    Clusternzubestimmen.

    MansuchtsozusagendiegrteDistanz,aufdernichtspassiert.

    Thomas Schfer | SS 2009 24

  • 24.06.2009

    13

    methodenlehre ll Clusteranalyse

    NachderBestimmungderClusterzahlmssendieClusterinterpretiertwerden.

    Dazuschautman,welcheWertedieFlle

    InterpretationderCluster

    indenClusternnunaufdenAusgangsvariablenhaben,mitdenendieAnalysegemachtwurde.

    Weiterhinkannmansichberlegen,wasdieFlleindenClusternverbindenknnte.

    EineMglichkeitdafrist,dassmansichpotenzielleVariablen diefrdieClusterung verantwortlichseinknnten

    Thomas Schfer | SS 2009

    ganzeigenlsst(Label immeralsString).

    Soknntemanz.B.finden,dassbeizweiClusterndaseineClusterausFrauen,dasandereausMnnernbesteht.

    25

    methodenlehre ll Clusteranalyse

    Clusteranalysemitden4EntscheidungsstilendesDMQ(Vigilance,Hypervigilance,Buckpassing,Procrastination)

    aufgrund dieser Variablen sollen Cluster von Studierenden gesucht

    Beispiel

    aufgrunddieserVariablensollenClustervonStudierendengesuchtwerden,diesichhnlichsind

    betrachtenwir20Studierende(Flle)undbeginnenzunchstmitdemSingleLinkage Verfahren(nchsterNachbar),ummglicheAusreierzuentdecken

    Thomas Schfer | SS 2009 26

    Ausreier

  • 24.06.2009

    14

    methodenlehre ll Clusteranalyse

    nachEntfernenderAusreiersuchenwirmitdemWardVerfahrennachhomogenenClustern

    Beispiel

    Thomas Schfer | SS 2009 27

    methodenlehre ll Clusteranalyse

    frdiegefundenenClustersehenwirunsdieWertederenthaltenenPersonenaufdenAusgangsvariablenan,umzusehen,wiegenausiesichunterscheiden(z.B.mitBoxplots)

    Beispiel

    ( p )

    Thomas Schfer | SS 2009 28

  • 24.06.2009

    15

    methodenlehre ll Clusteranalyse

    diegefundenenClusterknnenanhandderAusgangsvariablennherbeschriebenwerden

    k h h l h h

    Beispiel

    sieknnenvonnunanhinsichtlichverschiedenerAnwendungeneinzelnbetrachtetoderuntersuchtwerden(z.B.frForschungszwecke)

    untersuchtmanzustzlich,obdieClustersichdurchbestimmteMerkmale(Label)systematischunterscheiden,kannmanauchdasalsweiteresForschungsergebnisbenutzen

    Thomas Schfer | SS 2009 29

    methodenlehre ll Clusteranalyse

    StudievonJankowskiundZill(2009) LassensichBands(bspw.Korn,Metallica)nachbestimmtenKriterien

    (bspw.AnzahlderMitglieder,Liedanzahl,amerikanischodernicht,

    Beispiel2

    ( p g , , ,Bewertung)zuClusterngruppieren?

    13Versuchspersonen(inverschiedeneAlbenhineingehrt)

    Thomas Schfer | SS 2009 30

  • 24.06.2009

    16

    methodenlehre ll Clusteranalyse

    Beispiel2

    Thomas Schfer | SS 2009 31

    dieseInformationenknntemanz.B.nutzen,umCDsimGeschftnachhnlichkeitzugruppieren

    methodenlehre ll Clusteranalyse

    WielassensichdieStadtteilevonChemnitzzuhomogenenClusternzusammenfassen?

    Variablen:Alt t kt

    Beispiel3

    Altersstruktur Geschlecht Familienstand Auslnderanteil Bevlkerungsdichte Bevlkerungsentwicklung Haushalte(Gren,Formen) Mobilitt/Wanderungen Hilfebedrftigkeit

    Thomas Schfer | SS 2009

    FlchenimStadtteil StrukturderWohngebude Wohnungsgren Bausubstanzen WahlergebnisseBundestagswahl2005

    32

    Chempirica (http://www.chempirica.de/stadtteilanalyse.htm)

  • 24.06.2009

    17

    methodenlehre ll Clusteranalyse

    ClusteranalysemitSPSSI

    Thomas Schfer | SS 2009 33

    methodenlehre ll Clusteranalyse

    ClusteranalysemitSPSSII

    Thomas Schfer | SS 2009 34

  • 24.06.2009

    18

    methodenlehre ll Clusteranalyse

    VergleichFaktorenanalyse Clusteranalyse

    Variablen

    FlleGemeinsameAusgangsbasis FlleAusgangsbasis

    (meist)Variablen

    (meist)Variablen

    (meist)Flle

    (meist)Flle

    Korrelationsmatrix

    Distanz/hnlichkeitmatrix

    Thomas Schfer | SS 2009 35

    Variablen Flle matrix

    ZIEL Dimensionsreduktion Gruppenbildung