klaszterelemzés az spss-bennemzetkozi-gazdalkodas.hu/files/950/7_mm_klaszter.pdfnem: 1-férfi,...

Post on 28-Feb-2020

8 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Klaszterelemzés az SPSS-ben

Petrovics PetraDoktorandusz

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Klaszteranalízis

• Olyan dimenziócsökkentő eljárás, amellyeladattömböket – megfigyelési egységeket –tudunk viszonylag homogén csoportokbatudunk viszonylag homogén csoportokbasorolni, klasszifikálni.

• Cél: megmutatni, hogy léteznek olyancsoportok, amelyek jobban hasonlítanakegymáshoz, mint más csoportok tagjai.

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Gyakorlati alkalmazási területei

• Piacszegmentálás1. Releváns piac meghatározása

2. Szegmentáció alapjául szolgáló ismérvek meghatározása

3. Szegmentálás (Faktor-, klaszteranalízis)3. Szegmentálás (Faktor-, klaszteranalízis)

4. 1 csoportba került fogyasztók jellemzése

• Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség)

• Új termék lehetőségeinek feltárása

• Tesztpiacok kiválasztása

• Adatcsökkentés

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Klaszteranalízis folyamata

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Feladat

TK/286. oldal (Sajtos-Mitev)

• Levesport gyártó vállalat fogyasztóitkérdezték megkérdezték meg• Név: String

• Főzős: 1-7-ig terjedő skálán mennyit főz

• Házias: 1-7-ig terjedő skálán mennyire házias

• Nem: 1: férfi, 2: nő

• Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Név Főzős Házias Nem Lakhely Kereset

1 Béla 1 3 1 3 30002 Jenő 2 3 1 1 15003 Bea 5 5 2 2 20004 Marci 2 4 1 3 10005 Ubul 4 4 1 1 70006 Zsuzsa 2 7 2 1 80007 Rita 2 6 2 2 70008 Zoli 3 4 1 3 15009 Dávid 2 2 1 1 50009 Dávid 2 2 1 1 5000

10 Robi 6 5 1 3 100011 Kriszti 3 3 2 3 200012 Zsófi 6 6 2 2 400013 Géza 7 1 1 2 800014 Éva 6 7 2 1 100015 Dóra 5 7 2 1 300016 Vera 1 6 2 2 6000

Nem: 1-férfi, 2-nőLakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

SPSS

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

• A klaszterelemzés célja:

A levesporfogyasztókat bizonyos ismérvek alapján csoportokba

rendezni.

1. • A probléma megfogalmazása

• Vizsgálandó elemek kiválasztása:

Sokaság nagysága: Pl. Magyarország levespor-fogyasztói

Mintanagyság meghatározása

Mintavétel módjának meghatározása

Most itt: n=16 fő (nem reprezentatív)

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

• Reprezentatív-e a minta?

Itt NEM nem vonhatunk le következtetéseket a

sokaságra vonatkozóan

2. • A klaszteranalízis feltételeinek vizsgálata I.

sokaságra vonatkozóan

• Kiugró adatok (outliers)– Olyan abnormális megfigyelések, amelyek nem jellemzők a

sokaságra;

– Alulprezentálják az alapsokaságban levő csoport nagyságát.

Analyze / Classify / Hierarchical

Cluster / Method: Nearest neighbour

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

• Skálák– Hasonló skálázási adatok az összehasonlíthatók

– Célszerű: azonos mértékegység

(ok: nagyobb szórás nagyobb hatást mutat)

2. • A klaszteranalízis feltételeinek vizsgálata II.

(ok: nagyobb szórás nagyobb hatást mutat)

Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk;

A jövedelmet hasonlítanánk össze a főzéssel, stb.

Ha eltér: standardizálni! Ha:

- a válaszok egymáshoz képesti relatív fontossága a lényeges,- hasonló profilokat keresünk,- nem érdekel a „válaszadó stílusa hatás”.

x

ii

s

xxz

−=

Átlaga 0, szórása 1

Összehasonlítható adatok

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical

Cluster / Method…

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

2. • A klaszteranalízis feltételeinek vizsgálata III.

• Erősen korrelálnak az elemzésbe bevontváltozók egymással?

Analyze / Regression/ Linear …

Multikollinearitás

Analyze / Regression/ Linear …

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Bináris változók esetén Metrikus változók esetén

Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték

Euklidészitávolság

Russel and Rao Euklidészi távolság Pearson korreláció

Négyzetes Egyszerű illesztés Négyzetes

3. • Hasonlósági és távolságmérték meghatározása

Négyzetes euklidészi távolság

Egyszerű illesztés Négyzetes euklidészi távolság

Variancia Jaccard City block

Yule Csebisev

Analyze / Classify / Hierarchical

Cluster / Method

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Forgy:

kezdőpont�magpont

4. • Klasztermódszer kiválasztása

Hierarchikus

Agglomeratív

(Összevonó)Divízív (Felosztó)

Nem hierarchikus

�magpont(Összevonó)

Lánc módszer

Egyszerű

Teljes

Átlagos

Variancia módszer

Ward-féleeljárás

Centroidmódszer

Az elemek közötti távolság átlaga

A legtávolabbi 2 elem távolsága

A legközelebbi 2 elem távolsága

A centroidok (kp.) közötti távolság

Forrás: Malhotra [2001]

Pl: Belson: kettéosztás

A klasztereken belüli szórásnégyzet növekedése a legkisebb

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Hierarchikus módszer Nem hierarchikus módszer

Előnyös a használata, ha:

• nem tudjuk előre, hányklasztert szeretnénk létrehozni

• a mintavételi egységek száma magas

• kevésbé függ kiugró értékektől

• kevésbé függ távolságmértékektől

• kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó

Hátránya

• Érzékeny a kiugró értékekre • A klaszterek számát előre kell meghatározni

• Klaszterközéppont kiválasztása

• Függ a megfigyelések sorrendjétől

Kombinált használat:1. Hierarchikus: klaszterek ideális száma2. Kiugró elemek kiszűrése3. Nem hierarchikus csoportosítás

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster

A szerintünk releváns

Az összevonás lépései

releváns változók

Ha az egyes egységeket el szeretnénk nevezni

Megfigyelési egységeket / változókat szeretnénk összevonni

Távolságmátrix

Jégcsapdiagram meghatározott klasztertartományra

Ne használd,

lefagy a gép!

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Outlierek kiszűrése miatt!

Távolságmérték

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Output

Rita Vera

Az új közös klasztermelyik lépésben jelenik

Az összevonás lépései

melyik lépésben jelenikmeg legközelebb(az alacsonyabb szám a

nyilvántartási szám)

Az összevonásra kerültklaszter melyik lépésbenjelenik meg előszörMilyen távolságok

alapján vonták össze a klasztert

Túl nagy ugrás

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Vertical Icecle – Jégcsap diagram

3

Nagy elemszám esetében nehezen kezelhető.

Alulról kezdjük értelmezni:Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés

Géza ~

kiugró érték

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Dendogram

Legkisebb távolság alapján von össze

Kiugró értékek kezelése

Géza ~

kiugró érték

Abnormális? Ki kell zárni?

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Kiugró elemek törlése

Data / Select Cases / If condition is satisfied…

Ez marad benn.

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster / Method: Ward

•Metrikus változók•Metrikus változók

• Nincs kiugró érték

• Nincs korreláció a változók között

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

a. Kutatói tapasztalat

b. Távolságok

5. • Klaszterek számának meghatározása

b. Távolságok

c. Könyökkritérium

d. Klaszterek relatív mértéke

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

b) Távolság ( Dendogram)

Ahol a koefficiens értéke hirtelen megnő

De: törekedjünk 5 körüli értéknél körüli értéknél meghatározni a klaszterek számát

⇒ 2 v. 3 klaszter

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

c) Könyökkritérium

ÁbraszerkesztésLine

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

⇒ 12. lépés után

n - stagetöréspont

3 klaszter

(n-1) elem

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical

Cluster / Save…

Konkrét klaszterszám

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Graphs / Scatter/Dot…

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

6.• Klaszterek értelmezése, jellemzése

• Klasztercentroidok és szórások

Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek ⇒ vegyes kapcsolat

Analyze / Compare Means / MeansAnalyze / Compare Means / Means

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

• Demográfiai vizsgálat (nem, lakhely)

Minőségi-minőségi ismérv ⇒ asszociáció

Analyze / Descriptive Statistics / Crosstabs

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

• Mennyiségi (kereset) +minőségi (cluster) ismérvek ⇒ vegyes kapcsolat (ANOVA)

Analyze / Compare Means / Means

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

6.• Klaszterek jellemzése, elnevezése

1. klaszter 2. klaszter 3. klaszter

Klasztereljá-rásba bevont változók

Sokat főz Nem Igen Nem

Házias Nem Igen Igenváltozók Házias Nem Igen Igen

Csak a jellemzésbe bevont változók

NemTúlnyomórészt

férfiakTúlnyomórészt

nőkNők

Lakhely ? Nagy város Megyeszékhely

KeresetAlacsony(3000€)

Alacsony(2200€)

Magas(7667€)

ElnevezésNemtörődö-

mökHázi tündérek

Rohanó

üzletasszonyok

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Graphs / Pie…

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

• Más távolságmérték

• Más klasztereljárások

• Változók elhagyása

7.• Klaszterelemzés érvényességének ellenőrzése

• Változók elhagyása

• A minta 2 részre bontása

• Az esetek sorrendjének megváltoztatása

• Nem hierarchikus klaszterelemzés…

Folyt. köv. órán

Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Köszönöm a figyelmet!Köszönöm a figyelmet!

top related