klaszterelemzés az spss-ben

38
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz

Upload: ciaran-guy

Post on 03-Jan-2016

144 views

Category:

Documents


0 download

DESCRIPTION

Klaszterelemzés az SPSS-ben. Petrovics Petra Doktorandusz. Klaszteranalízis. Olyan dimenziócsökkentő eljárás , amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Klaszterelemzés az SPSS-ben

Petrovics PetraDoktorandusz

Page 2: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Klaszteranalízis

• Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni.

• Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.

Page 3: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Gyakorlati alkalmazási területei

• Piacszegmentálás1. Releváns piac meghatározása

2. Szegmentáció alapjául szolgáló ismérvek meghatározása

3. Szegmentálás (Faktor-, klaszteranalízis)

4. 1 csoportba került fogyasztók jellemzése

• Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség)

• Új termék lehetőségeinek feltárása

• Tesztpiacok kiválasztása

• Adatcsökkentés

Page 4: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Klaszteranalízis folyamata

Page 5: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Feladat

TK/286. oldal (Sajtos-Mitev)

• Levesport gyártó vállalat fogyasztóit kérdezték meg

• Név: String

• Főzős: 1-7-ig terjedő skálán mennyit főz

• Házias: 1-7-ig terjedő skálán mennyire házias

• Nem: 1: férfi, 2: nő

• Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb

Page 6: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Név Főzős Házias Nem Lakhely Kereset1 Béla 1 3 1 3 30002 Jenő 2 3 1 1 15003 Bea 5 5 2 2 20004 Marci 2 4 1 3 10005 Ubul 4 4 1 1 70006 Zsuzsa 2 7 2 1 80007 Rita 2 6 2 2 70008 Zoli 3 4 1 3 15009 Dávid 2 2 1 1 500010 Robi 6 5 1 3 100011 Kriszti 3 3 2 3 200012 Zsófi 6 6 2 2 400013 Géza 7 1 1 2 800014 Éva 6 7 2 1 100015 Dóra 5 7 2 1 300016 Vera 1 6 2 2 6000

Nem: 1-férfi, 2-nőLakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb

Page 7: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

SPSS

Page 8: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni.

• Vizsgálandó elemek kiválasztása:Sokaság nagysága: Pl. Magyarország levespor-fogyasztói

Mintanagyság meghatározása

Mintavétel módjának meghatározásaMost itt: n=16 fő (nem reprezentatív)

Page 9: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Reprezentatív-e a minta?

Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan

• Kiugró adatok (outliers)– Olyan abnormális megfigyelések, amelyek nem jellemzők a

sokaságra;

– Alulprezentálják az alapsokaságban levő csoport nagyságát.

Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour

Page 10: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Skálák– Hasonló skálázási adatok az összehasonlíthatók

– Célszerű: azonos mértékegység

(ok: nagyobb szórás nagyobb hatást mutat)

Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk;

A jövedelmet hasonlítanánk össze a főzéssel, stb.

Ha eltér: standardizálni! Ha:- a válaszok egymáshoz képesti relatív fontossága a lényeges,- hasonló profilokat keresünk,- nem érdekel a „válaszadó stílusa hatás”.

x

ii s

xxz

Átlaga 0,

szórása 1Összehasonlítható adatok

Page 11: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster / Method…

Page 12: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Erősen korrelálnak az elemzésbe bevont változók egymással?

Analyze / Regression/ Linear …

Multikollinearitás

Page 13: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Bináris változók esetén Metrikus változók esetén

Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték

Euklidészi távolság

Russel and Rao Euklidészi távolság Pearson korreláció

Négyzetes euklidészi távolság

Egyszerű illesztés Négyzetes euklidészi távolság

Variancia Jaccard City block

Yule Csebisev

Analyze / Classify / Hierarchical Cluster / Method

Page 14: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Forgy: kezdőpontmagpont

Az elemek közötti távolság átlaga

A legtávolabbi 2 elem távolsága

A legközelebbi 2 elem távolsága

A centroidok (kp.) közötti távolság

Forrás: Malhotra [2001]

Pl: Belson: kettéosztás

A klasztereken belüli szórásnégyzet növekedése a legkisebb

Page 15: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Hierarchikus módszer Nem hierarchikus módszer

Előnyös a használata, ha:

• nem tudjuk előre, hány klasztert szeretnénk létrehozni

• a mintavételi egységek száma magas

• kevésbé függ kiugró értékektől

• kevésbé függ távolságmértékektől

• kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó

Hátránya

• Érzékeny a kiugró értékekre • A klaszterek számát előre kell meghatározni

• Klaszterközéppont kiválasztása

• Függ a megfigyelések sorrendjétől

Kombinált használat:1.Hierarchikus: klaszterek ideális száma2.Kiugró elemek kiszűrése3.Nem hierarchikus csoportosítás

Page 16: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster

A szerintünk releváns változók

Ha az egyes egységeket el szeretnénk nevezni

Megfigyelési egységeket / változókat szeretnénk összevonni

Az összevonás lépései

Távolságmátrix

Jégcsapdiagram meghatározott klasztertartományra

Ne használd, lefagy a gép!

Page 17: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Outlierek kiszűrése miatt!

Távolságmérték

Page 18: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Output

Az összevonás lépései

Rita Vera

Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám)

Az összevonásra került klaszter melyik lépésben jelenik meg előszörMilyen távolságok

alapján vonták össze a klasztert

Túl nagy ugrás

Page 19: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Vertical Icecle – Jégcsap diagram

Alulról kezdjük értelmezni:Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés

3

Nagy elemszám esetében nehezen kezelhető.

Géza ~ kiugró érték

Page 20: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

DendogramLegkisebb távolság alapján von össze

Kiugró értékek kezelése

Géza ~ kiugró érték

Abnormális? Ki kell zárni?

Page 21: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Kiugró elemek törlése

Data / Select Cases / If condition is satisfied…

Ez marad benn.

Page 22: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster / Method: Ward

•Metrikus változók

• Nincs kiugró érték

• Nincs korreláció a változók között

Page 23: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

a. Kutatói tapasztalat

b. Távolságok

c. Könyökkritérium

d. Klaszterek relatív mértéke

Page 24: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

b) Távolság ( Dendogram)

Ahol a koefficiens értéke hirtelen megnő

De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát

2 v. 3 klaszter

Page 25: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

c) Könyökkritérium

ÁbraszerkesztésLine

Page 26: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

12. lépés utánn - stagetöréspont

3 klaszter

(n-1) elem

Page 27: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster / Save…

Konkrét klaszterszám

Page 28: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Graphs / Scatter/Dot…

Page 29: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Page 30: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Klasztercentroidok és szórások

Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek vegyes kapcsolat

Analyze / Compare Means / Means

Page 31: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Demográfiai vizsgálat (nem, lakhely)

Minőségi-minőségi ismérv asszociáció

Analyze / Descriptive Statistics / Crosstabs

Page 32: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Page 33: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Page 34: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Mennyiségi (kereset) +minőségi (cluster) ismérvek vegyes kapcsolat (ANOVA)

Analyze / Compare Means / Means

Page 35: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

1. klaszter 2. klaszter 3. klaszter

Klasztereljá-rásba bevont változók

Sokat főz Nem Igen Nem

Házias Nem Igen Igen

Csak a jellemzésbe bevont változók

NemTúlnyomórészt

férfiakTúlnyomórészt

nőkNők

Lakhely ? Nagy város Megyeszékhely

KeresetAlacsony(3000€)

Alacsony(2200€)

Magas(7667€)

ElnevezésNemtörődö-

mökHázi tündérek

Rohanó üzletasszonyok

Page 36: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Graphs / Pie…

Page 37: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Más távolságmérték

• Más klasztereljárások

• Változók elhagyása

• A minta 2 részre bontása

• Az esetek sorrendjének megváltoztatása

• Nem hierarchikus klaszterelemzés…

Folyt. köv. órán

Page 38: Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Köszönöm a figyelmet!