klaszterelemzés az spss-ben
DESCRIPTION
Klaszterelemzés az SPSS-ben. Petrovics Petra Doktorandusz. Klaszteranalízis. Olyan dimenziócsökkentő eljárás , amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. - PowerPoint PPT PresentationTRANSCRIPT
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Klaszterelemzés az SPSS-ben
Petrovics PetraDoktorandusz
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis
• Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni.
• Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Gyakorlati alkalmazási területei
• Piacszegmentálás1. Releváns piac meghatározása
2. Szegmentáció alapjául szolgáló ismérvek meghatározása
3. Szegmentálás (Faktor-, klaszteranalízis)
4. 1 csoportba került fogyasztók jellemzése
• Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség)
• Új termék lehetőségeinek feltárása
• Tesztpiacok kiválasztása
• Adatcsökkentés
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis folyamata
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Feladat
TK/286. oldal (Sajtos-Mitev)
• Levesport gyártó vállalat fogyasztóit kérdezték meg
• Név: String
• Főzős: 1-7-ig terjedő skálán mennyit főz
• Házias: 1-7-ig terjedő skálán mennyire házias
• Nem: 1: férfi, 2: nő
• Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Név Főzős Házias Nem Lakhely Kereset1 Béla 1 3 1 3 30002 Jenő 2 3 1 1 15003 Bea 5 5 2 2 20004 Marci 2 4 1 3 10005 Ubul 4 4 1 1 70006 Zsuzsa 2 7 2 1 80007 Rita 2 6 2 2 70008 Zoli 3 4 1 3 15009 Dávid 2 2 1 1 500010 Robi 6 5 1 3 100011 Kriszti 3 3 2 3 200012 Zsófi 6 6 2 2 400013 Géza 7 1 1 2 800014 Éva 6 7 2 1 100015 Dóra 5 7 2 1 300016 Vera 1 6 2 2 6000
Nem: 1-férfi, 2-nőLakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
SPSS
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni.
• Vizsgálandó elemek kiválasztása:Sokaság nagysága: Pl. Magyarország levespor-fogyasztói
Mintanagyság meghatározása
Mintavétel módjának meghatározásaMost itt: n=16 fő (nem reprezentatív)
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• Reprezentatív-e a minta?
Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan
• Kiugró adatok (outliers)– Olyan abnormális megfigyelések, amelyek nem jellemzők a
sokaságra;
– Alulprezentálják az alapsokaságban levő csoport nagyságát.
Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• Skálák– Hasonló skálázási adatok az összehasonlíthatók
– Célszerű: azonos mértékegység
(ok: nagyobb szórás nagyobb hatást mutat)
Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk;
A jövedelmet hasonlítanánk össze a főzéssel, stb.
Ha eltér: standardizálni! Ha:- a válaszok egymáshoz képesti relatív fontossága a lényeges,- hasonló profilokat keresünk,- nem érdekel a „válaszadó stílusa hatás”.
x
ii s
xxz
Átlaga 0,
szórása 1Összehasonlítható adatok
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster / Method…
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• Erősen korrelálnak az elemzésbe bevont változók egymással?
Analyze / Regression/ Linear …
Multikollinearitás
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Bináris változók esetén Metrikus változók esetén
Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték
Euklidészi távolság
Russel and Rao Euklidészi távolság Pearson korreláció
Négyzetes euklidészi távolság
Egyszerű illesztés Négyzetes euklidészi távolság
Variancia Jaccard City block
Yule Csebisev
Analyze / Classify / Hierarchical Cluster / Method
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Forgy: kezdőpontmagpont
Az elemek közötti távolság átlaga
A legtávolabbi 2 elem távolsága
A legközelebbi 2 elem távolsága
A centroidok (kp.) közötti távolság
Forrás: Malhotra [2001]
Pl: Belson: kettéosztás
A klasztereken belüli szórásnégyzet növekedése a legkisebb
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Hierarchikus módszer Nem hierarchikus módszer
Előnyös a használata, ha:
• nem tudjuk előre, hány klasztert szeretnénk létrehozni
• a mintavételi egységek száma magas
• kevésbé függ kiugró értékektől
• kevésbé függ távolságmértékektől
• kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó
Hátránya
• Érzékeny a kiugró értékekre • A klaszterek számát előre kell meghatározni
• Klaszterközéppont kiválasztása
• Függ a megfigyelések sorrendjétől
Kombinált használat:1.Hierarchikus: klaszterek ideális száma2.Kiugró elemek kiszűrése3.Nem hierarchikus csoportosítás
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster
A szerintünk releváns változók
Ha az egyes egységeket el szeretnénk nevezni
Megfigyelési egységeket / változókat szeretnénk összevonni
Az összevonás lépései
Távolságmátrix
Jégcsapdiagram meghatározott klasztertartományra
Ne használd, lefagy a gép!
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Outlierek kiszűrése miatt!
Távolságmérték
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Output
Az összevonás lépései
Rita Vera
Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám)
Az összevonásra került klaszter melyik lépésben jelenik meg előszörMilyen távolságok
alapján vonták össze a klasztert
Túl nagy ugrás
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Vertical Icecle – Jégcsap diagram
Alulról kezdjük értelmezni:Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés
3
Nagy elemszám esetében nehezen kezelhető.
Géza ~ kiugró érték
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
DendogramLegkisebb távolság alapján von össze
Kiugró értékek kezelése
Géza ~ kiugró érték
Abnormális? Ki kell zárni?
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Kiugró elemek törlése
Data / Select Cases / If condition is satisfied…
Ez marad benn.
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster / Method: Ward
•Metrikus változók
• Nincs kiugró érték
• Nincs korreláció a változók között
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
a. Kutatói tapasztalat
b. Távolságok
c. Könyökkritérium
d. Klaszterek relatív mértéke
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
b) Távolság ( Dendogram)
Ahol a koefficiens értéke hirtelen megnő
De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát
2 v. 3 klaszter
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
c) Könyökkritérium
ÁbraszerkesztésLine
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
12. lépés utánn - stagetöréspont
3 klaszter
(n-1) elem
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster / Save…
Konkrét klaszterszám
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Graphs / Scatter/Dot…
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• Klasztercentroidok és szórások
Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek vegyes kapcsolat
Analyze / Compare Means / Means
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• Demográfiai vizsgálat (nem, lakhely)
Minőségi-minőségi ismérv asszociáció
Analyze / Descriptive Statistics / Crosstabs
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• Mennyiségi (kereset) +minőségi (cluster) ismérvek vegyes kapcsolat (ANOVA)
Analyze / Compare Means / Means
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
1. klaszter 2. klaszter 3. klaszter
Klasztereljá-rásba bevont változók
Sokat főz Nem Igen Nem
Házias Nem Igen Igen
Csak a jellemzésbe bevont változók
NemTúlnyomórészt
férfiakTúlnyomórészt
nőkNők
Lakhely ? Nagy város Megyeszékhely
KeresetAlacsony(3000€)
Alacsony(2200€)
Magas(7667€)
ElnevezésNemtörődö-
mökHázi tündérek
Rohanó üzletasszonyok
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Graphs / Pie…
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
• Más távolságmérték
• Más klasztereljárások
• Változók elhagyása
• A minta 2 részre bontása
• Az esetek sorrendjének megváltoztatása
• Nem hierarchikus klaszterelemzés…
Folyt. köv. órán
Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet
Köszönöm a figyelmet!