klaszterelemzés az spss-ben

Post on 03-Jan-2016

144 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Klaszterelemzés az SPSS-ben. Petrovics Petra Doktorandusz. Klaszteranalízis. Olyan dimenziócsökkentő eljárás , amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. - PowerPoint PPT Presentation

TRANSCRIPT

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Klaszterelemzés az SPSS-ben

Petrovics PetraDoktorandusz

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Klaszteranalízis

• Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni.

• Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Gyakorlati alkalmazási területei

• Piacszegmentálás1. Releváns piac meghatározása

2. Szegmentáció alapjául szolgáló ismérvek meghatározása

3. Szegmentálás (Faktor-, klaszteranalízis)

4. 1 csoportba került fogyasztók jellemzése

• Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség)

• Új termék lehetőségeinek feltárása

• Tesztpiacok kiválasztása

• Adatcsökkentés

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Klaszteranalízis folyamata

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Feladat

TK/286. oldal (Sajtos-Mitev)

• Levesport gyártó vállalat fogyasztóit kérdezték meg

• Név: String

• Főzős: 1-7-ig terjedő skálán mennyit főz

• Házias: 1-7-ig terjedő skálán mennyire házias

• Nem: 1: férfi, 2: nő

• Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Név Főzős Házias Nem Lakhely Kereset1 Béla 1 3 1 3 30002 Jenő 2 3 1 1 15003 Bea 5 5 2 2 20004 Marci 2 4 1 3 10005 Ubul 4 4 1 1 70006 Zsuzsa 2 7 2 1 80007 Rita 2 6 2 2 70008 Zoli 3 4 1 3 15009 Dávid 2 2 1 1 500010 Robi 6 5 1 3 100011 Kriszti 3 3 2 3 200012 Zsófi 6 6 2 2 400013 Géza 7 1 1 2 800014 Éva 6 7 2 1 100015 Dóra 5 7 2 1 300016 Vera 1 6 2 2 6000

Nem: 1-férfi, 2-nőLakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

SPSS

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni.

• Vizsgálandó elemek kiválasztása:Sokaság nagysága: Pl. Magyarország levespor-fogyasztói

Mintanagyság meghatározása

Mintavétel módjának meghatározásaMost itt: n=16 fő (nem reprezentatív)

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Reprezentatív-e a minta?

Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan

• Kiugró adatok (outliers)– Olyan abnormális megfigyelések, amelyek nem jellemzők a

sokaságra;

– Alulprezentálják az alapsokaságban levő csoport nagyságát.

Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Skálák– Hasonló skálázási adatok az összehasonlíthatók

– Célszerű: azonos mértékegység

(ok: nagyobb szórás nagyobb hatást mutat)

Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk;

A jövedelmet hasonlítanánk össze a főzéssel, stb.

Ha eltér: standardizálni! Ha:- a válaszok egymáshoz képesti relatív fontossága a lényeges,- hasonló profilokat keresünk,- nem érdekel a „válaszadó stílusa hatás”.

x

ii s

xxz

Átlaga 0,

szórása 1Összehasonlítható adatok

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster / Method…

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Erősen korrelálnak az elemzésbe bevont változók egymással?

Analyze / Regression/ Linear …

Multikollinearitás

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Bináris változók esetén Metrikus változók esetén

Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték

Euklidészi távolság

Russel and Rao Euklidészi távolság Pearson korreláció

Négyzetes euklidészi távolság

Egyszerű illesztés Négyzetes euklidészi távolság

Variancia Jaccard City block

Yule Csebisev

Analyze / Classify / Hierarchical Cluster / Method

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Forgy: kezdőpontmagpont

Az elemek közötti távolság átlaga

A legtávolabbi 2 elem távolsága

A legközelebbi 2 elem távolsága

A centroidok (kp.) közötti távolság

Forrás: Malhotra [2001]

Pl: Belson: kettéosztás

A klasztereken belüli szórásnégyzet növekedése a legkisebb

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Hierarchikus módszer Nem hierarchikus módszer

Előnyös a használata, ha:

• nem tudjuk előre, hány klasztert szeretnénk létrehozni

• a mintavételi egységek száma magas

• kevésbé függ kiugró értékektől

• kevésbé függ távolságmértékektől

• kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó

Hátránya

• Érzékeny a kiugró értékekre • A klaszterek számát előre kell meghatározni

• Klaszterközéppont kiválasztása

• Függ a megfigyelések sorrendjétől

Kombinált használat:1.Hierarchikus: klaszterek ideális száma2.Kiugró elemek kiszűrése3.Nem hierarchikus csoportosítás

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster

A szerintünk releváns változók

Ha az egyes egységeket el szeretnénk nevezni

Megfigyelési egységeket / változókat szeretnénk összevonni

Az összevonás lépései

Távolságmátrix

Jégcsapdiagram meghatározott klasztertartományra

Ne használd, lefagy a gép!

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Outlierek kiszűrése miatt!

Távolságmérték

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Output

Az összevonás lépései

Rita Vera

Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám)

Az összevonásra került klaszter melyik lépésben jelenik meg előszörMilyen távolságok

alapján vonták össze a klasztert

Túl nagy ugrás

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Vertical Icecle – Jégcsap diagram

Alulról kezdjük értelmezni:Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés

3

Nagy elemszám esetében nehezen kezelhető.

Géza ~ kiugró érték

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

DendogramLegkisebb távolság alapján von össze

Kiugró értékek kezelése

Géza ~ kiugró érték

Abnormális? Ki kell zárni?

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Kiugró elemek törlése

Data / Select Cases / If condition is satisfied…

Ez marad benn.

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster / Method: Ward

•Metrikus változók

• Nincs kiugró érték

• Nincs korreláció a változók között

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

a. Kutatói tapasztalat

b. Távolságok

c. Könyökkritérium

d. Klaszterek relatív mértéke

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

b) Távolság ( Dendogram)

Ahol a koefficiens értéke hirtelen megnő

De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát

2 v. 3 klaszter

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

c) Könyökkritérium

ÁbraszerkesztésLine

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

12. lépés utánn - stagetöréspont

3 klaszter

(n-1) elem

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster / Save…

Konkrét klaszterszám

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Graphs / Scatter/Dot…

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Klasztercentroidok és szórások

Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek vegyes kapcsolat

Analyze / Compare Means / Means

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Demográfiai vizsgálat (nem, lakhely)

Minőségi-minőségi ismérv asszociáció

Analyze / Descriptive Statistics / Crosstabs

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Mennyiségi (kereset) +minőségi (cluster) ismérvek vegyes kapcsolat (ANOVA)

Analyze / Compare Means / Means

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

1. klaszter 2. klaszter 3. klaszter

Klasztereljá-rásba bevont változók

Sokat főz Nem Igen Nem

Házias Nem Igen Igen

Csak a jellemzésbe bevont változók

NemTúlnyomórészt

férfiakTúlnyomórészt

nőkNők

Lakhely ? Nagy város Megyeszékhely

KeresetAlacsony(3000€)

Alacsony(2200€)

Magas(7667€)

ElnevezésNemtörődö-

mökHázi tündérek

Rohanó üzletasszonyok

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Graphs / Pie…

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

• Más távolságmérték

• Más klasztereljárások

• Változók elhagyása

• A minta 2 részre bontása

• Az esetek sorrendjének megváltoztatása

• Nem hierarchikus klaszterelemzés…

Folyt. köv. órán

Miskolci Egyetem Gazdaságtudományi KarÜzleti Információgazdálkodási és Módszertani Intézet

Köszönöm a figyelmet!

top related