analiza multidimensionala a datelor

Upload: stefan-samara

Post on 15-Oct-2015

110 views

Category:

Documents


5 download

TRANSCRIPT

Analiza Multidimensionala a Datelor

HIERARCHICAL CLUSTER ANALYSIS

Pentru exemplificarea acestui algoritm vom presupune c managerul unei firme de transport dorete s afle cum sunt grupate autoturismele pe pia, acesta dorind s achiziioneze 7 laptopuri pentru societatea sa.

Managerul s-a oprit asupra a 10 autoturisme cuprinznd mrci foarte cunoscute ca:

Dacia, KIA, VW, Renault, Audi, BMW sau Colt.

Despre autoturismele respective managerul are informaii referitoare la pre, capacitate cilindric, masa maxim, putere, lungime, lime, greutate, ehipamente suplimentare, garanie i numr locuri.

Pentru a proceda la gruparea acestora, managerul a ntocmit o baz de date n SPSS 16.0, cu 10 variabile definite dup cum urmeaz:

Marca variabil nominal, definit string, de 20 de caractere, aliniere la dreapta, ea definete marca autoturismului.Pre variabil de proporie, definit numeric, de 8 caractere i 2 zecimale, aliniere la dreapta, ea reprezint preul final de cumprare a mainii.Capacitate cilindric (CapCil) variabil de proporie, definit numeric, de 4 caractere i 2 zecimale, aliniere dreapta, reprezentnd capacitatea cilindric a motorului, exprimat n centrimetri cubi.Masa maxim (MasaMax) variabil de proporie, de 4 caractere, aliniere la dreapta, reprezint masa total maxim autorizat msurat n kg.Putere variabil de proporie, definit numeric, de 3 caractere, aliniere la dreapta, reprezint puterea maxim a motorului n kW.

Lungime variabil de proporie, de 6 caractere i 2 zecimale, aliniere la dreapta, reprezint lungimea mainii n cm.

Lime variabil de proporie, definit numeric, de 6 caractere i 2 zecimale, aliniere la dreapta, ea reprezint limea mainii n cm.

Greutate variabil de proporie, definit numeric, de 8 caractere i 2 zecimale, aliniere la dreapta, reprezint greutatea proprie a autoturismului, n kg.Echipamente suplimentare (EchipSup) variabil de proporie, definit numeric, de 1 caracter, aliniere la dreapta, reprezint echiparea suplimentar a mainii ( 1- DA, 2 NU).

Garania variabil de proporie, definit numeric, de 2 caractere, aliniere la dreapta, ea reprezint garania ofertit de firma de la care cumpr n ani.

Numr locuri (NrLocuri) variabil de proporie, definit numeric, de 8 caractere, aliniere la dreapta, ea reprezint numrul de locuri pe scaune.Baza de date astfel obinut va fi utilizat pentru a aplica analiza grupurilor. Deoarece baza de date are 10 variabile se va utiliza prima metod de analiz, i anume Hierarchical Cluster Analysis.

Aceast procedur identific grupurile relativ omogene de cazuri (sau variabile) dup anumite caracteristici selectate, folosind un algoritm care ncepe cu fiecare caz (sau variabil) ntr-un grup separat, combinnd grupurile pn rmne unul singur. Se pot analiza variabilele netransformate sau se poate alege dintr-o varietate de transformri standardizate. Distana sau msurile similare sunt generate de procedura Proximities (de proximitate). Pentru a ajuta la alegerea celei mai bune soluii, statisticile sunt prezente n fiecare etap.

Pentru aceasta din meniul Analyze se selecteaz opiunea Clasify apoi Hierarchical Cluster Analysis. Dup selectarea procedurii va aprea o fereastr care permite selectarea variabilelor de grupare i posibilitatea personalizrii. Cmpul Variable(s) permite selectarea variabilelor pentru sau dup care se face gruparea. Variabilele sunt trimise n acest cmp prin intermediul sgeii.

Cmpul Label Cases by permite selectarea variabilei ce indic numele fiecrui caz n parte. Variabila este trimis n acest cmp prin intermediul sgeii.

Cmpul Cluster permite alegerea modalitii de grupare: pentru variabile sau pentru cazuri. Dac se alege gruparea variabilelor, cmpul Label Cases by va deveni indisponibil.

Cmpul Display permite optarea pentru afiarea sau nu a statisticilor sau a graficelor.

n fereastra Variables se selecteaz variabilele pre, capacitate cilindric, masa maxim, putere, lungime, lime, greutate, ehipamente suplimentare, garanie i numr locuri. n fereastra Label cases by selectm variabila Marca.n cmpul Cluster bifm cases.n cmpul Display bifm ambele opiuni.

n ferestra Statistics bifm Agglomeration Schedule, Proximity Matrix, iar n cmpul Cluster membership bifm Range of solutions de la 2 la 4.

n ferestra Plots bifm Dendogram, la cmpul Icicle bifm All clusters, iar la Orientation bifm Vertical.

n ferestra Method alegem la Cluster method Between-groups linkage, n cmpul Measure bifm Interval i alegem Squared Euclidean distance; n cmpul Transform values alegem Z scores i bifm By variables. n cmpul Transform measures nu bifm nici o opiune.

Interpretarea Outputului

Outputul obinut n urma procesrii conin urmtoarele elemente:

Case Processing Summarya

Cases

ValidMissingTotal

NPercentNPercentNPercent

10100,0%0,0%10100,0%

a. Squared Euclidean Distance used

Acest tabel prezint procentajul de variabile valide, 100% n cazul nostru. De asemenea se arat care este numrul total de variabile utilizate n analiz, 10, att procentual ct i absolut.

n tabelul urmtor sunt prezentate distanele dintre fiecare caz n parte. Pe linia oblic acestea au valoarea 0 deoarece distana dintre aceeai variabil nu este calculat.

Proximity matrix este o matrice simetric, astfel c toate elementele prezente deasupra diagonalei principale sunt trecute i sub aceast diagonal. Datele tabelului sunt ptratele distanelor Euclidiene pentru toate perechile de cazuri.Se poate observa c valoarea cea mai mic este pentru perechea ( 6-7) altfel spus, acest caz este cel mai asemntoare din punctul de vedere al caracteristicilor pe care le ntrunesc. Astfel putem observa c Renault Clio i Renault Symbol au cele mai multe caracteristici n comun.

Agglomeration Schedule

StageCluster CombinedCoefficientsStage Cluster First AppearsNext Stage

Cluster 1Cluster 2Cluster 1Cluster 2

167,047002

26101,706103

3265,926024

42510,761305

52312,823406

62815,992508

71419,189008

81222,289769

91938,269800

Din acest tabel se poate observa cum s-au grupat cazurile n fiecare faz de grupare. n a doua coloan, Cluster Combined, sunt prezentate cazurile grupate. n cea de-a treia coloan, Coefficients, sunt coeficienii distanelor dintre elementele grupate. n a patra coloan, Stage cluster First Appears, ne este artat numrul fazei n care au mai aprut fiecare din cele dou elemente. Ultima coloan, Next Stage, ne spune n ce faz va mai aprea elementul din primul grup i n ce faz se va modifica el.

Cluster Membership

Case4 Clusters3 Clusters

1:Dacia MCV 111

2:Kia Ceed 221

3:VW Passat 221

4:Dacia VAN 311

5:Dacia Logan 221

6:Renault Clio 221

7:Renault Symbol 221

8:Audi A6 221

9:BMW X5 432

10:Colt 221

n tabelul Cluster Membership , n funcie de numrul grupurilor formate, sunt afiate cazurile ce intr n componena lor. n situaia de fa, se observ c cazul 1 ( Dacia MCV), indiferent de numrul grupurilor ce se formeaz, aparine aceluiai grup 1. Cazurile 9, atunci cnd se formeaz 4 grupuri, alctuiete singur grupul 4.

Pentru o vizualizare mai clar a modului de grupare a cazurilor :

Vertical IciclePrezint graficul tabeluilui Aglomeration schedule. Vertical Icicle este un grafic ce afieaz paii n formarea grupurilor. Coloanele corespund cazurilor, iar rndurile corespund numrului de grupuri. Acest tip de grafic se citete de jos n sus.

* * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

Renault Clio 6

Renault Symbol 7

Colt 10

Kia Ceed 2

Dacia Logan 5

VW Passat 3

Audi A6 8

Dacia MCV 1

Dacia VAN 4

BMW X5 9

ANALIZA COMPONENTELOR PRINCIPALEDup analiza autoturismelor, managerul a cerut o analiz a celor mai cotate 25 de dealeri auto care pot s-i ofere mainile dorite. Pentru ndeplinirea obiectivelor se va folosi ca i metod analiza componentelor principale n SPSS.

Distribuia unor firme (un eantion de 25) ce activeaz pe piaa comerului cu autoturisme dup volumul vnzrilor (milioane lei), cifra de afaceri (milioane lei), numrul de clieni, numrul de angajai, cota de pia (procente), valoarea investiiilor (milioane lei), volumul datoriilor (milioane lei), pierderilor (milioane lei) i al profitului (milioane lei) din anul 2008 se prezint astfel: companievol_vanzcifra_afclientinr_angajcota investitdatorii profitpierderi

1250758040215803065

2300909040530904060

360016010055870457045

41004060201.515752075

542013090654.550854055

6360110100353401106035

7700185250501090257015

8560180100353.575659010

942014521040465606025

10150607015220452570

1160017090555.565506520

12750195220656.595209510

138401902607088030905

149101952804011100251005

156301801302099035755

16520130120608.560753540

1731095200255351005555

182008085302.525703565

1945015012035375506535

20520160170405.545808530

21390120150354.545455045

22410180190507.585458010

23620160240655.580457525

2455017523060680358525

2570019025070775709515

Descrierea bazei de date in SPSS

Variabile:

companie Numele companiei, variabil nominal, string

vol_vanz Volumul vnzrilor, variabil numeric, scal

cifra_af - Cifra de afaceri, variabil numeric, scal

clienti Numrul de clieni, variabil numeric, scal

nr_angaj Numrul de angajai, variabil numeric, scal

cota Cota de pia; variabil numeric, scal

investit Valoarea investiiilor, variabil numeric, scal

datorii Valoarea datoriilor, variabil numeric, scal

profit Valoarea profitului, variabil numeric, scal

pierderi Valoarea pierderilor, variabil numeric, scal.

Pai n SPSS, folosind analiza componentelor principale:

Analyse/Data reduction/Factor

Descriptives: Univariate Descriptives, Correlation Matrix (Coefficients, Determinant, KMO)

Extraction: Number of factors: 2 (axe factoriale)

Rotation: Loading plots

Scores: Save as variables, Display factor score coefficient matrix.

Descriptive Statistics

MeanStd. DeviationAnalysis N

vol_vanz490,40208,99525

cifra_af141,8046,32025

clienti155,4070,68025

nr_angaj44,6016,38925

cota5,36002,6161425

investit60,200026,3185625

datorii58,200024,6170725

profit63,600023,9583025

pierderi33,800022,5129625

Acest tabel prezint valorile mediei i ale abaterilor medii ptratice.

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy.,774

Bartlett's Test of SphericityApprox. Chi-Square258,758

df36,000

Sig.,000

Statistica este folosit pentru a se testa ipoteza de independen dintre variabile:

H0 : calc teoretic ipoteza de independen

H1 : calc >teoretic ipoteza de dependenn acest caz calc =258.758 > teoretic = =0.05, v=36 43.773 i valoarea sig.(=0.000) < =0.05 se respinge ipoteza de independen H0.

i statistica KMO este folosit pentru a se testa ipoteza de independen dintre variabile. Aceasta are o valoare 0.774 > 0.5 ceea ce arat c metoda ACP poate fi aplicat (ntre variabile exist legturi statistice).

Communalities

InitialExtraction

vol_vanz1,000,918

cifra_af1,000,938

clienti1,000,650

nr_angaj1,000,867

cota1,000,649

investit1,000,930

datorii1,000,720

profit1,000,816

pierderi1,000,873

Extraction Method: Principal Component Analysis.

Acest tabel prezint variana variabilelor iniiale, care au ntotdeauna valoarea 1.

n urmtorul tabel sunt trecute valorile proprii ale matricii corelaiilor (Initial Eigenvalues) i variana explicat de fiecare ax factorial (Total Varaince Explained). Suma valorilor proprii msoar ineria sau variana total a norului de puncte. Pe baza datelor din acest output se alege numrul de axe factoriale care se interpreteaz i anume, conform criteriului Benzcre, se aleg axele care explic cel puin 70% din variana total, n acest caz este suficient primul ax factorial ce explic 73.168% din variana total i evidenieaz cele mai importante diferene dintre companii din punct de vedere al variabilelor considerate.

Total Variance Explained

ComponentInitial EigenvaluesExtraction Sums of Squared Loadings

Total% of VarianceCumulative %Total% of VarianceCumulative %

16,58573,16873,1686,58573,16873,168

2,7768,61881,786,7768,61881,786

3,5556,16687,951

4,4525,01992,970

5,3924,35397,324

6,1141,26198,585

7,066,73499,319

8,046,50899,827

9,016,173100,000

Extraction Method: Principal Component Analysis.

Component Matrixa

Component

12

vol_vanz,956,068

cifra_af,968,033

clienti,803,074

nr_angaj,615,699

cota,804-,053

investit,957-,121

datorii-,685,500

profit,903,001

pierderi-,930,092

Extraction Method: Principal Component Analysis.

a. 2 components extracted.

Component Matrix arat coordonatele variabilelor pe axele factoriale, component 1 reprezint primul ax factorial i component 2 cel de al doilea ax factorial.

Component Score Coefficient Matrix

Component

12

vol_vanz,145,087

cifra_af,147,042

clienti,122,095

nr_angaj,093,901

cota,122-,068

investit,145-,156

datorii-,104,645

profit,137,002

pierderi-,141,118

Extraction Method: Principal Component Analysis.

Component Scores.

Acest output arat contribuia variabilelor la ineria unui ax factorial.

Primul ax factorial care explic 73.168% din variana total evidenieaz o legtur direct ntre volumul vnzrilor, cifra de afaceri, numrul de clieni, numrul angajailor, cota de pia, valoarea investiiilor i valoarea profitului i o legtur invers ntre aceste apte variabile i valoarea datoriilor i a pierderilor. (primele apte variabile au coordonate pozitive pe primul ax factorial, iar ultimele variabile au coordonate negative pe primul ax factorial). Cu ct valoarea datoriilor este mai mare cu att pierderile vor fi mai mari iar volumul vnzrilor, cifra de afaceri, numrul de clieni, numrul angajailor, cota de pia, valoarea investiiilor i valoarea profitului vor nregistra valori mai mici.

Primul ax factorial evidenieaz dou grupe de companii, ntre care se nregistreaz cele mai mari deosebiri. Prima grup este format din firmele 1, 2, 6, 17 iar cea de a doua din firmele 3, 11, 12, 13, 24, 22. Prima grup se caracterizeaz prin datorii i pierderi mai mari dect nivelul mediu i cu volumul vnzrilor, cifra de afaceri, numrul de clieni, numrul angajailor, cota de pia, valoarea investiiilor i valoarea profitului mai mici, spre deosebire de firmele din cea de a doua grup. Firma 20 se caracterizeaz prin valori foarte apropiate de nivelul mediu. n aceeai situatie se afl i firma 16 care are valori apropiate de nivelul mediu. Firmele 5 i 25 se caracterizeaz prin datorii mai mari i numr de angajai mai ridicat.

Situaia formrii a 4 grupuri

9

4

2 3 5 6 7

8 10

1

Situaia formrii a 3 grupuri

9

2 3 5 6 7

8 10

1

4

Situaia formrii a 2 grupuri

9

1 2 3 4 5 6 7 8 10

PAGE 4

_1163890682.unknown