metodi statistici per le ricerche di mercato · 30/05/2018 1 metodi statistici per le ricerche di...

31
30/05/2018 1 Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» Che cosa è l’Analisi Multidimensionale dei Dati? Insieme di tecniche statistiche che consentono di interpretare fenomeni complessi mediante l’analisi di grandi quantità di dati I dati sottoposti ad analisi sono caratterizzati dall'osservazione congiunta di un insieme di p variabili su n unità statistiche Il concetto di “dimensione” viene a volte ricondotto a quello geometrico, altre volte a quello di costrutto concettuale. In tutti i casi si adotta un approccio “multi-variato”. Le informazioni, espresse sia in forma codificata che in linguaggio naturale, sono inserite in opportune tabelle e matrici oggetto di trattamento matematico o grafico. Lo sviluppo di queste tecniche e la loro applicazione è stata possibile grazie all’avvento degli elaboratori elettronici e si sono generalizzati con la diffusione odierna dei personal computer e di adeguati software. I. Mingo 2017-2018

Upload: buidat

Post on 22-Feb-2019

225 views

Category:

Documents


0 download

TRANSCRIPT

30/05/2018

1

Metodi statistici per le ricerche di mercato

Prof.ssa Isabella MingoA.A. 2017-2018

Facoltà di Scienze Politiche, Sociologia, Comunicazione

Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»

Che cosa è l’Analisi Multidimensionale dei Dati?

Insieme di tecniche statistiche che consentono di interpretarefenomeni complessi mediante l’analisi di grandi quantità di dati

I dati sottoposti ad analisi sono caratterizzati dall'osservazionecongiunta di un insieme di p variabili su n unità statistiche

Il concetto di “dimensione” viene a volte ricondotto a quellogeometrico, altre volte a quello di costrutto concettuale. In tutti icasi si adotta un approccio “multi-variato”.

Le informazioni, espresse sia in forma codificata che inlinguaggio naturale, sono inserite in opportune tabelle e matricioggetto di trattamento matematico o grafico.

Lo sviluppo di queste tecniche e la loro applicazione è statapossibile grazie all’avvento degli elaboratori elettronici e si sonogeneralizzati con la diffusione odierna dei personal computer e diadeguati software.

I. Mingo 2017-2018

30/05/2018

2

Approccio esplorativo-descrittivo

• Nella sua impostazione originaria, l‘AMD analizza le relazioni tra levariabili sulla base degli strumenti della geometria euclidea edell'algebra, prescindendo da qualunque assunzione probabilistica.

• Il suo approccio è originariamente di tipo esplorativo:– si analizzano i dati per “cogliere indizi” utili alla formulazione di

ipotesi distributive delle variabili

– si tratta simultaneamente con variabili numerose e spesso eterogenee riguardo al loro livello di misurazione

• Le tecniche di AMD possono essere dunque considerate un sottoinsieme di quello più ampio dell’Analisi Multivariata che comprende anche altre tecniche di approccio non esplorativo.

I. Mingo 2017-2018

Un’approccio tipico di AMD:I principi della Scuola Francese dell’ Analyse des données

1. La statistica non è calcolo delle probabilità2. Il modello deve seguire i dati non l’inverso3. è opportuno trattare simultaneamente informazioni

concernenti il maggior numero possibile di dimensioni4. Per l’analisi dei fenomeni complessi è indispensabile il

computer5. L’uso del computer implica l’abbandono di ogni tecnica

concepita prima dell’avvento del calcolo automatico(Benzècri 1973)

I. Mingo 2017-2018

30/05/2018

3

AMD: classificazione delle tecniche Criterio: Metrica

Analisi metrica: adatta a variabili quantitative Analisi non metrica: applicabile a variabili di qualsiasi scala di misura

Criterio: Simmetria Metodi simmetrici: non evidenziano direzioni causali, le relazioni tra le

variabili sono considerate bidirezionali Metodi asimmetrici: evidenziare relazioni di dipendenza tra più sistemi

di variabili. Le variabili osservate sono divise in variabili dipendenti evariabili predittive (o esplicative o indipendenti).

Criterio: Linearità Relazioni lineari: si assume che la relazione che lega la variabile Y ad

un gruppo di variabili X1, X2, …,Xk è esprimibile attraverso una funzionelineare delle variabili esplicative più un termine residuale

Relazioni non lineari: si assume che la relazione sia di altro tipo(esponenziale, logaritmica, sinusoidale, polinomiale).

I. Mingo 2017-2018

Alcune finalità delle tecniche di AMD

Riduzione dei dati• Descrizione dei dati rilevati mediante forme semplici e compatte

analitiche e/o grafiche• Costruzione di indici sintetici

Evidenziazione strutture latenti

Raggruppamento e ricerca di tipologie• Definizione automatica di classi di unità più omogenee

Discriminazione • Identificazione delle caratteristiche che differenziano due o più

insiemi di unità.

I. Mingo 2017-2018

30/05/2018

4

Strategie di analisi

• Nella prassi della ricerca le tecniche di AMD vengonoconcatenate e possono costituire a loro volta il presuppostoper l’applicazione di altre tecniche.

• Una strategia è un processo di analisi dei dati che si avvale diun insieme di tecniche statistiche combinate tra loro in vistadi determinati fini conoscitivi.

I. Mingo 2017-2018

Sintesi delle variabili

Ricerca di tipologie

Esempio di strategia

Matrice dati

Tecniche multivariate di riduzione delle variabili:

L’analisi in componenti principali

I. Mingo 2017-2018

30/05/2018

5

Matrice di dati: rappresentazione geometrica

Ogni riga di una matrice di dati Xnpquantitativi può essere rappresentata come un vettore numerico a p dimensioni che indica le coordinate del punto-unità nello spazio Rp detto delle unità

Ogni colonna di una matrice di dati Xnp quantitativi può essere rappresentata come un vettore numerico a n dimensioni che indica le coordinate del punto-variabile nello spazio Rn detto delle variabili

I. Mingo 2017-2018

Glossario:Vettore e spazio vettoriale

• Il piano cartesiano è un esempio di spazio vettoriale

• Un vettore è un punto del piano cartesiano, determinato da una coppia di numeri reali (x, y).

• Disegnando una freccia che parte nell'origine (0, 0) e arriva in (x, y), si ottiene il significato fisico di vettore applicato nell'origine;

• I vettori possono essere sommati e moltiplicati per scalari e per altri vettori.

• Analogamente nello spazio n-dimensionale un vettore è una ennupla di numeri reali (x1, x2, …xn).

I. Mingo 2017-2018

30/05/2018

6

Esempio: nuvola di punti-unità nel piano e nello spazio p dimensionale

I. Mingo 2017-2018

All’aumentare degli n vettori diriga xi aumenta anche lanumerosità dei puntirappresentati nella nuvola deipunti-unità nello spazio Rp.

All’aumentare dei p vettoricolonna aumenta la numerositàdelle dimensioni dello spazio-unità e dunque la complessitàdei dati in analisi.

n punti in R2

n punti in R3

GlossarioBaricentro e Inerzia totale

• Il baricentro di una nuvola di punti-unità è il vettore delle mediedelle variabili

• La dispersione totale della nuvola dei punti unità intorno al lorobaricentro si definisce varianza totale o inerzia totale.

• Essa può essere calcolata sommando gli elementi della diagonaleprincipale (traccia) della matrice di varianza e covarianza.

I. Mingo 2017-2018

30/05/2018

7

L’analisi in componenti principali (ACP)

• E’ una tecnica di tipo fattoriale utile per ridurre la complessità, chesi propone di sintetizzare le variabili:– si basa sulle correlazioni esistenti tra di esse– individua una serie di p fattori comuni o componenti, di

importanza decrescente.– Le componenti sono:

• combinazioni lineari delle variabili originarie, pertanto nesintetizzano l’informazione

• non sono correlati tra di loro.

Esempi di applicazione:

•Quali sono le dimensioni del benessere dei comuni italiani?

• In quali componenti si possono sintetizzare le valutazioni attribuite dai cittadini alle funzioni amministrative degli enti locali ?

•In quali dimensioni possono essere sintetizzate i punteggi espressi dai clienti sulle caratteristiche di un prodotto?

I. Mingo 2017-2018

ACP : approccio geometrico

• Geometricamente, le componenti rappresentano un nuovo sistema di coordinate ottenuto ruotando il sistema originale con p assi coordinati

• L’obiettivo è di sceglierne un numero q ≤ p che spiegano la massima parte della varianza originaria.

Y2

I. Mingo 2017-2018

Nell’esempio la somma delle distanze al quadrato dai punti alla retta Y1 è minimizzata

• Y1 è una combinazione lineare delle variabili originarie

30/05/2018

8

Correlazione e riduzione

Tasso di disoccupazione

3020100

Tass

o di

dis

occu

pazio

ne g

iova

nile

70

60

50

40

30

20

10

0

r=0,976r=0,002

Le caratteristiche dei punti-unità espresse dalledue variabili (le due dimensioni del pianocartesiano) possono essere riassunte da unasola dimensione (la retta) che li sintetizza.

Non è possibile individuare una rettache riassuma le due dimensioni poichésono indipendenti.

I. Mingo 2017-2018

Uso del software : la correlazione

I. Mingo 2017-2018

30/05/2018

9

Analisi in Componenti Principali (ACP) : il modello

A partire da un insieme di variabili quantitative originarie:X1, X2 ,…, Xj,…, Xp

l’ACP conduce a un insieme di variabili non osservate

Y1,Y2,…,Yq (q≤p)

tale che ciascuna i-esima componente principale Yi sarà :Yi = wi1X1 + wi2X2 + ..... + wipXp i=1,2,…q

Dove wij sono i pesi associati ad ogni variabile per ogni componente

I. Mingo 2017-2018

ACP: calcolo della prima componente

• Si determineranno i pesi w1j della combinazione lineare in modo da :

• rendere massima la varianza della componente stessa: var (Y1) = max

• e sotto la condizione che la somma dei quadrati dei coefficienti wi1 della combinazione sia uguali a 1:

I. Mingo 2017-2018

30/05/2018

10

ACP: calcolo delle altre componenti

• La seconda componente sarà determinata con le medesime condizioni e con quella aggiuntiva che sia non-correlata con la prima, valga cioè la relazione:

r (Y1 Y2) = 0 -> w11 w12 + w21 w22 + …wq1 wq2 =0

• Le successive componenti principali si determinano in modo analogo; si avrà quindi:var (Y1) var (Y2) … var (Yq)

er(Ys Yk) =0 s,k tale che sk

I. Mingo 2017-2018

ACP : fasi

Fase 1 • La matrice iniziale: variabili e trasformazioni

Fase 2• La scelta del software: elaborazione

Fase 3• Lettura dell’output e interpretazione

I. Mingo 2017-2018

30/05/2018

11

Progettazione di una ACP

• Scelta delle variabili da analizzare:– Le variabili devono essere quantitative. – Si può optare per l’uso di variabili

standardizzate (scelta necessaria se si disponedi variabili espressi in differenti unità di misura) onon standardizzate.

Fase 1

I. Mingo 2017-2018

Esecuzione di una ACP

• Scelta del software:

• Si può fare ricorso a numerosi software statistici che dispongono di procedure adatte all’applicazione dell’ACP:

• SPSS, SAS, STATA, SPAD, NCSI……...

Fase 2

I. Mingo 2017-2018

30/05/2018

12

Uso del software Spss : esecuzione ACP

I. Mingo 2017-2018

Lettura dell’output e interpretazione

Analisi delle variabili in input Caratteristiche dei fattori estratti:Numero e quote di varianza spiegataComunalitàCorrelazioni fattori/variabili Punteggi delle variabiliPunteggi delle unità

Rappresentazioni grafiche

Fase 3

I. Mingo 2017-2018

30/05/2018

13

Analisi delle variabili in input

I. Mingo 2017-2018

L’analisi delle statistiche descrittivemonovariate precede l’applicazionedella tecnica multidimensionale econsente di controllare la eventualeesistenza di dati anomali o di casimancanti.

Test che ci consentono di stabilire se la struttura di correlazione delle variabili usate è adatta all’applicazione di una analisi di tipo fattoriale.KMO ( varia da 0-1) deve essere >0.7 e prossimo a 1. Test di Bartlett significativo (con sig < 0.05).

ACP: risultati

• La risoluzione del problema di massimo vincolato, applicatoalla matrice di correlazione R (o a quella di varianza ecovarianza S) tra le p variabili , conduce ad ogni passo atrovare : var (Yi) = λi (i=1,2,…q)

dove λi è l’iesimo autovalore della matrice R, pertanto per la condizione di varianza decrescente:

λ1 > λ2 > λ3 >… λq

i coefficienti w1i, w2i,…,wq1 sono l’autovettore associato ad ogni λi

I. Mingo 2017-2018

30/05/2018

14

Le caratteristiche dei fattori : numero e quote di varianza spiegata

I. Mingo 2017-2018

•Nell’ACP il numero deifattori estraibili è pari alnumero delle variabili (nelnostro esempio 10).

•A ciascun fattore èassociato un autovalore i(eigenvalue) e una quotadi varianza decrescente• i /) i (i=1,2,…q)

• Considerando soltantoalcuni fattori la varianzaspiegata è inferiore a 100.

Quanti fattori considerare?•Non esistono regole tassative, ma possono essere seguiti diversi criteri empirici:

fissare un livello minimo di percentuale cumulata di spiegazione dellavarianza e considerare fattori che cumulativamente consentono di raggiungerela soglia prefissata;- Si potrebbe richiedere che i fattori tengano conto mediamente di almeno il 95% della

varianza di ognuna delle p variabili originarie, cioè0,95p x 100 Al crescere del numero di variabili ci si può accontentare di una % minore

scegliere i fattori con autovalore >1 a prescindere dalla percentuale divarianza (Kaiser) se le variabili sono standardizzate, oppure almeno pari allavarianza media ( somma degli autovalori/ p);

rappresentare graficamente gli autovalori rispetto all’ordine di estrazione(scree test) e collegarli con una spezzata. Si considerano rilevanti quei fattori icui autovalori si collocano prima del punto di flesso della spezzata (Cattel).

I. Mingo 2017-2018

30/05/2018

15

Scree test

I. Mingo 2017-2018

La bontà della riduzione: la comunalità

• Per valutare la ‘bontà’ dell’operazione, che riduce ilnumero di dimensioni da p a q (ossia da 10 a 2),possiamo fare riferimento alla comunalità diciascuna variabile originaria:

• Misura la percentuale di varianza di ciascuna variabile spiegata dallecomponenti estratte

I. Mingo 2017-2018

30/05/2018

16

Il significato di ogni fattore : le correlazioni con le variabili

I. Mingo 2017-2018

I coefficienti di correlazione tra ognifattore e le variabili originarieconsentono di attribuire alladimensione sintetica un “etichetta” :

• il segno del coefficiente indica il tipodi relazione lineare diretta (+) oinversa (-);•L’entità del coefficiente indica laforza della relazione.

Il grafico delle componenti

I. Mingo 2017-2018

•Se si disegna un cerchio diraggio=1, la prossimità dellevariabili alla circonferenza eall’asse evidenzia lacorrelazione prossima a |1| .•La lontananza indica unacorrelazione debole.

30/05/2018

17

Esercizio ACP

• Utilizzando il file qdv_esercizio.sav, considerare le variabili riguardanti il tenore di vita e il tempo libero.

• Applicare una ACP al fine di individuare dimensioni sintetiche.

• Interpretare l’output ottenuto, e in particolare:• motivare la scelta del numero di fattori• individuare le variabili meglio e peggio

rappresentate nel nuovo sistema di riferimento• attribuire un etichetta concettuale alle dimensioni

considerate, motivando la scelta.

I. Mingo 2017-2018

La rotazione delle componenti

• Per agevolare la interpretazione delle componenti si puòapplicare una rotazione ortogonale degli assi fattoriali in mododa minimizzare il numero di variabili che sono fortementecorrelate con ogni fattore.

• Il peso dei fattori è così distribuito più uniformemente el’interpretazione dei fattori è semplificata.

• Questo tipo di rotazione è denominata Varimax

I. Mingo 2017-2018

30/05/2018

18

La rotazione modifica:-l’autovalore e la % di varianza spiegata da ciascuna componente;- la matrice delle componenti

I. Mingo 2017-2018

I punteggi fattoriali

I. Mingo 2017-2018

Punteggi delle variabili sui fattori

Punteggi delle unità sui fattori

autovettori standardizzati:wij/√ij)

30/05/2018

19

ACP: i punteggi in SPSS

• Il punteggio (score) di ogni componente è definito da:• Yi = wi1X1 + wi2X2 + ..... + wipXp

dove w ij è il peso (autovettore) della prima componentee della iesima variabile

• Avendo imposto la condizione di normalizzazione i pesihanno media nulla e varianza pari all’autovalore di ognicomponente.

• Ciò riflette l’importanza di ogni componente ma presentalo svantaggio di non rendere direttamente comparabili lediverse componenti.

• A tal fine si possono ricavare pesi standardizzati, convarianza unitaria, dividendo per ogni fattore l’ autovettoreper la radice quadrata del rispettivo autovalore.

• SPSS adotta poi diverse procedure per calcolare ipunteggi delle unità statistiche sulle componenti.

• Per ogni unità statistica il punteggio sul fattore è la suacoordinata nel nuovo sistema di riferimento (cfr. graficoslide precedente) .

I. Mingo 2017-2018

Esercizio ACP

• Riprendendo l’applicazione ACP precedente:• Salvare i punteggi fattoriali delle unità di analisi• Ottenere delle graduatorie decrescenti delle unità

di analisi in base ai punteggi ottenuti.• Ottenere un grafico fattoriale delle prime due

componenti.• Commentare i risultati ottenuti.

I. Mingo 2017-2018

30/05/2018

20

Introduzione alla Cluster analysisTecniche e software

Individuare tipologie….

… è uno degli scopi della classificazione

Classificare vuol dire…

• individuare differenze e somiglianze tra elementi di un insieme,distinguere - come affermava Linneo – il simile dal dissimile perrendere più chiara la nostra interpretazione della realtà

• scegliere un punto vista su cui basare tale distinzione

• Nella ricerca empirica significa osservare e rilevare le modalitàassunte da una o più variabili sulla base delle quale raggruppare leunità di analisi in un numero finito di gruppi, in modo tale che le unitàdi un gruppo siano omogenee rispetto alle variabili considerate .•Nelle ricerche di mercato è utile per suddividere consumatori,prodotti, servizi o contesti territoriali in sottoinsieme omogenei.

I. Mingo 2017-2018

30/05/2018

21

Tecniche automatiche per individuare tipologie:Cluster Analysis (analisi dei gruppi – classification automatique)

La cluster analysis è un insieme di tecniche multivariateesplorative, basate sull'assunzione che le variabili e le unitàstatistiche possono essere considerate delle dimensioni delfenomeno studiato rappresentabili su spazi geometrici.

I gruppi omogenei vengono ottenuti in modo induttivo,automaticamente (unsupervised classification), mediantel’applicazione di algoritmi e non con criteri soggettivi.

La classificazione a cui consente di pervenire si fonda sulconcetto di prossimità (dissimilarità / similarità ) tra le diverseunità nello spazio, definito da un sistema di assi cartesianiciascuno dei quali riporta i valori assunti da una delle variabilirilevate.

I. Mingo 2017-2018

Individuazione di tipologieEsempio

% pop. usa posta elettronica

8070605040

% p

op. c

he u

sa In

tern

et

24

22

20

18

16

14

12

10

Sardegna

Sicilia

Calabria

B asilicata

Puglia

Campania

M o lise

Abruzzo

LazioM arche

Umbria

Toscana

Emilia Romagna

Liguria

Friuli

VenetoTrentino

Lombardia

Valle d'Aosta

P iemonte

Ogni regione vienerappresentata sul piano comeun punto che ha comecoordinate i valori assunti inognuna delle due variabili.

Tanto più le regioni sonovicine sul piano tanto piùsono simili rispetto alle duevariabili considerate (es.Lombardia ed EmiliaRomagna ; Valle d’Aosta-Toscana)

Tanto più le regioni sonodistanti sul piano tanto piùsono diverse rispetto alle duevariabili considerate (es.Basilicata ed EmiliaRomagna)

I gruppi omogenei si possonoindividuare in base alladistanza : deve essere minimaall’interno di un gruppo emassima tra gruppi diversi.

I. Mingo 2017-2018

30/05/2018

22

Tipi di dati

Matrice di dati Xnp

Matrice di dissimilarità Xnn

d(i, j) misura di dissimilarità tra dati

Matrice di similarità Xnn

d’(i, j)=sim= misura di similarità tra dati

I. Mingo 2017-2018

Dissimilarità e distanza

• La scelta della misura di dissimilarità è fondamentale nella strategia operativa della cluster analysis ed è condizionata dal tipo di variabili sulla base dei quali si vuole effettuare la classificazione.

• Le misure di dissimilarità soddisfano le seguenti proprietà:1. d (a,b)=0 se a=b (identità); 2. d(a,b) ≥ 0 se a≠ b (non negatività) 3. d(b,a)=d(a,b) (simmetria);

• se a queste tre proprietà si aggiunge anche la seguente:

d(a,c) <= d(ab)+d(bc) (diseguaglianza triangolare).

• si ottengono misure di distanza, utilizzabili per variabili quantitative .

I. Mingo 2017-2018

30/05/2018

23

Alcune distanze per variabili quantitative

– distanza euclidea (E)

– la distanza City Block (assoluta)o di Manhattan (AB+BC)

– la distanza di Mahalanobis che considera levarianze e covarianze tra i caratteri considerati econsente di ottenere distanze depurate dallainterdipendenza eventualmente presente tra levariabili.

I. Mingo 2017-2018

B

A

E

A B

C

Matrice di distanze: esempio

Matrice delle distanze

,000 4,140 7,628 3,471 2,617 5,314 9,849 5,131 12,402 12,126 15,7954,140 ,000 8,857 4,100 2,309 4,624 12,020 6,818 13,412 12,572 16,0107,628 8,857 ,000 10,913 6,815 4,554 3,624 2,500 4,789 4,623 8,2883,471 4,100 10,913 ,000 4,528 7,716 13,315 8,458 15,700 15,255 18,8812,617 2,309 6,815 4,528 ,000 3,189 9,800 4,604 11,517 10,878 14,4515,314 4,624 4,554 7,716 3,189 ,000 8,065 3,330 8,846 7,948 11,4139,849 12,020 3,624 13,315 9,800 8,065 ,000 5,204 4,123 5,308 8,2285,131 6,818 2,500 8,458 4,604 3,330 5,204 ,000 7,272 7,072 10,749

12,402 13,412 4,789 15,700 11,517 8,846 4,123 7,272 ,000 1,838 4,11112,126 12,572 4,623 15,255 10,878 7,948 5,308 7,072 1,838 ,000 3,67715,795 16,010 8,288 18,881 14,451 11,413 8,228 10,749 4,111 3,677 ,000

Caso5:Veneto6:Friuli0Venezia Giuli7:Liguria8:Emilia Romagna9:Toscana10:Umbria11:Marche12:Lazio13:Abruzzo14:Molise15:Campania

5:Veneto6:Friuli0Venezia Giuli 7:Liguria

8:EmiliaRomagna 9:Toscana 10:Umbria 11:Marche 12:Lazio 13:Abruzzo 14:Molise 15:Campania

Distanza euclidea

Questa è una matrice di dissimilarità

Caratteristiche:

•È quadrata: gli elementi in riga sono uguali a quelli in colonna•E’ simmetrica rispetto alla diagonale principale•Gli elementi della diagonale principale sono uguali a 0.

I. Mingo 2017-2018

30/05/2018

24

Misure di dissimilarità e similarità per dati binari

Tabella di contingenza per coppie di dati binari:

•Coefficiente di matching semplice:

•Coefficiente di Jaccard: Le variabili categoriali possono essere trasformate in variabili binarie e si possono utilizzare queste stesse misure. • Distanza euclidea per dati binari:

I. Mingo 2017-2018

Cluster analysis : tipi di tecniche Cluster gerarchica aggregativa:

Utilizza algoritmi che partendo da un numero n di gruppi pari al numero deicasi, attraverso un procedimento iterativo di n-1 passaggi, conduce ad ungruppo unico in cui sono raggruppati tutti i casi originari. Genera un alberodi aggregazione o dendrogramma.

Cluster analysis non gerarchica: parte da una situazione di un numero di gruppi predeterminato a priori e

giunge ad una partizione che ottimizza (utilizzando una funzione obiettivo)la suddivisione in gruppi.

conduce a un'unica partizione dei dati da analizzare, comporta pertantoipotesi precise circa le modalità di strutturazione del collettivo statisticoconsiderato e,a volte, la scelta delle unità intorno alle quali aggregare lealtre unità del gruppo.

Si utilizza soprattutto quando le unità in analisi sono molto numerose. Tecniche miste:

che utilizzano sia algoritmi gerarchici che non gerarchici.

I. Mingo 2017-2018

30/05/2018

25

Cluster Analysis: fasi

Fase 1 • La matrice iniziale

Fase 2• La scelta del software e dell’algoritmo:

elaborazione

Fase 3• Lettura dell’output e interpretazione

Fase 4• Descrizione dei gruppi ottenuti

I. Mingo 2017-2018

Progettazione di una Cluster Analysis:la matrice iniziale

• Scelta delle variabili in base alle quali raggruppare le unitàstatistiche:– Le variabili possono essere quantitative o qualitative.– Se le variabili sono quantitative si può optare per l’uso di

variabili standardizzate o non standardizzate.– Il tipo di variabili incide sul tipo di misura di prossimità

(similarità o dissimilarità) da utilizzare– Il numero delle unità statistiche incide sul tipo di tecnica

(gerarchica o non gerarchica) di cluster adottabile.

Fase 1

I. Mingo 2017-2018

30/05/2018

26

Uso del software : Cluster analysis

I. Mingo 2017-2018

Fase 2

Cluster gerarchica:si possono calcolare le distanze

-Tra due unità statistiche

% pop. usa posta elettronica

8070605040

% p

op. c

he u

sa In

tern

et

24

22

20

18

16

14

12

10

Sardegna

Sicilia

Calabria

Basilicata

P uglia

Campania

M o lise

Abruzzo

LazioM arche

Umbria

Toscana

Emilia Ro magna

Liguria

Friuli

Veneto

Trentino

Lo mbardia

Valle d'A osta

P iemonte

Tra una unità ed un gruppo di unità

Tra due gruppi di unità

Si possono adottare diverse soluzioniper misurare le distanze tra gruppi diunità, considerando:

•le distanze fra le medie dei gruppi(group means)

•le distanze fra le loro unità più vicine(nearest neighbour)

•le distanze fra le loro unità più lontane(furthest neighbour)

•La media delle distanze fra tutte leunità di un gruppo e tutte quelledell’altro (group average)

I. Mingo 2017-2018

30/05/2018

27

Cluster gerarchica : algoritmo

Matrice dati Input: N Unità x p indicatori

Matricedistanze

D=min Formazionegruppo

C=N-1 ?

si

no Ungruppodi Nunità

Scelta della misura di distanza: - tra unità- tra gruppi

Le differenti misure di distanza tra gruppi caratterizzano diversimetodi di cluster gerarchica aggregativa

I. Mingo 2017-2018

Uso del software:cluster gerarchica

I. Mingo 2017-2018

Fase 2

30/05/2018

28

Cluster gerarchica aggregativaAlcuni metodi di raggruppamento

I. Mingo 2017-2018

Metodo del legame singolo (nearestneighbour ) :

la distanza tra il gruppo A e il gruppo B è la distanza minore tra le unità del gruppo A e quelle del gruppo B.I gruppi che si ottengono hanno forma allungata a losanga.

Metodo del legame completo (furthestneighbour ):

la distanza tra il gruppo A e il gruppo B è la distanza maggiore le unità del gruppo A e quelle del gruppo B.I gruppi che si ottengono hanno forma circolare.

Cluster gerarchica aggregativaAlcuni metodi di raggruppamento

Metodo legame medio fra i gruppi: considera lamedia di tutte le distanze possibili tra i casi all'internodi un cluster nuovo singolo determinato dallacombinazione di un cluster A e di un cluster B.

Metodo della media entro i gruppi: la distanza tra il gruppo A e il gruppo B è data dalla media aritmetica delle distanze tra ogni unità del gruppo A e ogni unità del gruppo B.

Metodo di Ward: Per ogni gruppo viene calcolata la media di tutte le variabili Viene poi calcolata la distanza euclidea di ogniunità dalla media del gruppoVengono sommati i quadrati delle distanze pertutte le unitàAd ogni step di aggregazione vengono fusi igruppi per i quali risulta minimo l'incremento dellasomma dei quadrati delle distanze all'interno delgruppo.

I. Mingo 2017-2018

30/05/2018

29

Lettura dell’outputProgramma di agglomerazione e dendrogramma

• Il processo di agglomerazione delle unità indica i vari step con cui le unità vengono aggregate in corrispondenza a un indice di distanza che aumenta al crescere dei passi di agglomerazione.

• Il dendrogramma rappresenta graficamente tale processo.

I. Mingo 2017-2018

Programma di agglomerazione

Stadio Cluster accorpati

Coefficienti

Stadio di formazione del cluster Stadio

successivo Cluster 1 Cluster 2 Cluster 1 Cluster 2

d

i

m

e

n

s

i

o

n

0

1 31 42 4591,350 0 0 37

2 11 23 5464,530 0 0 30

3 29 93 7445,270 0 0 22

4 6 49 7623,230 0 0 26

5 12 16 7660,920 0 0 23

6 20 71 8499,170 0 0 38

7 77 103 8979,810 0 0 32

8 22 52 9129,370 0 0 40

9 53 81 9208,590 0 0 40

10 64 65 9628,290 0 0 20

11 1 30 9776,430 0 0 27

12 21 44 9848,570 0 0 34

13 7 69 10383,720 0 0 25

14 19 91 10597,110 0 0 33

15 48 68 11512,560 0 0 47

…. …. …. …. …. …. ….

86 14 36 94970,380 78 63 92

87 9 18 99761,677 81 62 94

88 2 3 102031,156 82 85 90

89 1 6 102913,471 77 80 91

90 2 31 114558,490 88 74 95

91 1 19 139465,534 89 84 94

92 14 55 143272,756 86 79 95

93 79 94 146681,990 0 0 97

94 1 9 183965,139 91 87 98

95 2 14 207466,536 90 92 96

96 2 15 229907,319 95 0 99

97 72 79 239277,085 0 93 101

98 1 37 266105,127 94 0 100

99 2 4 374810,001 96 0 100

100 1 2 427052,823 98 99 102

101 54 72 559967,397 0 97 102

102 1 54 1122564,349 100 101 0

Fase 3

I. Mingo 2017-2018

Tagliare un dendrogramma(albero di aggregazione)

3 gruppi

4 gruppi

5 gruppi

30/05/2018

30

Quali criteri adottare per tagliare un dendrogramma?

• Sezionare l’albero all’altezza del massimo salto tra i livelli di distanza a cui sono avvenute le aggregazioni

– g+1 d-gd=max

• Sezionare l’albero dove si trovano i gruppi coesi, applicando test statistici ad hoc (es: test di Beale, lambda di Wilks, ecc.)

La valutazione di un gruppo è effettuata sia riguardo alleproprietà statistiche sia in termini sostanziali, analizzandocioè le caratteristiche dei gruppi ottenuti.

I. Mingo 2017-2018

Descrizione dei gruppi

• L’intervallo di soluzioni salvato genera nella matrice nuove variabili categoriali che indicano per ciascuna unità statistica l’appartenenza ai gruppi ottenuti nelle diverse soluzioni.

• Queste nuove variabili possono essere utilizzate per descrivere mediante ulteriori analisi le caratteristiche dei gruppi ottenuti.

I. Mingo 2017-2018

Fase 4

30/05/2018

31

Esercizio: Applicazione di una cluster gerarchica

• Utilizzando il file regioni.sav, applicare una tecnicadi Cluster gerarchica aggregativa su variabilistandardizzate.

• Ispezionare il dendrogramma• Reiterare l’analisi salvando l’appartenenza ai gruppi

in corrispondenza della partizione ritenuta ottimale.• Descrivere i gruppi ottenuti.

I. Mingo 2017-2018

Strategia di analisi per l’individuazione di tipologie

Scelta di una o più variabili, indicatoridi un fenomeno

Individuazione di unità aventicaratteristiche simili rispetto agliindicatori considerati: tipi o gruppiomogenei[ Scelte da effettuare: tipo di clusteranalysis, misure di prossimità tra unitàe tra gruppi, numero di gruppi,….]

Descrizione dei gruppi sulla base degliindicatori iniziali e di altre variabili cheagevolano l’interpretazione

I. Mingo 2017-2018