analisi delle scelte di investimento dei...

39
Analisi delle scelte di investimento dei clienti In questo documento verranno analizzati i caratteri relativi alle scelte di investimento dei clienti, e verrà valutato anche se tali caratteristiche sono stabili nel tempo oppure no, al fine di comprendere se, nel tempo, il cliente “tipico” della società cambia. Alcune indicazioni per la lettura di questo documento: - breve spiegazione se una parola è evidenziata in verde, questo simbolo alla fine o all’inizio della riga in cui si trova la parola contiene una brevissima spiegazione del concetto statistico. Per leggere il contenuto del commento basta toccare il simbolo con il mouse. - [Commento o descrizione più dettagliata di una tecnica] una frase evidenziata in giallo rimanda ad un documento con alcune considerazioni metodologiche o sulle modalità di utilizzo e di interpretazione degli strumenti statistici cui si fa riferimento. Per aprire il documento, selezionate la nella barra del menu di Adobe: Cliccando con il mouse sulla frase, si aprirà il documento. NB: i richiami metodologici cui si rimanda nel testo (ordinati per argomento) sono tutti contenuti in questo documenti [Richiami metodologici] - Output non riportato nel documento alcuni output non sono riportati nel documento per non appesantirlo eccessivamente; selezionando la e cliccando con il mouse sulla frase, si aprirà un nuovo documento che contiene l’output. Di seguito sono riportati (a fini didattici) i principali strumenti statistici utilizzati nei diversi paragrafi. 1. Capitale totale di ingresso Rappresentazione grafica di una distribuzione asimmetrica: Istogramma, Box-plot, Curva di concentrazione. Cautele nelle rappresentazioni grafiche. Misure di sintesi: Scelta delle misure di sintesi nel caso di distribuzioni asimmetriche e in presenza di valori estremi o anomali Intervallo di confidenza per la media i

Upload: buinhi

Post on 21-Feb-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Analisi delle scelte di investimento dei clienti In questo documento verranno analizzati i caratteri relativi alle scelte di investimento dei clienti, e verrà valutato anche se tali caratteristiche sono stabili nel tempo oppure no, al fine di comprendere se, nel tempo, il cliente “tipico” della società cambia.

Alcune indicazioni per la lettura di questo documento: - breve spiegazione se una parola è evidenziata in verde, questo simbolo alla fine o all’inizio della riga in cui si trova la parola contiene una brevissima spiegazione del concetto statistico. Per leggere il contenuto del commento basta toccare il simbolo con il mouse. - [Commento o descrizione più dettagliata di una tecnica] una frase evidenziata in giallo rimanda ad un documento con alcune considerazioni metodologiche o sulle modalità di utilizzo e di interpretazione degli strumenti statistici cui si fa riferimento. Per aprire il documento, selezionate la

nella barra del menu di Adobe:

Cliccando con il mouse sulla frase, si aprirà il documento. NB: i richiami metodologici cui si rimanda nel testo (ordinati per argomento) sono tutti contenuti in questo documenti [Richiami metodologici] - Output non riportato nel documento alcuni output non sono riportati nel documento per non appesantirlo eccessivamente; selezionando la e cliccando con il mouse sulla frase, si aprirà un nuovo documento che contiene l’output.

Di seguito sono riportati (a fini didattici) i principali strumenti statistici utilizzati nei diversi paragrafi. 1. Capitale totale di ingresso Rappresentazione grafica di una distribuzione asimmetrica:

Istogramma, Box-plot, Curva di concentrazione. Cautele nelle rappresentazioni grafiche. Misure di sintesi:

Scelta delle misure di sintesi nel caso di distribuzioni asimmetriche e in presenza di valori estremi o anomali

Intervallo di confidenza per la media

i

Page 2: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Studio della dipendenza Analisi della relazione lineare:

diagrammi di dispersione, coefficiente di correlazione lineare, retta dei minimi quadrati, indice di determinazione, R2. Verifica dell’ipotesi nulla di non correlazione. Misure di concordanza. Verifica dell’ipotesi di assenza di concordanza/discordanza.

Analisi della dipendenza in media: Box plot (analisi stratificata) Medie condizionate. Valutazione (descrittiva) della dipendenza in media: indice Eta. Analisi inferenziale della funzione di regressione: Analisi della varianza a una via; test post hoc. Analisi della varianza nel caso di varianze non omogenee negli strati. Test di normalità. Analisi non parametrica della varianza

2. Forma di investimento di ingresso Distribuzione delle frequenze Misure di sintesi e loro valutazione inferenziale Analisi dell’output di Statistica descrittiva di Excel Confronto tra istogrammi Studio della dipendenza:

Tabelle a doppia entrata, distribuzioni congiunte e condizionate 3. Forme di investimento: presenza in portafoglio Stima della percentuale, e intervalli di confidenza per la percentuale Misure di sintesi e loro valutazione inferenziale Analisi dell’output di Statistica descrittiva di Excel Studio della connessione:

Misure di associazione e loro valutazione inferenziale. Test Chi-quadrato 4. Forme di investimento più rilevanti Misure di tendenza centrale Studio della dipendenza Analisi della relazione lineare:

diagrammi di dispersione, coefficiente di correlazione lineare, retta dei minimi quadrati, indice di determinazione, R2. Verifica dell’ipotesi nulla di non correlazione. Misure di concordanza. Verifica dell’ipotesi di assenza di concordanza/discordanza.

Analisi della dipendenza in media: Box plot (analisi stratificata) Funzione di regressione: Medie condizionate. Valutazione descrittiva della dipendenza in media: indice Eta. Analisi inferenziale della funzione di regressione: Analisi della varianza a una via ; test post hoc. Analisi della varianza nel caso di varianze non omogenee negli strati. Test di normalità. Analisi non parametrica della varianza Analisi della varianza a più vie.

Studio dell’associazione: Distribuzioni congiunte e condizionate. Le diverse misure di associazione e loro valutazione

inferenziale. 5. Numero di forme di investimento acquistate Distribuzione di frequenze Analisi dell’associazione

Distribuzioni congiunte e condizionate. Le diverse misure di associazione e loro valutazione inferenziale.

ii

Page 3: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

1. Capitale totale in ingresso nelle varie forme di investimento. Uno degli aspetti più rilevanti per la società riguarda l’ammontare totale in ingresso nelle varie forme di investimento (che d’ora in poi indicheremo semplicemente con capitale totale). Sostanzialmente, il capitale totale è la somma dei capitali in ingresso nelle varie forme di investimento, e dà un’idea dell’ammontare investito dai clienti della società ogni volta che entrano in contatto con nuovi tipi di prodotto. Inoltre, disaggregando il capitale totale per i diversi bienni di attività, si riesce a comprendere meglio le strategie di investimento degli investitori in termini di diversificazione del proprio portafoglio. E’ infatti possibile che i clienti inizino il contatto con la rete acquistando un determinato fondo (o un insieme ristretto di fondi) e rimangano sempre fedeli a quel tipo di fondo o, al contrario, che nel tempo si spostino anche su prodotti diversi. L’analisi che segue mira quindi a chiarire questi aspetti.

Come primo punto, cerchiamo di comprendere come è distribuito il capitale totale in ingresso (in milioni di lire) nelle varie forme di investimento tramite il box plot (Fig. 1.1)1. [Box plot: una rappresentazione sintetica della distribuzione]

0

500

1000

1500

2000

2500

3000

Fig. 1.1 Box plot del capitale totale

Capitale totale Valore Indice Minimo 0,00141° Quartile 20,9983Mediana (2° Quartile) 56,55393° Quartile 140,75Massimo 2870

La distribuzione è fortemente asimmetrica a destra, con un nutrito gruppo di “piccoli” investitori e di pochi “grandi” investitori. Manca invece un folto gruppo di investitori medi. Se pensiamo poi che il range interquartile è pari al 4% circa del campo di variazione, è chiaro che la distribuzione risulta piuttosto dispersa. E’ però chiaro che la variabilità dei capitali investiti può anche derivare dal fatto che i clienti della società sono entrati in anni diversi. E’ quindi possibile che la distribuzione rifletta, più che una vera e propria eterogeneità negli investimenti, l’anzianità di rapporto. Clienti di recente acquisizione hanno sicuramente avuto poco tempo per diversificare il proprio portafoglio, mentre clienti di più lunga attività possono essere riusciti ad entrare in contatto con più forme di investimento anche grazie alla rete di promotori.

A questo punto, sembra opportuno valutare se esiste un legame tra capitale totale e anno di ingresso. Per rappresentare graficamente la distribuzione dei due caratteri, possiamo ricorrere al diagramma di dispersione, riportato nella Figura 1.2(a).

1 Risultati ottenuti utilizzando Excel. Il box-plot è stato ottenuto con la macro Stat4038.

1

Università Luigi Bocconi
Quartili_ sono 3 indicatori, calcolabili per dati quantitativi o qualitativi ordinali. Considerata la successione dei valori osservati disposti in ordine crescente, i quartili indicano i tre punti che dividono la distribuzione in quattro parti uguali. Ad esempio il 1° quartile è tale che il 25% della popolazione presenta un valore al di sotto e il restante 75% al di sopra di esso. Il 2° quartile è la mediana.
Università Luigi Bocconi
Range interquartile: è ottenuto come differenza tra il 3° quartile e il 1° quartile e rappresenta quindi la lunghezza dell’intervallo in cui è racchiuso il 50% delle osservazioni “centrali” della distribuzione
Università Luigi Bocconi
Campo di variazione: è ottenuto come differenza tra il massimo e il minimo valore osservato e rappresenta quindi la lunghezza dell’intervallo in cui cadono tutte le osservazioni relative al carattere di interesse
Università Luigi Bocconi
Diagramma di dispersione: noto anche come “scatterplot”, è una rappresentazione grafica per coppie di caratteri quantitativi, costruita semplicemente riportando in un piano cartesiano tutte le coppie di modalità (la prima, relativa al primo carattere, in ascissa, la seconda in ordinata) rilevate sulle varie unità del collettivo in esame; appare quindi come una “nuvola” di punti. Rappresenta una prima, ma fondamentale, descrizione di come sono congiuntamente distribuiti i due caratteri e quindi, in particolare, di quale sia il tipo ed il grado di associazione tra essi. Ad esempio, è immediato rilevare l’eventuale linearità nella associazione (i punti si distribuiscono attorno ad una retta obliqua del piano), oppure un’associazione di tipo non lineare (la nuvola di punti ha forma di curva, ad esempio logaritmica o polinomiale). Al contrario, nuvole di punti senza alcun andamento particolare (distribuiti in maniera “casuale” nel piano) indicano scarsa associazione tra i caratteri. Inoltre, il grafico di dispersione permette di rilevare facilmente (ed eventualmente di identificare) eventuali outliers (osservazioni eccezionali).
Page 4: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

0

500

1000

1500

2000

2500

3000

3500

1980 1985 1990 1995 2000

Fig. 1.2.(a) Capitale totale investito e anno di ingresso

Il diagramma di dispersione non fornisce in realtà una rappresentazione di facile lettura della relazione tra i due caratteri considerati. Notiamo che sono presenti valori molto elevati che “distorcono” la visione di insieme della nuvola di punti. Per valutare meglio la relazione tra capitale totale e anno di ingresso, visto che il numero di anni di ingresso è piuttosto limitato, possiamo procedere ad un’analisi stratificata, studiando quindi la distribuzione del capitale totale condizionatamente all’anno di ingresso. [Analisi stratificata] Per farlo, consideriamo i box plot del capitale investito al variare dell’anno di entrata nella società. [Analisi stratificata: box plot affiancati] Nella Figura 1.2(b) sono riportati i box-plot affiancati2; nel grafico sono stati esclusi i valori estremi. [Box plot: cautele nella scelta delle scale]

5173744741776044645281409084563720101N =1999

19981997

19961995

19941993

19921991

19901989

19881987

19861985

19841983

19821980

Cap

itale

tota

le (i

n m

ilioni

)

1500

1000

500

0

Fig. 1.2(b). Box plot del capitale totale investito, condizionatamente all’anno di ingresso

sono stati esclusi dal grafico i valori estremi)

Dal grafico notiamo come valori molto alti del capitale totale corrispondano in particolar modo a clienti entrati a contatto con la società da molti anni. Nello stesso tempo però è intuibile la presenza 2 Ottenuti con SPSS (Analyze, Descriptives, Explore, Dependent = capitale totale, Factor= Anno di ingresso).

2

Page 5: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

di un andamento ciclico degli investimenti, probabilmente dovuta al legame con il ciclo economico del paese. Per confrontare meglio l’eterogeneità tra diversi clienti, è quindi opportuno scomporre il capitale totale per bienni di attività, tenendo conto del fatto che per alcuni clienti l’osservazione è censurata, e quindi non è possibile tenere in considerazione queste osservazioni. [La censura delle osservazioni] Consideriamo il capitale investito rispettivamente nel primo, nel secondo e nel terzo biennio di attività e confrontiamo le loro distribuzioni, tramite un’analisi delle misure di sintesi dei caratteri considerati (Tab. 1.1). Per facilitare il confronto tra le misure, è stato considerato l’ammontare di capitale in milioni di lire.

Tab. 1.14. Misure di sintesi del Capitale investito (in milioni di lire)

Misure di sintesi Capitale investito nel 1° biennio

Capitale investito nel 2° biennio

Capitale investito nel 3° biennio

Media 84,1 15,1 14,3Deviazione standard 155,2 66,7 51,6Varianza campionaria 24097,4 4444,9 2662,5Range di variazione 1762,2 830,1 570,2Coefficiente di variazione (CV) 1,8 4,4 3,6Range interquartile 689,9 0 0Minimo 0,0014 0 0Primo quartile5 17,0 0 0Mediana 35,9 0 0Terzo quartile 86,0 0 0Massimo 1762,2 830,1 570,2Conteggio 1002 878 757Livello di confidenza (95%) 9,6 4,4 3,7Estremo inferiore IC(95%)6 74,5 10,7 10, 6Estremo superiore IC(95%) 93,7 19,5 18,0

Come è noto, la misura di tendenza centrale più comunemente utilizzata è la media (aritmetica). Dall’analisi delle medie potremmo concludere che mentre nel primo biennio in media gli investitori impiegano circa 84 milioni del loro capitale, nei bienni successivi decidono di investire meno di un quinto di questa cifra in forme di investimento diverse. Ricordiamo che quello in esame è un campione di investitori. Le medie appena considerate sono quindi stime puntuali del capitale medio investito nei tre periodi considerati. Per tener conto, nella stima, dell’incertezza dovuta al fatto che quello osservato è un campione, misurata dall’errore standard della media campionaria, conviene fare riferimento agli intervalli di confidenza. Gli intervalli di confidenza al 95% per le tre medie considerate hanno ampiezze diverse (riflettendo i diversi errori standard delle medie campionarie). Per il primo biennio possiamo aspettarci un investimento medio tra i 74 e i 93 milioni da parte di un generico investitore. Nel secondo biennio possiamo aspettarci un investimento medio tra i 10 e i 19 milioni e nel terzo tra i 10 e i 17 milioni.

Le misure di sintesi nella Tabella 1 evidenziano però che in questo caso, la media non è la misura di tendenza centrale più opportuna. Consideriamo infatti i cinque numeri di sintesi (minimo, massimo, primo, secondo e terzo quartile), necessari per studiare la forma della distribuzione per mezzo del box plot. Tramite questi indici

4 Risultati ottenuti utilizzando Excel (Strumenti: Analisi dei dati, statistica descrittiva) e con calcoli successivi (cfr. note a seguire). L’output di Excel è stato “riordinato” per facilitare il commento dei risultati. 5 Il primo e il terzo quartile sono stati ottenuti utilizzando la funzione quarto di Excel. 6 Gli estremi inferiore e superiore IC(95%) sono gli estremi dell’intervallo di confidenza al livello 0.95 per la media. Sono stati calcolati rispettivamente sottraendo e sommando alla media il livello di confidenza (95%) ottenuto con l’Analisi dei dati di Excel.

3

Università Luigi Bocconi
Media: indicatore di tendenza (o posizione) centrale, per dati quantitativi. E’ nota anche come centro di ordine 2, in quanto è il punto più “vicino” ai dati, rispetto alla distanza quadratica. Particolarmente sensibile ad eventuali valori estremi, è quindi da usare con cautela nel caso in cui vi siano, per il carattere considerato, valori isolati molto elevati o molto bassi.
Università Luigi Bocconi
Campione: un sottoinsieme delle unità statistiche che costituiscono una popolazione. Un campione si definisce casuale semplice quando ogni unità della popolazione ha la stessa probabilità di essere inclusa nel campione.
Università Luigi Bocconi
Stimatore: una funzione delle osservazioni campionarie utilizzata per stimare una caratteristica (non nota) dell’intera popolazione. Nella stima puntuale si attribuisce alla caratteristica di interesse un unico valore.
Università Luigi Bocconi
Media campionaria: è uno stimatore puntuale della vera media della popolazione. E’ quindi una variabile casuale che assume valori diversi a seconda del campione estratto. La media campionaria sarà tanto più affidabile quanto più i diversi valori che può assumere al variare del campione sono “concentrati” intorno alla vera media. Per valutare l’affidabilità della media campionaria si può utilizzare la sua varianza (eventualmente stimata), o la radice quadrata della varianza, che è detta errore standard..
Università Luigi Bocconi
Stima per intervallo: procedimento di stima in cui si attribuisce ad una caratteristica (non nota) della popolazione un insieme di valori (determinati a partire dai dati campionari) entro cui ci si aspetta ragionevolmente che sia compreso il valore effettivo della caratteristica in questione. Il livello di confidenza indica il grado di fiducia che si può assegnare alla stima per intervallo ottenuta.
Piccarreta
Note
Coefficiente di variazione: è ottenuto dividendo lo scarto quadratico medio (o deviazione standard) per la media della distribuzione. Tale operazione viene effettuata per depurare la deviazione standard dall’unità di misura.
Piccarreta
Note
Campo di variazione: è ottenuto come differenza tra il massimo e il minimo valore osservato e rappresenta quindi la lunghezza dell’intervallo in cui cadono tutte le osservazioni relative al carattere di interesse
Piccarreta
Note
Range interquartile: è ottenuto come differenza tra il 3° quartile e il 1° quartile e rappresenta quindi la lunghezza dell’intervallo in cui è racchiuso il 50% delle osservazioni “centrali” della distribuzione
Page 6: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

notiamo che il massimo capitale investito diminuisce dal primo biennio a quelli successivi, e che le distribuzioni del capitale investito nel secondo e nel terzo biennio sono fortemente asimmetriche e caratterizzate da una lunghissima coda destra: il terzo quartile è nullo per entrambe le distribuzioni, ad evidenziare che almeno il 75% dei clienti non investe nei bienni successivi al primo. Si può quindi ipotizzare che la maggior parte dei clienti concentri le scelte di quali prodotti acquistare nel primo biennio di attività (o, addirittura, al primo contatto con la rete) e non si sposti in seguito su altre forme di investimento. Nello stesso tempo, il primo biennio è anche quello che vede impegnati i maggiori capitali. Data la forte asimmetria delle distribuzioni considerate, la media non è un’informazione molto utile per la società, in quanto evidentemente risulta attratta dalla presenza di valori estremi molto elevati. [Valori estremi e outliers] Misure di sintesi più adeguate in questo caso (come in tutti i casi di distribuzioni asimmetriche) sono perciò le mediane, che assumono infatti valore nullo, ad indicare appunto la mancanza di iniziativa della maggior parte dei clienti nei bienni successivi al primo. [Media, mediana, media troncata per distribuzioni asimmetriche]

Sostanzialmente, la maggior parte dei clienti della società non cambia prodotto. Analizziamo ora l’ammontare di capitale investito in media nei bienni successivi al primo dai clienti che decidono di variare il proprio portafoglio.

Tab. 1.1(a). Misure della posizione del Capitale (in milioni) investito

escludendo i clienti che non hanno investito Capitale (in milioni) investito dai soli clienti attivi nel Sintesi 1° biennio 2° biennio 3° biennio

Media 84,1 70,1 59,7 Mediana 35,9 23,3 28,5

Notiamo che si osserva comunque una flessione delle medie nei bienni successivi al primo, anche se meno rilevante di quella osservata includendo anche i clienti non attivi. Notiamo invece che per la mediana, la flessione passando dal secondo al terzo biennio non è nel senso di una diminuzione. In questa analisi abbiamo considerato l’investimento di tutti i clienti attivi in un certo periodo, non tenendo conto delle differenze tra clienti con riferimento alla continuità o meno nell’investimento. Sintetizziamo ora il capitale investito tenendo conto di questo aspetto. Nella Tabella 1.1.(b) riportiamo l’ammontare medio (e mediano) di capitale investito dai clienti più attivi (investono in tutti e tre i bienni), dai clienti più “discontinui” (investono nel primo biennio e solo in uno dei bienni successivi) dai clienti meno attivi (investono solo nel 1° biennio).

Tab. 1.1(b). Misure della posizione del Capitale (in milioni) investito a seconda della continuità nell’investimento

Capitale 1° biennio Capitale 2° biennio Capitale 3° biennio Azioni: Media Mediana Media Mediana Media Mediana Investe solo nel 1 biennio 68,81 30,46 Investe solo nel 1,2 biennio 139,43 54,30 67,60 21,27 Investe solo nel 1,3 biennio 103,31 53,94 63,77 29,05 Investe nel 1,2,3 biennio 98,98 46,19 75,92 32,81 50,94 26,80 E’ interessante notare che i clienti che investono solo nel 1° biennio sono quelli che investono (nel 1° biennio) un minor ammontare di capitale. I clienti che investono nel 1° biennio e/o nel 2° o nel 3° biennio sono quelli che investono di più in media nel 1° biennio. Per questi clienti si registra una flessione decisa dal 1° biennio a quello successivo (2° o 3°). Notiamo infine che per i clienti più attivi (quelli che investono in tutti e tre i bienni) si ha una flessione nel capitale investito (sia in media che in mediana) da un biennio a quello successivo di entità inferiore rispetto a quelli saltuariamente attivi.

4

Università Luigi Bocconi
Mediana: indicatore di tendenza (o posizione) centrale, per dati quantitativi oppure qualitativi ordinali. E’ il valore che, nella successione ordinata dei dati occupa la posizione centrale. Quindi il 50% delle osservazioni hanno un valore inferiore e il 50% un valore superiore alla mediana. Quando utilizzata per dati quantitativi, è nota anche come centro di ordine 1, in quanto risulta il punto più “vicino” ai dati, rispetto alla distanza usuale (euclidea). E’ un indicatore di posizione centrale “robusto” rispetto alla presenza di dati eccezionali, ovvero risente poco della presenza di valori anomali. Per questo motivo è preferibile alla media aritmetica per indicare la tendenza centrale di distribuzioni con queste caratteristiche.
Page 7: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

La asimmetria nella distribuzione dei capitali impiegati dai clienti nei bienni successivi al primo (molti investitori che non investono, pochi che diversificano il portafoglio) risulta in una maggior concentrazione degli investimenti per i bienni successivi al primo, quando solo il 20% dei clienti mostra qualche iniziativa (si veda in proposito il grafico delle curve di concentrazione in Fig. 1.3).

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1

0 0.2 0.4 0.6 0.8 1

Qi

Nav 1° biennioNav 2° biennioNav 3° biennio

Fig. 1.3. Curva di concentrazione del Capitale investito (Rapporto di Gini nei 3 bienni = 0.64, 0.93, 0.92)

Fi

Ancora, anche la variabilità delle distribuzioni risulta molto inferiore per il primo biennio che per i successivi. Il coefficiente di variazione, infatti, risulta più basso per il capitale investito nel primo biennio (1.8 contro 4.4). [Coefficiente di variazione e scarto quadratico medio] A questo punto, rappresentiamo graficamente solo la distribuzione del capitale investito nel 1° biennio tramite un istogramma. Per quanto riguarda le distribuzioni relative ai bienni successivi, infatti, la presenza di un 80% di clienti con nessun capitale investito rende tale rappresentazione grafica inutile. Come già visto in precedenza, la distribuzione del capitale investito nel 1° biennio è fortemente asimmetrica. In questo caso, è abbastanza cruciale scegliere opportunamente le classi da utilizzare per rappresentare graficamente la distribuzione del carattere. [Istogramma: la scelta delle classi]. La lunga coda destra che caratterizza la distribuzione suggerisce, inoltre di escludere l’ultima classe dalla rappresentazione. [Istogramma: cautele nella scelta delle scale] Questo consente una visualizzazione più chiara della distribuzione del carattere nelle classi con frequenza più elevata (Fig. 1.4). Gli estremi delle classi e la relativa densità di frequenza sono presentate in Tab. 1.2.

Tab. 1.2. Tabella delle frequenze relativa all’istogramma (classi pre-assegnate)7

Estr. inferiori Estr. superiori Fr. assolute Fr. relative Densità 0 5 90 0.08982036 0.0179641 5 10 54 0.05389222 0.0107784

10 25 230 0.22954092 0.0153027 25 50 229 0.22854291 0.0091417 50 100 189 0.18862275 0.0037725 100 200 116 0.11576846 0.0011577 200 350 51 0.0508982 0.0003393 350 1763 43 0.04291417 3.037E-05

7 La tabella e il corrispondente istogramma sono stati ottenuti utilizzando EXCEL e la macro Stat4038.

5

Università Luigi Bocconi
Curva di concentrazione: grafico che descrive la concentrazione di un carattere trasferibile e con modalità non negative. La curva di concentrazione è sempre contenuta nella porzione di piano delimitata in basso dal segmento corrispondente all’intervallo [0,1] dell’asse delle ascisse ed in alto dalla bisettrice del I quadrante, è sempre convessa e non decrescente. Nel caso di minima concentrazione o equidistribuzione (tutte le unità hanno la stessa quantità di carattere) la curva coincide con la bisettrice, nel caso di massima concentrazione (l’intero ammontare del carattere è detenuto da un’unica unità) coincide con il segmento descritto sopra. Tanto più la curva è vicina alla bisettrice, tanto più la concentrazione è bassa.
Università Luigi Bocconi
Rapporto di Gini: è un indicatore sintetico del livello della concentrazione di un carattere trasferibile e con modalità non negative. Può assumere valori compresi tra 0 ed 1, estremi inclusi. Vale 0 se e solo se la concentrazione è nulla, ovvero vi è equidistribuzione (tutte le unità della popolazione hanno la stessa quantità di carattere), mentre vale 1 nel caso di concentrazione massima (un’unica unità detiene l’intero ammontare del carattere).
Università Luigi Bocconi
Istogramma: grafico che riporta la distribuzione delle frequenze di un carattere quantitativo raggruppando le modalità in intervalli adiacenti. Nella sua costruzione è fondamentale la scelta degli intervalli (il loro numero, i loro estremi). Scelte semplici e convenzionali, ma non necessariamente ottimali per evidenziare le caratteristiche salienti della distribuzione, sono intervalli di uguale ampiezza oppure intervalli di uguale frequenza (con ampiezze generalmente diverse). Scelte diverse possono portare per gli stessi dati a istogrammi con caratteristiche anche molto diverse. Per la scelta del numero degli intervalli, occorre un compromesso tra sintesi e dettaglio: un numero troppo elevato di intervalli fornisce ovviamente maggiore dettaglio ma sintetizza meno la distribuzione, al contrario di ciò che accade se si sceglie un numero ridotto di intervalli.
Piccarreta
Note
Densità: rappresenta l’altezza dei rettangoli corrispondenti ad ogni classe di intervallo nell’istogramma. Si ottiene come rapporto tra la frequenza relativa che compete alla classe e l’ampiezza dell’intervallo. Fornisce una misura di quanto le osservazioni si “addensano” in ogni intervallo.
Page 8: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

0 5 10 25 50 100

200

350

Capitale investito nel 1° biennio (in milioni, escludendo l'ultima classe)

Den

sità

Fig. 1.4. Istogramma del capitale investito nel 1° biennio (classi pre-assegnate)

Il messaggio è ancora più chiaro: i clienti dell’azienda nel primo biennio optano soprattutto per investimenti piuttosto cauti, la moda è infatti 0-5 milioni, e pochissimi si avventurano al di sopra dei 200 milioni. Quello che ci interessa comprendere è a questo punto se e come è cambiata nel tempo la capacità della rete di attrarre investitori che hanno impiegato, almeno nel 1° biennio, un elevato ammontare di capitale. Vogliamo cioè indagare sulla relazione (se esiste) che lega il capitale all’anno di entrata. Il carattere dipendente (il capitale) è quantitativo e il carattere esplicativo è quantitativo ma assume un numero limitato di modalità. Potremmo indagare quindi sulla relazione tra i due caratteri o facendo riferimento al loro eventuale legame lineare o indagando sull’esistenza di una relazione non necessariamente lineare o analitica. Indagare il legame lineare che lega i due caratteri significa domandarsi se all’aumentare dell’anno di entrata aumenta o diminuisce l’ammontare di capitale investito nel 1° biennio. Il diagramma di dispersione relativo ai due caratteri è riportato nella Fig. 1.5. Nel diagramma è riportata anche la retta di regressione.

y = 1,8705x - 3640,4R2 = 0,0033

0

200

400

600

800

1000

1200

1400

1600

1800

2000

1980 1985 1990 1995 2000

Fig. 1.5 Capitale nel 1° biennio e anno di ingresso e retta di regressione

Così come già osservato con riferimento al capitale totale (Fig. 1.2(a)) il diagramma di dispersione non suggerisce alcun tipo di relazione tra i caratteri. Inoltre l’indice di determinazione, R2, evidenzia che siamo in una situazione prossima a quella di indipendenza correlativa, il caso cioè in cui il coefficiente di correlazione lineare è prossimo a zero, ad indicare che non ha senso utilizzare la relazione lineare per spiegare il capitale nel 1° biennio in funzione del tempo. Per valutare se la vicinanza alla situazione di indipendenza correlativa può essere estesa all’intera

6

Università Luigi Bocconi
Coefficiente di determinazione: indicatore relativo della bontà della previsione di una variabile Y sulla base di una o più variabili esplicative, ottenuta attraverso una funzione di queste ultime. R2 Assume valori compresi tra 0 e 1, inclusi gli estremi. Nel caso di un’unica variabile esplicativa, la funzione utilizzata per la previsione è rappresentata da una curva nel piano. Il valore 1 corrisponde ad un errore di previsione nullo (ovvero, i punti del grafico di dispersione giacciono tutti sulla curva); il valore 0 corrisponde ad una previsione costante (ovvero, effettuata senza tener conto della variabile esplicativa). R2 può essere ottenuto come rapporto tra la varianza spiegata dalla funzione utilizzata per prevedere Y e la varianza di Y. Nel caso di un’unica variabile esplicativa coincide con il quadrato del coefficiente di correlazione lineare.
Università Luigi Bocconi
Coefficiente di correlazione lineare: indicatore (relativo) del livello e del verso dell’associazione lineare tra due caratteri quantitativi. Può assumere valori compresi tra –1 e 1 (estremi inclusi). Valori positivi indicano relazione diretta (le coppie di modalità dei due caratteri tendono a concentrarsi intorno ad una retta di pendenza positiva), valori negativi associazione relazione inversa. Quanto più il coefficiente di correlazione lineare, in valore assoluto, è vicino a 1, tanto più è elevato il grado di associazione lineare; nel caso in cui il suo valore è 1 (–1), l’associazione lineare è perfetta e i punti del grafico di dispersione corrispondente sono tutti allineati su una retta con coefficiente angolare positivo (rispettivamente negativo). Un valore del coefficiente di correlazione lineare pari a 0 non indica mancanza di associazione tra i due caratteri, ma mancanza di associazione lineare; potrebbero cioè essere presenti altri tipi di legame. E’ un indicatore particolarmente sensibile alla presenza di coppie di valori anomali.
Page 9: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

popolazione, riportiamo nella Tabella 1. 3 il valore del coefficiente di correlazione lineare e il risultato del test per verificare l’ipotesi nulla che il coefficiente di correlazione tra i due caratteri sia nullo nell’intera popolazione. Il p-value risulta pari a 0.07. Fissato quindi un livello di significatività pari a 0.05 tale valore del p-value porterebbe a concludere a favore dell’ipotesi nulla (secondo la quale il coefficiente di correlazione lineare è nullo).

Tab. 1.3. Coefficienti di correlazione tra capitale investito nel 1° biennio e anno di ingresso8

Coefficiente Valore assunto P-value Pearson Correlation ,057 ,070 Kendall's tau_b ,014 ,526 Spearman's rho ,022 ,483

Il risultato ottenuto sembra coerente con il diagramma di dispersione. Procediamo ora valutando l’esistenza di una generica relazione di concordanza (ricordiamo che due caratteri si dicono concordanti se a modalità elevate di uno dei due tendono ad essere associate modalità crescente, anche se tale relazione non è necessariamente lineare). Tra gli indici di concordanza più comunemente utilizzati, ricordiamo l’indice tau di Kendall e il coefficiente di Spearman. Si noti come i due indici di concordanza assumano valori ancora più bassi rispetto al coefficiente di correlazione lineare. Questo è dovuto al fatto che il coefficiente di correlazione lineare è attratto da alcune coppie di valori anomali evidenti nel diagramma di dispersione, che lo “inflazionano”, facendogli quindi assumere un valore più elevato (per quanto basso) rispetto a quello che assumerebbe se tali coppie non fossero presenti. [Non robustezza del coefficiente di correlazione lineare] Non c’è quindi evidenza favorevole all’ipotesi che il capitale investito nel 1° biennio sia legato all’anno di ingresso da una relazione lineare. Analizzando il diagramma di dispersione, ci rendiamo conto che non è probabilmente possibile individuare una funzione analitica (anche non lineare) che leghi tra loro i caratteri. Ci chiediamo quindi se al variare dell’anno varia la distribuzione del capitale nel 1° biennio, senza fare alcun tipo di ipotesi sul la forma della dipendenza. Consideriamo innanzitutto, come già fatto per il capitale totale, le distribuzioni del capitale investito nel 1° biennio condizionate all’anno di ingresso. [Analisi stratificata]. Nella Figura 1.6. sono riportati i box-plot affiancati del capitale investito nel 1° biennio al variare dell’anno di ingresso, escludendo i valori estremi. [Box plot: cautele nella scelta delle scale]

5173744741776044645281409084563720101N =1999

19981997

19961995

19941993

19921991

19901989

19881987

19861985

19841983

19821980

Cap

itale

inve

stito

nel

bien

nio

(in m

ilioni

)

500

250

0

Fig. 1.6. Capitale investito nel 1° biennio (esclusi valori del capitale > 500 milioni)

8 Risultati ottenuti con SPSS (Analyze, Correlations, Bivariate).

7

Università Luigi Bocconi
Indice tau di Kendall e coefficiente di Spearman: indicatori di concordanza per distribuzioni doppie, per dati qualitativi ordinali o quantitativi, basati sui ranghi. Le modalità di ognuno dei due caratteri vengono ordinate in modo crescente; ad ogni osservazione è assegnata la posizione occupata in ciascuna delle due sequenze ordinate. Vengono sostanzialmente create due graduatorie, una per ogni carattere. Si valuta quindi se le graduatorie sono concordanti (osservazioni che occupano le posizioni più elevate in una graduatoria occupano posizioni elevate anche nell’altra) o discordanti (osservazioni che occupano le posizioni più elevate in una graduatoria occupano posizioni basse nell’altra). Gli indici di concordanza assumono valori tra –1 e 1 (estremi inclusi). Il valore 1 indica che le due graduatorie sono perfettamente concordanti, mentre il valore –1 indica che le graduatorie sono perfettamente discordanti. Se utilizzati con riferimento a caratteri quantitativi, questi indicatori di concordanza risultano robusti, cioè piuttosto insensibili a valori estremi. Questo perché non si tiene conto dei valori effettivi, ma solo delle loro posizioni.
Piccarreta
Note
Ipotesi nulla: è una congettura su una caratteristica della popolazione che viene confrontata con un’altra ipotesi, detta alternativa. La verifica di ipotesi è il procedimento inferenziale attraverso il quale si decide, sulla base dei risultati campionari, per quale ipotesi è opportuno propendere. L’ipotesi nulla è quella nei confronti della quale si è più “conservativi”: sostanzialmente essa viene ritenuta “vera” a meno che l’evidenza empirica non le sia fortemente contraria. In questo caso l’ipotesi nulla asserisce che il coefficiente di correlazione sia pari a zero, mentre l’ipotesi alternativa stabilisce che è diverso da zero (potrebbe essere negativo o positivo).
Piccarreta
Note
P-value: se si sottopone a verifica un’ipotesi nulla H0 contro l’alternativa, H1 la decisione in merito al rifiutare o meno H0 viene presa sulla base di una statistica test la cui distribuzione è nota assumendo che H0 sia vera. In questo caso la statistica test è il coefficiente di correlazione, r. Se i due caratteri sono non correlati (ipotesi nulla) r dovrebbe assumere valori prossimi allo zero. Il p-value è la probabilità di estrarre campioni caratterizzati da un valore del coefficiente più elevati in valore assoluto di quello osservato per il campione in esame. Valori molto bassi del p-value indicano quindi che sotto l’ipotesi nulla il risultato campionario osservato è molto anomalo e deve quindi farci propendere per la decisione di rifiutare H0. Nel caso in esame i p-value sono piuttosto elevati, e ciò indica che non è improbabile estrarre da una popolazione in cui i due caratteri hanno effettivamente r=0 un campione con r simile a quello osservato. Propenderemo quindi a favore dell’ipotesi nulla.
Piccarreta
Note
Il livello di significatività è il valore minimo che (decidiamo) possa essere assunto dal p-value affinchè si decida di accettare l’ipotesi nulla.
Page 10: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Possiamo notare un andamento ciclico, presumibilmente legato al ciclo economico e/o all’andamento dei mercati finanziari (e alla fiducia degli investitori). Notiamo inoltre, cosa più importante, che negli ultimissimi anni sembra comparire una tendenza alla diminuzione nella capacità di attrarre investitori fiduciosi (che investono quindi un elevato ammontare di capitale). Un modo per evidenziare ulteriormente le differenze tra gli anni di osservazione consiste nel disegnare degli istogrammi che rappresentano l’importanza relativa delle diverse fasce di capitale al variare dell’anno di ingresso. [Analisi stratificata: gli istogrammi]. Tuttavia, in questo caso il numero di istogrammi da confrontare sarebbe eccessivamente elevato, e un confronto tra questi sarebbe quantomeno poco agevole. Per agevolare il confronto tra le distribuzioni, raggruppiamo la variabile “Anno di ingresso” in 5 categorie: 1980-1986; 1987-1990; 1991-1993; 1994-1996; 1997-1999 (tenendo conto dell’andamento ciclico del capitale nel tempo). Nella Figura 1.7 sono riportate le distribuzioni di frequenza del capitale totale investito (considerando 8 classi pre-assegnate). (NB: ovviamente questi non sono gli istogrammi condizionati; stiamo solamente confrontando l’importanza relativa di ogni fascia di capitale nelle distribuzioni condizionate all’anno di ingresso (in classi): quella riportata in Fig. 1.7. rappresenta quindi la rappresentazione grafica della tabella delle frequenze che competono ad ogni classe di intervallo).

Fig. 1.7 Distribuzioni di frequenza del capitale nel 1° biennio al variare dell’anno di entrata (classi)

I clienti di recente acquisizione (1997-1999) tendono ad investire meno (le classi relative ad un basso ammontare di capitale sono caratterizzate da una maggior frequenza) rispetto al triennio precedente; inoltre, gli investimenti più esigui si sono registrati soprattutto negli anni 1987-1990. Queste differenze nelle distribuzioni si riflettono nei valori di sintesi riportati nella Tabella 1.410. Sostanzialmente si nota a partire dal 1990 un iniziale aumento delle misure di sintesi (sia la media sia la mediana, più attendibile visto che sono presenti valori del capitale anche molto anomali), un picco negli anni dal 1994 al 1996 e una tendenza alla diminuzione negli ultimi anni. [Analisi stratificata: le misure di sintesi] Il fatto che le medie condizionate siano diverse tra loro implica che il capitale investito nel 1° biennio dipende in media dall’anno di ingresso (in classi). Per valutare la forza di tale dipendenza, consideriamo l’indice Eta quadro (riportato anch’esso nella Tab. 1.4): esso assume un valore molto basso (0.019) ad indicare che siamo “prossimi” alla situazione di indipendenza in media del capitale dal tempo. Anche se le medie sono diverse tra di loro, quindi, la dispersione (in particolare la

10 Risultati ottenuti utilizzando SPSS (Analyze, Compare Means, Means).

0-5 milioni5-10 milioni10-25milioni25-50 milioni50-100 milioni100-200 milioni200-350 milionioltre 350 milioni

Fascia di capitale 1° biennio

1980-1986 1987-1990

100%

75%

50%

25%

0%

Perc

ent

1991-1993 1994-1996 1997-1999

8

Università Luigi Bocconi
Indice Eta(quadro): misura la forza della dipendenza in media di un carattere dipendente Y da un carattere esplicativo, X. In sostanza, misura la capacità esplicativa della funzione di regressione (medie condizionate), valutata come rapporto tra la varianza delle medie condizionate e la varianza totale di Y e può essere letto come la % di varianza di Y (in questo caso il capitale) spiegata da X (anno di ingresso in classi). Assume valori compresi tra 0 e 1 (inclusi). Il valore minimo è assunto quando le medie condizionate sono tutte uguali tra loro (indipendenza regressiva – o in media – di Y da X), il valore massimo è assunto quando le medie condizionate sono diverse tra loro e la variabilità delle distribuzioni condizionate è nulla (perfetta dipendenza regressiva – o in media – di Y da X).
Page 11: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

varianza) nelle sotto-popolazioni considerate è eccessivamente elevata perché le medie siano sintesi affidabili (che possono quindi essere utilizzate per sintetizzare l’intera sotto-popolazione). Di fatto, stiamo dicendo che non è possibile utilizzare la media condizionata per prevedere il capitale investito dai clienti entrati in ogni periodo.

Tab. 1.4. Misure di sintesi e indice Eta: cap. investito nel 1° biennio | anno di ingresso (classi)

Capitale investito nel 1° biennio (in milioni)

89.1521 208 159.84486 .01 1432.63 40.754756.5839 263 91.12214 .02 970.08 28.766173.8585 168 115.76956 .00 680.57 33.0231

119.5164 165 220.85430 .00 1391.51 44.914494.5003 198 174.06864 .07 1762.15 37.933484.0965 1002 155.23335 .00 1762.15 35.9370

Anno di ingresso (classi)1980-19861987-19901991-19931994-19961997-1999Total

Mean NStd.

Deviation Minimum Maximum Median

Measures of Association

.137 .019Capitale investito nel 1° biennio (in milioni) * Anno di ingresso (classi)Eta Eta Squared

Serve però ora comprendere se le differenze osservate tra le medie siano significative, ovvero se si possa pensare che i comportamenti degli investitori si siano modificati sostanzialmente nel tempo, o invece se le differenze riscontrate siano effetto di oscillazioni casuali (dovute al fatto che stiamo considerando dei campioni). Per eseguire questo tipo di controllo, ricorriamo all’analisi della varianza (ANOVA) del capitale nel 1° biennio sull’anno di ingresso riportata nella Tab. 1.5(a). Ricordiamo che nell’ANOVA, l’ipotesi nulla è che l’ammontare di capitale investito in media sia uguale in tutti i sotto-campioni indotti dalle modalità della variabile esplicativa (Anno di ingresso); l’ipotesi alternativa è che la differenza sia significativamente diversa da zero almeno per una coppia di medie. [Analisi della varianza] La verifica di ipotesi viene condotta nell’approccio standard assumendo che le varianze all’interno degli strati siano uguali tra loro e che la distribuzione della variabile dipendente sia normale. Nella Tabella 1.5(a) sono riportati i risultati ottenuti con l’approccio standard. L’ipotesi nulla viene rifiutata: il p-value – indicato con Sig – della statistica test sotto l’ipotesi nulla è prossimo a zero.

Tab. 1.5.(a) Analisi della varianza di Capitale investito nel 1° biennio su anno di ingresso (in classi)

ANOVA

Capitale investito nel 1° biennio (in milioni)

450436.238 4 112609.060 4.743 .00123671055.148 997 23742.28224121491.386 1001

Between GroupsWithin GroupsTotal

Sum of Squares df Mean Square F Sig.

Ciò non significa che le medie sono tutte significativamente diverse l’una dall’altra ma, piuttosto, che c’è almeno una coppia di medie che risultano statisticamente diverse tra loro. Per comprendere quali sono le coppie di medie che inducono al rifiuto dell’ipotesi nulla, consideriamo la Tabella 1.5(b) in cui sono riportati i risultati di due test post-hoc (test LSD e test di Bonferroni) per verificare, per ogni coppia di medie, l’ipotesi nulla che queste siano uguali (contro l’alternativa che siano diverse). [I test post-hoc per l’individuazione delle differenze significative nell’ANOVA]

9

Università Luigi Bocconi
Ipotesi nulla: è una congettura su una caratteristica della popolazione che viene confrontata con un’altra ipotesi, detta alternativa. La verifica di ipotesi è il procedimento inferenziale attraverso il quale si decide, sulla base dei risultati campionari, per quale ipotesi è opportuno propendere. L’ipotesi nulla è quella nei confronti della quale si è più “conservativi”: sostanzialmente essa viene ritenuta “vera” a meno che l’evidenza empirica non le sia fortemente contraria. In questo caso l’ipotesi nulla asserisce che le medie condizionate siano tutte uguali tra di loro e che ci sia quindi indipendenza in media del capitale dall’anno di ingresso.
Università Luigi Bocconi
P-value: quando si sottopone a verifica un’ipotesi nulla contro un’ipotesi alternativa, la decisione statistica in merito al rifiutare o meno l’ipotesi nulla viene presa sulla base di una statistica test la cui distribuzione è nota assumendo che l’ipotesi nulla sia vera. Ad esempio, in questo caso la statistica test per verificare l’ipotesi di indipendenza in media è la statistica F. Se il capitale è indipendente in media dall’anno di ingresso e le medie condizionate sono quindi tutte uguali, (ipotesi nulla) la statistica F dovrebbe assumere valori piuttosto bassi. Il p-value è la probabilità di estrarre campioni caratterizzati da un valore della statistica F più elevati di quello osservato per il campione in esame. Valori molto bassi del p-value indicano quindi che sotto l’ipotesi nulla il risultato campionario osservato è molto anomalo e deve quindi farci propendere per la decisione di rifiutare l’ipotesi nulla.
Piccarreta
Note
Varianza: misura della dispersione di dati quantitativi intorno alla loro media. E’ la media degli scarti quadratici dalla media aritmetica. E’ nulla se e solo se i dati sono tutti coincidenti, altrimenti è positiva, tanto più grande quanto più i dati sono dispersi. Ha come unità di misura il quadrato dell’unità di misura del carattere e, anche per questo motivo, non è opportuno utilizzarla per confrontare la variabilità tra caratteri con unità di misura differente. In ambito previsivo, si può osservare che la varianza di una certa variabile Y coincide con l’errore (quadratico) medio di previsione commesso quando si prevede Y utilizzando la sua media, senza cioè tener conto di altre variabili esplicative. In questo caso, stiamo considerando la varianza delle distribuzioni condizionate: tali varianze rappresentano l’errore (quadratico) medio di previsione commesso quando in una certa sotto-popolazione si prevede Y utilizzando la media condizionata.
Page 12: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Tab. 1.5.(b) ANOVA di Cap. investito nel 1° biennio su anno di ingresso (segue)

Multiple Comparisons

Dependent Variable: Capitale investito nel 1° biennio (in milioni)

32.5682* 14.2976 .023 4.5114 60.624915.2936 15.9834 .339 -16.0714 46.6585

-30.3643 16.0636 .059 -61.8866 1.1580-5.3482 15.2989 .727 -35.3699 24.6735

-32.5682* 14.2976 .023 -60.6249 -4.5114-17.2746 15.2183 .257 -47.1383 12.5891-62.9325* 15.3025 .000 -92.9613 -32.9036-37.9163* 14.4978 .009 -66.3660 -9.4667-15.2936 15.9834 .339 -46.6585 16.071417.2746 15.2183 .257 -12.5891 47.1383

-45.6579* 16.8883 .007 -78.7986 -12.5171-20.6417 16.1627 .202 -52.3586 11.075130.3643 16.0636 .059 -1.1580 61.886662.9325* 15.3025 .000 32.9036 92.961345.6579* 16.8883 .007 12.5171 78.7986

25.0161 16.2420 .124 -6.8563 56.8886

5.3482 15.2989 .727 -24.6735 35.369937.9163* 14.4978 .009 9.4667 66.366020.6417 16.1627 .202 -11.0751 52.3586

-25.0161 16.2420 .124 -56.8886 6.856332.5682 14.2976 .229 -7.6551 72.791515.2936 15.9834 1.000 -29.6725 60.2596

-30.3643 16.0636 .590 -75.5559 14.8273-5.3482 15.2989 1.000 -48.3885 37.6921

-32.5682 14.2976 .229 -72.7915 7.6551-17.2746 15.2183 1.000 -60.0883 25.5391-62.9325* 15.3025 .000 -105.9830 -19.8819-37.9163 14.4978 .090 -78.7029 2.8702-15.2936 15.9834 1.000 -60.2596 29.672517.2746 15.2183 1.000 -25.5391 60.0883

-45.6579 16.8883 .070 -93.1698 1.8540-20.6417 16.1627 1.000 -66.1123 24.828830.3643 16.0636 .590 -14.8273 75.555962.9325* 15.3025 .000 19.8819 105.983045.6579 16.8883 .070 -1.8540 93.1698

25.0161 16.2420 1.000 -20.6775 70.7097

5.3482 15.2989 1.000 -37.6921 48.388537.9163 14.4978 .090 -2.8702 78.702920.6417 16.1627 1.000 -24.8288 66.1123

-25.0161 16.2420 1.000 -70.7097 20.6775

(J) Anno diingresso1987-19901991-19931994-19961997-19991980-19861991-19931994-19961997-19991980-19861987-19901994-19961997-19991980-19861987-19901991-19931997-1999

1980-19861987-19901991-19931994-19961987-19901991-19931994-19961997-19991980-19861991-19931994-19961997-19991980-19861987-19901994-19961997-19991980-19861987-19901991-19931997-1999

1980-19861987-19901991-19931994-1996

(I) Anno diingresso1980-1986

1987-1990

1991-1993

1994-1996

1997-1999

1980-1986

1987-1990

1991-1993

1994-1996

1997-1999

LSD

Bonferroni

MeanDifference

(I-J)Std.Error Sig. Lower Bound Upper Bound

95% Confidence Interval

The mean difference is significant at the .05 level.*.

Dalla tabella notiamo che sulla base del test di Bonferroni, più conservativo, si può concludere, fissato un livello di significatività pari a 0.05, che esiste una differenza significativa tra il capitale medio nel 1987-90 (valore più basso osservato per la media) e quello del periodo 1994-96 (più alto valore della media). Facendo riferimento al test LSD vengono considerate significative le differenze osservate tra 1980-86 e 1987-90; questo ultimo periodo risulta inoltre caratterizzato da una media significativamente diversa da tutte le altre, tranne quella del periodo 1991-1993 (quella più vicina in ordine di grandezza), e la media del 1994-96 risulta da ultimo significativamente diversa da quelle registrate nel periodo 1987-90 e 1991-93.

I risultati ottenuti con l’approccio standard sono affidabili solo se le assunzioni alla base dell’ANOVA sono soddisfatte. Valutiamo in prima battuta se l’ipotesi che le varianze del capitale investito nel 1° biennio nelle sottopopolazioni indotte dall’anno di ingresso (strati) sono uguali debba essere accettata o meno.

Nella Tabella 1.6 vengono riportati i risultati del test di Levene per la verifica dell’ipotesi di

10

Università Luigi Bocconi
Nel test di Levene l’ipotesi nulla è che le varianze del carattere nelle sotto-popolazioni considerate siano tutte uguali tra loro.
Page 13: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

omogeneità delle varianze. Il p-value è decisamente basso, e l’ipotesi nulla viene quindi rifiutata. In questo caso, l’ANOVA standard è inadeguata e si deve ricorrere a test robusti all’assunzione di omogeneità delle varianze. [ANOVA: varianze non omogenee]

Tab. 1.6. Analisi della varianza del Cap. investito nel 1° biennio sull’anno di ingresso nel caso di non omogeneità delle varianze

Test of Homogeneity of Variances

Capitale investito nel 1° biennio (in milioni)

8.200 4 997 .000

LeveneStatistic df1 df2 Sig.

Robust Tests of Equality of Means

Capitale investito nel 1° biennio (in milioni)

5.203 4 446.649 .0004.391 4 658.041 .002

WelchBrown-Forsythe

Statistica df1 df2 Sig.

Asymptotically F distributed.a.

Multiple Comparison

Dependent Variable: Capitale investito nel 1° biennio (in milioni)

32,5682 14,29757 ,088 -2,4694 67,605715,2936 15,98339 ,964 -24,7966 55,3837

-30,3643 16,06357 ,776 -88,0747 27,3461-5,3482 15,29889 1,000 -52,1082 41,4118

-32,5682 14,29757 ,088 -67,6057 2,4694-17,2746 15,21834 ,662 -47,0390 12,4898-62,9325* 15,30253 ,006 -114,1397 -11,7252-37,9163 14,49777 ,055 -76,2591 ,4264-15,2936 15,98339 ,964 -55,3837 24,796617,2746 15,21834 ,662 -12,4898 47,0390

-45,6579 16,88833 ,176 -100,3905 9,0747-20,6417 16,16272 ,857 -63,6335 22,350030,3643 16,06357 ,776 -27,3461 88,074762,9325* 15,30253 ,006 11,7252 114,139745,6579 16,88833 ,176 -9,0747 100,390525,0161 16,24202 ,934 -34,7105 84,7428

5,3482 15,29889 1,000 -41,4118 52,108237,9163 14,49777 ,055 -,4264 76,259120,6417 16,16272 ,857 -22,3500 63,6335

-25,0161 16,24202 ,934 -84,7428 34,710532,5682 14,29757 ,069 -1,5275 66,663815,2936 15,98339 ,820 -23,7267 54,3139

-30,3643 16,06357 ,573 -86,5180 25,7893-5,3482 15,29889 ,998 -50,8636 40,1672

-32,5682 14,29757 ,069 -66,6638 1,5275-17,2746 15,21834 ,475 -46,2370 11,6878-62,9325* 15,30253 ,006 -112,7276 -13,1373-37,9163* 14,49777 ,044 -75,2227 -,6100-15,2936 15,98339 ,820 -54,3139 23,726717,2746 15,21834 ,475 -11,6878 46,2370

-45,6579 16,88833 ,131 -98,9015 7,5858-20,6417 16,16272 ,658 -62,4830 21,199530,3643 16,06357 ,573 -25,7893 86,518062,9325* 15,30253 ,006 13,1373 112,727645,6579 16,88833 ,131 -7,5858 98,901525,0161 16,24202 ,762 -33,1044 83,1367

5,3482 15,29889 ,998 -40,1672 50,863637,9163* 14,49777 ,044 ,6100 75,222720,6417 16,16272 ,658 -21,1995 62,4830

-25,0161 16,24202 ,762 -83,1367 33,1044

(J) Anno diingresso(classi)

1987-19901991-19931994-19961997-19991980-19861991-19931994-19961997-19991980-19861987-19901994-19961997-19991980-19861987-19901991-19931997-19991980-19861987-19901991-19931994-19961987-19901991-19931994-19961997-19991980-19861991-19931994-19961997-19991980-19861987-19901994-19961997-19991980-19861987-19901991-19931997-19991980-19861987-19901991-19931994-1996

(I) Anno diingresso(classi)

1980-1986

1987-1990

1991-1993

1994-1996

1997-1999

1980-1986

1987-1990

1991-1993

1994-1996

1997-1999

Tamhane

Games-Howell

MeanDifference

(I-J)Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

The mean difference is significant at the .05 level.*.

Sempre nella Tabella 1.6 riportiamo quindi i risultati ottenuti con i test di Welch e di Brown-Forsythe. L’ipotesi di uguaglianza tra le medie viene rifiutata (quindi la decisione è la stessa presa sulla base della procedura standard), e il p-value è ancora molto basso. Analizziamo ora i test post-hoc adeguati nel caso di varianze non uguali negli strati.

11

Page 14: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

I due test considerati (il primo è più conservativo) danno risultati diversi rispetto a quelli ottenuti sotto l’ipotesi di uguaglianza tra le varianze. Notiamo infatti che entrambi i test portano a concludere che il capitale medio investito dai clienti entrati nel periodo 1987-1990 (che risulta il minimo) è significativamente diverso dal capitale medio massimo, che è quello investito dai clienti entrati nel 1994-96. Il test meno conservativo (il secondo) suggerisce una differenza significativa tra la media nel 1987-90 e quella dell’ultimo periodo, 1997-99 (il secondo valore della media in ordine di grandezza – quindi la media più bassa è significativamente diversa dalle due più elevate).

Verifichiamo ora l’assunzione di normalità, alla base dell’ ANOVA, con il test di Kolmogorov-Smirnov.12

One-Sample Kolmogorov-Smirnov Test

100284,0965

155,23335,294,254

-,2949,306,000

NMeanStd. Deviation

Normal Parameters b

AbsolutePositiveNegative

Most ExtremeDifferences

Kolmogorov-Smirnov ZAsymp. Sig. (2-tailed)

Capitale investito nel 1° biennio (in milioni)

Calculated from data.b.

Bisogna sottolineare che l’anova è robusta a deviazioni dall’ipotesi di normalità, purché la distribuzione del carattere dipendente non sia eccessivamente obliqua. Nel nostro caso, come evidenzia il box plot riportato all’inizio del paragrafo, la distribuzione del carattere è fortemente asimmetrica. Nel caso di distribuzioni fortemente asimmetriche, le medie, misure di sintesi non robuste, possono essere influenzate dalla presenza di valori anomali e fornire quindi un’immagine “distorta” della relazione tra il carattere dipendente e quello esplicativo. E’ quindi opportuno, sia dal punto di vista descrittivo che dal punto di vista inferenziale confrontare le mediane piuttosto che le medie13. [Analisi stratificata: le misure di sintesi]

198165168263208N =

1997-19991994-19961991-19931987-19901980-1986

500

0

Cap. 1° biennio(dettaglio)

198165168263208N =

1997-19991994-19961991-19931987-19901980-1986

2000

1000

0

Cap. nel 1° biennio

12 Risultati ottenuti utilizzando SPSS (Analyze, Non parametric Tests, 1 independent sample). 13 Ovviamente, quando si procede ad un’analisi della varianza si verifica prima se le assunzioni sono soddisfatte e si sceglie quindi l’approccio più adeguato. In questo caso, quindi si sarebbero dovuti prendere in considerazione solo i risultati ottenuti con l’approccio non parametrico. L’approccio seguito è motivato da esigenze “didattiche”.

12

Università Luigi Bocconi
Nel test di Kolmogorov-Smirnov l’ipotesi nulla è che la distribuzione della popolazione da cui è stato estratto il campione sia normale.
Page 15: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

I box plot affiancati evidenziano una certa differenza tra le mediane e una possibile influenza dei valori anomali sulle medie. Procediamo quindi con un’analisi della varianza non parametrica. [ANOVA non parametrica]

Tab. 1.7. Analisi della varianza non parametrica14

Test di Kruskal-Wallis

Ranks

208 534.25263 444.00168 481.97165 553.10198 517.04

1002

Anno dii1980-19861987-19901991-19931994-19961997-1999Total

Capitaleinvestito nel1° biennio(in milioni)

N Mean RankTest Statistics

19.6264

.001

Chi-SquaredfAsymp. Sig.

Capitale investito nel1° biennio (in milioni)

Test delle Mediane

Frequencies

120 109 78 93 10188 154 90 72 97

> Median<= Median

Capitale investito nel1° biennio (in milioni)

1980-1986 1987-1990 1991-1993 1994-1996 1997-1999Anno di ingresso (classi)

Test Statistics

100235.9370

16.2334

.003

NMedianChi-SquaredfAsymp. Sig.

Capitale investito nel1° biennio (in milioni)

L’ipotesi sottoposta a verifica è che la distribuzione del carattere dipendente non vari da strato a strato. Entrambi i test non parametrici portano al rifiuto dell’ipotesi nulla. In sostanza, notiamo che in questo caso le conclusioni fornite dall’ANOVA standard coincidono con quelle ottenute con le analisi della varianza quando si tenga della caduta delle due ipotesi di omogeneità delle varianze e di normalità. Ovviamente, a questo punto dovremmo per completezza procedere a verificare quali sono le coppie di popolazioni significativamente diverse tra loro. Per farlo dovremo effettuare dei test post-hoc. Tali test possono essere condotti o tenendo sotto controllo l’errore di primo tipo relativo ad ognuno dei singoli confronti (detto anche Comparisonwise Error), oppure tenendo conto dell’errore complessivo di primo tipo, cioè l’errore di primo tipo relativo a tutti i confronti considerati (detto anche Experimentwise Error). Non sono disponibili test non parametrici del secondo tipo; dovremo quindi procedere a confrontare tutte le differenze separatamente [Test non parametrici per verificare l’uguaglianza tra due popolazioni] I risultati dei test sono riportati nella Tabella 1.8 e, come si nota, coincidono con quelli ottenuti 14 Risultati ottenuti utilizzando SPSS (Analyze, Non parametric Tests, K independent samples).

13

Page 16: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

utilizzando il test LSD (test che tiene anch’esso sotto controllo la probabilità di commettere un errore di prima specie solo a livello di confronto singolo e non di confronto multiplo).

Tab. 1.8. Risultato dei test post-hoc non parametrici (Mann Whitney)15 e riassunto dei test post-hoc standard e sotto l’ipotesi di non omogeneità delle varianze

Periodi confrontati Test di Mann-WhitneyLSD Bonferroni Tamhane Games-Howell Z P-value

1980-1986 1987-1990 0.023 0.229 0.088 0.069 -3.533 .0001991-1993 0.339 1.000 0.964 0.820 -1.687 .0921994-1996 0.059 0.590 0.776 0.573 -0.766 .4441997-1999 0.727 1.000 1.000 0.998 -0.554 .579

1987-1990 1991-1993 0.257 1.000 0.662 0.475 -1.262 .2071994-1996 0.000 0.000 0.006 0.006 -3.709 .0001997-1999 0.009 0.090 0.055 0.044 -2.633 .008

1991-1993 1994-1996 0.007 0.070 0.176 0.131 -2.227 .0261997-1999 0.202 1.000 0.857 0.658 -1.139 .255

1994-1996 1997-1999 0.124 1.000 0.934 0.762 -1.151 .250

15 Risultati ottenuti utilizzando SPSS (Analyze, Non parametric Tests, 2 independent samples).

14

Page 17: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

2. Forma di investimento di ingresso Come si è visto nel paragrafo 1, il primo biennio è quello durante il quale vengono investiti i maggiori capitali. E’ ora interessante comprendere quale sia il fondo che riscuote maggior successo tra gli investitori sia per quanto riguarda la diffusione del fondo tra i clienti della società che per l’ammontare di capitale investito in ingresso, in media, per cliente attivo. Sostanzialmente, lo studio della forma di investimento di entrata dei nuovi investitori (qui di seguito) consente di valutare qual è la forma di investimento che “attrae”, almeno inizialmente, i nuovi clienti. Nella Tabella 2.1. è riportata la distribuzione delle frequenze della forma di investimento di ingresso.

Tab. 2.1. Distribuzione delle frequenze1

Forma di investimento di ingresso Fr. assolute Fr. relative Asvita 280 27.94% Fondo0 11 1.10% Fondo1 77 7.68% Fondo2 254 25.35% Fondo3 20 2.00% Fondo4 145 14.47% Fondo5 46 4.59% Fondo6 33 3.29% Fondo7 100 9.98% Fondo8 32 3.19% Fondo9 4 0.40% Totale complessivo 1002 100.00%

Le forme di ingresso più tipiche sono l’assicurazione sulla vita (valore modale), il Fondo2, il Fondo4 e, anche se meno rilevante, il Fondo7. Per questi fondi, consideriamo le misure di sintesi del capitale di ingresso investito, riportate nella Tabella 2.2.

Tab. 2.2. Misure di sintesi del capitale di ingresso (in milioni) per le 4 forme di ingresso preferite2

Asvita Fondo2 Fondo4 Fondo7 Numero di osservazioni 280 254 145 100Media 57.8751 68.1631 20.2193 21.7830Varianza 13182.2127 13291.3576 804.2036 1036.8336Deviazione standard 114.8138 115.2882 28.3585 32.1999Errore standard della media 6.8614 7.2338 2.3550 3.2200Livello inferiore IC 0.95 44.4267 53.9848 15.6034 15.4718Livello superiore IC 0.95 71.3235 82.3414 24.8352 28.0942Media troncata(5%) 44.7840 55.9905 17.8636 19.3000Minimo 1.2587 0.0029 0.0115 0.1362Primo quartile 16.7022 9.6117 3.0705 4.8551Secondo quartile 30.0483 25.5834 11.5438 11.5384Terzo quartile 51.7806 82.1317 25.5550 24.2403Massimo 1432.6252 970.0789 162.1556 189.3832Range di variazione 1431.3665 970.0760 162.1441 189.2470Range interquartile 35.0783 72.5200 22.4845 19.3852Nota: Le misure di sintesi qui riportate sono le realizzazioni campionarie (stime) dei cosiddetti stimatori analogici delle corrispondenti caratteristiche nella popolazione. Tali stimatori si ottengono applicando ai dati campionari le stesse formule che vengono utilizzate per valutare le misure nell’intera popolazione (unica eccezione è la varianza: nella popolazione è definita come somma degli scarti dalla media divisa per l’ampiezza della popolazione; la sua versione campionaria ha come denominatore l’ampiezza campionaria diminuita di un’unità)

1 Risultati ottenuti utilizzando EXCEL e la macro Stat4038 2 Risultati ottenuti utilizzando Excel (Strumenti, Analisi dei dati, Statistica descrittiva)

15

Università Luigi Bocconi
Media: indicatore di tendenza (o posizione) centrale, per dati quantitativi. E’ nota anche come centro di ordine 2, in quanto è il punto più “vicino” ai dati, rispetto alla distanza quadratica. Particolarmente sensibile ad eventuali valori estremi, è quindi da usare con cautela nel caso in cui vi siano, per il carattere considerato, valori isolati molto elevati o molto bassi. Quando calcolata su osservazioni campionarie è uno stimatore puntuale della vera media della popolazione. E’ quindi una variabile casuale che assume valori diversi a seconda del campione estratto. La media campionaria sarà tanto più affidabile quanto più i diversi valori che può assumere al variare del campione sono “concentrati” intorno alla vera media. Per valutare l’affidabilità della media campionaria si può utilizzare la sua varianza, o la radice quadrata della varianza, che è detta errore standard (pari alla deviazione standard divisa per la radice quadrata dell’ampiezza campionaria).
Università Luigi Bocconi
Varianza: misura della dispersione di dati quantitativi intorno alla loro media. E’ la media degli scarti quadratici dalla media aritmetica. E’ nulla se e solo se i dati sono tutti coincidenti, altrimenti è positiva, tanto più grande quanto più i dati sono dispersi. Ha come unità di misura il quadrato dell’unità di misura del carattere e, anche per questo motivo, non è opportuno utilizzarla per confrontare la variabilità tra caratteri con unità di misura differente. E’ una misura poco robusta, poco adeguata nel caso di distribuzioni molto asimmetriche: tende ad accentuare gli scarti elevati dalla media. In ambito previsivo, si può osservare che la varianza di una certa variabile Y coincide con l’errore (quadratico) medio di previsione commesso quando si prevede Y utilizzando la sua media, senza cioè tener conto di altre variabili esplicative. Lo scarto quadratico medio, detto anche deviazione standard, è la radice quadrata della varianza.
Università Luigi Bocconi
Media troncata (5%): è la media aritmetica calcolata escludendo il 5% delle osservazioni estreme. Attenua la non robustezza della media aritmetica.
Piccarreta
Note
Distribuzione delle frequenze: quando si considera un carattere che assume un numero contenuto di modalità, la sua distribuzione può essere studiata per mezzo della tabella delle frequenze. In tale tabella vengono associate ad ognuna delle modalità assunte dal carattere la frequenza assoluta (il nro di unità che presentano la modalità) e/o la frequenza relativa (la frazione di unità che presentano la modalità) che le compete. La tabella perde capacità di sintesi quando le modalità sono molte e le frequenze assolute e relative sono molto basse. Dal punto di vista “visivo” la tabella non tiene conto delle distanze tra le diverse modalità, e può quindi non essere adeguata nel caso in cui il carattere sia quantitativo e caratterizzato da modalità molto disperse. In questi casi è opportuno rappresentarla graficamente in modo da visualizzare al meglio le differenze tra le diverse modalità. Nel nostro caso, il carattere è qualitativo, quindi la tabella non risente di questi limiti.
Piccarreta
Note
La moda di un carattere è la modalità cui compete la più elevata frequenza relativa. E’ quindi la modalità che caratterizza la maggior parte delle unità statistiche. E’ una sintesi efficace quando la frequenza che le compete è elevata. E’ sensato calcolarla solo per caratteri che assumono un numero contenuto di modalità (quindi, non per caratteri continui, per i quali ogni unità statistica presenta una modalità diversa da tutte le altre).
Piccarreta
Note
Intervallo di confidenza (IC): uno stimatore è una funzione delle osservazioni campionarie utilizzato per stimare una caratteristica (non nota) dell’intera popolazione. Nella stima per intervallo si attribuisce alla caratteristica di interesse un insieme di valori (determinati a partire dai dati campionari) entro cui ci si aspetta ragionevolmente che sia compreso il valore effettivo della caratteristica in questione. Il livello di confidenza indica il grado di fiducia che si può assegnare alla stima per intervallo ottenuta.
Piccarreta
Note
Media: In questo caso la media è calcolata sul campione ed è quindi la realizzazione della media campionaria. La media campionaria è uno stimatore puntuale della vera media della popolazione, ed è una variabile casuale che assume valori diversi a seconda del campione estratto (la media campionaria osservata è la realizzazione dello stimatore in corrispondenza del campione estratto, ed è quindi una stima). La media campionaria è tanto più affidabile quanto più i diversi valori che può assumere al variare del campione sono “concentrati” intorno alla vera media. Per valutare l’affidabilità della media campionaria si può utilizzare la sua varianza (eventualmente stimata) o la radice quadrata della varianza, che è detta errore standard.
Piccarreta
Note
Quartili: sono 3 indicatori, calcolabili per dati quantitativi o qualitativi ordinali. Considerata la successione dei valori osservati disposti in ordine crescente, i quartili indicano i tre punti che dividono la distribuzione in quattro parti uguali. Ad esempio il 1° quartile è tale che il 25% della popolazione presenta un valore al di sotto e il restante 75% al di sopra di esso. Il 2° quartile è la mediana.
Piccarreta
Note
Campo di variazione: è ottenuto come differenza tra il massimo e il minimo valore osservato e rappresenta quindi la lunghezza dell’intervallo in cui cadono tutte le osservazioni relative al carattere di interesse
Piccarreta
Note
Range interquartile: è ottenuto come differenza tra il 3° quartile e il 1° quartile e rappresenta quindi la lunghezza dell’intervallo in cui è racchiuso il 50% delle osservazioni “centrali” della distribuzione
Piccarreta
Note
Uno stimatore è una funzione delle osservazioni campionarie utilizzato per stimare una caratteristica (non nota) dell’intera popolazione. La stima è il valore assunto dallo stimatore in corrispondenza del campione estratto. Nella stima puntuale si attribuisce alla caratteristica di interesse un unico valore.
Page 18: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Nella Tabella 2.3. sono riportate anche le distribuzioni di frequenza del capitale investito considerando 5 classi di intervallo.

Tab. 2.3. Distribuzione del capitale di ingresso (in milioni) per le 4 forme di ingresso preferite3

Asvita Fondo2 Fondo4 Fondo7 Estr. inf. Estr. sup. ni pi ni pi ni pi ni pi0 10 40 0.143 64 0.252 62 0.427 41 0.41

10 20 51 0.182 45 0.177 45 0.310 27 0.27 20 50 111 0.396 51 0.201 22 0.152 24 0.24 50 100 46 0.164 46 0.181 12 0.083 2 0.02 100 1460 32 0.114 48 0.189 4 0.027 6 0.06

Assicurazioni sulla vita e Fondo2 sono le due forme di investimento in cui viene investito capitale (iniziale) più elevato. Notiamo infatti medie più elevate ma, considerazione più significativa, quartili più elevati e code destre caratterizzate da frequenze relative più elevate rispetto al Fondo4 e al Fondo7. Le forme di investimento più frequentemente scelte all’ingresso sono anche quelle che inducono a stanziare un maggior capitale iniziale.

In altre parole, i prodotti dell’azienda di gestione fondi che risultano più diffusi al primo contatto con la clientela sono anche quelli che, in media, attirano più capitale. Ma è cambiato qualcosa nel tempo? L’azienda è riuscita a diffondere con maggior efficacia altre forme di investimento già al primo contatto? Per capire se ci siano differenze temporali consideriamo ora se e come variano le scelte di investimento iniziali in funzione dell’anno di ingresso (raggruppato in classi). Nella Tabella 2.4 sono riportate la distribuzione congiunta dei due caratteri e la distribuzione di (Primo investimento | Anno di ingresso). [Analisi condizionata: le distribuzioni di frequenza]

Tab. 2.4. Tabella a doppia entrata del primo investimento e dell’anno di ingresso (% of Total) e distribuzioni del primo investimento condizionate all’anno di ingresso (% within Anno di ingresso)4

Anno di ingresso (categorie) primo_inv 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

asvita % within Anno di ingresso 48.6% 28.5% 24.4% 24.8% 11.1% 27.9%% of Total 10.1% 7.5% 4.1% 4.1% 2.2% 27.9%

fondo0 % within Anno di ingresso 1.2% 4.5% 1.1%% of Total .2% .9% 1.1%

fondo1 % within Anno di ingresso 1.5% 14.9% 21.2% 6.6% 7.7%% of Total .4% 2.5% 3.5% 1.3% 7.7%

fondo2 % within Anno di ingresso 25.0% 22.1% 48.2% 23.6% 12.1% 25.3%% of Total 5.2% 5.8% 8.1% 3.9% 2.4% 25.3%

fondo3 % within Anno di ingresso 1.1% 5.4% 1.8% 2.5% 2.0%% of Total .3% .9% .3% .5% 2.0%

fondo4 % within Anno di ingresso 22.6% 33.1% 1.2% 4.5% 14.5%% of Total 4.7% 8.7% .2% .9% 14.5%

fondo5 % within Anno di ingresso 3.0% 12.1% 10.6% 4.6%% of Total .5% 2.0% 2.1% 4.6%

fondo6 % within Anno di ingresso 3.8% 1.5% .6% 10.1% 3.3%% of Total .8% .4% .1% 2.0% 3.3%

fondo7 % within Anno di ingresso 12.2% 4.2% 10.9% 21.7% 10.0%% of Total 3.2% .7% 1.8% 4.3% 10.0%

fondo8 % within Anno di ingresso 16.2% 3.2%% of Total 3.2% 3.2%

fondo9 % within Anno di ingresso 2.4% .4%% of Total .4% .4%

Total % within Anno di ingresso 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%% of Total 20.8% 26.2% 16.8% 16.5% 19.8% 100.0%

3 Risultati ottenuti utilizzando la macro Stat4038 4 Risultati ottenuti utilizzando SPSS (Analyze, Descriptive, Cross-tabs).

16

Università Luigi Bocconi
ni: è la frequenza assoluta che compete ad ogni classe, cioè il numero di unità che hanno capitale compreso nella classe di intervallo considerata
Università Luigi Bocconi
pi: è la frequenza relativa che compete ad ogni classe, cioè la frazione di unità che hanno capitale compreso nella classe di intervallo considerata. Nel caso di confronti tra distribuzioni, come in questo caso, è opportuno considerare le frequenze relative invece che quelle assolute in quanto forniscono consentono confronti sull’importanza relativa di ogni classe nei collettivi considerati. In questo caso ha senso confrontare le frequenze relative che competono ad ogni classe per le diverse forme di ingresso (confronto in orizzontale). Non ha senso invece confrontare le frequenze relative che competono alle diverse classi per una stessa forma di ingresso (confronto verticale) perché non si tiene conto dell’ampiezza degli intervalli. Per effettuare questo tipo di confronto bisognerebbe costruire l’istogramma.
Università Luigi Bocconi
Tabella a doppia entrata: quando si considerano due caratteri che assumono entrambi un numero contenuto di modalità, la loro distribuzione congiunta può essere analizzata per mezzo di una tabella a doppia entrata. In tale tabella le intestazioni di righe e colonne sono le modalità assunte dai caratteri. Nella cella corrispondente ad una determinata coppia di modalità viene quindi riportata la frequenza congiunta assoluta (il nro di unità che presentano la coppia di modalità) o la frequenza relativa (la frazione di unità che presentano la coppia di modalità). La tabella a doppia entrata perde capacità di sintesi quando le coppie di modalità sono molte e le frequenze assolute e relative sono molto basse. Dal punto di vista “visivo” la tabella non tiene conto delle distanze tra le diverse modalità, e può quindi non essere adeguata nel caso in cui almeno uno dei due caratteri sia quantitativo e caratterizzato da modalità molto disperse. Nel caso in esame non siamo interessati a considerare l’anno come carattere quantitativo, quindi non ci interessano le distanze tra le diverse classi dell’anno, e la tabella a doppia entrata è adeguata a rappresentare la distribuzione congiunta dei due caratteri.
Page 19: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Per una più agevole lettura della tabella, utilizziamo una rappresentazione della distribuzione congiunta e delle distribuzioni condizionate per mezzo di barre, riportate nella Figura 2.1. In particolare, nel primo grafico è riportata la distribuzione congiunta dei due caratteri: ogni barra ha un’altezza proporzionale alla frequenza marginale che compete al carattere le cui modalità sono riportate sull’asse delle ascisse (anno di ingresso). Nella seconda figura sono invece riportate le distribuzioni condizionate: l’altezza di ogni barra è pari a 1, e ogni barra rappresenta la distribuzione di frequenza del carattere in un certo anno.

asvitafondo0fondo1fondo2fondo3fondo4

fondo5fondo6fondo7fondo8fondo9

Primo_inv

1980-1986 1987-1990 1991-1993 1994-1996 1997-1999

5%

10%

15%

20%

25%

Perc

ent

asvitafondo0fondo1fondo2fondo3fondo4

fondo5fondo6fondo7fondo8fondo9

Primo_inv

1980-1986 1987-1990 1991-1993 1994-1996 1997-19990%

25%

50%

75%

100%

Perc

ent

Fig. 2.1. Distribuzioni di frequenze della forma di inv. iniziale per anno di ingresso

Notiamo che negli anni dal 1985 al 1987 le forme di ingresso sono poche e concentrate soprattutto su assicurazioni vita e 2 tipi di fondi (il Fondo2 e il Fondo4). Nei periodi successivi si osserva però una maggior differenziazione delle forme di ingresso: i clienti entrano meno spesso con investimenti di tipo assicurativo e anche altri fondi vengono prescelti come forme di investimento iniziali. La rete sembra quindi aver acquisito la capacità di proporre forme di investimento diverse anche ai nuovi clienti.

17

Page 20: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

3. Forme di investimento: presenza in portafoglio e capitale investito. Passiamo ora a considerare le diverse forme di investimento presenti nel portafoglio di un generico cliente. Rispetto all’analisi appena fatta, qui si riflette sulla notorietà dei prodotti dell’azienda in un arco di tempo pari alla durata di rapporto con l’azienda. Nella Tabella 3.1 è riportata, per ogni forma di investimento, la percentuale di clienti che la possiedono nel loro portafoglio, che rappresenta la stima puntuale della percentuale di clienti che acquistano la forma di investimento considerata. Tale percentuale può essere anche riguardata come la probabilità che un generico cliente decida di acquistare una certa forma di investimento. Nelle ultime due colonne della tabella è riportato l’intervallo di confidenza al 95% della percentuale.

Tab. 3.1. Stima della percentuale di clienti per ogni fi e intervallo di confidenza 1

Intervallo di confidenza per P (0.95) Forma di investimento q P Se estremo inf estremo sup Asvita 0.4561 0.5439 0.0157 0.5131 0.5747 Fondo0 0.8623 0.1377 0.0109 0.1163 0.1591 Fondo1 0.6946 0.3054 0.0146 0.2768 0.3340 Fondo2 0.3493 0.6507 0.0151 0.6211 0.6803 Fondo3 0.8144 0.1856 0.0123 0.1615 0.2097 Fondo4 0.7236 0.2764 0.0141 0.2488 0.3040 Fondo5 0.6337 0.3663 0.0152 0.3365 0.3961 Fondo6 0.7166 0.2834 0.0142 0.2556 0.3112 Fondo7 0.6128 0.3872 0.0154 0.3570 0.4174 Fondo8 0.7854 0.2146 0.013 0.1891 0.2401 Fondo9 0.9461 0.0539 0.0071 0.0400 0.0678 Note: p = % di clienti che possiedono la i-esima forma di investimento, q = % di clienti che non possiedono la i-esima forma di investimento. Se = stima dello standard error di p.

Le forme di investimento preferite dagli investitori sono assicurazioni vita, Fondo2 e Fondo1, 5 e 7. Restringendosi ai soli clienti attivi su una certa forma di investimento (vengono quindi esclusi, per ogni tipo di prodotto, i clienti che lo non possiedono), possiamo anche considerare la distribuzione degli investimenti fatti per forma di investimento e calcolare alcune misure di sintesi (Tabella 3.2). Per agevolare la lettura dei risultati, nella Figura 3.1. sono riportate le misure della posizione (media, media troncata e mediana) del capitale investito in ogni forma di investimento. L’asimmetria delle distribuzioni è assolutamente evidente, sia dal confronto tra media e mediana che dalla rappresentazione delle distribuzioni tramite box-plot affiancati. La misura di sintesi più adeguata per rappresentare il capitale investito per forma di investimento risulta quindi in questo caso la mediana [Media, mediana, media troncata per distribuzioni asimmetriche]. Notiamo che le forme di investimento che attirano maggior capitale sono Fondo8, Fondo2 e Assicurazioni sulla vita. E’ interessante notare che le ultime due forme di investimento sono anche quelle più presenti nei portafogli clienti, mentre Fondo8, che è la forma di investimento che attrae maggior capitale, non è scelta da molti investitori. La presenza in portafoglio di un certo tipo di fondo può però variare a seconda dell’anno di entrata (ad esempio perché clienti di più lunga data sono stati più a contatto con la rete di promotori, che hanno avuto maggiori possibilità di convincerli a spostarsi su nuove forme di investimento). Quindi, per valutare se le distribuzioni delle variabili relative alla presenza delle forme di investimento cambiano nel tempo, riportiamo in Tab. 3.3 tali distribuzioni condizionate all’anno di entrata (classi). [Analisi condizionata: le distribuzioni di frequenza]

1 Risultati ottenuti utilizzando Excel.

18

Università Luigi Bocconi
Stimatore: funzione delle osservazioni campionarie utilizzato per stimare una caratteristica (non nota) dell’intera popolazione. Nella stima puntuale si attribuisce alla caratteristica un unico valore.
Università Luigi Bocconi
Nella stima per intervallo si attribuisce ad una caratteristica (non nota) della popolazione un insieme di valori (determinati a partire dai dati campionari) entro cui ci si aspetta ragionevolmente che sia compreso il valore effettivo della caratteristica. Il livello di confidenza indica il grado di fiducia che si può assegnare alla stima per intervallo ottenuta.
Università Luigi Bocconi
Standard error della percentuale campionaria: la percentuale campionaria è uno stimatore puntuale della vera percentuale della popolazione. E’ quindi una variabile casuale che assume valori diversi a seconda del campione estratto. Lo stimatore sarà tanto più affidabile quanto più i diversi valori che può assumere al variare del campione sono “concentrati” intorno alla vera percentuale. Per valutare l’affidabilità dello stimatore si può utilizzare la sua varianza, o la radice quadrata della varianza, che è detta errore standard..
Università Luigi Bocconi
Media troncata (5%): è la media aritmetica calcolata escludendo il 5% delle osservazioni estreme. Attenua la non robustezza della media aritmetica.
Università Luigi Bocconi
Mediana: indicatore di tendenza centrale, per dati quantitativi o qualitativi ordinali. E’ il valore che, nella successione ordinata dei dati occupa la posizione centrale: il 50% delle osservazioni hanno un valore inferiore e il 50% un valore superiore alla mediana. Quando utilizzata per dati quantitativi, è nota anche come centro di ordine 1, in quanto risulta il punto più “vicino” ai dati, rispetto alla distanza usuale (euclidea). E’ un indicatore di posizione “robusto” rispetto alla presenza di dati anomali: risente poco della presenza di valori anomali. Per questo motivo è preferibile alla media aritmetica per indicare la tendenza centrale di distribuzioni con queste caratteristiche.
Piccarreta
Note
Media: Indicatore di tendenza (o posizione) centrale, per dati quantitativi. E’ nota anche come centro di ordine 2, in quanto è il punto più “vicino” ai dati, rispetto alla distanza quadratica. Particolarmente sensibile ad eventuali valori estremi, è da usare con cautela nel caso in cui vi siano, per il carattere considerato, valori isolati molto elevati o molto bassi.
Page 21: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Tab. 3.2. Misure di sintesi del capitale investito in ogni forma di investimento (considerando solo gli investitori, escludendo quindi gli 0) 2

Misura ASVITA Fondo0 Fondo1 Fondo2 Fondo3 Fondo4 Fondo5 Fondo6 Fondo7 Fondo8 Fondo9 Numero di osservazioni 545 138 306 652 186 277 367 284 388 215 54 Media 41.0638 11.0273 24.2202 63.5985 30.8700 36.9073 42.3814 28.8321 29.2362 53.7263 62.3624 Varianza 7492.1453 892.1324 2712.1060 12298.2241 2698.1778 4863.4936 5206.8059 2150.0792 2325.7975 5750.1358 27717.5835 Deviazione standard 86.5572 29.8686 52.0779 110.8974 51.9440 69.7388 72.1582 46.3689 48.2265 75.8297 166.4860 Errore standard della media 3.7077 2.5426 2.9771 4.3431 3.8087 4.1902 3.7666 2.7515 2.4483 5.1715 22.6559 Coefficiente di Variazione 2.1079 2.7086 2.1502 1.7437 1.6827 1.8896 1.7026 1.6082 1.6495 1.4114 2.6697 Livello inferiore IC 0.95 33.7967 6.0438 18.3851 55.0861 23.4050 28.6945 34.9988 23.4392 24.4375 43.5901 17.9569 Livello superiore IC 0.95 48.3309 16.0107 30.0554 72.1109 38.3351 45.1200 49.7640 34.2250 34.0349 63.8626 106.7679 Media troncata(5%) 31.6600 7.3745 17.8182 51.4424 25.9214 29.8799 35.0541 23.9153 24.3333 46.9603 48.5325 Minimo 0.5000 0.0141 0.0014 0.0029 0.0070 0.0115 0.0077 0.0073 0.0038 1.7584 0.0194 Primo quartile 10.0000 1.3794 2.4191 9.1883 7.5616 5.2894 6.3584 5.4739 5.5814 11.8695 6.0168 Secondo quartile 21.7031 4.9766 10.3732 26.3176 16.0102 15.2421 16.2660 12.8991 13.1053 28.8489 12.0335 Terzo quartile 39.9595 11.0123 23.6763 71.5937 33.7770 40.1836 40.7201 29.7189 31.3523 56.6592 33.4354 Massimo 1432.6252 245.7689 467.7761 970.0789 532.2771 650.6762 570.2231 296.4381 393.1284 661.8293 843.8642 Range di variazione 1432.1252 245.7548 467.7747 970.0760 532.2701 650.6647 570.2154 296.4307 393.1246 660.0709 843.8448 Range interquartile 29.9595 9.6329 21.2572 62.4053 26.2153 34.8942 34.3617 24.2450 25.7710 44.7897 27.4187

Sintesi (posizione) del capitale investito nelle diverse forme

0

10000000

20000000

30000000

40000000

50000000

60000000

70000000

Asvita Fondo0 Fondo1 Fondo2 Fondo3 Fondo4 Fondo5 Fondo6 Fondo7 Fondo8 Fondo9

Media Media troncata(5%) Secondo quartile

Fig. 3.1. Capitale investito in ogni forma di investimento. Misure di posizione

2 Risultati ottenuti utilizzando Excel (Strumenti: Analisi dei dati, statistica descrittiva).

19

Piccarreta
Note
Media: In questo caso la media è calcolata sul campione ed è quindi la realizzazione della media campionaria. La media campionaria è uno stimatore puntuale della vera media della popolazione, ed è una variabile casuale che assume valori diversi a seconda del campione estratto (la media campionaria osservata è la realizzazione dello stimatore in corrispondenza del campione estratto, ed è quindi una stima). La media campionaria è tanto più affidabile quanto più i diversi valori che può assumere al variare del campione sono “concentrati” intorno alla vera media. Per valutare l’affidabilità della media campionaria si può utilizzare la sua varianza (eventualmente stimata) o la radice quadrata della varianza, che è detta errore standard.
Piccarreta
Note
Varianza: misura della dispersione di dati quantitativi intorno alla loro media. E’ la media degli scarti quadratici dalla media aritmetica. E’ nulla se e solo se i dati sono tutti coincidenti, altrimenti è positiva, tanto più grande quanto più i dati sono dispersi. Ha come unità di misura il quadrato dell’unità di misura del carattere e, anche per questo motivo, non è opportuno utilizzarla per confrontare la variabilità tra caratteri con unità di misura differente. In ambito previsivo, si può osservare che la varianza di una certa variabile Y coincide con l’errore (quadratico) medio di previsione commesso quando si prevede Y utilizzando la sua media, senza cioè tener conto di altre variabili esplicative. In questo caso, stiamo considerando la varianza delle distribuzioni condizionate: tali varianze rappresentano l’errore (quadratico) medio di previsione commesso quando in una certa sotto-popolazione si prevede Y utilizzando la media condizionata. In questo caso, la varianza è calcolata sul campione ed è quindi la realizzazione della varianza campionaria, che è uno stimatore puntuale della vera varianza della popolazione, ed è una variabile casuale che assume valori diversi a seconda del campione estratto (la varianza campionaria osservata è la realizzazione dello stimatore in corrispondenza del campione estratto, ed è quindi una stima).
Piccarreta
Note
Deviazione standard: è la radice quadrata della varianza. Ha come unità di misura l’unità di misura del carattere. Per questo motivo può non essere indicato per confrontare la dispersione di due distribuzioni. E’ sensibile alla presenza di valori anomali.
Piccarreta
Note
Coefficiente di variazione: è ottenuto dividendo lo scarto quadratico medio (o deviazione standard) per la media della distribuzione. Tale operazione viene effettuata per depurare la deviazione standard dall’unità di misura.
Piccarreta
Note
Uno stimatore è una funzione delle osservazioni campionarie utilizzato per stimare una caratteristica (non nota) dell’intera popolazione. Nella stima per intervallo si attribuisce alla caratteristica di interesse un insieme di valori (determinati a partire dai dati campionari) entro cui ci si aspetta ragionevolmente che sia compreso il valore effettivo della caratteristica in questione. Il livello di confidenza indica il grado di fiducia che si può assegnare alla stima per intervallo ottenuta. In questo caso, Inf 0.95 e Sup 0.95 sono i limiti dell’intervallo di confidenza al livello 95% per il capitale medio investito nella forma di investimento considerata.
Piccarreta
Note
Quartili: sono 3 indicatori, calcolabili per dati quantitativi o qualitativi ordinali. Considerata la successione dei valori osservati disposti in ordine crescente, i quartili indicano i tre punti che dividono la distribuzione in quattro parti uguali. Ad esempio il 1° quartile è tale che il 25% della popolazione presenta un valore al di sotto e il restante 75% al di sopra di esso. Il 2° quartile è la mediana.
Piccarreta
Note
Campo di variazione: è ottenuto come differenza tra il massimo e il minimo valore osservato e rappresenta quindi la lunghezza dell’intervallo in cui cadono tutte le osservazioni relative al carattere di interesse
Piccarreta
Note
Range interquartile: è ottenuto come differenza tra il 3° quartile e il 1° quartile e rappresenta quindi la lunghezza dell’intervallo in cui è racchiuso il 50% delle osservazioni “centrali” della distribuzione
Page 22: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Tab. 3.3. Distribuzioni3 della presenza dell’investimento condizionate all’anno di ingresso. Anno di ingresso (Chi-quadrato = 98.293, P-value = 0.000) Asvita

(in diminuzione) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total 0 % within Anno ingr. 36.5% 28.1% 45.2% 53.9% 71.7% 45.6%1 % within Anno ingr. 63.5% 71.9% 54.8% 46.1% 28.3% 54.4%

Anno di ingresso (Chi-quadrato = 13.939, P-value = 0.007) Fondo0 (in aumento ma basso) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 93.3% 86.3% 86.3% 82.4% 81.8% 86.2%1 % within Anno ingr. 6.7% 13.7% 13.7% 17.6% 18.2% 13.8%

Anno di ingresso (Chi-quadrato = 49.566, P-value = 0.000) Fondo1 (in aumento) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 85.1% 74.1% 62.5% 54.5% 65.2% 69.5%1 % within Anno ingr. 14.9% 25.9% 37.5% 45.5% 34.8% 30.5%

Anno di ingresso (Chi-quadrato = 14.331, P-value = 0.006) Fondo2 (in diminuzione) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 32.2% 38.4% 23.8% 37.6% 40.4% 34.9%1 % within Anno ingr. 67.8% 61.6% 76.2% 62.4% 59.6% 65.1%

Anno di ingresso (Chi-quadrato = 9.602, P-value = 0.048) Fondo3 (in diminuzione) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 78.8% 87.1% 76.2% 80.6% 81.8% 81.4%1 % within Anno ingr. 21.2% 12.9% 23.8% 19.4% 18.2% 18.6%

Anno di ingresso (Chi-quadrato = 146.227, P-value = 0.000) Fondo4 (in diminuzione) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 50.0% 58.2% 89.9% 90.3% 84.8% 72.4%1 % within Anno ingr. 50.0% 41.8% 10.1% 9.7% 15.2% 27.6%

Anno di ingresso (Chi-quadrato = 52.732, P-value = 0.000) Fondo5 (in aumento) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 82.7% 66.2% 55.4% 53.9% 54.0% 63.4%1 % within Anno ingr. 17.3% 33.8% 44.6% 46.1% 46.0% 36.6%

Anno di ingresso (Chi-quadrato = 22.942, P-value = 0.000) Fondo6 (in aumento) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 73.6% 79.1% 69.0% 74.5% 59.6% 71.7%1 % within Anno ingr. 26.4% 20.9% 31.0% 25.5% 40.4% 28.3%

Anno di ingresso (Chi-quadrato = 9.510, P-value = 0.050) Fondo7 (in aumento) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 67.8% 62.7% 63.1% 57.6% 54.0% 61.3%1 % within Anno ingr. 32.2% 37.3% 36.9% 42.4% 46.0% 38.7%

Anno di ingresso (Chi-quadrato = 37.645, P-value = 0.000) Fondo8 (in aumento) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 89.9% 82.5% 78.6% 70.3% 68.2% 78.5%1 % within Anno ingr. 10.1% 17.5% 21.4% 29.7% 31.8% 21.5%

Anno di ingresso (Chi-quadrato = 4.348, P-value = 0.361) Fondo9 (stabile e basso) 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999 Total

0 % within Anno ingr. 97.1% 93.5% 94.6% 92.7% 94.9% 94.6%1 % within Anno ingr. 2.9% 6.5% 5.4% 7.3% 5.1% 5.4%

Si nota che le distribuzioni cambiano a seconda dell’anno di ingresso dei clienti. Per valutare se queste differenze sono significative (quindi non dovute a oscillazioni temporanee ma indicatrici di veri e propri cambiamenti registrati nel tempo) sono state calcolate le statistiche chi-quadrato, che misurano la forza della connessione tra “presenza in portafoglio della forma di investimento” e “anno di ingresso del cliente”. [Misure di associazione] Queste sono le statistiche test per verificare l’ipotesi nulla di indipendenza. I p-value sono tutti molto bassi, l’ipotesi nulla va quindi rifiutata (tranne che per il Fondo9): ciò conferma che le differenze riscontrate nel tempo sono significative. 3 Risultati ottenuti utilizzando SPSS (Analyze, Descriptive Statistics, Crosstabs).

20

Università Luigi Bocconi
Ipotesi nulla: è una congettura su una caratteristica della popolazione che viene confrontata con un’altra ipotesi, detta alternativa. La verifica di ipotesi è il procedimento inferenziale attraverso il quale si decide, sulla base dei risultati campionari, per quale ipotesi è opportuno propendere. L’ipotesi nulla è quella nei confronti della quale si è più “conservativi”: sostanzialmente l’ipotesi nulla viene ritenuta “vera” a meno che l’evidenza empirica non le sia fortemente contraria. In questo caso l’ipotesi nulla asserisce che i due caratteri sono indipendenti; l’ipotesi alternativa asserisce invece che i due caratteri siano connessi.
Università Luigi Bocconi
P-value: quando si sottopone a verifica un’ipotesi nulla contro un’ipotesi alternativa, la decisione statistica in merito al rifiutare o meno l’ipotesi nulla viene presa sulla base di una statistica test la cui distribuzione è nota assumendo che l’ipotesi nulla sia vera. Ad esempio, in questo caso la statistica test per verificare l’ipotesi di indipendenza è il chi-quadrato. Se i due caratteri sono indipendenti (ipotesi nulla) la statistica chi-quadrato dovrebbe assumere valori prossimi allo zero. Il p-value è la probabilità di estrarre campioni caratterizzati da un valore del chi-quadrato più elevati di quello osservato per il campione in esame. Valori molto bassi del p-value indicano quindi che sotto l’ipotesi nulla il risultato campionario osservato è molto anomalo e deve quindi farci propendere per la decisione di rifiutare l’ipotesi nulla.
Page 23: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

In particolare, ci sono alcuni fondi (Asvita, Fondo2, Fondo3, Fondo4) più presenti nei portafogli dei clienti con più anzianità di rapporto con l’azienda, e altri fondi che vedono un maggior consolidamento tra i clienti da poco acquisiti. Nel primo caso è possibile che si tratti di forme di investimento secondarie, ovvero proposte ai clienti solo in un secondo tempo rispetto al momento di ingresso. Nel secondo caso, invece, le differenze possono essere attribuibili alle maggiori capacità conquistate nel tempo dalla rete di promotori di proporre già in ingresso forme di investimento diversificate (come avevamo visto nel paragrafo 2), oppure al fatto che alcune forme di investimento possono essere state introdotte nel mercato solo in tempi recenti. Per legare quindi la presenza di una determinata forma di investimento al momento della sua entrata in portafoglio, tenendo sempre sotto controllo l’anno di ingresso del cliente nell’azienda, costruiamo delle variabili che indicano il biennio di ingresso di una forma di investimento nel portafoglio di un cliente, e consideriamo le distribuzioni condizionate all’anno di ingresso. Per facilitare tale analisi, nella Fig. 3.2. rappresentiamo le tabelle a doppia entrata per mezzo di diagrammi a barre. Nella valutazione di tali diagrammi a barre dobbiamo tenere presente il fatto che per clienti di più recente acquisizione l’osservazione è censurata, e non abbiamo quindi informazioni complete su tutti e tre i bienni di interesse. [La censura delle osservazioni] In generale i grafici mostrano chiaramente che la presenza in portafoglio di un determinato prodotto dipende sia dall’anno di entrata dei clienti che dal biennio considerato. Inoltre, possiamo riconoscere strategie diverse di diffusione nel portafoglio. Ad esempio, se consideriamo una tra le forme di investimento più diffuse tra i clienti dell’azienda, ovvero l’assicurazione vita, vediamo che da una parte la tendenza alla diminuzione della presenza è confermata; mentre dall’altra si diffonde leggermente l’acquisto di tale prodotto in bienni successivi al primo. Caso opposto è invece quello di Fondo1, Fondo5, Fondo7, Fondo8 e in parte Fondo2 e Fondo6: oltre a conquistare consensi sempre maggiori tra i clienti della società, questi prodotti passano dall’essere scelti in un secondo tempo rispetto al primo ingresso al divenire comuni nel 1° biennio. Caso anomalo è invece quello del Fondo4 che vede un crollo sostanziale della propria diffusione tra i clienti entrati tra il 1991 e il 1993 e una lieve ripresa negli anni successivi.

Assicurazioni sulla vita Fondo1

Fig. 3.2. Presenza delle forme di investimento nei diversi bienni al variare dell’anno di ingresso. (0=assenza, 1=1° biennio, 2=2° biennio, 3=3° biennio)

(continua nelle pagine seguenti)

0123

1980-1986 1987-1990 1991-1993 1994-1996 1997-19990%

25%

50%

75%

100%

Perc

ent

0123

1980-1986 1987-1990 1991-1993 1994-1996

75%

50%Perc

ent

25%

0%

100%

1997-1999

21

Page 24: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Fondo2 Fondo4

Fondo5 Fondo6

Fondo7 Fondo8

Fig. 3.2. Presenza delle forme di investimento nei diversi bienni al variare dell’anno di ingresso. (0=assenza, 1=1° biennio, 2=2° biennio, 3=3° biennio)

0123

1980-1986 1987-1990 1991-1993 1994-1996 1997-19990%

25%

50%

t

75%

100%

Perc

en

0123

1980-1986 1987-1990 1991-1993 1994-1996 1997-19990%

25%

50Perc

ent

%

75%

100%

0123

1980-1986 1987-1990 1991-1993 1994-1996 1997-19990%

25%

50%Perc

ent

75%

100%0123

1980-1986 1987-1990 1991-1993 1994-1996 1997-19990%

25%

50%

75%

100%

Perc

ent

0123

1980-1986 1987-1990 1991-1993 1994-1996 1997-19990%

25%

50%

75%

100%

Perc

en t

0123

1980-1986 1987-1990 1991-1993 1994-1996

100%

75%

50%

25%

0%

Perc

ent

1997-1999

22

Page 25: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

4. Forma di investimento che assorbe la maggior quota di capitale. Nel percorso fatto fino ad ora, sono stati considerati diversi aspetti del comportamento dei clienti nei confronti del rapporto con la società. Partendo dal capitale totale investito, tramite il quale si è ottenuta un’idea generale di quanto i clienti hanno speso nel corso del contatto con l’azienda, ci siamo poi concentrati da una parte sulla prima forma di investimento acquistata, e dall’altra sulla generica presenza delle varie forme di investimento nei portafogli dei clienti. Le differenze a seconda del prodotto e anche del periodo temporale preso in considerazione sono risultate di fondamentale importanza. A questo punto, possiamo invece spostarci ad analizzare quale sia la forma di investimento che, per ogni cliente, ha riscosso il maggior successo in termini di capitale investito. Anche in questo caso possiamo considerare o la durata completa del rapporto con la società (che differisce da cliente a cliente in quanto i vari soggetti sono entrati in anni diversi) o una durata comune per tutti, ovvero il primo biennio. L’analisi che segue, sarà perciò divisa in queste due parti. 4.a. Forma di investimento più rilevante durante il corso di tutto il rapporto con la società Come primo passo dell’analisi, consideriamo la distribuzione delle frequenze del carattere relativo alla forma di investimento più rilevante nel portafoglio di un cliente. Visti i precedenti risultati sulle dinamiche di investimento, analizziamo anche le distribuzioni congiunte di Forma più rilevante e Anno di ingresso e le distribuzioni condizionate del primo carattere dato il secondo, riportate nella Tabella 4.1. (NB: la distribuzione marginale della forma più rilevante è riportata nell’ultima colonna della tabella). [Analisi condizionata: le distribuzioni di frequenza]

Tab. 4.1. Forma di inv. più rilevante * Anno di ingresso (categorie) Crosstabulation 1

Anno di ingresso (categorie) Forma più rilevante 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999

Total (marginale)

% within Anno 32.2% 33.8% 23.2% 12.7% 3.5%Asvita % of Total 6.7% 8.9% 3.9% 2.1% .7% 22.3% % within Anno .8% .6% 2.4% 2.0%Fondo0 % of Total .2% .1% .4% .4% 1.1% % within Anno 1.4% 2.7% 8.9% 15.8% 12.6%Fondo1 % of Total .3% .7% 1.5% 2.6% 2.5% 7.6% % within Anno 31.3% 26.6% 48.8% 35.8% 36.9%Fondo2 % of Total 6.5% 7.0% 8.2% 5.9% 7.3% 34.8% % within Anno 1.4% 1.1% 4.2% 3.0% 1.0%Fondo3 % of Total .3% .3% .7% .5% .2% 2.0% % within Anno 22.6% 16.3% .6% 2.4% 4.5%Fondo4 % of Total 4.7% 4.3% .1% .4% .9% 10.4% % within Anno 3.4% 6.1% 7.1% 12.1% 11.1%Fondo5 % of Total .7% 1.6% 1.2% 2.0% 2.2% 7.7% % within Anno 3.8% 1.1% 1.8% 5.1%Fondo6 % of Total .8% .3% .3% 1.0% 2.4% % within Anno 1.9% 6.8% 3.6% 6.1% 11.1%Fondo7 % of Total .4% 1.8% .6% 1.0% 2.2% 6.0% % within Anno 1.4% 3.4% 2.4% 4.2% 11.6%Fondo8 % of Total .3% .9% .4% .7% 2.3% 4.6% % within Anno .5% 1.1% .6% 3.6% .5%Fondo9 % of Total .1% .3% .1% .6% .1% 1.2%

Total % of Total 20.8% 26.2% 16.8% 16.5% 19.8% 100.0% A livello marginale, le forme di investimento più rilevanti sono, ancora, assicurazione sulla vita, Fondo2 e Fondo4 (anche perché, come vedremo meglio nel par. 5, la maggior parte dei clienti acquista solo una forma di investimento, che risulta quindi la più rilevante – essendo l’unica!).

1 Risultato ottenuto utilizzando SPSS (Analisi Descrittiva, Cross-tabs)

23

Page 26: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Analizzando però le distribuzioni del carattere condizionate all’anno di ingresso, notiamo una diminuzione dell’importanza delle assicurazioni sulla vita e del Fondo4, mentre il Fondo2 si mantiene piuttosto stabile. Risulta invece crescente nel tempo l’importanza dei Fondi1, 5 e 7 che per i clienti di recente acquisizione si rivelano le forme di investimento più rilevanti, anche se non raggiungono l’importanza del Fondo2. Sostanzialmente, nel tempo non solo si registra una generica diffusione di nuovi prodotti (segnalata nel paragrafo precedente), ma queste forme di investimento innovative risultano anche raccogliere, su alcuni clienti, i capitali più elevati. Come varia però in generale l’ammontare di capitale investito nella forma di investimento più rilevante a seconda dell’anno di ingresso? Vogliamo indagare sulla relazione (se esiste) che lega il capitale massimo investito all’anno di entrata.

Potremmo indagare quindi sulla relazione tra i due caratteri o facendo riferimento al loro eventuale legame lineare o indagando sull’esistenza di una relazione non necessariamente lineare o analitica.

y = -2.1105x + 4275.5R2 = 0.0066

0

200

400

600

800

1000

1200

1400

1600

1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000

Fig. 4.1 Capitale investito nella forma più rilevante e retta di regressione

Indagare il legame lineare che lega i due caratteri significa domandarsi se allo aumentare dell’anno di entra-ta aumenta o diminuisce il massimo capitale investito. Il diagramma di dispersione relativo ai due caratteri è riportato nella Fig. 4.1. Nel diagramma è riportata anche la retta di regressione. Il diagramma di dispersione non suggerisce alcun tipo di relazione tra i caratteri. L’indice di determinazione, R2, evidenzia che siamo in una situazione prossima a quella di indipenden-za correlativa.

Non ha senso utilizzare la relazione lineare per spiegare il capitale investito nella forma più rilevante in funzione del tempo. Il basso valore assunto dal coefficiente di correlazione lineare, riportato nella Tab. 4.2, non consente però di accettare l’ipotesi nulla di indipendenza correlativa (coeff. di correlazione nullo) per l’intera popolazione. Il p-value risulta infatti pari a 0.01, e l’ipotesi nulla va rifiutata, a meno che non si fissi un livello di significatività molto basso.

Tab. 4.2.2 Correlazione tra capitale investito nella forma più rilevante e anno di ingresso

Coefficiente Valore assunto P-value Pearson Correlation -0,081 ,010 Kendall's tau_b -0,121 ,000 Spearman's rho -0,172 ,000

Per valutare se il risultato ottenuto è dovuto alla presenza dei (molti) valori anomali ben visibili nel diagramma di dispersione [Non robustezza del coefficiente di correlazione lineare], nella Tabella 4.2 sono riportati anche due indici di concordanza, l’indice tau di Kendall e il coefficiente di Spearman. L’ipotesi nulla di non concordanza va anch’essa rifiutata.

2 Risultati ottenuti con SPSS (Analyze, Correlations, Bivariate).

24

Università Luigi Bocconi
Coefficiente di determinazione: in questo caso valuta la bontà della previsione della variabile dipendente Y sulla base di una funzione lineare della variabile esplicativa, X. R2 Assume valori compresi tra 0 e 1, inclusi gli estremi. Il valore 1 corrisponde ad un errore di previsione nullo (i punti del grafico di dispersione giacciono tutti sulla retta di regressione); il valore 0 corrisponde ad una previsione costante (effettuata senza tener conto della variabile esplicativa). R2 può essere ottenuto come rapporto tra la varianza spiegata dalla retta e la varianza di Y, e coincide con il quadrato del coefficiente di correlazione lineare.
Università Luigi Bocconi
Coefficiente di correlazione (: Indicatore (relativo) del livello e del verso dell’associazione lineare tra due caratteri quantitativi. Assume valori compresi tra –1 e 1 (inclusi). Valori positivi indicano relazione diretta (coppie di modalità dei caratteri concentrate intorno ad una retta di pendenza positiva), valori negativi associazione relazione inversa. Quanto più |(| è vicino a 1, tanto più è elevato il grado di associazione lineare. Se ( è 1 (–1), l’associazione lineare è perfetta e i punti del grafico di dispersione sono tutti allineati su una retta con coefficiente angolare positivo (risp. negativo). Valori di ( prossimi a 0 non indicano mancanza di associazione tra i due caratteri, ma mancanza di associazione lineare; potrebbero cioè essere presenti altri tipi di legame. ( è particolarmente sensibile alla presenza di coppie di valori anomali.
Università Luigi Bocconi
P-value: se si sottopone a verifica un’ipotesi nulla H0 contro l’ alternativa, H1, la decisione in merito al rifiutare o meno H0 viene presa sulla base di una statistica test la cui distribuzione è nota assumendo che H0 sia vera. In questo caso la statistica test è il coefficiente di correlazione, (. Se i due caratteri sono non correlati (ipotesi nulla) ( dovrebbe assumere valori piuttosto bassi. Il p-value è la probabilità di estrarre campioni caratterizzati da un valore del coefficiente più elevati in valore assoluto di quello osservato per il campione in esame. Valori molto bassi del p-value indicano quindi che sotto l’ipotesi nulla il risultato campionario osservato è molto anomalo e deve quindi farci propendere per la decisione di rifiutare H0.
Piccarreta
Note
Diagramma di dispersione: noto anche come “scatterplot”, è una rappresentazione grafica per coppie di caratteri quantitativi, costruita semplicemente riportando in un piano cartesiano tutte le coppie di modalità (la prima, relativa al primo carattere, in ascissa, la seconda in ordinata) rilevate sulle varie unità del collettivo in esame; appare quindi come una “nuvola” di punti. Fornisce una prima, fondamentale, descrizione della distribuzione congiunta dei due caratteri e quindi, in particolare, di quale sia il tipo ed il grado di associazione tra essi. Ad esempio, è immediato rilevare l’eventuale linearità nella associazione (punti distribuiti attorno ad una retta obliqua del piano), oppure un’associazione di tipo non lineare (la nuvola di punti ha forma di curva, ad esempio logaritmica o polinomiale). Al contrario, nuvole di punti senza alcun andamento particolare (distribuiti in maniera “casuale” nel piano) indicano scarsa associazione tra i caratteri. Il grafico di dispersione permette di rilevare facilmente eventuali outliers (osservazioni eccezionali)..
Piccarreta
Note
Retta di regressione: E’ la retta che interpola al meglio la nuvola di punti. E’ quindi la funzione lineare che massimizza il coefficiente di determinazione R2 (nella famiglia di tutte le funzioni lineari della variabile esplicativa).
Piccarreta
Note
Ipotesi nulla: è una congettura su una caratteristica della popolazione che viene confrontata con un’altra ipotesi, detta alternativa. La verifica di ipotesi è il procedimento inferenziale attraverso il quale si decide, sulla base dei risultati campionari, per quale ipotesi è opportuno propendere. L’ipotesi nulla è quella nei confronti della quale si è più “conservativi”: sostanzialmente essa viene ritenuta “vera” a meno che l’evidenza empirica non le sia fortemente contraria. In questo caso l’ipotesi nulla asserisce che il coefficiente di correlazione sia pari a zero, mentre l’ipotesi alternativa stabilisce che è diverso da zero (potrebbe essere negativo o positivo).
Piccarreta
Note
Il livello di significatività è il valore minimo che (decidiamo) possa essere assunto dal p-value affinchè si decida di accettare l’ipotesi nulla.
Piccarreta
Note
Valori anomali: nel caso bivariato definiamo anomala un’osservazione che presenta una coppia di modalità che nel diagramma di dispersione è in una posizione poco coerente con l’andamento generale della nuvola dei punti. Non è detto che una coppia anomala di modalità sia caratterizzata da due modalità anomale a livello marginale.
Piccarreta
Note
Indice tau di Kendall e coefficiente di Spearman: Indicatori di concordanza per distribuzioni doppie, per dati qualitativi ordinali o quantitativi, basati sui ranghi. Le modalità di ognuno dei due caratteri vengono ordinate in modo crescente; ad ogni osservazione è assegnata la posizione occupata in ciascuna delle due sequenze ordinate. Vengono sostanzialmente create due graduatorie, una per ogni carattere. Si valuta quindi se le graduatorie sono concordanti (osservazioni che occupano le posizioni più elevate in una graduatoria occupano posizioni elevate anche nell’altra) o discordanti (osservazioni che occupano le posizioni più elevate in una graduatoria occupano posizioni basse nell’altra). Gli indici di concordanza assumono valori tra -1 e 1 (estremi inclusi). Il valore 1 indica che le due graduatorie sono perfettamente concordanti, mentre il valore -1 indica che le graduatorie sono perfettamente discordanti. Se utilizzati con riferimento a caratteri quantitativi, questi indicatori di concordanza risultano robusti, cioè piuttosto insensibili a valori estremi. Questo perché non si tiene conto dei valori effettivi, ma solo delle loro posizioni.
Page 27: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

E’ comunque evidente che la relazione lineare, pur non essendo assente, non è comunque di forte entità. Analizzando il diagramma di dispersione, ci rendiamo conto che non è probabilmente possibile individuare una funzione analitica (anche non lineare) che leghi tra loro i caratteri. Ci chiediamo quindi se al variare dell’anno varia la distribuzione del capitale investito nella forma di investimento più rilevante, senza fare alcun tipo di ipotesi sulla forma della dipendenza. Cominciamo valutando se la distribuzione della variabile dipendente varia al variare dell’anno di ingresso. [Analisi stratificata]. In Tabella 4.3 sono riportate le medie al variare dell’anno di ingresso [Analisi stratificata: le misure di sintesi], mentre nella Figura 4.1. sono riportati i box plot. [Analisi stratificata: box plot affiancati] Tab. 4.3. Medie degli investimenti impegnati nella forma più rilevante per anno di ingresso (categorie)

Capitale investito nella forma di investimento più rilevante Anno di ingresso (categorie) Mean 5% Trimmed Median

1980-1986 98.0704 76.6052 52.1364 1987-1990 59.3978 43.2959 29.0584 1991-1993 74.0133 53.2755 31.7027 1994-1996 91.5588 63.2087 38.1129 1997-1999 48.4799 36.2768 20.4780

198165168263208N =

1997-19991994-19961991-19931987-19901980-1986

Mas

sim

o ca

pita

le in

vest

ito (i

n m

ilion

i)

1600

1400

1200

1000

800

600

400

200

0

-200

Fig. 4.2.3 Capitale investito nella forma di investimento più

rilevante (al variare dell’anno di ingresso)

In generale, la media del massimo capitale investito risulta molto più elevata per i due periodi 1980-1986 e 1994-1996; mentre la media più bassa è quella relativa all’ultimo periodo. Ciò potrebbe spiegarsi con la tendenza degli investitori di recente acquisizione verso una maggior diversificazione del portafoglio. Invece, l’idea che clienti con maggiore anzianità di rapporto abbiano più tempo per acquistare fiducia nei confronti della società e quindi per decidere di investire ingenti quote di capitale non spiegherebbe il boom positivo registrato nel triennio 1994-96.

I risultati dell’ANOVA4 (Tabella 4.4) ci mostrano che almeno una delle differenze è significativa, in quanto l’ipotesi nulla di uguaglianza tra tutte le medie condizionate è respinta (p-value molto basso). [Analisi della varianza]. I test post hoc (condotti per stabilire quali coppie di medie risultano diverse tra loro, portando al rigetto dell’ipotesi nulla) [I test post-hoc nell’ANOVA standard] evidenziano che la media più elevata (1980-1986) risulta significativamente diversa da quelle più basse (1987-1990 e 1997-1999) e la seconda media in ordine di grandezza (1994-1996) risulta significativamente diversa da quella più bassa.

3 Risultati ottenuti utilizzando SPSS (Analyze, Descriptive statistics, Explore, Dependent variabile: capitale investito nella forma di investimento più rilevante, Factor: anno di ingresso) 4 Risultati ottenuti utilizzando SPSS (Analyze, Compare means, One-way Anova).

25

Università Luigi Bocconi
Media: indicatore di tendenza (o posizione) centrale, per dati quantitativi. E’ nota anche come centro di ordine 2, in quanto è il punto più “vicino” ai dati, rispetto alla distanza quadratica. Particolarmente sensibile ad eventuali valori estremi, è quindi da usare con cautela nel caso in cui vi siano, per il carattere considerato, valori isolati molto elevati o molto bassi.
Università Luigi Bocconi
Ipotesi nulla: è una congettura su una caratteristica della popolazione che viene confrontata con un’altra ipotesi, detta alternativa. La verifica di ipotesi è il procedimento inferenziale attraverso il quale si decide, sulla base dei risultati campionari, per quale ipotesi è opportuno propendere. L’ipotesi nulla è quella nei confronti della quale si è più “conservativi”: sostanzialmente essa viene ritenuta “vera” a meno che l’evidenza empirica non le sia fortemente contraria. In questo caso l’ipotesi nulla asserisce che le medie condizionate siano tutte uguali tra di loro e che ci sia quindi indipendenza in media del capitale dall’anno di ingresso.
Università Luigi Bocconi
P-value: quando si sottopone a verifica un’ipotesi nulla contro un’ipotesi alternativa, la decisione statistica in merito al rifiutare o meno l’ipotesi nulla viene presa sulla base di una statistica test la cui distribuzione è nota assumendo che l’ipotesi nulla sia vera. Ad esempio, in questo caso la statistica test per verificare l’ipotesi di indipendenza in media è la statistica F. Se il capitale è indipendente in media dall’anno di ingresso e le medie condizionate sono quindi tutte uguali, (ipotesi nulla) la statistica F dovrebbe assumere valori piuttosto bassi. Il p-value è la probabilità di estrarre campioni caratterizzati da un valore della statistica F più elevati di quello osservato per il campione in esame. Valori molto bassi del p-value indicano quindi che sotto l’ipotesi nulla il risultato campionario osservato è molto anomalo e deve quindi farci propendere per la decisione di rifiutare l’ipotesi nulla.
Page 28: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

26

Tabella 4.4. ANOVA di Massimo capitale investito | Anno di ingresso

Anche in questo caso, come già nel caso del capitale investito nel primo biennio, cadono entrambe le ipotesi alla base del modello di ANOVA: l’ipotesi di uguaglianza tra le varianze è rifiutata e la distribuzione non è normale ed è fortemente asimmetrica. E’ quindi opportuno considerare test che tengano esplicitamente conto di tali deviazioni dalle ipotesi5. [ANOVA non parametrica] [Caduta delle ipotesi alla base del modello ANOVA: non omogeneità delle varianze]

Tali test portano però esattamente alle stesse considerazioni fatte sopra. [Risultati dell’anova sotto la caduta delle ipotesi]

E’ ora opportuno chiedersi se l’ammontare di capitale investito nella forma di investimento preferita dipende da tale forma. A tale scopo, riportiamo le medie condizionate alla forma di investimento più rilevante (Tabella 4.5) e, nella Figura 4.3. i box-plot: la media del capitale investito risulta molto più elevata per il Fondo9, cui seguono Fondo2 e Fondo4.

5 Ovviamente, quando si procede ad un’analisi della varianza si verifica prima se le assunzioni sono soddisfatte e si sceglie quindi l’approccio più adeguato. In questo caso, quindi si sarebbero dovuti prendere in considerazione solo i risultati ottenuti con l’approccio non parametrico. Procediamo in questo modo per “esigenze didattiche”.

Test of Homogeneity of Variances

7.475 4 997 .000

Levene Statistic df1 df2 Sig.

ANOVA

355441.369 4 88860.342 5.967 .000 14848485.912 997 14893.16515203927.281 1001

Between Groups Within Groups Total

Sum of Squares df Mean Square F Sig.

Multiple Comparisons

38.6726* 11.32386 .006 7.7271 69.618224.0571 12.65905 .318 -10.5372 58.65156.5116 12.72255 .986 -28.2563 41.2795

49.5905* 12.11692 .000 16.4777 82.7033-38.6726* 11.32386 .006 -69.6182 -7.7271-14.6155 12.05312 .744 -47.5540 18.3230-32.1611 12.11980 .062 -65.2818 .959610.9178 11.48242 .877 -20.4610 42.2967

-24.0571 12.65905 .318 -58.6515 10.537214.6155 12.05312 .744 -18.3230 47.5540

-17.5455 13.37578 .684 -54.0985 19.007525.5334 12.80109 .269 -9.4491 60.5159-6.5116 12.72255 .986 -41.2795 28.256332.1611 12.11980 .062 -.9596 65.281817.5455 13.37578 .684 -19.0075 54.098543.0789* 12.86389 .008 7.9248 78.2330

-49.5905* 12.11692 .000 -82.7033 -16.4777-10.9178 11.48242 .877 -42.2967 20.4610-25.5334 12.80109 .269 -60.5159 9.4491-43.0789* 12.86389 .008 -78.2330 -7.9248

(J) Anno di ingresso 1987-1990 1991-1993 1994-1996 1997-1999 1980-1986 1991-1993 1994-1996 1997-1999 1980-1986 1987-1990 1994-1996 1997-1999 1980-1986 1987-1990 1991-1993 1997-1999 1980-1986 1987-1990 1991-1993 1994-1996

(I) Anno di ingresso 1980-1986

1987-1990

1991-1993

1994-1996

1997-1999

Tukey HSD

MeanDifference (I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

T*. he mean difference is significant at the .05 level.

Page 29: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Tabella 4.5.6 Misure di sintesi per Massimo capitale investito | Forma di investimento più rilevante Capitale investito Forma di inv. più

rilevante Mean (media)

5% Trimmed Mean (media troncata 5%)

Median (mediana)

Asvita 62.2908 41.7694 29.5310 Fondo0 53.8663 46.1937 13.0769 Fondo1 44.0616 31.5548 21.4805 Fondo2 91.4435 69.7905 48.6022 Fondo3 63.4763 40.9337 21.9506 Fondo4 48.4539 32.6900 17.6312 Fondo5 86.5810 73.5024 45.6574 Fondo6 56.3308 46.4839 40.9043 Fondo7 41.8939 33.1470 23.3820 Fondo8 87.3725 71.0754 43.1160 Fondo9 212.8911 189.1070 38.0751

1246602477104203497611223N =fondo9

fondo8

fondo7

fondo6

fondo5

fondo4

fondo3

fondo2

fondo1

fondo0

asvita

Mas

sim

o ca

pita

le in

vest

ito (i

n m

ilioni

)

1600

1400

1200

1000

800

600

400

200

0

-200

Fig. 4.3. Capitale investito nella forma di investimento più rilevante (al variare della forma di investimento più rilevante)

Ancora una volta ricorriamo all’ANOVA per confermare che almeno una delle differenze è significativa. L’ipotesi nulla di uguaglianza tra tutte le medie condizionate è respinta (Tabella 4.6.(a)). Per quanto riguarda i confronti multipli riportiamo nella Tabella 4.6 (a) i risultati del test di Tukey (HSD). Le medie sono raggruppate in gruppi. Medie appartenenti allo stesso gruppo non sono da considerarsi significativamente tra loro. In particolare è la media di Fondo9 a differire significativamente da tutte le altre, mentre la media di Fondo2 risulta significativamente diversa solo da quella di Fondo1 e Fondo4.

Tab. 4.6.(a) ANOVA di Massimo capitale investito | Forma di investimento più rilevante

segue nella prossima pagina

6 Risultati ottenuti utilizzando SPSS (Analyze, Descriptive statistics, Explore, Dependent variabile: capitale investito nella forma di investimento più rilevante, Factor: forma di investimento più rilevante)

599702.569 10 59970.257 4.069 .000 14604224.712 991 14736.85615203927.281 1001

Sum of Squares df Mean Square FBetween Groups Within Groups Total

Sig.

27

Università Luigi Bocconi
Media troncata (5%): è la media aritmetica calcolata escludendo il 5% delle osservazioni estreme. Attenua la non robustezza della media aritmetica.
Università Luigi Bocconi
Mediana: indicatore di tendenza (o posizione) centrale, per dati quantitativi oppure qualitativi ordinali. E’ il valore che, nella successione ordinata dei dati occupa la posizione centrale. Quindi il 50% delle osservazioni hanno un valore inferiore e il 50% un valore superiore alla mediana. Quando utilizzata per dati quantitativi, è nota anche come centro di ordine 1, in quanto risulta il punto più “vicino” ai dati, rispetto alla distanza usuale (euclidea). E’ un indicatore di posizione centrale “robusto” rispetto alla presenza di dati eccezionali, ovvero risente poco della presenza di valori anomali. Per questo motivo è preferibile alla media aritmetica per indicare la tendenza centrale di distribuzioni con queste caratteristiche.
Page 30: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Tab. 4.6.(a) (continua) ANOVA di Massimo capitale investito | Forma di investimento più rilevante

a,b Tukey HSD

Anche in questo caso, come già nel caso del capitale investito nel primo biennio, cadono entrambe le ipotesi alla base del modello di ANOVA: l’ipotesi di uguaglianza tra le varianze è rifiutata e la distribuzione non è normale ed è fortemente asimmetrica. E’ quindi opportuno considerare test che tengano esplicitamente conto di tali deviazioni dalle ipotesi. Nella Tabella 4.6(b) sono riportati i test adeguati nel caso di caduta dell’ipotesi di omogeneità della varianza all’interno degli strati che, come si vede nella tabella stessa, è rifiutata.

Tab. 4.6.(b)7 ANOVA di Massimo capitale investito | Forma di investimento più rilevante nel caso di non omogeneità delle varianze

Test post-hoc nel caso di varianze non uguali nei diversi strati

Test (I) Forma di investimento

(J) Forma di investimento

Mean Difference (I-J) Std. Error Sig.

Fondo2 Fondo1 47.3820 11.3951 .003Fondo2 Fondo4 42.9896 12.0289 .023Fondo2 Fondo7 49.5496 10.5065 .000Tamhane

Fondo5 Fondo7 44.6872 13.6502 .073Fondo2 Fondo4 42.9896 12.0289 .018Fondo2 Fondo7 49.5496 10.5065 .000Fondo2 Fondo1 47.3819 11.3951 .002Games-Howell

Fondo5 Fondo7 44.6871 13.6502 .051* Sono state riportate solo le differenze più significative

7 Risultati ottenuti utilizzando SPSS (Analyze, Compare means, One-way Anova, specificando nelle options Homogeneity of variances test, test di Welch e test di Brown-Forsythe).

60 41.893976 44.0616

104 48.453911 53.866324 56.3308

223 62.290820 63.476377 86.581146 87.3726

349 91.443512 212.8911

.872 1.000

Forma di investimentopiù rilevante Fondo7 Fondo1 Fondo4 Fondo0 Fondo6 Asvita Fondo3 Fondo5 Fondo8 Fondo2 Fondo9 Sig.

N 1 2Subset for alpha = .05

Test of Homogeneity of Variances

6.487 10 991 .000Levene Statistic df1 df2 Sig.

Robust Tests of Equality of Means

3.737 10 116.367 .000 Statistic df1 df2

Welch3.159 10 40.316 .005 Brown-Forsythe

Sig.

28

Page 31: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Notiamo un’interessante differenza con quanto trovato nella Tabella 4.6(a). In qual caso infatti, era il Fondo9 a differenziarsi da tutti gli altri. Dai box-plot affiancati si nota che il Fondo9 è la forma di investimento più rilevante solo per 12 clienti. Il fatto che le varianze non si possano considerare omogenee induce una maggior variabilità (e inaffidabilità) relativamente alla media del massimo capitale investito da tali clienti. Le differenze quindi, per quanto elevate, non vengono considerate significativamente diverse. Per quanto riguarda il problema della non-normalità (e forte asimmetria) della distribuzione del massimo capitale investito, sono stati considerati anche i test non parametrici di analisi della varianza, che portano però alle stesse conclusioni ottenute sotto l’ipotesi di normalità.8 [Risultati dell’anova sotto la caduta delle ipotesi] E’ interessante a questo punto verificare con test post-hoc non parametrici le ipotesi concernenti le differenze tra le diverse medie. Nel caso non parametrico, tali ipotesi andrebbero verificate una per una. Riportiamo di seguito solo i risultati del test relativo alla differenza tra il Fondo2 e il Fondo9.

Tab. 4.7.9 Test di Mann-Whitney e di Kolmogorov-Smirnov relativi al massimo capitale investito in Fondo2 e in Fondo9

Test Statistics

1902.00062977.000

-.540.589

Mann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)

Max capitale per forma di inv.

Test Statistics

.276

.276-.107

.940

.340

AbsolutePositiveNegative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

Max capitale per forma di inv.

Entrambi i test accettano l’ipotesi di uguaglianza tra le due distribuzioni. Ciò è ragionevole se si considerano le misure di sintesi nella Tabella 4.5: la media relativa al Fondo9 è molto elevata rispetto alle altre, ma la mediana non risulta così distante dalle altre. E’ quindi sensato rifiutare l’ipotesi che tale distribuzione si discosti dalle altre. L’ANOVA standard che si basa sul confronto tra le medie porta quindi a rifiutare l’ipotesi che tale media sia uguale alle altre (test post-hoc). I test non parametrici, basati su ranghi e mediane portano invece ad accettare tali ipotesi. A questo punto, vista la relazione esistente tra massimo capitale investito e forma di investimento più rilevante e anno di ingresso, studiamo la dipendenza del massimo capitale investito da entrambi i fattori, considerando anche la loro interazione. [Anova a due (o più) vie: cenni] Tale analisi è utile in quanto si procede a valutare la dipendenza del massimo capitale investito da ognuno dei due fattori condizionatamente all’altro. Se i due caratteri esplicativi sono associati tra di loro, può infatti accadere che entrambi risultino significativi nella spiegazione del carattere dipendente, ma tale significativo effetto è dovuto non tanto alla relazione con la variabile dipendente ma alla relazione esistente tra i due caratteri esplicativi. Nella Tabella 4.7 si riportano i risultati per questo modello.

8 Ovviamente, quando si procede ad un’analisi della varianza si verifica prima se le assunzioni sono soddisfatte e si sceglie quindi l’approccio più adeguato. In questo caso, quindi si sarebbero dovuti prendere in considerazione solo i risultati ottenuti con l’approccio non parametrico. Procediamo in questo modo per “esigenze didattiche”. 9 Risultati ottenuti con SPSS (Analyze, Non parametric tests, 2 independent samples).

29

Università Luigi Bocconi
Varianza: misura della dispersione di dati quantitativi intorno alla loro media. E’ la media degli scarti quadratici dalla media aritmetica. E’ nulla se e solo se i dati sono tutti coincidenti, altrimenti è positiva, tanto più grande quanto più i dati sono dispersi. Ha come unità di misura il quadrato dell’unità di misura del carattere e, anche per questo motivo, non è opportuno utilizzarla per confrontare la variabilità tra caratteri con unità di misura differente. In ambito previsivo, si può osservare che la varianza di una certa variabile Y coincide con l’errore (quadratico) medio di previsione commesso quando si prevede Y utilizzando la sua media, senza cioè tener conto di altre variabili esplicative. In questo caso, stiamo considerando la varianza delle distribuzioni condizionate: tali varianze rappresentano l’errore (quadratico) medio di previsione commesso quando in una certa sotto-popolazione si prevede Y utilizzando la media condizionata.
Page 32: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Tab. 4.8. ANOVA di Massimo capitale investito | (Anno di ingr., Forma di inv. più rilev.)

Tests of Between-Subjects Effects

Dependent Variable: Massimo capitale investito per forma di investimento

1700235.507a 52 32696.837 2.298 .0001223570.836 1 1223570.836 85.989 .000

273865.009 10 27386.501 1.925 .039102496.320 4 25624.080 1.801 .127711879.554 38 18733.672 1.317 .097

13503691.774 949 14229.39120545737.006 100215203927.281 1001

SourceCorrected ModelInterceptForma di inv. più rilevanteAnno di ingresso (classi)Forma più rilevante * anno di ingressoErrorTotalCorrected Total

Type III Sum of Squares df Mean Square F Sig.

R Squared = .112 (Adjusted R Squared = .063)a.

Quando si prendono in considerazione entrambi i caratteri, l’unico ad essere significativo è la forma di ingresso più rilevante. L’effetto principale dell’anno di ingresso non risulta invece significativo, a meno che non si consideri la sua interazione con la forma di investimento più rilevante (anche se non è molto significativo nemmeno l’effetto interazione). In conclusione, possiamo affermare che il massimo capitale investito dipende fondamentalmente dalla forma di investimento acquistata, mentre la dipendenza osservata dall’anno di ingresso è presumibilmente legata al fatto che nel tempo sono cambiate le forme di investimento che attraggono più capitale. E’ importante evidenziare che, quando si considerino più effetti, non è possibile condurre l’analisi della varianza in modo non parametrico (ed è questo il motivo per cui l’analisi della varianza viene spesso condotta anche sotto palesi cadute dell’ipotesi di normalità). Come ultima considerazione, analizziamo la tabella a doppia entrata della distribuzione congiunta della forma di investimento più rilevante e della forma di investimento di ingresso, al fine di comprendere se c’è una tendenza degli investitori ad entrare acquistando la forma di investimento che ritengono più rilevante, e verso la quale sono quindi disposti a far convergere la maggior quota di capitale. La Tabella 4.9 mostra chiaramente che i due caratteri sono associati: si nota una tendenza delle frequenze congiunte a disporsi lungo la diagonale principale, a indicare una tendenza ad entrare acquistando la forma di investimento più rilevante (cioè il massimo investimento in capitale è affrontato al momento dell’ingresso). Sono interessanti due eccezioni: gli investitori che entrano stipulando una polizza assicurativa presentano una maggior tendenza rispetto agli investitori che entrano con altre forme di investimento a dirigere il massimo capitale verso altre forme di investimento. Inoltre Fondo2 risulta la forma di investimento che riesce più delle altre ad attrarre elevati capitali anche di investitori che entrano con altre forme di investimento. La significatività dell’associazione tra i due caratteri è assicurata dalla significatività di tutti gli indici di associazione. In particolare sono significativi sia i test Chi-quadrato sia le misure di associazione simmetrica; risultano inoltre significative anche le misure di associazione “con direzione” che rilevano la possibilità di prevedere un carattere a partire dall’altro. La significatività di questi ultimi indici è evidentemente legata alla concentrazione delle frequenze intorno alla diagonale principale della tabella a doppia entrata (quadrata) che risulta piuttosto prossima alla condizione di massima connessione. [Le misure di associazione]

30

Università Luigi Bocconi
Tabella a doppia entrata: quando si considerano due caratteri che assumono entrambi un numero contenuto di modalità, la loro distribuzione congiunta può essere analizzata per mezzo di una tabella a doppia entrata. In tale tabella le intestazioni di righe e colonne sono le modalità assunte dai caratteri. Nella cella corrispondente ad una determinata coppia di modalità viene quindi riportata la frequenza congiunta assoluta (il nro di unità che presentano la coppia di modalità) o la frequenza relativa (la frazione di unità che presentano la coppia di modalità). La tabella a doppia entrata perde capacità di sintesi quando le coppie di modalità sono molte e le frequenze assolute e relative sono molto basse. Dal punto di vista “visivo” la tabella non tiene conto delle distanze tra le diverse modalità, e può quindi non essere adeguata nel caso in cui almeno uno dei due caratteri sia quantitativo e caratterizzato da modalità molto disperse. Nel caso in esame non siamo interessati a considerare l’anno come carattere quantitativo, quindi non ci interessano le distanze tra le diverse classi dell’anno, e la tabella a doppia entrata è adeguata a rappresentare la distribuzione congiunta dei due caratteri.
Page 33: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Tab. 4.9. 10 Analisi congiunta della forma di inv. più rilevante (max_cap) e della prima forma di inv.

Distribuzione delle frequenze congiunte

Fr. Ass. Prima forma di investimento scelta max_cap Asvita Fondo2 Fondo4 Fondo7 Fondo1 Fondo5 Fondo8 Fondo6 Fondo3 Fondo0 Fondo9 Tot.Asvita 140 29 28 11 8 3 2 2 223Fondo2 65 187 17 26 17 9 12 9 5 2 349Fondo4 7 10 77 3 1 4 1 1 104Fondo7 3 9 3 39 3 1 1 1 60Fondo1 15 4 11 37 2 1 2 1 2 1 76Fondo5 27 6 8 3 3 25 2 2 1 77Fondo8 11 4 5 3 3 16 1 2 1 46Fondo6 3 4 2 1 2 11 1 24Fondo3 5 1 3 1 1 9 20Fondo0 2 2 1 2 1 3 11Fondo9 2 1 3 1 2 1 2 12Totale 280 254 145 100 77 46 32 33 20 11 4 1002

Misure di associazione

Tipo di misura Indice Valore P-value (appr.) Pearson Chi-Square 1808.003 .000 Chi-Square Tests Likelihood Ratio 1010.173 .000

Symmetric .339 Primo investimento Dependent .373 Lambda Massimo capitale Dependent .302

Primo investimento Dependent .224

Directional Measures Nominal by Nominal

Goodman and Kruskal tau Massimo capitale Dependent .215

Phi 1.343 .000 Cramer's V .425 .000 Symmetric Measures: Nominal by Nominal

Contingency Coefficient .802 .000 4.b. Forma di investimento più rilevante durante il primo biennio Se fino ad ora abbiamo considerato tutta la durata del rapporto con la società, è meglio a questo punto ripetere le analisi considerando per tutti i clienti un periodo di durata comune di attività (1° biennio). Le differenze osservate tra le medie potrebbero infatti essere guidate da capitali investiti dopo un certo periodo dall’entrata del cliente, nel momento in cui questi acquista fiducia nella rete. Per questo motivo, un’analisi che considera la stessa finestra temporale per tutti i clienti (e, ovviamente, l’ammontare di capitale relativo a tale forma di investimento) è l’unica che possa far emergere reali cambiamenti nel tempo. Ovviamente potremmo a questo proposito considerare in alternativa ad esempio il primo biennio, i primi due bienni, o i primi tre. Ma più la finestra temporale è lunga, più il gruppo di clienti analizzati risulta ristretto (e concentrato su clienti di più elevata anzianità di rapporto). Per questa ragione, ci concentriamo in particolar modo sul primo biennio di attività. Il diagramma a barre in Figura 4.4 conferma le tendenze osservate considerando l’intero arco di attività dei clienti: nel tempo, l’assicurazione vita e il Fondo4 sono stati sempre meno scelti come oggetto di maggiori investimenti, mentre Fondo1, Fondo5 e Fondo7 prendono piede. Fondo2 sembra riscuotere particolare successo soprattutto nel triennio 1991-1993 e a mantenerlo in parte negli anni successivi.

10 Output parziale di SPSS (Analyze, Descriptive, Cross-tabs)

31

Page 34: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Fig. 4.4. Forma di investimento più rilevante nel primo biennio (al variare dell’anno di ingresso)

Come in precedenza si notano inoltre (vedere Figura 4.5) fluttuazioni nel tempo dei capitali massimi impiegati dai clienti, che rispecchiano il ciclo economico del paese. Il confronto con la Figura 4.2 fa pensare che alcuni clienti con anzianità di rapporto più elevata abbiano acquistato fiducia nell’azienda in un secondo tempo, cosicché i valori ora riportati risultano sensibilmente più bassi di quanto osservato in precedenza.

198165168263208N =

1997-19991994-19961991-19931987-19901980-1986

1600

1400

1200

1000

800

600

400

200

0

198165168263208N =

1997-19991994-19961991-19931987-19901980-1986

200

0

Fig. 4.5. Capitale investito nella forma di investimento più rilevante nel 1° biennio al variare

dell’anno di ingresso (nel secondo diagramma non sono riportati i valori estremi).

L’ANOVA mostra ancora una volta che le medie risultano significativamente diverse tra loro (Tabella 4.8). I test post-hoc segnalano (come risultava per l’intero periodo di attività) che la media più elevata (1980-1986) è significativamente diversa da quelle più basse (1987-1990 e 1997-1999) e che la seconda media in ordine di grandezza (1994-1996) risulta significativamente diversa da quella più bassa (1997-1999). I risultati rimangono gli stessi anche utilizzando i test adeguati nel caso di non omogeneità delle varianze (adeguati in quanto il test di Levene porta a rifiutare l’ipotesi di omogeneità delle varianze). La media del periodo 1994-1996 risulta però significativamente diversa non da quella più bassa (1997-1999) ma da quella del periodo 1987-1990. Questo è probabilmente dovuto al fatto che le osservazioni sull’ultimo periodo sono in numero inferiore, e ciò comporta maggior incertezza nei risultati campionari sulla media di questo periodo (e quindi la differenza con le altre medie viene attribuita più facilmente ad oscillazioni casuali).

asvitafondo0fondo1fondo2fondo3fondo4

fondo5 fondo6 fondo7 fondo8 fondo9

1980-1986 1987-1990 1991-1993 1994-1996 1997-1999

75% Pe

rcen

t

50%

25%

0%

100%

32

Università Luigi Bocconi
Nel test di Levene l’ipotesi nulla è che le varianze del carattere nelle sotto-popolazioni considerate siano tutte uguali tra loro.
Page 35: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Sottolineiamo da ultimo che anche i test parametrici confermano che le distribuzioni subordinate non sono da considerarsi tutte uguali tra loro.

Tabella 4.8. ANOVA di Massimo capitale investito nel 1° biennio | Anno di ingresso

Possiamo a questo punto concentrarci sui capitali impiegati sulle forme di investimento più rilevanti per tipo di forma di investimento (Tabella 4.9 e Figura 4.6). La Tabella 4.9 evidenzia che le differenze nelle distribuzioni condizionate si riflettono sia nelle medie che nelle mediane. Tuttavia, notiamo anche, come nel paragrafo precedente, che alcune medie sono pesantemente influenzate dalla presenza di valori anomali [Valori anomali ed estremi]. Inoltre, la distribuzione condizionata al Fondo9 è caratterizzata come prima da un’ampiezza campionaria più esigua rispetto alle altre. Questo potrà ovviamente portare a differenze nei risultati ottenuti con l’approccio standard e con gli approcci adeguati nei casi di non omogeneità delle varianze e di non normalità. 11

Tabella 4.9. Massimo capitale investito nel 1° biennio | Forma più rilevante nel 1° biennio Capitale (in milioni) investito nel 1° biennio nella forma di inv. più rilevante Forma di inv. più

rilevante nel 1° biennio Mean 5% Trimmed Mean Median Asvita 58.231 40.987 30.276

Fondo0 12.683 12.910 13.054 Fondo1 27.543 23.025 14.180 Fondo2 86.621 63.706 38.890 Fondo3 29.376 25.415 18.974 Fondo4 43.382 28.488 16.913 Fondo5 61.406 49.826 32.696 Fondo6 53.133 43.211 22.446 Fondo7 30.551 26.609 22.245 Fondo8 86.959 64.465 44.961 Fondo9 471.759 474.944 322.301

52766254911718307756307N =

fondo9fondo8fondo7fondo6fondo5fondo4fondo3fondo2fondo1fondo0asvita

1600

1400

1200

1000

800

600

400

200

052766254911718307756307N =

fondo9fondo8fondo7fondo6fondo5fondo4fondo3fondo2fondo1fondo0asvita

900

800

700

600

500

400

300

200

100

0

Fig. 4.6. Capitale investito nella forma di investimento più rilevante 1° biennio (al variare della forma di investimento più rilevante nel 1° biennio))

11 Ovviamente, in genere si verifica prima se le assunzioni sono soddisfatte e si sceglie quindi l’approccio più adeguato. In questo caso, quindi si sarebbero dovuti prendere in considerazione solo i risultati ottenuti con l’approccio non parametrico. Procediamo in questo modo per “esigenze didattiche”.

257687.079 4 64421.770 4.795 .001 13396034.348 997 13436.34313653721.428 1001

Sum of Squares df Mean Square FBetween Groups Within Groups Total

Sig.

33

Page 36: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

L’ANOVA conferma le considerazioni fatte con riferimento all’analisi condotta su tutto il periodo di attività dei clienti. L’analisi della varianza e i test Post-Hoc evidenziano ancora una volta, come ci si poteva aspettare, che la media di Fondo9 differisce significativamente da tutte le altre, e che la media di Fondo2 risulta significativamente diversa da quella di Fondo1, Fondo4, Fondo7 e Fondo9. Anche in questo caso, se l’analisi viene condotta in modo non parametrico, il Fondo9 non risulta più distinguersi in modo significativo dagli altri, mentre viene confermata la rilevanza del Fondo2.

Studiando ora la dipendenza del massimo capitale investito 1° biennio da entrambi i fattori e dalla loro interazione, si osserva che entrambi i caratteri sono significativi, mentre non risulta significativa l’interazione tra i due caratteri (Tabella 4.10).

Tab. 4.10. ANOVA di Massimo capitale investito nel 1° biennio | (Anno di ingr., Forma di inv. più rilev.)

Tests of Between-Subjects Effects

E’ interessante considerare a questo punto le stime delle medie del carattere dipendente condizionate alle modalità delle variabili esplicative. Attenzione: quelle riportate nelle figure di seguito non sono le medie campionarie ma le stime delle medie ottenute sulla base del modello.

1997-19991994-19961991-19931987-19901980-1986

Estim

ated

Mar

gina

l Mea

ns

500

400

300

200

100

0

fondo9fondo8fondo7fondo6fondo5fondo4fondo3fondo2fondo1fondo0asvita

Est

imat

ed M

argi

nal M

eans

500

400

300

200

100

0

Tali grafici evidenziano meglio quali sono le differenze più rilevanti tra le medie marginali (forniscono cioè una visualizzazione grafica dell’esito dei test post hoc). Si noti come il Fondo9, caratterizzato da una media così elevata, riveste un ruolo abbastanza rilevante. Sappiamo che in questo modello risultano fondamentali due ipotesi che non sono soddisfatte, l’omogeneità delle varianze e la normalità dei dati. I risultati ottenuti andrebbero quindi valutati attentamente tenendo conto di quelli osservati nelle due ANOVA a una via.

Non è utile misurare la tendenza degli investitori ad entrare acquistando la forma di investimento che ritengono più rilevante, e verso la quale sono quindi disposti a far convergere la maggior quota di capitale: limitandoci ad osservare il 1° biennio, l’associazione in questo breve arco di tempo tra prima forma di investimento e forma di investimento più rilevante risulterà per forza maggiore rispetto a quanto osservato con riferimento all’intero arco di tempo di attività (Tab. 4.9), caso in cui era già significativa.

1705759.563a 38 44888.410 3.618 .0001213593.845 1 1213593.845 97.815 .000755482.769 10 75548.277 6.089 .000166293.392 4 41573.348 3.351 .010213628.101 24 8901.171 .717 .837

11947961.865 963 12407.022 17649611.157 100213653721.428 1001

Source Corrected Model Intercept Forma più rilev. 1° biennio Anno di ingresso (classi) Forma più rilev. 1° biennio * Anno di ingresso Error Total Corrected Total

Type III Sum of Squares df Mean Square F Sig.

Ra. Squared = .125 (Adjusted R Squared = .090)

34

Page 37: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

5. Numero di forme di investimento acquistate. L’idea che ci siamo fatti fino ad ora suggerisce che i clienti della società non siano molto attivi: la maggior parte di essi infatti decide al primo contatto con l’azienda dove investire maggiormente, mentre i movimenti dalla prima forma di investimento sembrano essere marginali (almeno per quanto suggerito dall’analisi presentata nell’ultima parte del paragrafo 3). Analizziamo a questo punto se e quanto i clienti siano davvero “dinamici” e fidelizzati, considerando il numero di forme di investimento possedute (Tabella 5.1).

Tab. 5.1. Distribuzione delle frequenze del numero totale di forme di investimento acquistate NF_TOT Frequenze assolute Frequenze relative Funzione di ripartizione 1 195 19.46% 19.46% 2 253 25.25% 44.71% 3 131 13.07% 57.78% 4 144 14.37% 72.16% 5 102 10.18% 82.34% 6 80 7.98% 90.32% 7 46 4.59% 94.91% 8 33 3.29% 98.20% 9 14 1.40% 99.60% 10 4 0.40% 100.00% Totale 1002 100.00%

I quartili della distribuzione sono, rispettivamente, 2, 3 e 5, il che indica che i 50% dei clienti “centrali” tendono a possedere tra le 2 e le 5 forme di investimento. Valutiamo ora l’andamento nel tempo del carattere, analizzando la distribuzione congiunta del numero di forme di investimento e dell’anno di ingresso e le distribuzioni di frequenza del primo carattere condizionato al secondo [Analisi condizionata: le distribuzioni di frequenza], riportate nella Tabella 5.2; nell’ultima riga sono riportate le medie di NF_tot subordinate all’anno di ingresso (nell’ultima colonna è riportata la media marginale). [Analisi condizionata: le misure di sintesi]

Tab. 5.2 Distribuzione congiunta (e subordinate) di NF_TOT e Anno di ingresso Anno di ingresso (categorie) Total

NF_TOT 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999Count 44 43 37 38 33 1951 % within Anno di ingresso 21.2% 16.3% 22.0% 23.0% 16.7% 19.5%Count 67 84 35 33 34 2532 % within Anno di ingresso 32.2% 31.9% 20.8% 20.0% 17.2% 25.2%Count 19 35 21 17 39 1313 % within Anno di ingresso 9.1% 13.3% 12.5% 10.3% 19.7% 13.1%Count 22 33 21 24 44 1444 % within Anno di ingresso 10.6% 12.5% 12.5% 14.5% 22.2% 14.4%Count 29 16 18 19 20 1025 % within Anno di ingresso 13.9% 6.1% 10.7% 11.5% 10.1% 10.2%Count 13 20 17 16 14 806 % within Anno di ingresso 6.3% 7.6% 10.1% 9.7% 7.1% 8.0%Count 9 12 7 8 10 467 % within Anno di ingresso 4.3% 4.6% 4.2% 4.8% 5.1% 4.6%Count 4 10 7 8 4 338 % within Anno di ingresso 1.9% 3.8% 4.2% 4.8% 2.0% 3.3%Count 8 4 2 149 % within Anno di ingresso 3.0% 2.4% 1.2% 1.4%Count 1 2 1 410 % within Anno di ingresso .5% .8% .6% .4%Count 208 263 168 165 198 1002Total % within Anno di ingresso 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%

Medie di NF_tot 3.1298077 3.437262 3.553571 3.515152 3.434343 3.40519

35

Università Luigi Bocconi
Distribuzione delle frequenze: quando si considera un carattere che assume un numero contenuto di modalità, la sua distribuzione può essere studiata per mezzo della tabella delle frequenze. In tale tabella vengono associate ad ognuna delle modalità assunte dal carattere la frequenza assoluta (il nro di unità che presentano la modalità) e/o la frequenza relativa (la frazione di unità che presentano la modalità) che le compete. La tabella perde capacità di sintesi quando le modalità sono molte e le frequenze assolute e relative sono molto basse. Dal punto di vista “visivo” la tabella non tiene conto delle distanze tra le diverse modalità, e può quindi non essere adeguata nel caso in cui il carattere sia quantitativo e caratterizzato da modalità molto disperse. In questi casi è opportuno rappresentarla graficamente in modo da visualizzare al meglio le differenze tra le diverse modalità. Nel nostro caso, il carattere è quantitativo, ma le modalità sono equidistanti, quindi la tabella non risente di questi limiti.
Università Luigi Bocconi
Quartili: sono 3 indicatori, calcolabili per dati quantitativi o qualitativi ordinali. Considerata la successione dei valori osservati disposti in ordine crescente, i quartili indicano i tre punti che dividono la distribuzione in quattro parti uguali. Ad esempio il 1° quartile tale che il 25% della popolazione presenta un valore al di sotto e il restante 75% al di sopra di esso. Il 2° quartile è la mediana. Quando i dati sono raggruppati in una tabella delle frequenze, il 1° quartile è il valore in corrispondenza del quale la funzione di ripartizione raggiunge o supera per la prima volta 0.25, il 2° quartile è il valore in corrispondenza del quale la funzione di ripartizione raggiunge o supera per la prima volta 0.5 e il 3° quartile è il valore in corrispondenza del quale la funzione di ripartizione raggiunge o supera per la prima volta 0.75.
Piccarreta
Note
Tabella a doppia entrata: quando si considerano due caratteri che assumono entrambi un numero contenuto di modalità, la loro distribuzione congiunta può essere analizzata per mezzo di una tabella a doppia entrata. In tale tabella le intestazioni di righe e colonne sono le modalità assunte dai caratteri. Nella cella corrispondente ad una determinata coppia di modalità viene quindi riportata la frequenza congiunta assoluta (il nro di unità che presentano la coppia di modalità) o la frequenza relativa (la frazione di unità che presentano la coppia di modalità). La tabella a doppia entrata perde capacità di sintesi quando le coppie di modalità sono molte e le frequenze assolute e relative sono molto basse. Dal punto di vista “visivo” la tabella non tiene conto delle distanze tra le diverse modalità, e può quindi non essere adeguata nel caso in cui almeno uno dei due caratteri sia quantitativo e caratterizzato da modalità molto disperse. Nel caso in esame non siamo interessati a considerare l’anno come carattere quantitativo, quindi non ci interessano le distanze tra le diverse classi dell’anno, e la tabella a doppia entrata è adeguata a rappresentare la distribuzione congiunta dei due caratteri.
Page 38: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

Notiamo che il numero di forme di investimento possedute non cambia molto, almeno in media, al variare dell’anno di ingresso. L’unico dato in realtà un po’ sorprendente è quello relativo ai clienti di più lungo rapporto con l’azienda, che registrano il minor numero di prodotti presenti nel proprio portafoglio, nonostante siano coloro che hanno avuto più tempo per entrare in contatto con la rete dei promotori. Per valutare più in dettaglio se nel tempo la rete modifica la propria capacità nel senso di attrarre clienti più o meno dinamici, è comunque più opportuno considerare le scelte fatte dagli investitori in un comune arco di tempo. Nella Tabella 5.3 sono riportate le distribuzioni di frequenza del numero di forme di investimento acquistate nel primo, nel secondo e nel terzo biennio di attività.

Tab. 5.3. Distribuzioni del Nro di forme di inv. nei primi tre bienni di attività Primo biennio Secondo biennio Terzo biennio Numero di forme di

investimento Fr. assolute Percentuale Fr. assolute Percentuale Fr. assolute Percentuale0 0 0 689 78.5 576 76.1 1 491 49.0 124 14.1 111 14.7 2 264 26.3 32 3.6 43 5.7 3 113 11.3 14 1.6 18 2.4 4 74 7.4 10 1.1 6 .8 5 29 2.9 8 .9 2 .3 6 14 1.4 1 .1 0 0 7 13 1.3 0 0 1 .1 8 4 .4 0 0 0 0

Total 1002 100.0 878 100.0 757 100.0 Si nota che i sottoscrittori sono maggiormente dinamici nel primo biennio, periodo in cui tutti i clienti sono attivi per definizione. Cerchiamo adesso di valutare se nel tempo la dinamicità e la fidelizzazione dei clienti cambiano, considerando la distribuzione congiunta del numero di forme di investimento nel primo biennio e l’anno di ingresso.

Tab. 5.4 Numero di forme di investimento nel 1° biennio e Anno di ingresso Anno di ingresso (categorie) Total

Numero di forme di investimento 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999Count 162 131 99 66 33 4911 % within Anno di ingresso 77.9% 49.8% 58.9% 40.0% 16.7% 49.0%Count 39 99 45 46 35 2642 % within Anno di ingresso 18.8% 37.6% 26.8% 27.9% 17.7% 26.3%Count 6 29 12 26 40 1133 % within Anno di ingresso 2.9% 11.0% 7.1% 15.8% 20.2% 11.3%Count 1 3 9 15 46 744 % within Anno di ingresso .5% 1.1% 5.4% 9.1% 23.2% 7.4%Count 1 2 5 21 295 % within Anno di ingresso .4% 1.2% 3.0% 10.6% 2.9%Count 1 4 9 146 % within Anno di ingresso .6% 2.4% 4.5% 1.4%Count 3 10 137 % within Anno di ingresso 1.8% 5.1% 1.3%Count 4 48 % within Anno di ingresso 2.0% .4%Count 208 263 168 165 198 1002Total % within Anno di ingresso 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%

Numero medio di forme di inv. 1.26 1.65 1.65 2.22 3.37 2.00 Analizzando la Tab. 5.4 notiamo che la rete tende ad attrarre nel tempo clienti più dinamici che acquistano in media più forme di investimento, almeno nel 1° biennio di attività. Questa tendenza è confermata anche considerando il comportamento nel 2° biennio (Tab. 5.5.). Si nota una diminuzione nel tempo di clienti inattivi nel 2° biennio e un aumento del numero medio di forme acquistate. Con riferimento a questo punto, notiamo che nell’ultima fascia di anno di ingresso,

36

Page 39: Analisi delle scelte di investimento dei clientistudiostat.unibocconi.it/uni/docs/Investitori_Scelte_TUTTO_OK.pdf · Analisi delle scelte di investimento dei clienti ... Uno degli

1997-1999 sono considerati solo i clienti del 1997, gli unici ad essere entrati nel 2° biennio. Tali clienti però, a differenza degli altri, sono entrati nel 2° biennio solo da un anno e questo potrebbe giustificare la flessione del numero medio di forme di investimento acquistate nel 2° biennio.

Tab. 5.5 Numero di forme di investimento nel 2° biennio e Anno di ingresso Anno di ingresso (categorie) Total

Numero di forme di investimento 1980-1986 1987-1990 1991-1993 1994-1996 1997-1999Count 177 225 130 92 65 6890 % within Anno di ingresso 85.1% 85.6% 77.4% 55.8% 87.8% 78.5%Count 25 33 27 33 6 1241 % within Anno di ingresso 12.0% 12.5% 16.1% 20.0% 8.1% 14.1%Count 4 3 7 15 3 322 % within Anno di ingresso 1.9% 1.1% 4.2% 9.1% 4.1% 3.6%Count 1 2 11 143 % within Anno di ingresso .5% 1.2% 6.7% 1.6%Count 1 1 1 7 104 % within Anno di ingresso .5% .4% .6% 4.2% 1.1%Count 1 1 6 85 % within Anno di ingresso .4% .6% 3.6% .9%Count 1 16 % within Anno di ingresso .6% .1%Count 208 263 168 165 74 878Total % within Anno di ingresso 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%

Numero medio di forme di inv. 0.19 0.18 0.33 0.97 0.16 0.36 A questo punto cerchiamo di capire se i clienti che risultano più dinamici nel primo biennio sono quelli più dinamici anche nei periodi successivi. Consideriamo quindi la distribuzione congiunta del numero di forme di investimento acquistate nel 1° e nel 2° biennio (Tab. 5.6), prendendo in considerazione, per maggiore accuratezza, tutti e soli i clienti che hanno terminato il 2° biennio.

Tab. 5.6. Distribuzione congiunta del Nro di forme di inv. nel 1 biennio e nel 2° biennio Nro di forme di invest. nel 2° biennioNro di forme di inv. nel

1 biennio 0 1 2 3 4 5 6 Total Media 2° biennio| 1° biennio

Count 365 65 11 8 2 6 1 4581 % of Total 45.4% 8.1% 1.4% 1.0% .2% .7% .1% 57.0% .34

Count 188 28 9 3 1 2292 % of Total 23.4% 3.5% 1.1% .4% .1% 28.5% .26

Count 46 17 3 2 3 2 733 % of Total 5.7% 2.1% .4% .2% .4% .2% 9.1% .70

Count 16 4 3 1 4 284 % of Total 2.0% .5% .4% .1% .5% 3.5% 1.04

Count 5 1 2 85 % of Total .6% .1% .2% 1.0% .63

Count 4 1 56 % of Total .5% .1% .6% .20

Count 2 1 37 % of Total .2% .1% .4% 1.33

Count 624 118 29 14 10 8 1 804Total % of Total 77.6% 14.7% 3.6% 1.7% 1.2% 1.0% .1% 100.0% .38

Dall’analisi della tabella delle frequenze congiunte notiamo che in generale i clienti sono poco dinamici e tendono per la maggior parte a sottoscrivere poche forme di investimento. Ad essere più dinamici nel 2° biennio sono tuttavia coloro che acquistano di meno nel 1°. A questo punto, si potrebbe ritenere opportuno valutare la relazione tra i due caratteri con opportune misure di associazione [Misure di associazione] (coefficiente di correlazione lineare, misure di concordanza, come l’indice tau di Kendall e il coefficiente di Spearman) [vedi le misure di associazione]. Tuttavia, la tabella appare caratterizzata da molte celle vuote, e quindi le misure di associazione potrebbero non essere affidabili, per cui decidiamo di non considerarle. [Cautele nella valutazione delle misure di associazione]

37

Università Luigi Bocconi
Coefficiente di correlazione: indicatore (relativo) del livello e del verso dell’associazione lineare tra due caratteri quantitativi. Può assumere valori compresi tra –1 e 1 (estremi inclusi). Valori positivi indicano relazione diretta (le coppie di modalità dei due caratteri tendono a concentrarsi intorno ad una retta di pendenza positiva), valori negativi associazione relazione inversa. Quanto più il coefficiente di correlazione lineare, in valore assoluto, è vicino a 1, tanto più è elevato il grado di associazione lineare; nel caso in cui il suo valore è 1 (–1), l’associazione lineare è perfetta e i punti del grafico di dispersione corrispondente sono tutti allineati su una retta con coefficiente angolare positivo (rispettivamente negativo). Un valore del coefficiente di correlazione lineare pari a 0 non indica mancanza di associazione tra i due caratteri, ma mancanza di associazione lineare; potrebbero cioè essere presenti altri tipi di legame. E’ un indicatore particolarmente sensibile alla presenza di coppie di valori anomali.
Università Luigi Bocconi
Indice tau di Kendall e coefficiente di Spearman: indicatori di concordanza per distribuzioni doppie, per dati qualitativi ordinali o quantitativi, basati sui ranghi. Le modalità di ognuno dei due caratteri vengono ordinate in modo crescente; ad ogni osservazione è assegnata la posizione occupata in ciascuna delle due sequenze ordinate. Vengono sostanzialmente create due graduatorie, una per ogni carattere. Si valuta quindi se le graduatorie sono concordanti (osservazioni che occupano le posizioni più elevate in una graduatoria occupano posizioni elevate anche nell’altra) o discordanti (osservazioni che occupano le posizioni più elevate in una graduatoria occupano posizioni basse nell’altra). Gli indici di concordanza assumono valori tra –1 e 1 (estremi inclusi). Il valore 1 indica che le due graduatorie sono perfettamente concordanti, mentre il valore –1 indica che le graduatorie sono perfettamente discordanti. Se utilizzati con riferimento a caratteri quantitativi, questi indicatori di concordanza risultano robusti, cioè piuttosto insensibili a valori estremi. Questo perché non si tiene conto dei valori effettivi, ma solo delle loro posizioni.