università degli studi di padova - [email protected]/21794/1/yabre_yacouba.pdf ·...

62
Università degli studi di Padova Facoltà di scienze statistiche corso di laurea in statistica e tecnologie informatiche tesi di laurea Studio del comportamento di visita a due siti web. relatore: dott. Bruno Scarpa Laureando:Yabre Yacouba matricola: 523827 Anno accademico: 2008-2009

Upload: buiminh

Post on 15-Feb-2019

212 views

Category:

Documents


0 download

TRANSCRIPT

Università degli studi di Padova

Facoltà di scienze statistiche

corso di laurea in

statistica e tecnologie informatiche

tesi di laurea

Studio del comportamento di visita a due

siti web.

relatore: dott. Bruno Scarpa

Laureando:Yabre Yacouba

matricola: 523827

Anno accademico: 2008-2009

Voglio ringraziare la mia famiglia, per avermi sost enuto inquesta straordinaria avventura.

Ringrazio inoltre il mio relatore il dott. Bruno Sc arpa e laprof. Patrizia Amaglio dell' IPSS Bartolomeo Montag na diVicenza per la pazienza che hanno avuto nel corregg ere glierrori dovuti alla lingua.

Infine ringrazio le signore dell' “Alliance françai se deVicenza” senza le quale non sarei qui.

Indice������ ������������������������������������������������������������������������������������������������������������������������������������������������

����� � ������������� ��� �� ��� ������������� ��������������������������������������������������������������������������

•��������� ������������������������������������������������������������������������������������������������������������������������������������������

•�������� �� ������������������� ������������������������������������������������������������������������������������������

������� ���� ��� ��������� ���� ���� ���� ���� �����������������������������������������������������������������

!��"����� ��� ����������� ���������#�$%������������������������������������������������������������������������������������

���%��� ��&��������� ���������#�$%����������������������������������������������������������������������������������������������'

��(����� ���� ����������� �! � � �������������������������������������������������������������������������������������

���(��������������������������� ��� �� ��� ������������������������������������������������������������������������)

*������������� ��������������� ��� �� ��� ������������������������������������������������������������������������������

���� � �� ��� ������ � �������������������������������������������������������������������������������������������������������������������

•��� ����� �����������������������������������������������������������������������������������������������������������������������������������������

•������� � ����� �� ���������������������������������������������������������������������������������������������������������������������������������)

•���" **����������� �!�� ��� ����� � ��� ��� �����������������������������������������������������������������������������������������������

•������� ��� ������#�$%��� ��� ������������������������������������������������������������������������������������������������������������'

������� ��� ���� ���� ���� ���������� ��� �������� ��+�����������������������������������������������������'

!������ � �� ��� ������ � �� �!�� ��� ��� ��������������������������������������������������������������������������������������'

�������� ��%����������� ���� ������� ���������� ����������������������������������������������������'

��������� ������������� ��������������� ��������������������������������������������������������������������)

���� � �� ����������� � �� � ������� �� �� ���*��������������������������������������������������������������������������'

•��������� ����������������������������������������������������������������������������������������������������������������������������������������'

���,�������������� ������ �! ��� � ��� ��� ����#����������������������������������������������������������������'

!��%�������� ���� ��� ��������������������������������������������������������������������������������������������������������������-

•������� � �������� ���� ��� �����������������������������������������������������������������������������������������������������������������)

•��������������� ��� ������#���� � ������������� ��� �� ��� ��� ����������� �������������������������������������������'�

'

, !� ���* ����������������������������������������������������������������������������������������������������������������������������������������������-�

-

Introduzione

Gli ultimi decenni sono stati caratterizzatidall'esplosione delle nuove tecnologie. All'occorre nza, inquesti ultimi anni assistiamo alla proliferazione d ella retteinternet e alla creazione di tanti servizi ad esso connessotale “social network”, videoconferenze, commercio online etc.

Infatti in questi ultimi anni, si può dire che ness unopuò fare almeno di usare internet, il che ovviament econtribuisce alla creazione di vere e proprie azien de online,e quindi di usare particolari tecniche per poter tr arreinformazioni su ad esempio il comportamento degli u tenti chevisitano particolari siti, in modo da sviluppare sp ecificheazioni di marketing.

Queste tecniche conosciute con il termine di “webmining” costituiscono oggi un potente strumento per analizzaredei dati avente tante variabili. Infatti il web min ingraggruppa tanti strumenti statistici tale l'analisi dei gruppi(cluster analysis), l'analisi delle componenti prin cipale etc.

Questi strumenti che oggi caratterizzano della stat isticamoderna sono usati per analizzare dati provenienti da tantisettori d'attività, perché permettono una sintesi a ccurata efacilmente interpretabile, anche da non statistici.

In questa sede useremo solo uno di questi strumenti ,ovvero useremo solo l'analisi delle componenti prin cipali perpoter sintetizzare l'informazione contenuta nei dat i.Cercheremo quindi nel primo capitolo di illustrare i metodi dicalcoli delle componenti per passare negli ultimi duecapitoli all'analisi dei dati provenienti da due si ti dicommercio online.

)

Capitolo I:

Analisi delle componenti principali: procedure di calcolo .

1. Introduzione

La disponibilità di grandi “basi di dati” permette oggidi archiviare grandi quantità di informazioni, e qu indi lanecessità di usare specifiche tecniche per poter ol trepassareil limite della semplice analisi descrittiva, che d i solito silimita all’analisi di una o due variabili.

Questi metodi, tra cui l’analisi delle componentiprincipali fanno parte dell’ambito della statisticamultivariata.

L’analisi delle componenti principali (ACP) in trodotta daK. Pearson nel 1901 e sviluppati da H. Hotelling ne l 1933, haavuto un grande successo, perché oltre a presentare irisultati in modo chiaro e facilmente interpretabil e, ha ilpregio di avvalersi di rappresentazioni grafiche, c he rendonoil suo uso immediato anche da non esperti e in ambi ti diversi.

Lo scopo primario di questa tecnica è la riduz ione di unnumero elevato di variabili in alcune variabili lat enti.Questo avviene tramite l’individuazione di particol aricombinazioni lineari dette appunto “componenti prin cipali”.Tali combinazioni saranno tra loro intercorrelate e d ordinatein modo tale che la prima combinazione sintetizza l a quotamassima possibile della variabilità totale, la seco ndasintetizza la quota massima della variabilità total e dopo laprima, e cosi via.

L’individuazione delle variabili, come abbiamo detto,consiste in una trasformazione lineare delle variab ili cheproietta quelle originarie in un nuovo sistema cart esiano nelquale le variabili vengono ordinate in ordine decre scente divarianza spiegata. Pertanto, la variabile che spieg a lamaggior percentuale di varianza viene proiettata s ul primoasse, la seconda sul secondo e cosi via.

In questo capitolo, vedremo le procedure e i risult atisalienti di questa analisi per poi passare nei pros simicapitoli a delle applicazioni vere e proprie.

2. Metodologia di calcolo delle componenti.

a. Matrice dei dati, delle medie e di varianze-covar ianze.

Supponiamo di voler studiare le caratteristich e di unacerta popolazione, a questo proposito si rilevano p variabilisu un insieme di n unità. Questi dati possono esseresintetizzati in una matrice detta matrice dei dati . ChiamiamoX questa matrice; una sua rappresentazione è la seg uente.

Ogni colonna rappresenta una variabile e ogni r igaun’unità.

Una prima sintesi dei dati consiste nell’individuar e il

vettore delle medie ovvero X .

��

11 12 1

1 2,

, ,......,

....................

....................

, .......,

p

n n np

x x x

X

x x x

=

1( , , )nX X X= K

Un’idea della relazione che esiste tra le variabili ovvero unasintesi delle informazioni relative alla distribuzi onecongiunta delle variabili può essere ottenuta attra verso imomenti secondi centrati, che costituiscono la matr ice divarianze-covarianze.

Tale matrice risulta simmetrica (ovvero S'= S) e semi-definitapositiva. Va notato però che questa matrice present a a voltedegli inconvenienti, infatti, essa risente dell’uni tà dimisura. Nel caso in cui volessimo fare un’analisi n ella qualetutte le variabili non sono espresse nella stessa u nità dimisura, conviene considerare una sua versione stand ardizzata,cioè la matrice di correlazione.

Nel seguito, considereremo la matrice di varianze- covarianzeovvero ci mettiamo in un contesto in cui tutte le v ariabilihanno la stessa unità di misura.

b. Determinazione della varianza nell’ACP

L’ACP, come abbiamo detto, ha per obiettivo la dete rminazionedi combinazioni lineari tra di loro indipendenti de llevariabili di partenza, in modo da avere, dopo alcun esemplificazioni ed eliminazioni delle ridondanze, u na sintesifacilmente interpretabile dei dati.

Sia allora Y la matrice delle variabili trasforma telinearmente,

��

11 12 1

1 2,

, ,......,

....................

....................

, .......,

p

p p pp

s s s

S

s s s

=

cioè: Y XA=

Dove con A indichiamo una particolare matrice di pe si didimensione (p x p), e Y la matrice delle componenti principalidi dimensione (n x p).

La forma matriciale della matrice y è quindi:

11 22 1 11 12 1

21 22 2 21 22 2

1 2 1 2

, ,...... , ,......

, ,...... , ,......

.................... ....................

.................... ....................

, ....... , .......np

p p

p p

n n p p

x x x a a a

x x x a a a

y

x x x a a a

= pp

Per semplicità d’esposizione consideriamo la prima componente.

Abbiamo quindi che:

1 1y xa= ove:

11 11 1( ,......, ,...., )psa a a a= , ovvero il vettore 1a

rappresenta la prima colonna della matrice A, e x i ndica laprima riga di X.

Vogliamo che la prima componente sia, per definiz ione, lacombinazione lineare di massima varianza. Dato che la varianzatotale di una trasformazione lineare di x è esprimibile infunzione della matrice di varianze-covarianze S, a bbiamo:

Il vettore dei coefficienti dovrà essere in modo tale damassimizzare l’espressione precedente. Le soluzioni di taleproblema di massimizzazione sono però infinite, per ché lacombinazione lineare contiene un fattore di scala a rbitrario.Ovvero le soluzioni sono del tipo, scelto un k qual siasi:

��

'1 1 1var( )y a Sa=

si capisce che k può aumentare all’infinito. Per ovviare aquesto, si introduce quindi un vincolo, cioè si imp one che lanorma del vettore di coefficienti sia uguale ad una costante.Solitamente, si sceglie la condizione di normalizzaz ione, cioè

che tale norma sia uguale ad uno, nel nostro caso: '1 1 1a a = .

Il problema diventa quindi un problema di massimizz azionevincolata e va risolto con il metodo dei moltiplicatori diLagrange, ovvero richiede l’impiego di un moltiplicatore di

Lagrange λ .

Poniamo:

Massimizzare f equivale a determinare le soluzioni delladerivata prima di f rispetto agli “a”, ovvero:

(1)

L’equazione (1) ha soluzione se e solo se (teorema di ROUCHE-CAPELLI) è singolare, ovvero, se il suo determinant e è nullo.Questa equazione è conosciuta come equazione caratt eristica .

La soluzione di essa comporta la ricerca di p valor i di λ ,

dette radici caratteristiche o semplicemente radici oppureautovalori (in inglese Eigenvalues)

��

( ) ' ( )ka S ka

' '( 1)f a Sa a aλ= − −

2 2 0f

S aa

λ∂ = − =∂

2( ) 0S I aλ− =

( ) 0S I aλ− =

Abbiamo posto:

Moltiplicando entrambi i membri per 1a si ottiene

ma sappiamo che '1 1 1a a = allora si ottiene:

'1 1 1a sa λ= ma sappiamo ancora che:

allora:

1 1var( )y λ=

Abbiamo così mostrato che la varianza della prima c omponente èl’autovalore associato ad essa, che sappiamo essere il massimodi tutti gli autovalori.

Passiamo adesso a determinare la seconda componente :

2 2y xa= ,

affinché essa sia ortogonale alla prima componente, il vettore

dei coefficienti 2a deve soddisfare il seguente vincolo:

1 2 0a a = , oltre al vincolo di normalizzazione: 2 2 1a a = .

Operando in maniera analoga a prima si ottiene:

��

1 1

1 1

( ) 0S I a

Sa a

λλ

⇒ − =⇒ =

' '1 1 1 1 1a Sa a aλ=

'1 1 1var( )y a Sa=

'1 1 1 1var( )y a Sa λ= =

per cui si sceglie il secondo autovalore, in ordi nedecrescente dalla matrice di varianze-covarianze, e lo si

indica con 2λ .

In generale, si dice i-esima componente principale di pvariabili, espresse in termini di scostamenti dalla media, lacombinazione lineare:

i iy xa= , per i=1. . . . k ≤ p

In cui ia è l’autovettore associato all’i-esimo autovalori iλ ,

in ordine decrescente, della matrice di varianze-co varianze.

Ogni autovalore iλ è uguale alla varianza della corrispondente

componente.

c. Proprietà della varianza nell’ACP

• Due componenti qualsiasi iy e jy sono linearmenteindipendenti, ovvero i rispettivi vettori sonoortogonali:

Quindi per ogni i ≠j abbiamo i jy y⊥ , il che equivale alla

condizione ' 0a a = .

Siccome la matrice S è simmetrica e gli autovettori sonoa due a due ortogonali, si deduce che la matrice divarianze-covarianze delle componenti è una matricediagonale avendo sulla diagonale le rispettive vari anze.

• La somma degli autovalori è uguale alla traccia, ossiaalla somma degli elementi diagonali della matrice. Se perla determinazione delle componenti principali abbia mousato la matrice di varianze-covarianze allora la somma

�'

2 2( ) 0S I aλ− =

degli autovalori è uguale alla somma delle varianze dellevariabili osservate.

2( )pr

i ji j

tr s sλ = =∑ ∑

Se invece le componenti sono state ottenute a parti re dallamatrice di correlazione, allora:

( )p

ii

tr R pλ = =∑

•Il prodotto degli autovalori è uguale al determinan te dellamatrice di partenza.

1

| |p

iisλ

==∏

Dal teorema di scomposizione spettrale (Salce 2005) , si deduceche:

- È sempre possibile scomporre una matrice di varia nzecovarianze o una matrice di correlazione, in un num ero dicomponenti principali mai superiore al numero divariabili osservate.

- È sempre possibile ricomporre una matrice di vari anze-covarianze, conoscendo autovalori e autovettori.

- Una matrice di varianze-covarianze può essere app rossimatacon gli autovalori e gli autovettori più “significa tivi”.

�-

- Le componenti non sono indipendenti dalla scala di misuradelle variabili: se si moltiplica una variabile oss ervataper un valore costante, la matrice di varianze-cova rianzecambia, e così pure le componenti generate. Esse n onvariano se le variabili hanno uguali varianze, oppu resono state standardizzate.

d. Standardizzazione delle variabili di partenza

ACP, essendo una procedura esplorativa multivariata vieneadoperata su in insieme di dati che ha di solito ta ntevariabili, inoltre queste variabili non sono a volt e tra diloro confrontabili. In tale caso, non è possibile l avoraredirettamente con la matrice di varianze-covarianze, ma occorreuna sua trasformata, ovvero lavorare con la matrice dicorrelazione.

La standardizzazione è un procedimento che riconduce unavariabile aleatoria con media µ e varianza σ2, ad una variabilealeatoria con distribuzione "standard", ossia di me dia zero evarianza pari ad uno.

Il procedimento è il seguente a partire dalla ma trice dipartenza X, e note le medie e le varianze delle pop olazioni diappartenenza delle variabili, il processo di standa rdizzazionepermette di normalizzare le variabili:

1 1 2 2

1 2

, ,........ p p

p

xx x µµ µσ σ σ

−− −

Ed ottenere un nuovo campione che ha la particolari tà di averele variabili con media nulla e varianza unitaria. S i mostrache la matrice di varianze-covarianze del nuovo cam pione cosìottenuto coincide con la matrice di correlazione de l campioned’origine. Ecco il perché dell’uso diretto della ma trice dicorrelazione. Va notato però che gli autovalori ott enuti conla matrice di correlazione sono diversi da quelli o ttenuti conla matrice di varianze-covarianze iniziale.

��

e. Scelta del numero delle componenti principali

Come abbiamo visto precedentemente la varianza d i unacomponente è uguale al relativo autovalore, e la va rianzatotale è quindi uguale alla somma di questi ultimi .

Per ottenere la proporzione di variabilità spieg ata daciascuna componente, è sufficiente, quindi, avere i l rapportotra l’autovalore relativo alla componente e la vari anzatotale:

1

/p

i ii

λ λ=∑

Resta allora da definire il numero di componenti dascegliere, ovvero, quali sono i criteri per la scel ta delnumero di componenti?

I criteri sono in generale di tre tipi:

- Il primo consiste nel prendere le prime component i le cuipercentuali cumulate spiegano tra l’80% e il 90% de llavariabilità dei dati.

- Oppure seguire “ la regola di Kaiser” che ci dice diprendere solo quelle componenti che hanno un autova loremaggiore o uguale a uno (se l’analisi è stata fatta sullamatrice di correlazione), oppure, in modo equivale nte,prendere le componenti che hanno varianza maggiore dellamedia degli autovalori (se invece l’analisi è statacondotta su quella di varianze-covarianze).

- Oppure usare il metodo grafico detto “screen-plot ”, dovesi sceglie il numero di componenti in corrispondenz a delquale il grafico presenta un “gomito”.

�)

f. Interpretazione delle componenti principali .

Dopo aver scelto il numero delle componenti e quind i lecomponenti stesse, viene la parte più importante de ll’analisiovvero l’interpretazione delle componenti trovate.

Interpretare una componente o fattore significa att ribuirgli“un nome”, ma non è facile a volte trovare un nome ad unacombinazione di variabili. Questo può risultare più agevole seè stata ben fatta prima un’accurata analisi esplora tiva deidati in modo da accertarsi che le variabili siano d avverounite da relazioni così forti da rendere plausibile l’ACP.Quindi oltre a limitarsi all’analisi delle componen ti trovateconviene considerare anche la forma del test grafic o (screen-plot) sugli autovalori; se il grafico presenta un g omito,allora l’ipotesi dell’esistenza di fattori è plausi bile, seinvece la forma è quasi rettilinea allora le compon entitrovate sono di solito una semplice trasformazione dellevariabili di partenza.

Poi, viene la fase vera e propria dell’analisi d ellecomponenti trovate. Questo può essere fatto in dive rse maniereelencate di seguito:

- Saturazione di una componente: Il coefficiente dicorrelazione tra un componente e una variabile pren de ilnome di peso fattoriale o saturazione, questo valor erisulta particolarmente interessante perché permett e diquantificare l’importanza di ogni variabile nellospiegare la componente.Infatti, tanto grande è in valore assoluto, tanto èimportante nello spiegare il fattore stesso. Non es istonoperò regole universali per fissare il limite dopo i lquale una saturazione è rilevante. Si possono accet tarealcuni suggerimenti, come quello di Overall e Klett(1972), di prendere come valore minimo in assoluto 0.35,oppure, tenendo conto del fatto che il livello dell acorrelazione è legato alla variabilità della compon ente,si può scalare la soglia in funzione della radicequadrata degli autovalori, si può partire ad esempi o con

��

il primo fattore da 0.8 e arrivare per l’ultimo con unvalore prossimo a quello suggerito da Overrall e Kl ett.

• A volte per interpretare agevolmente le componenti ,occorre appoggiarsi ai mezzi grafici che abbiamo adisposizione. Infatti, la rappresentazione grafica deipesi fattoriali sui piani definiti da coppie di fat torimette in evidenza le variabili che più saturano lecomponenti.Questa rappresentazione permette di percepire forme difattori e posizioni particolari di classi di entità . Trale forme più comuni si evidenziano: la concentrazio ne dinuvole di punti in posizioni isolate dello spaziofattoriale e le configurazioni curve, dette “EFFETT OGUTTMAN”.

- L’individuazione di un insieme di punti in posizi oneisolate nello spazio fattoriale sta a indicare che levariabili che fanno parte di una nuvola si riferisc onoalla stessa componente, e quindi in questo caso con vieneruotare gli assi finchè uno non vi passa o, ovviame nte,nelle vicinanze.

- Effetto Guttman: è caratterizzato da forme generalmentecurvilinee. La più nota è sicuramente quella che pr esentauna configurazione detta a forma di “ferro di caval lo”,con eventuale involuzione (rientro verso l’interno) deipunti terminali. Questo è dovuto generalmente dallamancata standardizzazione delle variabili, oppuredall’aver dato alle variabili peso uguale quando inrealtà hanno peso diverso.

Un fattore curvilineo di solito implica la necessit a diestrarre un numero di componenti generalmente super iore aquello effettivamente estratto: la rappresentazione diuna componente non lineare richiede l’estrazione di dueassi fattoriali.

In alcuni casi la forma a ferro di cavallo è una distorsionedella rappresentazione eliminabile cambiando la sca la degliassi, se la ragione dell’arcuarsi degli assi sta ne llecompressioni dei punti terminali; può anche essere

��

ineliminabile se il pattern rappresentato è comples so oppure idati analizzati sono effetti di vari errori di rile vazione.

Nei prossimi capitali analizzeremo dei casi relativ i alcomportamento degli utenti che visitano alcuni siti .

��

��

CAPITOLO II:

Analisi dei dati relativi al dataset gazelle

1. introduzione

Il sito web "www.Gazelle.com" è un portale di com mercioelettronico che vende prodotti di calzetteria e di prodottiper la cura delle gambe (sito in realtà ora chiuso, ma quipresumiamo che sia ancora attivo). L'ufficio Market ingdell'azienda che gestisce il portale è interessato a conosceremeglio i navigatori ed i loro comportamenti per pot erpredisporre meglio il disegno e l'ordinamento delle diversepagine di cui si compone il sito, eventualmente ado ttandostrumenti per la personalizzazione delle pagine.

Con lo scopo quindi di identificare i navigatori (o meglioloro comportamenti) che sono clienti buoni, sono st atiraccolti alcuni dati per ciascun cliente sulle vari e sedute incui ha acquistato o è entrato nel sito. I dati rigu ardano (ovepresenti) le risposte ad un questionario somministr ato aiclienti al primo accesso al sito, e informazioni le gate allanavigazione e agli ordini di acquisto effettuati. L e variabilidisponibili sono descritte nel seguito. Si osservi che questidati non sono frutto di un esperimento controllato e possonoessere influenzati da fattori esterni (come campagn e dimarketing ecc.) non controllabili.

I dati sono composti di 1781 unità e 136 variabili, per farel’analisi abbiamo deciso di dividere la matrice insottomatrici, una composta dalle variabili qualitat ive e

��

un’altra composta da sole variabili quantitativi, d ella qualeriportiamo di seguito il significato delle variabil i:

��������� ���������������������������������������������������������� ��

.�� %����������� �%��� ���/� ���� � �0 ��1��

.�� %����������� �%��� ���/� ���� � �(�!����

.�� %����������� �%��� ���/� ���� � ������1��

.�' %����������� �%��� ���/� ���� � �"��� ����

.�- %����������� �%��� ���/� ���� � �������1��

.�� %����������� �%��� ���/� ���� � �.����1��

.�) %����������� �%��� ���/� ���� � �2���1��

.�� %����������� �%��� ���/� ���� �������)����������������

.'� %����������� �%��� ���/� ���� ����������������������

.'� %����������� �%��� ���/� ���� ����������������������

.'� %����������� �%��� ���/� ���� �������'����������)�����

.'� %����������� �%��� ���/� ���� ������������������'�����

.'� %����������� �%��� ���/� ���� �����������������������

.'' %�������������/� �� ���������� ������ ���3 �3��

.'- %�������������/� �� ���������� ������ ��4 %�� ����

.'� %�������������/� �� ���������� ������ ���5���

.') %�������������/� �� ���������� ������ ���,��

.'� %�������������/� �� ���������� ������ ��'3 -3��

.-� %�������������/� �� ���������� ������ �����

.-� %�������������/� �� ���������� ������ �����

.-� %�������������/� �� ���������� ������ �����

.-� %�������������/� �� ���������� ������ ���6��

��

.-� %�������������/� �� ���������� ������ �����

.-' %�������������/� �� ���������� ������ ��'��

.-- %�������������/� �� ���������� ������ ���%��

.-� %�������������/� �� ���������� ������ �����

.-) %�������������/� �� ���������� ������ ���7��

.-� %�������������/� �� ���������� ������ ��,��

.�� %�������������/� �� ���������� ������ ��$��

.�� %�������������/� �� ���������� ������ ��"��

.�� %�������������/� �� ���������� ������ ��8��

.�� %�������������/� �� ���������� ������ ��9��

.�� %�������������/� �� ���������� ������ �����

.�' %�������������/� �� ���������� ������ ��2��

.�- %�������������/� �� ���������� ������ �����

.�� %�������������/� �� ���������� ������ ��%��

.�) %�������������/� �� ���������� ������ ��(��

.�� %�������������/� �� ���������� ������ ��:��

.)� %�������������/� �� ���������� ������ ��(5���

.)� %�������������/� �� ���������� ������ ���%��

.)� %�������������/� �� ���������� ������ ��$"��

.)� %�������������/� �� ���������� ������ ���7��

.)� %�������������/� �� ���������� ������ ��2572��

.)' %�������������/� �� ���������� ������ ���%��

.)- %�������������/� �� ���������� ������ ��$5"��

.)� %�������������/� �� ���������� ������ ���7��

.)) %�������������/� �� ���������� ������ ���5���

�'

.)� %�������������/� �� ���������� ������ ��89��

.�� %�������������/� �� ���������� ������ ��- )��5���

.�� %�������������/� �� ���������� ������ ���7��

.�� %�������������/� �� ���������� ������ ����7���

.�� %�������������/� �� ���������� ������ ��� ����

.�� %�������������/� �� ���������� ������ ��%���

.�' %�������������/� �� ���������� ������ ���3 �3��

.�- %�������������/� �� ���������� ������ ��%���

.�� %�������������/� �� ���������� ������ ��%���

.�) %�������������/� �� ���������� ������ ���52��

.�� %�������������/� �� ���������� ������ ��;���( ����

.��� %�������������/� �� ���������� ������ ��72��

.��� %�������������/� �� ���������� ������ ��7:��

.��� %�������������/� �� ���������� ������ ��' -��5���

.��� %�������������/� �� ���������� ������ ��%%��

.��� %�������������/� �� ���������� ������ ���5,��

.��' <���=�����%�����. �>���

.��- <���;�!���%�����. �>���

.��� <������� ���8����� ����%�����. �>���

.��) <���"���? ��%�����. �>���

.��� <���"���@�����%�����. �>���

.��� <���0 ����AB�%�����. �>���

.��� <���8���% ����%�����. �>���

.��� <���< ���� �����%�����. �>���

.��� <���=�(3�%�����. �>���

�-

.��� <���8����:���B�%�����. �>���

.��' <���2��>����%�����. �>���

.��- <���2��$����%�����. �>���

.��� <���$����%�����. �>���

.��) <���<B���%�����. �>���

.��� <���$���3�%�����. �>���

.��� <���2B����%�����. �>���

.��� <���2�3��B�%�����. �>���

.��� <���C�B��%�����. �>���

.��� <���$���5���B� ��%�����. �>���

.��� <���( �?�%�����. �>���

.��' <���;��/���%�����. �>���

.��- <���=��� ��!���%�������. �>���

.��� <���(�� ���%�������. �>���

.��) <���%�� �%�������. �>���

.��� <���$������� ����%�������. �>���

.��� <���(� �%�������. �>���

.��� <���% /���%�������. �>���

.��� <���% ��"��%�������. �>���

.��� <���9�����%�������. �>���

.��� <���,���;��������������. �>���

.��' <���D� /��,�� /��������������. �>���

.��- <���,���������������. �>���

.��� <���"���������������������. �>���

.��) <���2 *�(�B��������������. �>���

��

.��� <���(������������������������. �>���

.��� <���E����������������. �>���

.��� <���(�����������������. �>���

!�� ��=������� ���� ��� F� �G�������� ����:����9�����

In questa sede ci limiteremo all’analisi della matr icerelativa ai dati quantitativi.

2. Analisi descrittive

Un primo approccio all’analisi dei dati consiste ne l farne unasintesi in modo da evidenziare le loro principalicaratteristiche. Di seguito riportiamo una tabella cheriassume la loro sintesi, dove abbiamo indicato con :

-N: il numero totale di unità.-Media: le medie delle variabili.-Std.Dev: le devianze standard.

�)

���������������<������������ ���������(������� ���������������������������������������������������

.����������)��������)����������������- .����������)����������������������������-�

.����������)�������)�������������������� .����������)������������������������������

.����������)�����)����������������)�'� .����������)����������-�����������������-�

.�'��������)�������'������������������)� .�'��������)����������)���������������'���

.�-��������)����������������������'��� .�-��������)����������)�������������������

.����������)����������������������'��� .����������)����������������������������)�

.�)��������)�������-��-�������������'��- .�)��������)�����������������������������)

.����������)�������)����������������)��� .����������)����-���)�����������������

.'���������)�������������������������' .��������)����������������������������''

.'���������)���������)��������������-�-) .��������)����������'�����������������-�

.'���������)�����'�������������������� .��������)�����������������������������-

.'���������)�������-������������������ .��������)������������������������������

.'���������)��������'����������������� .��������)����������'���������������-�-�

.''��������)����������)���������������-��) .��'�����)���������-������������������-�

.'-��������)����������-������������������� .��-�����)����������������������������-�

.'���������)�����������������������������) .��������)�����������������������������'

.')��������)���������������������������) .��)�����)����������)�������������������

.'���������)����������������������������'' .��������)�����������������������������)

.-���������)���������)����������������)��� .��������)������������������������������

.-���������)��������������������������-� .��������)�����������������������������)

.-���������)������������������������-�'' .��������)������������������������������

.-���������)������������������������������ .��������)����������'�������������������

.-���������)���������'����������������-��� .��������)���������-������������������-)

.-'��������)���������'����������������-��� .��'�����)�������'��������������������

.--��������)������������������������������ .��-�����)������������������������������

.-���������)������������������������������ .��������)�����������������������������-

.-)��������)������������������������������ .��)�����)������������������������������

.-���������)���������)-���������������)��) .��������)�����������������������������)

.����������)����������'������������������� .��������)������������������������������

.����������)���������'����������������-�)' .��������)����������-�������������������

.����������)�����������������������������) .��������)����������������������������'�

.����������)�����������������������������) .��������)������������������������������

.����������)���������-)����������������- .��������)�����������������������������'

.�'��������)���������������������������� .��'�����)�����������������������������'

.�-��������)���������')����������������� .��-�����)����������������������������'�

.����������)������������������������������ .��������)������������������������������

.�)��������)����������'����������������� .��)�����)������������������������������

.����������)���������')�������������'��� .��������)���������))�������������������

.)���������)��������������������������-��� .��������)��������������������������'���

.)���������)��������������������������'��� .��������)������������������������������

.)���������)����������)����������������' .��������)�����������������������������-

.)���������)����������������������������)' .��������)������������������������������

.)���������)������������������������������ .��������)����������������������������-)

.)'��������)��������������������������'��� .��'�����)����������������������'��-

.)-��������)����������)������������������� .��-�����)��������������������������

.)���������)����������'������������������� .��������)����������'���������������''

.))��������)������������������������������ .��)�����)����������������������������))

.)���������)����������'���������������)�)� .��������)�����������������������������-

.����������)������������������������������ .��������)����������)�������������������

��

.��������)������������������������������

A questo punto, analizziamo questa tabella in dett aglio inmodo da identificare le pagine più visitate. Per fa re ciò,ordiniamo le pagine in ordine decrescente rispetto al numeromedio divisibile e ci limitiamo alle prime diciasse tte.

V99 V46 V52 V53 V50 V54 V44 V42 V4 7 V136

60.98 29.21 25.33 21.61 20.92 20.25 18.44 17.18 14. 74 11.43

V135 V49 V43 V137 V48 V115 V45

10.03 8.74 8.10 7.25 6.96 5.71 5.09

Analizzando questa tabella, sembra che la pagina v9 9 sia lapagina più visitata, a seguire vengono le altre con frontandoquesta tabella con la sua omologa relativa alle per centuali divalori maggiore di zero:

V115 V134 V135 V137 V136 V99 V130 V117 V107 V46 V 129 V52

0.97 0.85 0.79 0.75 0.69 0.64 0.56 0.53 0.40 0.30 0 .30 0.26

V140 V118 V114 V53 V105 V50 V54 V44 V113 V42 V47 V108

0.25 0.24 0.23 0.22 0.22 0.21 0.21 0.19 0.19 0.18 0 .15 0.14

L'analisi di questa tabella mette in luce le pagine piùvisitate, infatti, vediamo che il 97% degli utenti visitano lapagine v115,a seguire, le pagine v134, v135, v136, v99, e v130che sono visitate da più del 50% degli utenti, si p uò alloraintuire che queste pagine sono le pagine di più int eresseovvero le pagine le più visitate.

Si può inoltre verificare in corrispondenza a quali pagine sihanno dei massimi:

��

V136 V115 V135 V118 V130 V137 V108 V116 V42

548 271 206 162 162 162 160 154 100

A questo punto possiamo dire che le pagine V136, V1 15, V135,V118, V130, V137, V108, V116 sono le pagine più vis itate.

Restringiamo la nostra analisi alla sotto-matrice c ompostadalle variabili relative al numero di articoli vist i dagliutenti nei diversi giorni in modo da vedere se esis tono delledifferenze sostanziali tra i buoni e i cattivi clie nti.

3. Differenze tra i buoni e i cattivi clienti

In questa parte, siamo interessati a mettere in evi denza ledifferenze che esistono tra i buoni e i cattivi cli enti,identificati dalla variabile disponibile “buono”.

A questo proposito, consideriamo una nuova variabil e chemisura il numero di tutti i siti visitati.

Effettuiamo prima un’analisi esplorativa dei dati. Siamoallora interessati a sapere se mediamente i buoni c lientivisitano più spesso il sito rispetto agli altri.

La sintesi dei dati trasformati relativi ai due gru ppi è laseguente:

• Buoni clienti:

Min. primo Qu. Mediana Media 3° Qu. Max .

4 26 40 49.79 62.00 232

• Cattivi clienti:

Min. 1st Qu. Mediana Media 3° Qu. Max.

1 22 34 41.98 52 248

��

Sembra che i buoni clienti visitino più siti rispet to aiclienti cattivi; infatti, il primo quantile, la me diana e ilterzo quantile relativi ai buoni clienti sono legge rmentesuperiori a quelli dei cattivi. Il boxplot, diviso in manieratale da identificare i buoni e i cattivi clienti, è riportatodi seguito:

• Boxplot relativo ai buoni e cattivi clienti

Il boxplot, in entrambi i casi, presenta delle asim metrie adestra, il che significa che i dati non si possono considerarenormali, come ci conferma il test di Shapiro (shapi ro 1985)che verifica la normalità di un insieme di dati.

Test di normalità dei dati

•data : buoni clienti

W = 0.8466, p-value < 2.2e-16

��

• data: cattivi clienti

W = 0.7849, p-value < 2.2e-16

In entrambi i casi il test rifiuta l’ipotesi di nor malità deidati al livello 5% e questo si vede anche dai grafi ci diconfronto dei quantili delle distribuzioni osservat e conquelli teorici della normale.

-3 -1 1 3

050

100

150

200

buoni

Theoretical Quantiles

Sam

ple

Qua

ntile

s

-3 -1 1 3

050

100

150

200

250

cattivi

Theoretical Quantiles

Sam

ple

Qua

ntile

s

��

• grafici di confronto dei quantili delle distribuzi oniosservate con quelli teorici della normale.

Va notato però, che abbiamo un'elevata numerosità d i dati, ilnostro dataset è composto da 1768 unità, numero tal mentegrande da permetterci di applicare il test senza pr eoccuparcidella loro normalità.

Il risultato del test t-student ( Laboratorio di statistica conR, Stefano M. Iacus, Guido M.) per la verifica delle medie neigruppi è il seguente

t.test a due campioni

data: buoni e cattivi

t = 4.0866, df = 1766, p-value = 4.573e-05

ipotesi alternativa: le due medie sono diverse da z ero

intervalli di confidenza al 95%

0.07777575 0.22132360

stime delle medie:

media di x media di y

3.682171 3.532621

Il valore del test è 4.0866, con un valore di signi ficativitàosservato di 4.573e-05; rifiutiamo quindi l’ipotesi nullaovvero che le due medie sono uguali.

In conclusione, possiamo affermare che mediamente e sistonodelle differenze tra i buoni e i cattivi clienti ne l visitarele pagine relative ai diversi articoli; in effetti, unapersona prima di acquistare un prodotto tende a vis itare piùarticoli.

Questo è un fatto interessante, perché suggerisce d iclassificare rigorosamente le pagine in base all’in teresse diparticolari gruppi di clienti, in modo da attirare le loro

��

attenzioni, e quindi “costringerli” a spendere anch e più deldovuto.

Per agevolare questa classificazione, è opportuno a vereun’idea sull’importanza dei prodotti visti dagli ut enti. Conquesto scopo applichiamo sulle variabili così otten utel’analisi delle componenti principali.

4. Applicazione dell’ACP sui dati

a. Matrice di varianze-covarianze o matrice di corr elazione?

Come abbiamo visto nel primo capitolo, la scelta de lla matriceè molto importante ai fini dei calcoli e dell’inter pretazionedei risultati.

In questo caso, notiamo che i nostri dati sono tutt i relativial numero di prodotti visti da un utente. Possiamo considerarele osservazioni nella stessa unità di misura, quind i, èpossibile confrontarle senza procedere ad una lorotrasformazione. Optiamo allora per la matrice di va rianze-covarianze invece di quella di correlazione.

b. Analisi dei dati relativi ai buoni clienti

i. Percentuale di varianza spiegata da ogni componente.

La tabella sottostante riporta lo standard error, l epercentuali di varianza spiegata da ogni componente e lepercentuali cumulate di ogni componente.

�'

std. error P. di varianza P. cumulata

Comp.1 25.91 61.61 61.65

Comp.2 14.69 19.80 81.42

Comp.3 9.40 8.12 89.54

Comp.4 6.50 3.87 93.42

Comp.5 4.84 2.15 95.58

Comp.6 3.55 1.16 96.74

Comp.7 2.96 0.80 97.54

Comp.8 2.29 0.48 98.03

Comp.9 2.13 0.42 98.45

Comp.10 1.74 0.27 98.73

Comp.11 1.46 0.19 98.92

Comp.12 1.44 0.19 99.12

Comp.13 1.24 0.14 99.26

Comp.14 1.18 0.12 99.39

Comp.15 1.15 0.12 99.51

Comp.16 1.00 0.093 99.60

Comp.17 0.96 0.085 99.69

Comp.18 0.77 0.055 99.74

Comp.19 0.72 0.048 99.79

Comp.20 0.69 0.044 99.84

Comp.21 0.60 0.037 99.87

Comp.22 0.58 0.031 99.90

Comp.23 0.49 0.022 99.92

Comp.24 0.44 0.018 99.94

Comp.25 0.36 0.012 99.96

Comp.26 0.33 0.010 99.97

Comp.27 0.26 0.0066 99.97

�-

Comp.28 0.26 0.0063 99.98

Comp.29 0.25 0.0059 99.98

Comp.30 0.17 0.0029 99.99

Comp.31 0.15 0.0023 99.99

Comp.32 0.14 0.0019 99.99

Comp.33 0.125 0.00145 99.99

Comp.34 0.11 0.00124 99.99

Comp.35 0.06 0.00034 99.99

Comp.36 0.04 0.0002 100

Vediamo che i risultati sono soddisfacenti; infatti , si vededal riassunto che per spiegare più dell’80% della v ariabilitàdei dati abbiamo bisogno solo di tre componenti su un totaledi trentasei. I grafici mostrano, infatti, che dopo la terzacomponente il guadagno in termini di variabilità ri sultainsignificante.

componenti principali dei prodotti visti

Va

ria

nce

s

01

00

20

03

00

40

05

00

60

0

Comp.1 Comp.3 Comp.5 Comp.7 Comp.9

��

Vediamo da questi grafici che dopo la terza compone nte il“guadagno” in termini di variabilità è irrilevante; scegliamoallora tre componenti per poter spiegare e interpre tare idati.

ii. Interpretazione delle componenti trovat e.

L’interpretazione delle componenti principali consi stenell’analisi delle combinazioni trovate e quindi de icoefficienti di correlazione o autovalori.

Queste combinazioni sono le seguenti (riportiamo so lo le primetre componenti):

Pesi:

Comp.1 Comp.2 Comp.3

V108 -0.108

V115 -0.359 0.160

V116 0.116

V117 0.100

V118 -0.114

V130 -0.163

V135 -0.255 -0.922 -0.223

V136 -0.827 0.356 -0.270

V137 -0.222 0.898

In questa tabella sono stati omessi gli autovalori in valoreassoluto inferiore a 0,1 e le variabili in cui ness una dellecomponenti ha valori maggiore di 0,1. Per interpret areagevolmente questi risultati è meglio avvalersi di una nuova

�)

tabella nella quale da una parte mettiamo le variab ili consegno + e dall’altra quelle con segno (-).

• Prima componente

Variabili con segno (+) Variabili con segno (-)

•V108 Num DanskinProduct Views( -0.108)

•V115 Num Leg wearProduct Views( -0.359)

•V118 Num NylonProduct Views( -0.114 )

•V130 Num SolidPattern Views( -0.163)

•V135 Num UniqueBoutiquesAssortment Views(-0.255)

•V136 Num BrandsAssortment Views(-0.827)

• V137 NumDepartmentsAssortment Views(-0.222)

Nell’analisi di questa componente, vediamo che tutt i gliautovalori hanno segno negativo; questo vuole dire che essi sicollocano solo sul quadrante relativo all’asso nega tivo.

Vediamo inoltre che la variabile che ha il più gran de valore(in valore assoluto) è la variabile v136, relativa alle nuovecollezioni, poi viene la variabile v115 (che è la c ategoriadelle calze).

Tornando all’analisi effettuata sulla tabella relat iva allasintesi dei dati si nota che queste variabili sono levariabili più importanti, ovvero le pagine che sono più

��

visitate. Si può allora dire che questa componente mette inluce le pagine più importanti.

• Seconda componente:

Variabili con segno (+) Variabili con segno (-)

• V136 Num BrandsAssortment Views(0.356)

• V135 Num Unique BoutiquesAssortment Views (-0.922)

Questa componente sceglie solo due delle variabiliimportanti e le mette a confronto, ovvero oppone i prodottidella ”unique boutique” a quelli dei nuovi assortim enti.

Abbiamo quindi da un lato i clienti attenti alla mo da, edall’altra parte quelli che sono interessati ai pro dottidella “unique boutique”. Andando quindi a indagare a fondosulle variabili vediamo che i prodotti della “uniqu eboutique” sono i cosiddetti “prodotti chic” mentre i nuoviassortimenti sono i prodotti intermedi.

•Terza componente :

Variabili con segno + Variabili con segno -

•V115 Num Leg wearProduct Views (0.160)

•V116 Num Leg CareProduct Views (0.116)

•V117 Num Cotton ProductViews (0.100)

•V137 Num DepartmentsAssortment Views(0.898)

•V135 Num Unique BoutiquesAssortment Views( -0.223)

•V136 Num Brands AssortmentViews (-0.270)

Qui abbiamo da un lato i prodotti relativi alle gam be insiemeai prodotti in cotone e i prodotti del dipartimento , eall’opposto abbiamo i prodotti relativi alla “uniqu e boutique”e i nuovi assortimenti.

��

Questa componente divide quindi la popolazione dei clienti indue: abbiamo in primis i clienti a basso profilo in teressatisolo ai prodotti legati alle gambe senza tener cont o dellamarca e dall’altra parte abbiamo l’insieme dei clie ntiinteressati sia alla marca che ai prodotti trend.

Dopo queste analisi conviene a questo punto andare a vedere lecorrelazioni che esistono tra le componenti, analiz ziamo i

grafici sottostanti :

-0.6 -0.4 -0.2 0.0 0.1

-0.6

-0.4

-0.2

0.0

0.1

comp1 vs comp2

Comp.1

Co

mp

.2

12

3

4

56 7

8910

11

12

13

1415

16

17181920212223

24252627

2829

303132

3334353637383940414243

44

45

46

47484950

515253

54

5556

5758596061626364656667

6869

70717273

74

75

76777879808182

83 84

858687888990919293949596979899100101102103104105

106107

108

109110111112113

114115

116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149

150151152153154155156157158159160161162

163164165166167168169170171172173174175176177178179180

181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213

214215216217218219

220

221222223224225226227228229230231

232233234235236237238239240241242243

244245246247248

249

250251252253254255256257258259260261262263264265266267268269270271272273274275276277278

279280281282283284285286287288289290291292293294

295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349

350351352353354355356357358359

360361362363364365366367368

369370371372373374375376377378379380381382383384385386387388389390391392393394395396

397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430

431432433434435436437438439440441442443444

445446447448449450451452453454455456457458459460461462463464465466

467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504

505506507508509510511512513514515516517518519520521522523524525526527528

529530531

532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570

571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603

604

605606607608609610611612613614615616617618619620621622623624625626627628629630

631632633634635636637638639640641642643644645646647648649650651652653654655656657

658659660661662663664665666667668

669

670671672673674675

676

677

678679680681682683684685686687688689690691692693694695696697698699700701702703704705706707708709710711712713714715716717718719720721722723724725726727728729730731732733734735736737738739740741742743744745746747748749750

751752753

754755756757758759760761762763764765766767768

769

770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803

804805806807808809810811812813814815816817818819820821822

823824825826

827

828829830831832833834835836837838839840841842843844845846

847848849

850851852

853854855856857858859860861862863

864865866867868869870871872873874875876877878879880

881

882883884885886887888

889

890891892893894895896897898899

900901902903904

905

906907908909910911912913914915916917918

919

920921922923924925

926

927928929930931932933934935936937938939940941942943944945946947948949950951952953954955956957958959960961962963964965966967968969

970971972973974975976977978979980

981982983984985986987988989990991992993994995

996

9979989991000100110021003100410051006100710081009101010111012101310141015101610171018101910201021102210231024102510261027102810291030

103110321033103410351036

10371038103910401041104210431044104510461047104810491050105110521053105410551056105710581059

106010611062106310641065106610671068

1069

107010711072107310741075

1076107710781079108010811082108310841085108610871088108910901091

10921093109410951096

1097109810991100110111021103110411051106110711081109111011111112

1113111411151116111711181119

1120112111221123112411251126112711281129113011311132113311341135113611371138113911401141114211431144114511461147114811491150115111521153115411551156

115711581159116011611162116311641165116611671168116911701171117211731174117511761177117811791180

1181118211831184118511861187118811891190119111921193119411951196119711981199120012011202120312041205120612071208120912101211121212131214121512161217121812191220122112221223122412251226

1227

122812291230123112321233123412351236

123712381239124012411242124312441245124612471248124912501251125212531254125512561257125812591260126112621263126412651266

12671268126912701271127212731274

1275

12761277127812791280

128112821283128412851286128712881289129012911292129312941295

12961297129812991300130113021303130413051306130713081309131013111312131313141315131613171318

131913201321132213231324132513261327

132813291330133113321333

1334133513361337133813391340134113421343134413451346134713481349135013511352

1353135413551356135713581359136013611362136313641365

1366

1367136813691370137113721373137413751376

137713781379138013811382138313841385138613871388138913901391

139213931394139513961397139813991400140114021403140414051406140714081409141014111412141314141415

1416141714181419142014211422142314241425142614271428142914301431143214331434143514361437143814391440144114421443144414451446

14471448144914501451145214531454145514561457145814591460146114621463146414651466146714681469147014711472147314741475147614771478

1479148014811482

1483148414851486148714881489149014911492149314941495

149614971498

1499150015011502150315041505150615071508150915101511151215131514151515161517151815191520152115221523152415251526152715281529153015311532153315341535153615371538153915401541154215431544154515461547154815491550

15511552155315541555155615571558155915601561156215631564

1565156615671568

15691570157115721573157415751576

1577157815791580158115821583158415851586158715881589159015911592159315941595159615971598159916001601160216031604160516061607

160816091610161116121613161416151616161716181619162016211622162316241625162616271628162916301631

1632

163316341635163616371638163916401641164216431644164516461647

164816491650165116521653165416551656165716581659166016611662166316641665

1666166716681669

1670

167116721673167416751676167716781679

1680

1681168216831684168516861687168816891690

1691169216931694169516961697169816991700170117021703

17041705

1706

17071708170917101711

1712

17131714171517161717171817191720

17211722172317241725172617271728

172917301731173217331734173517361737173817391740174117421743174417451746

1747

17481749175017511752

175317541755

175617571758175917601761

176217631764176517661767176817691770177117721773177417751776

17771778

177917801781

-1000 -600 -200 0 200

-10

00

-60

0-2

00

02

00

V105V106V107V108V109V110V111V112V113V114V115 V116V117V118V119V120V121V122V123V124V125V126V127V128V129V130V131V132V133V134

V135

V136

V137V138V139V140

Questo grafico evidenzia le prime due componenti, l a prima cheha come variabile principale la v136 (i nuovi assor menti) e la

��

seconda componente diretta dalla variabile v135(uni queboutique assortment)

Il grafico della prima componente verso la terza è riportatodi seguito

-0.6 -0.4 -0.2 0.0 0.2

-0.6

-0.4

-0.2

0.0

0.2

comp1 vs comp3

Comp.1

Com

p.3

1

23

4

5

6

78910

111213

1415

1617181920212223

24

25262728

29303132

33

34

35363738394041424344454647484950

51

5253

54

5556

575859606162636465666768

69

7071

7273747576777879808182

838485

868788899091929394

9596979899100101102103104105106107108109110111112113114115

116117118119120121122123124125126127128

129130131132133134

135

136137138139140141142143144145146147148149150151152153154155156157158159160161162

163

164165166167168169170171172173174175176

177

178179180181182183184185

186187188189190191192193194195196197198

199200201202203204205206207208209210211212213

214215216217218219

220

221222223224225226

227228229230231232

233234235236

237238

239240241242243244245246247248249250251252253254255256257258259260261262263

264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315

316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352

353354355356357358359

360361362363364365366367368369370371372373374375376

377

378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425

426427428429430431432433434435436

437

438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479

480481482483484485486

487488489490491492493494495496497498499500501502503

504505506507508509510511

512513514515516517518519520521522523524525526527528529530531

532

533534535536

537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576

577

578579580581582583584585586587588589590591592593594

595596597598599600601602603

604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633

634635636637638639640641642643644645646647

648649650651652653654655656657658659660661662663664665666667668

669670671672673674675676

677678679680

681682683684685686687688689690691692693694695696697698699700

701702703704705706707708709710711712713714715716717718719720721722723724725726

727728729730731732733734735736737738739740741742743744745746747748749750

751752753754755756757758759760761762763764765766767768

769

770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811

812813814815816817818819820

821822823824825826

827

828829830831832833834835836

837

838839840841842

843844845846847848849850851852853854855856857858859860861862863864865866

867

868869870871872873874875876877878879880

881882883884885886887888889890891892893894895896897898899900901902903904905906907

908909910911912913914915916917918

919920921922923924925926927928929930

931

932933934935936937938939940941942943944945946947948949950951952953954955956957958959960961962963964965966967968969

970

971972973974975

976977978979980981982983984985986987988989990991992993994995996997998999

1000100110021003100410051006100710081009101010111012

1013

10141015101610171018101910201021102210231024102510261027102810291030103110321033103410351036103710381039104010411042104310441045104610471048

10491050105110521053105410551056105710581059106010611062106310641065

1066106710681069107010711072107310741075107610771078

1079108010811082108310841085108610871088108910901091109210931094109510961097109810991100110111021103110411051106110711081109111011111112

1113111411151116111711181119

1120112111221123112411251126112711281129113011311132113311341135

113611371138113911401141114211431144114511461147114811491150115111521153115411551156115711581159116011611162

1163116411651166116711681169

1170117111721173

11741175

1176117711781179118011811182118311841185118611871188118911901191

1192

119311941195119611971198119912001201120212031204120512061207120812091210121112121213121412151216121712181219122012211222

12231224

122512261227122812291230123112321233123412351236

123712381239124012411242124312441245124612471248124912501251125212531254125512561257125812591260126112621263126412651266

1267126812691270127112721273127412751276127712781279128012811282128312841285128612871288128912901291129212931294

129512961297129812991300130113021303130413051306130713081309131013111312131313141315131613171318131913201321132213231324

13251326132713281329133013311332133313341335133613371338133913401341134213431344134513461347134813491350135113521353

13541355135613571358

1359136013611362136313641365

1366136713681369137013711372137313741375

1376

1377137813791380138113821383138413851386138713881389

1390139113921393139413951396139713981399140014011402140314041405

14061407140814091410141114121413141414151416141714181419142014211422142314241425142614271428142914301431143214331434

1435

1436143714381439144014411442

14431444144514461447

1448144914501451145214531454145514561457145814591460146114621463146414651466146714681469147014711472147314741475147614771478

147914801481148214831484148514861487148814891490149114921493149414951496149714981499150015011502150315041505150615071508150915101511151215131514151515161517151815191520152115221523152415251526152715281529153015311532153315341535153615371538153915401541154215431544154515461547154815491550155115521553

15541555155615571558155915601561156215631564

1565

15661567156815691570157115721573

1574

157515761577

157815791580158115821583158415851586158715881589159015911592159315941595159615971598159916001601160216031604160516061607

160816091610161116121613161416151616161716181619162016211622162316241625162616271628162916301631

1632163316341635

16361637163816391640164116421643164416451646

1647

164816491650165116521653165416551656

1657

165816591660166116621663

1664166516661667166816691670167116721673167416751676167716781679

1680

168116821683

1684

16851686

1687

16881689169016911692169316941695169616971698

16991700170117021703

17041705

1706

17071708170917101711

1712

1713171417151716171717181719

1720

1721

172217231724172517261727

1728172917301731173217331734173517361737173817391740174117421743174417451746

174717481749

175017511752

175317541755

17561757

1758

1759176017611762

176317641765176617671768176917701771177217731774177517761777

1778177917801781

-800 -400 0 200 400

-800

-400

020

040

0

V105V106V107V108V109V110V111V112V113V114V115 V116V117V118V119V120V121V122V123V124V125V126V127V128V129V130V131V132V133V134

V135V136

V137

V138V139V140

Questa componente evidenzia due grandi gruppi: il p rimo che hacome variabile principale la variabile v137(Num Dep artmentsAssortment Views) e il secondo con variabile princi pale v136nuovi assortimenti visti con essa; si nota la corre lazione conle variabili v115 (Num Legwear Product Views) e v13 5 (NumUniqueBoutiques Assortment Views)

��

Infine, l’ultimo grafico è relativo alle componenti due e trein cui si evidenziano tre grandi gruppi:

il primo caratterizzato dalla variabile v137,il sec ondo dallavariabile v135,e infine l’ultimo composto dalla var iabile v136

-0.2 -0.1 0.0 0.1 0.2

-0.2

-0.1

0.0

0.1

0.2

Comp.2

Com

p.3

1

23

4

5

6

7 8

910

11

1213

1415

161718

192021 2223

24

2526

2728

29 30

3132

33

34

3536373839

40

414243

4445

464748

4950

51

5253

54

55

56575859

60 616263646566

67

68

69

70

71

7273 7475 7677

787980

8182

83

8485868788

8990919293

9495

969798

99100101

102103104105106107

108109

110111

112113114115

116117118119120

121122123124125126

127128

129130131132133134

135

136

137138139

140

141142

143

144

145146147148149

150

151152

153154155156

157158159

160161162

163

164165166167168169170171172173174175176

177

178179

180181182183184185

186

187188189190191192193194195196197198

199

200201202203204205206207208209210211212213214

215216217218219

220

221222

223224225226

227228229

230231232

233234235236

237238

239

240241242243

244245246247

248249

250251252253254255256257258259260261

262263264

265266267268269

270

271272273274275276277278279280281282283284285286

287288289290291292293294295296

297298

299300301302303304305306307308309310311312313314315316

317318319

320

321322323324325

326327328

329330331332

333334335336337338339340341342343344345346

347348349

350351352

353

354355356357358

359

360361362363364

365366367368369

370371372373374375376

377

378379380381

382

383384

385386387388

389390391392393394395396

397398399400

401

402403404405406407408409410411412413414415416

417418419420421422423424425

426

427

428429430431432

433

434435

436

437

438439440441442443

444445

446447448449450

451452453454455456457458459460461462463464

465466467468469470471472473474475

476477

478479

480

481482483484485486

487

488489490491492493494495496497498499500

501

502503504505

506507508509510511

512513514515516517518519520

521522523524525526527

528529

530531

532

533534535536

537538

539540541542543

544

545546547

548549

550

551552553554555556

557558559560561562

563564565566567568

569570

571572573574575576

577

578579580

581582

583584585586

587588589590591592593594595596597598

599600601602

603

604605606607608

609610611612613614615

616617618619620621622

623624625626627628629630

631632633634

635636637638639640641642643

644

645646647648649650651652653

654655656657658659660

661662663664665666667668

669670671672 673674675676

677

678679680681682683

684685686

687688689690691692693694

695696697

698699

700

701

702

703704705706707708709710711712713714

715716717718719720

721722723724725726

727

728729730731732

733

734735

736737738739

740741

742743744745746747748749750

751

752753754755756757758759760761762763764765766767768

769

770771772

773774775776 777778779780781782783

784785786787788789790

791792793794795796797798799800801

802803804

805

806807808809810811

812813814

815816

817818819

820821

822 823824825826

827

828829830831832

833834835836

837

838839840841842

843

844845

846847848849850

851852853854855856857858859

860861862863

864865866

867

868869870871

872

873874875876877878

879880

881882883884885886887888889 890891892893

894

895896897898

899900901902

903904905 906907908

909910911912913914915916

917918

919920921

922923924925926 927928929930

931

932933934935936937938939940941

942943944945946947948949950951952953954955956

957

958959960961962963964965966967968969

970

971972973974

975

976977978979980 981982983984985

986987988

989990991992993994995996 997

998

999100010011002

1003

1004100510061007

10081009101010111012

1013

1014101510161017

10181019102010211022102310241025

10261027102810291030

103110321033103410351036

10371038103910401041104210431044104510461047104810491050105110521053105410551056

1057105810591060

10611062106310641065

1066

1067

1068

1069107010711072

107310741075

1076

107710781079108010811082108310841085108610871088108910901091109210931094

109510961097109810991100

1101110211031104110511061107110811091110

11111112

111311141115111611171118

1119

1120

11211122

1123

1124

1125

112611271128112911301131

11321133

113411351136

11371138113911401141

11421143114411451146

1147114811491150

115111521153115411551156115711581159116011611162

11631164116511661167

11681169

11701171

11721173

1174

117511761177

117811791180

1181

1182118311841185118611871188118911901191

1192

11931194

1195

119611971198

1199120012011202

12031204120512061207120812091210121112121213

12141215121612171218121912201221

1222

1223

1224

122512261227

122812291230

123112321233123412351236

12371238123912401241124212431244124512461247

12481249125012511252125312541255

1256125712581259

1260126112621263126412651266

1267

12681269127012711272127312741275127612771278

1279128012811282

12831284128512861287128812891290129112921293

1294

1295129612971298

12991300130113021303130413051306

1307

130813091310131113121313131413151316

131713181319132013211322132313241325132613271328

132913301331133213331334

1335133613371338133913401341

1342134313441345134613471348

1349

135013511352135313541355

135613571358

1359

136013611362136313641365

1366

1367136813691370137113721373

13741375

1376

1377

137813791380138113821383138413851386138713881389

13901391139213931394139513961397

13981399140014011402

140314041405

140614071408

1409141014111412141314141415141614171418141914201421142214231424142514261427

142814291430143114321433

1434

1435

143614371438143914401441

144214431444

14451446

1447

14481449145014511452145314541455

145614571458

145914601461

14621463146414651466146714681469

14701471

1472

1473147414751476

14771478

147914801481

14821483

1484148514861487148814891490149114921493149414951496149714981499

15001501150215031504150515061507

15081509151015111512

151315141515

151615171518151915201521152215231524

1525152615271528

15291530

1531153215331534153515361537153815391540

154115421543154415451546154715481549

1550155115521553

1554

15551556

155715581559

1560156115621563

1564

1565

1566

1567

156815691570157115721573

1574

157515761577

1578157915801581158215831584

1585158615871588158915901591

15921593159415951596

1597

1598159916001601160216031604

160516061607

1608

16091610161116121613

161416151616161716181619

1620

1621

162216231624

162516261627

1628

162916301631

16321633

16341635

16361637

163816391640164116421643

164416451646

1647

1648164916501651165216531654

1655

1656

1657

165816591660166116621663

1664

16651666

1667166816691670 1671

16721673167416751676167716781679

1680

168116821683

1684

16851686

1687

16881689

1690169116921693

169416951696169716981699

1700170117021703

17041705

1706

17071708

170917101711

1712

1713171417151716171717181719

1720

1721

1722

1723

17241725

17261727

17281729

17301731173217331734

173517361737173817391740174117421743174417451746

1747 17481749

1750

17511752

1753

17541755

17561757

1758

17591760

17611762

17631764176517661767

1768176917701771177217731774

17751776

1777

1778177917801781

-600 -400 -200 0 200 400

-600

-400

-200

020

040

0

V105V106V107V108V109V110V111V112V113V114

V115V116V117V118V119V120V121V122V123V124V125V126V127V128V129V130V131V132V133V134

V135 V136

V137

V138V139V140

Questo esempio è uno tra i molteplici esempi che mo stranol’utilità dell’uso dell’ACP. Infatti, vediamo che q uandoabbiamo dei dati di molte variabili non sempre è fa cileanalizzarli e delineare il profilo dell’informazion e contenutain essi. A questo proposito l’ACP si presta bene a ridurrecome si è visto la dimensionalità dei dati in modo da rendereagevole la loro interpretazione. Partiti da un insi eme di 1781unità e trentasei variabili, ci siamo ricondotti ad un insiemedi tre componenti facilmente interpretabili.

��

L’analisi del dataset gazelle, ci ha fatto vedere c ome ilcomportamento dei clienti di questa società diverge infunzione della loro disponibilità economica e dei l oro gusti;abbiamo mostrato che chi è realmente interessato a comprare unarticolo generalmente visita più pagine di chi inve ce non loè. E tra quelli che comprano possiamo tipicamente d istingueretre classi: quelli non interessati alla marca (che ho chiamatoclienti a profilo basso), quelli che sono interessa ti allamoda e quindi che generalmente visitano gli articol i trend equindi classificati nel profilo medio e infine quel li che sonoclassificati nel profilo alto e che visitano tipica mente iprodotti della “unique boutique”.

��

Capitolo III:

Analisi dei comportamenti di visita al sitodi Microsoft.

1. Introduzione.

a. Breve presentazione degli obiettivi primaridell’autore

I dati che consideriamo in questo capitolo sono gi à statistudiati da studiosi come: Cadez et al. (2000), da un punto divista bayesiano da Giudici e Castello, e Giudici (2 005).

Lo scopo di Giudici (2005) consiste nella classifi cazione deivisitatori in gruppi omogenei, in base ai rispettiv i profilicomportamentali. Ovvero l’analisi è orientata ad ot tenere unaregola che assegni ogni singolo utente a un determi natocluster relativo al comportamento di navigazione su l sito; inquesto modo si ottiene una segmentazione dell’utenz a da poterimpiegare nelle successive decisioni di marketing r elazionale.Con una tale analisi si è, inoltre, in grado di mon itorarel’evolversi del comportamento della clientela, osse rvando indiversi istanti di tempo la distribuzione dell’uten za neidiversi segmenti comportamentali. In tal modo è anc hepossibile valutare l’impatto, in termini di aumento oriduzione delle visite, di una qualsiasi azione eff ettuata sulsito, come ad esempio il restyling delle pagine opp ure leazioni pubblicitarie e promozionali.

Nel seguito, faremo prima un’analisi descrittiva de i dati inmodo da trarre le prime informazioni, e applicherem o l’analisidelle componenti principali.

�'

b. Presentazione dei dati.

Il dataset contiene dei dati relativi alle pagine del sito:www.microsoft.com ; queste pagine sono state visitate da parte di32711 utenti. Per ciascun visitatore viene indicata la paginadel sito web visitata nella prima settimana di febb raio 1998.

L’individuazione di ogni visitatore avviene tramiteassegnazione di un codice univoco che va da 10001 a 42711 enon viene fornita alcuna informazione di carattere personale.Il numero totale delle pagine iniziali ammonta a 19 6. Questepagine sono identificate con un numero, un titolo el’indirizzo corrispondente.

Come si è visto nell’esempio precedente abbiamo g ià tanteunità (32711), e il fatto di avere oltre a queste u nità tantevariabili fa sì che l’analisi dei dati diventi diff icile, equindi il mezzo più facile per ovviare a questo con siste nelridurre il numero delle variabili.

Infatti, come fa notare Giudici, è possibile che non tuttele pagine vengano visitate, e quindi considerare le pagine chenon sono mai o raramente vistate non fa guadagnare niente intermine di informazione.

E stata fatta un’elaborazione dei dati di partenz a in mododa ottenere una matrice dei dati meno complessa. Da un totaledi 294 pagine, abbiamo adesso 13 variabili che ragg ruppano lepagine visitate, di cui diamo una breve descrizione :

-Initial: comprende tutte le pagine di accesso gene rale etutte le pagine dedicate alla ricerca nel sito.

-Support: riguarda le pagine relative alla richiest a disupporto.

-Entertainment: comprende le pagine relative ai sof tware diintrattenimento, ai giochi e alla cultura.

-Office: comprende tutte le pagine relative ai soft ware delpacchetto office.

-Windows: raggruppa le pagine relative al sistema o perativo“Windows”.

�-

-Othersoft: riguarda le pagine relative a tutti i s oftwareper professionisti, diversi da quelli del pacchettooffice.

-Download: comprende le pagine dedicate allo scaric amento disoftware e aggiornamenti.

-Otherint: riguarda le pagine dedicate ai servizi v iainternet per professionisti di information technolo gy,diverse da quelle di download.

-Development comprende tutte le pagine dedicate agl isviluppatori professionisti (per esempio java).

-Hardware: riguarda le pagine relative ai prodotti hardwaredella Microsoft.

-Business: comprende le pagine dedicate alle aziend e.

-Info: comprende tutte le pagine che forniscono inf ormazionisui nuovi prodotti e servizi.

-Area: comprende le pagine che si riferiscono all’a ccessolocale, in base alla propria lingua.

Questo nuovo dataset è tale che per ogni pagina ind ichiamo ilnumero di volte che è stata visitata da un utente. Si capisceallora che il dataset è composto da variabili quant itativediscrete.

Visto che abbiamo provveduto ad una riduzione del numero divariabili, ci si aspetta che le prime tre o quattro componentiprincipali spieghino solo una minima parte della va riabilitàdei dati. Nel senso che quando uno effettua un’ACP su datimolto numerosi, generalmente ci si aspetta che la m aggioreparte dell’informazione sia concentrata nelle prime componenti(generalmente tre), mentre, eseguendo l’ACP su un n umerominore di variabili, ci si aspetta risultati ancora migliori.

A questo punto, eseguiamo una prima analisi esplo rativa inmodo da evidenziare le prime caratteristiche dei da ti.

��

2. Analisi esplorativa dei dati.

Facciamo gli stessi ragionamenti di prima, ovvero i n questaprima parte siamo interessati a sapere quali sono l e paginepiù visitate. La tabella di sintesi dei dati è la s eguente:

N medie Dev. Stand. Mass imi Mediane

initial 32711 0.71 0.88 7 1

help 32711 0.28 0.66 8 0

entertainment 32711 0.09 0.32 4 0

office 32711 0.47 0.70 9 0

windows 32711 0.22 0.53 4 0

othersft 32711 0.09 0.38 7 0

download 32711 0.34 0.48 3 0

otherint 32711 0.19 0.46 6 0

development 32711 0.25 0.67 9 0

hardware 32711 0.09 0.36 6 0

business 32711 0.08 0.30 4 0

information 32711 0.07 0.26 4 0

area 32711 0.09 0.32 5 0

•Tabella 2 :sintesi dei dati.

Notiamo dapprima, analizzando questa tabella, che , oltrealla pagina iniziale, tutte le altre hanno una medi ana dizero; questo ci dice già che la pagina iniziale è u na paginecruciale del sito, ovvero che la maggior parte dei visitatoriinizia la propria navigazione partendo dalla pagina iniziale.Per poter classificare le pagine in funzione del nu mero mediodelle visite disegniamo un diagramma a barre:

�)

windo

ws

othe

rsft

othe

rint

offic

e

initial

inform

ation

help

hard

ware

entertainm

ent

downloa

d

deve

lopm

ent

busin

ess

area

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0,0

Diagramma a barre delle medie

•Grafico 1: diagramma a barre delle medie

come già detto, la pagina più visitata è la pagin a iniziale.Dopo di che viene la pagina di office, questo è log ico vistoche la popolarità della Microsoft risiede oltre al sistemaoperativo, anche al potente pacchetto “Office”. La pagina deidownload viene classificata in terza posizione dopo le pagine“iniziale” e “office”, e prima delle pagine “help” e”development”.

Analizzando la colonna relativa al terzo quartile dellatabella 2, osserviamo un fatto molto importante: ve diamo cheil terzo quartile di tutte le pagine è nullo, ad ec cezionedelle pagine “initial”, “office” e “download”, che hanno ilterzo quartile pari ad uno. Dato che un terzo quart ile nullovuole dire che il 75% dei navigatori non va a visit are questepagine, possiamo allora dire che queste tre pagine, sono le

��

pagine con una frequenza di visita alta,ovvero il 7 5% deivisitatori guarda almeno una volta queste pagine. G uardandoanche il grafico del numero massimo di visite delle pagine,vediamo che: in corrispondenza alle tre pagine appe na citateabbiamo anche dei massimi, a cui aggiungiamo la pag inadevelopment. Questo conferma quanto appena detto

area

inform

ation

busin

ess

hard

war

e

deve

lopm

ent

othe

rint

downloa

d

othe

rsft

windo

ws

offic

e

enterta

inmen

the

lp

initial

9

8

7

6

5

4

3

2

1

0

pagine

massimi

diagamma a barre dei massimi

•Grafico 2 diagramma a barre dei massimi

Questo si vede anche dai boxplot sottostanti dove, oltre alladiversità delle variabilità dei gruppi, osserviamo che a partele tre pagine appena citate grande parte della popo lazione deiclienti non visita queste pagine.

Questo sta a dire che possiamo distinguere già tre pagineimportanti ovvero la pagina iniziale, quella del pa cchettooffice e quella dei download come pagine che più at tiranol’attenzione dei visitatori.

'�

area

inform

ation

busin

ess

hardwar

e

deve

lopm

ent

othe

rint

downloa

d

othe

rsft

windo

ws

offic

e

enterta

inmen

the

lp

initial

9

8

7

6

5

4

3

2

1

0

boxplot dei dati

a.Grafico 3: boxplot dei dati.

'�

3. Applicazione dell’analisi delle componen ti principali sui dati.

Anche in questo caso conviene lavorare con la mat rice dicovarianza invece che con quella di correlazione o un'altramatrice standardizzata. Infatti, osserviamo che tut te levariabili, anche se hanno variabilità diversa come si vede dalboxplot precedente, sono tutte relative al numero d i paginevisitate dagli utenti e quindi nella stessa unità.

L’applicazione della procedura dell’ACP sui dati ha prodottoi dati riassunti nella tabella seguente.

std. error P. di varianza P. cumula te

Comp.1 0.97 26.59 26.59

Comp.2 0.75 16.08 42.67

Comp.3 0.70 13.79 56.47

Comp.4 0.55 8.60 65.07

Comp.5 0.53 7.98 73.06

Comp.6 0.43 5.29 78.35

Comp.7 0.39 4.47 82.83

Comp.8 0.36 3.64 86.47

Comp.9 0.34 3.32 89.79

Comp.10 0.32 2.92 92.72

Comp.11 0.32 2.88 95.61

Comp.12 0.30 2.69 98.306

Comp.13 0.24 1.69 100

I.Tabella 3: riassunto dell’ACP

'�

Comp.1 Comp.3 Comp.5 Comp.7 Comp.9

grafico delle varianze delle componenti

Var

ianc

es

0.0

0.2

0.4

0.6

0.8

Come ci si aspettava, per spiegare l’82% della va riabilitàdei dati abbiamo bisogno di un totale di 7 variabil i su 13,mentre sarebbe stato preferibile che la maggior par te dellavariabilità fosse concentrata nelle prime tre compo nenti e chelo screen-plot presentasse un gomito evidente. Ques to ciporterebbe quindi a dire erroneamente, che l’ACP no n è stataben eseguita, e quindi occorrerebbe cercare magari unaversione standardizzata della matrice in modo da mi gliorare irisultati.

'�

Però bisogna anche tener presente che siamo partit i da undataset avente un totale di 194 variabili e che ci siamoricondotti a 13, aggregando variabili.

Questo è uno dei motivi per cui l’analisi dell’AC P in questocaso non ha prodotto risultati tanto soddisfacenti quantoquelli dell’esempio precedente, perché tende a cons ideraretutte le variabili come importanti e come abbiamo f atto notaresono importanti perché elaborazioni o sintesi di al trevariabili.

Proviamo quindi ad interpretare i risultati prodo tti daquesta analisi. Per l’interpretazione ci imiteremo a cinquecomponenti, perché con cinque componenti riusciamo a spiegarepiù del 70% della variabilità dei dati.

Pesi:

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5

initial 0.859 0.467 -0.141

help 0.455 0.181 -0.696 0.520

entertainment

office -0.698 -0.623 0.183

windows 0.162 -0.457 -0.749

othersft -0.140 0.165

download -0.223 -0.208 -0.286 -0.317

otherint -0.241 0.293

development -0.586 0.669

hardware

business

information

area

'�

Anche in questo contesto, per poter spiegare il sensodelle variabili trovate, aiutiamoci con le tabell e.

- Componente 1:

Variabili con segnipositivi

Variabili con segninegativi

I.initial 0.859

II.help 0.455

III.windows 0.162

Osserviamo che la prima componente ha valori alti solo incorrispondenza di tre variabili. E queste variabili sono acoefficiente positivo. Vediamo che questa component e èrelativa agli utenti standard, ovvero gli utenti al le primearmi con l’informatica e il mondo virtuale, come si vede dallavariabile più importante “initial”; questi utenti u sufruisconotanto della pagina iniziale, ma hanno anche bisogno dellapagina di aiuto (“help” seconda pagina importante). Notiamoanche che questi utenti sono anche interessati alle paginerelative a Windows.

-Componente 2:

Variabili con segnipositivi

Variabili con segninegativi

I.help 0.181 II.office -0.698

III.othersft -0.140

IV.download -0.223

V.otherint -0.241

VI.development -0.586

''

Analizzando le variabili più importanti di questa componente(office , development), vediamo che questa componen te mette dauna parte i professionisti e i semi professionisti eall’opposto la pagina di aiuto; questo sta a dire c he è veroche i professionisti e semi professionisti visitanoparticolari pagine a loro dedicate, ma hanno anche bisognodella pagina di aiuto. Questo fatto risulta molto i mportante,perchè sta a indicare che la pagina di aiuto è una paginavisitata dalla quasi totalità della popolazione, qu indi unasua buona organizzazione porterebbe ad un miglioram ento deiservizi della società.

-Componente 3:

Variabili con segnipositivi

Variabili con segni negativi

. Othersft 0.165

. otherint 0.293

. development 0.669

. office -0.623

. download -0.208

L’analisi di questa componente, invece, oppone iprofessionisti ai semi professionisti. Infatti, abb iamosull’asse positivo tutte le pagine relative ai soft ware disviluppo per professionisti e dall’altra, i prodott i office ela pagina di download, tipiche pagine visitate, di solito,solo da chi è interessato al prodotto office della Microsoft.

-Componente 4:

Variabili con segnipositivi

Variabili con segninegativi

. initial 0.467 . help -0.696

. windows -0.457

. download -0.286

'-

Questa componente, invece, ci oppone la pagina in iziale aquelle di help, windows e download, ovvero sembra d ividere iprincipianti in due, cioè sembra fare la differenza tra quelliche usano solo la pagina iniziale e quelli con un l ivelloleggermente più alto che visitano le pagine di aiut o, windowsdownload.

-Componente 5 :

Variabili con segni positivi Variabili con segninegativi

. help 0.520

. office 0.183

. initial -0.141

. windows -0.749

. download -0.317

Quest’ultima componente confronta i semi professi onisti coni non professionisti.

L’analisi delle correlazioni tra le variabili si può fareattraverso l’analisi dei grafici sottostanti chiama ti biplot.

Il biplot delle due prime componenti è il seguent e:

'�

Da questo biplot si evidenziamo due grandi gruppi : il primocomposto dalle unità per cui variabili initial e he lp assumonovalori elevati, mentre il secondo composto da quell e convalori alti per office e development. Vediamo che q ueste duepagine sono correlate con le variabili otherdft,do wnlaod,otherint, information e hardware. Questo significa che,generalmente, chi visita le pagine di office e deve lopmentgeneralmente visita anche le pagine ad essa correla te.

')

Il biplot della seconda componente contro la terz a è ilseguente:

Qui si evidenziano tre grandi gruppi: il primo co mpostodalle pagine relative ai professionist development, otherint,othersoft; il secondo ai semi professionisti office download,e infine la pagina di aiuto.

'�

L’analisi di questo dataset ci ha permesso, una v olta dipiù, di mostrare come i comportamenti dei visitator i di unsito web differiscano tra di loro. In particolare l a visitadelle pagine del sito della Microsoft da parte dei clienti sifa in modo ben chiaro, ovvero si sono evidenziati t re grandigruppi che abbiamo deciso di chiamare principiante, ovveroquelli che iniziano la loro navigazione dalla pagin aprincipale e utilizzano tanto la pagina di aiuto, p oi ilgruppo dei semi professionisti, cioè quelli interes sati aiprodotti del pacchetto office, e alla pagina di dow nload,einfine i professionisti, quelli che visitano specif iche paginelegati allo sviluppo di software.

Inoltre si è anche visto come in questo caso l’an alisi, purnon avendo prodotto risultati straordinari, ha perm esso didividere la popolazione in sotto-popolazioni, in ba se al lorocomportamento o meglio conoscenza nel riguardo dei servizidella Microsoft.

Conclusione

Abbiamo visto come attraverso specifici strumenti statisticiè possibile trarre utili informazioni da un insieme di datianche complessi.

Infatti, l'analisi dei dati relativi ai due siti consideratiin questa sede, ci ha permesso di mostrare come ilcomportamento di visita degli utenti a questi siti si fa inmaniera non casuale, ovvero abbiamo visto, ad esemp io, chepossiamo classificare i visitatori del sito della M icrosoft infunzione della loro conoscenza e del loro interesse alle nuovetecnologie. Oppure che, gli utenti che visitano il sito dellaGazelle, possono anch'essi essere divisi in classi in funzionedel loro “portafoglio” e del fatto che siano intere ssati omeno alla moda.

Queste conoscenze ci porta quindi ad usare specific he tecnichedi marketing per poter ottimizzare i profitti delle vendite. Equesta ottimizzazione inizia da un ordinamento rigo roso fattosulla base dei risultati ottenuti dalle analisi.

-�

�����������

- Azzalini A., Scarpa B. (2004), Analisi dei dati e datamining: Springer.

- Dunleman G. H. (1989), Principals components anal isis :Newbury park[etc].

- Fabbris L. (1983), Analisi dei dati multidimensio nali:Cleup.

- Fabbris L. (1997), Analisi multivariata, analisiesplorativa dei dati: �McGraw-Hill

- Marchetti Giovanni (1984), Analisi in componentiprincipali e approssimazioni di matrici: alcuneinterpretazioni e legami con altri metodi multivari ati:Publicazione del dipartimento statistico dell'unive rsitàdi Firenze

- Giudici P (2005), Data mining: Metodi informatici ,statistici e applicazioni, seconda edizione: McGraw -Hill.

- Iacus S. M., Masarotto G. (2007), Laboratorio distatistica con R: McGraw-Hill.

- Shapiro S. S. (1985), Come provare la normalità e d altreipotesi per le distribuzioni di frequenza: Editoria leItaca

-�

-�