analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

18
L’ANALISI DISCRIMINANTE Corso di Laurea Magistrale in Scienze Statistiche Esame di Statistica multivariata A.A. 2009/2010

Upload: carla-gua

Post on 01-Jul-2015

604 views

Category:

Education


0 download

DESCRIPTION

Introduzione teorica all’analisi discriminante bayesiana e applicazione in SAS sul dataset pallavolo.

TRANSCRIPT

Page 1: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’ANALISI DISCRIMINANTEL’ANALISI DISCRIMINANTE

Corso di Laurea Magistrale in Scienze Statistiche

Esame di Statistica multivariata

A.A. 2009/2010

Page 2: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’analisi discriminante

ANALISI DISCRIMINANTE BAYESIANA (1/2)ANALISI DISCRIMINANTE BAYESIANA (1/2)

In base a conoscenze preesistenti vengono assegnate le probabilità a priori alle sottopopolazioni, tali che:

Se si conoscono le distribuzioni, completamente specificate, del carattere X nelle p sottopopolazioni, è possibile utilizzare il teorema di Bayes per calcolare le probabilità a posteriori di ciascuna sotto-popolazione, “aggiornando” l’informazione a priori mediante la verosimiglianza campionaria.

Page 3: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’analisi discriminante

ANALISI DISCRIMINANTE BAYESIANA (2/2)ANALISI DISCRIMINANTE BAYESIANA (2/2)

REGOLA DI CLASSIFICAZIONE: ATTRIBUIRE IL VETTORE OSSERVATO x ALLA SOTTOPOPOLAZIONE CHE HA LA MAGGIORE PROBABILITÀ DI AVERLO GENERATO, OVVERO NEL DETERMINARE IL GRUPPO j* A CUI È ASSOCIATA LA MASSIMA PROBABILITÀ A POSTERIORI:

La probabilità che, condizionatamente al valore delle k variabili rilevato, l’osservazione x sia generata dalla j-esima popolazione, è data da:

Page 4: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’analisi discriminante

REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI COMPLETAMENTE SPECIFICATEREGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI COMPLETAMENTE SPECIFICATE

Si assume che la j-esima sottopopolazione k-dimensionale abbia una certa distribuzione pj(x), j=1…p, completamente specificata nella forma e nei parametri

Obiettivo: classificare l’osservazione x nel gruppo per il quale la verosimiglianza è massima: x verrà assegnata alla j-esima sottopopolazione se

Page 5: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’analisi discriminante

REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRI-BUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHEREGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRI-BUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE

Ipotizzando che le sottopopolazioni assumano distribuzioni multinormali omoschedastiche, la log-verosimiglianza relativa al j-esimo gruppo assume la forma:

Essa raggiunge il suo massimo in corrispondenza del gruppo a cui è associato il minimo della distanza di MahalaNobis al quadrato:

REGOLA DI CLASSIFICAZIONE: ASSEGNARE L’OSSERVAZIONE x AL GRUPPO IN CORRISPONDENZA DEL QUALE LA DISTANZA D2 E’ MINIMA

MN

Page 6: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’analisi discriminante

Di conseguenza, la formula di Bayes assume la forma:

k

ii

j

k

ii

j

k

ii

jj

xH

xH

xD

xD

xD

xDxX

1

221

i

221

1i

221

i

j2

21

1

221

i

221

j

))((exp(-*

))((exp(-

)]ln2)((exp[-*

)ln2)((-exp

))(exp(-**cost

))(exp(-*cost*)(

COMBINANDO LA REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE E L’ANALISI DISCRIMINANTE BAYESIANA…(1/2)

COMBINANDO LA REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE E L’ANALISI DISCRIMINANTE BAYESIANA…(1/2)

MN

Page 7: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’analisi discriminante

COMBINANDO LA REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE E L’ANALISI DISCRIMINANTE BAYESIANA…(2/2)

COMBINANDO LA REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE E L’ANALISI DISCRIMINANTE BAYESIANA…(2/2)

jjj xDxH ln2)()( 22 La quantità H2

j(x) è detta distanza al quadrato generalizzata di x dal gruppo j:

k

ii

jj

xH

xHxX

1

221

i

221

))((exp(-*

))((exp(-)(

In definitiva, la probabilità a posteriori che l’unità a cui è associato il vettore osservato x appartenga al j-esimo gruppo è data da:

REGOLA DI CLASSIFICAZIONE: ASSEGNARE L’OSSERVAZIONE x AL GRUPPO j IN CORRISPONDENZA DEL QUALE LA PROBABILITA’ A POSTERIORI E’ MASSIMA, DOVE CIOE’ LA DISTANZA QUADRATA GENERALIZZATA E’ MINIMA

Page 8: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’analisi discriminante

CALCOLO DEGLI ERRORI: IL METODO DELLA CROSS-VALIDATIONCALCOLO DEGLI ERRORI: IL METODO DELLA CROSS-VALIDATION

Si prendono in considerazione nj-1 osservazioni del primo campione e tutte le n- nj+1 osservazioni restanti e si applica il procedimento descritto

per individuare la regola discriminante. In base ad essa si classifica l'osservazione esclusa dal primo campione.

Il procedimento viene ripetuto n volte, escludendo volta per volta ciascuna osservazione di ciascun gruppo.

La stima della probabilità di classificazione errata per gruppo viene individuata dividendo il numero di osservazioni riclassificate con la cross-validation diversamente dal gruppo di provenienza per il numero di osservazioni del gruppo di provenienza.

La stima della probabilità di classificazione errata generale è costituita da una media ponderata delle probabilità di classificazione errata per gruppo, con pesi dati dalle probabilità a priori associate a ciascun gruppo.

Page 9: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’analisi discriminante: un esempio

LE VARIABILI (1/2)LE VARIABILI (1/2)

Nome giocatrice

Variabili di battuta: bXset = totale battute effettuate; bACEXset = numero di ace, cioè di battute che comportano

direttamente punto alla squadra; bERRXset = numero di battute errate;

Variabili di ricezione: rTOTXset = totale delle ricezioni effettuate; rERRXset = numero di ricezioni sbagliate; rNEGXset = numero di ricezioni che hanno influito

negativamente sulla continuazione del gioco; rPERFXset = numero di ricezioni eseguite perfettamente;

Page 10: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Esempio: l’analisi discriminante

LE VARIABILI (2/2)LE VARIABILI (2/2)

Variabili di attacco: ATOTXset = totale degli attacchi effettuati; aMURXset = numero di attacchi che sono stati murati

dalla squadra avversaria; aPERFXset = numero di attacchi che hanno comportato

direttamente punto per la squadra;

Variabili di muro: mINVXset = numero di invasioni a muro; mPERFXset = numero di muri perfettamente eseguiti

che comportano punto diretto alla squadra che mura;

Stat

Corr

Page 11: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Esempio: l’analisi discriminante

I GRUPPII GRUPPI

I gruppi corrispondono al RUOLO in cui l’atleta ha giocato prevalentemente nel corso dell’ultimo campionato:

• S = schiacciatore• C = centrale• L = libero• P = palleggiatore

Page 12: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Esempio: l’analisi discriminante

LA PROCEDURA

/* Analisi discriminante */

proc discrim data=Vstand out=discrim outstat=discrim2 method=normal pool=yes list crossvalidate;

class ruolo;

priors prop;

var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset;

proc print data=discrim;

proc print data=discrim2;

data discrim3; set discrim (keep=nome ruolo C L P S _INTO_);

proc print data=discrim3;

run;

LA PROCEDURA

/* Analisi discriminante */

proc discrim data=Vstand out=discrim outstat=discrim2 method=normal pool=yes list crossvalidate;

class ruolo;

priors prop;

var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset;

proc print data=discrim;

proc print data=discrim2;

data discrim3; set discrim (keep=nome ruolo C L P S _INTO_);

proc print data=discrim3;

run;

Page 13: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Esempio: l’analisi discriminante

La procedura DISCRIM Osservazioni 145 Totale DF 144 Variabili 10 DF entro classe 141 Classi 4 DF tra classi 3 Informazioni sul livello di classificazione Nome Probabilità ruolo variabile Frequenza Peso Proporzione a priori C C 39 39.0000 0.268966 0.268966 L L 18 18.0000 0.124138 0.124138 P P 25 25.0000 0.172414 0.172414 S S 63 63.0000 0.434483 0.434483 Informazioni matrice di covarianza 'pooled' Log naturale della Covariance determinante della Matrix Rank matrice di covarianza 10 -37.72720

Page 14: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Esempio: l’analisi discriminante

Funzione discriminante lineare _ -1 _ -1 _ Costante = -.5 X' COV X + ln PRIOR Coefficiente = COV X j j j Vettore j

. Funzione discriminante lineare per ruolo Variabile C L P S Costante -7.70970 -5.96995 -4.26840 -5.37034 bACEXset -6.69731 -2.17319 8.99494 1.03100 bERRXset 12.18781 -0.90295 8.18720 3.45569 rERRXset 5.10592 7.41233 -0.60761 13.23917 rNEGXset -2.75047 -1.52309 -0.37207 1.64138 rPERFXset 0.58283 2.85690 0.08820 -0.64351 aERRXset -12.84890 3.57172 -4.73795 3.37553 aMURXset 3.08011 -2.04025 1.75106 2.17704 aPERFXset 0.54434 -0.24761 -0.98467 1.01794 mPERFXset 21.17576 -1.34662 3.23946 1.12768 mINVXset 7.91893 2.57431 39.68746 -3.49818

H2(x)

Page 15: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Esempio: l’analisi discriminante

D (X) = (X-X )' COV (X-X ) - 2 ln PRIOR j j j j Probabilità a posteriori di appartenenza in ogni ruolo 2 2 Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j k k

H2(x)

Page 16: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Esempio: l’analisi discriminante

Oss nome ruolo C L P S _INTO_ 1 Turlea S 0.00010 0.00001 0.00000 0.99989 S 2 Francia S 0.00001 0.00000 0.00000 0.99999 S 3 Togut S 0.01400 0.00000 0.00023 0.98577 S 4 Aguero S 0.00223 0.00001 0.00087 0.99689 S 5 Godina S 0.00286 0.00000 0.01327 0.98386 S 6 Centoni S 0.00236 0.00000 0.00002 0.99762 S 7 Kilic S 0.00018 0.00001 0.00002 0.99980 S 8 Moreno S 0.00001 0.00000 0.00004 0.99995 S 9 Tavares S 0.00028 0.00002 0.00085 0.99884 S 10 Piccinin S 0.00445 0.00085 0.00014 0.99457 S 11 Pachale S 0.00003 0.02197 0.00001 0.97799 S 12 Osmokrov S 0.46162 0.01223 0.00106 0.52509 S 13 Rinieri S 0.00027 0.00266 0.00002 0.99706 S 14 Gruen S 0.00473 0.03433 0.00113 0.95981 S 15 Cella S 0.00000 0.01111 0.00001 0.98888 S 16 Corjeuta S 0.02780 0.00007 0.00035 0.97178 S 17 Borrelli S 0.00109 0.04952 0.00010 0.94929 S 18 Fiorin S 0.00001 0.00160 0.00000 0.99838 S 19 Zetova S 0.79235 0.00006 0.01333 0.19426 C 20 Quaranta S 0.00039 0.00067 0.00038 0.99856 S 21 Fratczak S 0.00000 0.00001 0.00000 0.99999 S 22 Jerkov S 0.00008 0.00231 0.00808 0.98953 S 23 Djerisil S 0.00018 0.00029 0.00239 0.99714 S

Page 17: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Esempio: l’analisi discriminante

).

Numero di osservazioni e percentuale classificata in ruolo Da ruolo C L P S Totale C 35 1 3 0 39 89.74 2.56 7.69 0.00 100.00 L 0 15 3 0 18 0.00 83.33 16.67 0.00 100.00 P 2 0 23 0 25 8.00 0.00 92.00 0.00 100.00 S 2 1 4 56 63 3.17 1.59 6.35 88.89 100.00 Totale 39 17 33 56 145 26.90 11.72 22.76 38.62 100.00 A priori 0.26897 0.12414 0.17241 0.43448

Page 18: Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Esempio: l’analisi discriminante

Stime conteggio errori per ruolo C L P S Totale Tasso 0.1026 0.1667 0.0800 0.1111 0.1103 A priori 0.2690 0.1241 0.1724 0.4345

Cross-val