statistica dei consumi alimentari e delle tendenze ...omero.farm.unipi.it/matdidfarm/131/lezione 6...
TRANSCRIPT
Statistica dei consumi alimentari e delle tendenze nutrizionaliLezione 6 - 16/10/2015
a.a. 2015/16
Prof. Maria Francesca Romano
Libri di riferimento per la statistica descrittiva
Diamond, Jefferies, Introduzione alla statistica per le scienze sociali,
McGraw-Hill. 2002
Capitoli 1, 2, 3, 4 e 5
Oppure (più approfondito)
Borra, Di Ciaccio, Statistica. Metodologie per le scienze economiche
e sociali, McGraw-Hill. 2004.
Capitoli 1, 2, 3, 4, 6 e 7
• La situazione di minore mutabilità si trova
quando le unità statistiche si “concentrano” in
un’unica modalità (che è quella “modale”).
Facciamo un esempio con la variabile
«tipo_tit_stu»
Modalità: LT LS LVO
Freq. Relative (pi): 0.815 0.074 0.111
i : 1 2 3
(1-pi) : 0.185 0.926 0.889
pi (1-pi) : 0.151 0.069 0.099
G = 0.319
Modalità: LT LS LVO
Freq. Relative (pi): 0.50 0.25 0.25
i : 1 2 3
(1-pi) : 0.50 0.75 0.75
pi (1-pi) : 0.25 0.187 0.187
G = 0.624
Se la variabile «tipo_tit_stu» fosse stata:
Modalità: LT LS LVO
Freq. Relative (pi): 0.333 0.333 0.333
i : 1 2 3
(1-pi) : 0.667 0.667 0.667
pi (1-pi) : 0.222 0.222 0.222
G = 0.666
Ipotesi di massima mutabilità
Modalità: LT LS o LVO
Freq. Relative (pi): 0.50 0.50
i : 1 2
(1-pi) : 0.50 0.50
pi (1-pi) : 0.25 0.25
G = 0.500
Se la variabile «tipo_tit_stu» avesse avuto solo
2 modalità:
Dati reali
Modalità: LT LS o LVO
Freq. Relative (pi): 0.815 0.185
i : 1 2
(1-pi) : 0.185 0.815
pi (1-pi) : 0.151 0.151
G = 0.302
NB: Il valore
dell’indice
dipende dal
numero di
modalità (k).
Come facciamo
a comparare la
mutabilità di
variabili con
numero
differente di
modalità?
Modalità: LT LS LVO
Freq. Relative (pi): 0.50 0.25 0.25
i : 1 2 3
(1-pi) : 0.50 0.75 0.75
pi (1-pi) : 0.25 0.187 0.187
G = 0.624
Modalità: LT LS LVO
Freq. Relative (pi): 0.333 0.333 0.333
i : 1 2 3
(1-pi) : 0.667 0.667 0.667
pi (1-pi) : 0.222 0.222 0.222
G = 0.666
Gnorm = k / (k-1) G
= 3/2 G
= 0.936
Gnorm = k / (k-1) G
= 3/2 G
= 0.999
Ipotesi di massima mutabilità
Modalità: LT LS o LVO
Freq. Relative (pi): 0.50 0.50
i : 1 2
(1-pi) : 0.50 0.50
pi (1-pi) : 0.25 0.25
G = 0.500
Dati reali
Modalità: LT LS o LVO
Freq. Relative (pi): 0.815 0.185
i : 1 2
(1-pi) : 0.185 0.815
pi (1-pi) : 0.151 0.151
G = 0.302
Gnorm = k / (k-1) G
= 2/1 G
= 0.604
Gnorm = k / (k-1) G
= 2/1 G
= 1.00
Vantaggi e svantaggi
• Sono calcolati su valori relativi (la
differente numerosità non influisce)
• Spostamenti tra modalità (rilevanti per
l’interpretazione del fenomeno) conducono
agli stessi valori degli indici
• La condizione di minima variabilità è
spesso non realistica
Finora abbiamo sintetizzato i dati per singola
variabile.
Maggiori informazioni possono essere ricavate
analizzando due variabili congiuntamente.
Voglio analizzare insieme i risultati delle variabili
«frequenza al corso» e «lavora».
Sono entrambe variabili qualitative nominali.
Posso costruire una tabella di contingenza.
Frequenza al corso
Lavora no parz siTotale
freq_corso
no 0 2 29 31
si 7 13 3 23
Totale
lavoro 7 15 32 54
% totale Frequenza al corso
Lavora no parz siTotale
freq_corso
no 0,00 0,04 0,54 0,57
si 0,13 0,24 0,06 0,43
Totale
lavoro 0,13 0,28 0,59 1,00
Posso calcolare le frequenze relative sul totale dei rispondenti (n=54)
% riga Frequenza al corso
Lavora no parz siTotale
freq_corso
no 0,00 0,06 0,94 1,00
si 0,30 0,57 0,13 1,00
Totale
lavoro 0,13 0,28 0,59 1,00
% colonna Frequenza al corso
Lavora no parz siTotale
freq_corso
no 0,00 0,13 0,91 0,57
si 1,00 0,87 0,09 0,43
Totale
lavoro 1,00 1,00 1,00 1,00
Posso anche calcolare le frequenze relative per riga
e per colonna
Posso
confrontare le
modalità di
«frequenza al
corso» per
ciascuna
modalità di
«lavora»
Posso
confrontare le
modalità di
«lavora» per
ciascuna
modalità di
«frequenza al
corso»
La forma generale di una tabella di
contingenza si presenta così
X e Y: variabili
considerate
fij : numero di unità statistiche che presentano
simultaneamente la modalità xj di X e la
modalità yi di Y
X
Y x1 … xj … xc Tot
y1 f11 f1j … f1c f1.
… … … … … … …
yi fi1 … fij … fic fi.… … … … … … …
yr fr1 … frj … frc fr.
Tot f.1 … f.j … f.c n
Associazione tra variabili qualitative
Se abbiamo costruito una tabella di contingenza è
per capire se le due variabili hanno qualche
legame o associazione tra loro.
Come faccio a misurare questa associazione?
Nel nostro caso, posso affermare che la frequenza
al corso è condizionata dall’avere un lavoro?
Punto di partenza:
Non esiste associazione tra le due variabili
Quindi, per ogni modalità di lavoro, dovrei
avere la stessa distribuzione della
«frequenza al corso».
% riga Frequenza al corso
Lavora no parz si totale
no 0,13 0,28 0,59 1,00
si 0,13 0,28 0,59 1,00
Totale 0,13 0,28 0,59 1,00
Ritornando ai valori assolutiLavora no parz si totale
no 4,0 8,6 18,4 31
si 3,0 6,4 13,6 23
Totale 7 15 32 54
I valori in rosso sono i valori «attesi» se non esistesse
associazione tra le due variabili
NB: Avrei avuto gli stessi valori «attesi» se fossi
partita dalla distribuzione condizionata del «lavoro»
data la «frequenza al corso».
Calcolo del valore atteso:
Totale di riga x totale di colonna / n
Frequenza attesa di persone che
non lavorano E non frequentano il corso :
31 x 7 / 54 = 4
31 / 54 : % di persone che non lavorano
7 / 54 : % di persone che non frequentano
Non occorre calcolare tutte le frequenze
«attese»: le frequenze marginali sono fisse
e quindi posso ottenere per differenza molte
frequenze «attese».
Il numero delle frequenze da calcolare è
uguale a (r-1)x(c-1)
Nel nostro caso (2-1)x(3-1) = 2
Calcolo del chi-quadrato
Frequenze osservate
0 2 29
7 13 3Frequenze attese
4,0 8,6 18,4
3,0 6,4 13,6
(O-E)2 / E
4,0 5,1 6,2
5,4 6,8 8,3
S 35,8
Chi-quadrato = 35,8
Questa tabella viene usualmente chiamata tabella di
contingenza.
In generale, una tabella di contingenza mostra la
distribuzione delle unità statistiche classificate sulla base
di due o più variabili.
Contiene varie distribuzioni di frequenza.