misure di sintesi - laboratorio di statistica 2014/2015...73 quantili sono un’estensione del...

24
54 MISURE DI SINTESI

Upload: others

Post on 12-Feb-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

54

MISURE DI SINTESI

Page 2: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

55

MISURE DESCRITTIVE D I SINTESI 1. MISURE DI TENDENZA CENTRALE 2. MISURE DI VARIABILITÀ

0

30

Le due distribuzioni hanno uguale tendenza centrale, ma diversa variabilità.

0

30

Le due distribuzioni hanno diversa tendenza centrale, ma uguale variabilità.

µ

Page 3: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

56

MISURE DI TENDENZA CENTRALE

Page 4: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

57

MISURE DI TENDENZA C ENTRALE Un insieme di dati numerici può essere sintetizzato da alcuni valori tipici, che indicano la posizione sull’asse orizzontale di punti importanti della distribuzione studiata

“Punti centrali”

MISURE di TENDENZA

CENTRALE MEDIA (coordinata orizzontale del baricentro) MODA (coordinata orizzontale del punto più alto) MEDIANA

Page 5: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

58

MEDIA CAMPIONARIA

SOMMA delle osservazioni di una variabile divisa per il numero totale di osservazioni. NB: x indica la media campionaria;

µ indica la media della popolazione. Esempio Date le età, in anni, di 5 soggetti si calcoli l’età media. 19 21 18 22 28

annix 6.215

108

5

2822182119 ==++++=

n

xx

n

ii∑

== 1

Page 6: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

59

MEDIA PESATA

Età (anni) = xi f i xif i

18 2 18 · 2 = 36 19 25 19 · 25 = 475 20 30 20 · 30 = 600 21 22 21 · 22 = 462 22 20 22 · 20 = 440 23 12 23 · 12 = 276 24 10 24 · 10 = 240 25 8 25 · 8 = 200 129 2729

annin

fxx

n

iii

155.2112927291 ===

∑=

n

fxx

n

iii∑

== 1

Page 7: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

60

MEDIA PER DATI RAGGR UPPATI IN CLASSI

Età (anni) xk fk xkfk

[15-20) 17.5 10 17.5 · 10 = 175 [20-25) 22.5 15 22.5 · 15 = 337.5 [25-30) 27.5 30 27.5 · 30 = 825 [30-35) 32.5 12 32.5 · 12 = 390 [35-40) 37.5 11 37.5 · 11 = 412.5 78 2140

xk = valore centrale della classe = = media degli estremi di classe

Si assume che i soggetti appartenenti alla stessa classe abbiano tutti uguale altezza, calcolata come media degli estremi di classe.

fk = frequenza di classe

n

fxx

K

kkk∑

== 1

annin

fxx

K

kkk

44.2778

21401 ===∑

=

Page 8: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

61

PROPRIETÀ DELLA MEDIA

• Non corrisponde necessariamente ad un valore

che la variabile studiata può assumere; • è unica: per un dato insieme di dati vi è una sola

media; • è facile da calcolare; • usa tutta l’informazione contenuta nei dati (tutti

i dati concorrono al calcolo della media); • è molto sensibile agli OUTLIERS*; • è impiegata in molti test statistici inferenziali. *Outlier = valore estremo, che giace molto perifericamente rispetto alla restante distribuzione dei dati.

Page 9: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

62

MEDIANA

È l’osservazione che divide a metà la serie ordinata delle osservazioni. Per individuare la mediana occorre: • ordinare (in senso crescente o decrescente) le

osservazioni; • determinare la posizione della mediana con la

seguente formula:

• individuare la mediana come l’osservazione che

occupa la posizione precedentemente calcolata.

posizione della mediana = (n+1)/2

n = no di osservazioni

Page 10: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

63

Distinguiamo 2 casi:

1. Le osservazioni sono in numero dispari Età (in anni) di 9 soggetti: 42 28 28 61 31 23 50 34 32 Posizione della mediana (n+1)/2=10/2=5 Ordino le osservazioni 23 28 28 31 32 34 42 50 61

La mediana è 32 anni perché occupa la 5a posizione.

2. Le osservazioni sono in numero pari Età (in anni) di 10 soggetti: 42 28 28 61 31 23 50 34 32 37 Posizione della mediana (n+1)/2=11/2=5.5 Ordino le osservazioni 23 28 28 31 32 34 37 42 50 61

La mediana è 33 anni (media aritmetica dei valori che occupano la 5a e la 6a posizione).

Page 11: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

64

Esempio Calcolare la mediana dei dati in tabella:

Età (anni) = xi f i Frequenza cumulata 18 2 2 19 25 27 20 30 57 21 22 79 22 20 99 23 12 111 24 10 121 25 8 129

129

Posizione della mediana (129+1)/2=65

La mediana occupa la 65a posizione.

Dalla colonna delle frequenze cumulate risulta che: 18 anni → 1a-2a osservazione 19 anni → 3a-27a osservazione 20 anni →28a-57a osservazione 21 anni→58a-79a osservazione

La mediana è 21 anni, perché quando tutti i 129 dati vengono ordinati, 21 anni occupa la posizione centrale.

Page 12: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

65

DATI RAGGRUPPATI IN CLASSI: LA CLASSE MEDIANA

Età (anni) fk Frequenza cumulata [15-20) 10 10 [20-25) 15 25 [25-30) 30 55 [30-35) 12 67 [35-40) 11 78

78

Posizione della mediana (n+1)/2=(78+1)/2 = 39,5 consideriamo la 39a e la 40a posizione

La classe che contiene la 39a e la 40a osservazione è la classe mediana.

Dalla colonna delle frequenze cumulate risulta che: 1a classe: [15-20)→ 1a-10a osservazione 2a classe: [20-25)→11a-25a osservazione 3a classe: [25-30)→26a-55a osservazione

La classe [25-30) anni contiene la 39a e la 40a osservazione e quindi è la classe mediana.

Page 13: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

66

PROPRIETÀ DELLA MEDIANA • È unica: per un dato insieme di dati vi è una

sola mediana; • è facile da calcolare; • non è influenzata dai valori estremi (stima

“robusta” di localizzazione).

Page 14: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

67

MODA È l’osservazione che si presenta con la massima frequenza. Esempio Età (in anni) di 9 soggetti: 42 28 28 61 31 23 50 34 32 La moda è 28, perché è l’osservazione che si presenta più frequentemente.

DATI RAGGRUPPATI IN CLASSI: LA CLASSE MODALE

Età (anni) fk

[15-20) 10 [20-25) 15 [25-30) 30 [30-35) 12 [35-40) 11

78 La classe modale è [25-30) anni, perché con essa si registra la massima frequenza.

Page 15: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

68

PROPRIETÀ DELLA MODA

• Semplicità concettuale;

0

30

10 20 30 40 50 60 70

Può essere letta direttamente dal grafico: la moda è il valore che ha massima frequenza, cioè il valore corrispondente alla colonna più alta. In questo caso la moda è 40.

• a differenza di media e mediana è determinabile

anche per variabili qualitative; • può non esistere; • ne può esistere più di una:

1 valore modale → distribuzione unimodale; 2 valori modali → distribuzione bimodale.

Page 16: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

69

Distribuzione unimodale moda = 40

0

30

10 20 30 40 50 60 70

Distribuzione bimodale moda1 = 60 moda2 = 100

0

30

60

10 40 50 60 70 80 90 100 110 120 130 140 Esempio Distribuzione del peso in un campione casuale di 100 studenti di cui 50 femmine e 50 maschi.

La distribuzione può essere bimodale:

2 picchi

peso più frequente nelle ♀ peso più frequente nei ♂

Page 17: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

70

FORMA DI UNA DISTRIB UZIONE Come la forma di una distribuzione influenza le misure di tendenza centrale

DISTRIBUZIONE UNIMODALE SIMMETRICA

Distribuzione SIMMETRICA:

le “code” hanno uguale lunghezza.

MEDIA, MODA E MEDIANA COINCIDONO

La curva è definita “a campana”.

µ= moda=mediana

Page 18: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

71

DISTRIBUZIONI ASIMMETRICHE Nelle distribuzioni ASIMMETRICHE, le cui “code” hanno diversa lunghezza MEDIA, MODA E MEDIANA NON COINCIDONO: in particolare, la media tende ad essere spinta verso la coda. La misura di tendenza centrale più appropriata per distribuzioni molto asimmetriche è la mediana (non influenzata dai valori estremi).

Asimmetria positiva Asimmetria negativa

• La distribuzione è “tirata” verso destra, verso i valori positivi. • La media (M) è maggiore della mediana (Me). • Esempio: distribuzione dei punteggi di un test difficile.

• La distribuzione è “tirata” verso sinistra, verso i valori negativi. • La media (M) è minore della mediana (Me) • Esempio: distribuzione dei punteggi di un test facile.

Page 19: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

72

MEDIA, MEDIANA E MODA sono definite sia misure di tendenza centrale sia

MISURE DI POSIZIONE

individuano la posizione della distribuzione sull’asse orizzontale quando questa viene rappresentata graficamente. Altre misure di posizione sono i QUANTILI.

Page 20: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

73

QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2 parti, ciascuna contenente il 50% delle osservazioni). QUARTILI ���� sono 3 (Q1, Q2, Q3). Dividono la serie ordinata di dati in 4 parti, ciascuna contenente il 25% delle osservazioni.

25% Q1 25% Q2 25% Q3 25%

MEDIANA

DECILI ���� sono 9 (D1, D2, D3, …, D9). Dividono la serie ordinata di dati in 10 parti, ciascuna contenente il 10% delle osservazioni.

PERCENTILI ���� sono 99 (P1, P2, P3,…, P99). Dividono la serie ordinata di dati in 100 parti, ciascuna contenente l’1% delle osservazioni. Il calcolo dei percentili risente della limitatezza del campione: vengono normalmente calcolati per grandi insiemi di dati.

Page 21: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

74

QUARTILI

25% Q1 25% Q2 25% Q3 25% Q1 → Primo quartile Valore che, nella serie ordinata dei dati, lascia prima di sé il 25% delle osservazioni e dopo di sé il 75%. Q2 → Secondo quartile Valore che, nella serie ordinata dei dati, lascia sia prima che dopo di sé il 50% delle osservazioni (vedi mediana). Q3 → Terzo quartile Valore che, nella serie ordinata dei dati, lascia prima di sé il 75% delle osservazioni e dopo di sé il 25%.

Page 22: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

75

POSIZIONE DEI QUARTILI Q1 = (n+1)/4 Q2 = 2(n+1)/4 =(n+1)/2 Q3 = 3(n+1)/4 n = no di osservazioni

COME INDIVIDUARE I QUARTILI Esempio Daniel pag.45 es. 2.6.2

I dati seguenti riportano i diametri (in cm) di neoplasie mammarie di 20 soggetti con sarcoma:

0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0

Individuare il primo, il secondo (mediana) e il terzo quartile.

Q1

Posizione di Q1 = (20+1)/4 = 5.25 Q1 = osservazione situata in 5a posizione + 0,25 della differenza tra le osservazioni situate in 6a e 5a posizione

0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0

Q1 = 2,5 + (3-2,5)·0,25 = 2,5 + 0,5·0,25 = 2,625

Page 23: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

76

Q2 (Mediana) Posizione di Q2 = (20+1)/2 = 10,5 Q2 = osservazione situata in 10a posizione + 0,5 della differenza tra le osservazioni situate in 10a e 11a posizione

0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0

Q2 = 4,5 + (5-4,5)·0,5 = 4,5 + 0,5·0,5 = 4,75

Q3

Posizione di Q3=3·(20+1)/4=15.75 Q3 = osservazione situata in 15a posizione + 0,75 della differenza tra le osservazioni situate in 15a e 16a posizione

0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0

Q3= 6 + (6,5-6)·0,75 =6 + 0,5·0,75 = 6,375

Page 24: MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2

77

PERCENTILI