modulo 3 - raccontare la realtà con la statistica …esercizio 1 - organizzare i seguenti dati in...

175
Modulo 3 - Raccontare la Realtà con la Statistica Descrittiva Conoscenze Informatiche e Telematiche - 6CFU a.a. 2019/20 prof. Alessandro Iannella

Upload: others

Post on 25-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Modulo 3 - Raccontare la Realtà con la Statistica Descrittiva Conoscenze Informatiche e Telematiche - 6CFU a.a. 2019/20 prof. Alessandro Iannella

Page 2: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Queste Slide3 Quesiti (domande o esercizi) 1 pt. ciascuno

Suff.: 1,8/3

Sullivan III, M. (2011) Fondamenti di Statistica. Parte II: pp. 32-127,

PearsonCosa studiare? L’esame

Informazioni sul Modulo

i dataset impiegati nelle slide sono proposti a titolo esemplificativo e possono essere frutto della fantasia dell’autore.

*

*

Page 3: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Organizzare i Dati1

Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed EDA3

Sintetizzare i Dati: Misure di Tendenza Centrale e Misure di Dispersione2

Descrivere la Relazione tra Due Variabili: Diagrammi di Dispersione e Coefficiente di Correlazione Lineare

4

5

Indice del Modulo

Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati 6 Automatizzare l’Analisi dei Dati

attraverso le Macro

Page 4: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

UNITÀ 1

Organizzare i Dati

1

Page 5: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Raccogliere Organizzare Sintetizzare AnalizzareIdentificare una domanda

Trarre Conclusioni

Strutturare i Dati in Tabelle (dataset)

Rappresentare i Dati attraverso i Grafici

L’Indagine Statistica

5

1. Organizzare i Dati

1

Page 6: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Concetti Utili

6

Quantitative Qualitative (o Categoriali o Mutabili)

Il dato/modalità è un numero

Il dato/modalità è un attributo/etichetta/nome/categoria

Variabili

Dati quantitativi Dati qualitativi

1. Organizzare i Dati

1

Page 7: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Organizzare i Dati Qualitativi

7

Frequenza Assoluta Frequenza Relativa

(21/150)*100%

100%

Tipologia di Analisi

Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%

Totale

Frequenza RelativaFrequenza Assoluta

150 100%

N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018

Mod

alit

àVa

riab

ile

1. Organizzare i Dati

1

Page 8: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Organizzare i Dati Qualitativi

8

Una volta raccolte informazioni di tipo qualitativo è utile innanzitutto determinare quante volte ricorre ciascuna modalità. Si realizza quindi un dataset utile per analizzare la distribuzione delle unità statistiche.

1. Distribuzione di frequenze assolute Elenca tutte le modalità riportando, per ciascuna di esse, il corrispondente numero di occorrenze osservate.

2. Distribuzione di frequenze relative Elenca tutte le modalità riportando, per ciascuna di esse, la frequenza relativa, cioè la proporzione di osservazioni appartenenti a una determinata modalità rispetto al totale delle osservazioni.

Frequenza assoluta Somma totale delle frequenze assolute

Frequenza relativa = Valore espresso in

decimali o in percentuale

1. Organizzare i Dati

1

Page 9: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

9Fr

eque

nza

Ass

olut

a

0

15

30

45

60

Tipologia di Analisi

Emogramma

Creatin

inaUre

a

Glucosio

Albumina

Colestero

lo

Organizzare i Dati Qualitativi Grafico a Barre Verticali

Tipologia di Analisi Fq Ass Fq Rel

Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%

N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018

1. Organizzare i Dati

1

Page 10: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

10

Freq

uenz

a Re

lati

va

0%

25%

50%

75%

100%

Tipologia di Analisi

Emogramma

Creatin

inaUre

a

Glucosio

Albumina

Colestero

lo

Organizzare i Dati Qualitativi Grafico a Barre Verticali

Tipologia di Analisi Fq Ass Fq Rel

Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%

N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018

1. Organizzare i Dati

1

Page 11: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

11

Organizzare i Dati Qualitativi

Tipologia di Analisi Fq Ass Fq Rel

Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%

Grafico a Barre Orizzontali

Tipo

logi

a di

Ana

lisi

Emogramma

Creatin

ina

Urea

Glucosio

Albumina

Colestero

lo

Frequenza Assoluta

0 15 30 45 60N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018

1. Organizzare i Dati

1

Page 12: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

12

Organizzare i Dati Qualitativi Grafico a Barre Orizzontali

Tipo

logi

a di

Ana

lisi

Emogramma

Creatin

ina

Urea

Glucosio

Albumina

Colestero

lo

Frequenza Relativa

0% 25% 50% 75% 100%

Tipologia di Analisi Fq Ass Fq Rel

Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%

N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018

1. Organizzare i Dati

1

Page 13: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

13

Organizzare i Dati Qualitativi

10%

4%

38%

14%

20%

14%EmogrammaCreatininaUreaGlucosioAlbuminaColesterolo

Grafico a Torta

Tipologia di Analisi Fq Rel

Emogramma 14%

Creatinina 20%

Urea 14%

Glucosio 38%

Albumina 4%

Colesterolo 10%

N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018

1. Organizzare i Dati

1

Page 14: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

14

Organizzare i Dati Qualitativi

Principale Attività delle Imprese Agricole Lombarde Freq Ass 2008 Freq Ass 2018

Coltivazione del fondo 50 60

Selvicoltura 54 25

Allevamento 67 34

Altre attività 24 63

Totale 195 182

Confronto tra le principali attività agricole lombarde per numero di imprese nel 2008 e nel 2018

1. Organizzare i Dati

1

Page 15: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

15

Organizzare i Dati Qualitativi

Principale Attività delle Imprese Agricole Lombarde Freq Ass 2008 Freq Rel 2008 Freq Ass 2018 Freq Rel 2018

Coltivazione del fondo 50 25,6% 60 33%

Selvicoltura 54 27,7% 25 13,7%

Allevamento 67 34,4% 34 18,7%

Altre attività 24 12,3% 63 34,6%

Totale 195 100% 182 100%

Confronto tra le principali attività agricole lombarde per numero di imprese nel 2008 e nel 2018

1. Organizzare i Dati

1

Page 16: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

16

Organizzare i Dati Qualitativi Grafico a Barre Affiancate

Freq

uenz

a Re

lati

va

0%

10%

20%

30%

40%

Tipologia di Analisi

Coltivazione del fondo Selvicoltura Allevamento Altre Attività

Fq Rel 2008 Fq Rel 2018Attività Fq Rel 2008 Fq Rel 2018

Coltivazione del fondo 25,6% 33%

Selvicoltura 27,7% 13,7%

Allevamento 34,4% 18,7%

Altre attività 12,3% 34,6%

Confronto tra le principali attività agricole lombarde per numero di imprese nel 2008 e nel 2018

1. Organizzare i Dati

1

Page 17: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

17

Organizzare i Dati Quantitativi

L’organizzazione dei dati quantitativi cambia a seconda che i dati siano discreti o continui:

1. Dati discreti Si opera come per i dati qualitativi.

2. Dati continui Si procede raggruppando le modalità in intervalli o classi.

Qualora i dati discreti presentino un numero elevato di modalità si opera come per i dati continui.

1. Organizzare i Dati

1

Page 18: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

18

Organizzare i Dati Quantitativi Discreti

Numero di camere Frequenza Assoluta Frequenza Relativa

1 2 5,9%2 0 0%3 4 11,8%4 4 11,8%5 5 14,7%6 5 14,7%7 2 5,9%8 6 17,6%9 3 8,8%

10 3 8,8%Totale 14 100%

Numero di camere per agriturismo in Valle Camonica

1. Organizzare i Dati

1

Page 19: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

19

Istogramma

Freq

uenz

a A

ssol

uta

0

1,5

3

4,5

6

Numero di Camere

1 2 3 4 5 6 7 8 9 10

Numero di Camere Fq Ass Fq Rel1 2 5,9%2 0 0%3 4 11,8%4 4 11,8%5 5 14,7%6 5 14,7%7 2 5,9%8 6 17,6%9 3 8,8%

10 3 8,8%

Organizzare i Dati Quantitativi Discreti

Numero di camere per agriturismo in Valle Camonica

1. Organizzare i Dati

1

Page 20: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Superficie Agricola per Allevamento (m²) Frequenza Assoluta

0-5000 3

5001-10000 4

10001-15000 5

15001-20000 10

20001-25000 15

Organizzare i Dati Quantitativi ContinuiCl

assi

di F

requ

enze

Estensione della superficie agricola destinata all’allevamento delle imprese agricole italiane

20

1. Organizzare i Dati

1

Page 21: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

21

Organizzare i Dati Quantitativi Continui

Superficie Agricola per Allevamento (m²) Frequenza Assoluta

0-5000 3

5001-10000 4

10001-15000 5

15001-20000 10

20001-25000 15

25001 e oltre 1

Tabella Aperta

Clas

si d

i Fre

quen

ze

Estensione della superficie agricola destinata all’allevamento delle imprese agricole italiane

Si parla di tabella aperta quando non viene fissato il limite inferiore della prima classe o il limite superiore dell’ultima classe.

1. Organizzare i Dati

1

Page 22: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

22

Dati Quantitativi e Classi di Frequenze

0-5000

5001-10000

Limite Inferiore di Classe Limite Superiore di Classe

Ampiezza di Classe (Lim Inf Cl B - Lim Inf Cl A)

1. Organizzare i Dati

1

Page 23: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

23

Non esistono regole fisse per stabilire l’ampiezza e il numero delle classi di frequenze: è fondamentale scegliere ciò che ci sembra sintetizzare nel miglior modo le osservazioni disponibili così da identificare particolari e interessanti caratteristiche dei dati.

Si cerca in genere di avere un numero di classi compreso tra 5 e 20: più il dataset è grande più il numero di classi può essere elevato.

Bisogna sempre ricordare che un numero esiguo di classi crea un effetto di affollamento dei dati, mentre un numero elevato di classi origina un effetto di dispersione.

Dati Quantitativi e Classi di Frequenze

1. Organizzare i Dati

1

Page 24: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

24

Alcune indicazioni utili per determinare il limite inferiore della prima classe e l’ampiezza di classe:

• scegliere come limite inferiore della prima classe l’osservazione più piccola o un intero inferiore a questa più vicino;

• decidere il numero di classi, regolandosi a seconda della grandezza del dataset;

• determinare l’ampiezza di classe calcolando e successivamente arrotondando:

Valore più elevato del dataset - Valore più piccolo del dataset Numero delle classi

Ampiezza di classe  ≈

Dati Quantitativi e Classi di Frequenze

1. Organizzare i Dati

1

Page 25: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

25

Istogramma

Freq

uenz

a A

ssol

uta

0

4

8

12

16

Superficie Agricola per Allevamento (m²)

+250002000015000100005000

Organizzare i Dati Quantitativi Continui

Superficie Agricola per Allevamento (m²) Fq Ass Fq Rel

0-5000 3 7,9%

5001-10000 4 10,5%

10001-15000 5 13,2%

15001-20000 10 26,3%

20001-25000 15 39,5%

25001 e oltre 1 2,6%

Estensione della superficie agricola destinata all’allevamento delle imprese agricole italiane

1. Organizzare i Dati

1

Page 26: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

26

Istogramma

Freq

uenz

a Re

lati

va

0%

25%

50%

75%

100%

Superficie Agricola per Allevamento (m²)

+250002000015000100005000

Organizzare i Dati Quantitativi Continui

Superficie Agricola per Allevamento (m²) Fq Ass Fq Rel

0-5000 3 7,9%

5001-10000 4 10,5%

10001-15000 5 13,2%

15001-20000 10 26,3%

20001-25000 15 39,5%

25001 e oltre 1 2,6%

Estensione della superficie agricola destinata all’allevamento delle imprese agricole italiane

1. Organizzare i Dati

1

Page 27: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza.

27

9000 2536 9785 2323

2234 5345 9002 900

7840 1112 24023 1003

10500 12412 28000 4323

300 2223 7653 10394

19583 21049 10003 18293

90 4532 4532 1000

28000 - 90 8

3500 ≈

Ampiezza di Classe

N° di abitanti dei vari comuni della Valle Camonica

Organizzare i Dati Quantitativi Continui

1. Organizzare i Dati

1

Page 28: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

28Fr

eque

nza

Ass

olut

a

0

2,5

5

7,5

10

N° Abitanti

280002450021000175001400010500700035000

Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza.

Organizzare i Dati Quantitativi Continui

N° Abitanti Fq Ass Fq Rel1-3500 10 35,7%

3501-7000 4 14,3%7001-10500 8 28,6%

10501-14000 1 3,6%

14001-17500 0 0%

17501-21000 2 7,1%

21001-24500 2 7,1%

24501-28000 1 3,6%

N° di abitanti dei vari comuni della Valle Camonica

1. Organizzare i Dati

1

Page 29: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

29

280002450021000175001400010500700035000

Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza.

Organizzare i Dati Quantitativi Continui

Freq

uenz

a Re

lati

va

0%

25%

50%

75%

100%

N° Abitanti

N° Abitanti Fq Ass Fq Rel1-3500 10 35,7%

3501-7000 4 14,3%7001-10500 8 28,6%

10501-14000 1 3,6%

14001-17500 0 0%

17501-21000 2 7,1%

21001-24500 2 7,1%

24501-28000 1 3,6%

N° di abitanti dei vari comuni della Valle Camonica

1. Organizzare i Dati

1

Page 30: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Esercizio 1 - Organizzare i seguenti dati in una tabella con classi di frequenza di ampiezza 10.

30

Organizzare i Dati Quantitativi Continui

155 134 162 174

163 148 158 131

142 154 159 176

166 179 136 145

151 131 173 178

149 167 160 157

140 152 165 143

179 - 131 10

5 ≈

Numero di classi

Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo

1. Organizzare i Dati

1

Page 31: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

31

Esercizio 2 - Organizzare i seguenti dati in una tabella con classi di frequenza di ampiezza 10.

Organizzare i Dati Quantitativi Continui

Freq

uenz

a A

ssol

uta

0

1,75

3,5

5,25

7

Altezza (cm)

180170160150130 140Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo

Altezza (cm) Fq Ass Fq Rel

130-139 4 14,3%

140-149 6 21,4%

150-159 7 25%

160-169 6 21,4%

170-179 5 17,9%

1. Organizzare i Dati

1

Page 32: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

32

Organizzare i Dati Quantitativi Continui

Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo

Altezza (cm) Fq Ass Fq Rel

130-139 4 14,3%

140-149 6 21,4%

150-159 7 25%

160-169 6 21,4%

170-179 5 17,9%

Esercizio 2 - Organizzare i seguenti dati in una tabella con classi di frequenza di ampiezza 10.

Freq

uenz

a Re

lati

va

12%

34%

56%

78%

100%

Altezza (cm)

1. Organizzare i Dati

1

Page 33: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

33

Dati Quantitativi e Forma della Distribuzione

DISTRIBUZIONE

ASIMMETRICA

DISTRIBUZIONE

SIMMETRICA

CampanulareUniforme

Positiva (o a destra) Negativa (o a sinistra)

Coda Coda

1. Organizzare i Dati

1

Page 34: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

34

Grafico di una Serie Storica

Serie Storiche

Una serie storica è una successione di dati che esprime la dinamica di un fenomeno (variabile) nel tempo , consentendo di comprenderne l’andamento e osservare:

• la tendenza di fondo (trend);

• oscillazioni ampie (ciclo);

• oscillazioni precise e periodiche (stagionalità).

Prez

zo M

edio

di u

n pr

odot

to X

(€/l

)

0

0,325

0,65

0,975

1,3

t

gen-18feb-18

mar-18apr-18

mag-18giu-18

lug-18ago-18

set-18ott-1

8nov-18

dic-18gen-19

feb-18mar-19

apr-19mag-19

giu-19lug-19

ago-19set-19

ott-19nov-19

dic-19

1. Organizzare i Dati

1

Page 35: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Mes

i Giugno-A

gosto

Altri M

esi

Frequenza Relativa

0% 8% 16% 24% 32%

8%

28%

35

Rappresentazioni Grafiche Errate

(8% x 9 mesi )+ 28% = 100%

Viene rappresentato il numero medio di incendi avvenuto in ciascuno dei restanti 9 mesi e

non la percentuale complessiva.

Incendi in Lombardia nel 2018

1. Organizzare i Dati

1

Page 36: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Mes

i Giugno-A

gosto

Altri M

esi

Frequenza Relativa

0% 8% 16% 24% 32%

8%

28%

36

Freq

uenz

a Re

lati

va

0%

3%

6%

9%

12%

Mesi

Gennaio

Febbra

io

MarzoAprile

Maggio

Giugno

Lugli

o

Agosto

Sette

mbre

Ottobre

Novembre

Dicembre

8%8%8%8%

10%

9%9%

8%8%8%8%8%

Incendi in Lombardia nel 2018

Rappresentazioni Grafiche Errate

1. Organizzare i Dati

1

Page 37: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

% S

tude

nti F

avor

evol

i

53%

55,75%

58,5%

61,25%

64%

Università

UNIMI UNIPI UNIFI UNITO

55%54%

55%

60%

37

Poiché l’asse verticale non inizia da 0 sembra che la differenza tra

le diverse università sia molto marcata. In realtà, lo è di pochi

punti percentuale.

Studenti favorevoli alla nuova riforma del sistema educativo

Rappresentazioni Grafiche Errate

1. Organizzare i Dati

1

Page 38: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

38%

Stu

dent

i Fav

orev

oli

0%

25%

50%

75%

100%

Università

UNIMI UNIPI UNIFI UNITO

55%54%55%60%

% S

tude

nti F

avor

evol

i

53%

55,75%

58,5%

61,25%

64%

Università

UNIMI UNIPI UNIFI UNITO

55%54%

55%

60%

Studenti favorevoli alla nuova riforma del sistema educativo

Rappresentazioni Grafiche Errate

1. Organizzare i Dati

1

Page 39: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

39

Troppi dati e troppi colori (anche simili) che non rendono interpretabile quanto

rappresentato.

6%5%

2%

10%

11%

2% 2% 1%7%

9%6% 2%

1%

11%

6%

9%

5%5%

AgricoltoreAgronomoAgronomo paesaggistaAgrotecnicoBracciante agricoloCamparoCampiereCasengoloColtivatore direttoContoterzistaFittavoloMassaioMondinaPerito agrarioSensaleSclavandarioSeringueiroViticoltore

Professionisti delle imprese agricole italiane al 2018 (%)

Rappresentazioni Grafiche Errate

1. Organizzare i Dati

1

Page 40: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

40Fr

eque

nza

Rela

tiva

0%

3,75%

7,5%

11,25%

15%

Professioni

Agrico

ltore

Agrono

mo

Agrono

mo pae

sagg

ista

Agrotec

nico

Braccia

nte ag

ricolo

Camparo

Campier

e

Casen

golo

Coltiva

tore d

iretto

Contot

erzist

a

Fittav

olo

Massa

io

Mondina

Perito

agrar

io

Sensa

le

Sclava

ndari

o

Sering

ueiro

Viticolt

ore

6%

5%

2%

10%

11%

2%2%

1%

7%

9%

6%

2%

1%

11%

6%

9%

5%5%

6%5%

2%

10%

11%

2% 2% 1%7%

9%6% 2%

1%

11%

6%

9%

5%5%

AgricoltoreAgronomoAgronomo paesaggistaAgrotecnicoBracciante agricoloCamparoCampiereCasengoloColtivatore direttoContoterzistaFittavoloMassaioMondinaPerito agrarioSensaleSclavandarioSeringueiroViticoltore

Professionisti delle imprese agricole italiane al 2018 (%)

Rappresentazioni Grafiche Errate

1. Organizzare i Dati

1

Page 41: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

41

45

10

20

Montagna CollinaPianura

%

%

%

Il totale delle percentuali non è uguale a 100%

Zone Altimetriche della Regione “x”.

Rappresentazioni Grafiche Errate

1. Organizzare i Dati

1

Page 42: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

42

45

10

20

Montagna CollinaPianura

40%

60%

Montagna CollinaPianura

%

%

%

Zone Altimetriche della Regione “x”.

Rappresentazioni Grafiche Errate

1. Organizzare i Dati

1

Page 43: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

43

Consigli per Realizzare un Buon Grafico

Per la realizzazione di un grafico efficace è opportuno: • inserire un titolo chiaro ed etichette su entrambi gli assi, specificando eventualmente le unità di misura e la

fonte dei dati; • scegliere il grafico che rappresenti al meglio l’informazione; • rendere chiare al lettore eventuali scale troncate; • non sovraffollare il grafico con elementi superflui; • evitare la tridimensionalità per non confondere il lettore.

1. Organizzare i Dati

1

Page 44: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

44

Raccontare l’Informazione

La data visualization è quella disciplina che si occupa di divulgare i dati, sia quantitativi che qualitativi, raccontandoli attraverso elementi visivi. Si tratta di uno strumento di comunicazione e di facilitazione dell’accesso ai dati, che

diventano immediatamente comprensibili.

Il racconto dell’informazione (storytelling) fa leva su tre fattori umani:

Memoria a breve termine Codifica visuale dei dati

(colore, posizione e forma)

(brevità, legame azione-vista)

(prossimità, similarità, raggruppamento, completamento,

continuità)

Principi di psicologia

1. Organizzare i Dati

1

Page 45: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

45

Raccontare l’Informazione

Pittogrammi

Oltre ai grafici tradizionali, come quelli che abbiamo visto in precedenza (es. istogramma, grafico a barre verticali e orizzontali, torta, grafico di una serie storica), la data visualization impiega:

Mappe Geografiche

Focus su di una singola Informazione Mappe Concettuali

InfograficheGrafici Interattivi WordCloud

#

1. Organizzare i Dati

1

Page 46: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Raccontare l’Informazione - Esempi

46

1. Organizzare i Dati

1

Page 47: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

47

Raccontare l’Informazione - Esempi

1. Organizzare i Dati

1

Page 48: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

48

Canva

Cosa è? È uno strumento freemium per il graphic design, adatto alla creazione di contenuti per la stampa e per il digitale (in particolare social).

Lo utilizziamo per… • realizzare una semplice infografica da condividere su Instagram

(modello: “Post Instagram”) con l’obiettivo di comunicare una specifica informazione.

link: https://canva.com

Nota: durante la lezione abbiamo visto come utilizzare Canva per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

1. Organizzare i Dati

1

Page 49: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

49

Google Sheets

link: https://docs.google.com/spreadsheets

Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.

Lo utilizziamo per… • calcolare la frequenza relativa; • costruire un grafico a barre (anche affiancate); • costruire un grafico a torta.

Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

1. Organizzare i Dati

1

Page 50: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

50

Microsoft Excel

Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.

Lo utilizziamo per… • calcolare la frequenza relativa; • costruire un grafico a barre (anche affiancate); • costruire un grafico a torta; • costruire un istogramma.

link: https://www.office.com/

Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

1. Organizzare i Dati

1

Page 51: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

UNITÀ 2

Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

21

Page 52: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Raccogliere Organizzare Sintetizzare AnalizzareIdentificare una domanda

Trarre Conclusioni

Misure di Tendenza Centrale

Misure di Posizione, Valori Anomali ed

Exploratory Data Analysis (EDA)

L’Indagine Statistica

52

Misure di Dispersione

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 53: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

53

Misure di Tendenza Centrale

MoMeM

Definite anche indici di posizione, sono misure di sintesi che consentono di individuare attorno a quale valore della variabile si accentra la distribuzione.

Mediana ModaMedia Aritmetica del campione (x) e della

popolazione (μ)

_

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 54: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

54

Media Aritmetica

μ

Media Aritmetica della popolazione

Media Aritmetica del campione

La media aritmetica di una variabile si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. Consente di osservare il centro di gravità.

La media aritmetica di una popolazione si calcola impiegando tutte le unità della

popolazione. Si tratta di un parametro.

La media aritmetica di un campione si calcola impiegando le osservazioni

del campione. Si tratta di una statistica.

x_

M

Media Aritmetica

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 55: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

55

Media Aritmetica

µN N

N

x__

μ x_

Media Aritmetica della popolazione

Media Aritmetica del campione

La media aritmetica di una variabile si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. Consente di osservare il centro di gravità.

M

Media Aritmetica

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 56: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

56

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Media Aritmetica

Esercizio 3 - Calcolare la media della popolazione. Successivamente, estrarre un campione casuale semplice con ampiezza n = 4 e calcolare la media campionaria.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 57: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

57

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

µ =1010

22+19+18+18+29+23+31+19+18+26

10

= 223

10= =

Media Aritmetica

Valutazioni dell’esame di Matematica Appello Invernale 2018

22,3

Esercizio 3 - Calcolare la media della popolazione. Successivamente, estrarre un campione casuale semplice con ampiezza n = 4 e calcolare la media campionaria.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 58: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

58

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

x =44

22+18+31+18=

89

4= = 22,25

4

Media Aritmetica

_

Valutazioni dell’esame di Matematica Appello Invernale 2018

µ =1010

22+19+18+18+29+23+31+19+18+26

10

= 223

10= =

Esercizio 3 - Calcolare la media della popolazione. Successivamente, estrarre un campione casuale semplice con ampiezza n = 4 e calcolare la media campionaria.

22,3

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 59: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

59

Me

Mediana

La mediana di una variabile è il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente e che quindi divide il primo 50% dal secondo 50% delle osservazioni.

1. Si ordinano i valori in ordine crescente; 2. si determina il numero di osservazioni (n); 3. si determina l’osservazione che occupa la posizione centrale:

a. se il numero di osservazioni è dispari, la mediana è il valore che occupa la posizione centrale della distribuzione e cioè la posizione (n + 1) ;

b. se il numero di osservazioni è pari, la mediana è la media delle due osservazioni centrali della distribuzione ed è cioè la media delle osservazioni che occupano la posizione n e n + 1.

2

2 2

Mediana

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 60: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

60

Mediana

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Esercizio 4 - Calcolare la mediana della popolazione.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 61: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

2

61

Mediana

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

18 18 18 19 19 22 23 26 29 31

Il numero di osservazioni è pari (n = 10), quindi la mediana è la media tra le osservazioni che occupano la

posizione n (cioè 10/2 = 5) e n + 1 (cioè 6).

18 18 18 19 19 22 23 26 29 31

Me = 19 + 22 = 20,5

2

2

Valutazioni dell’esame di Matematica Appello Invernale 2018

Esercizio 4 - Calcolare la mediana della popolazione.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 62: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

62

Me

Mediana

Mediana

Osservazioni M Me18, 18, 18, 19, 19, 22, 23, 26, 29, 31

3122,3 20,5

4, 18, 18, 19, 19, 22, 23, 26, 29, 31 20,9 20,5

A differenza della media, la mediana è una misura di sintesi robusta in quanto non risulta sensibile ai valori estremi (quelli molto grandi e quelli molto piccoli).

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 63: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

63

La moda di una variabile è l'osservazione che, all’interno della distribuzione, si presenta con la frequenza più elevata.

Una distribuzione può: • avere un'unica moda (unimodale); • avere due mode (bimodale) • avere tre o più mode (multimodale) • non avere moda.

Moda

Mo

Moda

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 64: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

64

Moda

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Esercizio 5 - Calcolare la moda della popolazione e la sua frequenza assoluta.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 65: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

65

Moda

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

18 18 18 19 19 22 23 26 29 31

Mo = 18

Fq Ass = 3

Esercizio 5 - Calcolare la moda della popolazione e la sua frequenza assoluta.

Valutazioni dell’esame di Matematica Appello Invernale 2018

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 66: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

66

Media, Mediana e Moda a Confronto

MEDIA < MEDIANA < MODA MEDIA = MEDIANA = MODA MEDIA > MEDIANA > MODA

ASIMMETRICA NEGATIVA (A SINISTRA)

SIMMETRICAASIMMETRICA POSITIVA

(A DESTRA)Il numero di osservazioni inferiori alla media

è maggiore del numero di osservazioni superiori alla media

Il numero di osservazioni inferiori alla media è uguale al numero di osservazioni

superiori alla media

Il numero di osservazioni inferiori alla media è minore del numero di osservazioni

superiori alla media

Mo

Me

M

MoMeM Mo

Me

M

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 67: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

67

Misure di Dispersione

Valutazioni dell’esame di Matematica - Appello Invernale 2018 Valutazioni dell’esame di Matematica - Appello Estivo 2018

μ = 22,3

ELEVATA DISPERSIONE

μ = 22,3

DISPERSIONE CONTENUTA

Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Valutazioni

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 68: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

68

Misure di Dispersione

DEVVARR

RangeVarianza

della popolazione (σ ) e del campione (s )

Deviazione Standard della popolazione (σ)

e del campione (s)

Sono misure di sintesi che indicano la variabilità di una distribuzione.

Scarto Medio Assoluto

δ

2

2

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 69: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

69

Range

Il range (o intervallo di variazione) di una distribuzione è dato dalla differenza tra l’estremo superiore e l’estremo inferiore delle osservazioni, cioè il valore più grande e il valore più piccolo.

Ci informa sull’ampiezza della distribuzione.

È espresso nella stessa unità di misura dei dati.

R = estremo superiore — estremo inferiore

Range

R

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 70: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

70

Range

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Esercizio 6 - Individuare i valori estremi e calcolare il range.

Valutazioni dell’esame di Matematica - Appello Invernale 2018

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 71: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

71

Range

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

18 18 18 19 19 22 23 26 29 31

Estremo Superiore = 31

Estremo Inferiore = 18

R = 31–18 = 13

Esercizio 6 - Individuare i valori estremi e calcolare il range.

Valutazioni dell’esame di Matematica Appello Invernale 2018

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 72: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

72

Range

Esercizio 7 - Individuare i valori estremi e calcolare il range.

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Valutazioni dell’esame di Matematica - Appello Estivo 2018

Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 73: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

73

Range

Esercizio 7 - Individuare i valori estremi e calcolare il range.

Estremo Sup = 31. Estremo Inf = 18 R = 31–18 = 13

Estremo Sup = 23 Estremo Inf = 21 R = 23–21 = 2

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Valutazioni dell’esame di Matematica - Appello Estivo 2018

Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 74: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Lo scarto medio assoluto si ottiene calcolando la distanza, in valore assoluto, di tutti i dati dalla media e facendo la media aritmetica di tali distanze.

Ci informa sulla distanza media delle osservazioni dalla media aritmetica: più δ è piccolo, più i dati sono concentrati; più δ è grande, più i dati sono dispersi.

È espresso nella stessa unità di misura dei dati.

74

Scarto Medio Assoluto

Scarto Medio Assoluto

δ

Nota: la somma algebrica degli scarti dalla media è sempre uguale a zero. È per questo motivo che impieghiamo i valori assoluti.

N

N

δ = = N

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 75: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Esempio Osservazioni: 1, 3, 3, 9

• calcolo la media delle osservazioni: μ = 4;

• calcolo, in valore assoluto, la distanza di ciascuna osservazione da μ: |1-4| = 3, |3-4| = 1, |3-4| = 1, |9-4| = 5

• calcolo la media dei valori assoluti ottenuti:

3 + 1 + 1 + 5

75

Scarto Medio Assoluto

Scarto Medio Assoluto

4

δ

= 2,5δ =

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 76: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

76

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Esercizio 8 - Calcolare lo scarto medio assoluto.

Scarto Medio Assoluto

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 77: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

• calcolo la media delle osservazioni: μ = 22,3;

• calcolo, in valore assoluto, la distanza di ciascuna osservazione da μ: |18-22,3| = 4,3 , |18-22,3| = 4,3 , |18-22,3| = 4,3 , |19-22,3| = 3,3 , |19-22,3| = 3,3 , |22-22,3| = 0,3 , |23-22,3| = 0,7 , |26-22,3| = 3,7 , |29-22,3| = 6,7 , |31-22,3| = 8,7

• calcolo la media dei valori assoluti ottenuti: 4,3 + 4,3 + 4,3 + 3,3 + 3,3 + 0,3 + 0,7 + 3,7 + 6,7 + 8,7

77

Scarto Medio Assoluto

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica Appello Invernale 2018

10δ = = 3,96

scarto dalla media scarto assoluto

18 22,3-18 = -4,3 4,3

31 22,3-31 = 8,7 8,7

… … …

oppu

re

Esercizio 8 - Calcolare lo scarto medio assoluto.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 78: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

78

Scarto Medio Assoluto

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Valutazioni dell’esame di Matematica - Appello Estivo 2018

Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Esercizio 9 - Calcolare lo scarto medio assoluto.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 79: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

79

Scarto Medio Assoluto

δ = 3,96 δ = 0,56ELEVATA DISPERSIONE DISPERSIONE CONTENUTA

Valutazioni dell’esame di Matematica - Appello Invernale 2018 Valutazioni dell’esame di Matematica - Appello Estivo 2018

Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Esercizio 9 - Calcolare lo scarto medio assoluto.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 80: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

La varianza della popolazione si ottiene calcolando il quadrato della distanza di tutti i dati dalla media e facendo la media aritmetica dei valori ottenuti.

Ci informa su quanto le osservazioni si discostino quadraticamente dalla media aritmetica: più σ è piccolo, più i dati sono concentrati; più σ è grande, più i dati sono dispersi.

80

Varianza

Varianza della popolazione

N

N

σ =

σ2

=N

2 i

2 2

Nota: la somma della deviazione di ogni osservazione dalla media è sempre uguale a zero. È per questo motivo che si eleva al quadrato.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 81: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

2

Esempio Osservazioni: 1, 3, 3, 9

• calcolo la media delle osservazioni: μ = 4;

• calcolo, il quadrato della distanza di ciascuna osservazione da μ: (1-4) = 9 , (3-4) = 1 , (3-4) = 1 , (9-4) = 25

• calcolo la media dei valori ottenuti:

9 + 1 + 1 + 25

2 22

81

Varianza

4= 9

Varianza della popolazione

σ2

σ =2

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 82: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

La varianza del campione (o varianza campionaria) si ottiene calcolando il quadrato della distanza di tutti i dati dalla media, sommando i valori ottenuti e dividendo il risultato per n - 1.

Ci informa su quanto le osservazioni si discostino quadraticamente dalla media aritmetica: più s è piccolo, più i dati sono concentrati; più s è grande, più i dati sono dispersi.

82

Varianza

Varianza del campione

n-1s =

s 2

n-1

2

2 2

n

i=x- x- x-

Nota: la varianza è la somma della deviazione di ogni osservazione dalla media, che è sempre pari a zero. È per questo motivo che eleviamo al quadrato.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 83: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Esempio Osservazioni: 1, 3, 3, 9

• calcolo la media delle osservazioni μ = 4;

• calcolo, il quadrato della distanza di ciascuna osservazione da μ: (1-4) = 9 , (3-4) = 1 , (3-4) = 1 , (9-4) = 25

• sommo i valori ottenuti e divido per n - 1.

2 2 2 2

83

Varianza

4 - 1= 12s =2

Varianza del campione

s 2

9 + 1 + 1 + 25

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 84: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

84

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Varianza

Esercizio 10 - Calcolare la varianza della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la varianza del campione.

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 85: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

85

Varianza

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica Appello Invernale 2018

Esercizio 10 - Calcolare la varianza della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la varianza campionaria.

s = 37,582

σ =2

21,21

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 86: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

La deviazione standard della popolazione si ottiene ponendo sotto radice quadrata la varianza della popolazione.

Ci informa su quanto le osservazioni si discostino dalla media aritmetica: più σ è piccolo, più i dati sono concentrati; più σ è grande, più i dati sono dispersi.

A differenza della varianza, è espressa nella stessa unità di misura dei dati.

86

Deviazione Standard

Deviazione standard

della popolazione

σ =

σ

σ 2

Nota: la deviazione standard è anche nota come “scarto quadratico medio”.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 87: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

La deviazione standard del campione si ottiene ponendo sotto radice quadrata la varianza del campione.

Ci informa su quanto le osservazioni si discostino dalla media aritmetica: più s è piccolo, più i dati sono concentrati; più s è grande, più i dati sono dispersi.

A differenza della varianza, è espressa nella stessa unità di misura dei dati.

87

Deviazione standard

del campione

s

Deviazione Standard

Nota: la deviazione standard è anche nota come “scarto quadratico medio”.

s = s 2

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 88: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

88

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Esercizio 11 - Calcolare la deviazione standard della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la deviazione standard del campione.

Deviazione Standard

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 89: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

89

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica Appello Invernale 2018

s = 6,13

σ = 4,6

Esercizio 11 - Calcolare la deviazione standard della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la deviazione standard del campione.

Deviazione Standard

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 90: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Le distribuzioni simmetriche rispettano la “proprietà degli intervalli tipici”, che consente di determinare la percentuale di osservazioni che cadono tra la media (μ) e k deviazioni standard (σ).

90

Dev. St. e Forma della Distribuzione

μμ-σμ-2σμ-3σ μ+σ μ+2σ μ+3σ

99.7%

95%

68%

0,15% 34% 34% 0,15%13,5% 13,5%2,35% 2,35%

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 91: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

91

Dev. St. e Forma della Distribuzione

Le distribuzioni simmetriche rispettano la “proprietà degli intervalli tipici”, che consente di determinare la percentuale di osservazioni che cadono tra la media (μ) e k deviazioni standard (σ).

μμ-σμ-2σμ-3σ μ+σ μ+2σ μ+3σ

99.7%

95%

68%

0,15% 34% 34% 0,15%13,5% 13,5%2,35% 2,35%

• Approssimativamente il 68% delle osservazioni cade tra la media e una deviazione standard, cioè tra μ-σ e μ+σ;

• approssimativamente il 95% delle osservazioni cade tra la media e 2 deviazioni standard dalla media, cioè tra μ-2σ e μ+2σ;

• approssimativamente il 99,7% delle osservazioni cade tra la media e 3 deviazioni standard, cioè tra μ-3σ e μ+3σ.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 92: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

92

Dev. St. e Forma della Distribuzione

almeno l’(1- 1 )100% delle osservazioni cade tra la media (μ) e k

deviazioni standard (σ) dalla media, dove k può assumere qualsiasi valore maggiore di 1

Tutte le distribuzioni, invece, rispettano la “disuguaglianza di Chebyshev”, una proprietà indipendentemente dalla forma della distribuzione, secondo la quale:

2k—

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 93: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

93

Google Sheets

link: https://docs.google.com/spreadsheets

Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.

Lo utilizziamo per… • calcolare il valore massimo e il valore minimo; • contare il numero di osservazioni. • calcolare le misure di tendenza centrale: media, mediana e moda; • calcolare le misure di dispersione: range, scarto medio assoluto,

varianza della popolazione e del campione, deviazione standard della popolazione e del campione.

Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 94: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

94

Microsoft Excel

Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.

Lo utilizziamo per… • calcolare il valore massimo e il valore minimo; • contare il numero di osservazioni. • calcolare le misure di tendenza centrale: media, mediana e moda; • calcolare le misure di dispersione: range, scarto medio assoluto,

varianza della popolazione e del campione, deviazione standard della popolazione e del campione.

link: https://www.office.com/

Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 95: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

95

Misure per Dati Raggruppati in Classi

DEVVAR

Varianza della popolazione (σ )

e del campione (s )

Deviazione Standard della popolazione (σ)

e del campione (s)

Per i dati quantitativi abbiamo visto che è possibile creare delle classi di frequenza. In questi casi, il calcolo della media, della varianza e della deviazione standard è leggermente differente. Poiché non è possibile ricavare dati unitari da una distribuzione di frequenza, si parla sempre di misure approssimate.

2

2

M

Media Aritmetica del campione (x) e della

popolazione (μ)

_

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 96: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

96

Misure per Dati Raggruppati in Classi

Si assume che ogni classe possa essere sintetizzata da un valore centrale, che si trova sommando l’estremo inferiore di due classi adiacenti e dividendo per 2. Dopodiché si moltiplica il valore centrale per la frequenza della classe, si sommano tutti i risultati e si divide per il totale delle osservazioni.

μ x_

Media Aritmetica della popolazione

Media Aritmetica del campione

x =_∑ xi fi

µ = ∑ xi fi

∑ fi∑ fi

M

Media Aritmetica

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 97: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Altezza (cm) Fq Ass Valore Centrale __

130-139 4 (130+140)/2 = 135 (4)(135) = 540

140-149 6 145 870

150-159 7 155 1085

160-169 6 165 990

170-179 5 175 875

28 4360

97

Misure per Dati Raggruppati in Classi

xi fi

µ =4360

28= 155,71∑ xi fi

∑ fi=

xiM

Media Aritmetica

Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo

Esempio

fi

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 98: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

98

Misure per Dati Raggruppati in Classi

Dopo aver calcolato i valori centrali di ciascuna classe e la media, si procede elevando al quadrato la deviazione dalla media di ciascuna classe e moltiplicando per la sua frequenza. Al termine, si sommano tutti i risultati e si si divide per il numero di osservazioni. Nel caso di un campionamento, si divide per il numero di osservazioni - 1.

σ s

Varianza della popolazione

Varianza del campione

VAR

Varianza della popolazione (σ )

e del campione (s )

2

2

∑ (xi − μ)2 fiσ =

∑ fi

2 ∑ (xi − x)2 fis =

(∑ fi) − 1

2-

2 2

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 99: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

99

Misure per Dati Raggruppati in Classi

Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo

4781,62

28= 170,77=∑ (xi − μ)2 fi

σ =∑ fi

2

VAR

Varianza della popolazione (σ )

e del campione (s )2

2

Esempio

Altezza (cm)

130-139 4 135 155,71 -20,71 1715,62

140-149 6 145 155,71 -10,71 688,22

150-159 7 155 155,71 -0,28 0,55

160-169 6 165 155,71 9,28 516,71

170-179 5 175 155,71 19,29 1860,52

28 4781,62

xi (xi − μ)2 fixi − μμfi

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 100: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

100

Misure per Dati Raggruppati in Classi

La deviazione standard approssimata si ottiene estraendo la radice quadrata della varianza. DEV

Deviazione Standard della popolazione (σ)

e del campione (s)

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 101: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

101

20 14 3 23

2 40 23 23

10 18 20 2

1 10 5 4

3 31 4 10

N° di bufale per allevamento italiano al 2019

Esercizio 12 - Raggruppare i seguenti valori in classi di frequenza con ampiezza pari a 10 e stabilire le seguenti misure di sintesi approssimate: media, varianza e deviazione standard.

Misure per Dati Raggruppati in Classi

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 102: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

N° Bufale

1-10 11 (1+11)/2 = 6 (6)(11) = 66

11-20 4 16 64

21-30 3 26 78

31-40 2 36 72

20 280

N° di bufale per allevamento italiano al 2019

∑102

Misure per Dati Raggruppati in Classi

40-1

10≈Il numero di classi è pari a 4, infatti 4

xi fi

µ =280

20= 14∑ xi fi

∑ fi=

xifi

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Esercizio 12 - Raggruppare i seguenti valori in classi di frequenza con ampiezza pari a 10 e stabilire le seguenti misure di sintesi approssimate: media, varianza e deviazione standard.

fi

Page 103: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

N° Bufale

1-10 11 6 14 -8 704

11-20 4 16 14 2 16

21-30 3 26 14 12 432

31-40 2 36 14 22 968

20 2120

103

Misure per Dati Raggruppati in Classi

40-1

10≈

N° di bufale per allevamento italiano al 2019

2120

20= 106=∑ (xi − μ)2 fi

σ =∑ fi

2xi − μμxifi

Il numero di classi è pari a 4, infatti 4

(xi − μ)2 fi

= 10,29=σ 2 106σ =

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Esercizio 12 - Raggruppare i seguenti valori in classi di frequenza con ampiezza pari a 10 e stabilire le seguenti misure di sintesi approssimate: media, varianza e deviazione standard.

Page 104: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

104

Google Sheets

link: https://docs.google.com/spreadsheets

Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.

Lo utilizziamo per… • creare una Tabella Pivot per raggruppare i dati in classi di frequenza.

Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 105: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

105

Microsoft Excel

Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.

Lo utilizziamo per… • creare una Tabella Pivot per raggruppare i dati in classi di frequenza.link: https://www.office.com/

Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

Page 106: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

UNITÀ 3

Sintetizzare i Dati: Misure di Posizione Relativa,

Valori Anomali ed Exploratory Data Analysis (EDA)

2 31

Page 107: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

107

Misure di Posizione Relativa

QP

Percentili Quartili

Sono misure di sintesi che indicano la posizione relativa assunta da determinati valori di una variabile nella distribuzione.

z

z-score

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 108: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Lo z-score (o punteggio standardizzato) rappresenta la distanza di ciascun valore dalla media in unità di deviazione standard.

È utile per confrontare le posizioni relative di due osservazioni appartenenti a insiemi di dati diversi: se entrambe hanno il medesimo z-score, allora occupano la medesima posizione relativa.

Una volta calcolato lo z-score (x) per una determinata osservazione, si dice che “il valore osservato è minore/maggiore della media di x punti di deviazione standard”. La media degli z-score è sempre pari a 0. Se un valore è maggiore della media il suo z-score sarà positivo; se è inferiore alla media sarà negativo; se, invece, è uguale alla media sarà uguale a 0.

σx − μz =

sz =

popolazione campione

108

z-score

z

x − x

z-score

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 109: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

109

z-score

zEsempio Due squadre di baseball, che giocano in due campionati differenti, si sono entrambe posizionate al primo posto. La squadra Blu, appartenente al Campionato A, con un punteggio pari a 968 e la squadra Nera, appartenente al Campionato B, con un punteggio pari a 892. Nel Campionato A μ = 739,9 e σ = 73,5, mentre nel Campionato B μ = 763 e σ = 58,9. Quale squadra ha ottenuto il punteggio relativo migliore?

z-score

Il valore osservato per la squadra Blu è maggiore della media di 2,37 deviazioni standard; mentre quello osservato per la squadra Nera è maggiore della media 2,19 deviazioni standard. Pertanto, la squadra Blu ha ottenuto un punteggio relativo migliore.

= 2,37 = 2,19 892 - 763 58,9

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

z = z = squadra Blu squadra Nera

968 - 793,9 73,5

Page 110: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

110

z-score

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Letizia 21 Daniele 22

Francesca 22 Eleonora 21

Sara 19 Fulvio 23

Laura 18 Mattia 22

Martina 22 Romeo 22

Valutazioni dell’esame di Matematica - Appello Estivo 2018

Esercizio 13 - Calcolare lo z-score delle osservazioni evidenziate e stabilire chi ha ottenuto la valutazione relativa migliore.

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 111: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

111

z-score

Esercizio 13 - Calcolare lo z-score delle osservazioni evidenziate e stabilire chi ha ottenuto la valutazione relativa migliore.

Valutazioni dell’esame di Matematica Appello Estivo 2018

Valutazioni dell’esame di Matematica Appello Invernale 2018

μ = 22,3 e σ = 4,6

μ = 21,2 e σ = 1,47 = 1,22 23 - 21,2 1,47

= 0,15 23 - 22,3 4,6

z = Fulvio

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

z = Giorgio

Il valore osservato per Giorgio è maggiore della media di 0,15 punti di deviazione standard. Il valore osservato per Fulvio è maggiore della media di 1,22 punti di deviazione standard. Fulvio ha ottenuto la valutazione relativa migliore.

Page 112: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

112

Percentili

Il k-esimo percentile (Pk) è quel valore tale per cui il k per cento delle osservazioni cadono al di sotto o sono uguali ad esso.

Consente di avere un’idea di come si posiziona un valore rispetto agli altri appartenenti allo stesso insieme di dati.

La distribuzione può quindi essere ordinata in 100 parti, con 99 Percentili: per esempio, P1 divide la distribuzione tra l’1% e il 99%, P2 tra il 2% e il 98% e così.

Percentili

P

P5 P10 P15 P50

Valore più alto

P95

Me

5% 5% 5% 35% 45% 5%

Valore più basso

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 113: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

113

Percentili

Esempio Chiara ha ottenuto all’esame FCE un punteggio di 1710, che occupa il 73-esimo percentile (P73)

Questo significa che il 73% dei punteggi degli altri studenti è inferiore o uguale a 1710, mentre il 27% è superiore, quindi migliore rispetto al punteggio di Chiara.

Percentili

P

P73

Valore più basso Valore più alto

73%1710

27%

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 114: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

114

Quartili

I percentili più comuni sono i Quartili, che dividono la distribuzione in quattro parti uguali:

• Q1, che è uguale a P25 e che divide il primo 25% dal restante 75% delle osservazioni; • Q2, che è uguale a P50 e a Me e che divide il primo 50% dal restante 50% delle osservazioni;

• Q3, che è uguale a P75 e che divide il primo 75% dal restante 25% delle osservazioni.

Quartili

Q

P50

Valore più alto

Me

25%

P25 P75

25% 25% 25%

Q1 Q2 Q3

Valore più basso

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 115: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

115

Quartili

Per calcolare i quartili si può procede in questo modo:

1. si organizzano i dati in ordine crescente; 2. si determina la mediana Me, pari al secondo quartile Q2; 3. si determinano il primo quartile Q1 e il terzo quartile Q3 calcolando la mediana

della prima metà e della seconda metà delle osservazioni. Quartili

Q

Esempio Osservazioni: 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19.

• organizzo i dati in ordine crescente: 1, 12, 13, 19, 21, 24, 26, 35, 35, 39, 40, 40, 50, 90. • calcolo Me = 30,5 = Q2; • Q1 coincide con la mediana dei valori 1, 12, 13, 19, 21, 24, 26 ed è uguale a 19; mentre Q3 coincide con la mediana dei valori 35, 35, 39, 40, 40, 50, 90 ed è uguale a 40 .

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 116: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

116

Quartili

I quartili sono robusti a valori estremi, infatti non variano al variare del valore inferiore e di quello superiore. Dal momento che alcune misure di dispersione come il range e la deviazione standard non lo sono, è possibile utilizzare i quartili per stabilire un’ulteriore misura di dispersione, che si impiega al posto della deviazione standard per la valutazione della variabilità di una distribuzione asimmetrica.

Si tratta dell’Intervallo Interquartile (IQR), cioè quell’intervallo che contiene il 50% delle osservazioni, quelle centrali. Si calcola come la differenza tra il terzo e il primo quartile (Q3 - Q1).

IQR = Q3 - Q1

Quartili

Q

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 117: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

117

Esercizio 14 - Calcolare i quartili e l’intervallo interquartile.

Quartili

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica - Appello Invernale 2018

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 118: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

118

Quartili

Valutazioni dell’esame di Matematica Appello Invernale 2018

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

• organizzo i dati in ordine crescente: 18, 18, 18, 19, 19, 22, 23, 26, 29, 31; • calcolo Me = 20,5 = Q2; • Q1 coincide con la mediana dei valori 18, 18, 18, 19, 19 ed è uguale a 18; mentre Q3 coincide con la mediana dei valori 22, 23, 26, 29, 31 ed è uguale a 26 .

• l’intervallo interquartile è pari a Q3 - Q1 = 26 - 18 = 8.

Esercizio 14 - Calcolare i quartili e l’intervallo interquartile.

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 119: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

119

Valori Anomali

I quartili e l’intervallo interquartile possono essere utili per verificare la presenza dei cosiddetti valori anomali, o outlier, cioè quei valori estremi in una popolazione, molto distanti da quelli che caratterizzano la distribuzione. Si tratta di valori inusuali.

Come si individuano? 1. Si determinano il primo e il terzo quartile; 2. si calcola l’intervallo interquartile; 3. si calcolano il limite inferiore e il limite superiore:

Limite Inferiore = Q1 - 1,5 (IQR)

Limite Superiore = Q3 + 1,5 (IQR)

4. se un’osservazione è più piccola del limite inferiore o più grande di quello superiore, allora viene considerata un outlier.

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 120: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

120

Valori Anomali

Esempio Osservazioni: 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19.

• organizzo i dati in ordine crescente: 1, 12, 13, 19, 21, 24, 26, 35, 35, 39, 40, 40, 50, 90;

• calcolo Me = 30,5 = Q2; pertanto Q1 coincide con la mediana dei valori 1, 12, 13, 19, 21, 24, 26 ed è uguale a 19, mentre Q3 coincide con la mediana dei valori 35, 35, 39, 40, 40, 50, 90 ed è uguale a 40;

• l’intervallo interquartile IQR è uguale a Q3 - Q1 = 40 - 19 = 21;

• il limite inferiore è uguale a Q1 - 1,5 (IQR) = 19 - 1,5 (21) = -12, mentre il limite superiore è uguale a Q3 + 1,5 (IQR) = 40 + 1,5(21) = 71,5;

• non sono presenti valori inferiori al limite inferiore ma è presente un valore superiore al limite superiore: 90. Tra le osservazioni, 90 è un outlier.

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 121: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

121

Esercizio 15 - Individuare i valori anomali.

Valori Anomali

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica - Appello Invernale 2018

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 122: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

122

Esercizio 15 - Individuare i valori anomali.

Valori Anomali

Valutazioni dell’esame di Matematica Appello Invernale 2018

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

• sapendo che l’intervallo interquartile è pari a Q3 - Q1 = 26 - 18 = 8, si calcolano il limite inferiore e quello superiore: Limite inferiore = Q1 - 1,5 (IQR) = 18 - 1,5 (8) = 6 Limite superiore = Q3 + 1,5 (IQR) = 26 + 1,5 (8) = 38

• poiché non esistono valori inferiori a 6 o superiori a 38, non sono presenti valori anomali.

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 123: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

123

Exploratory Data Analysis

MINIMO Q1 Me MASSIMOQ3

1 30,5 4019 90

L’Analisi Esplorativa dei Dati (Exploratory Data Analysis) è una tecnica di sintesi dei dati che fa uso di cinque numeri, utili per una descrizione chiara ed efficace di una distribuzione.

In una sintesi dei cinque numeri si impiegano: • il valore minimo; • il primo quartile Q1; • la mediana Me; • il terzo quartile Q3; • il valore massimo.

Osservazioni 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 124: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

124

Boxplot

Exploratory Data Analysis

L’Analisi Esplorativa dei Dati consente di rappresentare i dati attraverso il boxplot (anche noto come diagramma a scatola e baffi), un grafico che offre una buona sintesi visiva della distribuzione.

Per la sua realizzazione, è necessario servirsi della sintesi dei cinque numeri per calcolare anche il Limite Inferiore e il Limite Superiore e stabilire gli outlier.

Outlier

IQR

Valore Adiacente a LS

Valore Adiacente a LI

Q1 Me Q3

1 30,5 4019 90

*

Osservazioni 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19

50

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 125: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

125

Exploratory Data Analysis

Come si costruisce il boxplot?

Boxplot

Q1 Q3Me

1 30,5 4019

Osservazioni 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19

50 90

*• si traccia il segmento in corrispondenza della mediana Me;

• si calcolano il limite inferiore e il limite superiore e si segnano i valori immediatamente adiacenti;

• si tracciano i baffi, cioè due linee che uniscono gli estremi della scatola ai due valori adiacenti i limiti;

• si usa un asterisco * per segnare gli eventuali outlier.

• si disegna una scatola (box) che ha come estremi il primo quartile Q1 e il terzo quartile Q3. Questo box, la cui ampiezza corrisponde all’intervallo Interquartile, contiene il 50% delle osservazioni (quelle “centrali”);

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 126: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

0

0,5

1

1,5

2

126

Exploratory Data Analysis Boxplot e Istogramma

*

1 30,5 4019 50 90

• si traccia il segmento in corrispondenza della mediana Me;

• si calcolano il limite inferiore e il limite superiore e si segnano i valori immediatamente adiacenti;

• si tracciano i baffi, cioè due linee che uniscono gli estremi della scatola ai due valori adiacenti i limiti;

• si usa un asterisco * per segnare gli eventuali outlier.

Come si costruisce il boxplot?• si disegna una scatola (box) che ha come estremi il primo quartile Q1 e il terzo quartile Q3. Questo box, la cui ampiezza corrisponde all’intervallo Interquartile, contiene il 50% delle osservazioni (quelle “centrali”);

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 127: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

127

Exploratory Data Analysis

Asimmetria Positiva (o a destra)

Distribuzione Simmetrica Campanulare

Assimetria Negativa (o a sinistra)

MeQ1 Q3 MeQ1 Q3 MeQ1 Q3

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 128: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

128

Exploratory Data Analysis

Distribuzione Simmetrica Uniforme

MeQ1 Q3

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 129: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

129

Esercizio 16 - Applicare al seguente dataset l’Exploratory Data Analysis (sintesi dei cinque numeri e boxplot).

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Exploratory Data Analysis

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 130: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

130

Esercizio 16 - Applicare al seguente dataset l’Exploratory Data Analysis (sintesi dei cinque numeri e boxplot).

Exploratory Data Analysis

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica Appello Invernale 2018

Sintesi dei cinque numeri • nei precedenti esercizi sono già stati calcolati: Me = 20,5; Q1 = 18 e Q3 = 26;

• non resta che aggiungere il valore minimo, cioè 18 e quello massimo, cioè 31.

MINIMOQ1

Me MASSIMOQ3

18 20,5 26 31

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 131: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Boxplot • calcolo il Limite inferiore = Q1 - 1,5 (IQR) = 18 - 1,5 (8) = 6 e il Limite superiore = Q3 + 1,5 (IQR) = 26 + 1,5 (8) = 38. Non ci sono outlier e i valori adiacenti sono 18 e 31.

131

Esercizio 16 - Applicare al seguente dataset l’Exploratory Data Analysis (sintesi dei cinque numeri e boxplot).

Exploratory Data Analysis

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica Appello Invernale 2018 MINIMO Q1 Me MASSIMOQ3

18 20,5 26 31

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 132: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

132

Descrivere la Distribuzione

Come posso descrivere i valori di un insieme di dati quantitativi quanto imparato in queste due unità?

Organizzazione e Rappresentazione Organizzo i dati in tabella con le rispettive frequenze assolute e relative (applicando, se comodo o richiesto le classi di frequenza), poi li rappresento attraverso un istogramma per osservare la forma della distribuzione.

Sintesi Misure di Tendenza Centrale In caso di simmetria, mi è suffi ciente calcolare la media. Altrimenti, calcolo la mediana.

Misure di Dispersione In caso di simmetria, calcolo la deviazione standard. Altrimenti, calcolo l’intervallo interquartile. Misure di Posizione Svolgo la sintesi dei cinque numeri e costruisco il boxplot, sovrapponendolo all’istogramma.

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 133: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

133

Google Sheets

link: https://docs.google.com/spreadsheets

Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.

Lo utilizziamo per… • calcolare lo z-score, i quartili e l’intervallo interquartile.

Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 134: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

134

Microsoft Excel

Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.

Lo utilizziamo per… • calcolare lo z-score, i quartili e l’intervallo interquartile.link: https://www.office.com/

Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 135: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

135

BoxplotR

Cosa è? È un software web-based per la rappresentazione di dati attraverso i boxplot.

Lo utilizziamo per… • generare un boxplot a partire da un dataset.link: http://shiny.chemgrid.org/boxplotr/

Nota: durante la lezione abbiamo visto come utilizzare BloxplotR per svolgere quanto indicato. Se incontri diffi coltà, contatta il docente.

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed

Exploratory Data Analysis (EDA)

Page 136: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

UNITÀ 4

Descrivere la Relazione tra Due Variabili:

il Grafico a Dispersione e il Coefficiente di Correlazione Lineare

2 3 41

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

Page 137: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Raccogliere Organizzare Sintetizzare AnalizzareIdentificare una domanda

Trarre Conclusioni

L’Indagine Statistica

137

Correlazione (Grafico a dispersione e

Coefficiente di correlazione lineare)

Analisi Bivariata

Previsione (Regressione ai minimi quadrati)

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 138: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

138

Analisi Bivariata

Finora abbiamo svolto un’analisi monovariata, cioè ci siamo soffermati sull’osservazione di una sola variabile. L’analisi bivariata è utile per descrivere la relazione tra due variabili quantitative indagate sulle medesime unità statistiche, con l’obiettivo di correrarle (analizzarne la relazione) e di utilizzare i valori di una per predire quelli dell’altra.

Nell’analisi bivariata, la variabile che viene utilizzata come predittore è definita variabile indipendente (o esplicativa), mentre quella che viene predetta è definita variabile dipendente (o risposta).

Esempio Voglio analizzare la relazione tra l'estensione del terreno destinato all’allevamento (espresso in ettari) e il numero di capi bestiame ivi ospitati. In seguito, voglio vedere se è possibile usare una delle due variabili per prevedere i valori dell’altra.

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 139: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

139

Soffermiamoci innanzitutto sulla correlazione.

La relazione tra variabili quantitative rilevate sulle medesime unità statistiche può essere messa in evidenza attraverso un’opportuna rappresentazione grafica: il grafico a dispersione, anche noto come scatter plot.

La variabile indipendente viene posta sull’asse delle ascisse (x), mentre la variabile dipendente sull’asse delle ordinate (y). Ogni unità statistica corrisponde a un punto di coordinate x, y.

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280

Variabile indipendente

98 99 100 101 102 103 104 105

Grafico a Dispersione

Grafico a Dispersione

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 140: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

140

Variabile Indipendente (x)

Estensione Terreno (ha)

100 102 103 101 105 100 99 105

Variabile Dipendente (y)

Numero di Capi Bestiame

257 264 274 266 277 263 258 275

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280

Variabile indipendente

98 99 100 101 102 103 104 105

Dal grafico si può dedurre che all’aumentare dell’estensione del terreno destinato all’allevamento (variabile indipendente), aumenta anche il numero di capi bestiame (variabile dipendente). Esiste, cioè, una relazione lineare positiva e le due variabili si dicono concordanti.

Grafico a Dispersione Grafico a Dispersione

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 141: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Variabile Indipendente (x)

Estensione Terreno (ha)

100 102 103 101 105 100 99 105

Variabile Dipendente (y)

Numero di Capi Bestiame

277 266 263 264 257 274 275 258

141

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280

Variabile indipendente

98 99 100 101 102 103 104 105

Se, invece, dal grafico a dispersione avessimo dedotto che all’aumentare dell’estensione del terreno destinato all’allevamento (variabile indipendente), fosse diminuito il numero di capi bestiame (variabile dipendente), avremmo avuto una relazione lineare negativa e le due variabili sarebbero state definite discordanti.

Grafico a Dispersione Grafico a Dispersione

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 142: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

142

Tra le due variabili intercorre una relazione lineare positiva: all’aumentare (o al diminuire) dei valori di una variabile, aumentano (o diminuiscono) anche i valori dell’altra.

Le due variabili si muovono nella stessa direzione e sono dette concordanti: ai valori superiori alla media di una variabile corrispondono valori superiori alla media dell’altra variabile, oppure ai valori inferiori alla media di una variabile corrispondono valori inferiori alla media dell’altra variabile.

Grafico a Dispersione

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Variabile indipendente

Vari

abile

dip

ende

nte

Page 143: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

143

Tra le due variabili intercorre una relazione lineare negativa: all’aumentare dei valori di una, diminuiscono i valori dell’altra.

Le due variabili non si muovono nella stessa direzione e sono dette discordanti: in quanto ai valori superiori alla media di una variabile corrispondono valori inferiori alla media dell’altra variabile, oppure se ai valori inferiori alla media di una variabile corrispondono valori superiori alla media dell’altra variabile.

Grafico a Dispersione

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Variabile indipendente

Vari

abile

dip

ende

nte

Page 144: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

144

Variabile indipendente

Vari

abile

dip

ende

nte

In una situazione del genere, invece, non esiste alcuna relazione.

Questo significa che le due variabili sono indipendenti tra loro. Se una aumenta, l’altra può aumentare o diminuire.

Grafico a Dispersione

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 145: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

145

Variabile indipendente

Vari

abile

dip

ende

nte

In questi casi esiste una relaziona ma non è lineare.

Variabile indipendente

Vari

abile

dip

ende

nte

Grafico a Dispersione

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 146: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

146

Limiti del Grafico a Dispersione

Il grafico a dispersione informa soprattutto sulla forma e sulla direzione della relazione della variabile ma non sulla sua intensità, cioè su quanto sia effettivamente forte.

Inoltre, come visibile nella figura di fianco, può essere facilmente manipolato, per esempio cambiando la scala numerica. Pertanto, può risultare forviante per un’interpretazione corretta.

Grafico a Dispersione

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Vari

abile

dip

ende

nte

1

51

101

151

200

250

300

Variabile indipendente

90 94 98 102 106 110

Page 147: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

147

Coefficiente di Correlazione Lineare

Coefficiente di Correlazione Lineare della popolazione (ρ)

o del campione (r)

Per i motivi appena addotti, si preferisce stabilire l’esistenza della relazione tra due variabili, attraverso una misura di sintesi numerica adatta ai dati bivariati.

Il coefficiente di correlazione lineare, noto anche come coefficiente di correlazione di prodotto-momento di Pearson, è una misura dell’intensità e della relazione esistente tra due variabili quantitative.

Il suo valore varia sempre tra -1 e 1, estremi inclusi. Non è una misura robusta.

=∑ ( xi − x

sx)( yi − y

sy)

n − 1=

∑ ( xi − μx

σx)(

yi − μy

σy)

Nρ r

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

ρ r

Nota: ovviamente e( xi − μx

σx)(

yi − μy

σy) = zxzy ( xi − x

sx)( yi − y

sy) = zxzy

Page 148: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

148

Coefficiente di Correlazione Lineare

Valore Relazione

= +1 perfetta relazione lineare positiva (concordanza)

= -1 perfetta relazione lineare negativa (discordanza)

più si avvicina a +1 più si avvicina, più è forte la concordanza

più si avvicina a -1 più si avvicina, più è forte la discordanza

più si avvicina a 0 più si avvicina, più la relazione lineare è debole

= 0 non esiste relazione lineare

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Coefficiente di Correlazione Lineare della popolazione (ρ)

o del campione (r)

ρ r

Page 149: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

149

Coefficiente di Correlazione Lineare

ρ = 1 ρ vicino a 1 ρ = -1

ρ vicino a -1 ρ vicino a 0 ρ vicino a 0

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Coefficiente di Correlazione Lineare della popolazione (ρ)

o del campione (r)

ρ r

Page 150: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

150

Coefficiente di Correlazione Lineare

Come si calcola?

1. si calcolano la media e le deviazioni standard di ciascuna variabile; 2. si calcola lo z-score di ogni osservazione per ciascuna variabile; 3. si calcola il prodotto tra i due z-score di ciascuna osservazione; 4. si sommano i prodotti e si divide per il numero delle osservazioni nel caso si consideri

la popolazione, o per il numero di osservazioni - 1 nel caso si consideri un campione.

=∑ ( xi − x

sx)( yi − y

sy)

n − 1=

∑ ( xi − μx

σx)(

yi − μy

σy)

Nρ r

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Coefficiente di Correlazione Lineare della popolazione (ρ)

o del campione (r)

ρ r

Page 151: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

151

Coefficiente di Correlazione Lineare

Nel caso in cui si stiano confrontando due campioni, è opportuno confrontare il coefficiente di correlazione lineare con il valore critico, così da poter affermare con sicurezza l’esistenza di una relazione lineare tra le due variabili.

Se il valore assoluto del coefficiente di correlazione lineare è maggiore del valore critico, la relazione lineare esiste. È possibile trovare i valori critici nell’Appendice (Tabella II, p. 351) del libro di testo consigliato o qui.

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Coefficiente di Correlazione Lineare della popolazione (ρ)

o del campione (r)

ρ r

Page 152: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Dimensione Terreno (ha)

Numero di Capi Bestiame

1 100 2572 102 2643 103 2744 101 2665 105 2776 100 2637 99 2588 105 275

152

Coefficiente di Correlazione Lineare

yi − μy

σy( xi − μx

σx)(

yi − μy

σy)xi − μx

σx

yx

Esempio guidato Calcolo le medie le e deviazioni standard:

=∑ ( xi − μx

σx)(

yi − μy

σy)

N=ρ

μ σμ σyx

=

La relazione è __________ (+ ) ed è ______________.

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Nota: in questo caso stiamo considerando le due variabili come se fossero delle popolazioni (v. simboli greci).

Page 153: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Dimensione Terreno (ha)

Numero di Capi Bestiame

1 100 257 -0,87 -1,34 1,162 102 264 0,05 -0,37 -0,013 103 274 0,52 1 0,524 101 266 -0,4 -0,1 0,045 105 277 1,45 1,41 2,046 100 263 -0,87 -0,51 0,447 99 258 -1,33 -1,2 1,598 105 275 1,45 1,14 1,65

7,43153

Coefficiente di Correlazione Lineare

yx= 101, 87 = 266,75Esempio Calcolo medie e deviazioni standard: = 2,15 = 7,24

=∑ ( xi − μx

σx)(

yi − μy

σy)

N=ρ

μ σμ σyx

7,43

80,93=

La relazione è positiva (+0,86) ed è molto forte.

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

yi − μy

σy( xi − μx

σx)(

yi − μy

σy)xi − μx

σx

Page 154: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

154

Simone Stefania Marco Matteo Alice Giorgio Diego Rosa Romina Francesco

Voto Matematica

(Scuola) 7 8 8 9 7 6 6 7 10 7

Esame di Matematica

(Uni)22 19 18 18 29 23 31 19 18 26

Esercizio 17 - Stabilire la relazione tra le seguenti variabili attraverso il grafico a dispersione e il coefficiente di correlazione lineare, impiegando come variabile indipendente il voto di matematica dell’ultimo scrutinio scolastico.

Correlazione

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 155: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

155

Vari

abile

dip

ende

nte

15

18

20

23

26

28

31

Variabile indipendente

5 6 7 8 9 10

Dal grafico si può dedurre che all’aumentare del voto di matematica dell’ultimo scrutinio scolastico (variabile indipendente), diminuisce il voto dell’esame di matematica sostenuto all’università (variabile dipendente). Esiste, cioè, una relazione lineare negativa e le due variabili si dicono discordanti.

L’intensità e la direzione sono confermate dal coefficiente di correlazione lineare, positivo: . Possiamo affermare che la discordanza è forte.

ρ = -0,69

Correlazione

Esercizio 17 - Stabilire la relazione tra le seguenti variabili attraverso il grafico a dispersione e il coefficiente di correlazione lineare, impiegando come variabile indipendente il voto di matematica dell’ultimo scrutinio scolastico.

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Fabio Santaniello Bruun
negativo
Fabio Santaniello Bruun
:
Page 156: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

156

Google Sheets

link: https://docs.google.com/spreadsheets

Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.

Lo utilizziamo per… • realizzare un grafico a dispersione; • calcolare il coefficiente di correlazione.

Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 157: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

157

Microsoft Excel

Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.

Lo utilizziamo per… • realizzare un grafico a dispersione; • calcolare il coefficiente di correlazione.

link: https://www.office.com/

Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare

42 31

Page 158: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

UNITÀ 5

Descrivere la Relazione tra Due Variabili:

la Regressione ai Minimi Quadrati

2 3 41 5

5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati

Page 159: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

159

Analisi Bivariata

Dopo aver indagato la correlazione, passiamo all’impiego della variabile indipendente per predire i valori della variabile dipendente.

Parleremo di regressione ai minimi quadrati: tra poco vediamo il perché.

Esempio Dopo aver analizzato la relazione tra l’estensione del terreno destinato all’allevamento (espresso in ettari) e il numero di capi bestiame ivi ospitati, voglio vedere se è possibile usare i valori dell'ampiezza del terreno (variabile indipendente) per prevedere i valori del numero di capi bestiame (variabile dipendente).

4 52 31

5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati

Page 160: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280

Variabile indipendente

98 99 100 101 102 103 104 105

160

Regressione ai Minimi Quadrati

Se il grafico a dispersione e il coefficiente di correlazione lineare ci dicono che esiste una relazione lineare tra le due variabili, è possibile trovare un’equazione lineare che esprima tale relazione. L’equazione si esprime nella forma y = mx + b dove m è il coefficiente angolare (che esprime la pendenza) e b l’intercetta (cioè l’ordinata del punto di intersezione della retta con l’asse y). Se, una volta trovata l’equazione, sostituiamo a x (variabile indipendente) un qualsiasi valore, è possibile prevedere il corrispettivo valore di y (variabile dipendente).

Nota: non si richiede di conoscere il procedimento per calcolare la retta.

4 52 31

5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati

Page 161: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

161

Regressione ai Minimi Quadrati

Relativamente alle variabili usate come esempio (estensione del terreno e numero di capi bestiame ivi contenuto), possiamo tracciare una retta a partire da due punti del grafico a dispersione. Prendiamo (99, 258) come (x1, y1) e (105, 275) come (x2, y2).

La nostra retta avrà equazione y = 2.8333x - 22.4967, dove 2.8333 è il coefficiente angolare e -22.4967 è l’intercetta.

Come accennato prima, possiamo sostituire a x un valore della variabile indipendente, ottenendo così il valore previsto per la variabile dipendente (y). Per esempio, sostituendo x con 104, otteniamo y = 272.2.

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280

Variabile indipendente

98 99 100 101 102 103 104 105

y = 2.8333x - 22.4967

272,2

4 52 31

5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati

Nota: una volta trovato m = , è possibile trovare l’equazione della retta con la “formula del punto-coeffi ciente angolare”: y2 − y1x2 − x1

y − y1 = m(x − x1)

Page 162: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280

Variabile indipendente

98 99 100 101 102 103 104 105

162

Regressione ai Minimi Quadrati

Proviamo a impiegare l’equazione per prevedere un valore già osservato.

Sostituiamo a x 103, un valore della variabile indipendente appartenente al nostro dataset. Otteniamo per la variabile dipendente 269,3 e non 274 come il valore osservato. Si verifica un errore (o residuo), calcolato come la differenza tra il valore osservato y e il valore previsto ŷ pari a 4,7.

y - ŷ = 274 - 269,3 = 4,7

y = 2.8333x - 22.4967

269,3

274

4 52 31

5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati

Page 163: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

163

Regressione ai Minimi Quadrati

Tuttavia, esiste una retta che minimizza la somma dei quadrati dei residui, cioè delle distanze tra i valori osservati (y) e quelli previsti dalla retta (ŷ). Si tratta della retta di regressione (o retta ai minimi quadrati): è lei che descrive nel modo migliore la relazione tra la variabile indipendente e la variabile dipendente, consentendo di prevedere al meglio i valori della seconda.

La sua equazione è dove è il coefficiente angolare e l’intercetta, calcolati rispettivamente come e

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280

Variabile indipendente

98 99 100 101 102 103 104 105y = b1 + b0 b1 b0

Nota: non si richiede di conoscere il procedimento per calcolare la retta di regressione.

4 52 31

5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati

y = b1 + b0

rsx

syy = b1 − b1x

Page 164: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

164

Regressione ai Minimi Quadrati

Nel nostro caso, la retta di regressione è pari a ŷ = 3.1661x-55.7964.

Sostituendo a x un valore della variabile indipendente per prevedere quello della variabile dipendente (y), otteniamo la stima migliore.

Facciamo una prova, usando i valori già osservati impiegati in precedenza: sostiuendo a x 103, otteniamo 270.3, con un residuo pari a 3.7, minore rispetto a quello dell’equazione precedente (4,7). Va

riab

ile d

ipen

dent

e

250

255

260

265

270

275

280

Variabile indipendente

98 99 100 101 102 103 104 105

270,3

274

ŷ = 3.1661x-55.7964

4 52 31

5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati

Page 165: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

165

Il calcolo della retta di regressione è sempre accompagnato dal coefficiente di determinazione , che misura la proporzione di variabilità totale della variabile dipendente y effettivamente spiegata dalla retta di regressione.

Espresso in valore percentuale, decresce al diminuire della capacità esplicativa della retta e ci dice, fondamentalmente, quanto la retta preveda “bene” il valore della variabile dipendente.

es. = 99% significa che il 99% della variabilità di y è spiegato dalla retta ai minimi quadrati; = 9.4% spiega che il 9.4% della variabilità di y è spiegato dalla retta ai minimi quadrati.

R2

R2R2

Regressione ai Minimi Quadrati

Nota: non si richiede di conoscere il procedimento per calcolare il coeffi ciente di determinazione.

4 52 31

5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati

Page 166: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

UNITÀ 6

Automatizzare l’Analisi dei Dati attraverso le Macro

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Page 167: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Visual Basic for Applications (VBA) è un linguaggio di programmazione appartenente alla famiglia del Visual Basic che opera nell’ambito delle applicazioni della suite Microsoft Office, in particolare Excel.

Questo significa che può essere impiegato con l’obiettivo di scrivere dei programmi (script) in grado di estendere le funzionalità di Office.

VBA è un linguaggio di programmazione ad eventi che segue, almeno in parte, i principi della programmazione orientata agli oggetti: il suo codice viene eseguito (azione) quando l’utente “fa qualcosa” (evento), come cliccare su di un pulsante, scrivere in una cella del foglio di calcolo, muoversi da una cella all’altra (oggetti).

Visual Basic for Applications

167

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Page 168: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

VBA può essere impiegato per:

1. automatizzare attività operative e decisionali, allo scopo di facilitare il lavoro dell’utente;

2. realizzare nuovi strumenti di elaborazione per l’ambiente di lavoro, come, nel caso di Excel, nuove funzioni che eseguono calcoli specifici e personalizzati;

3. realizzare nuovi strumenti di gestione per l’ambiente di lavoro, per esempio finestre di dialogo personalizzate, o applicativi più evoluti.

Visual Basic for Applications

168

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Page 169: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Microsoft Excel e le Macro

169

Non ci occupiamo di scrivere codice in VBA ma utilizziamo uno strumento utile per generarlo automaticamente all’interno di Excel.

Si tratta della cosiddetta macro, un'azione o un insieme di azioni che è possibile eseguire per un numero illimitato di volte. Quando si crea, il software registra i clic del mouse e le sequenze di tasti e trasforma le istruzioni in codice VBA, così da poterlo leggere e modificare in seguito.

Le macro consentono di automatizzare specifiche azioni di elaborazione all’interno dell’ambiente di lavoro.

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Page 170: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

170

Microsoft Excel

Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.

Lo utilizziamo per… • registrare una macro; • impiegare la funzione SE.

link: https://www.office.com/

Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Page 171: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Non è possibile impiegare VBA all’interno degli strumenti della Google Suite. Tuttavia, Google ha di recente sviluppato un apposito linguaggio di scripting, denominato Apps Script, basato sul linguaggio di programmazione JavaScript.

È possibile scrivere codice in Apps Script attraverso l'editor online disponibile all’indirizzo (https://script.google.com/). Le sue funzionalità non sono limitate agli strumenti “di elaborazione”, come Google Docs, Google Sheets o Google Slide: Apps Script può essere impiegato anche all’interno di altri servizi di produttività, come Google Forms, Gmail, Google Calendar, Google Maps o Youtube.

Google Apps Script

171

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Page 172: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Apps Script può rivelarsi utile per:

1. automatizzare attività operative e decisionali, allo scopo di facilitare il lavoro dell’utente;

2. creare componenti aggiuntivi (add-ons) per estendere le funzionalità degli strumenti della Google Suite, anche facendoli interagire tra loro (es. importare automaticamente dati per Google Sheets direttamente da Gmail);

3. realizzare vere e proprie applicazioni basate su browser (web-app), autonome o incorporate in Google Sites;

Google Apps Script

172Nota: un buon modo per imparare a sfruttare le potenzialità di Apps Script è quello di svolgere le attività del programma Google Applied Digital Skills, che mostrano passo passo in che modo scrivere codice per estendere e utilizzare in maniera integrata gli strumenti della Google Suite. Clicca qui.

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Page 173: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Google Sheets e le Macro

173

Le macro possono essere registrare anche all'interno di Google Sheets: le loro istruzioni non vengono convertite in VBA ma in Apps Script.

Sebbene il loro linguaggio sia differente, la registrazione, la modifica e l’impiego sono molto simili alle macro in VBA.

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Page 174: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

174

Google Sheets

link: https://docs.google.com/spreadsheets

Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.

Lo utilizziamo per… • registrare una macro; • impiegare la funzione SE.

Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Page 175: Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Salvaggio, A. (2016) Excel 2016 - Macro e VBA. Edizioni Lswr; Sullivan III, M. (2011) Fondamenti di Statistica. Parte II: pp. 32-127, Pearson.

Bibliografia

175