Modulo 3 - Raccontare la Realtà con la Statistica Descrittiva Conoscenze Informatiche e Telematiche - 6CFU a.a. 2019/20 prof. Alessandro Iannella
Queste Slide3 Quesiti (domande o esercizi) 1 pt. ciascuno
Suff.: 1,8/3
Sullivan III, M. (2011) Fondamenti di Statistica. Parte II: pp. 32-127,
PearsonCosa studiare? L’esame
Informazioni sul Modulo
i dataset impiegati nelle slide sono proposti a titolo esemplificativo e possono essere frutto della fantasia dell’autore.
*
*
Organizzare i Dati1
Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed EDA3
Sintetizzare i Dati: Misure di Tendenza Centrale e Misure di Dispersione2
Descrivere la Relazione tra Due Variabili: Diagrammi di Dispersione e Coefficiente di Correlazione Lineare
4
5
Indice del Modulo
Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati 6 Automatizzare l’Analisi dei Dati
attraverso le Macro
UNITÀ 1
Organizzare i Dati
1
Raccogliere Organizzare Sintetizzare AnalizzareIdentificare una domanda
Trarre Conclusioni
Strutturare i Dati in Tabelle (dataset)
Rappresentare i Dati attraverso i Grafici
L’Indagine Statistica
5
1. Organizzare i Dati
1
Concetti Utili
6
Quantitative Qualitative (o Categoriali o Mutabili)
Il dato/modalità è un numero
Il dato/modalità è un attributo/etichetta/nome/categoria
Variabili
Dati quantitativi Dati qualitativi
1. Organizzare i Dati
1
Organizzare i Dati Qualitativi
7
Frequenza Assoluta Frequenza Relativa
(21/150)*100%
100%
Tipologia di Analisi
Emogramma 21 14%
Creatinina 30 20%
Urea 21 14%
Glucosio 57 38%
Albumina 6 4%
Colesterolo 15 10%
Totale
Frequenza RelativaFrequenza Assoluta
150 100%
N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018
Mod
alit
àVa
riab
ile
1. Organizzare i Dati
1
Organizzare i Dati Qualitativi
8
Una volta raccolte informazioni di tipo qualitativo è utile innanzitutto determinare quante volte ricorre ciascuna modalità. Si realizza quindi un dataset utile per analizzare la distribuzione delle unità statistiche.
1. Distribuzione di frequenze assolute Elenca tutte le modalità riportando, per ciascuna di esse, il corrispondente numero di occorrenze osservate.
2. Distribuzione di frequenze relative Elenca tutte le modalità riportando, per ciascuna di esse, la frequenza relativa, cioè la proporzione di osservazioni appartenenti a una determinata modalità rispetto al totale delle osservazioni.
Frequenza assoluta Somma totale delle frequenze assolute
Frequenza relativa = Valore espresso in
decimali o in percentuale
1. Organizzare i Dati
1
9Fr
eque
nza
Ass
olut
a
0
15
30
45
60
Tipologia di Analisi
Emogramma
Creatin
inaUre
a
Glucosio
Albumina
Colestero
lo
Organizzare i Dati Qualitativi Grafico a Barre Verticali
Tipologia di Analisi Fq Ass Fq Rel
Emogramma 21 14%
Creatinina 30 20%
Urea 21 14%
Glucosio 57 38%
Albumina 6 4%
Colesterolo 15 10%
N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018
1. Organizzare i Dati
1
10
Freq
uenz
a Re
lati
va
0%
25%
50%
75%
100%
Tipologia di Analisi
Emogramma
Creatin
inaUre
a
Glucosio
Albumina
Colestero
lo
Organizzare i Dati Qualitativi Grafico a Barre Verticali
Tipologia di Analisi Fq Ass Fq Rel
Emogramma 21 14%
Creatinina 30 20%
Urea 21 14%
Glucosio 57 38%
Albumina 6 4%
Colesterolo 15 10%
N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018
1. Organizzare i Dati
1
11
Organizzare i Dati Qualitativi
Tipologia di Analisi Fq Ass Fq Rel
Emogramma 21 14%
Creatinina 30 20%
Urea 21 14%
Glucosio 57 38%
Albumina 6 4%
Colesterolo 15 10%
Grafico a Barre Orizzontali
Tipo
logi
a di
Ana
lisi
Emogramma
Creatin
ina
Urea
Glucosio
Albumina
Colestero
lo
Frequenza Assoluta
0 15 30 45 60N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018
1. Organizzare i Dati
1
12
Organizzare i Dati Qualitativi Grafico a Barre Orizzontali
Tipo
logi
a di
Ana
lisi
Emogramma
Creatin
ina
Urea
Glucosio
Albumina
Colestero
lo
Frequenza Relativa
0% 25% 50% 75% 100%
Tipologia di Analisi Fq Ass Fq Rel
Emogramma 21 14%
Creatinina 30 20%
Urea 21 14%
Glucosio 57 38%
Albumina 6 4%
Colesterolo 15 10%
N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018
1. Organizzare i Dati
1
13
Organizzare i Dati Qualitativi
10%
4%
38%
14%
20%
14%EmogrammaCreatininaUreaGlucosioAlbuminaColesterolo
Grafico a Torta
Tipologia di Analisi Fq Rel
Emogramma 14%
Creatinina 20%
Urea 14%
Glucosio 38%
Albumina 4%
Colesterolo 10%
N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018
1. Organizzare i Dati
1
14
Organizzare i Dati Qualitativi
Principale Attività delle Imprese Agricole Lombarde Freq Ass 2008 Freq Ass 2018
Coltivazione del fondo 50 60
Selvicoltura 54 25
Allevamento 67 34
Altre attività 24 63
Totale 195 182
Confronto tra le principali attività agricole lombarde per numero di imprese nel 2008 e nel 2018
1. Organizzare i Dati
1
15
Organizzare i Dati Qualitativi
Principale Attività delle Imprese Agricole Lombarde Freq Ass 2008 Freq Rel 2008 Freq Ass 2018 Freq Rel 2018
Coltivazione del fondo 50 25,6% 60 33%
Selvicoltura 54 27,7% 25 13,7%
Allevamento 67 34,4% 34 18,7%
Altre attività 24 12,3% 63 34,6%
Totale 195 100% 182 100%
Confronto tra le principali attività agricole lombarde per numero di imprese nel 2008 e nel 2018
1. Organizzare i Dati
1
16
Organizzare i Dati Qualitativi Grafico a Barre Affiancate
Freq
uenz
a Re
lati
va
0%
10%
20%
30%
40%
Tipologia di Analisi
Coltivazione del fondo Selvicoltura Allevamento Altre Attività
Fq Rel 2008 Fq Rel 2018Attività Fq Rel 2008 Fq Rel 2018
Coltivazione del fondo 25,6% 33%
Selvicoltura 27,7% 13,7%
Allevamento 34,4% 18,7%
Altre attività 12,3% 34,6%
Confronto tra le principali attività agricole lombarde per numero di imprese nel 2008 e nel 2018
1. Organizzare i Dati
1
17
Organizzare i Dati Quantitativi
L’organizzazione dei dati quantitativi cambia a seconda che i dati siano discreti o continui:
1. Dati discreti Si opera come per i dati qualitativi.
2. Dati continui Si procede raggruppando le modalità in intervalli o classi.
Qualora i dati discreti presentino un numero elevato di modalità si opera come per i dati continui.
1. Organizzare i Dati
1
18
Organizzare i Dati Quantitativi Discreti
Numero di camere Frequenza Assoluta Frequenza Relativa
1 2 5,9%2 0 0%3 4 11,8%4 4 11,8%5 5 14,7%6 5 14,7%7 2 5,9%8 6 17,6%9 3 8,8%
10 3 8,8%Totale 14 100%
Numero di camere per agriturismo in Valle Camonica
1. Organizzare i Dati
1
19
Istogramma
Freq
uenz
a A
ssol
uta
0
1,5
3
4,5
6
Numero di Camere
1 2 3 4 5 6 7 8 9 10
Numero di Camere Fq Ass Fq Rel1 2 5,9%2 0 0%3 4 11,8%4 4 11,8%5 5 14,7%6 5 14,7%7 2 5,9%8 6 17,6%9 3 8,8%
10 3 8,8%
Organizzare i Dati Quantitativi Discreti
Numero di camere per agriturismo in Valle Camonica
1. Organizzare i Dati
1
Superficie Agricola per Allevamento (m²) Frequenza Assoluta
0-5000 3
5001-10000 4
10001-15000 5
15001-20000 10
20001-25000 15
Organizzare i Dati Quantitativi ContinuiCl
assi
di F
requ
enze
Estensione della superficie agricola destinata all’allevamento delle imprese agricole italiane
20
1. Organizzare i Dati
1
21
Organizzare i Dati Quantitativi Continui
Superficie Agricola per Allevamento (m²) Frequenza Assoluta
0-5000 3
5001-10000 4
10001-15000 5
15001-20000 10
20001-25000 15
25001 e oltre 1
Tabella Aperta
Clas
si d
i Fre
quen
ze
Estensione della superficie agricola destinata all’allevamento delle imprese agricole italiane
Si parla di tabella aperta quando non viene fissato il limite inferiore della prima classe o il limite superiore dell’ultima classe.
1. Organizzare i Dati
1
22
Dati Quantitativi e Classi di Frequenze
0-5000
5001-10000
Limite Inferiore di Classe Limite Superiore di Classe
Ampiezza di Classe (Lim Inf Cl B - Lim Inf Cl A)
1. Organizzare i Dati
1
23
Non esistono regole fisse per stabilire l’ampiezza e il numero delle classi di frequenze: è fondamentale scegliere ciò che ci sembra sintetizzare nel miglior modo le osservazioni disponibili così da identificare particolari e interessanti caratteristiche dei dati.
Si cerca in genere di avere un numero di classi compreso tra 5 e 20: più il dataset è grande più il numero di classi può essere elevato.
Bisogna sempre ricordare che un numero esiguo di classi crea un effetto di affollamento dei dati, mentre un numero elevato di classi origina un effetto di dispersione.
Dati Quantitativi e Classi di Frequenze
1. Organizzare i Dati
1
24
Alcune indicazioni utili per determinare il limite inferiore della prima classe e l’ampiezza di classe:
• scegliere come limite inferiore della prima classe l’osservazione più piccola o un intero inferiore a questa più vicino;
• decidere il numero di classi, regolandosi a seconda della grandezza del dataset;
• determinare l’ampiezza di classe calcolando e successivamente arrotondando:
Valore più elevato del dataset - Valore più piccolo del dataset Numero delle classi
Ampiezza di classe ≈
Dati Quantitativi e Classi di Frequenze
1. Organizzare i Dati
1
25
Istogramma
Freq
uenz
a A
ssol
uta
0
4
8
12
16
Superficie Agricola per Allevamento (m²)
+250002000015000100005000
Organizzare i Dati Quantitativi Continui
Superficie Agricola per Allevamento (m²) Fq Ass Fq Rel
0-5000 3 7,9%
5001-10000 4 10,5%
10001-15000 5 13,2%
15001-20000 10 26,3%
20001-25000 15 39,5%
25001 e oltre 1 2,6%
Estensione della superficie agricola destinata all’allevamento delle imprese agricole italiane
1. Organizzare i Dati
1
26
Istogramma
Freq
uenz
a Re
lati
va
0%
25%
50%
75%
100%
Superficie Agricola per Allevamento (m²)
+250002000015000100005000
Organizzare i Dati Quantitativi Continui
Superficie Agricola per Allevamento (m²) Fq Ass Fq Rel
0-5000 3 7,9%
5001-10000 4 10,5%
10001-15000 5 13,2%
15001-20000 10 26,3%
20001-25000 15 39,5%
25001 e oltre 1 2,6%
Estensione della superficie agricola destinata all’allevamento delle imprese agricole italiane
1. Organizzare i Dati
1
Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza.
27
9000 2536 9785 2323
2234 5345 9002 900
7840 1112 24023 1003
10500 12412 28000 4323
300 2223 7653 10394
19583 21049 10003 18293
90 4532 4532 1000
28000 - 90 8
3500 ≈
Ampiezza di Classe
N° di abitanti dei vari comuni della Valle Camonica
Organizzare i Dati Quantitativi Continui
1. Organizzare i Dati
1
28Fr
eque
nza
Ass
olut
a
0
2,5
5
7,5
10
N° Abitanti
280002450021000175001400010500700035000
Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza.
Organizzare i Dati Quantitativi Continui
N° Abitanti Fq Ass Fq Rel1-3500 10 35,7%
3501-7000 4 14,3%7001-10500 8 28,6%
10501-14000 1 3,6%
14001-17500 0 0%
17501-21000 2 7,1%
21001-24500 2 7,1%
24501-28000 1 3,6%
N° di abitanti dei vari comuni della Valle Camonica
1. Organizzare i Dati
1
29
280002450021000175001400010500700035000
Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza.
Organizzare i Dati Quantitativi Continui
Freq
uenz
a Re
lati
va
0%
25%
50%
75%
100%
N° Abitanti
N° Abitanti Fq Ass Fq Rel1-3500 10 35,7%
3501-7000 4 14,3%7001-10500 8 28,6%
10501-14000 1 3,6%
14001-17500 0 0%
17501-21000 2 7,1%
21001-24500 2 7,1%
24501-28000 1 3,6%
N° di abitanti dei vari comuni della Valle Camonica
1. Organizzare i Dati
1
Esercizio 1 - Organizzare i seguenti dati in una tabella con classi di frequenza di ampiezza 10.
30
Organizzare i Dati Quantitativi Continui
155 134 162 174
163 148 158 131
142 154 159 176
166 179 136 145
151 131 173 178
149 167 160 157
140 152 165 143
179 - 131 10
5 ≈
Numero di classi
Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo
1. Organizzare i Dati
1
31
Esercizio 2 - Organizzare i seguenti dati in una tabella con classi di frequenza di ampiezza 10.
Organizzare i Dati Quantitativi Continui
Freq
uenz
a A
ssol
uta
0
1,75
3,5
5,25
7
Altezza (cm)
180170160150130 140Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo
Altezza (cm) Fq Ass Fq Rel
130-139 4 14,3%
140-149 6 21,4%
150-159 7 25%
160-169 6 21,4%
170-179 5 17,9%
1. Organizzare i Dati
1
32
Organizzare i Dati Quantitativi Continui
Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo
Altezza (cm) Fq Ass Fq Rel
130-139 4 14,3%
140-149 6 21,4%
150-159 7 25%
160-169 6 21,4%
170-179 5 17,9%
Esercizio 2 - Organizzare i seguenti dati in una tabella con classi di frequenza di ampiezza 10.
Freq
uenz
a Re
lati
va
12%
34%
56%
78%
100%
Altezza (cm)
1. Organizzare i Dati
1
33
Dati Quantitativi e Forma della Distribuzione
DISTRIBUZIONE
ASIMMETRICA
DISTRIBUZIONE
SIMMETRICA
CampanulareUniforme
Positiva (o a destra) Negativa (o a sinistra)
Coda Coda
1. Organizzare i Dati
1
34
Grafico di una Serie Storica
Serie Storiche
Una serie storica è una successione di dati che esprime la dinamica di un fenomeno (variabile) nel tempo , consentendo di comprenderne l’andamento e osservare:
• la tendenza di fondo (trend);
• oscillazioni ampie (ciclo);
• oscillazioni precise e periodiche (stagionalità).
Prez
zo M
edio
di u
n pr
odot
to X
(€/l
)
0
0,325
0,65
0,975
1,3
t
gen-18feb-18
mar-18apr-18
mag-18giu-18
lug-18ago-18
set-18ott-1
8nov-18
dic-18gen-19
feb-18mar-19
apr-19mag-19
giu-19lug-19
ago-19set-19
ott-19nov-19
dic-19
1. Organizzare i Dati
1
Mes
i Giugno-A
gosto
Altri M
esi
Frequenza Relativa
0% 8% 16% 24% 32%
8%
28%
35
Rappresentazioni Grafiche Errate
(8% x 9 mesi )+ 28% = 100%
Viene rappresentato il numero medio di incendi avvenuto in ciascuno dei restanti 9 mesi e
non la percentuale complessiva.
Incendi in Lombardia nel 2018
1. Organizzare i Dati
1
Mes
i Giugno-A
gosto
Altri M
esi
Frequenza Relativa
0% 8% 16% 24% 32%
8%
28%
36
Freq
uenz
a Re
lati
va
0%
3%
6%
9%
12%
Mesi
Gennaio
Febbra
io
MarzoAprile
Maggio
Giugno
Lugli
o
Agosto
Sette
mbre
Ottobre
Novembre
Dicembre
8%8%8%8%
10%
9%9%
8%8%8%8%8%
Incendi in Lombardia nel 2018
Rappresentazioni Grafiche Errate
1. Organizzare i Dati
1
% S
tude
nti F
avor
evol
i
53%
55,75%
58,5%
61,25%
64%
Università
UNIMI UNIPI UNIFI UNITO
55%54%
55%
60%
37
Poiché l’asse verticale non inizia da 0 sembra che la differenza tra
le diverse università sia molto marcata. In realtà, lo è di pochi
punti percentuale.
Studenti favorevoli alla nuova riforma del sistema educativo
Rappresentazioni Grafiche Errate
1. Organizzare i Dati
1
38%
Stu
dent
i Fav
orev
oli
0%
25%
50%
75%
100%
Università
UNIMI UNIPI UNIFI UNITO
55%54%55%60%
% S
tude
nti F
avor
evol
i
53%
55,75%
58,5%
61,25%
64%
Università
UNIMI UNIPI UNIFI UNITO
55%54%
55%
60%
Studenti favorevoli alla nuova riforma del sistema educativo
Rappresentazioni Grafiche Errate
1. Organizzare i Dati
1
39
Troppi dati e troppi colori (anche simili) che non rendono interpretabile quanto
rappresentato.
6%5%
2%
10%
11%
2% 2% 1%7%
9%6% 2%
1%
11%
6%
9%
5%5%
AgricoltoreAgronomoAgronomo paesaggistaAgrotecnicoBracciante agricoloCamparoCampiereCasengoloColtivatore direttoContoterzistaFittavoloMassaioMondinaPerito agrarioSensaleSclavandarioSeringueiroViticoltore
Professionisti delle imprese agricole italiane al 2018 (%)
Rappresentazioni Grafiche Errate
1. Organizzare i Dati
1
40Fr
eque
nza
Rela
tiva
0%
3,75%
7,5%
11,25%
15%
Professioni
Agrico
ltore
Agrono
mo
Agrono
mo pae
sagg
ista
Agrotec
nico
Braccia
nte ag
ricolo
Camparo
Campier
e
Casen
golo
Coltiva
tore d
iretto
Contot
erzist
a
Fittav
olo
Massa
io
Mondina
Perito
agrar
io
Sensa
le
Sclava
ndari
o
Sering
ueiro
Viticolt
ore
6%
5%
2%
10%
11%
2%2%
1%
7%
9%
6%
2%
1%
11%
6%
9%
5%5%
6%5%
2%
10%
11%
2% 2% 1%7%
9%6% 2%
1%
11%
6%
9%
5%5%
AgricoltoreAgronomoAgronomo paesaggistaAgrotecnicoBracciante agricoloCamparoCampiereCasengoloColtivatore direttoContoterzistaFittavoloMassaioMondinaPerito agrarioSensaleSclavandarioSeringueiroViticoltore
Professionisti delle imprese agricole italiane al 2018 (%)
Rappresentazioni Grafiche Errate
1. Organizzare i Dati
1
41
45
10
20
Montagna CollinaPianura
%
%
%
Il totale delle percentuali non è uguale a 100%
Zone Altimetriche della Regione “x”.
Rappresentazioni Grafiche Errate
1. Organizzare i Dati
1
42
45
10
20
Montagna CollinaPianura
40%
60%
Montagna CollinaPianura
%
%
%
Zone Altimetriche della Regione “x”.
Rappresentazioni Grafiche Errate
1. Organizzare i Dati
1
43
Consigli per Realizzare un Buon Grafico
Per la realizzazione di un grafico efficace è opportuno: • inserire un titolo chiaro ed etichette su entrambi gli assi, specificando eventualmente le unità di misura e la
fonte dei dati; • scegliere il grafico che rappresenti al meglio l’informazione; • rendere chiare al lettore eventuali scale troncate; • non sovraffollare il grafico con elementi superflui; • evitare la tridimensionalità per non confondere il lettore.
1. Organizzare i Dati
1
44
Raccontare l’Informazione
La data visualization è quella disciplina che si occupa di divulgare i dati, sia quantitativi che qualitativi, raccontandoli attraverso elementi visivi. Si tratta di uno strumento di comunicazione e di facilitazione dell’accesso ai dati, che
diventano immediatamente comprensibili.
Il racconto dell’informazione (storytelling) fa leva su tre fattori umani:
Memoria a breve termine Codifica visuale dei dati
(colore, posizione e forma)
(brevità, legame azione-vista)
(prossimità, similarità, raggruppamento, completamento,
continuità)
Principi di psicologia
1. Organizzare i Dati
1
45
Raccontare l’Informazione
Pittogrammi
Oltre ai grafici tradizionali, come quelli che abbiamo visto in precedenza (es. istogramma, grafico a barre verticali e orizzontali, torta, grafico di una serie storica), la data visualization impiega:
Mappe Geografiche
Focus su di una singola Informazione Mappe Concettuali
InfograficheGrafici Interattivi WordCloud
#
1. Organizzare i Dati
1
Raccontare l’Informazione - Esempi
46
1. Organizzare i Dati
1
47
Raccontare l’Informazione - Esempi
1. Organizzare i Dati
1
48
Canva
Cosa è? È uno strumento freemium per il graphic design, adatto alla creazione di contenuti per la stampa e per il digitale (in particolare social).
Lo utilizziamo per… • realizzare una semplice infografica da condividere su Instagram
(modello: “Post Instagram”) con l’obiettivo di comunicare una specifica informazione.
link: https://canva.com
Nota: durante la lezione abbiamo visto come utilizzare Canva per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
1. Organizzare i Dati
1
49
Google Sheets
link: https://docs.google.com/spreadsheets
Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.
Lo utilizziamo per… • calcolare la frequenza relativa; • costruire un grafico a barre (anche affiancate); • costruire un grafico a torta.
Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
1. Organizzare i Dati
1
50
Microsoft Excel
Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.
Lo utilizziamo per… • calcolare la frequenza relativa; • costruire un grafico a barre (anche affiancate); • costruire un grafico a torta; • costruire un istogramma.
link: https://www.office.com/
Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
1. Organizzare i Dati
1
UNITÀ 2
Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
21
Raccogliere Organizzare Sintetizzare AnalizzareIdentificare una domanda
Trarre Conclusioni
Misure di Tendenza Centrale
Misure di Posizione, Valori Anomali ed
Exploratory Data Analysis (EDA)
L’Indagine Statistica
52
Misure di Dispersione
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
53
Misure di Tendenza Centrale
MoMeM
Definite anche indici di posizione, sono misure di sintesi che consentono di individuare attorno a quale valore della variabile si accentra la distribuzione.
Mediana ModaMedia Aritmetica del campione (x) e della
popolazione (μ)
_
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
54
Media Aritmetica
μ
Media Aritmetica della popolazione
Media Aritmetica del campione
La media aritmetica di una variabile si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. Consente di osservare il centro di gravità.
La media aritmetica di una popolazione si calcola impiegando tutte le unità della
popolazione. Si tratta di un parametro.
La media aritmetica di un campione si calcola impiegando le osservazioni
del campione. Si tratta di una statistica.
x_
M
Media Aritmetica
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
55
Media Aritmetica
µN N
N
x__
μ x_
Media Aritmetica della popolazione
Media Aritmetica del campione
La media aritmetica di una variabile si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. Consente di osservare il centro di gravità.
M
Media Aritmetica
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
56
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Media Aritmetica
Esercizio 3 - Calcolare la media della popolazione. Successivamente, estrarre un campione casuale semplice con ampiezza n = 4 e calcolare la media campionaria.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
57
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
µ =1010
22+19+18+18+29+23+31+19+18+26
10
= 223
10= =
Media Aritmetica
Valutazioni dell’esame di Matematica Appello Invernale 2018
22,3
Esercizio 3 - Calcolare la media della popolazione. Successivamente, estrarre un campione casuale semplice con ampiezza n = 4 e calcolare la media campionaria.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
58
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
x =44
22+18+31+18=
89
4= = 22,25
4
Media Aritmetica
_
Valutazioni dell’esame di Matematica Appello Invernale 2018
µ =1010
22+19+18+18+29+23+31+19+18+26
10
= 223
10= =
Esercizio 3 - Calcolare la media della popolazione. Successivamente, estrarre un campione casuale semplice con ampiezza n = 4 e calcolare la media campionaria.
22,3
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
59
Me
Mediana
La mediana di una variabile è il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente e che quindi divide il primo 50% dal secondo 50% delle osservazioni.
1. Si ordinano i valori in ordine crescente; 2. si determina il numero di osservazioni (n); 3. si determina l’osservazione che occupa la posizione centrale:
a. se il numero di osservazioni è dispari, la mediana è il valore che occupa la posizione centrale della distribuzione e cioè la posizione (n + 1) ;
b. se il numero di osservazioni è pari, la mediana è la media delle due osservazioni centrali della distribuzione ed è cioè la media delle osservazioni che occupano la posizione n e n + 1.
2
2 2
Mediana
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
60
Mediana
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Esercizio 4 - Calcolare la mediana della popolazione.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
2
61
Mediana
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
18 18 18 19 19 22 23 26 29 31
Il numero di osservazioni è pari (n = 10), quindi la mediana è la media tra le osservazioni che occupano la
posizione n (cioè 10/2 = 5) e n + 1 (cioè 6).
18 18 18 19 19 22 23 26 29 31
Me = 19 + 22 = 20,5
2
2
Valutazioni dell’esame di Matematica Appello Invernale 2018
Esercizio 4 - Calcolare la mediana della popolazione.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
62
Me
Mediana
Mediana
Osservazioni M Me18, 18, 18, 19, 19, 22, 23, 26, 29, 31
3122,3 20,5
4, 18, 18, 19, 19, 22, 23, 26, 29, 31 20,9 20,5
A differenza della media, la mediana è una misura di sintesi robusta in quanto non risulta sensibile ai valori estremi (quelli molto grandi e quelli molto piccoli).
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
63
La moda di una variabile è l'osservazione che, all’interno della distribuzione, si presenta con la frequenza più elevata.
Una distribuzione può: • avere un'unica moda (unimodale); • avere due mode (bimodale) • avere tre o più mode (multimodale) • non avere moda.
Moda
Mo
Moda
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
64
Moda
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Esercizio 5 - Calcolare la moda della popolazione e la sua frequenza assoluta.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
65
Moda
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
18 18 18 19 19 22 23 26 29 31
Mo = 18
Fq Ass = 3
Esercizio 5 - Calcolare la moda della popolazione e la sua frequenza assoluta.
Valutazioni dell’esame di Matematica Appello Invernale 2018
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
66
Media, Mediana e Moda a Confronto
MEDIA < MEDIANA < MODA MEDIA = MEDIANA = MODA MEDIA > MEDIANA > MODA
ASIMMETRICA NEGATIVA (A SINISTRA)
SIMMETRICAASIMMETRICA POSITIVA
(A DESTRA)Il numero di osservazioni inferiori alla media
è maggiore del numero di osservazioni superiori alla media
Il numero di osservazioni inferiori alla media è uguale al numero di osservazioni
superiori alla media
Il numero di osservazioni inferiori alla media è minore del numero di osservazioni
superiori alla media
Mo
Me
M
MoMeM Mo
Me
M
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
67
Misure di Dispersione
Valutazioni dell’esame di Matematica - Appello Invernale 2018 Valutazioni dell’esame di Matematica - Appello Estivo 2018
μ = 22,3
ELEVATA DISPERSIONE
μ = 22,3
DISPERSIONE CONTENUTA
Freq
uenz
a A
ssol
uta
0
1,25
2,5
3,75
5
18 19 20 21 22 23 24 25 26 27 28 29 30 31
Freq
uenz
a A
ssol
uta
0
0,75
1,5
2,25
3
Valutazioni
18 19 20 21 22 23 24 25 26 27 28 29 30 31
Valutazioni
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
68
Misure di Dispersione
DEVVARR
RangeVarianza
della popolazione (σ ) e del campione (s )
Deviazione Standard della popolazione (σ)
e del campione (s)
Sono misure di sintesi che indicano la variabilità di una distribuzione.
Scarto Medio Assoluto
δ
2
2
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
69
Range
Il range (o intervallo di variazione) di una distribuzione è dato dalla differenza tra l’estremo superiore e l’estremo inferiore delle osservazioni, cioè il valore più grande e il valore più piccolo.
Ci informa sull’ampiezza della distribuzione.
È espresso nella stessa unità di misura dei dati.
R = estremo superiore — estremo inferiore
Range
R
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
70
Range
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Esercizio 6 - Individuare i valori estremi e calcolare il range.
Valutazioni dell’esame di Matematica - Appello Invernale 2018
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
71
Range
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
18 18 18 19 19 22 23 26 29 31
Estremo Superiore = 31
Estremo Inferiore = 18
R = 31–18 = 13
Esercizio 6 - Individuare i valori estremi e calcolare il range.
Valutazioni dell’esame di Matematica Appello Invernale 2018
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
72
Range
Esercizio 7 - Individuare i valori estremi e calcolare il range.
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Freq
uenz
a A
ssol
uta
0
0,75
1,5
2,25
3
Valutazioni
18 19 20 21 22 23 24 25 26 27 28 29 30 31
Valutazioni dell’esame di Matematica - Appello Estivo 2018
Freq
uenz
a A
ssol
uta
0
1,25
2,5
3,75
5
Valutazioni
18 19 20 21 22 23 24 25 26 27 28 29 30 31
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
73
Range
Esercizio 7 - Individuare i valori estremi e calcolare il range.
Estremo Sup = 31. Estremo Inf = 18 R = 31–18 = 13
Estremo Sup = 23 Estremo Inf = 21 R = 23–21 = 2
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Freq
uenz
a A
ssol
uta
0
0,75
1,5
2,25
3
Valutazioni
18 19 20 21 22 23 24 25 26 27 28 29 30 31
Valutazioni dell’esame di Matematica - Appello Estivo 2018
Freq
uenz
a A
ssol
uta
0
1,25
2,5
3,75
5
Valutazioni
18 19 20 21 22 23 24 25 26 27 28 29 30 31
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
Lo scarto medio assoluto si ottiene calcolando la distanza, in valore assoluto, di tutti i dati dalla media e facendo la media aritmetica di tali distanze.
Ci informa sulla distanza media delle osservazioni dalla media aritmetica: più δ è piccolo, più i dati sono concentrati; più δ è grande, più i dati sono dispersi.
È espresso nella stessa unità di misura dei dati.
74
Scarto Medio Assoluto
Scarto Medio Assoluto
δ
Nota: la somma algebrica degli scarti dalla media è sempre uguale a zero. È per questo motivo che impieghiamo i valori assoluti.
N
N
δ = = N
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
Esempio Osservazioni: 1, 3, 3, 9
• calcolo la media delle osservazioni: μ = 4;
• calcolo, in valore assoluto, la distanza di ciascuna osservazione da μ: |1-4| = 3, |3-4| = 1, |3-4| = 1, |9-4| = 5
• calcolo la media dei valori assoluti ottenuti:
3 + 1 + 1 + 5
75
Scarto Medio Assoluto
Scarto Medio Assoluto
4
δ
= 2,5δ =
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
76
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Esercizio 8 - Calcolare lo scarto medio assoluto.
Scarto Medio Assoluto
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
• calcolo la media delle osservazioni: μ = 22,3;
• calcolo, in valore assoluto, la distanza di ciascuna osservazione da μ: |18-22,3| = 4,3 , |18-22,3| = 4,3 , |18-22,3| = 4,3 , |19-22,3| = 3,3 , |19-22,3| = 3,3 , |22-22,3| = 0,3 , |23-22,3| = 0,7 , |26-22,3| = 3,7 , |29-22,3| = 6,7 , |31-22,3| = 8,7
• calcolo la media dei valori assoluti ottenuti: 4,3 + 4,3 + 4,3 + 3,3 + 3,3 + 0,3 + 0,7 + 3,7 + 6,7 + 8,7
77
Scarto Medio Assoluto
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica Appello Invernale 2018
10δ = = 3,96
scarto dalla media scarto assoluto
18 22,3-18 = -4,3 4,3
31 22,3-31 = 8,7 8,7
… … …
oppu
re
Esercizio 8 - Calcolare lo scarto medio assoluto.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
78
Scarto Medio Assoluto
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Freq
uenz
a A
ssol
uta
0
0,75
1,5
2,25
3
Valutazioni
18 19 20 21 22 23 24 25 26 27 28 29 30 31
Valutazioni dell’esame di Matematica - Appello Estivo 2018
Freq
uenz
a A
ssol
uta
0
1,25
2,5
3,75
5
Valutazioni
18 19 20 21 22 23 24 25 26 27 28 29 30 31
Esercizio 9 - Calcolare lo scarto medio assoluto.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
79
Scarto Medio Assoluto
δ = 3,96 δ = 0,56ELEVATA DISPERSIONE DISPERSIONE CONTENUTA
Valutazioni dell’esame di Matematica - Appello Invernale 2018 Valutazioni dell’esame di Matematica - Appello Estivo 2018
Freq
uenz
a A
ssol
uta
0
1,25
2,5
3,75
5
Valutazioni
18 19 20 21 22 23 24 25 26 27 28 29 30 31
Freq
uenz
a A
ssol
uta
0
0,75
1,5
2,25
3
Valutazioni
18 19 20 21 22 23 24 25 26 27 28 29 30 31
Esercizio 9 - Calcolare lo scarto medio assoluto.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
La varianza della popolazione si ottiene calcolando il quadrato della distanza di tutti i dati dalla media e facendo la media aritmetica dei valori ottenuti.
Ci informa su quanto le osservazioni si discostino quadraticamente dalla media aritmetica: più σ è piccolo, più i dati sono concentrati; più σ è grande, più i dati sono dispersi.
80
Varianza
Varianza della popolazione
N
N
σ =
σ2
=N
2 i
2 2
Nota: la somma della deviazione di ogni osservazione dalla media è sempre uguale a zero. È per questo motivo che si eleva al quadrato.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
2
Esempio Osservazioni: 1, 3, 3, 9
• calcolo la media delle osservazioni: μ = 4;
• calcolo, il quadrato della distanza di ciascuna osservazione da μ: (1-4) = 9 , (3-4) = 1 , (3-4) = 1 , (9-4) = 25
• calcolo la media dei valori ottenuti:
9 + 1 + 1 + 25
2 22
81
Varianza
4= 9
Varianza della popolazione
σ2
σ =2
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
La varianza del campione (o varianza campionaria) si ottiene calcolando il quadrato della distanza di tutti i dati dalla media, sommando i valori ottenuti e dividendo il risultato per n - 1.
Ci informa su quanto le osservazioni si discostino quadraticamente dalla media aritmetica: più s è piccolo, più i dati sono concentrati; più s è grande, più i dati sono dispersi.
82
Varianza
Varianza del campione
n-1s =
s 2
n-1
2
2 2
n
i=x- x- x-
Nota: la varianza è la somma della deviazione di ogni osservazione dalla media, che è sempre pari a zero. È per questo motivo che eleviamo al quadrato.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
Esempio Osservazioni: 1, 3, 3, 9
• calcolo la media delle osservazioni μ = 4;
• calcolo, il quadrato della distanza di ciascuna osservazione da μ: (1-4) = 9 , (3-4) = 1 , (3-4) = 1 , (9-4) = 25
• sommo i valori ottenuti e divido per n - 1.
2 2 2 2
83
Varianza
4 - 1= 12s =2
Varianza del campione
s 2
9 + 1 + 1 + 25
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
84
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Varianza
Esercizio 10 - Calcolare la varianza della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la varianza del campione.
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
85
Varianza
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica Appello Invernale 2018
Esercizio 10 - Calcolare la varianza della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la varianza campionaria.
s = 37,582
σ =2
21,21
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
La deviazione standard della popolazione si ottiene ponendo sotto radice quadrata la varianza della popolazione.
Ci informa su quanto le osservazioni si discostino dalla media aritmetica: più σ è piccolo, più i dati sono concentrati; più σ è grande, più i dati sono dispersi.
A differenza della varianza, è espressa nella stessa unità di misura dei dati.
86
Deviazione Standard
Deviazione standard
della popolazione
σ =
σ
σ 2
Nota: la deviazione standard è anche nota come “scarto quadratico medio”.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
La deviazione standard del campione si ottiene ponendo sotto radice quadrata la varianza del campione.
Ci informa su quanto le osservazioni si discostino dalla media aritmetica: più s è piccolo, più i dati sono concentrati; più s è grande, più i dati sono dispersi.
A differenza della varianza, è espressa nella stessa unità di misura dei dati.
87
Deviazione standard
del campione
s
Deviazione Standard
Nota: la deviazione standard è anche nota come “scarto quadratico medio”.
s = s 2
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
88
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Esercizio 11 - Calcolare la deviazione standard della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la deviazione standard del campione.
Deviazione Standard
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
89
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica Appello Invernale 2018
s = 6,13
σ = 4,6
Esercizio 11 - Calcolare la deviazione standard della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la deviazione standard del campione.
Deviazione Standard
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
Le distribuzioni simmetriche rispettano la “proprietà degli intervalli tipici”, che consente di determinare la percentuale di osservazioni che cadono tra la media (μ) e k deviazioni standard (σ).
90
Dev. St. e Forma della Distribuzione
μμ-σμ-2σμ-3σ μ+σ μ+2σ μ+3σ
99.7%
95%
68%
0,15% 34% 34% 0,15%13,5% 13,5%2,35% 2,35%
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
91
Dev. St. e Forma della Distribuzione
Le distribuzioni simmetriche rispettano la “proprietà degli intervalli tipici”, che consente di determinare la percentuale di osservazioni che cadono tra la media (μ) e k deviazioni standard (σ).
μμ-σμ-2σμ-3σ μ+σ μ+2σ μ+3σ
99.7%
95%
68%
0,15% 34% 34% 0,15%13,5% 13,5%2,35% 2,35%
• Approssimativamente il 68% delle osservazioni cade tra la media e una deviazione standard, cioè tra μ-σ e μ+σ;
• approssimativamente il 95% delle osservazioni cade tra la media e 2 deviazioni standard dalla media, cioè tra μ-2σ e μ+2σ;
• approssimativamente il 99,7% delle osservazioni cade tra la media e 3 deviazioni standard, cioè tra μ-3σ e μ+3σ.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
92
Dev. St. e Forma della Distribuzione
almeno l’(1- 1 )100% delle osservazioni cade tra la media (μ) e k
deviazioni standard (σ) dalla media, dove k può assumere qualsiasi valore maggiore di 1
Tutte le distribuzioni, invece, rispettano la “disuguaglianza di Chebyshev”, una proprietà indipendentemente dalla forma della distribuzione, secondo la quale:
2k—
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
93
Google Sheets
link: https://docs.google.com/spreadsheets
Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.
Lo utilizziamo per… • calcolare il valore massimo e il valore minimo; • contare il numero di osservazioni. • calcolare le misure di tendenza centrale: media, mediana e moda; • calcolare le misure di dispersione: range, scarto medio assoluto,
varianza della popolazione e del campione, deviazione standard della popolazione e del campione.
Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
94
Microsoft Excel
Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.
Lo utilizziamo per… • calcolare il valore massimo e il valore minimo; • contare il numero di osservazioni. • calcolare le misure di tendenza centrale: media, mediana e moda; • calcolare le misure di dispersione: range, scarto medio assoluto,
varianza della popolazione e del campione, deviazione standard della popolazione e del campione.
link: https://www.office.com/
Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
95
Misure per Dati Raggruppati in Classi
DEVVAR
Varianza della popolazione (σ )
e del campione (s )
Deviazione Standard della popolazione (σ)
e del campione (s)
Per i dati quantitativi abbiamo visto che è possibile creare delle classi di frequenza. In questi casi, il calcolo della media, della varianza e della deviazione standard è leggermente differente. Poiché non è possibile ricavare dati unitari da una distribuzione di frequenza, si parla sempre di misure approssimate.
2
2
M
Media Aritmetica del campione (x) e della
popolazione (μ)
_
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
96
Misure per Dati Raggruppati in Classi
Si assume che ogni classe possa essere sintetizzata da un valore centrale, che si trova sommando l’estremo inferiore di due classi adiacenti e dividendo per 2. Dopodiché si moltiplica il valore centrale per la frequenza della classe, si sommano tutti i risultati e si divide per il totale delle osservazioni.
μ x_
Media Aritmetica della popolazione
Media Aritmetica del campione
x =_∑ xi fi
µ = ∑ xi fi
∑ fi∑ fi
M
Media Aritmetica
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
Altezza (cm) Fq Ass Valore Centrale __
130-139 4 (130+140)/2 = 135 (4)(135) = 540
140-149 6 145 870
150-159 7 155 1085
160-169 6 165 990
170-179 5 175 875
28 4360
97
Misure per Dati Raggruppati in Classi
xi fi
µ =4360
28= 155,71∑ xi fi
∑ fi=
xiM
Media Aritmetica
Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo
Esempio
fi
∑
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
98
Misure per Dati Raggruppati in Classi
Dopo aver calcolato i valori centrali di ciascuna classe e la media, si procede elevando al quadrato la deviazione dalla media di ciascuna classe e moltiplicando per la sua frequenza. Al termine, si sommano tutti i risultati e si si divide per il numero di osservazioni. Nel caso di un campionamento, si divide per il numero di osservazioni - 1.
σ s
Varianza della popolazione
Varianza del campione
VAR
Varianza della popolazione (σ )
e del campione (s )
2
2
∑ (xi − μ)2 fiσ =
∑ fi
2 ∑ (xi − x)2 fis =
(∑ fi) − 1
2-
2 2
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
99
Misure per Dati Raggruppati in Classi
Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo
4781,62
28= 170,77=∑ (xi − μ)2 fi
σ =∑ fi
2
VAR
Varianza della popolazione (σ )
e del campione (s )2
2
Esempio
Altezza (cm)
130-139 4 135 155,71 -20,71 1715,62
140-149 6 145 155,71 -10,71 688,22
150-159 7 155 155,71 -0,28 0,55
160-169 6 165 155,71 9,28 516,71
170-179 5 175 155,71 19,29 1860,52
28 4781,62
xi (xi − μ)2 fixi − μμfi
∑
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
100
Misure per Dati Raggruppati in Classi
La deviazione standard approssimata si ottiene estraendo la radice quadrata della varianza. DEV
Deviazione Standard della popolazione (σ)
e del campione (s)
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
101
20 14 3 23
2 40 23 23
10 18 20 2
1 10 5 4
3 31 4 10
N° di bufale per allevamento italiano al 2019
Esercizio 12 - Raggruppare i seguenti valori in classi di frequenza con ampiezza pari a 10 e stabilire le seguenti misure di sintesi approssimate: media, varianza e deviazione standard.
Misure per Dati Raggruppati in Classi
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
N° Bufale
1-10 11 (1+11)/2 = 6 (6)(11) = 66
11-20 4 16 64
21-30 3 26 78
31-40 2 36 72
20 280
N° di bufale per allevamento italiano al 2019
∑102
Misure per Dati Raggruppati in Classi
40-1
10≈Il numero di classi è pari a 4, infatti 4
xi fi
µ =280
20= 14∑ xi fi
∑ fi=
xifi
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
Esercizio 12 - Raggruppare i seguenti valori in classi di frequenza con ampiezza pari a 10 e stabilire le seguenti misure di sintesi approssimate: media, varianza e deviazione standard.
fi
N° Bufale
1-10 11 6 14 -8 704
11-20 4 16 14 2 16
21-30 3 26 14 12 432
31-40 2 36 14 22 968
20 2120
103
Misure per Dati Raggruppati in Classi
40-1
10≈
N° di bufale per allevamento italiano al 2019
2120
20= 106=∑ (xi − μ)2 fi
σ =∑ fi
2xi − μμxifi
Il numero di classi è pari a 4, infatti 4
(xi − μ)2 fi
= 10,29=σ 2 106σ =
∑
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
Esercizio 12 - Raggruppare i seguenti valori in classi di frequenza con ampiezza pari a 10 e stabilire le seguenti misure di sintesi approssimate: media, varianza e deviazione standard.
104
Google Sheets
link: https://docs.google.com/spreadsheets
Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.
Lo utilizziamo per… • creare una Tabella Pivot per raggruppare i dati in classi di frequenza.
Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
105
Microsoft Excel
Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.
Lo utilizziamo per… • creare una Tabella Pivot per raggruppare i dati in classi di frequenza.link: https://www.office.com/
Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
21
2. Sintetizzare i Dati: Misure di Tendenza Centrale e
Misure di Dispersione
UNITÀ 3
Sintetizzare i Dati: Misure di Posizione Relativa,
Valori Anomali ed Exploratory Data Analysis (EDA)
2 31
107
Misure di Posizione Relativa
QP
Percentili Quartili
Sono misure di sintesi che indicano la posizione relativa assunta da determinati valori di una variabile nella distribuzione.
z
z-score
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
Lo z-score (o punteggio standardizzato) rappresenta la distanza di ciascun valore dalla media in unità di deviazione standard.
È utile per confrontare le posizioni relative di due osservazioni appartenenti a insiemi di dati diversi: se entrambe hanno il medesimo z-score, allora occupano la medesima posizione relativa.
Una volta calcolato lo z-score (x) per una determinata osservazione, si dice che “il valore osservato è minore/maggiore della media di x punti di deviazione standard”. La media degli z-score è sempre pari a 0. Se un valore è maggiore della media il suo z-score sarà positivo; se è inferiore alla media sarà negativo; se, invece, è uguale alla media sarà uguale a 0.
σx − μz =
sz =
popolazione campione
108
z-score
z
x − x
z-score
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
109
z-score
zEsempio Due squadre di baseball, che giocano in due campionati differenti, si sono entrambe posizionate al primo posto. La squadra Blu, appartenente al Campionato A, con un punteggio pari a 968 e la squadra Nera, appartenente al Campionato B, con un punteggio pari a 892. Nel Campionato A μ = 739,9 e σ = 73,5, mentre nel Campionato B μ = 763 e σ = 58,9. Quale squadra ha ottenuto il punteggio relativo migliore?
z-score
Il valore osservato per la squadra Blu è maggiore della media di 2,37 deviazioni standard; mentre quello osservato per la squadra Nera è maggiore della media 2,19 deviazioni standard. Pertanto, la squadra Blu ha ottenuto un punteggio relativo migliore.
= 2,37 = 2,19 892 - 763 58,9
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
z = z = squadra Blu squadra Nera
968 - 793,9 73,5
110
z-score
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Letizia 21 Daniele 22
Francesca 22 Eleonora 21
Sara 19 Fulvio 23
Laura 18 Mattia 22
Martina 22 Romeo 22
Valutazioni dell’esame di Matematica - Appello Estivo 2018
Esercizio 13 - Calcolare lo z-score delle osservazioni evidenziate e stabilire chi ha ottenuto la valutazione relativa migliore.
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
111
z-score
Esercizio 13 - Calcolare lo z-score delle osservazioni evidenziate e stabilire chi ha ottenuto la valutazione relativa migliore.
Valutazioni dell’esame di Matematica Appello Estivo 2018
Valutazioni dell’esame di Matematica Appello Invernale 2018
μ = 22,3 e σ = 4,6
μ = 21,2 e σ = 1,47 = 1,22 23 - 21,2 1,47
= 0,15 23 - 22,3 4,6
z = Fulvio
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
z = Giorgio
Il valore osservato per Giorgio è maggiore della media di 0,15 punti di deviazione standard. Il valore osservato per Fulvio è maggiore della media di 1,22 punti di deviazione standard. Fulvio ha ottenuto la valutazione relativa migliore.
112
Percentili
Il k-esimo percentile (Pk) è quel valore tale per cui il k per cento delle osservazioni cadono al di sotto o sono uguali ad esso.
Consente di avere un’idea di come si posiziona un valore rispetto agli altri appartenenti allo stesso insieme di dati.
La distribuzione può quindi essere ordinata in 100 parti, con 99 Percentili: per esempio, P1 divide la distribuzione tra l’1% e il 99%, P2 tra il 2% e il 98% e così.
Percentili
P
P5 P10 P15 P50
Valore più alto
P95
Me
5% 5% 5% 35% 45% 5%
Valore più basso
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
113
Percentili
Esempio Chiara ha ottenuto all’esame FCE un punteggio di 1710, che occupa il 73-esimo percentile (P73)
Questo significa che il 73% dei punteggi degli altri studenti è inferiore o uguale a 1710, mentre il 27% è superiore, quindi migliore rispetto al punteggio di Chiara.
Percentili
P
P73
Valore più basso Valore più alto
73%1710
27%
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
114
Quartili
I percentili più comuni sono i Quartili, che dividono la distribuzione in quattro parti uguali:
• Q1, che è uguale a P25 e che divide il primo 25% dal restante 75% delle osservazioni; • Q2, che è uguale a P50 e a Me e che divide il primo 50% dal restante 50% delle osservazioni;
• Q3, che è uguale a P75 e che divide il primo 75% dal restante 25% delle osservazioni.
Quartili
Q
P50
Valore più alto
Me
25%
P25 P75
25% 25% 25%
Q1 Q2 Q3
Valore più basso
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
115
Quartili
Per calcolare i quartili si può procede in questo modo:
1. si organizzano i dati in ordine crescente; 2. si determina la mediana Me, pari al secondo quartile Q2; 3. si determinano il primo quartile Q1 e il terzo quartile Q3 calcolando la mediana
della prima metà e della seconda metà delle osservazioni. Quartili
Q
Esempio Osservazioni: 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19.
• organizzo i dati in ordine crescente: 1, 12, 13, 19, 21, 24, 26, 35, 35, 39, 40, 40, 50, 90. • calcolo Me = 30,5 = Q2; • Q1 coincide con la mediana dei valori 1, 12, 13, 19, 21, 24, 26 ed è uguale a 19; mentre Q3 coincide con la mediana dei valori 35, 35, 39, 40, 40, 50, 90 ed è uguale a 40 .
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
116
Quartili
I quartili sono robusti a valori estremi, infatti non variano al variare del valore inferiore e di quello superiore. Dal momento che alcune misure di dispersione come il range e la deviazione standard non lo sono, è possibile utilizzare i quartili per stabilire un’ulteriore misura di dispersione, che si impiega al posto della deviazione standard per la valutazione della variabilità di una distribuzione asimmetrica.
Si tratta dell’Intervallo Interquartile (IQR), cioè quell’intervallo che contiene il 50% delle osservazioni, quelle centrali. Si calcola come la differenza tra il terzo e il primo quartile (Q3 - Q1).
IQR = Q3 - Q1
Quartili
Q
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
117
Esercizio 14 - Calcolare i quartili e l’intervallo interquartile.
Quartili
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica - Appello Invernale 2018
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
118
Quartili
Valutazioni dell’esame di Matematica Appello Invernale 2018
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
• organizzo i dati in ordine crescente: 18, 18, 18, 19, 19, 22, 23, 26, 29, 31; • calcolo Me = 20,5 = Q2; • Q1 coincide con la mediana dei valori 18, 18, 18, 19, 19 ed è uguale a 18; mentre Q3 coincide con la mediana dei valori 22, 23, 26, 29, 31 ed è uguale a 26 .
• l’intervallo interquartile è pari a Q3 - Q1 = 26 - 18 = 8.
Esercizio 14 - Calcolare i quartili e l’intervallo interquartile.
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
119
Valori Anomali
I quartili e l’intervallo interquartile possono essere utili per verificare la presenza dei cosiddetti valori anomali, o outlier, cioè quei valori estremi in una popolazione, molto distanti da quelli che caratterizzano la distribuzione. Si tratta di valori inusuali.
Come si individuano? 1. Si determinano il primo e il terzo quartile; 2. si calcola l’intervallo interquartile; 3. si calcolano il limite inferiore e il limite superiore:
Limite Inferiore = Q1 - 1,5 (IQR)
Limite Superiore = Q3 + 1,5 (IQR)
4. se un’osservazione è più piccola del limite inferiore o più grande di quello superiore, allora viene considerata un outlier.
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
120
Valori Anomali
Esempio Osservazioni: 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19.
• organizzo i dati in ordine crescente: 1, 12, 13, 19, 21, 24, 26, 35, 35, 39, 40, 40, 50, 90;
• calcolo Me = 30,5 = Q2; pertanto Q1 coincide con la mediana dei valori 1, 12, 13, 19, 21, 24, 26 ed è uguale a 19, mentre Q3 coincide con la mediana dei valori 35, 35, 39, 40, 40, 50, 90 ed è uguale a 40;
• l’intervallo interquartile IQR è uguale a Q3 - Q1 = 40 - 19 = 21;
• il limite inferiore è uguale a Q1 - 1,5 (IQR) = 19 - 1,5 (21) = -12, mentre il limite superiore è uguale a Q3 + 1,5 (IQR) = 40 + 1,5(21) = 71,5;
• non sono presenti valori inferiori al limite inferiore ma è presente un valore superiore al limite superiore: 90. Tra le osservazioni, 90 è un outlier.
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
121
Esercizio 15 - Individuare i valori anomali.
Valori Anomali
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica - Appello Invernale 2018
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
122
Esercizio 15 - Individuare i valori anomali.
Valori Anomali
Valutazioni dell’esame di Matematica Appello Invernale 2018
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
• sapendo che l’intervallo interquartile è pari a Q3 - Q1 = 26 - 18 = 8, si calcolano il limite inferiore e quello superiore: Limite inferiore = Q1 - 1,5 (IQR) = 18 - 1,5 (8) = 6 Limite superiore = Q3 + 1,5 (IQR) = 26 + 1,5 (8) = 38
• poiché non esistono valori inferiori a 6 o superiori a 38, non sono presenti valori anomali.
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
123
Exploratory Data Analysis
MINIMO Q1 Me MASSIMOQ3
1 30,5 4019 90
L’Analisi Esplorativa dei Dati (Exploratory Data Analysis) è una tecnica di sintesi dei dati che fa uso di cinque numeri, utili per una descrizione chiara ed efficace di una distribuzione.
In una sintesi dei cinque numeri si impiegano: • il valore minimo; • il primo quartile Q1; • la mediana Me; • il terzo quartile Q3; • il valore massimo.
Osservazioni 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
124
Boxplot
Exploratory Data Analysis
L’Analisi Esplorativa dei Dati consente di rappresentare i dati attraverso il boxplot (anche noto come diagramma a scatola e baffi), un grafico che offre una buona sintesi visiva della distribuzione.
Per la sua realizzazione, è necessario servirsi della sintesi dei cinque numeri per calcolare anche il Limite Inferiore e il Limite Superiore e stabilire gli outlier.
Outlier
IQR
Valore Adiacente a LS
Valore Adiacente a LI
Q1 Me Q3
1 30,5 4019 90
*
Osservazioni 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19
50
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
125
Exploratory Data Analysis
Come si costruisce il boxplot?
Boxplot
Q1 Q3Me
1 30,5 4019
Osservazioni 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19
50 90
*• si traccia il segmento in corrispondenza della mediana Me;
• si calcolano il limite inferiore e il limite superiore e si segnano i valori immediatamente adiacenti;
• si tracciano i baffi, cioè due linee che uniscono gli estremi della scatola ai due valori adiacenti i limiti;
• si usa un asterisco * per segnare gli eventuali outlier.
• si disegna una scatola (box) che ha come estremi il primo quartile Q1 e il terzo quartile Q3. Questo box, la cui ampiezza corrisponde all’intervallo Interquartile, contiene il 50% delle osservazioni (quelle “centrali”);
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
0
0,5
1
1,5
2
126
Exploratory Data Analysis Boxplot e Istogramma
*
1 30,5 4019 50 90
• si traccia il segmento in corrispondenza della mediana Me;
• si calcolano il limite inferiore e il limite superiore e si segnano i valori immediatamente adiacenti;
• si tracciano i baffi, cioè due linee che uniscono gli estremi della scatola ai due valori adiacenti i limiti;
• si usa un asterisco * per segnare gli eventuali outlier.
Come si costruisce il boxplot?• si disegna una scatola (box) che ha come estremi il primo quartile Q1 e il terzo quartile Q3. Questo box, la cui ampiezza corrisponde all’intervallo Interquartile, contiene il 50% delle osservazioni (quelle “centrali”);
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
127
Exploratory Data Analysis
Asimmetria Positiva (o a destra)
Distribuzione Simmetrica Campanulare
Assimetria Negativa (o a sinistra)
MeQ1 Q3 MeQ1 Q3 MeQ1 Q3
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
128
Exploratory Data Analysis
Distribuzione Simmetrica Uniforme
MeQ1 Q3
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
129
Esercizio 16 - Applicare al seguente dataset l’Exploratory Data Analysis (sintesi dei cinque numeri e boxplot).
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica - Appello Invernale 2018
Exploratory Data Analysis
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
130
Esercizio 16 - Applicare al seguente dataset l’Exploratory Data Analysis (sintesi dei cinque numeri e boxplot).
Exploratory Data Analysis
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica Appello Invernale 2018
Sintesi dei cinque numeri • nei precedenti esercizi sono già stati calcolati: Me = 20,5; Q1 = 18 e Q3 = 26;
• non resta che aggiungere il valore minimo, cioè 18 e quello massimo, cioè 31.
MINIMOQ1
Me MASSIMOQ3
18 20,5 26 31
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
…
Boxplot • calcolo il Limite inferiore = Q1 - 1,5 (IQR) = 18 - 1,5 (8) = 6 e il Limite superiore = Q3 + 1,5 (IQR) = 26 + 1,5 (8) = 38. Non ci sono outlier e i valori adiacenti sono 18 e 31.
131
Esercizio 16 - Applicare al seguente dataset l’Exploratory Data Analysis (sintesi dei cinque numeri e boxplot).
Exploratory Data Analysis
Simone 22 Giorgio 23
Stefania 19 Diego 31
Marco 18 Rosa 19
Matteo 18 Romina 18
Alice 29 Francesco 26
Valutazioni dell’esame di Matematica Appello Invernale 2018 MINIMO Q1 Me MASSIMOQ3
18 20,5 26 31
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
…
132
Descrivere la Distribuzione
Come posso descrivere i valori di un insieme di dati quantitativi quanto imparato in queste due unità?
Organizzazione e Rappresentazione Organizzo i dati in tabella con le rispettive frequenze assolute e relative (applicando, se comodo o richiesto le classi di frequenza), poi li rappresento attraverso un istogramma per osservare la forma della distribuzione.
Sintesi Misure di Tendenza Centrale In caso di simmetria, mi è suffi ciente calcolare la media. Altrimenti, calcolo la mediana.
Misure di Dispersione In caso di simmetria, calcolo la deviazione standard. Altrimenti, calcolo l’intervallo interquartile. Misure di Posizione Svolgo la sintesi dei cinque numeri e costruisco il boxplot, sovrapponendolo all’istogramma.
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
133
Google Sheets
link: https://docs.google.com/spreadsheets
Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.
Lo utilizziamo per… • calcolare lo z-score, i quartili e l’intervallo interquartile.
Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
134
Microsoft Excel
Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.
Lo utilizziamo per… • calcolare lo z-score, i quartili e l’intervallo interquartile.link: https://www.office.com/
Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
135
BoxplotR
Cosa è? È un software web-based per la rappresentazione di dati attraverso i boxplot.
Lo utilizziamo per… • generare un boxplot a partire da un dataset.link: http://shiny.chemgrid.org/boxplotr/
Nota: durante la lezione abbiamo visto come utilizzare BloxplotR per svolgere quanto indicato. Se incontri diffi coltà, contatta il docente.
2 31
3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed
Exploratory Data Analysis (EDA)
UNITÀ 4
Descrivere la Relazione tra Due Variabili:
il Grafico a Dispersione e il Coefficiente di Correlazione Lineare
2 3 41
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
Raccogliere Organizzare Sintetizzare AnalizzareIdentificare una domanda
Trarre Conclusioni
L’Indagine Statistica
137
Correlazione (Grafico a dispersione e
Coefficiente di correlazione lineare)
Analisi Bivariata
Previsione (Regressione ai minimi quadrati)
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
138
Analisi Bivariata
Finora abbiamo svolto un’analisi monovariata, cioè ci siamo soffermati sull’osservazione di una sola variabile. L’analisi bivariata è utile per descrivere la relazione tra due variabili quantitative indagate sulle medesime unità statistiche, con l’obiettivo di correrarle (analizzarne la relazione) e di utilizzare i valori di una per predire quelli dell’altra.
Nell’analisi bivariata, la variabile che viene utilizzata come predittore è definita variabile indipendente (o esplicativa), mentre quella che viene predetta è definita variabile dipendente (o risposta).
Esempio Voglio analizzare la relazione tra l'estensione del terreno destinato all’allevamento (espresso in ettari) e il numero di capi bestiame ivi ospitati. In seguito, voglio vedere se è possibile usare una delle due variabili per prevedere i valori dell’altra.
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
139
Soffermiamoci innanzitutto sulla correlazione.
La relazione tra variabili quantitative rilevate sulle medesime unità statistiche può essere messa in evidenza attraverso un’opportuna rappresentazione grafica: il grafico a dispersione, anche noto come scatter plot.
La variabile indipendente viene posta sull’asse delle ascisse (x), mentre la variabile dipendente sull’asse delle ordinate (y). Ogni unità statistica corrisponde a un punto di coordinate x, y.
Vari
abile
dip
ende
nte
250
255
260
265
270
275
280
Variabile indipendente
98 99 100 101 102 103 104 105
Grafico a Dispersione
Grafico a Dispersione
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
140
Variabile Indipendente (x)
Estensione Terreno (ha)
100 102 103 101 105 100 99 105
Variabile Dipendente (y)
Numero di Capi Bestiame
257 264 274 266 277 263 258 275
Vari
abile
dip
ende
nte
250
255
260
265
270
275
280
Variabile indipendente
98 99 100 101 102 103 104 105
Dal grafico si può dedurre che all’aumentare dell’estensione del terreno destinato all’allevamento (variabile indipendente), aumenta anche il numero di capi bestiame (variabile dipendente). Esiste, cioè, una relazione lineare positiva e le due variabili si dicono concordanti.
Grafico a Dispersione Grafico a Dispersione
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
Variabile Indipendente (x)
Estensione Terreno (ha)
100 102 103 101 105 100 99 105
Variabile Dipendente (y)
Numero di Capi Bestiame
277 266 263 264 257 274 275 258
141
Vari
abile
dip
ende
nte
250
255
260
265
270
275
280
Variabile indipendente
98 99 100 101 102 103 104 105
Se, invece, dal grafico a dispersione avessimo dedotto che all’aumentare dell’estensione del terreno destinato all’allevamento (variabile indipendente), fosse diminuito il numero di capi bestiame (variabile dipendente), avremmo avuto una relazione lineare negativa e le due variabili sarebbero state definite discordanti.
Grafico a Dispersione Grafico a Dispersione
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
142
Tra le due variabili intercorre una relazione lineare positiva: all’aumentare (o al diminuire) dei valori di una variabile, aumentano (o diminuiscono) anche i valori dell’altra.
Le due variabili si muovono nella stessa direzione e sono dette concordanti: ai valori superiori alla media di una variabile corrispondono valori superiori alla media dell’altra variabile, oppure ai valori inferiori alla media di una variabile corrispondono valori inferiori alla media dell’altra variabile.
Grafico a Dispersione
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
Variabile indipendente
Vari
abile
dip
ende
nte
143
Tra le due variabili intercorre una relazione lineare negativa: all’aumentare dei valori di una, diminuiscono i valori dell’altra.
Le due variabili non si muovono nella stessa direzione e sono dette discordanti: in quanto ai valori superiori alla media di una variabile corrispondono valori inferiori alla media dell’altra variabile, oppure se ai valori inferiori alla media di una variabile corrispondono valori superiori alla media dell’altra variabile.
Grafico a Dispersione
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
Variabile indipendente
Vari
abile
dip
ende
nte
144
Variabile indipendente
Vari
abile
dip
ende
nte
In una situazione del genere, invece, non esiste alcuna relazione.
Questo significa che le due variabili sono indipendenti tra loro. Se una aumenta, l’altra può aumentare o diminuire.
Grafico a Dispersione
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
145
Variabile indipendente
Vari
abile
dip
ende
nte
In questi casi esiste una relaziona ma non è lineare.
Variabile indipendente
Vari
abile
dip
ende
nte
Grafico a Dispersione
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
146
Limiti del Grafico a Dispersione
Il grafico a dispersione informa soprattutto sulla forma e sulla direzione della relazione della variabile ma non sulla sua intensità, cioè su quanto sia effettivamente forte.
Inoltre, come visibile nella figura di fianco, può essere facilmente manipolato, per esempio cambiando la scala numerica. Pertanto, può risultare forviante per un’interpretazione corretta.
Grafico a Dispersione
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
Vari
abile
dip
ende
nte
1
51
101
151
200
250
300
Variabile indipendente
90 94 98 102 106 110
147
Coefficiente di Correlazione Lineare
Coefficiente di Correlazione Lineare della popolazione (ρ)
o del campione (r)
Per i motivi appena addotti, si preferisce stabilire l’esistenza della relazione tra due variabili, attraverso una misura di sintesi numerica adatta ai dati bivariati.
Il coefficiente di correlazione lineare, noto anche come coefficiente di correlazione di prodotto-momento di Pearson, è una misura dell’intensità e della relazione esistente tra due variabili quantitative.
Il suo valore varia sempre tra -1 e 1, estremi inclusi. Non è una misura robusta.
=∑ ( xi − x
sx)( yi − y
sy)
n − 1=
∑ ( xi − μx
σx)(
yi − μy
σy)
Nρ r
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
ρ r
Nota: ovviamente e( xi − μx
σx)(
yi − μy
σy) = zxzy ( xi − x
sx)( yi − y
sy) = zxzy
148
Coefficiente di Correlazione Lineare
Valore Relazione
= +1 perfetta relazione lineare positiva (concordanza)
= -1 perfetta relazione lineare negativa (discordanza)
più si avvicina a +1 più si avvicina, più è forte la concordanza
più si avvicina a -1 più si avvicina, più è forte la discordanza
più si avvicina a 0 più si avvicina, più la relazione lineare è debole
= 0 non esiste relazione lineare
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
Coefficiente di Correlazione Lineare della popolazione (ρ)
o del campione (r)
ρ r
149
Coefficiente di Correlazione Lineare
ρ = 1 ρ vicino a 1 ρ = -1
ρ vicino a -1 ρ vicino a 0 ρ vicino a 0
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
Coefficiente di Correlazione Lineare della popolazione (ρ)
o del campione (r)
ρ r
150
Coefficiente di Correlazione Lineare
Come si calcola?
1. si calcolano la media e le deviazioni standard di ciascuna variabile; 2. si calcola lo z-score di ogni osservazione per ciascuna variabile; 3. si calcola il prodotto tra i due z-score di ciascuna osservazione; 4. si sommano i prodotti e si divide per il numero delle osservazioni nel caso si consideri
la popolazione, o per il numero di osservazioni - 1 nel caso si consideri un campione.
=∑ ( xi − x
sx)( yi − y
sy)
n − 1=
∑ ( xi − μx
σx)(
yi − μy
σy)
Nρ r
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
Coefficiente di Correlazione Lineare della popolazione (ρ)
o del campione (r)
ρ r
151
Coefficiente di Correlazione Lineare
Nel caso in cui si stiano confrontando due campioni, è opportuno confrontare il coefficiente di correlazione lineare con il valore critico, così da poter affermare con sicurezza l’esistenza di una relazione lineare tra le due variabili.
Se il valore assoluto del coefficiente di correlazione lineare è maggiore del valore critico, la relazione lineare esiste. È possibile trovare i valori critici nell’Appendice (Tabella II, p. 351) del libro di testo consigliato o qui.
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
Coefficiente di Correlazione Lineare della popolazione (ρ)
o del campione (r)
ρ r
Dimensione Terreno (ha)
Numero di Capi Bestiame
1 100 2572 102 2643 103 2744 101 2665 105 2776 100 2637 99 2588 105 275
152
Coefficiente di Correlazione Lineare
yi − μy
σy( xi − μx
σx)(
yi − μy
σy)xi − μx
σx
yx
Esempio guidato Calcolo le medie le e deviazioni standard:
=∑ ( xi − μx
σx)(
yi − μy
σy)
N=ρ
∑
μ σμ σyx
=
La relazione è __________ (+ ) ed è ______________.
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
Nota: in questo caso stiamo considerando le due variabili come se fossero delle popolazioni (v. simboli greci).
Dimensione Terreno (ha)
Numero di Capi Bestiame
1 100 257 -0,87 -1,34 1,162 102 264 0,05 -0,37 -0,013 103 274 0,52 1 0,524 101 266 -0,4 -0,1 0,045 105 277 1,45 1,41 2,046 100 263 -0,87 -0,51 0,447 99 258 -1,33 -1,2 1,598 105 275 1,45 1,14 1,65
7,43153
Coefficiente di Correlazione Lineare
yx= 101, 87 = 266,75Esempio Calcolo medie e deviazioni standard: = 2,15 = 7,24
=∑ ( xi − μx
σx)(
yi − μy
σy)
N=ρ
μ σμ σyx
7,43
80,93=
La relazione è positiva (+0,86) ed è molto forte.
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
∑
yi − μy
σy( xi − μx
σx)(
yi − μy
σy)xi − μx
σx
154
Simone Stefania Marco Matteo Alice Giorgio Diego Rosa Romina Francesco
Voto Matematica
(Scuola) 7 8 8 9 7 6 6 7 10 7
Esame di Matematica
(Uni)22 19 18 18 29 23 31 19 18 26
Esercizio 17 - Stabilire la relazione tra le seguenti variabili attraverso il grafico a dispersione e il coefficiente di correlazione lineare, impiegando come variabile indipendente il voto di matematica dell’ultimo scrutinio scolastico.
Correlazione
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
155
Vari
abile
dip
ende
nte
15
18
20
23
26
28
31
Variabile indipendente
5 6 7 8 9 10
Dal grafico si può dedurre che all’aumentare del voto di matematica dell’ultimo scrutinio scolastico (variabile indipendente), diminuisce il voto dell’esame di matematica sostenuto all’università (variabile dipendente). Esiste, cioè, una relazione lineare negativa e le due variabili si dicono discordanti.
L’intensità e la direzione sono confermate dal coefficiente di correlazione lineare, positivo: . Possiamo affermare che la discordanza è forte.
ρ = -0,69
Correlazione
Esercizio 17 - Stabilire la relazione tra le seguenti variabili attraverso il grafico a dispersione e il coefficiente di correlazione lineare, impiegando come variabile indipendente il voto di matematica dell’ultimo scrutinio scolastico.
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
156
Google Sheets
link: https://docs.google.com/spreadsheets
Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.
Lo utilizziamo per… • realizzare un grafico a dispersione; • calcolare il coefficiente di correlazione.
Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
157
Microsoft Excel
Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.
Lo utilizziamo per… • realizzare un grafico a dispersione; • calcolare il coefficiente di correlazione.
link: https://www.office.com/
Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il
Coefficiente di Correlazione Lineare
42 31
UNITÀ 5
Descrivere la Relazione tra Due Variabili:
la Regressione ai Minimi Quadrati
2 3 41 5
5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati
159
Analisi Bivariata
Dopo aver indagato la correlazione, passiamo all’impiego della variabile indipendente per predire i valori della variabile dipendente.
Parleremo di regressione ai minimi quadrati: tra poco vediamo il perché.
Esempio Dopo aver analizzato la relazione tra l’estensione del terreno destinato all’allevamento (espresso in ettari) e il numero di capi bestiame ivi ospitati, voglio vedere se è possibile usare i valori dell'ampiezza del terreno (variabile indipendente) per prevedere i valori del numero di capi bestiame (variabile dipendente).
4 52 31
5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati
Vari
abile
dip
ende
nte
250
255
260
265
270
275
280
Variabile indipendente
98 99 100 101 102 103 104 105
160
Regressione ai Minimi Quadrati
Se il grafico a dispersione e il coefficiente di correlazione lineare ci dicono che esiste una relazione lineare tra le due variabili, è possibile trovare un’equazione lineare che esprima tale relazione. L’equazione si esprime nella forma y = mx + b dove m è il coefficiente angolare (che esprime la pendenza) e b l’intercetta (cioè l’ordinata del punto di intersezione della retta con l’asse y). Se, una volta trovata l’equazione, sostituiamo a x (variabile indipendente) un qualsiasi valore, è possibile prevedere il corrispettivo valore di y (variabile dipendente).
Nota: non si richiede di conoscere il procedimento per calcolare la retta.
4 52 31
5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati
161
Regressione ai Minimi Quadrati
Relativamente alle variabili usate come esempio (estensione del terreno e numero di capi bestiame ivi contenuto), possiamo tracciare una retta a partire da due punti del grafico a dispersione. Prendiamo (99, 258) come (x1, y1) e (105, 275) come (x2, y2).
La nostra retta avrà equazione y = 2.8333x - 22.4967, dove 2.8333 è il coefficiente angolare e -22.4967 è l’intercetta.
Come accennato prima, possiamo sostituire a x un valore della variabile indipendente, ottenendo così il valore previsto per la variabile dipendente (y). Per esempio, sostituendo x con 104, otteniamo y = 272.2.
Vari
abile
dip
ende
nte
250
255
260
265
270
275
280
Variabile indipendente
98 99 100 101 102 103 104 105
y = 2.8333x - 22.4967
272,2
4 52 31
5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati
Nota: una volta trovato m = , è possibile trovare l’equazione della retta con la “formula del punto-coeffi ciente angolare”: y2 − y1x2 − x1
y − y1 = m(x − x1)
Vari
abile
dip
ende
nte
250
255
260
265
270
275
280
Variabile indipendente
98 99 100 101 102 103 104 105
162
Regressione ai Minimi Quadrati
Proviamo a impiegare l’equazione per prevedere un valore già osservato.
Sostituiamo a x 103, un valore della variabile indipendente appartenente al nostro dataset. Otteniamo per la variabile dipendente 269,3 e non 274 come il valore osservato. Si verifica un errore (o residuo), calcolato come la differenza tra il valore osservato y e il valore previsto ŷ pari a 4,7.
y - ŷ = 274 - 269,3 = 4,7
y = 2.8333x - 22.4967
269,3
274
4 52 31
5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati
163
Regressione ai Minimi Quadrati
Tuttavia, esiste una retta che minimizza la somma dei quadrati dei residui, cioè delle distanze tra i valori osservati (y) e quelli previsti dalla retta (ŷ). Si tratta della retta di regressione (o retta ai minimi quadrati): è lei che descrive nel modo migliore la relazione tra la variabile indipendente e la variabile dipendente, consentendo di prevedere al meglio i valori della seconda.
La sua equazione è dove è il coefficiente angolare e l’intercetta, calcolati rispettivamente come e
Vari
abile
dip
ende
nte
250
255
260
265
270
275
280
Variabile indipendente
98 99 100 101 102 103 104 105y = b1 + b0 b1 b0
Nota: non si richiede di conoscere il procedimento per calcolare la retta di regressione.
4 52 31
5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati
y = b1 + b0
rsx
syy = b1 − b1x
164
Regressione ai Minimi Quadrati
Nel nostro caso, la retta di regressione è pari a ŷ = 3.1661x-55.7964.
Sostituendo a x un valore della variabile indipendente per prevedere quello della variabile dipendente (y), otteniamo la stima migliore.
Facciamo una prova, usando i valori già osservati impiegati in precedenza: sostiuendo a x 103, otteniamo 270.3, con un residuo pari a 3.7, minore rispetto a quello dell’equazione precedente (4,7). Va
riab
ile d
ipen
dent
e
250
255
260
265
270
275
280
Variabile indipendente
98 99 100 101 102 103 104 105
270,3
274
ŷ = 3.1661x-55.7964
4 52 31
5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati
165
Il calcolo della retta di regressione è sempre accompagnato dal coefficiente di determinazione , che misura la proporzione di variabilità totale della variabile dipendente y effettivamente spiegata dalla retta di regressione.
Espresso in valore percentuale, decresce al diminuire della capacità esplicativa della retta e ci dice, fondamentalmente, quanto la retta preveda “bene” il valore della variabile dipendente.
es. = 99% significa che il 99% della variabilità di y è spiegato dalla retta ai minimi quadrati; = 9.4% spiega che il 9.4% della variabilità di y è spiegato dalla retta ai minimi quadrati.
R2
R2R2
Regressione ai Minimi Quadrati
Nota: non si richiede di conoscere il procedimento per calcolare il coeffi ciente di determinazione.
4 52 31
5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati
UNITÀ 6
Automatizzare l’Analisi dei Dati attraverso le Macro
2 3 41 5 6
6. Automatizzare la Descrizione dei Dati attraverso le Macro
Visual Basic for Applications (VBA) è un linguaggio di programmazione appartenente alla famiglia del Visual Basic che opera nell’ambito delle applicazioni della suite Microsoft Office, in particolare Excel.
Questo significa che può essere impiegato con l’obiettivo di scrivere dei programmi (script) in grado di estendere le funzionalità di Office.
VBA è un linguaggio di programmazione ad eventi che segue, almeno in parte, i principi della programmazione orientata agli oggetti: il suo codice viene eseguito (azione) quando l’utente “fa qualcosa” (evento), come cliccare su di un pulsante, scrivere in una cella del foglio di calcolo, muoversi da una cella all’altra (oggetti).
Visual Basic for Applications
167
2 3 41 5 6
6. Automatizzare la Descrizione dei Dati attraverso le Macro
VBA può essere impiegato per:
1. automatizzare attività operative e decisionali, allo scopo di facilitare il lavoro dell’utente;
2. realizzare nuovi strumenti di elaborazione per l’ambiente di lavoro, come, nel caso di Excel, nuove funzioni che eseguono calcoli specifici e personalizzati;
3. realizzare nuovi strumenti di gestione per l’ambiente di lavoro, per esempio finestre di dialogo personalizzate, o applicativi più evoluti.
Visual Basic for Applications
168
2 3 41 5 6
6. Automatizzare la Descrizione dei Dati attraverso le Macro
Microsoft Excel e le Macro
169
Non ci occupiamo di scrivere codice in VBA ma utilizziamo uno strumento utile per generarlo automaticamente all’interno di Excel.
Si tratta della cosiddetta macro, un'azione o un insieme di azioni che è possibile eseguire per un numero illimitato di volte. Quando si crea, il software registra i clic del mouse e le sequenze di tasti e trasforma le istruzioni in codice VBA, così da poterlo leggere e modificare in seguito.
Le macro consentono di automatizzare specifiche azioni di elaborazione all’interno dell’ambiente di lavoro.
2 3 41 5 6
6. Automatizzare la Descrizione dei Dati attraverso le Macro
170
Microsoft Excel
Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.
Lo utilizziamo per… • registrare una macro; • impiegare la funzione SE.
link: https://www.office.com/
Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
2 3 41 5 6
6. Automatizzare la Descrizione dei Dati attraverso le Macro
Non è possibile impiegare VBA all’interno degli strumenti della Google Suite. Tuttavia, Google ha di recente sviluppato un apposito linguaggio di scripting, denominato Apps Script, basato sul linguaggio di programmazione JavaScript.
È possibile scrivere codice in Apps Script attraverso l'editor online disponibile all’indirizzo (https://script.google.com/). Le sue funzionalità non sono limitate agli strumenti “di elaborazione”, come Google Docs, Google Sheets o Google Slide: Apps Script può essere impiegato anche all’interno di altri servizi di produttività, come Google Forms, Gmail, Google Calendar, Google Maps o Youtube.
Google Apps Script
171
2 3 41 5 6
6. Automatizzare la Descrizione dei Dati attraverso le Macro
Apps Script può rivelarsi utile per:
1. automatizzare attività operative e decisionali, allo scopo di facilitare il lavoro dell’utente;
2. creare componenti aggiuntivi (add-ons) per estendere le funzionalità degli strumenti della Google Suite, anche facendoli interagire tra loro (es. importare automaticamente dati per Google Sheets direttamente da Gmail);
3. realizzare vere e proprie applicazioni basate su browser (web-app), autonome o incorporate in Google Sites;
Google Apps Script
172Nota: un buon modo per imparare a sfruttare le potenzialità di Apps Script è quello di svolgere le attività del programma Google Applied Digital Skills, che mostrano passo passo in che modo scrivere codice per estendere e utilizzare in maniera integrata gli strumenti della Google Suite. Clicca qui.
2 3 41 5 6
6. Automatizzare la Descrizione dei Dati attraverso le Macro
Google Sheets e le Macro
173
Le macro possono essere registrare anche all'interno di Google Sheets: le loro istruzioni non vengono convertite in VBA ma in Apps Script.
Sebbene il loro linguaggio sia differente, la registrazione, la modifica e l’impiego sono molto simili alle macro in VBA.
2 3 41 5 6
6. Automatizzare la Descrizione dei Dati attraverso le Macro
174
Google Sheets
link: https://docs.google.com/spreadsheets
Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.
Lo utilizziamo per… • registrare una macro; • impiegare la funzione SE.
Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.
2 3 41 5 6
6. Automatizzare la Descrizione dei Dati attraverso le Macro
Salvaggio, A. (2016) Excel 2016 - Macro e VBA. Edizioni Lswr; Sullivan III, M. (2011) Fondamenti di Statistica. Parte II: pp. 32-127, Pearson.
Bibliografia
175