Download - Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Modulo 3 - Raccontare la Realtà con la Statistica Descrittiva Conoscenze Informatiche e Telematiche - 6CFU a.a. 2019/20 prof. Alessandro Iannella

Queste Slide3 Quesiti (domande o esercizi) 1 pt. ciascuno

Suff.: 1,8/3

Sullivan III, M. (2011) Fondamenti di Statistica. Parte II: pp. 32-127,

PearsonCosa studiare? L’esame

Informazioni sul Modulo

i dataset impiegati nelle slide sono proposti a titolo esemplificativo e possono essere frutto della fantasia dell’autore.

*

*

Organizzare i Dati1

Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed EDA3

Sintetizzare i Dati: Misure di Tendenza Centrale e Misure di Dispersione2

Descrivere la Relazione tra Due Variabili: Diagrammi di Dispersione e Coefficiente di Correlazione Lineare

4

5

Indice del Modulo

Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati 6 Automatizzare l’Analisi dei Dati

attraverso le Macro

UNITÀ 1

Organizzare i Dati

1

Raccogliere Organizzare Sintetizzare AnalizzareIdentificare una domanda

Trarre Conclusioni

Strutturare i Dati in Tabelle (dataset)

Rappresentare i Dati attraverso i Grafici

L’Indagine Statistica

5

1. Organizzare i Dati

1

Concetti Utili

6

Quantitative Qualitative (o Categoriali o Mutabili)

Il dato/modalità è un numero

Il dato/modalità è un attributo/etichetta/nome/categoria

Variabili

Dati quantitativi Dati qualitativi


1

Organizzare i Dati Qualitativi

7

Frequenza Assoluta Frequenza Relativa

(21/150)*100%

100%

Tipologia di Analisi

Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%

Totale

Frequenza RelativaFrequenza Assoluta

150 100%

N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018

Mod

alit

àVa

riab

ile


1


8

Una volta raccolte informazioni di tipo qualitativo è utile innanzitutto determinare quante volte ricorre ciascuna modalità. Si realizza quindi un dataset utile per analizzare la distribuzione delle unità statistiche.

1. Distribuzione di frequenze assolute Elenca tutte le modalità riportando, per ciascuna di esse, il corrispondente numero di occorrenze osservate.

2. Distribuzione di frequenze relative Elenca tutte le modalità riportando, per ciascuna di esse, la frequenza relativa, cioè la proporzione di osservazioni appartenenti a una determinata modalità rispetto al totale delle osservazioni.

Frequenza assoluta Somma totale delle frequenze assolute

Frequenza relativa = Valore espresso in

decimali o in percentuale


1

9Fr

eque

nza

Ass

olut

a

0

15

30

45

60


Emogramma

Creatin

inaUre

a

Glucosio

Albumina

Colestero

lo

Organizzare i Dati Qualitativi Grafico a Barre Verticali

Tipologia di Analisi Fq Ass Fq Rel

Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%



1

10

Freq

uenz

a Re

lati

va

0%

25%

50%

75%

100%


Emogramma

Creatin

inaUre

a

Glucosio

Albumina

Colestero

lo

Organizzare i Dati Qualitativi Grafico a Barre Verticali


Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%



1

11



Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%

Grafico a Barre Orizzontali

Tipo

logi

a di

Ana

lisi

Emogramma

Creatin

ina

Urea

Glucosio

Albumina

Colestero

lo

Frequenza Assoluta

0 15 30 45 60N° analisi di laboratorio richieste in ambito veterinario (cane, gatto e cavallo) per tipologia nel trimestre ottobre-dicembre 2018


1

12

Organizzare i Dati Qualitativi Grafico a Barre Orizzontali

Tipo

logi

a di

Ana

lisi

Emogramma

Creatin

ina

Urea

Glucosio

Albumina

Colestero

lo

Frequenza Relativa

0% 25% 50% 75% 100%


Emogramma 21 14%

Creatinina 30 20%

Urea 21 14%

Glucosio 57 38%

Albumina 6 4%

Colesterolo 15 10%



1

13


10%

4%

38%

14%

20%

14%EmogrammaCreatininaUreaGlucosioAlbuminaColesterolo

Grafico a Torta

Tipologia di Analisi Fq Rel

Emogramma 14%

Creatinina 20%

Urea 14%

Glucosio 38%

Albumina 4%

Colesterolo 10%



1

14


Principale Attività delle Imprese Agricole Lombarde Freq Ass 2008 Freq Ass 2018

Coltivazione del fondo 50 60

Selvicoltura 54 25

Allevamento 67 34

Altre attività 24 63

Totale 195 182

Confronto tra le principali attività agricole lombarde per numero di imprese nel 2008 e nel 2018


1

15


Principale Attività delle Imprese Agricole Lombarde Freq Ass 2008 Freq Rel 2008 Freq Ass 2018 Freq Rel 2018

Coltivazione del fondo 50 25,6% 60 33%

Selvicoltura 54 27,7% 25 13,7%

Allevamento 67 34,4% 34 18,7%

Altre attività 24 12,3% 63 34,6%

Totale 195 100% 182 100%



1

16

Organizzare i Dati Qualitativi Grafico a Barre Affiancate

Freq

uenz

a Re

lati

va

0%

10%

20%

30%

40%


Coltivazione del fondo Selvicoltura Allevamento Altre Attività

Fq Rel 2008 Fq Rel 2018Attività Fq Rel 2008 Fq Rel 2018

Coltivazione del fondo 25,6% 33%

Selvicoltura 27,7% 13,7%

Allevamento 34,4% 18,7%

Altre attività 12,3% 34,6%



1

17

Organizzare i Dati Quantitativi

L’organizzazione dei dati quantitativi cambia a seconda che i dati siano discreti o continui:

1. Dati discreti Si opera come per i dati qualitativi.

2. Dati continui Si procede raggruppando le modalità in intervalli o classi.

Qualora i dati discreti presentino un numero elevato di modalità si opera come per i dati continui.


1

18

Organizzare i Dati Quantitativi Discreti

Numero di camere Frequenza Assoluta Frequenza Relativa

1 2 5,9%2 0 0%3 4 11,8%4 4 11,8%5 5 14,7%6 5 14,7%7 2 5,9%8 6 17,6%9 3 8,8%

10 3 8,8%Totale 14 100%

Numero di camere per agriturismo in Valle Camonica


1

19

Istogramma

Freq

uenz

a A

ssol

uta

0

1,5

3

4,5

6

Numero di Camere

1 2 3 4 5 6 7 8 9 10

Numero di Camere Fq Ass Fq Rel1 2 5,9%2 0 0%3 4 11,8%4 4 11,8%5 5 14,7%6 5 14,7%7 2 5,9%8 6 17,6%9 3 8,8%

10 3 8,8%

Organizzare i Dati Quantitativi Discreti

Numero di camere per agriturismo in Valle Camonica


1

Superficie Agricola per Allevamento (m²) Frequenza Assoluta

0-5000 3

5001-10000 4

10001-15000 5

15001-20000 10

20001-25000 15

Organizzare i Dati Quantitativi ContinuiCl

assi

di F

requ

enze

Estensione della superficie agricola destinata all’allevamento delle imprese agricole italiane

20


1

21

Organizzare i Dati Quantitativi Continui

Superficie Agricola per Allevamento (m²) Frequenza Assoluta

0-5000 3

5001-10000 4

10001-15000 5

15001-20000 10

20001-25000 15

25001 e oltre 1

Tabella Aperta

Clas

si d

i Fre

quen

ze


Si parla di tabella aperta quando non viene fissato il limite inferiore della prima classe o il limite superiore dell’ultima classe.


1

22

Dati Quantitativi e Classi di Frequenze

0-5000

5001-10000

Limite Inferiore di Classe Limite Superiore di Classe

Ampiezza di Classe (Lim Inf Cl B - Lim Inf Cl A)


1

23

Non esistono regole fisse per stabilire l’ampiezza e il numero delle classi di frequenze: è fondamentale scegliere ciò che ci sembra sintetizzare nel miglior modo le osservazioni disponibili così da identificare particolari e interessanti caratteristiche dei dati.

Si cerca in genere di avere un numero di classi compreso tra 5 e 20: più il dataset è grande più il numero di classi può essere elevato.

Bisogna sempre ricordare che un numero esiguo di classi crea un effetto di affollamento dei dati, mentre un numero elevato di classi origina un effetto di dispersione.



1

24

Alcune indicazioni utili per determinare il limite inferiore della prima classe e l’ampiezza di classe:

• scegliere come limite inferiore della prima classe l’osservazione più piccola o un intero inferiore a questa più vicino;

• decidere il numero di classi, regolandosi a seconda della grandezza del dataset;

• determinare l’ampiezza di classe calcolando e successivamente arrotondando:

Valore più elevato del dataset - Valore più piccolo del dataset Numero delle classi

Ampiezza di classe ≈



1

25

Istogramma

Freq

uenz

a A

ssol

uta

0

4

8

12

16

Superficie Agricola per Allevamento (m²)

+250002000015000100005000


Superficie Agricola per Allevamento (m²) Fq Ass Fq Rel

0-5000 3 7,9%

5001-10000 4 10,5%

10001-15000 5 13,2%

15001-20000 10 26,3%

20001-25000 15 39,5%

25001 e oltre 1 2,6%



1

26

Istogramma

Freq

uenz

a Re

lati

va

0%

25%

50%

75%

100%

Superficie Agricola per Allevamento (m²)

+250002000015000100005000


Superficie Agricola per Allevamento (m²) Fq Ass Fq Rel

0-5000 3 7,9%

5001-10000 4 10,5%

10001-15000 5 13,2%

15001-20000 10 26,3%

20001-25000 15 39,5%

25001 e oltre 1 2,6%



1

Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza.

27

9000 2536 9785 2323

2234 5345 9002 900

7840 1112 24023 1003

10500 12412 28000 4323

300 2223 7653 10394

19583 21049 10003 18293

90 4532 4532 1000

28000 - 90 8

3500 ≈

Ampiezza di Classe

N° di abitanti dei vari comuni della Valle Camonica



1

28Fr

eque

nza

Ass

olut

a

0

2,5

5

7,5

10

N° Abitanti

280002450021000175001400010500700035000



N° Abitanti Fq Ass Fq Rel1-3500 10 35,7%

3501-7000 4 14,3%7001-10500 8 28,6%

10501-14000 1 3,6%

14001-17500 0 0%

17501-21000 2 7,1%

21001-24500 2 7,1%

24501-28000 1 3,6%



1

29

280002450021000175001400010500700035000



Freq

uenz

a Re

lati

va

0%

25%

50%

75%

100%

N° Abitanti

N° Abitanti Fq Ass Fq Rel1-3500 10 35,7%

3501-7000 4 14,3%7001-10500 8 28,6%

10501-14000 1 3,6%

14001-17500 0 0%

17501-21000 2 7,1%

21001-24500 2 7,1%

24501-28000 1 3,6%



1

Esercizio 1 - Organizzare i seguenti dati in una tabella con classi di frequenza di ampiezza 10.

30


155 134 162 174

163 148 158 131

142 154 159 176

166 179 136 145

151 131 173 178

149 167 160 157

140 152 165 143

179 - 131 10

5 ≈

Numero di classi

Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo


1

31



Freq

uenz

a A

ssol

uta

0

1,75

3,5

5,25

7

Altezza (cm)

180170160150130 140Altezza (cm) dei bambini della classe 4A della scuola elementare di Edolo

Altezza (cm) Fq Ass Fq Rel

130-139 4 14,3%

140-149 6 21,4%

150-159 7 25%

160-169 6 21,4%

170-179 5 17,9%


1

32



Altezza (cm) Fq Ass Fq Rel

130-139 4 14,3%

140-149 6 21,4%

150-159 7 25%

160-169 6 21,4%

170-179 5 17,9%


Freq

uenz

a Re

lati

va

12%

34%

56%

78%

100%

Altezza (cm)


1

33

Dati Quantitativi e Forma della Distribuzione

DISTRIBUZIONE

ASIMMETRICA

DISTRIBUZIONE

SIMMETRICA

CampanulareUniforme

Positiva (o a destra) Negativa (o a sinistra)

Coda Coda


1

34

Grafico di una Serie Storica

Serie Storiche

Una serie storica è una successione di dati che esprime la dinamica di un fenomeno (variabile) nel tempo , consentendo di comprenderne l’andamento e osservare:

• la tendenza di fondo (trend);

• oscillazioni ampie (ciclo);

• oscillazioni precise e periodiche (stagionalità).

Prez

zo M

edio

di u

n pr

odot

to X

(€/l

)

0

0,325

0,65

0,975

1,3

t

gen-18feb-18

mar-18apr-18

mag-18giu-18

lug-18ago-18

set-18ott-1

8nov-18

dic-18gen-19

feb-18mar-19

apr-19mag-19

giu-19lug-19

ago-19set-19

ott-19nov-19

dic-19


1

Mes

i Giugno-A

gosto

Altri M

esi

Frequenza Relativa

0% 8% 16% 24% 32%

8%

28%

35

Rappresentazioni Grafiche Errate

(8% x 9 mesi )+ 28% = 100%

Viene rappresentato il numero medio di incendi avvenuto in ciascuno dei restanti 9 mesi e

non la percentuale complessiva.

Incendi in Lombardia nel 2018


1

Mes

i Giugno-A

gosto

Altri M

esi

Frequenza Relativa

0% 8% 16% 24% 32%

8%

28%

36

Freq

uenz

a Re

lati

va

0%

3%

6%

9%

12%

Mesi

Gennaio

Febbra

io

MarzoAprile

Maggio

Giugno

Lugli

o

Agosto

Sette

mbre

Ottobre

Novembre

Dicembre

8%8%8%8%

10%

9%9%

8%8%8%8%8%

Incendi in Lombardia nel 2018



1

% S

tude

nti F

avor

evol

i

53%

55,75%

58,5%

61,25%

64%

Università

UNIMI UNIPI UNIFI UNITO

55%54%

55%

60%

37

Poiché l’asse verticale non inizia da 0 sembra che la differenza tra

le diverse università sia molto marcata. In realtà, lo è di pochi

punti percentuale.

Studenti favorevoli alla nuova riforma del sistema educativo



1

38%

Stu

dent

i Fav

orev

oli

0%

25%

50%

75%

100%

Università


55%54%55%60%

% S

tude

nti F

avor

evol

i

53%

55,75%

58,5%

61,25%

64%

Università


55%54%

55%

60%

Studenti favorevoli alla nuova riforma del sistema educativo



1

39

Troppi dati e troppi colori (anche simili) che non rendono interpretabile quanto

rappresentato.

6%5%

2%

10%

11%

2% 2% 1%7%

9%6% 2%

1%

11%

6%

9%

5%5%

AgricoltoreAgronomoAgronomo paesaggistaAgrotecnicoBracciante agricoloCamparoCampiereCasengoloColtivatore direttoContoterzistaFittavoloMassaioMondinaPerito agrarioSensaleSclavandarioSeringueiroViticoltore

Professionisti delle imprese agricole italiane al 2018 (%)



1

40Fr

eque

nza

Rela

tiva

0%

3,75%

7,5%

11,25%

15%

Professioni

Agrico

ltore

Agrono

mo

Agrono

mo pae

sagg

ista

Agrotec

nico

Braccia

nte ag

ricolo

Camparo

Campier

e

Casen

golo

Coltiva

tore d

iretto

Contot

erzist

a

Fittav

olo

Massa

io

Mondina

Perito

agrar

io

Sensa

le

Sclava

ndari

o

Sering

ueiro

Viticolt

ore

6%

5%

2%

10%

11%

2%2%

1%

7%

9%

6%

2%

1%

11%

6%

9%

5%5%

6%5%

2%

10%

11%

2% 2% 1%7%

9%6% 2%

1%

11%

6%

9%

5%5%

AgricoltoreAgronomoAgronomo paesaggistaAgrotecnicoBracciante agricoloCamparoCampiereCasengoloColtivatore direttoContoterzistaFittavoloMassaioMondinaPerito agrarioSensaleSclavandarioSeringueiroViticoltore

Professionisti delle imprese agricole italiane al 2018 (%)



1

41

45

10

20

Montagna CollinaPianura

%

%

%

Il totale delle percentuali non è uguale a 100%

Zone Altimetriche della Regione “x”.



1

42

45

10

20


40%

60%


%

%

%

Zone Altimetriche della Regione “x”.



1

43

Consigli per Realizzare un Buon Grafico

Per la realizzazione di un grafico efficace è opportuno: • inserire un titolo chiaro ed etichette su entrambi gli assi, specificando eventualmente le unità di misura e la

fonte dei dati; • scegliere il grafico che rappresenti al meglio l’informazione; • rendere chiare al lettore eventuali scale troncate; • non sovraffollare il grafico con elementi superflui; • evitare la tridimensionalità per non confondere il lettore.


1

44

Raccontare l’Informazione

La data visualization è quella disciplina che si occupa di divulgare i dati, sia quantitativi che qualitativi, raccontandoli attraverso elementi visivi. Si tratta di uno strumento di comunicazione e di facilitazione dell’accesso ai dati, che

diventano immediatamente comprensibili.

Il racconto dell’informazione (storytelling) fa leva su tre fattori umani:

Memoria a breve termine Codifica visuale dei dati

(colore, posizione e forma)

(brevità, legame azione-vista)

(prossimità, similarità, raggruppamento, completamento,

continuità)

Principi di psicologia


1

45

Raccontare l’Informazione

Pittogrammi

Oltre ai grafici tradizionali, come quelli che abbiamo visto in precedenza (es. istogramma, grafico a barre verticali e orizzontali, torta, grafico di una serie storica), la data visualization impiega:

Mappe Geografiche

Focus su di una singola Informazione Mappe Concettuali

InfograficheGrafici Interattivi WordCloud

#


1

Raccontare l’Informazione - Esempi

46


1

47

Raccontare l’Informazione - Esempi


1

48

Canva

Cosa è? È uno strumento freemium per il graphic design, adatto alla creazione di contenuti per la stampa e per il digitale (in particolare social).

Lo utilizziamo per… • realizzare una semplice infografica da condividere su Instagram

(modello: “Post Instagram”) con l’obiettivo di comunicare una specifica informazione.

link: https://canva.com

Nota: durante la lezione abbiamo visto come utilizzare Canva per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.


1

https://www.canva.com/it_it/creare/infografiche/

https://canva.com

49

Google Sheets

link: https://docs.google.com/spreadsheets

Cosa è? È un software collaborativo web-based per l’elaborazione dei fogli di calcolo.

Lo utilizziamo per… • calcolare la frequenza relativa; • costruire un grafico a barre (anche affiancate); • costruire un grafico a torta.

Nota: durante la lezione abbiamo visto come utilizzare Google Sheets per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.


1

https://docs.google.com/spreadsheets

https://https://support.google.com/docs/answer/63824?co=GENIE.Platform=Desktop&hl=it/it-it/article/video-creare-grafici-a-torta-a-barre-e-a-linee-ce4beacc-7e25-4574-a8b9-a865dbb3e3d2?ui=it-IT&rs=it-IT&ad=IT

https://support.google.com/docs/answer/63824?co=GENIE.Platform=Desktop&hl=it

50

Microsoft Excel

Cosa è? È un software per l’elaborazione dei fogli di calcolo, disponibile online (web-based) e in versione desktop.

Lo utilizziamo per… • calcolare la frequenza relativa; • costruire un grafico a barre (anche affiancate); • costruire un grafico a torta; • costruire un istogramma.

link: https://www.office.com/

Nota: durante la lezione abbiamo visto come utilizzare Microsoft Excel per svolgere quanto indicato. Clicca sui link per accedere ai tutorial. Se incontri diffi coltà, contatta il docente.


1

https://support.office.com/it-it/article/video-creare-grafici-a-torta-a-barre-e-a-linee-ce4beacc-7e25-4574-a8b9-a865dbb3e3d2?ui=it-IT&rs=it-IT&ad=IT

https://support.office.com/it-it/article/video-creare-grafici-a-torta-a-barre-e-a-linee-ce4beacc-7e25-4574-a8b9-a865dbb3e3d2?ui=it-IT&rs=it-IT&ad=IT

https://support.office.com/it-it/article/creare-un-istogramma-85680173-064b-4024-b39d-80f17ff2f4e8

https://www.office.com

UNITÀ 2

Sintetizzare i Dati: Misure di Tendenza Centrale e

Misure di Dispersione

21


Trarre Conclusioni

Misure di Tendenza Centrale

Misure di Posizione, Valori Anomali ed

Exploratory Data Analysis (EDA)


52


21

2. Sintetizzare i Dati: Misure di Tendenza Centrale e


53

Misure di Tendenza Centrale

MoMeM

Definite anche indici di posizione, sono misure di sintesi che consentono di individuare attorno a quale valore della variabile si accentra la distribuzione.

Mediana ModaMedia Aritmetica del campione (x) e della

popolazione (μ)

_

21



54

Media Aritmetica

μ

Media Aritmetica della popolazione

Media Aritmetica del campione

La media aritmetica di una variabile si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. Consente di osservare il centro di gravità.

La media aritmetica di una popolazione si calcola impiegando tutte le unità della

popolazione. Si tratta di un parametro.

La media aritmetica di un campione si calcola impiegando le osservazioni

del campione. Si tratta di una statistica.

x_

M

Media Aritmetica

21



55

Media Aritmetica

µN N

N

x__

μ x_



La media aritmetica di una variabile si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. Consente di osservare il centro di gravità.

M

Media Aritmetica

21



56

Simone 22 Giorgio 23

Stefania 19 Diego 31

Marco 18 Rosa 19

Matteo 18 Romina 18

Alice 29 Francesco 26

Valutazioni dell’esame di Matematica - Appello Invernale 2018

Media Aritmetica

Esercizio 3 - Calcolare la media della popolazione. Successivamente, estrarre un campione casuale semplice con ampiezza n = 4 e calcolare la media campionaria.

21



57



Marco 18 Rosa 19

Matteo 18 Romina 18


µ =1010

22+19+18+18+29+23+31+19+18+26

10

= 223

10= =

Media Aritmetica

Valutazioni dell’esame di Matematica Appello Invernale 2018

22,3


21



58



Marco 18 Rosa 19

Matteo 18 Romina 18


x =44

22+18+31+18=

89

4= = 22,25

4

Media Aritmetica

_


µ =1010

22+19+18+18+29+23+31+19+18+26

10

= 223

10= =


22,3

21



59

Me

Mediana

La mediana di una variabile è il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente e che quindi divide il primo 50% dal secondo 50% delle osservazioni.

1. Si ordinano i valori in ordine crescente; 2. si determina il numero di osservazioni (n); 3. si determina l’osservazione che occupa la posizione centrale:

a. se il numero di osservazioni è dispari, la mediana è il valore che occupa la posizione centrale della distribuzione e cioè la posizione (n + 1) ;

b. se il numero di osservazioni è pari, la mediana è la media delle due osservazioni centrali della distribuzione ed è cioè la media delle osservazioni che occupano la posizione n e n + 1.

2

2 2

Mediana

21



60

Mediana



Marco 18 Rosa 19

Matteo 18 Romina 18



Esercizio 4 - Calcolare la mediana della popolazione.

21



2

61

Mediana



Marco 18 Rosa 19

Matteo 18 Romina 18


18 18 18 19 19 22 23 26 29 31

Il numero di osservazioni è pari (n = 10), quindi la mediana è la media tra le osservazioni che occupano la

posizione n (cioè 10/2 = 5) e n + 1 (cioè 6).

18 18 18 19 19 22 23 26 29 31

Me = 19 + 22 = 20,5

2

2


Esercizio 4 - Calcolare la mediana della popolazione.

21



62

Me

Mediana

Mediana

Osservazioni M Me18, 18, 18, 19, 19, 22, 23, 26, 29, 31

3122,3 20,5

4, 18, 18, 19, 19, 22, 23, 26, 29, 31 20,9 20,5

A differenza della media, la mediana è una misura di sintesi robusta in quanto non risulta sensibile ai valori estremi (quelli molto grandi e quelli molto piccoli).

21



63

La moda di una variabile è l'osservazione che, all’interno della distribuzione, si presenta con la frequenza più elevata.

Una distribuzione può: • avere un'unica moda (unimodale); • avere due mode (bimodale) • avere tre o più mode (multimodale) • non avere moda.

Moda

Mo

Moda

21



64

Moda



Marco 18 Rosa 19

Matteo 18 Romina 18



Esercizio 5 - Calcolare la moda della popolazione e la sua frequenza assoluta.

21



65

Moda



Marco 18 Rosa 19

Matteo 18 Romina 18


18 18 18 19 19 22 23 26 29 31

Mo = 18

Fq Ass = 3

Esercizio 5 - Calcolare la moda della popolazione e la sua frequenza assoluta.


21



66

Media, Mediana e Moda a Confronto

MEDIA < MEDIANA < MODA MEDIA = MEDIANA = MODA MEDIA > MEDIANA > MODA

ASIMMETRICA NEGATIVA (A SINISTRA)

SIMMETRICAASIMMETRICA POSITIVA

(A DESTRA)Il numero di osservazioni inferiori alla media

è maggiore del numero di osservazioni superiori alla media

Il numero di osservazioni inferiori alla media è uguale al numero di osservazioni

superiori alla media

Il numero di osservazioni inferiori alla media è minore del numero di osservazioni

superiori alla media

Mo

Me

M

MoMeM Mo

Me

M

21



67


Valutazioni dell’esame di Matematica - Appello Invernale 2018 Valutazioni dell’esame di Matematica - Appello Estivo 2018

μ = 22,3

ELEVATA DISPERSIONE

μ = 22,3

DISPERSIONE CONTENUTA

Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Valutazioni

21



68


DEVVARR

RangeVarianza

della popolazione (σ ) e del campione (s )

Deviazione Standard della popolazione (σ)

e del campione (s)

Sono misure di sintesi che indicano la variabilità di una distribuzione.

Scarto Medio Assoluto

δ

2

2

21



69

Range

Il range (o intervallo di variazione) di una distribuzione è dato dalla differenza tra l’estremo superiore e l’estremo inferiore delle osservazioni, cioè il valore più grande e il valore più piccolo.

Ci informa sull’ampiezza della distribuzione.

È espresso nella stessa unità di misura dei dati.

R = estremo superiore — estremo inferiore

Range

R

21



70

Range



Marco 18 Rosa 19

Matteo 18 Romina 18


Esercizio 6 - Individuare i valori estremi e calcolare il range.


21



71

Range



Marco 18 Rosa 19

Matteo 18 Romina 18


18 18 18 19 19 22 23 26 29 31

Estremo Superiore = 31

Estremo Inferiore = 18

R = 31–18 = 13



21



72

Range



Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Valutazioni dell’esame di Matematica - Appello Estivo 2018

Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

21



73

Range


Estremo Sup = 31. Estremo Inf = 18 R = 31–18 = 13

Estremo Sup = 23 Estremo Inf = 21 R = 23–21 = 2


Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31


Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

21



Lo scarto medio assoluto si ottiene calcolando la distanza, in valore assoluto, di tutti i dati dalla media e facendo la media aritmetica di tali distanze.

Ci informa sulla distanza media delle osservazioni dalla media aritmetica: più δ è piccolo, più i dati sono concentrati; più δ è grande, più i dati sono dispersi.

È espresso nella stessa unità di misura dei dati.

74



δ

Nota: la somma algebrica degli scarti dalla media è sempre uguale a zero. È per questo motivo che impieghiamo i valori assoluti.

N

N

δ = = N

21



Esempio Osservazioni: 1, 3, 3, 9

• calcolo la media delle osservazioni: μ = 4;

• calcolo, in valore assoluto, la distanza di ciascuna osservazione da μ: |1-4| = 3, |3-4| = 1, |3-4| = 1, |9-4| = 5

• calcolo la media dei valori assoluti ottenuti:

3 + 1 + 1 + 5

75



4

δ

= 2,5δ =

21



76



Marco 18 Rosa 19

Matteo 18 Romina 18



Esercizio 8 - Calcolare lo scarto medio assoluto.


21



• calcolo la media delle osservazioni: μ = 22,3;

• calcolo, in valore assoluto, la distanza di ciascuna osservazione da μ: |18-22,3| = 4,3 , |18-22,3| = 4,3 , |18-22,3| = 4,3 , |19-22,3| = 3,3 , |19-22,3| = 3,3 , |22-22,3| = 0,3 , |23-22,3| = 0,7 , |26-22,3| = 3,7 , |29-22,3| = 6,7 , |31-22,3| = 8,7

• calcolo la media dei valori assoluti ottenuti: 4,3 + 4,3 + 4,3 + 3,3 + 3,3 + 0,3 + 0,7 + 3,7 + 6,7 + 8,7

77




Marco 18 Rosa 19

Matteo 18 Romina 18



10δ = = 3,96

scarto dalla media scarto assoluto

18 22,3-18 = -4,3 4,3

31 22,3-31 = 8,7 8,7

… … …

oppu

re


21



78



Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31


Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31


21



79


δ = 3,96 δ = 0,56ELEVATA DISPERSIONE DISPERSIONE CONTENUTA

Valutazioni dell’esame di Matematica - Appello Invernale 2018 Valutazioni dell’esame di Matematica - Appello Estivo 2018

Freq

uenz

a A

ssol

uta

0

1,25

2,5

3,75

5

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31

Freq

uenz

a A

ssol

uta

0

0,75

1,5

2,25

3

Valutazioni

18 19 20 21 22 23 24 25 26 27 28 29 30 31


21



La varianza della popolazione si ottiene calcolando il quadrato della distanza di tutti i dati dalla media e facendo la media aritmetica dei valori ottenuti.

Ci informa su quanto le osservazioni si discostino quadraticamente dalla media aritmetica: più σ è piccolo, più i dati sono concentrati; più σ è grande, più i dati sono dispersi.

80

Varianza

Varianza della popolazione

N

N

σ =

σ2

=N

2 i

2 2

Nota: la somma della deviazione di ogni osservazione dalla media è sempre uguale a zero. È per questo motivo che si eleva al quadrato.

21



2


• calcolo la media delle osservazioni: μ = 4;

• calcolo, il quadrato della distanza di ciascuna osservazione da μ: (1-4) = 9 , (3-4) = 1 , (3-4) = 1 , (9-4) = 25

• calcolo la media dei valori ottenuti:

9 + 1 + 1 + 25

2 22

81

Varianza

4= 9


σ2

σ =2

21



La varianza del campione (o varianza campionaria) si ottiene calcolando il quadrato della distanza di tutti i dati dalla media, sommando i valori ottenuti e dividendo il risultato per n - 1.

Ci informa su quanto le osservazioni si discostino quadraticamente dalla media aritmetica: più s è piccolo, più i dati sono concentrati; più s è grande, più i dati sono dispersi.

82

Varianza

Varianza del campione

n-1s =

s 2

n-1

2

2 2

n

i=x- x- x-

Nota: la varianza è la somma della deviazione di ogni osservazione dalla media, che è sempre pari a zero. È per questo motivo che eleviamo al quadrato.

21




• calcolo la media delle osservazioni μ = 4;

• calcolo, il quadrato della distanza di ciascuna osservazione da μ: (1-4) = 9 , (3-4) = 1 , (3-4) = 1 , (9-4) = 25

• sommo i valori ottenuti e divido per n - 1.

2 2 2 2

83

Varianza

4 - 1= 12s =2


s 2

9 + 1 + 1 + 25

21



84


Varianza

Esercizio 10 - Calcolare la varianza della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la varianza del campione.



Marco 18 Rosa 19

Matteo 18 Romina 18


21



85

Varianza



Marco 18 Rosa 19

Matteo 18 Romina 18



Esercizio 10 - Calcolare la varianza della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la varianza campionaria.

s = 37,582

σ =2

21,21

21



La deviazione standard della popolazione si ottiene ponendo sotto radice quadrata la varianza della popolazione.

Ci informa su quanto le osservazioni si discostino dalla media aritmetica: più σ è piccolo, più i dati sono concentrati; più σ è grande, più i dati sono dispersi.

A differenza della varianza, è espressa nella stessa unità di misura dei dati.

86

Deviazione Standard

Deviazione standard

della popolazione

σ =

σ

σ 2

Nota: la deviazione standard è anche nota come “scarto quadratico medio”.

21



La deviazione standard del campione si ottiene ponendo sotto radice quadrata la varianza del campione.

Ci informa su quanto le osservazioni si discostino dalla media aritmetica: più s è piccolo, più i dati sono concentrati; più s è grande, più i dati sono dispersi.

A differenza della varianza, è espressa nella stessa unità di misura dei dati.

87

Deviazione standard

del campione

s

Deviazione Standard

Nota: la deviazione standard è anche nota come “scarto quadratico medio”.

s = s 2

21



88



Marco 18 Rosa 19

Matteo 18 Romina 18



Esercizio 11 - Calcolare la deviazione standard della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la deviazione standard del campione.

Deviazione Standard

21



89



Marco 18 Rosa 19

Matteo 18 Romina 18



s = 6,13

σ = 4,6

Esercizio 11 - Calcolare la deviazione standard della popolazione. Successivamente, estrarre un campione casuale semplice con n = 4 e calcolare la deviazione standard del campione.

Deviazione Standard

21



Le distribuzioni simmetriche rispettano la “proprietà degli intervalli tipici”, che consente di determinare la percentuale di osservazioni che cadono tra la media (μ) e k deviazioni standard (σ).

90

Dev. St. e Forma della Distribuzione

μμ-σμ-2σμ-3σ μ+σ μ+2σ μ+3σ

99.7%

95%

68%

0,15% 34% 34% 0,15%13,5% 13,5%2,35% 2,35%

21



91


Le distribuzioni simmetriche rispettano la “proprietà degli intervalli tipici”, che consente di determinare la percentuale di osservazioni che cadono tra la media (μ) e k deviazioni standard (σ).

μμ-σμ-2σμ-3σ μ+σ μ+2σ μ+3σ

99.7%

95%

68%

0,15% 34% 34% 0,15%13,5% 13,5%2,35% 2,35%

• Approssimativamente il 68% delle osservazioni cade tra la media e una deviazione standard, cioè tra μ-σ e μ+σ;

• approssimativamente il 95% delle osservazioni cade tra la media e 2 deviazioni standard dalla media, cioè tra μ-2σ e μ+2σ;

• approssimativamente il 99,7% delle osservazioni cade tra la media e 3 deviazioni standard, cioè tra μ-3σ e μ+3σ.

21



92


almeno l’(1- 1 )100% delle osservazioni cade tra la media (μ) e k

deviazioni standard (σ) dalla media, dove k può assumere qualsiasi valore maggiore di 1

Tutte le distribuzioni, invece, rispettano la “disuguaglianza di Chebyshev”, una proprietà indipendentemente dalla forma della distribuzione, secondo la quale:

2k—

21



93

Google Sheets



Lo utilizziamo per… • calcolare il valore massimo e il valore minimo; • contare il numero di osservazioni. • calcolare le misure di tendenza centrale: media, mediana e moda; • calcolare le misure di dispersione: range, scarto medio assoluto,

varianza della popolazione e del campione, deviazione standard della popolazione e del campione.


21




https://support.google.com/docs/answer/3094013

https://support.google.com/docs/answer/3094017?hl=it


https://support.google.com/docs/answer/3093615?hl=it&ref_topic=3105600









94

Microsoft Excel


Lo utilizziamo per… • calcolare il valore massimo e il valore minimo; • contare il numero di osservazioni. • calcolare le misure di tendenza centrale: media, mediana e moda; • calcolare le misure di dispersione: range, scarto medio assoluto,

varianza della popolazione e del campione, deviazione standard della popolazione e del campione.



21




95

Misure per Dati Raggruppati in Classi

DEVVAR

Varianza della popolazione (σ )

e del campione (s )


e del campione (s)

Per i dati quantitativi abbiamo visto che è possibile creare delle classi di frequenza. In questi casi, il calcolo della media, della varianza e della deviazione standard è leggermente differente. Poiché non è possibile ricavare dati unitari da una distribuzione di frequenza, si parla sempre di misure approssimate.

2

2

M

Media Aritmetica del campione (x) e della

popolazione (μ)

_

21



96


Si assume che ogni classe possa essere sintetizzata da un valore centrale, che si trova sommando l’estremo inferiore di due classi adiacenti e dividendo per 2. Dopodiché si moltiplica il valore centrale per la frequenza della classe, si sommano tutti i risultati e si divide per il totale delle osservazioni.

μ x_



x =_∑ xi fi

µ = ∑ xi fi

∑ fi∑ fi

M

Media Aritmetica

21



Altezza (cm) Fq Ass Valore Centrale __

130-139 4 (130+140)/2 = 135 (4)(135) = 540

140-149 6 145 870

150-159 7 155 1085

160-169 6 165 990

170-179 5 175 875

28 4360

97


xi fi

µ =4360

28= 155,71∑ xi fi

∑ fi=

xiM

Media Aritmetica


Esempio

fi

∑

21



98


Dopo aver calcolato i valori centrali di ciascuna classe e la media, si procede elevando al quadrato la deviazione dalla media di ciascuna classe e moltiplicando per la sua frequenza. Al termine, si sommano tutti i risultati e si si divide per il numero di osservazioni. Nel caso di un campionamento, si divide per il numero di osservazioni - 1.

σ s



VAR


e del campione (s )

2

2

∑ (xi − μ)2 fiσ =

∑ fi

2 ∑ (xi − x)2 fis =

(∑ fi) − 1

2-

2 2

21



99



4781,62

28= 170,77=∑ (xi − μ)2 fi

σ =∑ fi

2

VAR


e del campione (s )2

2

Esempio

Altezza (cm)

130-139 4 135 155,71 -20,71 1715,62

140-149 6 145 155,71 -10,71 688,22

150-159 7 155 155,71 -0,28 0,55

160-169 6 165 155,71 9,28 516,71

170-179 5 175 155,71 19,29 1860,52

28 4781,62

xi (xi − μ)2 fixi − μμfi

∑

21



100


La deviazione standard approssimata si ottiene estraendo la radice quadrata della varianza. DEV


e del campione (s)

21



101

20 14 3 23

2 40 23 23

10 18 20 2

1 10 5 4

3 31 4 10

N° di bufale per allevamento italiano al 2019

Esercizio 12 - Raggruppare i seguenti valori in classi di frequenza con ampiezza pari a 10 e stabilire le seguenti misure di sintesi approssimate: media, varianza e deviazione standard.


21



N° Bufale

1-10 11 (1+11)/2 = 6 (6)(11) = 66

11-20 4 16 64

21-30 3 26 78

31-40 2 36 72

20 280


∑102


40-1

10≈Il numero di classi è pari a 4, infatti 4

xi fi

µ =280

20= 14∑ xi fi

∑ fi=

xifi

21




fi

N° Bufale

1-10 11 6 14 -8 704

11-20 4 16 14 2 16

21-30 3 26 14 12 432

31-40 2 36 14 22 968

20 2120

103


40-1

10≈


2120

20= 106=∑ (xi − μ)2 fi

σ =∑ fi

2xi − μμxifi

Il numero di classi è pari a 4, infatti 4

(xi − μ)2 fi

= 10,29=σ 2 106σ =

∑

21




104

Google Sheets



Lo utilizziamo per… • creare una Tabella Pivot per raggruppare i dati in classi di frequenza.


21





https://support.google.com/docs/answer/7572895?hl=it&co=GENIE.Platform=Desktop

105

Microsoft Excel


Lo utilizziamo per… • creare una Tabella Pivot per raggruppare i dati in classi di frequenza.link: https://www.office.com/


21



https://support.office.com/it-it/article/creare-una-tabella-pivot-per-analizzare-i-dati-di-un-foglio-di-lavoro-a9a84538-bfe9-40a9-a8e9-f99134456576?ui=it-IT&rs=it-IT&ad=IT

https://support.office.com/it-it/article/raggruppare-o-separare-dati-in-una-tabella-pivot-c9d1ddd0-6580-47d1-82bc-c84a5a340725?ui=it-IT&rs=it-IT&ad=IT


UNITÀ 3

Sintetizzare i Dati: Misure di Posizione Relativa,

Valori Anomali ed Exploratory Data Analysis (EDA)

2 31

107

Misure di Posizione Relativa

QP

Percentili Quartili

Sono misure di sintesi che indicano la posizione relativa assunta da determinati valori di una variabile nella distribuzione.

z

z-score

2 31

3. Sintetizzare i Dati: Misure di Posizione Relativa, Valori Anomali ed


Lo z-score (o punteggio standardizzato) rappresenta la distanza di ciascun valore dalla media in unità di deviazione standard.

È utile per confrontare le posizioni relative di due osservazioni appartenenti a insiemi di dati diversi: se entrambe hanno il medesimo z-score, allora occupano la medesima posizione relativa.

Una volta calcolato lo z-score (x) per una determinata osservazione, si dice che “il valore osservato è minore/maggiore della media di x punti di deviazione standard”. La media degli z-score è sempre pari a 0. Se un valore è maggiore della media il suo z-score sarà positivo; se è inferiore alla media sarà negativo; se, invece, è uguale alla media sarà uguale a 0.

σx − μz =

sz =

popolazione campione

108

z-score

z

x − x

z-score

2 31



109

z-score

zEsempio Due squadre di baseball, che giocano in due campionati differenti, si sono entrambe posizionate al primo posto. La squadra Blu, appartenente al Campionato A, con un punteggio pari a 968 e la squadra Nera, appartenente al Campionato B, con un punteggio pari a 892. Nel Campionato A μ = 739,9 e σ = 73,5, mentre nel Campionato B μ = 763 e σ = 58,9. Quale squadra ha ottenuto il punteggio relativo migliore?

z-score

Il valore osservato per la squadra Blu è maggiore della media di 2,37 deviazioni standard; mentre quello osservato per la squadra Nera è maggiore della media 2,19 deviazioni standard. Pertanto, la squadra Blu ha ottenuto un punteggio relativo migliore.

= 2,37 = 2,19 892 - 763 58,9

2 31



z = z = squadra Blu squadra Nera

968 - 793,9 73,5

110

z-score




Marco 18 Rosa 19

Matteo 18 Romina 18


Letizia 21 Daniele 22

Francesca 22 Eleonora 21

Sara 19 Fulvio 23

Laura 18 Mattia 22

Martina 22 Romeo 22


Esercizio 13 - Calcolare lo z-score delle osservazioni evidenziate e stabilire chi ha ottenuto la valutazione relativa migliore.

2 31



111

z-score

Esercizio 13 - Calcolare lo z-score delle osservazioni evidenziate e stabilire chi ha ottenuto la valutazione relativa migliore.

Valutazioni dell’esame di Matematica Appello Estivo 2018


μ = 22,3 e σ = 4,6

μ = 21,2 e σ = 1,47 = 1,22 23 - 21,2 1,47

= 0,15 23 - 22,3 4,6

z = Fulvio

2 31



z = Giorgio

Il valore osservato per Giorgio è maggiore della media di 0,15 punti di deviazione standard. Il valore osservato per Fulvio è maggiore della media di 1,22 punti di deviazione standard. Fulvio ha ottenuto la valutazione relativa migliore.

112

Percentili

Il k-esimo percentile (Pk) è quel valore tale per cui il k per cento delle osservazioni cadono al di sotto o sono uguali ad esso.

Consente di avere un’idea di come si posiziona un valore rispetto agli altri appartenenti allo stesso insieme di dati.

La distribuzione può quindi essere ordinata in 100 parti, con 99 Percentili: per esempio, P1 divide la distribuzione tra l’1% e il 99%, P2 tra il 2% e il 98% e così.

Percentili

P

P5 P10 P15 P50

Valore più alto

P95

Me

5% 5% 5% 35% 45% 5%

Valore più basso

2 31



113

Percentili

Esempio Chiara ha ottenuto all’esame FCE un punteggio di 1710, che occupa il 73-esimo percentile (P73)

Questo significa che il 73% dei punteggi degli altri studenti è inferiore o uguale a 1710, mentre il 27% è superiore, quindi migliore rispetto al punteggio di Chiara.

Percentili

P

P73

Valore più basso Valore più alto

73%1710

27%

2 31



114

Quartili

I percentili più comuni sono i Quartili, che dividono la distribuzione in quattro parti uguali:

• Q1, che è uguale a P25 e che divide il primo 25% dal restante 75% delle osservazioni; • Q2, che è uguale a P50 e a Me e che divide il primo 50% dal restante 50% delle osservazioni;

• Q3, che è uguale a P75 e che divide il primo 75% dal restante 25% delle osservazioni.

Quartili

Q

P50

Valore più alto

Me

25%

P25 P75

25% 25% 25%

Q1 Q2 Q3

Valore più basso

2 31



115

Quartili

Per calcolare i quartili si può procede in questo modo:

1. si organizzano i dati in ordine crescente; 2. si determina la mediana Me, pari al secondo quartile Q2; 3. si determinano il primo quartile Q1 e il terzo quartile Q3 calcolando la mediana

della prima metà e della seconda metà delle osservazioni. Quartili

Q

Esempio Osservazioni: 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19.

• organizzo i dati in ordine crescente: 1, 12, 13, 19, 21, 24, 26, 35, 35, 39, 40, 40, 50, 90. • calcolo Me = 30,5 = Q2; • Q1 coincide con la mediana dei valori 1, 12, 13, 19, 21, 24, 26 ed è uguale a 19; mentre Q3 coincide con la mediana dei valori 35, 35, 39, 40, 40, 50, 90 ed è uguale a 40 .

2 31



116

Quartili

I quartili sono robusti a valori estremi, infatti non variano al variare del valore inferiore e di quello superiore. Dal momento che alcune misure di dispersione come il range e la deviazione standard non lo sono, è possibile utilizzare i quartili per stabilire un’ulteriore misura di dispersione, che si impiega al posto della deviazione standard per la valutazione della variabilità di una distribuzione asimmetrica.

Si tratta dell’Intervallo Interquartile (IQR), cioè quell’intervallo che contiene il 50% delle osservazioni, quelle centrali. Si calcola come la differenza tra il terzo e il primo quartile (Q3 - Q1).

IQR = Q3 - Q1

Quartili

Q

2 31



117

Esercizio 14 - Calcolare i quartili e l’intervallo interquartile.

Quartili



Marco 18 Rosa 19

Matteo 18 Romina 18



2 31



118

Quartili




Marco 18 Rosa 19

Matteo 18 Romina 18


• organizzo i dati in ordine crescente: 18, 18, 18, 19, 19, 22, 23, 26, 29, 31; • calcolo Me = 20,5 = Q2; • Q1 coincide con la mediana dei valori 18, 18, 18, 19, 19 ed è uguale a 18; mentre Q3 coincide con la mediana dei valori 22, 23, 26, 29, 31 ed è uguale a 26 .

• l’intervallo interquartile è pari a Q3 - Q1 = 26 - 18 = 8.

Esercizio 14 - Calcolare i quartili e l’intervallo interquartile.

2 31



119

Valori Anomali

I quartili e l’intervallo interquartile possono essere utili per verificare la presenza dei cosiddetti valori anomali, o outlier, cioè quei valori estremi in una popolazione, molto distanti da quelli che caratterizzano la distribuzione. Si tratta di valori inusuali.

Come si individuano? 1. Si determinano il primo e il terzo quartile; 2. si calcola l’intervallo interquartile; 3. si calcolano il limite inferiore e il limite superiore:

Limite Inferiore = Q1 - 1,5 (IQR)

Limite Superiore = Q3 + 1,5 (IQR)

4. se un’osservazione è più piccola del limite inferiore o più grande di quello superiore, allora viene considerata un outlier.

2 31



120

Valori Anomali

Esempio Osservazioni: 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19.

• organizzo i dati in ordine crescente: 1, 12, 13, 19, 21, 24, 26, 35, 35, 39, 40, 40, 50, 90;

• calcolo Me = 30,5 = Q2; pertanto Q1 coincide con la mediana dei valori 1, 12, 13, 19, 21, 24, 26 ed è uguale a 19, mentre Q3 coincide con la mediana dei valori 35, 35, 39, 40, 40, 50, 90 ed è uguale a 40;

• l’intervallo interquartile IQR è uguale a Q3 - Q1 = 40 - 19 = 21;

• il limite inferiore è uguale a Q1 - 1,5 (IQR) = 19 - 1,5 (21) = -12, mentre il limite superiore è uguale a Q3 + 1,5 (IQR) = 40 + 1,5(21) = 71,5;

• non sono presenti valori inferiori al limite inferiore ma è presente un valore superiore al limite superiore: 90. Tra le osservazioni, 90 è un outlier.

2 31



121

Esercizio 15 - Individuare i valori anomali.

Valori Anomali



Marco 18 Rosa 19

Matteo 18 Romina 18



2 31



122

Esercizio 15 - Individuare i valori anomali.

Valori Anomali




Marco 18 Rosa 19

Matteo 18 Romina 18


• sapendo che l’intervallo interquartile è pari a Q3 - Q1 = 26 - 18 = 8, si calcolano il limite inferiore e quello superiore: Limite inferiore = Q1 - 1,5 (IQR) = 18 - 1,5 (8) = 6 Limite superiore = Q3 + 1,5 (IQR) = 26 + 1,5 (8) = 38

• poiché non esistono valori inferiori a 6 o superiori a 38, non sono presenti valori anomali.

2 31



123

Exploratory Data Analysis

MINIMO Q1 Me MASSIMOQ3

1 30,5 4019 90

L’Analisi Esplorativa dei Dati (Exploratory Data Analysis) è una tecnica di sintesi dei dati che fa uso di cinque numeri, utili per una descrizione chiara ed efficace di una distribuzione.

In una sintesi dei cinque numeri si impiegano: • il valore minimo; • il primo quartile Q1; • la mediana Me; • il terzo quartile Q3; • il valore massimo.

Osservazioni 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19

2 31



124

Boxplot


L’Analisi Esplorativa dei Dati consente di rappresentare i dati attraverso il boxplot (anche noto come diagramma a scatola e baffi), un grafico che offre una buona sintesi visiva della distribuzione.

Per la sua realizzazione, è necessario servirsi della sintesi dei cinque numeri per calcolare anche il Limite Inferiore e il Limite Superiore e stabilire gli outlier.

Outlier

IQR

Valore Adiacente a LS

Valore Adiacente a LI

Q1 Me Q3

1 30,5 4019 90

*

Osservazioni 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19

50

2 31



125


Come si costruisce il boxplot?

Boxplot

Q1 Q3Me

1 30,5 4019

Osservazioni 90, 13, 35, 40, 35, 39, 40, 50, 21, 24, 26, 12, 1, 19

50 90

*• si traccia il segmento in corrispondenza della mediana Me;

• si calcolano il limite inferiore e il limite superiore e si segnano i valori immediatamente adiacenti;

• si tracciano i baffi, cioè due linee che uniscono gli estremi della scatola ai due valori adiacenti i limiti;

• si usa un asterisco * per segnare gli eventuali outlier.

• si disegna una scatola (box) che ha come estremi il primo quartile Q1 e il terzo quartile Q3. Questo box, la cui ampiezza corrisponde all’intervallo Interquartile, contiene il 50% delle osservazioni (quelle “centrali”);

2 31



0

0,5

1

1,5

2

126

Exploratory Data Analysis Boxplot e Istogramma

*

1 30,5 4019 50 90

• si traccia il segmento in corrispondenza della mediana Me;

• si calcolano il limite inferiore e il limite superiore e si segnano i valori immediatamente adiacenti;

• si tracciano i baffi, cioè due linee che uniscono gli estremi della scatola ai due valori adiacenti i limiti;

• si usa un asterisco * per segnare gli eventuali outlier.

Come si costruisce il boxplot?• si disegna una scatola (box) che ha come estremi il primo quartile Q1 e il terzo quartile Q3. Questo box, la cui ampiezza corrisponde all’intervallo Interquartile, contiene il 50% delle osservazioni (quelle “centrali”);

2 31



127


Asimmetria Positiva (o a destra)

Distribuzione Simmetrica Campanulare

Assimetria Negativa (o a sinistra)

MeQ1 Q3 MeQ1 Q3 MeQ1 Q3

2 31



128


Distribuzione Simmetrica Uniforme

MeQ1 Q3

2 31



129

Esercizio 16 - Applicare al seguente dataset l’Exploratory Data Analysis (sintesi dei cinque numeri e boxplot).



Marco 18 Rosa 19

Matteo 18 Romina 18




2 31



130





Marco 18 Rosa 19

Matteo 18 Romina 18



Sintesi dei cinque numeri • nei precedenti esercizi sono già stati calcolati: Me = 20,5; Q1 = 18 e Q3 = 26;

• non resta che aggiungere il valore minimo, cioè 18 e quello massimo, cioè 31.

MINIMOQ1

Me MASSIMOQ3

18 20,5 26 31

2 31



…

Boxplot • calcolo il Limite inferiore = Q1 - 1,5 (IQR) = 18 - 1,5 (8) = 6 e il Limite superiore = Q3 + 1,5 (IQR) = 26 + 1,5 (8) = 38. Non ci sono outlier e i valori adiacenti sono 18 e 31.

131





Marco 18 Rosa 19

Matteo 18 Romina 18


Valutazioni dell’esame di Matematica Appello Invernale 2018 MINIMO Q1 Me MASSIMOQ3

18 20,5 26 31

2 31



…

132

Descrivere la Distribuzione

Come posso descrivere i valori di un insieme di dati quantitativi quanto imparato in queste due unità?

Organizzazione e Rappresentazione Organizzo i dati in tabella con le rispettive frequenze assolute e relative (applicando, se comodo o richiesto le classi di frequenza), poi li rappresento attraverso un istogramma per osservare la forma della distribuzione.

Sintesi Misure di Tendenza Centrale In caso di simmetria, mi è suffi ciente calcolare la media. Altrimenti, calcolo la mediana.

Misure di Dispersione In caso di simmetria, calcolo la deviazione standard. Altrimenti, calcolo l’intervallo interquartile. Misure di Posizione Svolgo la sintesi dei cinque numeri e costruisco il boxplot, sovrapponendolo all’istogramma.

2 31



133

Google Sheets



Lo utilizziamo per… • calcolare lo z-score, i quartili e l’intervallo interquartile.


2 31





134

Microsoft Excel


Lo utilizziamo per… • calcolare lo z-score, i quartili e l’intervallo interquartile.link: https://www.office.com/


2 31



https://support.office.com/it-it/article/inc-quartile-funzione-inc-quartile-1bbacc80-5075-42f1-aed6-47d735c4819d


135

BoxplotR

Cosa è? È un software web-based per la rappresentazione di dati attraverso i boxplot.

Lo utilizziamo per… • generare un boxplot a partire da un dataset.link: http://shiny.chemgrid.org/boxplotr/

Nota: durante la lezione abbiamo visto come utilizzare BloxplotR per svolgere quanto indicato. Se incontri diffi coltà, contatta il docente.

2 31



http://shiny.chemgrid.org/boxplotr/

UNITÀ 4

Descrivere la Relazione tra Due Variabili:

il Grafico a Dispersione e il Coefficiente di Correlazione Lineare

2 3 41

4. Descrivere la Relazione tra Due Variabili: il Grafico a Dispersione e il

Coefficiente di Correlazione Lineare


Trarre Conclusioni


137

Correlazione (Grafico a dispersione e

Coefficiente di correlazione lineare)

Analisi Bivariata

Previsione (Regressione ai minimi quadrati)



42 31

138

Analisi Bivariata

Finora abbiamo svolto un’analisi monovariata, cioè ci siamo soffermati sull’osservazione di una sola variabile. L’analisi bivariata è utile per descrivere la relazione tra due variabili quantitative indagate sulle medesime unità statistiche, con l’obiettivo di correrarle (analizzarne la relazione) e di utilizzare i valori di una per predire quelli dell’altra.

Nell’analisi bivariata, la variabile che viene utilizzata come predittore è definita variabile indipendente (o esplicativa), mentre quella che viene predetta è definita variabile dipendente (o risposta).

Esempio Voglio analizzare la relazione tra l'estensione del terreno destinato all’allevamento (espresso in ettari) e il numero di capi bestiame ivi ospitati. In seguito, voglio vedere se è possibile usare una delle due variabili per prevedere i valori dell’altra.



42 31

139

Soffermiamoci innanzitutto sulla correlazione.

La relazione tra variabili quantitative rilevate sulle medesime unità statistiche può essere messa in evidenza attraverso un’opportuna rappresentazione grafica: il grafico a dispersione, anche noto come scatter plot.

La variabile indipendente viene posta sull’asse delle ascisse (x), mentre la variabile dipendente sull’asse delle ordinate (y). Ogni unità statistica corrisponde a un punto di coordinate x, y.

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280

Variabile indipendente

98 99 100 101 102 103 104 105

Grafico a Dispersione




42 31

140

Variabile Indipendente (x)

Estensione Terreno (ha)

100 102 103 101 105 100 99 105

Variabile Dipendente (y)

Numero di Capi Bestiame

257 264 274 266 277 263 258 275

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280


98 99 100 101 102 103 104 105

Dal grafico si può dedurre che all’aumentare dell’estensione del terreno destinato all’allevamento (variabile indipendente), aumenta anche il numero di capi bestiame (variabile dipendente). Esiste, cioè, una relazione lineare positiva e le due variabili si dicono concordanti.

Grafico a Dispersione Grafico a Dispersione



42 31

Variabile Indipendente (x)

Estensione Terreno (ha)

100 102 103 101 105 100 99 105

Variabile Dipendente (y)


277 266 263 264 257 274 275 258

141

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280


98 99 100 101 102 103 104 105

Se, invece, dal grafico a dispersione avessimo dedotto che all’aumentare dell’estensione del terreno destinato all’allevamento (variabile indipendente), fosse diminuito il numero di capi bestiame (variabile dipendente), avremmo avuto una relazione lineare negativa e le due variabili sarebbero state definite discordanti.

Grafico a Dispersione Grafico a Dispersione



42 31

142

Tra le due variabili intercorre una relazione lineare positiva: all’aumentare (o al diminuire) dei valori di una variabile, aumentano (o diminuiscono) anche i valori dell’altra.

Le due variabili si muovono nella stessa direzione e sono dette concordanti: ai valori superiori alla media di una variabile corrispondono valori superiori alla media dell’altra variabile, oppure ai valori inferiori alla media di una variabile corrispondono valori inferiori alla media dell’altra variabile.




42 31


Vari

abile

dip

ende

nte

143

Tra le due variabili intercorre una relazione lineare negativa: all’aumentare dei valori di una, diminuiscono i valori dell’altra.

Le due variabili non si muovono nella stessa direzione e sono dette discordanti: in quanto ai valori superiori alla media di una variabile corrispondono valori inferiori alla media dell’altra variabile, oppure se ai valori inferiori alla media di una variabile corrispondono valori superiori alla media dell’altra variabile.




42 31


Vari

abile

dip

ende

nte

144


Vari

abile

dip

ende

nte

In una situazione del genere, invece, non esiste alcuna relazione.

Questo significa che le due variabili sono indipendenti tra loro. Se una aumenta, l’altra può aumentare o diminuire.




42 31

145


Vari

abile

dip

ende

nte

In questi casi esiste una relaziona ma non è lineare.


Vari

abile

dip

ende

nte




42 31

146

Limiti del Grafico a Dispersione

Il grafico a dispersione informa soprattutto sulla forma e sulla direzione della relazione della variabile ma non sulla sua intensità, cioè su quanto sia effettivamente forte.

Inoltre, come visibile nella figura di fianco, può essere facilmente manipolato, per esempio cambiando la scala numerica. Pertanto, può risultare forviante per un’interpretazione corretta.




42 31

Vari

abile

dip

ende

nte

1

51

101

151

200

250

300


90 94 98 102 106 110

147


Coefficiente di Correlazione Lineare della popolazione (ρ)

o del campione (r)

Per i motivi appena addotti, si preferisce stabilire l’esistenza della relazione tra due variabili, attraverso una misura di sintesi numerica adatta ai dati bivariati.

Il coefficiente di correlazione lineare, noto anche come coefficiente di correlazione di prodotto-momento di Pearson, è una misura dell’intensità e della relazione esistente tra due variabili quantitative.

Il suo valore varia sempre tra -1 e 1, estremi inclusi. Non è una misura robusta.

=∑ ( xi − x

sx)( yi − y

sy)

n − 1=

∑ ( xi − μx

σx)(

yi − μy

σy)

Nρ r



42 31

ρ r

Nota: ovviamente e( xi − μx

σx)(

yi − μy

σy) = zxzy ( xi − x

sx)( yi − y

sy) = zxzy

148


Valore Relazione

= +1 perfetta relazione lineare positiva (concordanza)

= -1 perfetta relazione lineare negativa (discordanza)

più si avvicina a +1 più si avvicina, più è forte la concordanza

più si avvicina a -1 più si avvicina, più è forte la discordanza

più si avvicina a 0 più si avvicina, più la relazione lineare è debole

= 0 non esiste relazione lineare



42 31


o del campione (r)

ρ r

149


ρ = 1 ρ vicino a 1 ρ = -1

ρ vicino a -1 ρ vicino a 0 ρ vicino a 0



42 31


o del campione (r)

ρ r

150


Come si calcola?

1. si calcolano la media e le deviazioni standard di ciascuna variabile; 2. si calcola lo z-score di ogni osservazione per ciascuna variabile; 3. si calcola il prodotto tra i due z-score di ciascuna osservazione; 4. si sommano i prodotti e si divide per il numero delle osservazioni nel caso si consideri

la popolazione, o per il numero di osservazioni - 1 nel caso si consideri un campione.

=∑ ( xi − x

sx)( yi − y

sy)

n − 1=

∑ ( xi − μx

σx)(

yi − μy

σy)

Nρ r



42 31


o del campione (r)

ρ r

151


Nel caso in cui si stiano confrontando due campioni, è opportuno confrontare il coefficiente di correlazione lineare con il valore critico, così da poter affermare con sicurezza l’esistenza di una relazione lineare tra le due variabili.

Se il valore assoluto del coefficiente di correlazione lineare è maggiore del valore critico, la relazione lineare esiste. È possibile trovare i valori critici nell’Appendice (Tabella II, p. 351) del libro di testo consigliato o qui.



42 31


o del campione (r)

ρ r

https://alessandroiannella.com/info-edolo/2019/assets/files/Modulo3-SoglieCritiche.pdf

Dimensione Terreno (ha)


1 100 2572 102 2643 103 2744 101 2665 105 2776 100 2637 99 2588 105 275

152


yi − μy

σy( xi − μx

σx)(

yi − μy

σy)xi − μx

σx

yx

Esempio guidato Calcolo le medie le e deviazioni standard:

=∑ ( xi − μx

σx)(

yi − μy

σy)

N=ρ

∑

μ σμ σyx

=

La relazione è __________ (+ ) ed è ______________.



42 31

Nota: in questo caso stiamo considerando le due variabili come se fossero delle popolazioni (v. simboli greci).

Dimensione Terreno (ha)


1 100 257 -0,87 -1,34 1,162 102 264 0,05 -0,37 -0,013 103 274 0,52 1 0,524 101 266 -0,4 -0,1 0,045 105 277 1,45 1,41 2,046 100 263 -0,87 -0,51 0,447 99 258 -1,33 -1,2 1,598 105 275 1,45 1,14 1,65

7,43153


yx= 101, 87 = 266,75Esempio Calcolo medie e deviazioni standard: = 2,15 = 7,24

=∑ ( xi − μx

σx)(

yi − μy

σy)

N=ρ

μ σμ σyx

7,43

80,93=

La relazione è positiva (+0,86) ed è molto forte.



42 31

∑

yi − μy

σy( xi − μx

σx)(

yi − μy

σy)xi − μx

σx

154

Simone Stefania Marco Matteo Alice Giorgio Diego Rosa Romina Francesco

Voto Matematica

(Scuola) 7 8 8 9 7 6 6 7 10 7

Esame di Matematica

(Uni)22 19 18 18 29 23 31 19 18 26

Esercizio 17 - Stabilire la relazione tra le seguenti variabili attraverso il grafico a dispersione e il coefficiente di correlazione lineare, impiegando come variabile indipendente il voto di matematica dell’ultimo scrutinio scolastico.

Correlazione



42 31

155

Vari

abile

dip

ende

nte

15

18

20

23

26

28

31


5 6 7 8 9 10

Dal grafico si può dedurre che all’aumentare del voto di matematica dell’ultimo scrutinio scolastico (variabile indipendente), diminuisce il voto dell’esame di matematica sostenuto all’università (variabile dipendente). Esiste, cioè, una relazione lineare negativa e le due variabili si dicono discordanti.

L’intensità e la direzione sono confermate dal coefficiente di correlazione lineare, positivo: . Possiamo affermare che la discordanza è forte.

ρ = -0,69

Correlazione

Esercizio 17 - Stabilire la relazione tra le seguenti variabili attraverso il grafico a dispersione e il coefficiente di correlazione lineare, impiegando come variabile indipendente il voto di matematica dell’ultimo scrutinio scolastico.



42 31

Fabio Santaniello Bruun

negativo

Fabio Santaniello Bruun

:

156

Google Sheets



Lo utilizziamo per… • realizzare un grafico a dispersione; • calcolare il coefficiente di correlazione.




42 31




157

Microsoft Excel


Lo utilizziamo per… • realizzare un grafico a dispersione; • calcolare il coefficiente di correlazione.





42 31

https://support.office.com/it-it/article/presentare-i-dati-in-un-grafico-a-dispersione-o-in-un-grafico-a-linee-4570a80f-599a-4d6b-a155-104a9018b86e

https://support.office.com/it-it/article/correlazione-funzione-correlazione-995dcef7-0c0a-4bed-a3fb-239d7b68ca92


UNITÀ 5

Descrivere la Relazione tra Due Variabili:

la Regressione ai Minimi Quadrati

2 3 41 5

5. Descrivere la Relazione tra Due Variabili: la Regressione ai Minimi Quadrati

159

Analisi Bivariata

Dopo aver indagato la correlazione, passiamo all’impiego della variabile indipendente per predire i valori della variabile dipendente.

Parleremo di regressione ai minimi quadrati: tra poco vediamo il perché.

Esempio Dopo aver analizzato la relazione tra l’estensione del terreno destinato all’allevamento (espresso in ettari) e il numero di capi bestiame ivi ospitati, voglio vedere se è possibile usare i valori dell'ampiezza del terreno (variabile indipendente) per prevedere i valori del numero di capi bestiame (variabile dipendente).

4 52 31


Vari

abile

dip

ende

nte

250

255

260

265

270

275

280


98 99 100 101 102 103 104 105

160

Regressione ai Minimi Quadrati

Se il grafico a dispersione e il coefficiente di correlazione lineare ci dicono che esiste una relazione lineare tra le due variabili, è possibile trovare un’equazione lineare che esprima tale relazione. L’equazione si esprime nella forma y = mx + b dove m è il coefficiente angolare (che esprime la pendenza) e b l’intercetta (cioè l’ordinata del punto di intersezione della retta con l’asse y). Se, una volta trovata l’equazione, sostituiamo a x (variabile indipendente) un qualsiasi valore, è possibile prevedere il corrispettivo valore di y (variabile dipendente).

Nota: non si richiede di conoscere il procedimento per calcolare la retta.

4 52 31


161


Relativamente alle variabili usate come esempio (estensione del terreno e numero di capi bestiame ivi contenuto), possiamo tracciare una retta a partire da due punti del grafico a dispersione. Prendiamo (99, 258) come (x1, y1) e (105, 275) come (x2, y2).

La nostra retta avrà equazione y = 2.8333x - 22.4967, dove 2.8333 è il coefficiente angolare e -22.4967 è l’intercetta.

Come accennato prima, possiamo sostituire a x un valore della variabile indipendente, ottenendo così il valore previsto per la variabile dipendente (y). Per esempio, sostituendo x con 104, otteniamo y = 272.2.

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280


98 99 100 101 102 103 104 105

y = 2.8333x - 22.4967

272,2

4 52 31


Nota: una volta trovato m = , è possibile trovare l’equazione della retta con la “formula del punto-coeffi ciente angolare”: y2 − y1x2 − x1

y − y1 = m(x − x1)

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280


98 99 100 101 102 103 104 105

162


Proviamo a impiegare l’equazione per prevedere un valore già osservato.

Sostituiamo a x 103, un valore della variabile indipendente appartenente al nostro dataset. Otteniamo per la variabile dipendente 269,3 e non 274 come il valore osservato. Si verifica un errore (o residuo), calcolato come la differenza tra il valore osservato y e il valore previsto ŷ pari a 4,7.

y - ŷ = 274 - 269,3 = 4,7

y = 2.8333x - 22.4967

269,3

274

4 52 31


163


Tuttavia, esiste una retta che minimizza la somma dei quadrati dei residui, cioè delle distanze tra i valori osservati (y) e quelli previsti dalla retta (ŷ). Si tratta della retta di regressione (o retta ai minimi quadrati): è lei che descrive nel modo migliore la relazione tra la variabile indipendente e la variabile dipendente, consentendo di prevedere al meglio i valori della seconda.

La sua equazione è dove è il coefficiente angolare e l’intercetta, calcolati rispettivamente come e

Vari

abile

dip

ende

nte

250

255

260

265

270

275

280


98 99 100 101 102 103 104 105y = b1 + b0 b1 b0

Nota: non si richiede di conoscere il procedimento per calcolare la retta di regressione.

4 52 31


y = b1 + b0

rsx

syy = b1 − b1x

164


Nel nostro caso, la retta di regressione è pari a ŷ = 3.1661x-55.7964.

Sostituendo a x un valore della variabile indipendente per prevedere quello della variabile dipendente (y), otteniamo la stima migliore.

Facciamo una prova, usando i valori già osservati impiegati in precedenza: sostiuendo a x 103, otteniamo 270.3, con un residuo pari a 3.7, minore rispetto a quello dell’equazione precedente (4,7). Va

riab

ile d

ipen

dent

e

250

255

260

265

270

275

280


98 99 100 101 102 103 104 105

270,3

274

ŷ = 3.1661x-55.7964

4 52 31


165

Il calcolo della retta di regressione è sempre accompagnato dal coefficiente di determinazione , che misura la proporzione di variabilità totale della variabile dipendente y effettivamente spiegata dalla retta di regressione.

Espresso in valore percentuale, decresce al diminuire della capacità esplicativa della retta e ci dice, fondamentalmente, quanto la retta preveda “bene” il valore della variabile dipendente.

es. = 99% significa che il 99% della variabilità di y è spiegato dalla retta ai minimi quadrati; = 9.4% spiega che il 9.4% della variabilità di y è spiegato dalla retta ai minimi quadrati.

R2

R2R2


Nota: non si richiede di conoscere il procedimento per calcolare il coeffi ciente di determinazione.

4 52 31


UNITÀ 6

Automatizzare l’Analisi dei Dati attraverso le Macro

2 3 41 5 6

6. Automatizzare la Descrizione dei Dati attraverso le Macro

Visual Basic for Applications (VBA) è un linguaggio di programmazione appartenente alla famiglia del Visual Basic che opera nell’ambito delle applicazioni della suite Microsoft Office, in particolare Excel.

Questo significa che può essere impiegato con l’obiettivo di scrivere dei programmi (script) in grado di estendere le funzionalità di Office.

VBA è un linguaggio di programmazione ad eventi che segue, almeno in parte, i principi della programmazione orientata agli oggetti: il suo codice viene eseguito (azione) quando l’utente “fa qualcosa” (evento), come cliccare su di un pulsante, scrivere in una cella del foglio di calcolo, muoversi da una cella all’altra (oggetti).

Visual Basic for Applications

167

2 3 41 5 6


VBA può essere impiegato per:

1. automatizzare attività operative e decisionali, allo scopo di facilitare il lavoro dell’utente;

2. realizzare nuovi strumenti di elaborazione per l’ambiente di lavoro, come, nel caso di Excel, nuove funzioni che eseguono calcoli specifici e personalizzati;

3. realizzare nuovi strumenti di gestione per l’ambiente di lavoro, per esempio finestre di dialogo personalizzate, o applicativi più evoluti.

Visual Basic for Applications

168

2 3 41 5 6


Microsoft Excel e le Macro

169

Non ci occupiamo di scrivere codice in VBA ma utilizziamo uno strumento utile per generarlo automaticamente all’interno di Excel.

Si tratta della cosiddetta macro, un'azione o un insieme di azioni che è possibile eseguire per un numero illimitato di volte. Quando si crea, il software registra i clic del mouse e le sequenze di tasti e trasforma le istruzioni in codice VBA, così da poterlo leggere e modificare in seguito.

Le macro consentono di automatizzare specifiche azioni di elaborazione all’interno dell’ambiente di lavoro.

2 3 41 5 6


170

Microsoft Excel


Lo utilizziamo per… • registrare una macro; • impiegare la funzione SE.



2 3 41 5 6


https://www.youtube.com/watch?v=sBl5cG6wZ5s

https://support.office.com/it-it/article/se-funzione-se-69aed7c9-4e8a-4755-a9bc-aa8bbff73be2


Non è possibile impiegare VBA all’interno degli strumenti della Google Suite. Tuttavia, Google ha di recente sviluppato un apposito linguaggio di scripting, denominato Apps Script, basato sul linguaggio di programmazione JavaScript.

È possibile scrivere codice in Apps Script attraverso l'editor online disponibile all’indirizzo (https://script.google.com/). Le sue funzionalità non sono limitate agli strumenti “di elaborazione”, come Google Docs, Google Sheets o Google Slide: Apps Script può essere impiegato anche all’interno di altri servizi di produttività, come Google Forms, Gmail, Google Calendar, Google Maps o Youtube.

Google Apps Script

171

2 3 41 5 6


https://script.google.com/

Apps Script può rivelarsi utile per:

1. automatizzare attività operative e decisionali, allo scopo di facilitare il lavoro dell’utente;

2. creare componenti aggiuntivi (add-ons) per estendere le funzionalità degli strumenti della Google Suite, anche facendoli interagire tra loro (es. importare automaticamente dati per Google Sheets direttamente da Gmail);

3. realizzare vere e proprie applicazioni basate su browser (web-app), autonome o incorporate in Google Sites;

Google Apps Script

172Nota: un buon modo per imparare a sfruttare le potenzialità di Apps Script è quello di svolgere le attività del programma Google Applied Digital Skills, che mostrano passo passo in che modo scrivere codice per estendere e utilizzare in maniera integrata gli strumenti della Google Suite. Clicca qui.

2 3 41 5 6


https://applieddigitalskills.withgoogle.com/c/en/curriculum.html?apps=apps_script

Google Sheets e le Macro

173

Le macro possono essere registrare anche all'interno di Google Sheets: le loro istruzioni non vengono convertite in VBA ma in Apps Script.

Sebbene il loro linguaggio sia differente, la registrazione, la modifica e l’impiego sono molto simili alle macro in VBA.

2 3 41 5 6


174

Google Sheets



Lo utilizziamo per… • registrare una macro; • impiegare la funzione SE.


2 3 41 5 6



https://support.google.com/docs/answer/7665004?co=GENIE.Platform=Desktop&hl=it


Salvaggio, A. (2016) Excel 2016 - Macro e VBA. Edizioni Lswr; Sullivan III, M. (2011) Fondamenti di Statistica. Parte II: pp. 32-127, Pearson.

Bibliografia

175

Download - Modulo 3 - Raccontare la Realtà con la Statistica …Esercizio 1 - Organizzare i seguenti dati in una tabella con 8 classi di frequenza. Organizzare i Dati Quantitativi Continui N

Top Related