base - prima parte - stampa · 2019. 10. 8. · title: microsoft powerpoint - base - prima parte -...
TRANSCRIPT
-
1
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Statistica corso base (serale)
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Alberto Arcagni
Pagina web: https://web.uniroma1.it/memotef/users/arcagni-albertoEmail: [email protected]: 428, 4° piano Via Del Castro Laurenziano 9, 00161 – RomaRicevimento: Giovedì 16:00 – 18:00
-
2
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Statistica: principi e metodi 3/Ed.
Autori: Giuseppe Cicchitelli, Pierpaolo D’Urso, Marco MinozzoEditore: Pearson
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Programma1. Nozioni introduttive: collettivo statistico, unità statistica, caratteri e modalità. Distribuzione unitaria e di frequenze. Frequenze cumulate. Distribuzioni in classi.
2. Rappresentazioni grafiche: grafici ad aste, istogrammi. Funzione di ripartizione e sua rappresentazione grafica. Introduzione al concetto di media. La media aritmetica e le sue proprietà.
3. Media aritmetica per distribuzioni di frequenze e in classi. Mediana e quartili. Calcolo della mediana e dei quartili per le distribuzioni di frequenza e in classi.
4. Indici di variabilità: scostamento semplice medio, deviazione standard e varianza Calcolo della varianza per distribuzioni di frequenza e in classi. Differenza semplice media. Campo di variazione. Differenza interquartile. Coefficiente di variazione.
5. La concentrazione. Concentrazione per distribuzioni in classi.
6. Distribuzioni doppie. Indipendenza. Misure della dipendenza Χ ,Ψ. Dipendenza perfetta. Dipendenza e indipendenza in media. Scomposizione della devianza. Il rapporto di correlazione 𝜂 .
7. Introduzione alla regressione. Coefficienti della retta di regressione. I residui. Bontà dell'adattamento. L'indice di determinazione𝑅 . Calcolo della retta di regressione tramite distribuzioni doppie di frequenze.
8. La correlazione. Esercizi riepilogativi.
9. Introduzione alla probabilità. Spazio campionario. Eventi. Definizione di Probabilità. Assegnazione delle probabilità agli eventi
10. Probabilità condizionata. Formula di Bayes, Indipendenza. Esempi di calcolo delle probabilità.
11. Introduzione alle variabili aleatorie. Variabili aleatorie discrete. Variabili aleatorie continue. Media varianza e funzione di ripartizione per variabili aleatorie. La distribuzione binomiale. La distribuzione normale. Uso delle tavole
12. Legge dei grandi numeri e teorema del limite centrale. Introduzione alle distribuzioni campionarie.
13. Distribuzione campionaria della media. Intervalli di confidenza per la media di una popolazione normale con varianza nota e incognita. Intervalli di confidenza per la media di una popolazione con grandi campioni. Intervalli di confidenza per la proporzione.
14. Verifica delle ipotesi per la media di una popolazione normale con varianza nota e incognita. Verifica delle ipotesi per una proporzione.
-
3
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Nozioni introduttive
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Collettivo statistico e unità statistica
• La statistica è un ramo della matematica i cui obbiettivi sono• analizzare e interpretare i dati osservati (descrittiva)• studiare i fenomeni aleatori/casuali (probabilità)• dedurre certe proprietà dei dati analizzando il margine d’errore (inferenza)
• Ciascun dato, ciascuna osservazione, è riferito ad una unità statistica• L’insieme delle unità statistiche costituisce il collettivo statistico• Esso può comprendere tutte le unità esistenti e rappresentare l’intera
popolazione, oppure può essere un sottoinsieme di unità osservate ovvero esserne un campione
-
4
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Caratteri e modalità
• I dati sono rappresentati dalle diverse caratteristiche rilevate per ciascuna unità statistica
• Ogni singola caratteristica rappresenta un carattere statistico• Ogni carattere può manifestarsi in diversi modi all’interno del
collettivo statistico, essi rappresentano le modalità
Dati Carattere 1 Carattere 2 …
Unità 1 … …
Unità 2 … …
…
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Tipologie di caratteri
• A seconda dell’insieme delle modalità i caratteri possono essere:• Qualitativi
• Sconnessi• Dicotomici• Politomici
• Ordinabili• Rettilinei• Ciclici
• Quantitativi• Discreti (solitamente conteggio)• Continui (solitamente misurazioni fisiche)
• A seconda della relazione con il tempo i caratteri possono essere• di stato, come statura e peso di persone adulte, subiscono piccole variazioni nel tempo, il
tempo è un fattore di disturbo• di movimento, come le opinioni dei cittadini su un dato servizio o il valore di un titolo in
borsa, subiscono ampie variazioni nel tempo ed il tempo è elemento indispensabile
-
5
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Misurazione dei caratteri
• Scala• Caratteri qualitativi
• Nominale per i caratteri sconnessi (identità o diversità della modalità)• Ordinale per i caratteri rettilinei (…, graduare le modalità)
• Caratteri quantitativi• Di Intervalli, con zero convenzionale (…, differenze)• Proporzionale, con zero assoluto che significa assenza del fenomeno (…, rapporti)
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Differenze relative
Siano 𝑎 e 𝑏 due diversi livelli di un carattere quantitativo su scala proporzionaledifferenza assoluta = 𝑏 − 𝑎
Ad esempio Tizio è alto 170cm e Caio è alto 210cm, vogliamo valutare l’altezza di Tizio rispetto a quella di Caio
170 − 210 = −40
Tizio è più basso (segno negativo) di Caio di 40cm.
differenza relativa =𝑏 − 𝑎
𝑎170 − 210
210=
−40
210= −0,19
differenza percentuale =𝑏 − 𝑎
𝑎⋅ 100
Tizio è più basso di Caio del 19%.
-
6
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Rapporti statistici
• I rapporti di composizione (o di parte al tutto), si ottengono dividendo una quantità parziale alla quantità totale (esempio: frequenze relative, le vedremo a breve)
• I rapporti di coesistenza si ottengono rapportando due dati statistici coesistenti per i quali si ritiene debba mantenersi una certa proporzione (esempio: rapporto di mascolinità = popolazione maschile / popolazione femminile)
• I rapporti di derivazione si ottengono dividendo un dato statistico 𝑋 per un altro dato statistico 𝑌 che si ritiene sia la causa od il presupposto del primo (esempio: tasso di natalità = nati nell’anno / popolazione residente nell’anno)
• I rapporti di densità si calcolano per eliminare l’influenza del campo di osservazione (posto al denominatore, es: spazio, tempo o altro) su un dato statistico (es: abitanti per Km , reddito pro-capite = prodotto interno lordo / popolazione) Fonte definizioni e tabelle successive:
Zenga 2014 - Lezioni di statistica descrittiva
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Rapporti di composizione
Importanza relativa dei consumi di olio combustibile nelle diverse aree geografiche nell’anno 2004Fonte: BP Statistical Review of World Energy, June 2005
Area geografica
Milioni di tonnellate
Rapporto di composizione
%
America del Nord
1122,4 0,2979 29,79
Centro e Sud America
221,7 0,0589 5,89
Europa e Eurasia
957,3 0,2541 25,41
Medio Oriente
250,9 0,0666 3,66
Africa 124,3 0,0330 3,30
Asia e Oceania
1090,5 0,2895 28,95
Tot. 3767,1 1,0000 100,00
-
7
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Rapporti di coesistenza
Rapporto di mascolinità alla nascita nelle regioni italiane (anno 2004)Regioni Nati Maschi Nati Femmine Rap. %
Piemonte 19283 18130 106,36
Valle d’Aos. 591 586 100,85
Lombardia 47317 45581 103,81
Trentino AA 5632 5270 106,87
Veneto 24207 22890 105,75
Friuli VG 5132 4969 103,28
Liguria 6188 5826 106,21
Emilia Rom. 19540 18535 105,42
Toscana 16329 15366 106,26
Umbria 3844 3773 101,88
Regioni Nati Maschi Nati Femmine Rap. %
Marche 6923 6473 106,95
Lazio 26717 25315 105,54
Abruzzo 5769 5332 108,19
Molise 1353 1196 113,13
Campania 33581 31521 106,54
Puglia 20593 19976 103,09
Basilicata 2656 2641 100,56
Calabria 9740 8972 108,56
Sicilia 26639 25089 106,18
Sardegna 6816 6308 108,05
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Rapporti di derivazione
Consumi pro-capite di olio combustibile in Italia, Cina e Giappone nel 2004
Nazioni Consumi in tonnellate
Abitanti Rapporto tonnellate per abitante
Italia 89.500.000 57.300.000 1,562
Giappone 241.500.000 127.800.000 1,890
Cina 308.600.000 1.313.300.000 0,235
-
8
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Rapporti di densità
Abitanti e superfici di alcuni stati (2004, dati ONU)
Nazioni Abitanti Superficie in 𝑲𝒎𝟐
Abitanti per 𝑲𝒎𝟐
Cina 1.313.300.000 9.595.960 136,85
USA 298.000.000 9.629.091 30,84
Giappone 127.800.000 377.835 338,24
Francia 60.400.000 547.030 110,41
Italia 57.300.000 301.230 190,22
Regno Unito 59.400.000 244.820 242,63
Olanda 16.200.000 41.526 390,12
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzione unitaria
• Consideriamo un collettivo statistico di 𝑁 unità• Ci focalizziamo su un singolo carattere 𝑋• La distribuzione unitaria è l’elenco delle singole osservazioni
𝑥 , 𝑥 , … , 𝑥 , … , 𝑥 del carattere 𝑋
𝒊 𝑿
1 𝑥
2 𝑥
⋮ ⋮
𝑁 𝑥
-
9
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzione di frequenze
• Il carattere 𝑋 presenta 𝑘 distinte modalità: 𝑥 , 𝑥 , … , 𝑥 , … , 𝑥• Se il carattere è qualitativo ordinabile o quantitativo le modalità
devono essere ordinate: 𝑥 < 𝑥 < ⋯ < 𝑥 < ⋯ < 𝑥• Ciascuna modalità 𝑥 di presenta nel collettivo statistico 𝑛 ∈ ℕ volte
∀ 𝑗 = 1, 2, … , 𝑘. I valori 𝑛 sono chiamati frequenze assolute e ∑ 𝑛 poiché il collettivo è costituito da 𝑁 unità
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzione di frequenze
𝒋 𝑿 Frequenze assolute
1 𝑥 𝑛
2 𝑥 𝑛
⋮ ⋮ ⋮
𝒌 𝑥 𝑛
Tot 𝑁
-
10
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzione di frequenze
• Frequenze relative: 𝑓 = , ∀𝑗 = 1, 2, … , 𝑘
• ∑ 𝑓 = ∑ = ∑ 𝑛 = = 1
𝒋 𝑿 Frequenze assolute
Frequenze relative
1 𝑥 𝑛 𝑓
2 𝑥 𝑛 𝑓
⋮ ⋮ ⋮ ⋮
𝒌 𝑥 𝑛 𝑓
Tot 𝑁 𝟏
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzione di frequenze
• Frequenze percentuali: 𝑝 = 𝑓 ⋅ 100, ∀𝑗 = 1, 2, … , 𝑘
• ∑ 𝑝 = 100
𝒋 𝑿 Frequenze assolute
Frequenze relative
Frequenze percentuali
1 𝑥 𝑛 𝑓 𝑝
2 𝑥 𝑛 𝑓 𝑝
⋮ ⋮ ⋮ ⋮ ⋮
𝒌 𝑥 𝑛 𝑓 𝑝
Tot 𝑁 𝟏 𝟏𝟎𝟎%
-
11
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzione di frequenze
• Si possono calcolare solo se il carattere è ordinabile
• Frequenze cumulate assolute: 𝑁 = ∑ 𝑛 , ∀𝑗 = 1, 2, … , 𝑘
• 𝑁 = 𝑛 , 𝑁 = 𝑁 + 𝑛 ∀𝑗 = 2, 3, … , 𝑘; 𝑁 = 𝑁
𝒋 𝑿 Frequenze assolute
Frequenze relative
Frequenze percentuali
Frequenze cumulate assolute
1 𝑥 𝑛 𝑓 𝑝 𝑁 = 𝑛
2 𝑥 𝑛 𝑓 𝑝 𝑁 = 𝑛 + 𝑛
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝒌 𝑥 𝑛 𝑓 𝑝 𝑁 = 𝑁
Tot 𝑁 𝟏 𝟏𝟎𝟎
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzione di frequenze
• Frequenze cumulate relative: 𝐹 = ∑ 𝑓 = , ∀𝑗 = 1, 2, … , 𝑘
• 𝐹 = 𝑓 , 𝐹 = 𝐹 + 𝑓 ∀𝑗 = 2, 3, … , 𝑘; 𝐹 = 1
𝒋 𝑿 Frequenze assolute
Frequenze relative
Frequenze percentuali
Frequenze cumulate assolute
Frequenze cumulate relative
1 𝑥 𝑛 𝑓 𝑝 𝑁 = 𝑛 𝐹 = 𝑓
2 𝑥 𝑛 𝑓 𝑝 𝑁 = 𝑛 + 𝑛 𝐹 = 𝑓 + 𝑓
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝒌 𝑥 𝑛 𝑓 𝑝 𝑁 = 𝑁 𝐹 = 1
Tot 𝑁 𝟏 𝟏𝟎𝟎
-
12
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzioni in classi
• Per caratteri quantitativi e numero 𝑘 di diverse modalità osservate elevato (di solito capita con caratteri continui e 𝑁 elevato)
• Aggregazione delle modalità contigue in intervalli disgiunti (classi)• La classe 𝑗-ma ha un estremo inferiore 𝑙 e un estremo superiore 𝑙 , per ogni 𝑗 =
1, 2, … , 𝑘, dove ora 𝑘 indica il numero di classi e non più di modalità• La classe può essere chiusa a destra (𝑙 , 𝑙 ], a sinistra 𝑙 , 𝑙
• In questi casi 𝑙 = 𝑙 per coprire tutte le possibili modalità di 𝑋
• Oppure la classe può essere chiusa ad entrambi i lati 𝑙 , 𝑙• Usata per i caratteri discreti• In questo caso 𝑙 ≠ 𝑙 perché gli intervalli devono essere disgiunti
• La frequenza assoluta 𝑛 indica il numero di osservazioni che cadono nell’intervallo della rispettiva classe
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzioni in classi
• Per ogni classe è necessario trovare un valore rappresentativo, solitamente e in assenza di altre informazioni si usa il valore centrale
𝑥 =𝑙 + 𝑙
2• Il valore rappresentativo servirà per calcolare gli indici
-
13
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzioni in classi
• Inoltre si possono calcolare ampiezza e densità di frequenza della classe
• La densità di frequenza ℎ è pari al rapporto fra frequenza assoluta 𝑛e ampiezza 𝑑
ℎ =𝑛
𝑑 ∀𝑗 = 1, 2, … , 𝑘
doveCasi Ampiezza
Caratteri continui o 𝑙 , 𝑙 o [𝑙 , 𝑙 ) 𝑑 = 𝑙 − 𝑙
Caratteri discreti e [𝑙 , 𝑙 ] 𝑑 = 𝑙 − 𝑙 + 1
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Distribuzioni in classi
• All’interno della classe 𝑗-esima, il numero «atteso» di unità appartenenti ad un intervallo di ampiezza 𝛿 ≤ 𝑑 è pari a
𝑛 𝛿; 𝑗 =𝑛
𝑑⋅ 𝛿 = ℎ ⋅ 𝛿
-
14
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Dove trovare dati statistici: alcuni esempi
https://www.kaggle.comhttps://ec.europa.eu/eurostat/data/databasehttp://dati.istat.it/https://www.bancaditalia.it/statistiche/https://it.finance.yahoo.com/
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio
ID Nome Genere Titolo di studio Numero di utilizzi
Spesa complessiva
3854 Paolo M Laurea 18 1984,89
2974 Francesca F S. Superiore 22 1628,44
9087 Antonio M S. Media 19 1273,89
6383 Alberto M S. Superiore 105 8842,13
9372 Luca M S. Media 96 8065,50
5564 Anna F Laurea 77 6296,27
8799 Maria F Dottorato 122 11595,43
1432 Paolo M S. Superiore 252 18184,71
8631 Alberto M Laurea 191 18854,31
9234 Anna F Laurea 73 4763,20
Dati carta fedeltà di alcuni clienti di un supermercato
-
15
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio
𝒊 𝑿
1 Laurea
2 S. Superiore
3 S. Media
4 S. Superiore
5 S. Media
6 Laurea
7 Dottorato
8 S. Superiore
9 Laurea
10 Laurea
𝑋 = "titolo di studio", 𝑁 = 10
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio
𝒋 𝑿 𝒏𝒋
1 S. Media 2
2 S. Superiore 3
3 Laurea 4
𝟒 Dottorato 1
Tot. 10
𝑋 = "titolo di studio", 𝑁 = 10, 𝑘 = 4
-
16
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio
𝒋 𝑿 𝒏𝒋 𝒇𝒋
1 S. Media 2 0,20
2 S. Superiore 3 0,30
3 Laurea 4 0,40
𝟒 Dottorato 1 0,10
Tot. 10 1,00
𝑋 = "titolo di studio", 𝑁 = 10, 𝑘 = 4
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio
𝒋 𝑿 𝒏𝒋 𝒇𝒋 𝒑𝒋
1 S. Media 2 0,20 20%
2 S. Superiore 3 0,30 30%
3 Laurea 4 0,40 40%
𝟒 Dottorato 1 0,10 10%
Tot. 10 1,00 100%
𝑋 = "titolo di studio", 𝑁 = 10, 𝑘 = 4
-
17
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio
𝒋 𝑿 𝒏𝒋 𝒇𝒋 𝒑𝒋 𝑵𝒋
1 S. Media 2 0,20 20% 2
2 S. Superiore 3 0,30 30% 5
3 Laurea 4 0,40 40% 9
𝟒 Dottorato 1 0,10 10% 10
Tot. 10 1,00 100%
𝑋 = "titolo di studio", 𝑁 = 10, 𝑘 = 4
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio
𝒋 𝑿 𝒏𝒋 𝒇𝒋 𝒑𝒋 𝑵𝒋 𝑭𝒋
1 S. Media 2 0,20 20% 2 0,20
2 S. Superiore 3 0,30 30% 5 0,50
3 Laurea 4 0,40 40% 9 0,90
𝟒 Dottorato 1 0,10 10% 10 1,00
Tot. 10 1,00 100%
𝑋 = "titolo di studio", 𝑁 = 10, 𝑘 = 4
-
18
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio
𝒋 Classi 𝑿 𝒙𝒋 𝒏𝒋 𝒅𝒋 𝒉𝒋 𝒇𝒋 𝒑𝒋 𝑵𝒋 𝑭𝒋1 (0, 2] 1,0 3 2 0,1500 0,30 30% 3 0,30
2 (2, 5] 3,5 1 3 0,0333 0,10 10% 4 0,40
3 (5, 10] 7,5 3 5 0,0600 0,30 30% 7 0,70
𝟒 (10, 15] 12,5 1 5 0,0200 0,10 10% 8 0,80
𝟓 (15, 20] 17,5 2 5 0,0400 0,20 20% 10 1,00
Tot. 10 1,00 100%
𝑋 = "spesa complessiva in migliaia di Euro", 𝑁 = 10, 𝑘 = 5
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Rappresentazioni grafiche
-
19
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Diagramma ad aste
• Distribuzioni di frequenze per caratteri quantitativi• Modalità: 𝑥 < 𝑥 < ⋯ < 𝑥 < ⋯ < 𝑥• Frequenze: assolute 𝑛 , 𝑛 , … , 𝑛 , … , 𝑛 oppure relative
𝑓 , 𝑓 , … , 𝑓 , … , 𝑓
• È la rappresentazione grafica della funzione
𝑛 𝑥 =𝑛 , per 𝑥 = 𝑥 , 𝑗 = 1, 2, … , 𝑘
0 altroveoppure
𝑓 𝑥 =𝑓 , per 𝑥 = 𝑥 , 𝑗 = 1, 2, … , 𝑘
0 altrove
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Diagramma ad aste: esempio
• 𝑋 = "numero di tracce in album musicali di un gruppo musicale"
𝒋 𝒙𝒋 𝒏𝒋
1 12 3
2 14 6
3 15 8
4 18 7
5 21 1
Tot. 25
-
20
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Diagramma ad aste: esempio
• 𝑋 = "numero di tracce in album musicali di un gruppo musicale"
𝒋 𝒙𝒋 𝒏𝒋 𝒇𝒋
1 12 3 0,12
2 14 6 0,24
3 15 8 0,32
4 18 7 0,28
5 21 1 0,04
Tot. 25 1,00
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Istogramma
• Distribuzioni di frequenze per caratteri quantitativi continuiraggruppati in classi
• Rettangoli al posto di aste• In ascissa si mettono gli estremi delle classi 𝑙 , 𝑙 (quindi le basi dei
rettangoli sono pari alle ampiezze delle classi 𝑑 )• Le altezze dei rettangoli sono pari alle densità di frequenza ℎ =
• Le frequenze sono rappresentate dalle aree dei rettangoli:𝑑 ⋅ ℎ = 𝑑 ⋅
𝑛
𝑑= 𝑛
-
21
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Istogramma: esempio
• 𝑁 = 374 aziende
• 𝑋 = "fatturato in milioni di euro"
𝒋 Classi 𝒏𝒋 𝒅𝒋 𝒉𝒋1 [0,4; 0,6) 6 0,2 30,00
2 [0,6; 0,7) 29 0,1 290,00
3 [0,7; 0,9) 97 0,2 485,00
4 [0,9; 1,3) 173 0,4 432,50
5 [1,3; 1,7) 58 0,4 145,00
6 [1,7; 2,0) 6 0,3 20,00
7 [2,0; 2,3) 5 0,3 16,67
Tot. 374
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Funzione di ripartizione
• Sia 𝑋 un carattere quantitativo osservato in un collettivo statistico di 𝑁unità. Si chiama funzione di ripartizione, 𝐹(𝑥), la funzione che associa a un qualsiasi numero, 𝑥, dell’asse reale la frequenza relativa delle unità del collettivo per cui 𝑋 ≤ 𝑥
• Distribuzioni di frequenze per caratteri quantitativi
𝐹 𝑥 =
0, per 𝑥 < 𝑥𝐹 , per 𝑥 ≤ 𝑥 < 𝑥 , 𝑗 = 1, 2, … , 𝑘 − 1
1 per 𝑥 ≥ 𝑥
• È una funzione a salti• I salti avvengono in corrispondenza delle 𝑥 e l’ampiezza del salto
corrisponde alla frequenza relativa 𝑓
-
22
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Funzione di ripartizione: esempio 1
• 𝑋 = "numero di tracce in album musicali di un gruppo musicale"
𝒋 𝒙𝒋 𝒏𝒋 𝒇𝒋 𝑭𝒋
1 12 3 0,12 0,12
2 14 6 0,24 0,36
3 15 8 0,32 0,68
4 18 7 0,28 0,98
5 21 1 0,04 1,00
Tot. 25 1,00
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Funzione di ripartizione
• Distribuzioni di frequenze per caratteri quantitativi continui raggruppati in classi
• Ipotizzando una distribuzione uniforme all’interno della classe (ovvero si associa la stessa densità di frequenza ℎ ad ogni valore di 𝑥 nella classe)
𝐹 𝑥 =
0, per 𝑥 < 𝑙
𝐹 +ℎ
𝑁𝑥 − 𝑙 , per 𝑙 ≤ 𝑥 < 𝑙 , 𝑗 = 1, 2, … , 𝑘
1, per 𝑥 ≥ 𝑙
notare rispetto al libro di testoℎ
𝑁𝑥 − 𝑙 =
1
𝑁⋅
𝑛
𝑑𝑥 − 𝑙
-
23
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Funzione di ripartizione: esempio 2
• 𝑁 = 374 aziende
• 𝑋 = "fatturato in milioni di euro"
𝒋 Classi 𝒏𝒋 𝒅𝒋 𝒉𝒋 𝒇𝒋 𝑭𝒋1 [0,4; 0,6) 6 0,2 30,00 0,0160 0,0160
2 [0,6; 0,7) 29 0,1 290,00 0,0775 0,0936
3 [0,7; 0,9) 97 0,2 485,00 0,2594 0,3529
4 [0,9; 1,3) 173 0,4 432,50 0,4626 0,8155
5 [1,3; 1,7) 58 0,4 145,00 0,1551 0,9706
6 [1,7; 2,0) 6 0,3 20,00 0,0160 0,9866
7 [2,0; 2,3) 5 0,3 16,67 0,0134 1,000
Tot. 374 1,0000
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Le medie
-
24
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Classificazione
Analitiche• Ottenute dall’applicazione di
opportune operazioni matematiche a tutti i valori del carattere che formano la distribuzione statistica considerata
• Media aritmetica, geometrica, armonica e quadratica
• Applicabili solo a caratteri quantitativi
Lasche• Nel loro calcolo intervengono solo
alcuni valori specifici della distribuzione (tipicamente quelli che occupano particolari posizioni nella graduatoria
• Mediana, quartili, decili (quantili -medie di posizione), valore centrale e moda
• Medie di posizione anche a caratteri qualitativi ordinali e moda a qualsiasi carattere
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Criteri per definire le medie• Le medie sono indici di posizione, ovvero sono un singolo valore atto a sintetizzare l’intera
distribuzione (necessariamente con della perdita di informazione), pertanto è ragionevole che𝑥 ≤ 𝑀 ≤ 𝑥
• Criterio di invarianza di Chisini𝑓 𝑥 , 𝑥 , … , 𝑥 = 𝑓(𝑀, 𝑀, … , 𝑀)
• 𝑓 𝑥 , 𝑥 , … , 𝑥 = ∑ 𝑥 , si ottiene la media aritmetica• 𝑓 𝑥 , 𝑥 , … , 𝑥 = ∏ 𝑥 , si ottiene la media geometrica• 𝑓 𝑥 , 𝑥 , … , 𝑥 = ∑ , si ottiene la media armonica• 𝑓 𝑥 , 𝑥 , … , 𝑥 = ∑ 𝑥 , si ottiene la media quadratica
• Criterio della minima perdita (somma degli scarti assoluti)
min 𝑥 − 𝑀
• 𝑟 = 1, si ottiene la mediana (che non è una media analitica)• 𝑟 = 2, si ottiene la media aritmetica
-
25
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica
• Chisini: 𝑥 + 𝑥 + ⋯ 𝑥 = 𝑀 + 𝑀 + ⋯ + 𝑀• Esempio: 𝑁 = 5 amici escono a cena, i conti separati sono: 36€, 42€,
41€, 35€, 33€ per un conto complessivo di 𝑇 = 187€. Gli amici decidono di dividere in parti uguali di 𝑀 = = 37,4€ a testa.
𝜇 = 𝜇 =𝑥 + 𝑥 + ⋯ 𝑥
𝑁=
1
𝑁𝑥
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica: proprietà (a)
• Internalità: la media aritmetica è compresa tra il minimo ed il massimo della distribuzione
𝑥 ≤ 𝜇 ≤ 𝑥
• Dimostrazione:
𝑥 ≤ 𝑥 ≤ 𝑥
somme di costanti
𝑁𝑥 ≤ 𝑥 ≤ 𝑁𝑥
dividiamo tutto per 𝑁
𝑥 ≤1
𝑁𝑥 ≤ 𝑥
-
26
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica: proprietà (b)
• La media aritmetica rispecchia il criterio di invarianza di Chisini per la funzione matematica «somma dei termini»:
𝑥 = 𝑁𝜇
• Dimostrazione:1
𝑁𝑥 = 𝜇
moltiplichiamo per 𝑁𝑁
𝑁𝑥 = 𝑁𝜇
svolgiamo la sommatoria ed il prodotto𝑥 + 𝑥 + ⋯ + 𝑥 = 𝜇 + 𝜇 + ⋯ + 𝜇
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica: proprietà (c)• La somma algebrica degli scarti della media aritmetica è nulla
𝑥 − 𝜇 = 0
(gli scarti positivi si compensano con gli scarti negativi)• Dimostrazione:
proprietà associativa della sommatoria
𝑥 − 𝜇 = 𝑥 + −𝜇
sommare 𝑁 volte una costante è pari alla costante moltiplicata per 𝑁
𝑥 + −𝜇 = 𝑥 + −𝜇 𝑁
per la proprietà (b)𝑥 + −𝜇 𝑁 = 𝜇𝑁 − 𝜇𝑁 = 0
-
27
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica: proprietà (d)• La somma dei quadrati degli scarti dei termini della distribuzione da una costante 𝑐 è minima quando 𝑐 è uguale alla media aritmetica
𝑥 − 𝜇 = min 𝑥 − 𝑐
(criterio della minima perdita con 𝑟 = 2, gli scarti al quadrato sono tutti positivi)
• Dimostrazione:
𝑥 − 𝑐 = 𝑥 − 𝝁 + 𝝁 − 𝑐 = 𝑥 − 𝜇 + 𝜇 − 𝑐 =
quadrato del binomio 𝑎 + 𝑏 = 𝑎 + 𝑏 − 2𝑎𝑏 dove i due attendi sono 𝑎 = (𝑥 − 𝜇) e 𝑏 = 𝜇 − 𝑐
= 𝑥 − 𝜇 + 𝜇 − 𝑐 − 2 𝑥 − 𝜇 𝜇 − 𝑐 =
proprietà associativa della sommatoria e, sommatoria di costanti costante che si può portare fuori
= 𝑥 − 𝜇 + 𝑁 𝜇 − 𝑐 − 2 𝜇 − 𝑐 𝑥 − 𝜇 =
proprietà (c) l’ultimo addendo è nullo
𝑥 − 𝑐 = 𝑥 − 𝜇 + 𝑁 𝜇 − 𝑐
notare che 𝑁 𝜇 − 𝑐 ≥ 0 ed è 0 solo se 𝑐 = 𝜇
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica: proprietà (e)
• Linearità: data la distribuzione 𝑥 , 𝑥 , … , 𝑥 con media aritmetica 𝜇 e la trasformazione lineare 𝑦 = 𝑎 + 𝑏𝑥 per ogni 𝑖 = 1, 2, … , 𝑁, allora la media aritmetica 𝜇 della distribuzione 𝑦 , 𝑦 , … , 𝑦 è paria a 𝜇 = 𝑎 + 𝑏𝜇
• Dimostrazione:
𝜇 =1
𝑁𝑦 =
1
𝑁(𝑎 + 𝑏𝑥 ) =
1
𝑁𝑎 + (𝑏𝑥 ) =
=1
𝑁𝑎𝑁 + 𝑏 𝑥 =
𝑎𝑁
𝑁−
𝑏
𝑁𝑥 = 𝑎 + 𝑏
1
𝑁𝑥 = 𝑎 + 𝑏𝜇
-
28
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica: proprietà (f)• Associativa: se un collettivo statistico di 𝑁 unità è suddiviso in 𝐿 sottoinsiemi disgiunti aventi
numerosità 𝑁 , 𝑁 , … , 𝑁 e medie aritmetiche 𝜇 , 𝜇 , … , 𝜇 , la media aritmetica del collettivo può essere calcolata nel modo seguente:
𝜇 =𝜇 𝑁 + 𝜇 𝑁 + ⋯ + 𝜇 𝑁
𝑁 + 𝑁 + ⋯ + 𝑁• Dimostrazione:
la media aritmetica complessiva è pari al totale del collettivo 𝑇 rapportato al numero di unità 𝑁: 𝜇 = .La media aritmetica del 𝑗-esimo sottoinsieme è pari al totale del sottoinsieme 𝑇 rapportato al numero di unità del sottoinsieme 𝑁 : 𝜇 = da cui 𝑇 = 𝜇 𝑁
Dato che i sottoinsiemi sono disgiunti ed esaustivi si ha che: 𝑇 = 𝑇 + 𝑇 + ⋯ + 𝑇 e 𝑁 =𝑁 + 𝑁 + ⋯ + 𝑁pertanto
𝜇 =𝑇
𝑁=
𝑇 + 𝑇 + ⋯ + 𝑇
𝑁 + 𝑁 + ⋯ + 𝑁=
𝜇 𝑁 + 𝜇 𝑁 + ⋯ + 𝜇 𝑁
𝑁 + 𝑁 + ⋯ + 𝑁
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica: esempio𝑁=5 amici escono a cena, i conti separati sono: 36€, 42€, 41€, 35€, 33€ per un conto complessivo di 𝑇=187€. Gli amici decidono di dividere in parti uguali di 𝜇=𝑇/𝑁=37,4€ a testa.Proprietà:a) Il conto medio 37,4€ è maggiore del conto minimo 33€ e minore del conto massimo 42€b) Che ciascuno paghi il proprio conto o che paghino tutti la stessa quota, l’importante è pagare il conto complessivo al ristoratorec) Qualcuno è in credito (scarti negativi), qualcuno in debito (scarti positivi), ma l’intero gruppo paga il dovuto:
(36 – 37,4)+(42 – 37,4)+(41 – 37,4)+(35 – 37,4)+(33 – 37,4)=-1,4+4,6+3,6-2,4-4,4=0d) Un qualsiasi altro valore, oltre a non pagare il conto esatto avrebbe introdotto maggiore disparità tra gli amici, infatti con la
media aritmetica la somma degli scarti al quadrato è pari a 1,96+21,16+12,96+5,76+19,36=61,2, se invece avessero pagato 40€(a testa la somma degli scarti al quadrato sarebbe stata pari a 16+4+1+25+49=95 (oltre a ricevere un resto di 13€)
e) Il ristoratore da uno sconto del 20% ai clienti (𝑦 = 𝑥 1 − 0,2 = 𝑥 0,8) che devono quindi pagare rispettivamente 28,8€, 33,6€, 32,8€, 28€, 26,4€ a testa. Mediamente pagheranno 37,4€ 80% = 29,92€.
f) Il gruppo è composto da due famiglie, una di due persone (quelle che pagano 36€ e 42€) e l’altra composta dalle restanti tre persone. Quindi la spesa della prima famiglia è di 78€ (mediamente 39€ a persona) e la seconda famiglia spende 109€ (36,33€ a persona).La media complessiva è sempre 39 ⋅ 2 + 36,33 ⋅ 3
2 + 3=
187
5= 37,4
-
29
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica per distribuzioni di frequenze
𝜇 =𝑥 𝑛 + 𝑥 𝑛 + ⋯ + 𝑥 𝑛
𝑁=
=1
𝑁𝑥 𝑛 =
= 𝑥𝑛
𝑁= 𝑥 𝑓 =
= 𝑥 𝑓 + 𝑥 𝑓 + ⋯ + 𝑥 𝑓
𝒋 𝒙𝒋 𝒏𝒋 𝒙𝒋 𝒏𝒋
𝟏 𝑥 𝑛 𝑥 𝑛
𝟐 𝑥 𝑛 𝑥 𝑛
⋮ ⋮ ⋮ ⋮
𝒌 (≠ 𝑵) 𝑥 𝑛 𝑥 𝑛
(? ) 𝑵 𝑻
𝜇 =𝑇
𝑁
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica per distribuzioni di frequenze: esempioLa tabella a financo riporta la distribuzione di frequenze del numero 𝑋 di inquilini di 𝑁 = 33appartamenti di un palazzo
𝒋 𝒙𝒋 𝒏𝒋
𝟏 0 3
𝟐 1 5
𝟑 2 8
𝟒 3 9
𝟓 4 5
𝟔 5 2
𝟕 7 1
-
30
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica per distribuzioni di frequenze: esempioLa tabella a financo riporta la distribuzione di frequenze del numero 𝑋 di inquilini di 𝑁 = 33appartamenti di un palazzoNel palazzo ci sono in tutto 𝑇 =85 inquiliniCiascun appartamento ha mediamente 𝜇 = = =2,5758 inquilini.
𝒋 𝒙𝒋 𝒏𝒋 𝒙𝒋 𝒏𝒋 𝒇𝒋 𝒙𝒋 𝒇𝒋
𝟏 0 3 0 0,0909 0,0000
𝟐 1 5 5 0,1515 0,1515
𝟑 2 8 16 0,2424 0,4848
𝟒 3 9 27 0,2727 0,8182
𝟓 4 5 20 0,1515 0,6061
𝟔 5 2 10 0,0606 0,3030
𝒌 = 𝟕 7 1 7 0,0303 0,2121
Tot. 𝑵 =𝟑𝟑
𝑻 =𝟖𝟓
𝟏, 𝟎𝟎𝟎𝟎 𝝁 =𝟐, 𝟓𝟕𝟓𝟕
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica per datiraggruppati in classi• In assenza di altre informazioni si usa il valore centrale della classe
come valore di riferimento e si applica la stessa procedura vista per le distribuzioni di frequenze
• Se sono disponibili i totali di classe 𝑡 , si consideri che le classi sono insiemi disgiunti, pertanto è possibile calcolare le medie di classe 𝜇 = e applicare la proprietà associativa della media aritmetica.
-
31
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica per datiraggruppati in classi: esempioLa tabella a fianco riporta la distribuzione delle retribuzioni mensili 𝑋 (in migliaia di euro) di 𝑁 = 42 dipendenti di un’azienda. I dati sono raggruppati in classi e per ogni classe è riportato il totale
𝒋 Classi 𝒏𝒋 𝒕𝒋1 (0; 1] 4 3,4
2 (1; 1,5] 14 19,6
3 (1,5; 2] 21 34,65
4 (2; 4] 3 8,1
Tot. 42 65,75
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Media aritmetica per datiraggruppati in classi: esempioLa tabella a fianco riporta la distribuzione delle retribuzioni mensili 𝑋 (in migliaia di euro) di 𝑁 =42 dipendenti di un’azienda. I dati sono raggruppati in classi e per ogni classe è riportato il totale.Notare l’internalità delle medie di ciascuna classeNotare che 𝑥 𝑛 = 𝑡Quindi mediamente ciascun dipendente riceve 𝜇 = = , =1,5655 migliaia di euro al mese.
𝒋 Classi 𝒏𝒋 𝒕𝒋 𝒙𝒋 = 𝝁 𝒋
1 (0; 1] 4 3,4 0,85
2 (1; 1,5] 14 19,6 1,40
3 (1,5; 2] 21 34,65 1,65
4 (2; 4] 3 8,1 2,70
Tot. 𝑁 = 42 𝑇= 65,75
-
32
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (1)
• Tizio ha investito 1000€ in un titolo azionario.• Al termine del primo mese il valore del capitale è x = 1,04 volte il valore del mese
precedente• Al termine del secondo mese il valore del capitale è x = 1,01 volte il valore del
mese precedente• Al termine del terzo mese il valore del capitale è x = 0,97 volte il valore del mese
precedente• Al termine del quarto mese il valore del capitale è x = 1,02 volte il valore del mese
precedente• Qual è il valore del montante finale 𝑇? Ovvero il valore del capitale al
termine del periodo considerato 𝑁 = 4 mesi• Qual è il fattore di interesse medio 𝑀? Ovvero di mese in mese, qual è
quella proporzione costante che sostituita alle quattro elencate restituisce lo stesso montante finale?
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (1)
• Alla fine del primo mese il capitale vale Euro1000 ⋅ 1,04 = 1040
• Alla fine del secondo mese il capitale vale Euro1000 ⋅ 1,04 ⋅ 1,01 = 1040 ⋅ 1,01 = 1050,40
• Alla fine del terzo mese il capitale vale Euro1000 ⋅ 1,04 ⋅ 1,01 ⋅ 0,97 = 1050,4 ⋅ 0,97 = 1018,89
• Alla fine del quarto mese, ovvero il montante finale, il capitale vale Euro1000 ⋅ 1,04 ⋅ 1,01 ⋅ 0,97 ⋅ 1,02 = 1018,89 ⋅ 1,02 =1039,27
-
33
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (1)• Il montante finale lo abbiamo calcolato come
𝑇 = 1000 ⋅ 𝑥 ⋅ 𝑥 ⋅ 𝑥 ⋅ 𝑥 = 1000 ⋅ 𝑥
con 𝑁 = 4• Per trovare il fattore di interesse costante, secondo Chisini, sostituiamo le diverse 𝑥 con il valore costante 𝑀
𝑇 = 1000 ⋅ 𝑀 ⋅ 𝑀 ⋅ 𝑀 ⋅ 𝑀 = 1000 ⋅ 𝑀Pertanto secondo il principio di Chisini la media si dovrebbe usare la media geometrica
1000 ⋅ 𝑥 = 1000 ⋅ 𝑀
𝑥 = 𝑀
𝑀 = 𝜇 = 𝑥
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (1)
• Il fattore di interesse costante è quindi
1,04 ⋅ 1,01 ⋅ 0,97 ⋅ 1,02 = 1,0097
• Ovvero, essendo maggiore di 1, sebbene tra il secondo ed il terzo mese il valore è diminuito, mediamente si è osservata una crescita del valore del capitale dello 1,0097 − 1 ⋅ 100 = 0,97%.
-
34
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Proprietà media geometricaLa media geometrica ha una proprietà che ne semplifica il calcolo. Si noti in fatti che la produttoria potrebbe portare a numeri molto elevati!
𝜇 = 𝑥 = 𝑥
𝜇 = 𝑒 ∏
Per la regola dell’esponente del logaritmo ln 𝑥 = 𝑎 ln 𝑥
𝜇 = 𝑒∏
Per la regola del prodotto del logarimo ln 𝑎 ⋅ 𝑏 = ln 𝑎 + ln 𝑏𝜇 = 𝑒
∑
Ovvero𝜇 = 𝑒
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (1)
𝒊 𝑿 𝒍𝒏 𝑿
𝟏 1,04 0,0392
𝟐 1,01 0,0100
𝟑 0,97 −0,0305
𝟒 1,02 0,0198
Tot. 𝟎, 𝟎𝟑𝟖𝟓
𝜇 =0,0385
4= 0,0096
𝜇 = exp 0,0096 = 1,0097
-
35
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (2)
• Un automobile percorre 𝑁 = 5Km• Il primo chilometro lo percorre a 𝑥 = 50Km/h• Il secondo chilometro lo percorre a 𝑥 = 60Km/h• Il terzo chilometro lo percorre a 𝑥 = 90Km/h• Il quarto chilometro lo percorre a 𝑥 = 95Km/h• Il quinto chilometro lo percorre a 𝑥 = 30Km/h• Qual è il tempo complessivo di percorrenza 𝑇?• Qual è quella velocità costante 𝑀 che avrebbe permesso l’automobile
a percorrere gli 𝑁 = 5Km nello stesso tempo 𝑇?
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (2)
• Il primo chilometro lo percorre in = = 0,0200 ore
• Il secondo chilometro lo percorre in = = 0,0167 ore
• Il terzo chilometro lo percorre in = = 0,0111 ore
• Il quarto chilometro lo percorre in = = 0,0105 ore
• Il quinto chilometro lo percorre in = = 0,0333 ore
• Per un temo totale di 𝑇 = 0,0200 + 0,0167 + 0,0111 + 0,0105 +0,0330 = 0,0916 ore
-
36
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (2)
• Secondo il principio di invarianza di Chisini, la velocità media dev’essere calcolata attraverso la media armonica
1
𝑥+
1
𝑥+
1
𝑥+
1
𝑥+
1
𝑥=
1
𝑀+
1
𝑀+
1
𝑀+
1
𝑀+
1
𝑀
1
𝑥=
𝑁
𝑀
𝑀 = 𝜇 =𝑁
∑1𝑥
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (2)
𝒊 𝑿 𝟏
𝑿
𝟏 50 0,0200
𝟐 60 0,0167
𝟑 90 0,0111
𝟒 95 0,0105
𝟓 30 0,0333
Tot. 𝟎, 𝟎𝟗𝟏𝟔
𝑀 = 𝜇 =5
0,0916= 54,5815
𝐾𝑚
ℎ
-
37
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (3)
• Si considerino i seguenti 𝑁 = 3quadrati, ciascuno di lato 𝑥 , con 𝑖 = 1, 2, 3
• Qual è la loro superficie complessiva 𝑇?
• Quale lato 𝑀 dovrebbero avere gli 𝑁 = 3 quadrati per essere uguali tra di loro e avere superficie complessiva uguale a 𝑇?
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (3)
𝑇 = 𝑥 + 𝑥 + 𝑥𝑇 = 𝑀 + 𝑀 + 𝑀
Secondo il principio di invarianza di Chisini si dovrebbe adottare la media quadratica
𝑀 = 𝜇 =1
𝑁𝑥
𝒊 𝑿 𝑿𝟐
𝟏 2 4
𝟐 5 25
𝟑 7 49
Tot. 𝑻 = 𝟕𝟖
-
38
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempi sulle altre medie analitiche (3)
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Medie analitiche di potenza
• La media di potenza di ordine 𝑟di una distribuzione statistica disaggregata 𝑥 , 𝑥 , … , 𝑥 è data da
𝜇 =1
𝑁𝑥
dove 𝑟 è un numero qualsiasi nell’intervallo (−∞, ∞)
𝒓 Nome Notazione
𝑟 → −∞ Minimo 𝑥
−1 M. armonica 𝜇 , 𝜇
𝑟 → 0 M. geometrica 𝜇 , 𝜇
1 M. aritmetica 𝜇 , 𝜇
2 M. quadratica 𝜇 , 𝜇
𝑟 → ∞ Massimo 𝑥
𝑥 ≤ 𝜇 ≤ 𝜇 ≤ 𝜇 ≤ 𝜇 ≤ 𝑥
-
39
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Medie analitiche di potenza
• La media di potenza di ordine 𝑟di una distribuzione statistica 𝑥 , 𝑥 , … , 𝑥 con frequenze assolute 𝑛 , 𝑛 , … , 𝑛 è data da
𝜇 =1
𝑁𝑥 ⋅ 𝑛
dove 𝑟 è un numero qualsiasi nell’intervallo (−∞, ∞)
𝒓 Nome Notazione
𝑟 → −∞ Minimo 𝑥
−1 M. armonica 𝜇 , 𝜇
𝑟 → 0 M. geometrica 𝜇 , 𝜇
1 M. aritmetica 𝜇 , 𝜇
2 M. quadratica 𝜇 , 𝜇
𝑟 → ∞ Massimo 𝑥
𝑥 ≤ 𝜇 ≤ 𝜇 ≤ 𝜇 ≤ 𝜇 ≤ 𝑥
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Medie analitiche di potenza
In particolare la media geometrica nel caso di distribuzioni di frequenza può essere calcolata come segue
𝜇 = 𝜇 = 𝑥 = exp1
𝑁ln 𝑥 𝑛
-
40
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Medie lasche: la mediana
• Sia 𝑥 , 𝑥 , … , 𝑥 una distribuzione statistica disaggregata; sia 𝑥 , 𝑥 , … , 𝑥 , con 𝑥 ≤ 𝑥 ≤ ⋯ ≤ 𝑥 , la corrispondente distribuzione dei termini ordinati in senso non decrescente
• Se 𝑁 è dispari, si chiama mediana della distribuzione la quantità, 𝑚, che occupa il posto centrale, cioè il posto , della graduatoria dei termini ordinati
• Se 𝑁 è pari, si assume come mediana la media aritmetica dei termini che occupano i due posti centrali della graduatoria dei termini ordinati, ossia le posizioni e + 1
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Medie lasche: la mediana
𝑚 =
𝑥 , se 𝑁 è dispari
1
2𝑥 + 𝑥 , se 𝑁 è pari
-
41
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana: esempio (1)
• Esempio, nella tabella a fianco viene riportata la distribuzione dell’età di 7 individui
𝒊 𝒙𝒊
𝟏 23
𝟐 62
𝟑 36
𝟒 31
𝟓 21
𝟔 24
𝑵 = 𝟕 28
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana: esempio (1)
• L’età media aritmetica è pari a 𝜇 = = = 32,143
• Si noti che ci sono 5 osservazioni inferiori della media e solo 2 osservazioni superiori
• Sebbene la media aritmetica sia un valore rappresentativo della popolazione, essa non sempre corrisponde con un’osservazione centrale
𝒊 𝒙𝒊
𝟏 23
𝟐 62
𝟑 36
𝟒 31
𝟓 21
𝟔 24
𝑵 = 𝟕 28
Tot. 𝑻 = 𝟐𝟐𝟓
-
42
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana: esempio (1)
• In questo caso 𝑁 = 7 è dispari• La posizione della mediana è
= = 4
• La mediana corrisponde al valore della rispettiva osservazione dopo averle ordinate
𝑚 = 𝑥 = 𝑥 = 28
𝒊 𝒙𝒊 𝒙 𝒊
𝟏 23 21
𝟐 62 23
𝟑 36 24
𝑵 + 𝟏
𝟐= 𝟒
31 𝑚 = 28
𝟓 21 31
𝟔 24 36
𝑵 = 𝟕 28 62
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana: esempio (1)
𝒊 𝒙𝒊 𝒙 𝒊 𝑭𝒊 =𝒊
𝑵
𝟏 23 21 0,143
𝟐 62 23 0,286
𝟑 36 24 0,429
𝑵 + 𝟏
𝟐= 𝟒
31 𝑚 = 28 0,571
𝟓 21 31 0,714
𝟔 24 36 0,857
𝑵 = 𝟕 28 62 1,000
-
43
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana: esempio (2)
• La tabella a fianco riporta la distribuzione delle altezze di 6 individui
𝒊 𝒙𝒊
𝟏 1,64
𝟐 1,81
𝟑 1,72
𝟒 1,59
𝟓 1,77
𝑵 = 𝟔 1,68
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana: esempio (2)
• In questo caso 𝑁 = 6 è pari• La mediana è il valore che sta in
mezzo alle due osservazioni di posizione e + 1
• La mediana corrisponde al valore della rispettiva osservazione dopo averle ordinate
𝑚 =1
2𝑥 + 𝑥
=𝑥 + 𝑥
2=
1,68 + 1,72
2= 1,70
𝒊 𝒙𝒊 𝒙 𝒊
𝟏 1,64 1,59
𝟐 1,81 1,64
𝑵
𝟐= 𝟑
1,72 1,68
𝑵
𝟐è+ 𝟏 = 𝟒
1,59 1,72
𝟓 1,77 1,77
𝑵 = 𝟔 1,68 1,81
-
44
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana : esempio (2)
𝒊 𝒙𝒊 𝒙 𝒊 𝑭𝒊 =𝒊
𝑵
𝟏 1,64 1,59 0,167
𝟐 1,81 1,64 0,333
𝑵
𝟐= 𝟑
1,72 1,68 0,500
𝑵
𝟐è+ 𝟏 = 𝟒
1,59 1,72 0,667
𝟓 1,77 1,77 0,833
𝑵 = 𝟔 1,68 1,81 1,000
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Proprietà della mediana
a) Inclusione tra minimo e massimo𝑥 ≤ 𝑚 ≤ 𝑥
b) Linearità, se si trasformano i dati secondo la funzione𝑦 = 𝑎 + 𝑏 𝑥 , 𝑖 = 1,2, … 𝑁
la mediana dei dati così trasformati, 𝑚 , è legata a quella dei dati iniziali, 𝑚 , dalla relazione
𝑚 = 𝑎 + 𝑏 𝑚
(implica transitività e omogeneità)c) La mediana è il calore 𝑐 che minimizza la somma dei valori assoluti degli scarti
𝑥 − 𝑚 = min |𝑥 − 𝑐|
-
45
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Medie lasche: i quartili
• Sia 𝑙 = 1,2,3 e 𝑓 𝑥 = 𝑥 l’operazione di arrotondamento per eccesso• Sia 𝑥 , 𝑥 , … , 𝑥 una distribuzione statistica disaggregata; sia
𝑥 , 𝑥 , … , 𝑥 , con 𝑥 ≤ 𝑥 ≤ ⋯ ≤ 𝑥 , la corrispondente distribuzione dei termini ordinati in senso non decrescente
• Si cerca ℎ ∶ ℎ − 1 ≤ 𝑁 ⋅ < ℎ
𝑞 =𝑥 , se 𝑁 ⋅
𝑙
4> ℎ − 1
1
2𝑥( ) + 𝑥 , se 𝑁 ⋅
𝑙
4= ℎ − 1
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Quartili: esempio
• Riprendiamo il primo esempio della mediana (età di 𝑁 = 7individui)
• 𝑙 = 1, 𝑁 ⋅ = 7 ⋅ = 1,75
• Il primo quartile 𝑞 è in posizione ℎ = 2
• 𝑁 ⋅ > ℎ − 1
• 𝑞 = 23
𝒊 𝒙𝒊 𝒙 𝒊 𝑭𝒊 =𝒊
𝑵
𝟏 23 21 0,143
𝟐 62 23 0,286
𝟑 36 24 0,429
𝟒 31 28 0,571
𝟓 21 31 0,714
𝟔 24 36 0,857
𝑵 = 𝟕 28 62 1,000
-
46
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Quartili: esempio
• Riprendiamo il primo esempio della mediana (età di 𝑁 = 7individui)
• 𝑙 = 2, 𝑁 ⋅ = 7 ⋅ = 3,5
• Il secondo quartile 𝑞 è in posizione ℎ = 4(come la mediana!)
• 𝑁 ⋅ > ℎ − 1
• 𝑚 = 𝑞 = 28
𝒊 𝒙𝒊 𝒙 𝒊 𝑭𝒊 =𝒊
𝑵
𝟏 23 21 0,143
𝟐 62 23 0,286
𝟑 36 24 0,429
𝟒 31 28 0,571
𝟓 21 31 0,714
𝟔 24 36 0,857
𝑵 = 𝟕 28 62 1,000
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Quartili: esempio
• Riprendiamo il primo esempio della mediana (età di 𝑁 = 7individui)
• 𝑙 = 3, 𝑁 ⋅ = 7 ⋅ = 5,25
• Il terzo quartile 𝑞 è in posizione ℎ = 6
• 𝑁 ⋅ > ℎ − 1
• 𝑞 = 26
𝒊 𝒙𝒊 𝒙 𝒊 𝑭𝒊 =𝒊
𝑵
𝟏 23 21 0,143
𝟐 62 23 0,286
𝟑 36 24 0,429
𝟒 31 28 0,571
𝟓 21 31 0,714
𝟔 24 36 0,857
𝑵 = 𝟕 28 62 1,000
-
47
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Quartili: esempio
𝒊 𝒙𝒊 𝒙 𝒊 𝑭𝒊 =𝒊
𝑵
𝟏 23 21 0,143
𝟐 62 23 0,286
𝟑 36 24 0,429
𝟒 31 28 0,571
𝟓 21 31 0,714
𝟔 24 36 0,857
𝑵 = 𝟕 28 62 1,000
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Quantili
• In generale, se si vuole suddividere la popolazione in 𝑣 insiemi di uguale numerosità (circa) è possibile calcolare 𝑣 − 1 quantili
• Se 𝑣 = 2 si ha solo la mediana 𝑚 (𝑙 = 1)• Se 𝑣 = 4 ci sono tre quartili 𝑞 , 𝑙 = 1, 2, 3• Se 𝑣 = 10 ci sono dieci decili 𝑑 , 𝑙 = 1, 2, … , 9• Se 𝑣 = 100 ci sono 99 percentili, 𝑝 , 𝑙 = 1, 2, … , 99
• Si noti che se i rapporti sono gli stessi si ottengono gli stessi quantili, ad esempio per la mediana il rapporto è = , per il secondo quartile il rapporto è = = , per il quinto decile il rapporto è = = e i tre quantili corrispondono alle stesse quantità
-
48
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Calcolo dei quantili nel caso di distribuzioni di frequenza• Sia 𝑣 il numero di gruppi in cui è ripartita la popolazione (𝑣 = 2 mediana,
𝑣 = 4 quartili)• Sia 𝑙 = 1, … , (𝑣 − 1) l’indice del quantile scelto• Sia 𝑥 , 𝑥 , … , 𝑥 una distribuzione con frequenze 𝑛 , 𝑛 , … , 𝑛• Si cerca ℎ ∶ 𝑁 ≤ 𝑁 ⋅ < 𝑁
• Il quantile 𝑞 è definito come segue
𝑞𝑙
𝑣=
𝑥 , se 𝑁 ⋅𝑙
𝑣> 𝑁
1
2𝑥 + 𝑥 , se 𝑁 ⋅
𝑙
𝑣= 𝑁
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Calcolo dei quantili nel caso di distribuzioni di frequenza• Sia 𝑣 il numero di gruppi in cui è ripartita la popolazione (𝑣 = 2 mediana,
𝑣 = 4 quartili)• Sia 𝑙 = 1, … , (𝑣 − 1) l’indice del quantile scelto• Sia 𝑥 , 𝑥 , … , 𝑥 una distribuzione con frequenze 𝑛 , 𝑛 , … , 𝑛• Si cerca ℎ ∶ 𝐹 ≤ < 𝐹
• Il quantile 𝑞 è definito come segue
𝑞𝑙
𝑣=
𝑥 , se 𝑙
𝑣> 𝐹
1
2𝑥 + 𝑥 , se
𝑙
𝑣= 𝐹
Confronto conFunzione di Ripartizione
-
49
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio: quantili distribuzioni di frequenze
• 32 clienti di un supermercato sono stati classificati in base al numero di volte che hanno fatto la spesa la settimana precedente.
• La tabella a fianco riporta la distribuzione di frequenze.
𝒋 𝒙𝒋 𝒏𝒋
𝟏 0 5
𝟐 1 11
𝟑 2 8
𝟒 3 6
𝒌 = 𝟓 5 2
Tot. 𝑵 = 𝟑𝟐
I valori 𝑥 delle distribuzionidi frequenze sono già ordinati
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio: quantili distribuzioni di frequenze
𝒋 𝒙𝒋 𝒏𝒋 𝑵𝒋 𝑭𝒋
𝟏 0 5 5 0,156
𝟐 1 11 16 0,500
𝟑 2 8 24 0,750
𝟒 3 6 30 0,938
𝒌 = 𝟓 5 2 32 1,000
Tot. 𝑵 = 𝟑𝟐
-
50
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio: quantili distribuzioni di frequenze
• La mediana è il quantile di ordine 𝑙 = 1 per 𝑣 = 2
• 𝑁 ⋅ = 32 ⋅ = 16
• 𝑁 ≤ 16 < 𝑁 ⇒ ℎ = 3
• 𝑁 ⋅ = 𝑁⇓
𝑚 = 𝑞1
2=
𝑥 + 𝑥
2=
1 + 2
2= 1,5
𝒋 𝒙𝒋 𝒏𝒋 𝑵𝒋 𝑭𝒋
𝟏 0 5 5 0,156
𝟐 1 11 16 0,500
𝟑 2 8 24 0,750
𝟒 3 6 30 0,938
𝒌 = 𝟓 5 2 32 1,000
Tot. 𝑵 = 𝟑𝟐
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio: quantili distribuzioni di frequenze
𝒋 𝒙𝒋 𝒏𝒋 𝑵𝒋 𝑭𝒋
𝟏 0 5 5 0,156
𝟐 1 11 16 0,500
𝟑 2 8 24 0,750
𝟒 3 6 30 0,938
𝒌 = 𝟓 5 2 32 1,000
Tot. 𝑵 = 𝟑𝟐
-
51
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio: quantili distribuzioni di frequenze
𝒋 𝒙𝒋 𝒏𝒋 𝑵𝒋 𝑭𝒋
𝟏 0 5 5 0,156
𝟐 1 11 16 0,500
𝟑 2 8 24 0,750
𝟒 3 6 30 0,938
𝒌 = 𝟓 5 2 32 1,000
Tot. 𝑵 = 𝟑𝟐
• Il terzo quartile è il quantile di ordine 𝑙 = 3 per 𝑣 = 4
• 𝑁 ⋅ = 32 ⋅ = 24
• 𝑁 ≤ 24 < 𝑁 ⇒ ℎ = 4
• 𝑁 ⋅ = 𝑁⇓
𝑞 = 𝑞3
4=
𝑥 + 𝑥
2=
2 + 3
2= 2,5
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio: quantili distribuzioni di frequenze
𝒋 𝒙𝒋 𝒏𝒋 𝑵𝒋 𝑭𝒋
𝟏 0 5 5 0,156
𝟐 1 11 16 0,500
𝟑 2 8 24 0,750
𝟒 3 6 30 0,938
𝒌 = 𝟓 5 2 32 1,000
Tot. 𝑵 = 𝟑𝟐
-
52
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio: quantili distribuzioni di frequenze
𝒋 𝒙𝒋 𝒏𝒋 𝑵𝒋 𝑭𝒋
𝟏 0 5 5 0,156
𝟐 1 11 16 0,500
𝟑 2 8 24 0,750
𝟒 3 6 30 0,938
𝒌 = 𝟓 5 2 32 1,000
Tot. 𝑵 = 𝟑𝟐
• Il nono decile è il quantile di ordine 𝑙 = 9 per 𝑣 = 10
• 𝑁 ⋅ = 32 ⋅ = 28,8
• 𝑁 ≤ 28,8 < 𝑁 ⇒ ℎ = 4
• 𝑁 ⋅ > 𝑁⇓
𝑑 = 𝑞9
10= 𝑥 = 3
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Esempio: quantili distribuzioni di frequenze
𝒋 𝒙𝒋 𝒏𝒋 𝑵𝒋 𝑭𝒋
𝟏 0 5 5 0,156
𝟐 1 11 16 0,500
𝟑 2 8 24 0,750
𝟒 3 6 30 0,938
𝒌 = 𝟓 5 2 32 1,000
Tot. 𝑵 = 𝟑𝟐
-
53
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana e quartili nel caso di distribuzioni di frequenze con modalità raggruppate in classi
𝒋 [𝒍𝒋 ; 𝒍𝒋 ) 𝒏𝒋 𝑵𝒋 𝑭𝒋
𝟏 [1; 3) 10 10 0,152
𝟐 [3; 6) 12 22 0,333
𝟑 [6; 8) 18 40 0,606
𝟒 [8; 11) 15 55 0,833
𝒌 = 𝟓 [11; 13) 11 66 1,000
Tot. 𝑵 = 𝟔𝟔
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana e quartili nel caso di distribuzioni di frequenze con modalità raggruppate in classi
𝒋 [𝒍𝒋 ; 𝒍𝒋 ) 𝒏𝒋 𝑵𝒋 𝑭𝒋
𝟏 [1; 3) 10 10 0,152
𝟐 [3; 6) 12 22 0,333
𝟑 [6; 8) 18 40 0,606
𝟒 [8; 11) 15 55 0,833
𝒌 = 𝟓 [11; 13) 11 66 1,000
Tot. 𝑵 = 𝟔𝟔
Per ciascun quantile si cerca la classe di indice ℎ nella qualecade, aiutandosi con le frequenze relative cumulateconfrontandole con il rispettivo rapporto 𝑙/𝑣.La mediana cade nella classe [6; 8) di indice ℎ = 3, mentreper il primo quartile l’indice è ℎ = 2 e per il terzo quartileℎ = 4.
-
54
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana e quartili nel caso di distribuzioni di frequenze con modalità raggruppate in classi
𝑞𝑙
𝑣= 𝑙 +
𝑁 ⋅𝑙𝑣
− 𝑁
𝑁 − 𝑁[𝑙 − 𝑙 ]
Semplificando per 𝑁 la proporzione di incremento può essere calcolata anche tramite le frequenze relative cumulate
𝑞𝑙
𝑣= 𝑙 +
𝑙𝑣
− 𝐹
𝐹 − 𝐹[𝑙 − 𝑙 ]
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana e quartili nel caso di distribuzioni di frequenze con modalità raggruppate in classi
𝑚 = 𝑞 0,5
0,5 ⇒ ℎ = 3
𝑚 = 6 +0,5 − 0,333
0,606 − 0,3338 − 6
= 6 + 0,612 ⋅ 2 = 7,224
-
55
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana e quartili nel caso di distribuzioni di frequenze con modalità raggruppate in classi
𝑞 = 𝑞 0,25
0,25 ⇒ ℎ = 2
𝑞 = 3 +0,25 − 0,152
0,333 − 0,1526 − 3
= 3 + 0,541 ⋅ 3 = 4,623
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Mediana e quartili nel caso di distribuzioni di frequenze con modalità raggruppate in classi
𝑞 = 𝑞 0,75
0,75 ⇒ ℎ = 4
𝑞 = 8 +0,75 − 0,606
0,833 − 0,60611 − 8
= 8 + 0,634 ⋅ 3 = 9,902
-
56
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Medie lasche: il valore centrale
• Caratteri quantitativi• Sia data una distribuzione disaggregata 𝑥 , 𝑥 , … , 𝑥 , … , 𝑥 ; sia
𝑥 , 𝑥 , … , 𝑥 , … , 𝑥 la corrispondente distribuzione dei termini ordinati 𝑥 ≤ 𝑥 ≤ … , ≤ 𝑥 ≤ … , ≤ 𝑥 . 𝑥 e 𝑥 sono rispettivamente il minimo e il massimo. Il valore centrale della distribuzione è la media aritmetica dei valori estremi:
𝜇 =𝑥 + 𝑥
2
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Medie lasche: la moda
• Caratteri qualitativi su scala nominale, su scala ordinale, caratteri quantitativi
• La moda di una distribuzione di frequenze è la modalità che presenta la frequenza più alta
• Nel caso di caratteri quantitativi raggruppati in classi, la classe modale è la classe che presenta la frequenza specifica più alta
-
57
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Diagramma ad aste: esempio passato
• 𝑋 = "numero di tracce in album musicali di un gruppo musicale"
𝒋 𝒙𝒋 𝒏𝒋 𝒇𝒋
1 12 3 0,12
2 14 6 0,24
3 15 8 0,32
4 18 7 0,28
5 21 1 0,04
Tot. 25 1,00
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Diagramma ad aste: esempio passato
• 𝑋 = "numero di tracce in album musicali di un gruppo musicale"
𝒋 𝒙𝒋 𝒏𝒋 𝒇𝒋
1 12 3 0,12
2 14 6 0,24
3 15 8 0,32
4 18 7 0,28
5 21 1 0,04
Tot. 25 1,00
MODA = 15
-
58
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Istogramma: esempio passato
• 𝑁 = 374 aziende
• 𝑋 = "fatturato in milioni di euro"
𝒋 Classi 𝒏𝒋 𝒅𝒋 𝒉𝒋1 [0,4; 0,6) 6 0,2 30,00
2 [0,6; 0,7) 29 0,1 290,00
3 [0,7; 0,9) 97 0,2 485,00
4 [0,9; 1,3) 173 0,4 432,50
5 [1,3; 1,7) 58 0,4 145,00
6 [1,7; 2,0) 6 0,3 20,00
7 [2,0; 2,3) 5 0,3 16,67
Tot. 374
Materiale diStatistica Corso Base (corso serale)
Università Sapienza di RomaAA 2019-2020
DIFFUSIONE GRATUITA
Istogramma: esempio passato
• 𝑁 = 374 aziende
• 𝑋 = "fatturato in milioni di euro"
𝒋 Classi 𝒏𝒋 𝒅𝒋 𝒉𝒋1 [0,4; 0,6) 6 0,2 30,00
2 [0,6; 0,7) 29 0,1 290,00
3 [0,7; 0,9) 97 0,2 485,00
4 [0,9; 1,3) 173 0,4 432,50
5 [1,3; 1,7) 58 0,4 145,00
6 [1,7; 2,0) 6 0,3 20,00
7 [2,0; 2,3) 5 0,3 16,67
Tot. 374
CLASSE MODALE[0,7; 0,9)