la matrice dei dati - analisi esplorativa
TRANSCRIPT
![Page 1: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/1.jpg)
La matrice dei datiAnalisi Esplorativa
Aldo Solari
1 / 56
![Page 2: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/2.jpg)
1 Tipologia di variabili
2 Valori mancanti
3 Valori anomali
4 Matrice dei dati
5 Diagramma di dispersione
2 / 56
![Page 3: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/3.jpg)
I dati
I dati possono essere rappresentati con una tabella n× p
• n osservazioni o unità statistiche: individui, aziende, etc.• p variabili o misurazioni o caratteristiche: altezza, sesso, etc.
Variabile 1 · · · Variabile j · · · Variabile p
Unità statistica 1 x11 · · · x1j · · · x1p
Unità statistica 2 x21 · · · x2j · · · x2p
· · · · · · · · · · · · · · · · · ·Unità statistica i xi1 · · · xij · · · xip
· · · · · · · · · · · · · · · · · ·Unità statistica n xn1 · · · xnj · · · xnp
• n = numerosità dei dati• p = dimensionalità dei dati
3 / 56
![Page 4: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/4.jpg)
Esempio
n = 10 individui e p = 5 variabili:
sesso figli occhi salute peso1 Maschio 0 Azzurri Molto Buona 68.042 Maschio 1 Neri Molto Buona 72.573 Maschio 0 Marroni Media 61.234 Maschio 0 Neri Cattiva 63.505 Maschio 1 Azzurri Buona 49.906 Femmina 0 Marroni Buona 49.907 Femmina 2 Azzurri Molto Buona 54.438 Femmina 0 Marroni Media 54.439 Femmina 0 Neri Media 47.63
10 Femmina 1 Neri Buona 45.36
4 / 56
![Page 5: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/5.jpg)
Outline
1 Tipologia di variabili
2 Valori mancanti
3 Valori anomali
4 Matrice dei dati
5 Diagramma di dispersione
5 / 56
![Page 6: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/6.jpg)
Tipologia di variabili
Le variabili si suddividono in due tipologie:
Qualitative• nominali (in R: Factor), se non esiste nessun ordinamentonaturale tra le modalità ;• ordinali (in R: Ord.factor), se esiste un ordinamento naturaletra le modalità .
Quantitative• discrete (in R: integer), quando sono esprimibili da numeriinteri• continue (in R: numeric), quando sono esprimibili da numerireali
Variabili Dicotomiche: quando le modalità sono solamente due
6 / 56
![Page 7: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/7.jpg)
Tipologia di variabili
VARIABILI
QUALITATIVE QUANTITATIVE
Factor Ord.factor
saluteocchi
integer
figli
numeric
peso
7 / 56
![Page 8: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/8.jpg)
Outline
1 Tipologia di variabili
2 Valori mancanti
3 Valori anomali
4 Matrice dei dati
5 Diagramma di dispersione
8 / 56
![Page 9: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/9.jpg)
Valori mancanti (missing values)
sesso figli IQ occhi salute peso1 Maschio 0 120 Azzurri Molto Buona 68.042 Maschio 1 Neri Molto Buona 72.573 Maschio 0 Marroni Media 61.234 Maschio 0 150 Neri Cattiva 63.505 Maschio 1 92 Azzurri Buona 49.906 Femmina 0 130 Marroni Buona 49.907 Femmina Azzurri Molto Buona 54.438 Femmina 0 Marroni Media 54.439 Femmina 0 84 Neri Media 47.63
10 Femmina 1 70 Neri Buona 45.36
9 / 56
![Page 10: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/10.jpg)
NA
In R, i valori mancanti vengono codificati con NA (Not Available)
sesso figli IQ occhi salute peso1 Maschio 0 120 Azzurri Molto Buona 68.042 Maschio 1 NA Neri Molto Buona 72.573 Maschio 0 NA Marroni Media 61.234 Maschio 0 150 Neri Cattiva 63.505 Maschio 1 92 Azzurri Buona 49.906 Femmina 0 130 Marroni Buona 49.907 Femmina NA NA Azzurri Molto Buona 54.438 Femmina 0 NA Marroni Media 54.439 Femmina 0 84 Neri Media 47.63
10 Femmina 1 70 Neri Buona 45.36
Problema: le tecniche di analisi multivariata che andremo a considerareprevedono osservazioni con tutti i valori presenti.
10 / 56
![Page 11: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/11.jpg)
Esclusione di variabili incomplete
sesso ////figli ///IQ occhi salute peso1 Maschio //0 ////120 Azzurri Molto Buona 68.042 Maschio //1 ////NA Neri Molto Buona 72.573 Maschio //0 ////NA Marroni Media 61.234 Maschio //0 ////150 Neri Cattiva 63.505 Maschio //1 ///92 Azzurri Buona 49.906 Femmina //0 ////130 Marroni Buona 49.907 Femmina ////NA ////NA Azzurri Molto Buona 54.438 Femmina //0 ////NA Marroni Media 54.439 Femmina //0 ///84 Neri Media 47.63
10 Femmina //1 ///70 Neri Buona 45.36
Diminuisce la dimensionalità p dei nostri dati. Però le variabili esclusepotrebbero essere proprio quelle di interesse per l’analisi
11 / 56
![Page 12: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/12.jpg)
Esclusione di osservazioni incomplete
sesso figli IQ occhi salute peso1 Maschio 0 120 Azzurri Molto Buona 68.04//2 /////////Maschio //1 ///NA /////Neri ///////Molto////////Buona //////72.57/3 /////////Maschio //0 ///NA /////////Marroni ///////Media //////61.234 Maschio 0 150 Neri Cattiva 63.505 Maschio 1 92 Azzurri Buona 49.906 Femmina 0 130 Marroni Buona 49.90/7 //////////Femmina ////NA ////NA ////////Azzurri ///////Molto////////Buona ///////54.43/8 //////////Femmina //0 ////NA /////////Marroni/ ///////Media //////54.439 Femmina 0 84 Neri Media 47.6310 Femmina 1 70 Neri Buona 45.36
Diminuisce la numerosità n dei nostri dati. Vi vengono in mente altripotenziali problemi?
12 / 56
![Page 13: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/13.jpg)
WWII
• Quanto segue è realmente accaduto durante la seconda guerramondiale• Obiettivo: proteggere gli aerei da caccia degli alleati negli scontricon i caccia della Luftwaffe• Un caccia (Savoia-Marchetti S.M.79) è un velivolo leggero e agile• Per evitare l’abbattimento, questi aerei venivano corazzati conrobuste lastre di ferro• Problema: quante corazze e dove le mettiamo? Se un aereo non ècorazzato, è facile da abbattere; se è troppo corazzato, è difficileda manovrare• Per un aereo abbiamo 4 settori: (A) ali (B) alimentazione (C)fusoliera (D) motore. Possiamo mettere la corazza in un solosettore. Dove la mettiamo?• Guardiamo i dati degli aerei
13 / 56
![Page 14: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/14.jpg)
Savoia-Marchetti S.M.79
14 / 56
![Page 15: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/15.jpg)
I dati
(a) (b) (c)
(d) (e) (f)
15 / 56
![Page 16: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/16.jpg)
Tabella dei dati
Zona dell’aereo Numero di colpi/dm2
Ali 0.167Alimentazione 0.143
Fusoliera 0.161Motore 0.103
Nota: la media delle densità di colpi (numero di colpi per decimetroquadrato) è calcolata escludendo i valori (aerei) mancanti
Grazie a questa tabella, lo statistico Abraham Wald fu in grado diposizionare la protezione nel punto più rischioso
Fonte: D. Hand (2019) Il tradimento dei numeri. I dark data e l’arte dinascondere la verità. Rizzoli
16 / 56
![Page 17: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/17.jpg)
L’opinione di uno statistico
The armor doesn’t go where the bullet holes are.It goes where the bullet holes aren’t.
The observed holes showed where the planes were strongest;that’s where the planes could be shot and still survive the flight home.The missing holes showed where the planes were weaker;that’s where the planes that didn’t make it back were hit.
Abraham Wald
Pensate di far visita ad un ospedale militare durante una guerra:vi aspettate di osservare più feriti alle gambe o alla testa?
17 / 56
![Page 18: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/18.jpg)
Gli aerei mancanti (non a caso)
18 / 56
![Page 19: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/19.jpg)
Valori mancanti (completamente) a caso
Si parla di valori mancanti (completamente) a caso se i valori mancantisono un campione casuale dei n× p valori possibili.
In tale situazione non ci sono problemi se escludiamo le osservazioni chepresentano almeno un valore mancante (tranne il fatto che diminuisce lanumerosità n)
19 / 56
![Page 20: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/20.jpg)
Dati Titanic
pclass name sex age sibsp parch ticket fare embarked3 Storey male 60.5 0 0 3701 S1 Natsch male 37.0 0 1 PC 17596 29.7 C3 Johansson male 31.0 0 0 347063 7.8 S2 Clarke female 28.0 1 0 2003 26.0 S3 Danbom female 28.0 1 1 347080 14.4 S
20 / 56
![Page 21: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/21.jpg)
Imputazione di dati mancanti• Il passeggerro Mr. Thomas Storey presenta un valore mancante sulprezzo del biglietto (variabile fare)• Tuttavia sappiamo che si è imbarcato a Southampton (variabile
embarked) e viaggiava in terza classe (variabile pclass).• Potrebbe essere sensato sostituire il valore mancante con il prezzomediano pari a 8.1
pclass embarked median fare1 C 76.72 C 15.33 C 7.91 Q 90.02 Q 12.33 Q 7.81 S 52.02 S 15.43 S 8.1
21 / 56
![Page 22: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/22.jpg)
Outline
1 Tipologia di variabili
2 Valori mancanti
3 Valori anomali
4 Matrice dei dati
5 Diagramma di dispersione
22 / 56
![Page 23: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/23.jpg)
Valori anomali (outliers)
Ogni insieme di valori ha un massimo e un minimo, però può capitare diosservare uno o più valori veramente anomali (outliers)
Valore anomalo (outlier)E’ un valore che si discosta dal baricentro della distribuzione più diquanto possa essere giustificato dalla variabilità dei dati.
23 / 56
![Page 24: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/24.jpg)
Perchè sono valori anomali?
Ci possono essere diverse spiegazioni, ad esempio:
Errore di rilevazionee.g. per la variabile altezza, ho imputato 18.4 m invece di 1.84 m
Elevata variabilità intrinseca del fenomeno(code pesanti)e.g. pensate alla variabile reddito
Valori provenienti da una distribuzione diversa(contaminazione)e.g. pensate al peso per animali viventi e animali estinti (dinosauri)
24 / 56
![Page 25: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/25.jpg)
Come si individuano i valori anomali?
Metodi basati sull’esplorazione grafica:
Per una singola variabile• Diagramma a scatola con baffi (boxplot)
Per due variabili• Diagramma di dispersione• Bagplot
25 / 56
![Page 26: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/26.jpg)
Diagramma a scatola con baffi (boxplot)
• Me, Q1 e Q3 sono la mediana, il primo e il terzo quartile• IQR = Q3 −Q1 è il range interquartile• Il baffo a sinistra è il valore massimo tra Min e Q1 − 1.5 · IQR• Il baffo a destra è il valore minimo tra Max e Q3 + 1.5 · IQR
26 / 56
![Page 27: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/27.jpg)
Boxplot e valori anomali
Il diagramma a scatola e baffi (boxplot) identifica un valore anomalo(indicandolo con ◦) con la seguente regola:
Un valore xi, i = 1, . . . , n è anomalo se:• xi < Q1 − 1.5 · IQR oppure se• xi > Q3 + 1.5 · IQR
27 / 56
![Page 28: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/28.jpg)
Comando boxplot() con R
• Se la numerosità campionaria n è un numero dispari, la descrizionecoincide con quella delle slides precedenti;• Se invece la numerosità campionaria n è un numero pari, i valori di
Q1 e Q3 che calcola il comando boxplot() potrebbero essereleggermente diversi dal primo e il terzo quartile• Potete utilizzare il comando boxplot.stats() per ottenere i 5valori che compongono il boxplot (Min, baffo sx, Me, baffo dx,Max)
28 / 56
![Page 29: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/29.jpg)
Dati Animals
• Animals è un dataset presente nella libreria MASS• Per una descrizione del dataset, digitare ?Animals• Average brain and body weights for 28 species of land animals• body : body weight in kg• brain : brain weight in g• n = 28 osservazioni misurate su p = 2 variabili
29 / 56
![Page 30: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/30.jpg)
Dati Animals
body brainMountain beaver 1.35 8.10
Cow 465.00 423.00Grey wolf 36.33 119.50
Goat 27.66 115.00Guinea pig 1.04 5.50Dipliodocus 11700.00 50.00
Asian elephant 2547.00 4603.00Donkey 187.10 419.00Horse 521.00 655.00
Potar monkey 10.00 115.00Cat 3.30 25.60
Giraffe 529.00 680.00Gorilla 207.00 406.00Human 62.00 1320.00
African elephant 6654.00 5712.00Triceratops 9400.00 70.00
Rhesus monkey 6.80 179.00Kangaroo 35.00 56.00
Golden hamster 0.12 1.00Mouse 0.02 0.40Rabbit 2.50 12.10Sheep 55.50 175.00Jaguar 100.00 157.00
Chimpanzee 52.16 440.00Rat 0.28 1.90
Brachiosaurus 87000.00 154.50Mole 0.12 3.00Pig 192.00 180.00
30 / 56
![Page 31: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/31.jpg)
Boxplot brain
0 1000 2000 3000 4000 5000 6000 7000
Brain weight (in grams)
Asian elephantHuman
African elephant
library("MASS")boxplot(Animals$brain)boxplot.stats(Animals$brain)$stats[1] 0.40 18.85 137.00 421.00 680.00$out[1] 4603 1320 5712
31 / 56
![Page 32: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/32.jpg)
Boxplot brain e body
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
0 5 10
02
46
8
log(body)
log(
brai
n)
0 5 10
02
46
8
32 / 56
![Page 33: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/33.jpg)
Outlier bivariato
33 / 56
![Page 34: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/34.jpg)
Bagplot = boxplot bivariato
0 5 10
02
46
8
log(body)
log(
brai
n)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
Il sacco (bag, area grigio scuro) contiene (al più) il 50% delleosservazioni. Si costruisce calcolando la profondità di Tukey (Tukeydepth, che non andremo a definire). L’asterisco al centro corrispondeall’osservazione con la Tukey depth più elevata (e non corrisponde alvettore delle mediane). Osservazioni al di fuori della recinzione (fence,che non si vede, ma in sostanza è 3 volte il bag) sono considerateanomale. 34 / 56
![Page 35: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/35.jpg)
Involucro convesso
0 5 10
02
46
8
log(body)
log(
brai
n)
Le osservazioni non anomale sono racchiuse nel cappio (loop), ovverol’involucro convesso (convex hull), definito come il più piccolo insiemeconvesso contenente tutte le osservazioni non anomale
35 / 56
![Page 36: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/36.jpg)
Bagplot per dati unidimensionali
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0 20 40 60 80 100
020
4060
8010
0
x
y
0 20 40 60 80 1000
2040
6080
100
x
y●
●
36 / 56
![Page 37: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/37.jpg)
Outline
1 Tipologia di variabili
2 Valori mancanti
3 Valori anomali
4 Matrice dei dati
5 Diagramma di dispersione
37 / 56
![Page 38: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/38.jpg)
Matrice X
Xn×p
=
x11 x12 · · · x1j · · · x1p
x21 x22 · · · x2j · · · x2p
· · · · · · · · · · · · · · ·xi1 xi2 · · · xij · · · xip
· · · · · · · · · · · · · · ·xn1 xn2 · · · xnj · · · xnp
38 / 56
![Page 39: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/39.jpg)
Medie e varianze
• Media per la j-sima variabile
x̄j = 1n
n∑i=1
xij , j = 1, . . . , p
• Varianza per la j-sima variabile
s2j = 1
n
n∑i=1
(xij − x̄j)2, j = 1, . . . , p
39 / 56
![Page 40: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/40.jpg)
Covarianze e correlazioni
• Covarianza tra la j-sima e la k-sima variabile
sjk = 1n
n∑i=1
(xij − x̄j)(xik − x̄k), j = 1, . . . , p, k = 1, . . . , p
Si noti che sjk = skj e che sjj = s2j
• Correlazione tra la j-sima e la k-sima variabile
rjk = sjk√sjj√
skk, j = 1, . . . , p, k = 1, . . . , p
Si noti che −1 ≤ rjk ≤ 1
40 / 56
![Page 41: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/41.jpg)
Vettore delle medie
x̄p×1
=
x̄1· · ·x̄j
· · ·x̄p
41 / 56
![Page 42: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/42.jpg)
Matrice di varianze/covarianze
Sp×p
=
s11 s12 · · · s1j · · · s1p
s21 s22 · · · s2j · · · s2p...
... . . . ......
sj1 sj2 · · · sjj · · · sjp...
... · · ·... . . . · · ·
sp1 sp2 · · · spj · · · spp
42 / 56
![Page 43: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/43.jpg)
Matrice di correlazione
Rp×p
=
1 r12 · · · r1j · · · r1p
r21 1 · · · r2j · · · r2p...
... . . . ......
rj1 rj2 · · · 1 · · · rjp...
... · · ·... . . . · · ·
rp1 rp2 · · · rpj · · · 1
43 / 56
![Page 44: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/44.jpg)
Outline
1 Tipologia di variabili
2 Valori mancanti
3 Valori anomali
4 Matrice dei dati
5 Diagramma di dispersione
44 / 56
![Page 45: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/45.jpg)
Dati
u1 u2 u3 u4 u5 u6 u7x1 3 4 2 6 8 2 5x2 5 5.5 4 7 10 5 7.5
Medie: x̄1 = 4.2, x̄2 = 6.2
Varianze: s11 = 4.2, s22 = 0.56
Covarianza: s12 = 3.70
Correlazione: r12 = 0.95
45 / 56
![Page 46: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/46.jpg)
Diagramma di dispersione
46 / 56
![Page 47: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/47.jpg)
Dati
u1 u2 u3 u4 u5 u6 u7x1 5 4 6 2 2 8 3x2 5 5.5 4 7 10 5 7.5
Medie: x̄1 = 4.2, x̄2 = 6.2
Varianze: s11 = 4.20, s22 = 0.56
Covarianza s12 = −3.01
Correlazione r12 = −0.78
47 / 56
![Page 48: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/48.jpg)
Diagramma di dispersione
48 / 56
![Page 50: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/50.jpg)
Relazione quadratica
x1i = −1 + 2 (i− 1)(n− 1)
x2i = x21i, i = 1, . . . , n
50 / 56
![Page 51: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/51.jpg)
Relazione quadraticaPer n = 20:
−1.0 −0.5 0.0 0.5 1.0
0.0
0.2
0.4
0.6
0.8
1.0
x1
x2
r12 ≈ 051 / 56
![Page 52: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/52.jpg)
Correlazione = relazione LINEARE
52 / 56
![Page 53: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/53.jpg)
Animals: diagramma di dispersione
0 20000 40000 60000 80000
020
0040
00
body
brai
n
r12 = −0.0053
53 / 56
![Page 54: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/54.jpg)
Animals: trasformazione logaritmica
0 5 10
02
46
8
log(body)
log(
brai
n)
r12 = 0.779
54 / 56
![Page 55: La matrice dei dati - Analisi Esplorativa](https://reader035.vdocuments.mx/reader035/viewer/2022071803/62d3c60d1f1f2a7606519a79/html5/thumbnails/55.jpg)
Animals: escludendo 3 osservazioni anomale
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
−4 −2 0 2 4 6 8
02
46
8
log(body)
log(
brai
n)
Mountain beaver
Cow
Grey wolfGoat
Guinea pig
Asian elephant
DonkeyHorse
Potar monkey
Cat
Giraffe
Gorilla
Human
African elephant
Rhesus monkey
Kangaroo
Golden hamster
Mouse
Rabbit
SheepJaguar
Chimpanzee
RatMole
Pig
r12 = 0.932
55 / 56