principali analisi statistiche
DESCRIPTION
Principali analisi statistiche. 1. Confronto fra medie (2 o piú campioni). Voto . Variabile continua in funzione di una categorica (es. voto più alto M vs. F). M . F . 2. Correlazione e regressione. Relazione fra due variabile continue (es. il voto medio dipende dal consumo di birre?). - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/1.jpg)
1
Principali analisi statistiche
1. Confronto fra medie (2 o piú campioni)
2. Correlazione e regressione
3. Analisi di tabelle di contigenza
Variabile continua in funzione di una categorica(es. voto più alto M vs. F)
Relazione fra due variabile continue(es. il voto medio dipende dal consumo di birre?)
Conteggi con due o più variabili categoriche(es. essere astemi dipende dal genere?)
BirreSÌ NO
MF
Birre
Voto
M F
Voto
![Page 2: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/2.jpg)
2
Correlazione e regressione
![Page 3: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/3.jpg)
3
Indice di correlazione
No speciepiante
No specie farfalle
x1
x2
x3
x4
…xn
y1
y2
y3
y4
…yn
Unità di campionamento
Misura la FORZA e la DIREZIONE (+ o -) di una relazione LINEARE fra due variabili continue
No piante
No
farfa
lle
![Page 4: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/4.jpg)
Indici di correlazione
No piante
No
farfa
lle
No piante
No
farfa
lle
No piante
No
farfa
lle
L’indice di correlazione varia fra -1 e 1
-1 indica una perfetta relazione lineare positiva
-1 indica una perfetta relazione lineare negativa
-0 indica che non esiste nessuna relazione lineare
+ −0
![Page 5: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/5.jpg)
Interpretazione dell’indice di correlazione
Indice di correlazione
Il valore assoluto della correlazione non dipende dalla pendenza!
![Page 6: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/6.jpg)
I 4 plot presentano lo stesso indice di correlazione
Indice di correlazione= 0.816
Indice di correlazione
![Page 7: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/7.jpg)
7
Calcolo dell’indice di correlazione di Pearson (r)
Deviazione standard x
yx ssyxr
),cov(
1),cov(
n
yxnyxyx ii
1)( 2
n
xxs ix1
)( 2
n
yys iy
Deviazione standard y
Covarianza
Prodotto fra le due deviazioni standard
![Page 8: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/8.jpg)
8
Esempio di calcolo
No birre Voto Studente XY5 20 A 1004 19 B 762 24 C 480 25 D 0x y
S=2.22 2.94 Σxy=224Media=2.75 22.00
n-1=3n=4
cov(x,y)=-6.0
r=cov(x,y)/(sxsy)=-0.919
0 1 2 3 4 5 61819202122232425262728
birrevo
to
Cosa concludiamo?
![Page 9: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/9.jpg)
9
La relazione non è perfetta...
Dobbiamo testare se r è diverso da 0
r=-0.919
t TEST:Ho: r=0Ha: r≠0
21 2
nrrtcalcolato
rcalcolato SE
rt..
t critico dipende da alpha e g.d.l. (n-2)Se t calcolato > t critico rifiuto H0
La correlazione -0.919 è significativa?
![Page 10: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/10.jpg)
10
Tabelle di r critico
Esistono tabelle di r critici al variare di g.d.l. (n-2) e alpha
![Page 11: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/11.jpg)
11
...ma nessuna causa-effetto
0 1 2 3 4 5 61819202122232425262728
birre
voto
La correlazione non si usa nel caso in cui si voglia trovare una relazione causa-effetto
18 19 20 21 22 23 24 25 26 27 280
1
2
3
4
5
6
voto
birr
e
Le due variabili sono sullo stesso piano
![Page 12: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/12.jpg)
12
Limitazioni nell’uso della correlazione
1. Si può usare solo con relazioni LINEARI
2. Non va associata a una relazione causa effetto
3. Le due variabili devono essere distribuite normalmente: ad ogni valore di x, y deve seguire una distribuzione normale e viceversa
Indici di correlazione non parametrici: Kendall, Spearman...
![Page 13: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/13.jpg)
13
Indice di Spearman (rs)
rs=1-[(6*2)/(5^3-5)]=1-12/120=0.9
Lunghezza rango Peso rango d d2
33 3 51 3 0 0
38 5 59 5 0 0
32 2 49 1 1 1
37 4 54 4 0 0
31 1 50 2 -1 1
nnd
rs
3
261
r=0.922Indice di Pearson
![Page 14: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/14.jpg)
14
Indice di Spearman (rs)
Se rs calcolato > valore critico
nnd
rs
3
261
Valori critici per l’indice di SpearmanIn funzione di n e alpha
La correlazione è significativa
Nell’esempio rs=0.9, n=5
![Page 15: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/15.jpg)
15
Regressione lineare semplice
![Page 16: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/16.jpg)
16
Regressione lineare semplice
Variabile esplicativa(indipendente)
Varia
bile
risp
osta
(dip
ende
nte)
Il modello di regressione si usa per stimare i valori di una variabile a
partire dai valori osservati di un’altra
Il modello di regressione descrive la relazione fra una variabile
dipendente e una seconda variabile (indipendente)
![Page 17: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/17.jpg)
17
Regressione lineare semplice
Alcool
Voto
Il voto medio cala all’aumentare del consumo di alcool?
La crescita aumenta con la fertilità?
Fertilità
Cres
cita
![Page 18: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/18.jpg)
18
Il modello di regressione
Modello di regressione lineare:
y= a + bx + ε
x
y
Intercetta (a)Pendenza (b)=Δy/Δx
ΔxΔy
L’intercetta dà il valore di y quando x=0
La pendenza indica la variazione media di y quando x varia di un’unità
Errore
![Page 19: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/19.jpg)
19
Regressione lineare semplice
Fertilità
Cres
cita
Pendenza NEGATIVA
Pendenza POSITIVA
Fertilità
Cres
cita
Fertilità
Cres
cita
Pendenza NULLA
Fertilità
Cres
cita
NON USARE REGRESSIONE LINEARE
+
![Page 20: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/20.jpg)
20
Regressione lineare semplice
Fertilità
Cres
cita
a e b sono stimati in modo da ridurre al minimo la somma dei quadrati degli scarti
Residui
yy ˆy
y
2ˆ yyi MINIMA
![Page 21: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/21.jpg)
21
Il modello di regressione: stimare i 2 parametri
library(animation)#############################################Slope changing# save the animation in HTML pagesani.options(ani.height = 450, ani.width = 600, outdir = getwd(), title = "Demonstration of Least Squares", description = "We want to find an estimate for the slope in 50 candidate slopes, so we just compute the RSS one by one. ")ani.start()par(mar = c(4, 4, 0.5, 0.1), mgp = c(2, 0.5, 0), tcl = -0.3)least.squares()ani.stop()
############################################# Intercept changing# save the animation in HTML pagesani.options(ani.height = 450, ani.width = 600, outdir = getwd(), title = "Demonstration of Least Squares", description = "We want to find an estimate for the slope in 50 candidate slopes, so we just compute the RSS one by one. ")ani.start()par(mar = c(4, 4, 0.5, 0.1), mgp = c(2, 0.5, 0), tcl = -0.3)least.squares(ani.type = "i")ani.stop()
![Page 22: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/22.jpg)
22
Il modello di regressione: stimare i 2 parametri
PENDENZA
y= a + bx
xy
Pendenza (b)=Δy/Δx
xxxnyxxyn
b 2
![Page 23: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/23.jpg)
23
Il modello di regressione: stimare i 2 parametri
INTERCETTA
y= a + bx
xy
Intercetta (a)Sono le medie di X e Y rispettivamente
xbya
xy
),( yx
![Page 24: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/24.jpg)
24
Il modello di regressione: errore standard delle stime
y= a + bx
2)ˆ(
..2
n
yySE YX
x
y Residui
y
y≈Deviazione standard dei residui!
Misuro l’incertezza nella stima del modello
![Page 25: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/25.jpg)
25
Quanta variabilità spiega il modello? R2
2)( yySST i
x
y
y
DEVIANZA TOTALE
2)ˆ( yySSR
y
DEVIANZA REGRESSIONE
x
y
yy
2)ˆ( yySSESSRSST i DEVIANZA RESIDUI
![Page 26: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/26.jpg)
26
Il modello di regressione: R2
Variabilità
SST SSE DEVIANZA RESIDUIDEVIANZA TOTALE
![Page 27: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/27.jpg)
27
Il modello di regressione: R2y
x
R2 varia fra 0 e 1
y y
x x
R2≈ 1 R2≈ 0.6 R2≈ 0.3
![Page 28: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/28.jpg)
28
Pendenza e R2 non ci dicono se il modello è significativo!
Il modello di regressione
La regressione si basa su dati campionari: incertezza nella stima di b
![Page 29: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/29.jpg)
29
Prima di usare il modello di regressione dobbiamo testare se la pendenza è diversa da 0
![Page 30: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/30.jpg)
30
Test sulla pendenza (b)
Test tHo: b=0Ha: b≠0
bcalcolato SE
bt..
2
....xx
SESEi
YXb
2)ˆ(
..2
n
yySE YX
t critico per g.d.l. n-2 e alpha
![Page 31: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/31.jpg)
31
Assunzioni della regressione semplice
1. Indipendenza dei casi
2. Linearità della relazione
3. Normalità dei residui
4. Omoschedasticità dei residuiAnalisi dei residui
![Page 32: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/32.jpg)
32
Assunzioni regressione (normalità, omoschedasticità)
RegressionePer ogni valore di x normalità dei residuie uguale varianza
![Page 33: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/33.jpg)
33
Assunzioni regressione (normalità, omoschedasticità)
Per ogni valore di x normalità dei residui
-1.5 -1 -0.5 0 0.5 1 1.5-0.4-0.3-0.2-0.1
00.10.20.30.40.5
Quantili normali
Qua
ntili
osse
rvati
![Page 34: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/34.jpg)
34
Assunzioni regressione (normalità, omoschedasticità)
Per ogni valore di x uguale varianza
Omoschedasticità Eteroschedasticità
![Page 35: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/35.jpg)
35
Errori comuni
2. Estrapolare informazioni oltre il range osservato della x
1. Violazione delle assunzioni
x
y
x
y
NO!!!
Stima del modello
![Page 36: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/36.jpg)
36
Errori comuni
3. Usare il modello al di fuori della popolazione di riferimento
Stimo il modelloy=a+bx
1. Raccolgo nuovi valori di x2. Ottengo valori stimati di y3. Confronto i valori stimati con i valori osservati
Validare il modello
![Page 37: Principali analisi statistiche](https://reader035.vdocuments.mx/reader035/viewer/2022062410/56816643550346895dd9b6c8/html5/thumbnails/37.jpg)
37
Errori comuni
Dobbiamo validare il modello!
Y stimato
Y os
serv
ato
Errore di predizione
Confronto i valori stimati con i valori osservati