data mining per il marketing andrea cerioli [email protected] sito web del corso il modello di...
TRANSCRIPT
![Page 1: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/1.jpg)
DATA MINING PER IL MARKETING
Andrea [email protected]
Sito web del corso
IL MODELLO DI REGRESSIONE LINEARE MULTIPLA
approccio matriciale + aspetti di inferenza
(Capitolo 4 del libro + Appendice A)
![Page 2: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/2.jpg)
Modello di regressione nella popolazione e nel
campione
• Qual è la relazione tra e ed ε? Abbiamo già visto graficamente la relazione nella regressione semplice ora la deriviamo per esteso
Y X
ˆY X e
Popolazione( noto)
Campione( stimato)
![Page 3: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/3.jpg)
Analisi dei valori previsti
ˆ Xy
yXXXXy ')'(ˆ 1
Hyy ˆ
')'( 1XXXXH
H: matrice di previsione (proiezione) Hat matrix: trasforma y in y cappello
![Page 4: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/4.jpg)
Proprietà della matrice H• Simmetrica (nn): H = H’ • Idempotente: HH = H• Per esercizio (esempio investimenti): p. 186
• Gli elementi hii sulla diagonale principale della matrice H sono compresi tra 0 e 1 Nel modello di regressione semplice:
• Quindi hii è elevato se xi è distante dagli altri valori di X: alto leverage
![Page 5: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/5.jpg)
Cosa succede se hii è elevato
y = 4.0322x - 0.3749
R2 = 0.9194
0.0
20.0
40.0
60.0
80.0
100.0
120.0
12 14 16 18 20 22 24 26 28
x
y
n = 50
Media X = 19.5
Come sopra, ma per la prima osservazione X passa da 17 a 50
12 17 22 27 32 37 42 47 52.000
20.000
40.000
60.000
80.000
100.000
120.000
f(x) = 1.18077540276336 x + 54.4492599803481R² = 0.225057840353833
x
y
![Page 6: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/6.jpg)
Nella regressione multipla
• Traccia di H (somma degli hii)= k (numero di parametri)
• Media degli hii = k/n• Solitamente le osservazioni a cui
corrisponde
hii > 2k/n
vengono dette punti di leverage: i punti in cui hii è grande attirano l’iperpiano di regressione
Esercizio: grafico (in Excel) degli hii e identificazione dei punti di leverage: p. 189
![Page 7: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/7.jpg)
Analisi dei residui• Modello “vero”:
• Modello stimato
• Pertanto:
Y X
ˆY X e
1
ˆ
( ' ) '
e y y My M
M I X X X X I H
dove I è la matrice Identità
Quindi: e = (I-H)y = (I-H) le proprietà di e dipendono da quelle della matrice M=I-H
![Page 8: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/8.jpg)
Proprietà dei residui (p.187)
Che cosa impariamo da tali formule?
M =
Pertanto:
i = 1, …,n
i ≠ j
![Page 9: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/9.jpg)
• Il vettore dei residui osservati e ha proprietà diverse dal vettore dei termini aleatori . Infatti Var() = 2I
• I punti in cui hii è grande sono effettivamente punti di leverage. Infatti dalla formula di var(ei) discende che ei 0 se hii 1
• Le proprietà dei residui osservati dipendono da quelle della matrice M matrice simmetrica e idempotente (come H)
![Page 10: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/10.jpg)
Stima di σ2
• Le proprietà di s2 derivano dalla relazione tra residui e errori
• DEV(E) = (n-k)s2 ~ 22 con gradi di libertà = rango (traccia) matrice idempotente M (v. p. 202)
• gradi di libertà = n – k si “perdono” tanti df quanti sono i parametri da stimare
• e’e = DEV(E) = dev. residua
• k = numero di parametri da stimare (esplicative + intercetta)
• Stima corretta di 2:
s2 = e’e/(n-k) n-k = gradi di libertà (df)
![Page 11: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/11.jpg)
Scomposizione devianza (mod. con intercetta)
• DEV(E): gradi di libertà = n – k • DEV(Y): gradi di libertà = n – 1 (rango
matrice A = I – ii’/n, con i = vettore di 1, p. 85) si “perde” 1 df, come nella stima della media (intercetta del modello senza X)
• DEV(Y cappello): gradi di libertà = k – 1 (rango matrice A – M) df = numero parametri delle X
• Vale la relazione: (n – 1) = (n – k) + (k – 1)• Tabella riassuntiva: p. 197
∑𝒊=𝟏
𝒏
( 𝒚 𝒊− 𝒚 )𝟐=∑𝒊=𝟏
𝒏
( �� 𝒊−𝒚 )𝟐+∑𝒊=𝟏
𝒏
(𝒚 𝒊− �� 𝒊 )𝟐
![Page 12: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/12.jpg)
Analisi della bontà di adattamento
• Dalla scomposizione della devianza (modello con intercetta) def. di R2 nella regressione multipla:R2 = DEV(REG)/DEV(Y) = 1 – DEV(E)/DEV(Y)
R2 = quadrato del coefficiente di correlazione tra Y e Y cappello (coeff. corr.
lineare multipla: p. 193)
• Se manca l’intercetta, la scomposizione e la definizione di R2 sono in termini di somme di quadrati
R2 = SS(REG)/SS(Y) = 1 – SS(E)/SS(Y)Però non vale più la relazione con la corr. multipla
![Page 13: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/13.jpg)
Distribuzione di (p. 191)
)ˆ(E
12 )'()ˆvar( XX
Sotto quali assunzioni?
Correttezza: significato
Significato; implicazione dell’inversione di X’X
(X’X: simmetrica k×k)
![Page 14: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/14.jpg)
Inferenza su un singolo coefficiente di regressione (p. 197)
In pratica: stima s2 invece di 2 (v. output Excel e SPSS)
![Page 15: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/15.jpg)
Distribuzione di tj (t-statistica)
tj presenta una distribuzione t di Student con n-k gradi di libertà
Analogia con la regressione semplice (k=2)
Il denominatore è l’errore standard di beta cappello
![Page 16: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/16.jpg)
Intervallo di confidenza per βj:
Similmente per la verifica dell’ipotesiH0: βj = 0
ˆ
ˆ~ ( )
j
jjt T n ks
Zone rifiuto/accettazione oppure calcolo p-value
![Page 17: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/17.jpg)
Esempio: Dati Investimenti = f(PIL, Trend) Analisi con Excel
Coeff. E.S.Stat
tValore di
signif.Inf. 95%
Sup. 95%
Intercetta -441.27 60.77 -7.260 1.00025E-05 -573.69 -308.849
PIL (X1) 0.625 0.058 10.76 1.60798E-07 0.499 0.752
TREND (X2) -12.522 1.485 -8.432 2.1845E-06 -15.758 -9.287
![Page 18: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/18.jpg)
Esistono stimatori “migliori” rispetto a
beta cappello?
![Page 19: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/19.jpg)
Teorema di Gauss Markov: gli stimatori dei minimi quadrati
sono BLUE
Significato di questa proprietà nella regressione semplice (p. 151) nella regressione multipla (p. 191)
Efficienza (ma anche limiti) degli stimatori dei minimi quadrati
![Page 20: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/20.jpg)
Test su un insieme di coefficienti
Significato
H0: β1 = β2 = … = βq = 0 q coefficienti sono = 0; i rimanenti r = k – q sono invece ≠ 0
H0 vera tutte le variabili esplicative X1 … Xq, associate ai coefficienti 1 … q, NON hanno effetto su Y: scegliamo un modello ridotto senza X1 … Xq
H0 falsa almeno una tra le variabili esplicative X1 … Xq ha effetto su Y: teniamo quindi il modello completo con tutti i coefficienti, non sapendo quale β≠0
![Page 21: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/21.jpg)
Test sul modello
• Si utilizza il test F: rapporto tra devianze
• Richiamo alla distribuzione F (pp. 111-112)
H0: β1 = β2 = … = βk-1 = 0 (solo β0 ≠ 0)
![Page 22: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/22.jpg)
• e’rer = Devianza totale modello senza variabili esplicative, solo con intercetta = media: df = n – 1
• e’e = Devianza residua modello con tutte le variabili esplicative (k parametri): df = n – k
• e’rer – e’e = Devianza di regressione: df = q = n – 1 – (n – k) = k – 1 numero di coefficienti posti = 0 sotto H0 (numero di variabili esplicative)
)/()1(
)1/(
)/()(
)1/()(2
2
knR
kR
knEDEV
kRDevF
Rifiuto H0 se F osservato > percentile distribuzione F al livello di significatività fissato, oppure se p-value è piccolo
![Page 23: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/23.jpg)
Esempio• Dati investimenti = f(PIL, Trend)
ANALISI VARIANZA (ANOVA)
gdl SQ MQ F Significatività F
Regressione 25841.0691
82920.5
3107.8605
1 2.14126E-08
Residuo 12324.92348
427.076
9
Totale 146165.9926
6 Per esercizio: calcolare indice R2
![Page 24: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/24.jpg)
Esempio investimenti: output SPSS
Interpretazione di tutte le quantità riportateConfronto con output Excel
![Page 25: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/25.jpg)
Coefficienti standardizzati• SPSS riporta anche i coefficienti standardizzati
• Tali coefficienti sono quelli della regressione sulle variabili standardizzate: si elimina l’effetto dell’ordine di grandezza e dell’unità di misura sulle X e su Y
• I coeff. std. hanno l’obiettivo di essere confrontabili tra loro dovrebbero misurare l’importanza relativa delle esplicative, senza essere influenzati da unità di misura e ordine di grandezza (ad es.: se β1=0.5 e β2=1 non vuol dire che X2 è più “importante” di X1)
• Però il concetto di “importanza relativa” è vago:– Se X ha coeff. std max non è detto che X abbia effetto max
su R2
– coeff. std = rxy ma solo se le X sono incorrelate– i coeff. std “confondono” concetti diversi: l’effetto assoluto su
Y (tramite β) e l’effetto della variabilità (tramite )• Per tali motivi i coeff. std non sono molto utilizzati il
confronto tra le X può essere fatto con le t-statistiche
ˆ ( )ˆ ˆˆ ( )
jj j
Xstd
Y
![Page 26: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/26.jpg)
Intervallo di previsione: intervallo di confidenza del valore y0 associato ad uno
specifico insieme di valori delle variabili esplicative
v. §4.13
![Page 27: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/27.jpg)
Passo finale: si esplicita y0
Intervallo di confidenza (di probabilità 1 - ) per la “nuova” osservazione y0: intervallo di previsione di y0
Esempio investimenti (v. p. 218 per i passaggi)
818.236ˆ0 y 𝑣𝑎𝑟 (𝑒0 )=40.515
Commento
![Page 28: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/28.jpg)
Le diagnostiche del modello di regressione
• § 4.11 – 4.13
• Metodi grafici e semplici trasformazioni dei residui
• Implementati in SPSS (e in tutti i software)
• Da usare con cautela
![Page 29: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale](https://reader038.vdocuments.mx/reader038/viewer/2022110118/5542eb72497959361e8d9480/html5/thumbnails/29.jpg)
Data set per esercitazioni sulla regressione (v. sito del corso)
• Esercitazione 1: Space Shuttle
Challenger
• Esercitazione 2: analisi del mercato
immobiliare
• Esercitazione 3: dati Trade
(semplificati)