regressione lineare multipla - unitrento · 2020. 11. 23. · 3 la regressione lineare multipla...
Post on 31-Jan-2021
7 Views
Preview:
TRANSCRIPT
-
Regressione linearemultipla
Metodi Quantitativi per la Ricerca
2020/21
Agnese Vitali
-
Argomenti trattati
• La regressione lineare multipla: elementi di base
• Equazione di previsione parziale
• “Controllare” per una variabile
• Bontà del modello: Adjusted R2
• Test F
-
3
La regressione lineare multipla
• Generlmente vogliamo considerare “l’effetto” simultaneo di più variabili esplicative sulla variabiledipendente
• Possiamo quindi estendere il modello di regressione
• Per due variabili esplicative, X1 and X2, l’equazione di previsione sarà:
𝑌 = a + b1 X1 + b2 X2
Nota: Non è più l’equazione di una retta! Bensì di un piano
-
4
Esempio: Incassi settimanali, canzoni
Y = Incassi(settimanasuccessive all’uscita)
X1 = Advertising budget (£)
X2 = N. volte suRadio 1
Source: Field (2009).
-
• Ipotizziamo che entrambe X1 e X2 abbiamo un “contributo” nello spiegare Y
• L’equazione del modello nella popolazione è:
α è il valore di 𝑌 quando sia X1 che X2 sono =0
5
Il Modello e significato dei coefficient dellaregressione
Yi = α + β1X1i + β2X2i + ui
𝑌 = α + β1X1i + β2X2i
-
6
Significato dei coefficienti della regressione
• Regressione bivariata
Y = a + bX
b “effetto” di X su Y
• Regressione multipla
Y = a + b1X1 + b2X2
b1 effetto” di X1 su Y, controllando per X2
-
7
Esempi
• Regressione bivariata: test di intelligenza (Y) e altezza (X) dei bambini
Risultato: I bambini più alti sono più intelligenti! L’altezza causa l’inteligenza?
Per cosa dovremmo “controllare”? Di quale altraimportante variabile dovremmo tener conto nellaregressione?
L’età dei bambini
-
8
Conseguenze dell’uso di più variabiliesplicative
• Migliori previsioni – la maggior parte deifenomeni sociali non diepndono da un solo fattore
• Dopo aver controllato per una seconda variabileX2, l’associazione tra X1 e Y può modificarsi
-
9
Esempio: Voto in matematica
• Dati: PISA 2018
• Programme for International Student Assessment
• Dati internazionali standardizzati su outcome educativi di 15-enni
• https://www.oecd.org/pisa/, ci focalizziamo sui dati italiani (CNTRYID==380)
https://www.oecd.org/pisa/
-
10
Esempio: Voto in matematica
• Variabile dipendente:
Y voto in matematica (matematica)
• Iniziamo con una sola variabile esplicativa:
X1 indice di ricchezza della famiglia (HOMEPOS)
-
Dallo scatterplot deduciamo che potrebbeesserci un’associazione lineare tra Y (=votoin matematica) e X (=ricchezza dellafamiglia)
→ Possiamo quindi procedere con la regression lineare
Scatterplot tra voto in matematica e indice di ricchezza della famiglia
-
Equazione di previsione:
𝑌 = 495.49 + 34.01 X1
Output regression bivariata
Come interpretiamo il coefficiente 34.01?Come interpretiamo 495,49?
-
Output regression bivariata
In questo esempio, ha senso interpretare l’intercetta?
SI: la variabile HOMEPOS può assumere valore 0
-
14
Esempio: Voto in matematica
• Usiamo ora due variabili esplicative:
X1 indice di ricchezza della famiglia (HOMEPOS)
X2 tempo settimanale dedicato allo studio dellamatematica in minuti (MMINS)
-
Matrice degli scatterplot
Relazione tra Y e tempo dedicato allostudio(X2):Potrebbe esserci associazione lineare
Relazione tra Y e ricchezza della famiglia (X1):Potrebbe esserci associazione lineare
Relazione tra X1 e X2:non c’è associazione
Importante assunzione del modello di regressionemultipla
-
Output regressione
Equazione di previsione:
Y = 482.56+ 31.05 X1 + 0.08 X2
Come interpretiamo l’intercetta?E’ il valore predetto di Y quando sia X1 che X2 =0Come interpretiamo il coefficiente di X1, 31,05?E’ il cambiamento medio in Y corrispondente ad un aumentounitario di X1, controllando per X2
-
• Usiamo l’equazione di previsione per stimare il voto in matematicaquando:
−Indice di ricchezza della famiglia è alto =4
−Minuti settimanali dedicati allo studio di matematica è nella media =220.5
Voto matematica = 482.56+ 31.05 *4 + 0.08 *220.5 = 624.4
Equazione di previsione:
Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio
-
• Stimiamo ora il voto in matematica quando:−Indice di ricchezza della famiglia è sotto la media = -3
−Minuti settimanali dedicati allo studio di matematica è nella media =220.50 (come prima)
Voto matematica = 482.56+ 31.05 *(-3) + 0.08 *220.5 = 407.05
→ a parità di impegno (=tempo dedicato allo studio della materia), glistudenti con famiglie più ricche hanno mediamente voti più alti in matematica
Equazione di previsione:
Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio
-
19
• Qual’è l’“effetto” della ricchezza della famiglia (X1) controllando per tempo dedicato allo studio (X2)?
• Poniamo tempo di studio= al suo valore medio =220.5 e sostituiamo nell’equazione di previsione:
= 482.56+ 31.05 ricchezza + 0.08* 220.5
= 482.56+ 31.05 ricchezza + 17.64
= 500 + 31.05 ricchezza
Interpretazione di b1
Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio
-
Equazione di regressione parziale
Per tempo dedicato allo studio = 220.5:
Voto matematica = 500 + 31.05 ricchezza
-
Equazione di regressione parziale
• Fissando un valore di X2=tempo dedicato allo studio, l’equazione:
si semplifica, diventa l’equazione di una retta:
Voto matematica = 500 + 31.05 ricchezza
Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio
-
Equazione di regressioneparziale
Fissando un valore di X2=tempo dedicato allo studio (quindicontrollando per X2), abbiamo ottenuto un’equazione di regressione parziale tra Y e X1
→Interpretazione di b1=31.05 come nel caso della regressionebivariata:
per ogni aumento unitario in X1=ricchezza della famiglia, Y=votoin matematica aumenterà, in media, di 31.05, controllando per X2 = tempo dedicato allo studio
-
23
• Quando fissiamo il valore di X2, lo poniamo ugualead una costante (=un numero), quindicontrolliamo per X2
• Nella regressione multipla, il coefficiente b1 descrive l’effetto della variabile X1, controllandoper l’effetto che le altre variabili esplicative hannosu Y
• In una regression bivariata, il coefficiente b1 descrive l’effetto della variabile X1 ignorando tuttele altre possibili variabili
-
Equazione di regressione parziale
• Fissando un valore di X2=tempo dedicato allo studio, l’equazione:
si semplifica, diventa l’equazione di una retta:
Voto matematica = 500 + 31.05 ricchezza
• La pendenza di questa retta è la stessa per qualsiasi valore di X2:
X2 = 220.5: Voto matematica = 500 + 31.05 ricchezza
X2 = 600: Voto matematica = 531 + 31.05 ricchezza
• Invece l’intercetta cambia al cambiare di X2
Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio
-
25
Posto MMINS (X2)= 220.5:
Y = 500+ 31.05 X1
Posto MMINS (X2)= 600:
Y = 531 + 31.05 X1
-
26
Coefficiente di correlazione multipla
• In una regressione bivariata, il coefficiente di correlazione r descrive l’associazione lineare tradue variabili
• In una regressione multipla, usiamo ilcoefficiente di correlazione multipla R
• E’ la correlazione tra i valori osservati di Y e i valoridi Y predetti dal modello di regressione
-
27
R-Quadro
• Nella regressione multipla, R2 è il quadrato del coefficiente di correlazione multipla R
• R2 misura la proporzione della varianza totale in Y che può essere spiegata dalle variabili esplicative (= spiegata dal modello)
-
28
Proprietà di R2
• Come nel caso del modello bivariato:
−Varia tra 0 e 1
−Più vicino a 1, migliore il modello
• In più: R2 non decresce quando includiamoun’ulteriore variabile esplicativa nel modello
-
29
Adjusted R2
• Adjusted R2 è una correzione di R2 che tieneconto del numero di variabili esplicative (k) usatenel modello + l’ampiezza campionaria (n)
• Se n è grande rispetto a k, adjusted R2 assumeràun valore vicino a R2
-
Circa l’8% della variabilità nei voti in matematica in Italia è spiegata dal modello (2 varabili indipendenti)
→ Il modello spiega poco
-
• Aggiungiamo una terza variabile esplicativa nel modello: ilvoto in scienze, e confrontiamo la bontà di questo modellocon il precedente
Circa il 70% della variabilità nei voti in matematica in Italia è spiegata dal modello (3 varabili indipendenti)
→ Il modello spiega bene
-
32
Test F
• R2 (o adjusted R2) spesso basso, soprattutto nellescienze sociali, tipicamente < 10%
• Alternativamente, possiamo testare l’influenza chele variabili esplicative del modello collettivamentehanno su Y
• Ipotesi:
H0: β1 = β2 = … = βk = 0
HA: Almeno un βi ≠ 0 (cioè il modello è “utile”)
-
33
Test F in STATA
p-value<
-
Letture
• Agresti – Finlay:
−Capitolo 10, paragrafo 10.2
−Capitolo 11, paragrafi da 11.1 a 11.4 (compresi)
top related