regressione lineare multipla

Regressione linearemultipla

Metodi Quantitativi per la Ricerca

2020/21

Agnese Vitali

Argomenti trattati

• La regressione lineare multipla: elementi di base

• Equazione di previsione parziale

• “Controllare” per una variabile

• Bontà del modello: Adjusted R2

• Test F

3

La regressione lineare multipla

• Generlmente vogliamo considerare “l’effetto” simultaneo di più variabili esplicative sulla variabiledipendente

• Possiamo quindi estendere il modello di regressione

• Per due variabili esplicative, X1 and X2, l’equazione di previsione sarà:

𝑌 = a + b1 X1 + b2 X2

Nota: Non è più l’equazione di una retta! Bensì di un piano

4

Esempio: Incassi settimanali, canzoni

Y = Incassi(settimanasuccessive all’uscita)

X1 = Advertising budget (£)

X2 = N. volte suRadio 1

Source: Field (2009).

• Ipotizziamo che entrambe X1 e X2 abbiamo un “contributo” nello spiegare Y

• L’equazione del modello nella popolazione è:

α è il valore di 𝑌 quando sia X1 che X2 sono =0

5

Il Modello e significato dei coefficient dellaregressione

Yi = α + β1X1i + β2X2i + ui

𝑌 = α + β1X1i + β2X2i

6

Significato dei coefficienti della regressione

• Regressione bivariata

Y = a + bX

b “effetto” di X su Y

• Regressione multipla

Y = a + b1X1 + b2X2

b1 effetto” di X1 su Y, controllando per X2

7

Esempi

• Regressione bivariata: test di intelligenza (Y) e altezza (X) dei bambini

Risultato: I bambini più alti sono più intelligenti! L’altezza causa l’inteligenza?

Per cosa dovremmo “controllare”? Di quale altraimportante variabile dovremmo tener conto nellaregressione?

L’età dei bambini

8

Conseguenze dell’uso di più variabiliesplicative

• Migliori previsioni – la maggior parte deifenomeni sociali non diepndono da un solo fattore

• Dopo aver controllato per una seconda variabileX2, l’associazione tra X1 e Y può modificarsi

9

Esempio: Voto in matematica

• Dati: PISA 2018

• Programme for International Student Assessment

• Dati internazionali standardizzati su outcome educativi di 15-enni

• https://www.oecd.org/pisa/, ci focalizziamo sui dati italiani (CNTRYID==380)

https://www.oecd.org/pisa/

10


• Variabile dipendente:

Y voto in matematica (matematica)

• Iniziamo con una sola variabile esplicativa:

X1 indice di ricchezza della famiglia (HOMEPOS)

Dallo scatterplot deduciamo che potrebbeesserci un’associazione lineare tra Y (=votoin matematica) e X (=ricchezza dellafamiglia)

→ Possiamo quindi procedere con la regression lineare

Scatterplot tra voto in matematica e indice di ricchezza della famiglia

Equazione di previsione:

𝑌 = 495.49 + 34.01 X1

Output regression bivariata

Come interpretiamo il coefficiente 34.01?Come interpretiamo 495,49?

Output regression bivariata

In questo esempio, ha senso interpretare l’intercetta?

SI: la variabile HOMEPOS può assumere valore 0

14


• Usiamo ora due variabili esplicative:

X1 indice di ricchezza della famiglia (HOMEPOS)

X2 tempo settimanale dedicato allo studio dellamatematica in minuti (MMINS)

Matrice degli scatterplot

Relazione tra Y e tempo dedicato allostudio(X2):Potrebbe esserci associazione lineare

Relazione tra Y e ricchezza della famiglia (X1):Potrebbe esserci associazione lineare

Relazione tra X1 e X2:non c’è associazione

Importante assunzione del modello di regressionemultipla

Output regressione


Y = 482.56+ 31.05 X1 + 0.08 X2

Come interpretiamo l’intercetta?E’ il valore predetto di Y quando sia X1 che X2 =0Come interpretiamo il coefficiente di X1, 31,05?E’ il cambiamento medio in Y corrispondente ad un aumentounitario di X1, controllando per X2

• Usiamo l’equazione di previsione per stimare il voto in matematicaquando:

−Indice di ricchezza della famiglia è alto =4

−Minuti settimanali dedicati allo studio di matematica è nella media =220.5

Voto matematica = 482.56+ 31.05 *4 + 0.08 *220.5 = 624.4


Voto matematica = 482.56+ 31.05 ricchezza + 0.08 tempo di studio

• Stimiamo ora il voto in matematica quando:−Indice di ricchezza della famiglia è sotto la media = -3

−Minuti settimanali dedicati allo studio di matematica è nella media =220.50 (come prima)

Voto matematica = 482.56+ 31.05 *(-3) + 0.08 *220.5 = 407.05

→ a parità di impegno (=tempo dedicato allo studio della materia), glistudenti con famiglie più ricche hanno mediamente voti più alti in matematica



19

• Qual’è l’“effetto” della ricchezza della famiglia (X1) controllando per tempo dedicato allo studio (X2)?

• Poniamo tempo di studio= al suo valore medio =220.5 e sostituiamo nell’equazione di previsione:

= 482.56+ 31.05 ricchezza + 0.08* 220.5

= 482.56+ 31.05 ricchezza + 17.64

= 500 + 31.05 ricchezza

Interpretazione di b1


Equazione di regressione parziale

Per tempo dedicato allo studio = 220.5:

Voto matematica = 500 + 31.05 ricchezza


• Fissando un valore di X2=tempo dedicato allo studio, l’equazione:

si semplifica, diventa l’equazione di una retta:



Equazione di regressioneparziale

Fissando un valore di X2=tempo dedicato allo studio (quindicontrollando per X2), abbiamo ottenuto un’equazione di regressione parziale tra Y e X1

→Interpretazione di b1=31.05 come nel caso della regressionebivariata:

per ogni aumento unitario in X1=ricchezza della famiglia, Y=votoin matematica aumenterà, in media, di 31.05, controllando per X2 = tempo dedicato allo studio

23

• Quando fissiamo il valore di X2, lo poniamo ugualead una costante (=un numero), quindicontrolliamo per X2

• Nella regressione multipla, il coefficiente b1 descrive l’effetto della variabile X1, controllandoper l’effetto che le altre variabili esplicative hannosu Y

• In una regression bivariata, il coefficiente b1 descrive l’effetto della variabile X1 ignorando tuttele altre possibili variabili


• Fissando un valore di X2=tempo dedicato allo studio, l’equazione:

si semplifica, diventa l’equazione di una retta:


• La pendenza di questa retta è la stessa per qualsiasi valore di X2:

X2 = 220.5: Voto matematica = 500 + 31.05 ricchezza

X2 = 600: Voto matematica = 531 + 31.05 ricchezza

• Invece l’intercetta cambia al cambiare di X2


25

Posto MMINS (X2)= 220.5:

Y = 500+ 31.05 X1

Posto MMINS (X2)= 600:

Y = 531 + 31.05 X1

26

Coefficiente di correlazione multipla

• In una regressione bivariata, il coefficiente di correlazione r descrive l’associazione lineare tradue variabili

• In una regressione multipla, usiamo ilcoefficiente di correlazione multipla R

• E’ la correlazione tra i valori osservati di Y e i valoridi Y predetti dal modello di regressione

27

R-Quadro

• Nella regressione multipla, R2 è il quadrato del coefficiente di correlazione multipla R

• R2 misura la proporzione della varianza totale in Y che può essere spiegata dalle variabili esplicative (= spiegata dal modello)

28

Proprietà di R2

• Come nel caso del modello bivariato:

−Varia tra 0 e 1

−Più vicino a 1, migliore il modello

• In più: R2 non decresce quando includiamoun’ulteriore variabile esplicativa nel modello

29

Adjusted R2

• Adjusted R2 è una correzione di R2 che tieneconto del numero di variabili esplicative (k) usatenel modello + l’ampiezza campionaria (n)

• Se n è grande rispetto a k, adjusted R2 assumeràun valore vicino a R2

Circa l’8% della variabilità nei voti in matematica in Italia è spiegata dal modello (2 varabili indipendenti)

→ Il modello spiega poco

• Aggiungiamo una terza variabile esplicativa nel modello: ilvoto in scienze, e confrontiamo la bontà di questo modellocon il precedente

Circa il 70% della variabilità nei voti in matematica in Italia è spiegata dal modello (3 varabili indipendenti)

→ Il modello spiega bene

32

Test F

• R2 (o adjusted R2) spesso basso, soprattutto nellescienze sociali, tipicamente < 10%

• Alternativamente, possiamo testare l’influenza chele variabili esplicative del modello collettivamentehanno su Y

• Ipotesi:

H0: β1 = β2 = … = βk = 0

HA: Almeno un βi ≠ 0 (cioè il modello è “utile”)

33

Test F in STATA

p-value<

Letture

• Agresti – Finlay:

−Capitolo 10, paragrafo 10.2

−Capitolo 11, paragrafi da 11.1 a 11.4 (compresi)

regressione lineare multipla - unitrento · 2020. 11. 23. · 3 la regressione lineare multipla...

Documents

1 modello di regressione lineare multipla 1.modello e...

lezione b.8 regressione lineare

metodi quantitativi per economia, finanza e management...

la regressione lineare...1 la regressione lineare prof....

il modello di regressione lineare multipla con regressori...

regressione lineare e regressione logistica · introduzione...

il modello di regressione lineare...

regressione multipla - unibgstatistica industriale lez. 7...

renato leoni -...

la regressione logistica -...

la regressione lineare - associazione etabetagamma · la...

analisi della regressione multipla

metodi quantitativi per economia, finanza e management...

2. la regressione lineare · pdf file7 2. la regressione...

i modelli di regressione multipla -...

corso di analisi statistica per le imprese esercitazione:...

qm "regressione multipla"

regressione lineare e correlazione · 2009-12-15 ·...

data mining per il marketing andrea cerioli...