introduccion al tema 3halweb.uc3m.es/esp/personal/personas/amalonso/esp/ietema...1 introduccion al...

54
1 Introducci´ on al Tema 3 Tema 2. An´ alisis de datos bivariantes Representaciones y gr´ aficos. Resumen num´ erico. Relaciones entre variables. Extensi´ on a dos variables cuantitativas Tema 3. Correlaci´ on y regresi´ on Covarianza y correlaci´ on. Propiedades y relaci´ on con el diagrama de dispersi´ on. Regresi´ on. Introducci´ on a la Estad´ ıstica Andr´ es M. Alonso

Upload: others

Post on 14-Jul-2020

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

1

Introduccion al Tema 3

Tema 2. Analisis de datos bivariantesRepresentaciones y graficos.Resumen numerico.• Relaciones entre variables.

Extension a dos variablescuantitativas

Tema 3. Correlacion y regresionCovarianza y correlacion.Propiedades y relacion con el diagrama dedispersion.Regresion.

Introduccion a la Estadıstica Andres M. Alonso

Page 2: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

2

Tema 3. Correlacion y regresion

Los contenidos a desarrollar en este tema son los siguientes:

Covarianza y correlacion.

Propiedades y relacion con el diagrama de dispersion.

Concepto de regresion.

Criterio de mınimos cuadrados.

Lecturas recomendadas: Capıtulos 7 y 10 del libro de Pena y Romo (1997).Secciones 12.1, 12.3 a 12.5 del libro de Newbold (2001).

Introduccion a la Estadıstica Andres M. Alonso

Page 3: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

3

Ejemplo 1. En la Encuesta de Presupuestos Familiares realizada por el I.N.E.en 1974–1975, se registraba el ingreso total estimado (IT) y el gasto total

GTINE. Archivo hogares.sf3

Plot of GTINE vs IT

0 2 4 6 8(X 100000)

IT

0

2

4

6

8

10(X 100000)

GTIN

E

I Se observa una relacion positiva entre el ingreso total estimado y el gastototal de los hogares.

Introduccion a la Estadıstica Andres M. Alonso

Page 4: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

4

Covarianza

Se ve en el Ejemplo 1 que existe una relacion creciente y mas o menos linealentre el ingreso total y el gasto total de los hogares.

Definicion 1. Para una muestra de n datos bivariantes

(x1, y1), . . . , (xn, yn)

la covarianza entre las dos variables es

sxy =1n

n∑i=1

(xi − x)(yi − y)

donde x = 1n

∑ni=1 xi e y = 1

n

∑ni=1 yi son las medias de ambas variables.

I La covarianza es una medida de la fuerza de la relacion lineal entre dosvariables cuantitativas.

Introduccion a la Estadıstica Andres M. Alonso

Page 5: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

5

Ejemplo 2. Con los datos del Ejemplo 1.

En primer lugar hallamos las medias de ambas variables:

x =175

(90000 + 62091 + . . . + 282000) = 236591,0

y =175

(81861 + 105628 + . . . + 479791) = 261277,0

Luego calculamos la covarianza:

sxy =175{(90000− 236591,0)(81861− 261277,0)+

(62091− 236591,0)(105628− 261277,0) + . . . +

(282000− 236591,0)(479791− 261277,0)} ≈ 1,8383e10

¿x, y y sxy si Pts �?

I La covarianza es positiva, que implica una relacion creciente entre x e y.

Introduccion a la Estadıstica Andres M. Alonso

Page 6: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

6

Otra manera de calcular la covarianza:

I Es ineficiente calcular la covarianza directamente a traves de esta definicion.Se puede calcular la covarianza mediante la siguiente formula.

Teorema 1.

sxy =1n

(n∑

i=1

xiyi − nxy

)

I El calculo a traves de este resultado es mucho mas rapido, ya que no setiene que restar las medias de todos los datos.

Ejemplo 2.

sxy =175

(90000× 81861 + 62091× 105628 + . . . 282000× 479791

−75× 236591,0× 261277,0)≈ 1,8383e10

Introduccion a la Estadıstica Andres M. Alonso

Page 7: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

7

Demostracion

sxy =1

n

n∑i=1

(xi − x)(yi − y)

=1

n

(n∑

i=1

[xiyi − xiy − xyi + xy]

)

=1

n

(n∑

i=1

xiyi −n∑

i=1

xiy −n∑

i=1

xyi +n∑

i=1

xy

)

=1

n

(n∑

i=1

xiyi − yn∑

i=1

xi − xn∑

i=1

yi + nxy

)

=1

n

(n∑

i=1

xiyi − ny1

n

n∑i=1

xi − nx1

n

n∑i=1

yi + nxy

)

=1

n

(n∑

i=1

xiyi − nyx− nxy + nxy

)=

1

n

(n∑

i=1

xiyi − nxy

).

Introduccion a la Estadıstica Andres M. Alonso

Page 8: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

8

Ejemplo 2. Utilizando Statgraphics:

IT GTINE----------------------------------------------------Count 75 75Average 236591.0 261277.0Variance 2.29468E10 2.90159E10Standard deviation 151482.0 170341.0----------------------------------------------------

CovariancesIT GTINE

----------------------------------------------------IT 2.29468E10 1.81374E10

( 75) ( 75)

GTINE 1.81374E10 2.90159E10( 75) ( 75)

----------------------------------------------------

Introduccion a la Estadıstica Andres M. Alonso

Page 9: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

9

Ejemplo 3. Se querıa estudiar la concentracion de acido urico en la lechede una especie de vaca y se tomo una muestra de 14 vacas. Los datos sonproduccion de leche (x lt/dıa) y concentracion de acido (y µmol/litro).

x 42,7 40,2 38,2 37,6 32,2 32,2 28,0y 92 120 128 110 153 162 202x 27,2 26,6 23,0 22,7 21,8 21,3 20,2y 140 218 195 180 193 238 213

Diagrama de dispersión

20 24 28 32 36 40 44

x

90

120

150

180

210

240

y

Tiemeyer, Stohrer, W. y Giesecke, D. (1984). Metabolites of nucleic acids in bovine milk. J. Dairy Sci., 67, 723-728.

Introduccion a la Estadıstica Andres M. Alonso

Page 10: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

10

Calculamos ahora la covarianza entre x e y, y obtenemos:

x =114

(42,7 + . . . + 20,2) ≈ 29,57

y =114

(92 + . . . + 213) ≈ 167,43

14∑i=1

xiyi = 42,7× 92 + . . . + 20,2× 213 = 65335,5

sxy =114

(65335,5 − 14× 29,57× 167,43) ≈ −282,7

I Vemos que existe una relacion negativa entre las dos variables.

I La covarianza es positiva si existe una relacion (lineal) creciente y negativasi existe una relacion decreciente.

Introduccion a la Estadıstica Andres M. Alonso

Page 11: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

11

Cuasi-covarianza

Igual que con la cuasi-varianza, en muchos casos, se utiliza un denominadorigual a n− 1, es decir

scxy =

1n− 1

n∑i=1

(xi − x)(yi − y).

En este caso, se denomina cuasi-covarianza.

Ejemplo 3. Utilizando Statgraphics:Produccion de leche Concentracion AU

------------------------------------------------------------Produccion de leche 58.473 -304.61

( 14) ( 14)

Concentracion AU -304.61 2012.57( 14) ( 14)

------------------------------------------------------------

I Es importante observar que en Statgraphics se emplea esta definicion.

Introduccion a la Estadıstica Andres M. Alonso

Page 12: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

12

Calculo de la covarianza para datos agrupados

Dada una tabla de doble entrada,

Yy1 y2 . . . yJ

x1 f11 f12 . . . f1J f1•x2 f21 f22 . . . f2J f2•

X ... ... ... ... ... ...xI fI1 fI2 . . . fIJ fI•

f•1 f•2 . . . f•J 1

Calculamos la media de X: x =∑I

i=1 fi•xi,

Calculamos la media de Y : y =∑J

j=1 f•jyj.

La covarianza se obtiene de: sxy =∑I

i=1

∑Jj=1 fijxiyj − xy.

Introduccion a la Estadıstica Andres M. Alonso

Page 13: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

13

Ejemplo 4. La siguiente tabla proporciona el numero de veces (X) que unamuestra de 50 estudiantes de Economıa han tenido que repetir Introduccion ala Estadıstica y el numero de anos que han tardado en acabar la licenciatura(Y ).

Y4 5 6 7

0 ,3 ,1 ,06 ,04 ,51 ,08 ,16 ,04 ,02 ,3

X 2 0 ,04 ,02 ,06 ,123 0 0 0 ,08 ,08

,38 ,3 ,12 ,2 1

Tenemos que x = ,78 e y = 5,14.

La covarianza es∑i

∑j

fijxiyj = 0× 4× ,3 + 0× 5× ,1 + . . . + 3× 7× ,08 = 4,66

sxy =∑

i

∑j

fijxiyj − xy = 4,66 − ,78× 5,14 = 0,6508

Introduccion a la Estadıstica Andres M. Alonso

Page 14: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

14

Correlacion

I Si las unidades de la variable X son centımetros y las unidades de la variableY son gramos, entonces las unidades de la covarianza son cm× g.

I Si cambiamos las unidades de las variables, cambia la covarianza. Recordemosel ejemplo 2.

I Esto hace que el valor de la covarianza sea difıcil de interpretar.

Definicion 2. Para una muestra bivariante (x1, y1), . . . , (xn, yn), lacorrelacion entre las dos variables es

rxy =sxy

sxsy=

sxy√s2

xs2y

,

donde sxy es la covarianza y sx y sy son las desviaciones tıpicas.

I La correlacion es independiente de las unidades de las variables.

Introduccion a la Estadıstica Andres M. Alonso

Page 15: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

15

Propiedades de la correlacion

−1 ≤ rxy ≤ 1.

rxy = 1 si y solo si existen constantes α y β > 0 donde yi = α + βxi parai = 1, . . . , n. Es decir que existe una relacion lineal positiva exacta entre lasdos variables.

rxy = −1 si y solo si existen constantes α y β < 0 donde yi = α+βxi parai = 1, . . . , n. Es decir que existe una relacion lineal negativa exacta entrelas dos variables.

• Si la correlacion esta cerca de 1 o −1, entonces hay una relacionaproximadamente lineal.

Si no existe ninguna relacion entre las dos variables, la correlacion es 0.

Introduccion a la Estadıstica Andres M. Alonso

Page 16: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

16

Ejemplos

0 0.2 0.4 0.6 0.8 11

1.5

2

rxy

= 0.983

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

1.2

1.4

rxy

= -0.978

0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

rxy

= 0.046

0 0.2 0.4 0.6 0.8 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

rxy

= 0.041

Introduccion a la Estadıstica Andres M. Alonso

Page 17: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

17

Ejemplo 5. Retomamos el Ejemplo 3 sobre la concentracion de acido uricoen la leche vacuna.

I Hemos calculado las medias y la covarianza en el Ejemplo 3.

I Necesitamos las varianzas, desviaciones tıpicas y la correlacion:

s2x =

1n

(n∑

i=1

x2i − n× x2

)

=114(42,72 + . . . + 20,22 − 14× 29,562

)≈ 54,43 y analogamente,

s2y ≈ 1868,82.

rxy =−283,2√

54,43× 1868,82≈ −0,89

I Existe una relacion negativa –aproximadamente lineal– entre las dosvariables.

Introduccion a la Estadıstica Andres M. Alonso

Page 18: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

18

Ejemplo 6. En el Ejemplo 4, calculamos la covarianza entre el numero deconvocatorias agotadas de la asignatura “Introduccion a la Estadıstica” y elnumero de anos para terminar la licenciatura.

I Recordando que las desviaciones tıpicas son sx = 0,9442 y sy = 1,1315, lacorrelacion es

rxy =0,6508

0,9442× 1,1315≈ 0,61.

I Hay una correlacion positiva entre las dos variables.

Plot of Y vs X

0 0.5 1 1.5 2 2.5 3

X

4

4.5

5

5.5

6

6.5

7

Y

Introduccion a la Estadıstica Andres M. Alonso

Page 19: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

19

Si no existe ninguna relacion entre las dos variables, lacorrelacion es 0.

Ejemplo 7. Los datos son 30 parejas de numeros aleatorios.

Correlación = -0.03

0 2 4 6 8 10

x

0

2

4

6

8

10

y

I La correlacion es aproximadamente cero. Ejemplo en Excel

I El recıproco no es cierto.

Introduccion a la Estadıstica Andres M. Alonso

Page 20: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

20

Correlacion igual a 0 no implica ninguna relacion

I Hemos visto que si hay una relacion mas o menos lineal, la correlacion entrelas dos variables es bastante alta pero ¿que pasa si hay una relacion no lineal?

Correlación = 0.97

x

y

0 4 8 12 16 20

0

100

200

300

400

Correlación = 0

-6 -4 -2 0 2 4 6

x

0

10

20

30

40

y

I En ambos graficos se ha utilizado la formula y = x2 para generar los datos.Esto es, existe una relacion no lineal entre x e y.

Introduccion a la Estadıstica Andres M. Alonso

Page 21: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

21

Recta de Regresion

I Se han visto algunos ejemplos donde parece que haya una relacion aprox-imadamente lineal entre dos variables. Supongamos que queremos estimar larelacion entre las dos variables. ¿Como ajustamos una recta a los datos?

I Un modelo para representar una relacion aproximadamente lineal es

y = α + βx + ε

donde ε es un error de prediccion.

I En esta formulacion: y es la variable dependiente cuyo valor depende delvalor de la variable independiente x.

Introduccion a la Estadıstica Andres M. Alonso

Page 22: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

22

Calculo de la recta de regresion por mınimos cuadrados

I Dada una muestra de datos (x1, y1), . . . , (xn, yn) queremos obtener la rectaque se ajusta mejor a estos datos.

I Si ajustamos una recta y = a + bx a los datos de la muestra, entonces losresiduos o errores de prediccion estimados son

ri = yi − (a + bxi) para i = 1, . . . , n.

I De alguna manera, la recta que se ajusta mejor es la que minimiza el error

total. Pero ¿como definimos el error total?

I Una eleccion es la suma de errores cuadrados

S(a, b) =n∑

i=1

r2i =

n∑i=1

(yi − (a + bxi))2.

Introduccion a la Estadıstica Andres M. Alonso

Page 23: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

23

Calculo de la recta de regresion

0 1 2 3 4 5 6 7 8 9 103

4

5

6

7

8

9

10

11

12

13

14

(xi, a + b x

i)

ri

(xi,y

i)

ri = yi − (a + bxi) = yi − yi.

Introduccion a la Estadıstica Andres M. Alonso

Page 24: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

24

Teorema 2. Para una muestra de datos bivariantes (x1, y1), . . . , (xn, yn),la recta de forma y = a + bx que minimiza la suma de errores cuadradosS(a, b) =

∑ni=1(yi − a− bxi)2 cumple que

b =sxy

s2x

a = y − bx.

Demostracion

Supongamos que ajustamos la recta y = a + bx. Queremos minimizar el valorde S(a, b). Obtenemos los ceros de

∂S

∂a=

∂S

∂b= 0.

Introduccion a la Estadıstica Andres M. Alonso

Page 25: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

25

∂S

∂a= −2

n∑i=1

(yi − a− bxi) = −2 (ny − na− nbx) = 0

a = y − bx

∂S

∂b= −2

n∑i=1

xi(yi − a− bxi) = −2

(n∑

i=1

xiyi −n∑

i=1

xi(a + bxi)

)= 0

n∑i=1

xiyi =n∑

i=1

xi(a + bxi) =n∑

i=1

xi(y − bx + bxi) sustituyendo por a

= nxy + b

(n∑

i=1

x2i − nx2

)

b =∑n

i=1 xiyi − nxy∑ni=1 x2

i − nx2=

nsxy

ns2x

=sxy

s2x

.

Introduccion a la Estadıstica Andres M. Alonso

Page 26: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

26

Ejemplo 8. Se quiere probar la elasticidad de un muelle. Con este objetivo,se sometio el muelle a varios niveles de fuerza (x Newtons) y se midio laextension total del muelle (y mm) en cada caso.

fuerza 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5extension 18 11 25 22 35 50 54 45 52 68

Diagrama de dispersión de extension frente a fuerza

0 0,1 0,2 0,3 0,4 0,5

fuerza

0

20

40

60

80

exten

sion

Introduccion a la Estadıstica Andres M. Alonso

Page 27: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

27

I El diagrama de dispersion sugiere que existe una relacion casi lineal entrefuerza y extension. Para predecir la extension del muelle en torno de la fuerzaaplicada, aplicamos el model de regresion

y = α + βx + ε

I Dados los datos de la muestra, hallamos la recta estimada por mınimoscuadrados. Tenemos:

x = 0,3

s2x = 0,02

y = 38

s2y = 310,8

sxy = 2,34

Introduccion a la Estadıstica Andres M. Alonso

Page 28: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

28

I Calculamos la recta de mınimos cuadrados.

b =sxy

s2x

=2,340,02

= 117

a = y − bx = 38− 117× 0,3 = 2,9

I La recta ajustada es y = 2,9 + 117x.

La recta de regresión

fuerza

exten

sion

0 0,1 0,2 0,3 0,4 0,5

0

20

40

60

80

Introduccion a la Estadıstica Andres M. Alonso

Page 29: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

29

Ejemplo 9. Volvemos a los datos sobre el acido urico en la leche de vacasdel Ejemplo 3.

I En el Ejemplo 3, obtuvimos que x = 29,56, y = 167,43 y sxy = −283,2 yen el Ejemplo 5 que s2

x = 54,43 y s2y = 1868,82.

I Luego, si queremos predecir la concentracion de acido urico en la leche(y) en terminos de la cantidad de leche producida (x), la recta de mınimoscuadrados es

y = a + bx

donde

b =−283,254,43

= −5,20

a = 167,43− (−5,20)× 29,56

= 321,24

Introduccion a la Estadıstica Andres M. Alonso

Page 30: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

30

I Los resultados del analisis en Statgraphics son:

Regression Analysis - Linear model: Y = a + b*X---------------------------------------------------------Dependent variable: y Independent variable: x---------------------------------------------------------

Parameter Estimate--------------------------Intercept 321,241Slope -5,20265--------------------------

Correlation Coefficient = -0,887889R-squared = 78,8347 percentStandard Error of Est. = 21,4817.

The equation of the fitted model is y = 321,241 - 5,20265*x

Introduccion a la Estadıstica Andres M. Alonso

Page 31: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

31

Recta de regresión ajustada

x

y

20 24 28 32 36 40 44

90

120

150

180

210

240

Introduccion a la Estadıstica Andres M. Alonso

Page 32: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

32

Prediccion con la recta de regresion

I Habiendo ajustado una recta y = a + bx a los datos, podremos usarla parapredecir el valor de y teniendo el valor de x.

Ejemplo 10. En el Ejemplo an-terior, supongamos que una vacaproduce x = 30 litros de lechepor dıa.¿Cual estimamos es la concen-tracion de acido urico en la lechede esta vaca?

Estimamos con

y = 321,24− (−5,20)× 30 ≈ 165,15 µmol/litro

Introduccion a la Estadıstica Andres M. Alonso

Page 33: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

33

Ejemplo 11. En el Ejemplo 8, predecimos que la extension del muelle si seaplica una fuerza de 0,4 Newtons es:

y = 2,9 + 117× 0,4 = 49,7mm.

¿Que pasarıa si ponemos una fuerza de 0?

I La extension prevista por la recta de regresion en este caso es de 2,9 mm.

I No obstante el resultado no tiene sentido. Con fuerza 0, la extension delmuelle debe ser cero.

I No es conveniente (arriesgado) hacer predicciones usando valores de x fueradel rango de los datos observados.

Introduccion a la Estadıstica Andres M. Alonso

Page 34: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

34

Varianza residual

Definicion 3. Dada una muestra de datos (x1, y1), . . . , (xn, yn) se ajusta larecta de regresion por mınimos cuadrados, y = a+bx, con b = sxy

s2x

y a = y−bx.

Se define la varianza residual como

s2r =

1n

∑n

i=1r2i =

1n

∑n

i=1(yi − (a + bxi))

2.

Ejemplo 12. Calculamos los residuos en el Ejemplo 8.

y 18 11 25 22 35 50 54 45 52 68

y 14,6 14,6 26,3 26,3 38,0 38,0 49,7 49,7 61,4 61,4

r 3,4 −3,6 −1,3 −4,3 −3,0 12,0 4,3 −4,7 −9,4 6,6

r =110

(3,4 + . . . + 6,6) = 0

s2r =

110(3,42 + . . . + 6,62

)= 37,2

Introduccion a la Estadıstica Andres M. Alonso

Page 35: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

35

Existe una manera mas rapido de hacer este calculo:

I En primer lugar observamos que r = 0 siempre si ajustamos la recta,y = a + bx, por mınimos cuadrados:

Demostracion

r =1n

n∑i=1

(yi − (a + bxi))

=1n

n∑i=1

(yi − (y − bx + bxi)) por definicion de a

=1n

(n∑

i=1

(yi − y)− bn∑

i=1

(xi − x)

)= 0

Introduccion a la Estadıstica Andres M. Alonso

Page 36: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

36

I En segundo lugar, tenemos el siguiente resultado.

Teorema 3.s2

r = s2y

(1− r2

xy

),

donde rxy es el coeficiente de correlacion.

Demostracion

s2r =

1

n

n∑i=1

(yi − (a + bxi))2=

1

n

n∑i=1

(yi − (y − bx + bxi))2

por definicion de a

=1

n

n∑i=1

((yi − y)− b(xi − x)))2

=1

n

(n∑

i=1

(yi − y)2 − 2b

n∑i=1

(yi − y)(xi − x)+ b2

n∑i=1

(xi − x)2

)

= s2y − 2bsxy + b

2s

2x = s

2y − 2

sxy

s2x

sxy +

(sxy

s2x

)2

s2x por definicion de b

= s2y −

s2xy

s2x

= s2y

(1−

s2xy

s2xs2

y

)= s

2y

(1−

(sxy

sxsy

)2)

= s2y

(1− r

2xy

). �

Introduccion a la Estadıstica Andres M. Alonso

Page 37: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

37

Introduccion a la Estadıstica Andres M. Alonso

Page 38: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

38

Ejemplo 13. Volviendo al Ejemplo 8, recordamos que s2x = 0,02, s2

y = 310,8y sxy = 2,34.

Luego, la correlacion es rxy = 2,34√0,2×310,8

≈ 0,939.

Entonces s2r = 310,8

(1− 0,9392

)= 37,02 tal como calculamos anteriormente.

Ejemplo 14. En la salida de Statgraphics del Ejemplo 9 vemos que elcoeficiente de correlacion es −0,88789 y tenıamos que s2

y = 1868,82.

Entonces, s2r = 1868,82

(1− (−0,88789)2

)≈ 395,54

Introduccion a la Estadıstica Andres M. Alonso

Page 39: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

39

Otra manera de escribir el Teorema 3 es

s2r

s2y

= 1− r2xy.

s2y es la varianza del error al predecir los valores de la variable y sin utilizar

los valores de x. y = y

s2r es la varianza del error al predecir los valores de la varianble y si usamos

la variable x. y = a + bx

El porcentaje de reduccion de la varianza original debido a la regresion esr2xy × 100 %.

Introduccion a la Estadıstica Andres M. Alonso

Page 40: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

40

Ejemplo 15. En el Ejemplo 13, se ve que el porcentaje de reduccion envarianza debido al conocimiento de los valores de la fuerza es de 0,9392×100 =88,8 %.

Ejemplo 16. En el Ejemplo 9 se ve que el coeficiente de correlacion es−0,88789 y que el valor de R-squared es de un 78,8347 % = (−0,88789)2 ×100 %.

Conociendo las cantidades de leche producidas por las vacas, se reduce lavarianza un 78,8347 %.

Introduccion a la Estadıstica Andres M. Alonso

Page 41: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

41

Otra relacion entre correlacion y regresion

Consideramos la formula para el pendiente de la recta de regresion. Tenemos:

b =sxy

s2x

=sysxy

sysxsx=

sy

sx

sxy

sxsy

=sy

sxrxy.

I Si la correlacion entre las dos variables es cero, tambien lo es la pendientede la recta.

I Ademas, el Teorema 3 nos demuestra que la reduccion en la varianza de losdatos y debida a la regresion, en ese caso, es 0.

Introduccion a la Estadıstica Andres M. Alonso

Page 42: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

42

Analisis de los residuos

I Se pueden utilizar los residuos para ver si el modelo de regresion lineal esadecuado.

I Casi siempre es util hacer graficos de los residuos (frente x, y o y) para versi los supuestos del modelo lineal de regresion son adecuados o no.

Ejemplo 17. La recta de regresion para los cinco siguientes conjuntos dedatos es la misma:

y = 18,43 + 0,28 ∗ x

Tomado de: Bassett, E. et al (1986). Statistics: Problems and Solutions.London: Edward Arnold

Introduccion a la Estadıstica Andres M. Alonso

Page 43: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

43

x

y

4 6 8 10 12 14

18

19

20

21

22

23

24

x

y

4 6 8 10 12 14

17

18

19

20

21

22

23

x

y

4 6 8 10 12 14

19

21

23

25

27

x

y

4 6 8 10 12 14

19

20

21

22

23

24

x

y

8 10 12 14 16 18 20

18

19

20

21

22

23

24

Introduccion a la Estadıstica Andres M. Alonso

Page 44: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

44

El primer caso parece que la recta de regresion es adecuada.

En el segundo caso, hay una relacion no lineal.

En el tercer grafico, se ve la influencia de un dato atıpico.

En el cuarto grafico parece que la recta esta mas cerca a los datos cuandox es mas pequeno.

En el ultimo caso, se ve el efecto de un punto influyente.

I Consideremos los graficos de los residuos frente a las predicciones.

Introduccion a la Estadıstica Andres M. Alonso

Page 45: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

45

Gráfico de predicciones frente a residuos

yhat

residuos

19 20 21 22 23

-2

-1

0

1

2

Gráfico de predicciones frente a residuos

yhat

residuos

19 20 21 22 23

-2

-1

0

1

2

Gráfico de predicciones frente a residuos

yhat

residuos

19 20 21 22 23

-3,3

-1,3

0,7

2,7

4,7

Gráfico de predicciones frente a residuos

yhat

residuos

19 20 21 22 23

-2,5

-1,5

-0,5

0,5

1,5

2,5

Gráfico de predicciones frente a residuos

yhat

residuos

20 21 22 23 24

-2

-1

0

1

2

Introduccion a la Estadıstica Andres M. Alonso

Page 46: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

46

En el primer caso, los residuos parecen aleatorios. Es una buena indicacionde que el modelo de regresion se ajusta correctamente.

En el segundo caso, se ve una relacion entre y y los residuos. El modelolineal no se ajusta bien.

Cuando haya un dato atıpico, se ve un residuo muy alto.

Los residuos son mas pequenos cuando y es pequeno.

Se ve el efecto del dato influyente.

Introduccion a la Estadıstica Andres M. Alonso

Page 47: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

47

Dos rectas de regresion

I Hasta ahora, hemos pensado en un modelo

y = α + βx + ε

y dada la muestra, hemos ajustado la recta y = a+bx con b = sxy

s2x

y a = y−bx.

I Pero, podemos escribir el modelo de otra manera:

x = γ + δy + ν

donde δ = 1β , γ = −α

β y ν = − εβ .

I Si usamos mınimos cuadrados para ajustar la recta x = c + dy a los datosmuestrales tendremos

d =sxy

s2y

y c = x− dy.

Observamos que d 6= 1b.

Introduccion a la Estadıstica Andres M. Alonso

Page 48: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

48

Recta de regresion de yyy sobre xxx y Recta de regresion de xxx sobre yyy

0 1 2 3 4 5 6 7 8 9 102

4

6

8

10

12

14

(xi, y

i)

(xi, a + b x

i)

(c + d yi, y

i)

Introduccion a la Estadıstica Andres M. Alonso

Page 49: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

49

Recta de regresion de xxx sobre yyy

2 4 6 8 10 12 140

1

2

3

4

5

6

7

8

9

10

(yi,x

i)

(yi, c + d y

i)

I (x, y) pasa a (y, x).

I Los errores se toman en horizontal, ri = xi − c− dyi.

Introduccion a la Estadıstica Andres M. Alonso

Page 50: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

50

Ejemplo 18. Volvemos al Ejemplo 8 sobre la extension (y) obtenida con unala fuerza (x) aplicada al muelle.

I Antes hemos visto que ajustando la recta y = a+bx por mınimos cuadrados,se tiene

y = 2,9 + 117x.

Por ejemplo, x = 0,2 Newton se predice que extiende al muelle en 26.3 mm.

I Ahora supongamos que queremos predecir la fuerza x que causarıa unaextension de y. Ajustando la recta por mınimos cuadrados, tenemos

x = ,0139 + ,0075y.

Por ejemplo, una extension de y = 26,3 producirıa una fuerza de 0,3365Newton.

Introduccion a la Estadıstica Andres M. Alonso

Page 51: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

51

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.5510

20

30

40

50

60

70

x

y

y=a+bxx=c+dydatos

I Es importante saber cuales son las variables dependientes y cuales lasindependientes.

Introduccion a la Estadıstica Andres M. Alonso

Page 52: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

52

Correlacion y causalidad

I Si el coeficiente de correlacion entre dos variables es alto, indica queestas variables toman valores que estan relacionadas entre si. Pero no permiteconcluir una relacion causal entre esas variables.

Ejemplo 19. El siguiente grafico muestra el numero de matrimonios enMadrid y las temperaturas mensuales durante el ano 1992. El coeficiente decorrelacion es 0.67.

Plot of Matrimonios vs Temperatura

0 5 10 15 20 25 30

Temperatura

0

1

2

3

4

5(X 1000)

Mat

rim

onio

s

No parece plausible que un aumen-to de los matrimonios aumente latemperatura.

Ni que una ola de calor produzcamayor nupcialidad.

Correlaciones espurias.

Introduccion a la Estadıstica Andres M. Alonso

Page 53: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

53

Recapitulacion

Tema 3. Correlacion y regresion

Covarianza y correlacion.

Propiedades.

W ¿Como cuantificar larelacion lineal entredos variables?

Regresion.

Criterio de mınimos cuadrados.

W Modelo lineal de Ycomo funcion de X

Introduccion a la Estadıstica Andres M. Alonso

Page 54: Introduccion al Tema 3halweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema...1 Introduccion al Tema 3 Tema 2. An´alisis de datos bivariantes Representaciones y gr´aficos. Resumen

54

Estadıstica descriptiva

Introducción.Tema 1. Análisis de datos univariantes.Tema 2. Análisis de datos bivariantes.Tema 3. Correlación y regresión.Tema 4. Series temporales y números índice.

Descripción de variables y datos socioeconómicos

Tema 1

Tema 2

Tema 3

W Analisis descriptivo de una o mas variablestomadas en un instante del tiempo.

Tema 4W Analisis descriptivo de una variable

medida en varios instantes de tiempo.

⇑Estudiar la evolucion temporal de la variable

Introduccion a la Estadıstica Andres M. Alonso