introduccion al tema 3halweb.uc3m.es/esp/personal/personas/amalonso/esp/ietema...1 introduccion al...
TRANSCRIPT
1
Introduccion al Tema 3
Tema 2. Analisis de datos bivariantesRepresentaciones y graficos.Resumen numerico.• Relaciones entre variables.
Extension a dos variablescuantitativas
Tema 3. Correlacion y regresionCovarianza y correlacion.Propiedades y relacion con el diagrama dedispersion.Regresion.
Introduccion a la Estadıstica Andres M. Alonso
2
Tema 3. Correlacion y regresion
Los contenidos a desarrollar en este tema son los siguientes:
Covarianza y correlacion.
Propiedades y relacion con el diagrama de dispersion.
Concepto de regresion.
Criterio de mınimos cuadrados.
Lecturas recomendadas: Capıtulos 7 y 10 del libro de Pena y Romo (1997).Secciones 12.1, 12.3 a 12.5 del libro de Newbold (2001).
Introduccion a la Estadıstica Andres M. Alonso
3
Ejemplo 1. En la Encuesta de Presupuestos Familiares realizada por el I.N.E.en 1974–1975, se registraba el ingreso total estimado (IT) y el gasto total
GTINE. Archivo hogares.sf3
Plot of GTINE vs IT
0 2 4 6 8(X 100000)
IT
0
2
4
6
8
10(X 100000)
GTIN
E
I Se observa una relacion positiva entre el ingreso total estimado y el gastototal de los hogares.
Introduccion a la Estadıstica Andres M. Alonso
4
Covarianza
Se ve en el Ejemplo 1 que existe una relacion creciente y mas o menos linealentre el ingreso total y el gasto total de los hogares.
Definicion 1. Para una muestra de n datos bivariantes
(x1, y1), . . . , (xn, yn)
la covarianza entre las dos variables es
sxy =1n
n∑i=1
(xi − x)(yi − y)
donde x = 1n
∑ni=1 xi e y = 1
n
∑ni=1 yi son las medias de ambas variables.
I La covarianza es una medida de la fuerza de la relacion lineal entre dosvariables cuantitativas.
Introduccion a la Estadıstica Andres M. Alonso
5
Ejemplo 2. Con los datos del Ejemplo 1.
En primer lugar hallamos las medias de ambas variables:
x =175
(90000 + 62091 + . . . + 282000) = 236591,0
y =175
(81861 + 105628 + . . . + 479791) = 261277,0
Luego calculamos la covarianza:
sxy =175{(90000− 236591,0)(81861− 261277,0)+
(62091− 236591,0)(105628− 261277,0) + . . . +
(282000− 236591,0)(479791− 261277,0)} ≈ 1,8383e10
¿x, y y sxy si Pts �?
I La covarianza es positiva, que implica una relacion creciente entre x e y.
Introduccion a la Estadıstica Andres M. Alonso
6
Otra manera de calcular la covarianza:
I Es ineficiente calcular la covarianza directamente a traves de esta definicion.Se puede calcular la covarianza mediante la siguiente formula.
Teorema 1.
sxy =1n
(n∑
i=1
xiyi − nxy
)
I El calculo a traves de este resultado es mucho mas rapido, ya que no setiene que restar las medias de todos los datos.
Ejemplo 2.
sxy =175
(90000× 81861 + 62091× 105628 + . . . 282000× 479791
−75× 236591,0× 261277,0)≈ 1,8383e10
Introduccion a la Estadıstica Andres M. Alonso
7
Demostracion
sxy =1
n
n∑i=1
(xi − x)(yi − y)
=1
n
(n∑
i=1
[xiyi − xiy − xyi + xy]
)
=1
n
(n∑
i=1
xiyi −n∑
i=1
xiy −n∑
i=1
xyi +n∑
i=1
xy
)
=1
n
(n∑
i=1
xiyi − yn∑
i=1
xi − xn∑
i=1
yi + nxy
)
=1
n
(n∑
i=1
xiyi − ny1
n
n∑i=1
xi − nx1
n
n∑i=1
yi + nxy
)
=1
n
(n∑
i=1
xiyi − nyx− nxy + nxy
)=
1
n
(n∑
i=1
xiyi − nxy
).
Introduccion a la Estadıstica Andres M. Alonso
8
Ejemplo 2. Utilizando Statgraphics:
IT GTINE----------------------------------------------------Count 75 75Average 236591.0 261277.0Variance 2.29468E10 2.90159E10Standard deviation 151482.0 170341.0----------------------------------------------------
CovariancesIT GTINE
----------------------------------------------------IT 2.29468E10 1.81374E10
( 75) ( 75)
GTINE 1.81374E10 2.90159E10( 75) ( 75)
----------------------------------------------------
Introduccion a la Estadıstica Andres M. Alonso
9
Ejemplo 3. Se querıa estudiar la concentracion de acido urico en la lechede una especie de vaca y se tomo una muestra de 14 vacas. Los datos sonproduccion de leche (x lt/dıa) y concentracion de acido (y µmol/litro).
x 42,7 40,2 38,2 37,6 32,2 32,2 28,0y 92 120 128 110 153 162 202x 27,2 26,6 23,0 22,7 21,8 21,3 20,2y 140 218 195 180 193 238 213
Diagrama de dispersión
20 24 28 32 36 40 44
x
90
120
150
180
210
240
y
Tiemeyer, Stohrer, W. y Giesecke, D. (1984). Metabolites of nucleic acids in bovine milk. J. Dairy Sci., 67, 723-728.
Introduccion a la Estadıstica Andres M. Alonso
10
Calculamos ahora la covarianza entre x e y, y obtenemos:
x =114
(42,7 + . . . + 20,2) ≈ 29,57
y =114
(92 + . . . + 213) ≈ 167,43
14∑i=1
xiyi = 42,7× 92 + . . . + 20,2× 213 = 65335,5
sxy =114
(65335,5 − 14× 29,57× 167,43) ≈ −282,7
I Vemos que existe una relacion negativa entre las dos variables.
I La covarianza es positiva si existe una relacion (lineal) creciente y negativasi existe una relacion decreciente.
Introduccion a la Estadıstica Andres M. Alonso
11
Cuasi-covarianza
Igual que con la cuasi-varianza, en muchos casos, se utiliza un denominadorigual a n− 1, es decir
scxy =
1n− 1
n∑i=1
(xi − x)(yi − y).
En este caso, se denomina cuasi-covarianza.
Ejemplo 3. Utilizando Statgraphics:Produccion de leche Concentracion AU
------------------------------------------------------------Produccion de leche 58.473 -304.61
( 14) ( 14)
Concentracion AU -304.61 2012.57( 14) ( 14)
------------------------------------------------------------
I Es importante observar que en Statgraphics se emplea esta definicion.
Introduccion a la Estadıstica Andres M. Alonso
12
Calculo de la covarianza para datos agrupados
Dada una tabla de doble entrada,
Yy1 y2 . . . yJ
x1 f11 f12 . . . f1J f1•x2 f21 f22 . . . f2J f2•
X ... ... ... ... ... ...xI fI1 fI2 . . . fIJ fI•
f•1 f•2 . . . f•J 1
Calculamos la media de X: x =∑I
i=1 fi•xi,
Calculamos la media de Y : y =∑J
j=1 f•jyj.
La covarianza se obtiene de: sxy =∑I
i=1
∑Jj=1 fijxiyj − xy.
Introduccion a la Estadıstica Andres M. Alonso
13
Ejemplo 4. La siguiente tabla proporciona el numero de veces (X) que unamuestra de 50 estudiantes de Economıa han tenido que repetir Introduccion ala Estadıstica y el numero de anos que han tardado en acabar la licenciatura(Y ).
Y4 5 6 7
0 ,3 ,1 ,06 ,04 ,51 ,08 ,16 ,04 ,02 ,3
X 2 0 ,04 ,02 ,06 ,123 0 0 0 ,08 ,08
,38 ,3 ,12 ,2 1
Tenemos que x = ,78 e y = 5,14.
La covarianza es∑i
∑j
fijxiyj = 0× 4× ,3 + 0× 5× ,1 + . . . + 3× 7× ,08 = 4,66
sxy =∑
i
∑j
fijxiyj − xy = 4,66 − ,78× 5,14 = 0,6508
Introduccion a la Estadıstica Andres M. Alonso
14
Correlacion
I Si las unidades de la variable X son centımetros y las unidades de la variableY son gramos, entonces las unidades de la covarianza son cm× g.
I Si cambiamos las unidades de las variables, cambia la covarianza. Recordemosel ejemplo 2.
I Esto hace que el valor de la covarianza sea difıcil de interpretar.
Definicion 2. Para una muestra bivariante (x1, y1), . . . , (xn, yn), lacorrelacion entre las dos variables es
rxy =sxy
sxsy=
sxy√s2
xs2y
,
donde sxy es la covarianza y sx y sy son las desviaciones tıpicas.
I La correlacion es independiente de las unidades de las variables.
Introduccion a la Estadıstica Andres M. Alonso
15
Propiedades de la correlacion
−1 ≤ rxy ≤ 1.
rxy = 1 si y solo si existen constantes α y β > 0 donde yi = α + βxi parai = 1, . . . , n. Es decir que existe una relacion lineal positiva exacta entre lasdos variables.
rxy = −1 si y solo si existen constantes α y β < 0 donde yi = α+βxi parai = 1, . . . , n. Es decir que existe una relacion lineal negativa exacta entrelas dos variables.
• Si la correlacion esta cerca de 1 o −1, entonces hay una relacionaproximadamente lineal.
Si no existe ninguna relacion entre las dos variables, la correlacion es 0.
Introduccion a la Estadıstica Andres M. Alonso
16
Ejemplos
0 0.2 0.4 0.6 0.8 11
1.5
2
rxy
= 0.983
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
1.2
1.4
rxy
= -0.978
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
rxy
= 0.046
0 0.2 0.4 0.6 0.8 10
0.05
0.1
0.15
0.2
0.25
0.3
0.35
rxy
= 0.041
Introduccion a la Estadıstica Andres M. Alonso
17
Ejemplo 5. Retomamos el Ejemplo 3 sobre la concentracion de acido uricoen la leche vacuna.
I Hemos calculado las medias y la covarianza en el Ejemplo 3.
I Necesitamos las varianzas, desviaciones tıpicas y la correlacion:
s2x =
1n
(n∑
i=1
x2i − n× x2
)
=114(42,72 + . . . + 20,22 − 14× 29,562
)≈ 54,43 y analogamente,
s2y ≈ 1868,82.
rxy =−283,2√
54,43× 1868,82≈ −0,89
I Existe una relacion negativa –aproximadamente lineal– entre las dosvariables.
Introduccion a la Estadıstica Andres M. Alonso
18
Ejemplo 6. En el Ejemplo 4, calculamos la covarianza entre el numero deconvocatorias agotadas de la asignatura “Introduccion a la Estadıstica” y elnumero de anos para terminar la licenciatura.
I Recordando que las desviaciones tıpicas son sx = 0,9442 y sy = 1,1315, lacorrelacion es
rxy =0,6508
0,9442× 1,1315≈ 0,61.
I Hay una correlacion positiva entre las dos variables.
Plot of Y vs X
0 0.5 1 1.5 2 2.5 3
X
4
4.5
5
5.5
6
6.5
7
Y
Introduccion a la Estadıstica Andres M. Alonso
19
Si no existe ninguna relacion entre las dos variables, lacorrelacion es 0.
Ejemplo 7. Los datos son 30 parejas de numeros aleatorios.
Correlación = -0.03
0 2 4 6 8 10
x
0
2
4
6
8
10
y
I La correlacion es aproximadamente cero. Ejemplo en Excel
I El recıproco no es cierto.
Introduccion a la Estadıstica Andres M. Alonso
20
Correlacion igual a 0 no implica ninguna relacion
I Hemos visto que si hay una relacion mas o menos lineal, la correlacion entrelas dos variables es bastante alta pero ¿que pasa si hay una relacion no lineal?
Correlación = 0.97
x
y
0 4 8 12 16 20
0
100
200
300
400
Correlación = 0
-6 -4 -2 0 2 4 6
x
0
10
20
30
40
y
I En ambos graficos se ha utilizado la formula y = x2 para generar los datos.Esto es, existe una relacion no lineal entre x e y.
Introduccion a la Estadıstica Andres M. Alonso
21
Recta de Regresion
I Se han visto algunos ejemplos donde parece que haya una relacion aprox-imadamente lineal entre dos variables. Supongamos que queremos estimar larelacion entre las dos variables. ¿Como ajustamos una recta a los datos?
I Un modelo para representar una relacion aproximadamente lineal es
y = α + βx + ε
donde ε es un error de prediccion.
I En esta formulacion: y es la variable dependiente cuyo valor depende delvalor de la variable independiente x.
Introduccion a la Estadıstica Andres M. Alonso
22
Calculo de la recta de regresion por mınimos cuadrados
I Dada una muestra de datos (x1, y1), . . . , (xn, yn) queremos obtener la rectaque se ajusta mejor a estos datos.
I Si ajustamos una recta y = a + bx a los datos de la muestra, entonces losresiduos o errores de prediccion estimados son
ri = yi − (a + bxi) para i = 1, . . . , n.
I De alguna manera, la recta que se ajusta mejor es la que minimiza el error
total. Pero ¿como definimos el error total?
I Una eleccion es la suma de errores cuadrados
S(a, b) =n∑
i=1
r2i =
n∑i=1
(yi − (a + bxi))2.
Introduccion a la Estadıstica Andres M. Alonso
23
Calculo de la recta de regresion
0 1 2 3 4 5 6 7 8 9 103
4
5
6
7
8
9
10
11
12
13
14
(xi, a + b x
i)
ri
(xi,y
i)
ri = yi − (a + bxi) = yi − yi.
Introduccion a la Estadıstica Andres M. Alonso
24
Teorema 2. Para una muestra de datos bivariantes (x1, y1), . . . , (xn, yn),la recta de forma y = a + bx que minimiza la suma de errores cuadradosS(a, b) =
∑ni=1(yi − a− bxi)2 cumple que
b =sxy
s2x
a = y − bx.
Demostracion
Supongamos que ajustamos la recta y = a + bx. Queremos minimizar el valorde S(a, b). Obtenemos los ceros de
∂S
∂a=
∂S
∂b= 0.
Introduccion a la Estadıstica Andres M. Alonso
25
∂S
∂a= −2
n∑i=1
(yi − a− bxi) = −2 (ny − na− nbx) = 0
a = y − bx
∂S
∂b= −2
n∑i=1
xi(yi − a− bxi) = −2
(n∑
i=1
xiyi −n∑
i=1
xi(a + bxi)
)= 0
n∑i=1
xiyi =n∑
i=1
xi(a + bxi) =n∑
i=1
xi(y − bx + bxi) sustituyendo por a
= nxy + b
(n∑
i=1
x2i − nx2
)
b =∑n
i=1 xiyi − nxy∑ni=1 x2
i − nx2=
nsxy
ns2x
=sxy
s2x
.
Introduccion a la Estadıstica Andres M. Alonso
26
Ejemplo 8. Se quiere probar la elasticidad de un muelle. Con este objetivo,se sometio el muelle a varios niveles de fuerza (x Newtons) y se midio laextension total del muelle (y mm) en cada caso.
fuerza 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5extension 18 11 25 22 35 50 54 45 52 68
Diagrama de dispersión de extension frente a fuerza
0 0,1 0,2 0,3 0,4 0,5
fuerza
0
20
40
60
80
exten
sion
Introduccion a la Estadıstica Andres M. Alonso
27
I El diagrama de dispersion sugiere que existe una relacion casi lineal entrefuerza y extension. Para predecir la extension del muelle en torno de la fuerzaaplicada, aplicamos el model de regresion
y = α + βx + ε
I Dados los datos de la muestra, hallamos la recta estimada por mınimoscuadrados. Tenemos:
x = 0,3
s2x = 0,02
y = 38
s2y = 310,8
sxy = 2,34
Introduccion a la Estadıstica Andres M. Alonso
28
I Calculamos la recta de mınimos cuadrados.
b =sxy
s2x
=2,340,02
= 117
a = y − bx = 38− 117× 0,3 = 2,9
I La recta ajustada es y = 2,9 + 117x.
La recta de regresión
fuerza
exten
sion
0 0,1 0,2 0,3 0,4 0,5
0
20
40
60
80
Introduccion a la Estadıstica Andres M. Alonso
29
Ejemplo 9. Volvemos a los datos sobre el acido urico en la leche de vacasdel Ejemplo 3.
I En el Ejemplo 3, obtuvimos que x = 29,56, y = 167,43 y sxy = −283,2 yen el Ejemplo 5 que s2
x = 54,43 y s2y = 1868,82.
I Luego, si queremos predecir la concentracion de acido urico en la leche(y) en terminos de la cantidad de leche producida (x), la recta de mınimoscuadrados es
y = a + bx
donde
b =−283,254,43
= −5,20
a = 167,43− (−5,20)× 29,56
= 321,24
Introduccion a la Estadıstica Andres M. Alonso
30
I Los resultados del analisis en Statgraphics son:
Regression Analysis - Linear model: Y = a + b*X---------------------------------------------------------Dependent variable: y Independent variable: x---------------------------------------------------------
Parameter Estimate--------------------------Intercept 321,241Slope -5,20265--------------------------
Correlation Coefficient = -0,887889R-squared = 78,8347 percentStandard Error of Est. = 21,4817.
The equation of the fitted model is y = 321,241 - 5,20265*x
Introduccion a la Estadıstica Andres M. Alonso
31
Recta de regresión ajustada
x
y
20 24 28 32 36 40 44
90
120
150
180
210
240
Introduccion a la Estadıstica Andres M. Alonso
32
Prediccion con la recta de regresion
I Habiendo ajustado una recta y = a + bx a los datos, podremos usarla parapredecir el valor de y teniendo el valor de x.
Ejemplo 10. En el Ejemplo an-terior, supongamos que una vacaproduce x = 30 litros de lechepor dıa.¿Cual estimamos es la concen-tracion de acido urico en la lechede esta vaca?
Estimamos con
y = 321,24− (−5,20)× 30 ≈ 165,15 µmol/litro
Introduccion a la Estadıstica Andres M. Alonso
33
Ejemplo 11. En el Ejemplo 8, predecimos que la extension del muelle si seaplica una fuerza de 0,4 Newtons es:
y = 2,9 + 117× 0,4 = 49,7mm.
¿Que pasarıa si ponemos una fuerza de 0?
I La extension prevista por la recta de regresion en este caso es de 2,9 mm.
I No obstante el resultado no tiene sentido. Con fuerza 0, la extension delmuelle debe ser cero.
I No es conveniente (arriesgado) hacer predicciones usando valores de x fueradel rango de los datos observados.
Introduccion a la Estadıstica Andres M. Alonso
34
Varianza residual
Definicion 3. Dada una muestra de datos (x1, y1), . . . , (xn, yn) se ajusta larecta de regresion por mınimos cuadrados, y = a+bx, con b = sxy
s2x
y a = y−bx.
Se define la varianza residual como
s2r =
1n
∑n
i=1r2i =
1n
∑n
i=1(yi − (a + bxi))
2.
Ejemplo 12. Calculamos los residuos en el Ejemplo 8.
y 18 11 25 22 35 50 54 45 52 68
y 14,6 14,6 26,3 26,3 38,0 38,0 49,7 49,7 61,4 61,4
r 3,4 −3,6 −1,3 −4,3 −3,0 12,0 4,3 −4,7 −9,4 6,6
r =110
(3,4 + . . . + 6,6) = 0
s2r =
110(3,42 + . . . + 6,62
)= 37,2
Introduccion a la Estadıstica Andres M. Alonso
35
Existe una manera mas rapido de hacer este calculo:
I En primer lugar observamos que r = 0 siempre si ajustamos la recta,y = a + bx, por mınimos cuadrados:
Demostracion
r =1n
n∑i=1
(yi − (a + bxi))
=1n
n∑i=1
(yi − (y − bx + bxi)) por definicion de a
=1n
(n∑
i=1
(yi − y)− bn∑
i=1
(xi − x)
)= 0
�
Introduccion a la Estadıstica Andres M. Alonso
36
I En segundo lugar, tenemos el siguiente resultado.
Teorema 3.s2
r = s2y
(1− r2
xy
),
donde rxy es el coeficiente de correlacion.
Demostracion
s2r =
1
n
n∑i=1
(yi − (a + bxi))2=
1
n
n∑i=1
(yi − (y − bx + bxi))2
por definicion de a
=1
n
n∑i=1
((yi − y)− b(xi − x)))2
=1
n
(n∑
i=1
(yi − y)2 − 2b
n∑i=1
(yi − y)(xi − x)+ b2
n∑i=1
(xi − x)2
)
= s2y − 2bsxy + b
2s
2x = s
2y − 2
sxy
s2x
sxy +
(sxy
s2x
)2
s2x por definicion de b
= s2y −
s2xy
s2x
= s2y
(1−
s2xy
s2xs2
y
)= s
2y
(1−
(sxy
sxsy
)2)
= s2y
(1− r
2xy
). �
Introduccion a la Estadıstica Andres M. Alonso
37
Introduccion a la Estadıstica Andres M. Alonso
38
Ejemplo 13. Volviendo al Ejemplo 8, recordamos que s2x = 0,02, s2
y = 310,8y sxy = 2,34.
Luego, la correlacion es rxy = 2,34√0,2×310,8
≈ 0,939.
Entonces s2r = 310,8
(1− 0,9392
)= 37,02 tal como calculamos anteriormente.
Ejemplo 14. En la salida de Statgraphics del Ejemplo 9 vemos que elcoeficiente de correlacion es −0,88789 y tenıamos que s2
y = 1868,82.
Entonces, s2r = 1868,82
(1− (−0,88789)2
)≈ 395,54
Introduccion a la Estadıstica Andres M. Alonso
39
Otra manera de escribir el Teorema 3 es
s2r
s2y
= 1− r2xy.
s2y es la varianza del error al predecir los valores de la variable y sin utilizar
los valores de x. y = y
s2r es la varianza del error al predecir los valores de la varianble y si usamos
la variable x. y = a + bx
El porcentaje de reduccion de la varianza original debido a la regresion esr2xy × 100 %.
Introduccion a la Estadıstica Andres M. Alonso
40
Ejemplo 15. En el Ejemplo 13, se ve que el porcentaje de reduccion envarianza debido al conocimiento de los valores de la fuerza es de 0,9392×100 =88,8 %.
Ejemplo 16. En el Ejemplo 9 se ve que el coeficiente de correlacion es−0,88789 y que el valor de R-squared es de un 78,8347 % = (−0,88789)2 ×100 %.
Conociendo las cantidades de leche producidas por las vacas, se reduce lavarianza un 78,8347 %.
Introduccion a la Estadıstica Andres M. Alonso
41
Otra relacion entre correlacion y regresion
Consideramos la formula para el pendiente de la recta de regresion. Tenemos:
b =sxy
s2x
=sysxy
sysxsx=
sy
sx
sxy
sxsy
=sy
sxrxy.
I Si la correlacion entre las dos variables es cero, tambien lo es la pendientede la recta.
I Ademas, el Teorema 3 nos demuestra que la reduccion en la varianza de losdatos y debida a la regresion, en ese caso, es 0.
Introduccion a la Estadıstica Andres M. Alonso
42
Analisis de los residuos
I Se pueden utilizar los residuos para ver si el modelo de regresion lineal esadecuado.
I Casi siempre es util hacer graficos de los residuos (frente x, y o y) para versi los supuestos del modelo lineal de regresion son adecuados o no.
Ejemplo 17. La recta de regresion para los cinco siguientes conjuntos dedatos es la misma:
y = 18,43 + 0,28 ∗ x
Tomado de: Bassett, E. et al (1986). Statistics: Problems and Solutions.London: Edward Arnold
Introduccion a la Estadıstica Andres M. Alonso
43
x
y
4 6 8 10 12 14
18
19
20
21
22
23
24
x
y
4 6 8 10 12 14
17
18
19
20
21
22
23
x
y
4 6 8 10 12 14
19
21
23
25
27
x
y
4 6 8 10 12 14
19
20
21
22
23
24
x
y
8 10 12 14 16 18 20
18
19
20
21
22
23
24
Introduccion a la Estadıstica Andres M. Alonso
44
El primer caso parece que la recta de regresion es adecuada.
En el segundo caso, hay una relacion no lineal.
En el tercer grafico, se ve la influencia de un dato atıpico.
En el cuarto grafico parece que la recta esta mas cerca a los datos cuandox es mas pequeno.
En el ultimo caso, se ve el efecto de un punto influyente.
I Consideremos los graficos de los residuos frente a las predicciones.
Introduccion a la Estadıstica Andres M. Alonso
45
Gráfico de predicciones frente a residuos
yhat
residuos
19 20 21 22 23
-2
-1
0
1
2
Gráfico de predicciones frente a residuos
yhat
residuos
19 20 21 22 23
-2
-1
0
1
2
Gráfico de predicciones frente a residuos
yhat
residuos
19 20 21 22 23
-3,3
-1,3
0,7
2,7
4,7
Gráfico de predicciones frente a residuos
yhat
residuos
19 20 21 22 23
-2,5
-1,5
-0,5
0,5
1,5
2,5
Gráfico de predicciones frente a residuos
yhat
residuos
20 21 22 23 24
-2
-1
0
1
2
Introduccion a la Estadıstica Andres M. Alonso
46
En el primer caso, los residuos parecen aleatorios. Es una buena indicacionde que el modelo de regresion se ajusta correctamente.
En el segundo caso, se ve una relacion entre y y los residuos. El modelolineal no se ajusta bien.
Cuando haya un dato atıpico, se ve un residuo muy alto.
Los residuos son mas pequenos cuando y es pequeno.
Se ve el efecto del dato influyente.
Introduccion a la Estadıstica Andres M. Alonso
47
Dos rectas de regresion
I Hasta ahora, hemos pensado en un modelo
y = α + βx + ε
y dada la muestra, hemos ajustado la recta y = a+bx con b = sxy
s2x
y a = y−bx.
I Pero, podemos escribir el modelo de otra manera:
x = γ + δy + ν
donde δ = 1β , γ = −α
β y ν = − εβ .
I Si usamos mınimos cuadrados para ajustar la recta x = c + dy a los datosmuestrales tendremos
d =sxy
s2y
y c = x− dy.
Observamos que d 6= 1b.
Introduccion a la Estadıstica Andres M. Alonso
48
Recta de regresion de yyy sobre xxx y Recta de regresion de xxx sobre yyy
0 1 2 3 4 5 6 7 8 9 102
4
6
8
10
12
14
(xi, y
i)
(xi, a + b x
i)
(c + d yi, y
i)
Introduccion a la Estadıstica Andres M. Alonso
49
Recta de regresion de xxx sobre yyy
2 4 6 8 10 12 140
1
2
3
4
5
6
7
8
9
10
(yi,x
i)
(yi, c + d y
i)
I (x, y) pasa a (y, x).
I Los errores se toman en horizontal, ri = xi − c− dyi.
Introduccion a la Estadıstica Andres M. Alonso
50
Ejemplo 18. Volvemos al Ejemplo 8 sobre la extension (y) obtenida con unala fuerza (x) aplicada al muelle.
I Antes hemos visto que ajustando la recta y = a+bx por mınimos cuadrados,se tiene
y = 2,9 + 117x.
Por ejemplo, x = 0,2 Newton se predice que extiende al muelle en 26.3 mm.
I Ahora supongamos que queremos predecir la fuerza x que causarıa unaextension de y. Ajustando la recta por mınimos cuadrados, tenemos
x = ,0139 + ,0075y.
Por ejemplo, una extension de y = 26,3 producirıa una fuerza de 0,3365Newton.
Introduccion a la Estadıstica Andres M. Alonso
51
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.5510
20
30
40
50
60
70
x
y
y=a+bxx=c+dydatos
I Es importante saber cuales son las variables dependientes y cuales lasindependientes.
Introduccion a la Estadıstica Andres M. Alonso
52
Correlacion y causalidad
I Si el coeficiente de correlacion entre dos variables es alto, indica queestas variables toman valores que estan relacionadas entre si. Pero no permiteconcluir una relacion causal entre esas variables.
Ejemplo 19. El siguiente grafico muestra el numero de matrimonios enMadrid y las temperaturas mensuales durante el ano 1992. El coeficiente decorrelacion es 0.67.
Plot of Matrimonios vs Temperatura
0 5 10 15 20 25 30
Temperatura
0
1
2
3
4
5(X 1000)
Mat
rim
onio
s
No parece plausible que un aumen-to de los matrimonios aumente latemperatura.
Ni que una ola de calor produzcamayor nupcialidad.
Correlaciones espurias.
Introduccion a la Estadıstica Andres M. Alonso
53
Recapitulacion
Tema 3. Correlacion y regresion
Covarianza y correlacion.
Propiedades.
W ¿Como cuantificar larelacion lineal entredos variables?
Regresion.
Criterio de mınimos cuadrados.
W Modelo lineal de Ycomo funcion de X
Introduccion a la Estadıstica Andres M. Alonso
54
Estadıstica descriptiva
Introducción.Tema 1. Análisis de datos univariantes.Tema 2. Análisis de datos bivariantes.Tema 3. Correlación y regresión.Tema 4. Series temporales y números índice.
Descripción de variables y datos socioeconómicos
Tema 1
Tema 2
Tema 3
W Analisis descriptivo de una o mas variablestomadas en un instante del tiempo.
Tema 4W Analisis descriptivo de una variable
medida en varios instantes de tiempo.
⇑Estudiar la evolucion temporal de la variable
Introduccion a la Estadıstica Andres M. Alonso