introduccion al tema 3halweb.uc3m.es/esp/personal/personas/amalonso/esp/ietema...1 introduccion al...

1

Introduccion al Tema 3

Tema 2. Analisis de datos bivariantesRepresentaciones y graficos.Resumen numerico.• Relaciones entre variables.

Extension a dos variablescuantitativas

Tema 3. Correlacion y regresionCovarianza y correlacion.Propiedades y relacion con el diagrama dedispersion.Regresion.

Introduccion a la Estadıstica Andres M. Alonso

2

Tema 3. Correlacion y regresion

Los contenidos a desarrollar en este tema son los siguientes:

Covarianza y correlacion.

Propiedades y relacion con el diagrama de dispersion.

Concepto de regresion.

Criterio de mınimos cuadrados.

Lecturas recomendadas: Capıtulos 7 y 10 del libro de Pena y Romo (1997).Secciones 12.1, 12.3 a 12.5 del libro de Newbold (2001).


3

Ejemplo 1. En la Encuesta de Presupuestos Familiares realizada por el I.N.E.en 1974–1975, se registraba el ingreso total estimado (IT) y el gasto total

GTINE. Archivo hogares.sf3

Plot of GTINE vs IT

0 2 4 6 8(X 100000)

IT

0

2

4

6

8

10(X 100000)

GTIN

E

I Se observa una relacion positiva entre el ingreso total estimado y el gastototal de los hogares.


4

Covarianza

Se ve en el Ejemplo 1 que existe una relacion creciente y mas o menos linealentre el ingreso total y el gasto total de los hogares.

Definicion 1. Para una muestra de n datos bivariantes

(x1, y1), . . . , (xn, yn)

la covarianza entre las dos variables es

sxy =1n

n∑i=1

(xi − x)(yi − y)

donde x = 1n

∑ni=1 xi e y = 1

n

∑ni=1 yi son las medias de ambas variables.

I La covarianza es una medida de la fuerza de la relacion lineal entre dosvariables cuantitativas.


5

Ejemplo 2. Con los datos del Ejemplo 1.

En primer lugar hallamos las medias de ambas variables:

x =175

(90000 + 62091 + . . . + 282000) = 236591,0

y =175

(81861 + 105628 + . . . + 479791) = 261277,0

Luego calculamos la covarianza:

sxy =175{(90000− 236591,0)(81861− 261277,0)+

(62091− 236591,0)(105628− 261277,0) + . . . +

(282000− 236591,0)(479791− 261277,0)} ≈ 1,8383e10

¿x, y y sxy si Pts �?

I La covarianza es positiva, que implica una relacion creciente entre x e y.


6

Otra manera de calcular la covarianza:

I Es ineficiente calcular la covarianza directamente a traves de esta definicion.Se puede calcular la covarianza mediante la siguiente formula.

Teorema 1.

sxy =1n

(n∑

i=1

xiyi − nxy

)

I El calculo a traves de este resultado es mucho mas rapido, ya que no setiene que restar las medias de todos los datos.

Ejemplo 2.

sxy =175

(90000× 81861 + 62091× 105628 + . . . 282000× 479791

−75× 236591,0× 261277,0)≈ 1,8383e10


7

Demostracion

sxy =1

n

n∑i=1

(xi − x)(yi − y)

=1

n

(n∑

i=1

[xiyi − xiy − xyi + xy]

)

=1

n

(n∑

i=1

xiyi −n∑

i=1

xiy −n∑

i=1

xyi +n∑

i=1

xy

)

=1

n

(n∑

i=1

xiyi − yn∑

i=1

xi − xn∑

i=1

yi + nxy

)

=1

n

(n∑

i=1

xiyi − ny1

n

n∑i=1

xi − nx1

n

n∑i=1

yi + nxy

)

=1

n

(n∑

i=1

xiyi − nyx− nxy + nxy

)=

1

n

(n∑

i=1

xiyi − nxy

).


8

Ejemplo 2. Utilizando Statgraphics:

IT GTINE----------------------------------------------------Count 75 75Average 236591.0 261277.0Variance 2.29468E10 2.90159E10Standard deviation 151482.0 170341.0----------------------------------------------------

CovariancesIT GTINE

----------------------------------------------------IT 2.29468E10 1.81374E10

( 75) ( 75)

GTINE 1.81374E10 2.90159E10( 75) ( 75)

----------------------------------------------------


9

Ejemplo 3. Se querıa estudiar la concentracion de acido urico en la lechede una especie de vaca y se tomo una muestra de 14 vacas. Los datos sonproduccion de leche (x lt/dıa) y concentracion de acido (y µmol/litro).

x 42,7 40,2 38,2 37,6 32,2 32,2 28,0y 92 120 128 110 153 162 202x 27,2 26,6 23,0 22,7 21,8 21,3 20,2y 140 218 195 180 193 238 213

Diagrama de dispersión

20 24 28 32 36 40 44

x

90

120

150

180

210

240

y

Tiemeyer, Stohrer, W. y Giesecke, D. (1984). Metabolites of nucleic acids in bovine milk. J. Dairy Sci., 67, 723-728.


10

Calculamos ahora la covarianza entre x e y, y obtenemos:

x =114

(42,7 + . . . + 20,2) ≈ 29,57

y =114

(92 + . . . + 213) ≈ 167,43

14∑i=1

xiyi = 42,7× 92 + . . . + 20,2× 213 = 65335,5

sxy =114

(65335,5 − 14× 29,57× 167,43) ≈ −282,7

I Vemos que existe una relacion negativa entre las dos variables.

I La covarianza es positiva si existe una relacion (lineal) creciente y negativasi existe una relacion decreciente.


11

Cuasi-covarianza

Igual que con la cuasi-varianza, en muchos casos, se utiliza un denominadorigual a n− 1, es decir

scxy =

1n− 1

n∑i=1

(xi − x)(yi − y).

En este caso, se denomina cuasi-covarianza.

Ejemplo 3. Utilizando Statgraphics:Produccion de leche Concentracion AU

------------------------------------------------------------Produccion de leche 58.473 -304.61

( 14) ( 14)

Concentracion AU -304.61 2012.57( 14) ( 14)

------------------------------------------------------------

I Es importante observar que en Statgraphics se emplea esta definicion.


12

Calculo de la covarianza para datos agrupados

Dada una tabla de doble entrada,

Yy1 y2 . . . yJ

x1 f11 f12 . . . f1J f1•x2 f21 f22 . . . f2J f2•

X ... ... ... ... ... ...xI fI1 fI2 . . . fIJ fI•

f•1 f•2 . . . f•J 1

Calculamos la media de X: x =∑I

i=1 fi•xi,

Calculamos la media de Y : y =∑J

j=1 f•jyj.

La covarianza se obtiene de: sxy =∑I

i=1

∑Jj=1 fijxiyj − xy.


13

Ejemplo 4. La siguiente tabla proporciona el numero de veces (X) que unamuestra de 50 estudiantes de Economıa han tenido que repetir Introduccion ala Estadıstica y el numero de anos que han tardado en acabar la licenciatura(Y ).

Y4 5 6 7

0 ,3 ,1 ,06 ,04 ,51 ,08 ,16 ,04 ,02 ,3

X 2 0 ,04 ,02 ,06 ,123 0 0 0 ,08 ,08

,38 ,3 ,12 ,2 1

Tenemos que x = ,78 e y = 5,14.

La covarianza es∑i

∑j

fijxiyj = 0× 4× ,3 + 0× 5× ,1 + . . . + 3× 7× ,08 = 4,66

sxy =∑

i

∑j

fijxiyj − xy = 4,66 − ,78× 5,14 = 0,6508


14

Correlacion

I Si las unidades de la variable X son centımetros y las unidades de la variableY son gramos, entonces las unidades de la covarianza son cm× g.

I Si cambiamos las unidades de las variables, cambia la covarianza. Recordemosel ejemplo 2.

I Esto hace que el valor de la covarianza sea difıcil de interpretar.

Definicion 2. Para una muestra bivariante (x1, y1), . . . , (xn, yn), lacorrelacion entre las dos variables es

rxy =sxy

sxsy=

sxy√s2

xs2y

,

donde sxy es la covarianza y sx y sy son las desviaciones tıpicas.

I La correlacion es independiente de las unidades de las variables.


15

Propiedades de la correlacion

−1 ≤ rxy ≤ 1.

rxy = 1 si y solo si existen constantes α y β > 0 donde yi = α + βxi parai = 1, . . . , n. Es decir que existe una relacion lineal positiva exacta entre lasdos variables.

rxy = −1 si y solo si existen constantes α y β < 0 donde yi = α+βxi parai = 1, . . . , n. Es decir que existe una relacion lineal negativa exacta entrelas dos variables.

• Si la correlacion esta cerca de 1 o −1, entonces hay una relacionaproximadamente lineal.

Si no existe ninguna relacion entre las dos variables, la correlacion es 0.


16

Ejemplos

0 0.2 0.4 0.6 0.8 11

1.5

2

rxy

= 0.983

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

1.2

1.4

rxy

= -0.978

0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

rxy

= 0.046

0 0.2 0.4 0.6 0.8 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

rxy

= 0.041


17

Ejemplo 5. Retomamos el Ejemplo 3 sobre la concentracion de acido uricoen la leche vacuna.

I Hemos calculado las medias y la covarianza en el Ejemplo 3.

I Necesitamos las varianzas, desviaciones tıpicas y la correlacion:

s2x =

1n

(n∑

i=1

x2i − n× x2

)

=114(42,72 + . . . + 20,22 − 14× 29,562

)≈ 54,43 y analogamente,

s2y ≈ 1868,82.

rxy =−283,2√

54,43× 1868,82≈ −0,89

I Existe una relacion negativa –aproximadamente lineal– entre las dosvariables.


18

Ejemplo 6. En el Ejemplo 4, calculamos la covarianza entre el numero deconvocatorias agotadas de la asignatura “Introduccion a la Estadıstica” y elnumero de anos para terminar la licenciatura.

I Recordando que las desviaciones tıpicas son sx = 0,9442 y sy = 1,1315, lacorrelacion es

rxy =0,6508

0,9442× 1,1315≈ 0,61.

I Hay una correlacion positiva entre las dos variables.

Plot of Y vs X

0 0.5 1 1.5 2 2.5 3

X

4

4.5

5

5.5

6

6.5

7

Y


19

Si no existe ninguna relacion entre las dos variables, lacorrelacion es 0.

Ejemplo 7. Los datos son 30 parejas de numeros aleatorios.

Correlación = -0.03

0 2 4 6 8 10

x

0

2

4

6

8

10

y

I La correlacion es aproximadamente cero. Ejemplo en Excel

I El recıproco no es cierto.


20

Correlacion igual a 0 no implica ninguna relacion

I Hemos visto que si hay una relacion mas o menos lineal, la correlacion entrelas dos variables es bastante alta pero ¿que pasa si hay una relacion no lineal?

Correlación = 0.97

x

y

0 4 8 12 16 20

0

100

200

300

400

Correlación = 0

-6 -4 -2 0 2 4 6

x

0

10

20

30

40

y

I En ambos graficos se ha utilizado la formula y = x2 para generar los datos.Esto es, existe una relacion no lineal entre x e y.


21

Recta de Regresion

I Se han visto algunos ejemplos donde parece que haya una relacion aprox-imadamente lineal entre dos variables. Supongamos que queremos estimar larelacion entre las dos variables. ¿Como ajustamos una recta a los datos?

I Un modelo para representar una relacion aproximadamente lineal es

y = α + βx + ε

donde ε es un error de prediccion.

I En esta formulacion: y es la variable dependiente cuyo valor depende delvalor de la variable independiente x.


22

Calculo de la recta de regresion por mınimos cuadrados

I Dada una muestra de datos (x1, y1), . . . , (xn, yn) queremos obtener la rectaque se ajusta mejor a estos datos.

I Si ajustamos una recta y = a + bx a los datos de la muestra, entonces losresiduos o errores de prediccion estimados son

ri = yi − (a + bxi) para i = 1, . . . , n.

I De alguna manera, la recta que se ajusta mejor es la que minimiza el error

total. Pero ¿como definimos el error total?

I Una eleccion es la suma de errores cuadrados

S(a, b) =n∑

i=1

r2i =

n∑i=1

(yi − (a + bxi))2.


23

Calculo de la recta de regresion

0 1 2 3 4 5 6 7 8 9 103

4

5

6

7

8

9

10

11

12

13

14

(xi, a + b x

i)

ri

(xi,y

i)

ri = yi − (a + bxi) = yi − yi.


24

Teorema 2. Para una muestra de datos bivariantes (x1, y1), . . . , (xn, yn),la recta de forma y = a + bx que minimiza la suma de errores cuadradosS(a, b) =

∑ni=1(yi − a− bxi)2 cumple que

b =sxy

s2x

a = y − bx.

Demostracion

Supongamos que ajustamos la recta y = a + bx. Queremos minimizar el valorde S(a, b). Obtenemos los ceros de

∂S

∂a=

∂S

∂b= 0.


25

∂S

∂a= −2

n∑i=1

(yi − a− bxi) = −2 (ny − na− nbx) = 0

a = y − bx

∂S

∂b= −2

n∑i=1

xi(yi − a− bxi) = −2

(n∑

i=1

xiyi −n∑

i=1

xi(a + bxi)

)= 0

n∑i=1

xiyi =n∑

i=1

xi(a + bxi) =n∑

i=1

xi(y − bx + bxi) sustituyendo por a

= nxy + b

(n∑

i=1

x2i − nx2

)

b =∑n

i=1 xiyi − nxy∑ni=1 x2

i − nx2=

nsxy

ns2x

=sxy

s2x

.


26

Ejemplo 8. Se quiere probar la elasticidad de un muelle. Con este objetivo,se sometio el muelle a varios niveles de fuerza (x Newtons) y se midio laextension total del muelle (y mm) en cada caso.

fuerza 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5extension 18 11 25 22 35 50 54 45 52 68

Diagrama de dispersión de extension frente a fuerza

0 0,1 0,2 0,3 0,4 0,5

fuerza

0

20

40

60

80

exten

sion


27

I El diagrama de dispersion sugiere que existe una relacion casi lineal entrefuerza y extension. Para predecir la extension del muelle en torno de la fuerzaaplicada, aplicamos el model de regresion

y = α + βx + ε

I Dados los datos de la muestra, hallamos la recta estimada por mınimoscuadrados. Tenemos:

x = 0,3

s2x = 0,02

y = 38

s2y = 310,8

sxy = 2,34


28

I Calculamos la recta de mınimos cuadrados.

b =sxy

s2x

=2,340,02

= 117

a = y − bx = 38− 117× 0,3 = 2,9

I La recta ajustada es y = 2,9 + 117x.

La recta de regresión

fuerza

exten

sion

0 0,1 0,2 0,3 0,4 0,5

0

20

40

60

80


29

Ejemplo 9. Volvemos a los datos sobre el acido urico en la leche de vacasdel Ejemplo 3.

I En el Ejemplo 3, obtuvimos que x = 29,56, y = 167,43 y sxy = −283,2 yen el Ejemplo 5 que s2

x = 54,43 y s2y = 1868,82.

I Luego, si queremos predecir la concentracion de acido urico en la leche(y) en terminos de la cantidad de leche producida (x), la recta de mınimoscuadrados es

y = a + bx

donde

b =−283,254,43

= −5,20

a = 167,43− (−5,20)× 29,56

= 321,24


30

I Los resultados del analisis en Statgraphics son:

Regression Analysis - Linear model: Y = a + b*X---------------------------------------------------------Dependent variable: y Independent variable: x---------------------------------------------------------

Parameter Estimate--------------------------Intercept 321,241Slope -5,20265--------------------------

Correlation Coefficient = -0,887889R-squared = 78,8347 percentStandard Error of Est. = 21,4817.

The equation of the fitted model is y = 321,241 - 5,20265*x


31

Recta de regresión ajustada

x

y

20 24 28 32 36 40 44

90

120

150

180

210

240


32

Prediccion con la recta de regresion

I Habiendo ajustado una recta y = a + bx a los datos, podremos usarla parapredecir el valor de y teniendo el valor de x.

Ejemplo 10. En el Ejemplo an-terior, supongamos que una vacaproduce x = 30 litros de lechepor dıa.¿Cual estimamos es la concen-tracion de acido urico en la lechede esta vaca?

Estimamos con

y = 321,24− (−5,20)× 30 ≈ 165,15 µmol/litro


33

Ejemplo 11. En el Ejemplo 8, predecimos que la extension del muelle si seaplica una fuerza de 0,4 Newtons es:

y = 2,9 + 117× 0,4 = 49,7mm.

¿Que pasarıa si ponemos una fuerza de 0?

I La extension prevista por la recta de regresion en este caso es de 2,9 mm.

I No obstante el resultado no tiene sentido. Con fuerza 0, la extension delmuelle debe ser cero.

I No es conveniente (arriesgado) hacer predicciones usando valores de x fueradel rango de los datos observados.


34

Varianza residual

Definicion 3. Dada una muestra de datos (x1, y1), . . . , (xn, yn) se ajusta larecta de regresion por mınimos cuadrados, y = a+bx, con b = sxy

s2x

y a = y−bx.

Se define la varianza residual como

s2r =

1n

∑n

i=1r2i =

1n

∑n

i=1(yi − (a + bxi))

2.

Ejemplo 12. Calculamos los residuos en el Ejemplo 8.

y 18 11 25 22 35 50 54 45 52 68

y 14,6 14,6 26,3 26,3 38,0 38,0 49,7 49,7 61,4 61,4

r 3,4 −3,6 −1,3 −4,3 −3,0 12,0 4,3 −4,7 −9,4 6,6

r =110

(3,4 + . . . + 6,6) = 0

s2r =

110(3,42 + . . . + 6,62

)= 37,2


35

Existe una manera mas rapido de hacer este calculo:

I En primer lugar observamos que r = 0 siempre si ajustamos la recta,y = a + bx, por mınimos cuadrados:

Demostracion

r =1n

n∑i=1

(yi − (a + bxi))

=1n

n∑i=1

(yi − (y − bx + bxi)) por definicion de a

=1n

(n∑

i=1

(yi − y)− bn∑

i=1

(xi − x)

)= 0

�


36

I En segundo lugar, tenemos el siguiente resultado.

Teorema 3.s2

r = s2y

(1− r2

xy

),

donde rxy es el coeficiente de correlacion.

Demostracion

s2r =

1

n

n∑i=1

(yi − (a + bxi))2=

1

n

n∑i=1

(yi − (y − bx + bxi))2

por definicion de a

=1

n

n∑i=1

((yi − y)− b(xi − x)))2

=1

n

(n∑

i=1

(yi − y)2 − 2b

n∑i=1

(yi − y)(xi − x)+ b2

n∑i=1

(xi − x)2

)

= s2y − 2bsxy + b

2s

2x = s

2y − 2

sxy

s2x

sxy +

(sxy

s2x

)2

s2x por definicion de b

= s2y −

s2xy

s2x

= s2y

(1−

s2xy

s2xs2

y

)= s

2y

(1−

(sxy

sxsy

)2)

= s2y

(1− r

2xy

). �


37


38

Ejemplo 13. Volviendo al Ejemplo 8, recordamos que s2x = 0,02, s2

y = 310,8y sxy = 2,34.

Luego, la correlacion es rxy = 2,34√0,2×310,8

≈ 0,939.

Entonces s2r = 310,8

(1− 0,9392

)= 37,02 tal como calculamos anteriormente.

Ejemplo 14. En la salida de Statgraphics del Ejemplo 9 vemos que elcoeficiente de correlacion es −0,88789 y tenıamos que s2

y = 1868,82.

Entonces, s2r = 1868,82

(1− (−0,88789)2

)≈ 395,54


39

Otra manera de escribir el Teorema 3 es

s2r

s2y

= 1− r2xy.

s2y es la varianza del error al predecir los valores de la variable y sin utilizar

los valores de x. y = y

s2r es la varianza del error al predecir los valores de la varianble y si usamos

la variable x. y = a + bx

El porcentaje de reduccion de la varianza original debido a la regresion esr2xy × 100 %.


40

Ejemplo 15. En el Ejemplo 13, se ve que el porcentaje de reduccion envarianza debido al conocimiento de los valores de la fuerza es de 0,9392×100 =88,8 %.

Ejemplo 16. En el Ejemplo 9 se ve que el coeficiente de correlacion es−0,88789 y que el valor de R-squared es de un 78,8347 % = (−0,88789)2 ×100 %.

Conociendo las cantidades de leche producidas por las vacas, se reduce lavarianza un 78,8347 %.


41

Otra relacion entre correlacion y regresion

Consideramos la formula para el pendiente de la recta de regresion. Tenemos:

b =sxy

s2x

=sysxy

sysxsx=

sy

sx

sxy

sxsy

=sy

sxrxy.

I Si la correlacion entre las dos variables es cero, tambien lo es la pendientede la recta.

I Ademas, el Teorema 3 nos demuestra que la reduccion en la varianza de losdatos y debida a la regresion, en ese caso, es 0.


42

Analisis de los residuos

I Se pueden utilizar los residuos para ver si el modelo de regresion lineal esadecuado.

I Casi siempre es util hacer graficos de los residuos (frente x, y o y) para versi los supuestos del modelo lineal de regresion son adecuados o no.

Ejemplo 17. La recta de regresion para los cinco siguientes conjuntos dedatos es la misma:

y = 18,43 + 0,28 ∗ x

Tomado de: Bassett, E. et al (1986). Statistics: Problems and Solutions.London: Edward Arnold


43

x

y

4 6 8 10 12 14

18

19

20

21

22

23

24

x

y

4 6 8 10 12 14

17

18

19

20

21

22

23

x

y

4 6 8 10 12 14

19

21

23

25

27

x

y

4 6 8 10 12 14

19

20

21

22

23

24

x

y

8 10 12 14 16 18 20

18

19

20

21

22

23

24


44

El primer caso parece que la recta de regresion es adecuada.

En el segundo caso, hay una relacion no lineal.

En el tercer grafico, se ve la influencia de un dato atıpico.

En el cuarto grafico parece que la recta esta mas cerca a los datos cuandox es mas pequeno.

En el ultimo caso, se ve el efecto de un punto influyente.

I Consideremos los graficos de los residuos frente a las predicciones.


45

Gráfico de predicciones frente a residuos

yhat

residuos

19 20 21 22 23

-2

-1

0

1

2


yhat

residuos

19 20 21 22 23

-2

-1

0

1

2


yhat

residuos

19 20 21 22 23

-3,3

-1,3

0,7

2,7

4,7


yhat

residuos

19 20 21 22 23

-2,5

-1,5

-0,5

0,5

1,5

2,5


yhat

residuos

20 21 22 23 24

-2

-1

0

1

2


46

En el primer caso, los residuos parecen aleatorios. Es una buena indicacionde que el modelo de regresion se ajusta correctamente.

En el segundo caso, se ve una relacion entre y y los residuos. El modelolineal no se ajusta bien.

Cuando haya un dato atıpico, se ve un residuo muy alto.

Los residuos son mas pequenos cuando y es pequeno.

Se ve el efecto del dato influyente.


47

Dos rectas de regresion

I Hasta ahora, hemos pensado en un modelo

y = α + βx + ε

y dada la muestra, hemos ajustado la recta y = a+bx con b = sxy

s2x

y a = y−bx.

I Pero, podemos escribir el modelo de otra manera:

x = γ + δy + ν

donde δ = 1β , γ = −α

β y ν = − εβ .

I Si usamos mınimos cuadrados para ajustar la recta x = c + dy a los datosmuestrales tendremos

d =sxy

s2y

y c = x− dy.

Observamos que d 6= 1b.


48

Recta de regresion de yyy sobre xxx y Recta de regresion de xxx sobre yyy

0 1 2 3 4 5 6 7 8 9 102

4

6

8

10

12

14

(xi, y

i)

(xi, a + b x

i)

(c + d yi, y

i)


49

Recta de regresion de xxx sobre yyy

2 4 6 8 10 12 140

1

2

3

4

5

6

7

8

9

10

(yi,x

i)

(yi, c + d y

i)

I (x, y) pasa a (y, x).

I Los errores se toman en horizontal, ri = xi − c− dyi.


50

Ejemplo 18. Volvemos al Ejemplo 8 sobre la extension (y) obtenida con unala fuerza (x) aplicada al muelle.

I Antes hemos visto que ajustando la recta y = a+bx por mınimos cuadrados,se tiene

y = 2,9 + 117x.

Por ejemplo, x = 0,2 Newton se predice que extiende al muelle en 26.3 mm.

I Ahora supongamos que queremos predecir la fuerza x que causarıa unaextension de y. Ajustando la recta por mınimos cuadrados, tenemos

x = ,0139 + ,0075y.

Por ejemplo, una extension de y = 26,3 producirıa una fuerza de 0,3365Newton.


51

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.5510

20

30

40

50

60

70

x

y

y=a+bxx=c+dydatos

I Es importante saber cuales son las variables dependientes y cuales lasindependientes.


52

Correlacion y causalidad

I Si el coeficiente de correlacion entre dos variables es alto, indica queestas variables toman valores que estan relacionadas entre si. Pero no permiteconcluir una relacion causal entre esas variables.

Ejemplo 19. El siguiente grafico muestra el numero de matrimonios enMadrid y las temperaturas mensuales durante el ano 1992. El coeficiente decorrelacion es 0.67.

Plot of Matrimonios vs Temperatura

0 5 10 15 20 25 30

Temperatura

0

1

2

3

4

5(X 1000)

Mat

rim

onio

s

No parece plausible que un aumen-to de los matrimonios aumente latemperatura.

Ni que una ola de calor produzcamayor nupcialidad.

Correlaciones espurias.


53

Recapitulacion

Tema 3. Correlacion y regresion

Covarianza y correlacion.

Propiedades.

W ¿Como cuantificar larelacion lineal entredos variables?

Regresion.

Criterio de mınimos cuadrados.

W Modelo lineal de Ycomo funcion de X


54

Estadıstica descriptiva

Introducción.Tema 1. Análisis de datos univariantes.Tema 2. Análisis de datos bivariantes.Tema 3. Correlación y regresión.Tema 4. Series temporales y números índice.

Descripción de variables y datos socioeconómicos

Tema 1

Tema 2

Tema 3

W Analisis descriptivo de una o mas variablestomadas en un instante del tiempo.

Tema 4W Analisis descriptivo de una variable

medida en varios instantes de tiempo.

⇑Estudiar la evolucion temporal de la variable


introduccion al tema 3halweb.uc3m.es/esp/personal/personas/amalonso/esp/ietema...1 introduccion al...

Documents