coeficiente de correlaciónterra.geociencias.unam.mx/~ramon/estinf/clase18.pdf · 2011-03-02 ·...

33
Coeficiente Coeficiente de de Correlaci Correlaci ó ó n n

Upload: others

Post on 19-Jul-2020

15 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

CoeficienteCoeficiente de de CorrelaciCorrelacióónn

Page 2: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Al efectuar un análisis de regresión simple (de dos variables) necesitamos hacer las siguientes suposiciones.

• Que las dos variables son mensurables

• Que la relación entre las dos variables es lineal

• Que no hay puntos muy alejados de la media de Y (outliers)

• Que los errores de la predicción son independientes y distribuídos al azar

• Al probar la significancia:

•Que la muestra fue seleccionada aleatoriamente de la población

•Si la muestra es pequeña, que las variables están distribuídasnormalmente en la población

Page 3: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Sin embargo mencionamos que la medida del error no nos dice grancosa si no lo comparamos con algo como la media o la desviación

estandar σ2.

En la clase pasada vimos como estimar una recta a un grupo de observaciones, en lo que se llama un análisis de regresión lineal usando el método de mínimos cuadrados.

También obtuvimos una forma de medir el error de nuestro ajuste pormedio de el error cuadrático medio, la suma de residuos cuadrados o la raíz cuadrática media.

Y

Page 4: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

En el ejemplo de la clase pudimos obtener una recta que se ajusta a los datos (observaciones) a la cual podemos calcular el error.

76543210

20

15

10

5

0

Clientes Previos

Ven

tas

Ventas vs Clientes Previos

Page 5: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Resumiendo la clase enterior tenemos lo siguiente:

Recta de la regresión: Y = a + b XSumas de cuadrados:

Coeficientes de la recta:

Medidas del error:

22 YNYSYY −=∑YXNXYSXY −=∑

22 XNXSXX −=∑

XX

XY

SSb = XbYa −=

XYYY bSSRSS −=N

bSSMSE XYYY −= NbSSRMS XYYY −=

Page 6: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Nota: El error esterror estáándar de la estimacindar de la estimacióónn es el RMS pero ajustadoajustado para el número de coeficientes en la regresión, es decir:

2YY XYS bS

RMSaN−

=−

Page 7: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Si vemos nuevamente la tabla de cálculo podemos fijarnos en que la suma de los residuos es = 0. Esto es una consecuencia directa del método y nos da una forma de verificar nuestra estimación.

CasoCaso ClientesClientes(X)(X)

VentasVentas(Y)(Y)

PredicciPrediccióónn( Y ( Y ′′ ))

Error (e)Error (e)e=( Ye=( Y--YY′′ ))

e e 22

A 2 2 +3.604 -1.604 2.573

B 3 3 +6.036 -3.036 9.217

C 0 2 -1.260 +3.260 10.628

D 4 8 +8.468 -0.468 0.219

E 5 10 +10.900 -0.900 0.810

F 1 2 +1.172 +0.826 0.686

G 6 15 +13.332 +1.668 2.782

H 3 5 +6.036 -1.036 1.073

I 7 18 +15.764 +2.236 5.000

J 5 10 +10.900 -0.900 0.810

Total 36 75 0.0 33.80

Page 8: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Recordamos que los errores (residuos) cuadrados se pueden visualizar como:

En los ejemplos anteriores se pudo calcular un error cuadrático, pero esto no es completamente indicativo de una buena correlación lineal.

Page 9: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Es claro que el error cuadrático medio es una manera de cuantificar qué tan bueno es el ajuste efectuado, pero, este no nos dice que tan lineal es la dependencia entre las variables.

¿Cómo podemos saber

esto?

Page 10: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Vamos a regresar al ejemplo interactivo para ver qué pasa con la cantidad llamada r

Ejemplo interactivo 4:

Regresión a "Ojo"

Page 11: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente
Page 12: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente
Page 13: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Interpretación Gráfica de la partición de los errores o residuos

Varianza

Total SSY

Varianza no-

Explicada SSE

Varianza

Explicada SSR

Page 14: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Este coeficiente nos dice qué tanto se aproximan los datos a una tendencia lineal, entre más cerca de 1 esté mejor es la aproximación.

Page 15: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

El COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACIÓÓNN también nos dice el grado de correlación LINEAL entre las dos variables.

El coeficiente de correlación se puede calcular con la raíz cuadrada del coeficiente de determinación (o sea que el coeficiente de determinación es el cuadrado del coeficiente correlación) pero es necesario además saber su signo.

r = coeficiente de correlación, -1 < r < 1.0

r2 = coeficiente de determinación 0 < r2 < 1.0

2rr =

Page 16: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

El coeficiente de correlación resulta al encontrar la recta que mejor se ajusta a los datos en forma:

Y al encontrar la recta que mejor se ajusta a los datos de forma:

byax +=

xbay ´´+=

Es decir, intercambiando la variable dependiente (o predecida) y la independiente (o predictor).A esto se le llama hacer una REGRESIREGRESIÓÓN DE N DE XX EN EN YY (lo opuesto a efectuar una REGRESIREGRESIÓÓN DE N DE YY EN EN XX ).

Page 17: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Y

X

x x

x xx

X

Y

x

xx x

x

Page 18: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Y su raíz cuadrada nos da la magnitud o valor absoluto del coeficiente de correlacicoeficiente de correlacióónn (porque este puede tomar valores negativos).

El coeficiente de determinación se puede definir como el producto de las pendientes de las dos rectas:

´bbr ⋅=

De lo anterior podemos deducir que si las pendientes b y b´ son recíprocas, entonces r = 1 lo cual corresponde a que al intercambiar variables como variable independiente y dependiente, estamos encontrando la misma recta, pero visualizada desde el juego de ejes en espejo.

'bbr ⋅=2

Para saber el signo usamos el signo de la pendiente de la recta deregresión de Y en X o sea de b

Page 19: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Y

X

x xx

xx

Veamos como funciona gráficamente:

Page 20: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Y

xx

xx

x

X

Page 21: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Y

X

x xx

xx

Page 22: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Y

X

x x xx

x

Page 23: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Y

X

xx

xx

x

Page 24: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

También podemos ver que el hecho de que un coeficiente de correlación no sea cercano a 1 implica que al hacer la regresión de Y en X encontramos una recta DIFERENTEDIFERENTE a la que se obtiene de hacer la regresión de X en Y.

Y

X

X

Y

Page 25: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Lo anterior también implica que un coeficiente de correlación igual a 1, nos indica una perfecta relación lineal entre las dos variables, como se muestra en el siguiente ejemplo.

r ~ 1

Page 26: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Por otro lado, un coeficiente de correlación igual o cercano a 0 indica que no hay correlación lineal entre los datos, como se muestra a continuación

r ~ 0

¡No confundir la pendiente de la recta con el coeficiente de correlación!

Page 27: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

En general, la bondad del ajuste lineal será dada por qué tanto el coeficiente de correlación se acerca al valor de 1.

El coeficiente de correlación se calcula de la siguiente manera usando las fórmulas anteriores:

Notar que el signo nos lo da la pendiente de la rectaNotar que el signo nos lo da la pendiente de la recta

O bien

YY

XY

SbSr =

))()()((

))((22∑ ∑

∑−−

−−=

YYXX

YYXXr

Page 28: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

El COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACIÓÓNN, como vimos, nos dice el grado de correlación LINEAL entre las dos variables, pero, como se ve en el ejemplo siguiente, es necesario visualizar primero el diagrama de dispersión para ver si existe una tendencia lineal entre las dos variables antes de hacer algun cálculo de coeficiente de correlación.

En el ejemplo anterior se puede calcular un buen coeficiente de correlación, pero esto no es indicativo de una buena correlación lineal.

Page 29: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

El siguiente ejemplo, tomado del ejercicio interactivo 1, nos muestra como una distribución puede tener dos alternativas, siendo sólo una de ellas la que proporciona el mínimo MSEMSE y el rr más cercano a uno.

Sin embargo, el punto es que un r = 0.56 ya es indicativo de una mala aproximación a un comportamiento lineal.

O sea que estos datos no tienen muy buena correlacino tienen muy buena correlacióón linealn lineal, sino una leve tendencia linealleve tendencia lineal.

Page 30: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Basado en lo anterior, ¿qué tipo de correlación lineal le asignarías a estos datos?

Page 31: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Si dijiste, mala o pésima correlación lineal (r cercano a 0)

¡Acertaste! Fíjate en el valor de r.

Page 32: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Y en este caso, ¿qué tipo de correlación lineal le asignarías a estos datos?

Page 33: Coeficiente de Correlaciónterra.geociencias.unam.mx/~ramon/EstInf/Clase18.pdf · 2011-03-02 · coeficiente de correlación (porque este puede tomar valores negativos). El coeficiente

Si dijiste, buena correlación lineal (r cercano a 1)

¡Acertaste! Fíjate en el valor de r.