tema4 regresionycorrelacion

15

Click here to load reader

Upload: victor-jurado-mamani

Post on 28-Jun-2015

151 views

Category:

Education


0 download

DESCRIPTION

dfdg

TRANSCRIPT

Page 1: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 1-15

4.1. Regresión y correlación lineal simple.................................................. 1 4.2. El método de los mínimos cuadrados y las ecuaciones normales. ........ 3 4.3. Regresión lineal: recta de regresión (mínimos cuadrados).................. 4

4.3.1. Propiedades de las rectas de regresion. ........................................ 6 4.4. Regresión no lineal. ............................................................................. 6

4.4.1. Ajuste parabólico........................................................................... 6 4.4.2. Ajuste Hiperbólico. ........................................................................ 7 4.4.3. Ajuste Exponencial. ....................................................................... 8 4.4.4. Ajuste Potencial............................................................................. 8

4.5. El coeficiente de determinación correlación. El coeficiente de correlación lineal. ..................................................................................... 10

4.5.1. La varianza residual. Coeficiente de determinación. .................... 10 4.5.2. Valores del coeficiente de determinación. ................................... 12 4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas de las rectas de regresión. .................................................................... 12

4.6. Predicción.......................................................................................... 15

4.1. Regresión y correlación lineal simple.

Uno de los objetivos de toda ciencia es encontrar relaciones entre los hechos que estudia. Estas relaciones se traducen en expresiones matemáticas. Así si observamos varias veces el tiempo que tarda un móvil en recorrer una distancia y su velocidad (supuesto que se desplaza con velocidad uniforme), los valores observados están claramente relacionados y esa relación puede expresarse matemáticamente como v = s / t (v t = s). No obstante, existen otras variables como inflación y tipo de interés, oferta y demanda, ahorro y renta, etc., entre las que no cabe duda de que existe una relación, pero no existe una función matemática que verifiquen rigurosamente. Pues bien en el primero de los casos (tiempo y velocidad) diremos que existe una dependencia funcional, y en el segundo (inflación y tipo de interés) una dependencia estadística. La diferencia es que en la primera la relación entre las variables es estricta y perfecta, y en la segunda el modelo matemático al que lleguemos deberá aproximar la relación entre variables razonablemente, por lo que deberemos determinar su forma y contrastar su “bondad”. Las dependencias de tipo estadístico, son muy frecuentes en economía, y en general en todas las ciencias sociales. A las técnicas estadísticas utilizadas para determinar modelos o expresiones que relacionen el comportamiento de varias variables se les denomina técnicas de regresión. Previamente a la aplicación de técnicas de regresión, se requiere un análisis teórico, que relacione las variables objeto de estudio, que de consistencia al análisis estadístico: Este análisis es necesario porque es posible distinguir distintos tipos de dependencia entre variables: A) Al azar: a la vista de la información disponible se plantea una relación absurda

entre variables. Ejemplo: los ciclos económicos y las manchas solares: Una de las teorías cíclicas mas atrevidas fue puesta sobre la mesa por Stanley Jewons a finales del siglo xix; esta (avanzada) teoría atribuía las causas ultimas del desarrollo de los ciclos económicos a la evolución de las manchas solares.

Page 2: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 2-15

A este respecto jewons hizo notar que el sol tiene unos ciclos de actividad que, cuando están en su fase álgida, generan un mayor numero de manchas solares que inducen alteraciones meteorológicas en latierra; estos ciclos de actividad solar que – según lo calculado – tenían una duración media de 10,45 años y precisamente la misma duración media (10,46 años) que los ciclos económicos habidos entre 1.721 y 1.878, de acuerdo conlos cálculos de Jewons. Obviamente tal coincidencia en cuanto a la dimensión temporal de estos fenómenos, se debe a la casualidad, ya que la correlación, no tiene por que implicar necesariamente causalidad. Sin embargo Jewons pensó que la correlación entre los dos ciclos era demasiado estrecha para ser accidental, y en función de ello sugirió la causalidad generadora de los ciclos, es decir la evolución de la actividad solar, determinaría la evolución de la actividad económica. B) Una tercera variable influye sobre las dos variables consideradas: cuando dos

variables se ponen en dependencia, se supone que una explicara el comportamiento de la otra, pero es posible que exista una tercera variable, que actúe como motor de esa relación. Así es evidente la relación entre consumo y ahorro de las familias, pero ello no implica que una explique la otra, ya que es una tercera variable (la renta), la que determina su relación. (no hay relación causa-efecto entre las dos primeras variables consideradas).

C) Una variable influye en la otra: así por ejemplo el gasto en carne de una familia

vendrá determinado (aunque no de modo exclusivo) por el numero de miembros de la unidad familiar.

Si dos variables presentan una dependencia estadística, es decir, no funcional, no es posible encontrar una ecuación, tal que los valores que puedan presentar dichas variables la satisfagan. Gráficamente, equivale al hecho de que no es posible encontrar una función, tal que su grafica pase por todos los puntos correspondientes al diagrama de dispersión asociado a las variables observadas.

*el diagrama de dispersión consiste en representar gráficamente nuestros pares de observaciones (xi , yi). Representaremos en el eje de abcisas los posibles valores de una variable(x), en el eje de ordenada los posibles valores de la otra variable (y). Los puntos del grafico serán las intersecciones (xi , yi) obtenidas de nuestras observaciones. Al conjunto de puntos obtenido se le denomina nube de puntos. Ante la imposibilidad de encontrar una grafica que pase por todos los puntos de la nube, la función cuya grafica más se aproxime a los datos observados expresara mejor la relación entre los mismos. En nuestro ejemplo la función grafica (1)

05

101520253035

30 40 50 60 70 80 90 100

PESO

EDA

D 1

2

3

Page 3: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 3-15

expresa mejor la relación que la (2), pero si tenemos que decidir entre la (1) y la (3), la elección no seria tan elemental. Esto indica que el método grafico puede ser de gran ayuda, pero no es suficiente para determinar la mejor función, por ello recurriremos a métodos matemáticos, que no dependan de opiniones subjetivas. A la variable que se quiere predecir se le denomina dependiente o endógena y a la variable a partir de la cual queremos hacer la predicción, se le llama independiente, exógena o explicativa. Cuando solo utilicemos una variable independiente, estaremos ante la regresión y correlación simple. Si interviene más de una la regresión o correlación se denomina múltiple. Una de las aplicaciones mas interesantes de la regresión en economía es la de predecir, esto es, conociendo el valor de una de las variables, estimar el valor que presentara otra variable relacionada con la primera. Hay que advertir, que una relación estadística fuerte entre variables, no implica la existencia de una relación causa-efecto entre ellas. Por ejemplo existe una fuerte correlación entre el número de burros (de 4 patas) y el número de licenciados universitarios. Ello es fruto de la dependencia común de ambas variables de una tercera variable (el desarrollo económico industrial), sin que en ningún caso podamos afirmar que una es causa de la otra.

4.2. El método de los mínimos cuadrados y las ecuaciones normales.

Hacer regresión, consiste en ajustar lo mejor posible una función a una serie de valores observados, gráficamente equivale a encontrar una curva (recta) que aunque no pase por todos los puntos de la nube, al menos este lo mas próxima posible a ellos. Supongamos que para poder predecir “y” en base al conocimiento de “x”, se ha ajustado una función que expresa de la mejor forma posible el comportamiento de “Y” en función de “X” (Y = f(X)):

05

101520253035

30 40 50 60 70 80 90 100

PESO

EDA

D

Pues bien utilizando la mencionada función, pronosticaríamos que si X= xi entonces la variable Y tendría una valor esperado )(ˆ ii xfy = . Este valor posiblemente no

coincidirá con el que realmente ha presentado la variable Y, yi, de manera que en dicha predicción se habrá cometido un error; iii yye ˆ−=

y=f(x)

Page 4: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 4-15

Esta diferencia se denomina residuo, y nos da una medida del error cometido en el ajuste para cada punto del diagrama de dispersión. Un criterio para obtener un buen ajuste que evite que se compensen residuos de signo positivo con residuos de signo negativo y que sea manejable (algebraicamente), seria minimizar la suma de los cuadrados de los residuos, es decir, hacer mínima la suma:

2

1

2

11

2 ))(()ˆ( i

n

iii

n

ii

n

ii xfyyye −=−= ∑∑∑

===

Este criterio de minimizar la suma de cuadrados es el conocido como criterio de mínimos cuadrados. Se puede observar que el desarrollo anterior consiste en la búsqueda de un procedimiento para medir la distancia de un conjunto finito de puntos a una curva. Las funciones que se ajustan con más frecuencia y sus ecuaciones generales, son: Recta: y = ax + b Parábola: y = a + bx + cx2

Polinomio de grado n : y = a + bx + cx2 + dx3 + ... + zxn

Hipérbola equilátera: y = a + b/x Función potencial: y =axb

Función exponencial: y = abx

Curva logística: y = a/(1 + be-cx) Exponencial modificada: y = a + be cx

Si la función es una recta, la regresión se denomina lineal. 4.3. Regresión lineal: recta de regresión (mínimos cuadrados). Vamos a encontrar entre todas las rectas, cuya ecuación general es y = a + bx, cual es la que según el método de mínimos cuadrados mejor se ajusta a los datos observados para una variable bidimensional (x, y).

Conocido el valor xi de la variable X, el valor esperado de y será: iy = a +bxi,

cometiéndose un error respecto del valor observado de ei = yi – a – bxi. El método de mínimos cuadrados, en el caso de la recta, trata de encontrar los coeficientes a y b que hagan mínima la expresión: S ( a, b ) = Σ ei

2 = Σ( yi – a – bxi )2

Para que exista un mínimo en el punto (a0, b0) la condición necesaria, es que se anulen las derivadas parciales de primer orden en dicho punto, es decir:

δS ( a0 , b0 ) = - 2 Σ( yi – a – bxi ) = 0 (1) δa

δS( a0 , b0 ) = - 2 Σ( yi – a – bxi ) xi = 0 (2)

δb

Page 5: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 5-15

A las dos ecuaciones anteriores (1) y (2), se les denomina ecuaciones normales de la recta, y la solución del sistema que forman (sistema de 2 ecuaciones con dos incógnitas) será un punto (a0, b0) donde S(a,b) se hace mínima. Este sistema también lo podemos escribir como:

Σ yi = n a + b Σxi

Σ yi xi = a Σxi+ b Σxi2

Vamos a despejar los valores de a y b solución del sistema. Para ello dividimos las dos ecuaciones por n y nos encontramos con:

⎩⎨⎧

+=+=

211 Xbaxaaxbay

Despejando “a” de la primera ecuación:

xbya −=

Y sustituyendo en la segunda ecuación:

2222

2211 )()( XXXX bSxyxabxybaxbxybaxxbya +=−+=+−=+−=

Si ahora despejamos “b” en esta expresión, tenemos;

2211

X

XY

X SS

Sxya

b =−

=

Pues bien, si sustituimos los valores a y b que hemos calculado en la ecuación general de la recta (y=a+bx), obtenemos;

xSS

xSS

yyX

XY

X

XY22

)( +−=

Que podemos expresar como;

)(2

xxSS

yyX

XY −=−

A la expresión dentro del recuadro se le llama recta de regresión de Y/X. De modo análogo podríamos haber obtenido la recta de regresión de X/Y llegando a una expresión de la forma;

Page 6: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 6-15

)(2

yySS

xxY

XY −=−

De las ecuaciones de las dos rectas de regresión se deduce que ambas pasan por el punto ),( yx , pudiéndose dar dos alternativas: que coincidan (sus pendientes

deberán ser iguales) o que se corten solo en dicho punto. 4.3.1. Propiedades de las rectas de regresion. Propiedad 1: la suma de los residuos ei vale 0 (y por tanto su media también), esto es:

Σ ei = 0 Demostración: Σ ei = Σ( yi – a – bxi ) = Σ yi - Σ a – b Σ xi= Σ yi - n a – b Σ xi = 0 Ya que a y b son solución de la primera ecuación del sistema. Propiedad 2: Si la dependencia existente entre las dos variables es funcional, las dos rectas de regresión son coincidentes. Propiedad 3: La covarianza de las variables Y y e vale 0.

Sey= 0 Sey = a11 –a01 a10, y sabemos por la propiedad 1 que a10= 0, entonces bastará demostrar que a11 = 0 (sin demostración).

4.4. Regresión no lineal. Aunque la regresión lineal, tiene aplicación en muchos problemas, en algunos casos, la relación que liga las variables exige la utilización de ajustes no lineales. No obstante incluso en estas ultimas situaciones, por su sencillez, suele aplicarse la regresión lineal aprovechando el que casi toda función (curva) puede aproximarse por una recta en un pequeño dominio. 4.4.1. Ajuste parabólico. Si predecimos la variable y mediante una parábola de ecuación general y = a + b x + c x2 el valor esperado será:

iy = a + b xi + c xi 2

Y el error cometido será: ei = yi - iy = yi – a - b xi - c xi 2.

El método de mínimos cuadrados nos conduce a la parábola que hace mínima la función:

S( a, b, c ) = Σ ei2 = Σ( yi – a – bxi - c xi 2)2

Page 7: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 7-15

Para que esa función suma S(a,b,c,) alcance un mínimo, sus derivadas parciales deberán valer 0:

δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi 2) = 0 (1)

δa δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi 2 ) xi = 0

(2) δb

δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi 2 ) xi2 = 0

(3) δc

Si dividimos las tres ecuaciones (sistema de ecuaciones normales) por n obtenemos un sistema de tres ecuaciones con tres incógnitas, cuya resolución nos proporcionara los coeficientes a, b, y c de nuestra parábola de ajuste:

y = a + b x + c a20

a11 = a x + b a20+ c a30

a21 = a a20 + b a30+ c a40

Este tipo de ajuste se utiliza por ejemplo en microeconomía para la curva de costes marginales en función del volumen de producción (que tiene forma de “U”). Este ajuste se puede generalizar, si queremos ajustar por un polinomio de grado superior a 2, que tendrá una expresión general: y = b0 + b1 x + b2 x2 +.....+ bn xn El método de mínimos cuadrados nos conducirá a un sistema similar al anterior, pero con n ecuaciones y n incógnitas, cuya resolución nos proporcionara los valores de b0, b1, b2,....., bn

4.4.2. Ajuste Hiperbólico. Si predecimos la variable y mediante una hipérbola de ecuación general:

y = a + b (1/x) El valor esperado será:

iy = a + b (1/xi )

Y el error cometido será: ei = yi - iy = yi – a – b (1/ xi). El método de mínimos cuadrados nos conduce a la hipérbola que hace mínima la función:

S( a, b ) = Σ ei2 = Σ( yi – a – b(1/xi ))2

Ahora podemos razonar de forma alternativa a la empleada hasta ahora definiendo la variable z = 1 /x con lo que transformamos la hipérbola en la recta y = a + bz obteniendo un sistema de ecuaciones normales:

Σ yi = n a + b Σ(1/xi ) Σ yi (1/xi )= a Σ(1/xi )+ b Σ(1/xi

2)

Page 8: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 8-15

Que resolveremos de modo análogo al realizado en el ajuste lineal. Esta es una manera alternativa, pero podíamos haber efectuado el mismo razonamiento que para el ajuste parabólico. La curva de Engel que expresa la demanda de un bien en función de la renta, adopta en ocasiones la forma de una hipérbola equilátera. 4.4.3. Ajuste Exponencial. Si predecimos la variable y mediante una exponencial de ecuación general:

y = a ebx El valor esperado será:

ibxi aey =ˆ

Y el error cometido será: ei = ibxiii aeyyy −=− ˆ

Al igual que en el caso anterior tenemos dos alternativas: Bien obtener el mínimo de la función:

S( a, b ) = Σ ei2 = Σ( yi – a – ebx )2

(Este método nos conduce a un sistema de ecuaciones imposible de resolver). O bien transforma la función exponencial en una función lineal. Esto se hace tomando logaritmos en la ecuación general. Nos decantamos por este procedimiento:

bxLnaLneLnaaeLnLny bxbx +=+== )(

Llamando: Y = ln y ; A = ln a ; b = b ; x = x Podemos presentar la ecuación:

Y = A + b x

Cuyo sistema de ecuaciones normales seria:

Σ ln yi = n Lna + b Σxi Σ xi ln yi = Lna Σxi + b Σxi

2

4.4.4. Ajuste Potencial. Si predecimos la variable y mediante una potencial de ecuación general y = a xb el valor esperado será:

bii axy =ˆ

Y el error cometido será: ei = biiii axyyy −=− ˆ

Nuevamente tenemos dos alternativas:

Page 9: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 9-15

A) Hacer mínima la suma de los cuadrados de los residuos (da lugar a un sistema de ecuaciones que no podemos resolver).

B) Transformar la función en una función lineal (tomando logaritmos):

Ln y =ln( a xb) = ln a + b lnx Llamando: Y = ln y ; A = ln a ; b = b ; X = ln x Podemos presentar la ecuación:

Y = A + b X

Cuyo sistema de ecuaciones normales seria:

Σ ln yi = n Ln a + b Σln xi Σ lnxi ln yi = Lna Σlnxi + b Σ(ln xi)2

Ejercicio: ajustar a una función potencial y a una función exponencial, los siguientes datos:

Xi 2 4 3 1 Yi 6 5 1 3

Para ajustar a una función potencial: A) y = a xb ⇒ ln y = ln a + b ln x⇒ Y= A + b X Para ajustar a una función exponencial: B) y = a ebx ⇒ ln y = ln a + bx ⇒ Y = A + b x Ampliamos nuestra tabla con los datos que faltan:

Xi Yi Ln xi Ln yi Lnxiln yi Xi ln yi Xi2 (ln xi)2

2 6 0.693 1.79 1.24 3.58 4 0.48 4 5 1.386 1.61 2.23 6.44 16 1.92 3 1 1.099 0 0 0 9 1.21 1 3 0 1.099 0 1.099 1 0

10 Sumas 3.178 4.5 3.47 11.119 30 3.61 a) FUNCION POTENCIAL: Ln x Ln y SLn x Ln y

B = b = ------- = -0.0967 ; A= Ln a = Ln y- ------- Ln x = 1.202;a = Exp A=3.326 S2 Ln x S2 Ln x

SUSTITUYENDO ESTOS COEFICIENTES EN y = a xb TENEMOS NUESTRA FUNCION DE AJUSTE POTENCIAL: Y = 3.326 X-0.0967

b) FUNCION EXPONENCIAL: Sx Ln y S x Ln y

B = b = ------- = -0.0262 ; A= Ln a = Ln y - ------ x = 1.190 a = Exp A=3.289 S2

x S2 x

Page 10: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 10-15

SUSTITUYENDO ESTOS COEFICIENTES EN y = a ebx TENEMOS NUESTRA FUNCION DE AJUSTE EXPONENCIAL: Y = 3.289 e-0.0262 X

4.5. El coeficiente de determinación correlación. El coeficiente de correlación lineal.

Antes de enunciar y describir brevemente otras formas de ajuste deberemos plantearnos lo siguiente:

La regresión nos permite ajustar una nube de puntos a una recta (ajuste lineal) o curva (ajuste no lineal), lo que equivale a conocer la forma en la que se relacionan las variables. De otra manera, la regresión determina la mejor de las rectas o curvas establece una relación entre dos variables, pero el hecho de que sea la mejor posible, no quiere decir que sea “buena” (puede ocurrir que los errores que estemos cometiendo sean elevados), ya que es posible que exista otra función matemática que modelice mejor la relación entre las variables.

Por tanto tan importante será conocer la forma en que se relacionan las variables (de eso se ocupa la regresión), como conocer el grado de asociación/dependencia de dichas variables (de esto se ocupa la correlación), y encontrar alguna medida o coeficiente que nos mida el grado de bondad o de representatividad de la relación que hemos establecido mediante técnicas de regresión.

4.5.1. La varianza residual. Coeficiente de determinación.

El método de mínimos cuadrados toma como medida del error que se comete, cuando ajustamos a una curva/recta, la suma de los residuos al cuadrado:

2

1

2

11

2 ))(()ˆ( i

n

iii

n

ii

n

ii xfyyye −=−= ∑∑∑

===

Esa cantidad dividida por n se utiliza como medida de la bondad del ajuste.

En el caso de funciones lineales (recta, parábola, hipérbola, etc.), la media de los residuos es 0(propiedad 1), por lo que la suma de los cuadrados de los residuos dividida por n no es otra cosa que la varianza de la variable “e”y se denomina varianza residual:

211

2 )(

e

n

ii

n

ii

Sn

ee

n

e=

−=∑∑==

Veamos el significado de esta varianza residual:

Page 11: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 11-15

22ˆ

2ˆˆ eyyiiiiii SSSeyyyye +=⇒+=⇒−=

El primer sumando a la derecha de la igualdad se denomina varianza explicada por la regresión y nos indica en qué medida queda explicada la variable dependiente (y) mediante el modelo de ajuste, pudiéndose interpretar el segundo sumando -que es la varianza residual- como una medida de lo que queda sin explicar después de haber efectuado la regresión.

Esta varianza residual presenta el problema de determinar a partir de que valores es suficientemente pequeña o grande como para admitir un buen o mal ajuste: la respuesta a este interrogante nos la dará el coeficiente de determinación R2.

2

2

2

22

2

2ˆ2 1

y

e

y

ey

y

y

SS

S

SS

S

SR −=

−==

Antes de estudiar el rango de variación de este coeficiente, veamos una forma cómoda de calcular se 2 para el caso particular de un ajuste lineal:

2

111

2

2

2

22

2

2ˆ2

y

n

iii

n

ii

n

ii

y

y

ey

y

y

Sn

yxbyayS

SSS

SS

R

∑−∑−∑−

=−

==

===

Si sustituimos a y b por sus valores: xbya −= ; 2x

xy

SS

b = y tenemos en cuenta

que:

221

2

ySn

yy

n

ii

+=∑= ; y

n

yn

ii=

∑=1 ; yxS

n

yx

xy

n

iii

+=∑=1

Tenemos que:

2

22

2

2

222

2

22222

2

12

12

1

2

2

2

22

2

2ˆ2

))()()(

)(

⎟⎟⎠

⎞⎜⎜⎝

⎛=

=++−

=⎥⎦

⎤⎢⎣

⎡+−−−+−

=

−−−−

=−

==

∑∑∑===

YX

XY

YX

XY

y

X

XYxy

X

XY

X

XY

y

xyX

XY

X

XYYy

y

n

iii

X

XYn

ii

X

XYn

ii

y

y

ey

y

y

SSS

SSS

S

yxSS

SSS

yxSS

S

yxSSS

yxSS

yySS

Sn

yxSS

yxSS

yyS

S

SS

S

SR

Page 12: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 12-15

A yx

xy

SSS

se le denomina coeficiente de correlación lineal y se denota con la letra

“r”:

yx

xy

SSS

r =

Por tanto, en el caso (y únicamente en este caso) de un ajuste lineal, se tiene que:

22 rR =

4.5.2. Valores del coeficiente de determinación.

El coeficiente de determinación toma valores entre 0 y 1; 10 2 ≤≤ R

• Toma el valor “0” cuando la regresión no explica nada de la variabilidad de los valores observados y por tanto el ajuste obtenido no modeliza adecuadamente (ni siquiera minimamente) la relación entre variables.

222ˆ2

2ˆ2 00 eyyy

y SSSSS

R =⇔=⇒==

• Toma el valor “1” cuando el ajuste efectuado recoge toda la variabilidad de la variable original, y por tanto el ajuste es perfecto.

01 222ˆ2

2ˆ2 =⇒=⇒== eyyy

y SSSSS

R

• Para valores entre “0” y “1”, el ajuste es tanto mejor cuanto más se aproxima a 1 el coeficiente de determinación. Los ajustes se consideran

razonables cuando 7502 ,≥R .

4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas de las rectas de regresión.

El coeficiente de correlación lineal puede utilizarse como medida alternativa al coeficiente de determinación para evaluar la bondad del ajuste exclusivamente en el caso de regresión lineal. Veamos las posiciones relativas de las rectas de regresión de Y/X y de X/Y y su relación con los valores del coeficiente de correlación lineal. Dado que el coeficiente de correlación lineal se define como:

yx

xy

SSS

r = con 22 rR =

Podemos asegurar que: 1110 2 ≤≤−⇒≤≤ rr

Page 13: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 13-15

A) Cuando r = 0, esto supone únicamente que no existe relación lineal alguna entre x e y, sin embargo pueden estar estrechamente ligadas de acuerdo con otro tipo de función por ejemplo x2 + y2 = 1(ver figura). Y/X X/Y Conclusión: por tanto cuando r = 0 el ajuste lineal no será el indicado. Esta conclusión y la exposición son también aplicables al ajuste hiperbólico, considerando en lugar de las variables x e y, las variables z e y, siendo z = 1/x. B) r = ±1. Cuando r = ±1, ⇒ r2 = 1, entonces la varianza residual s2

e=0 Esto implica que todos los errores o residuos son nulos y que las rectas de regresión pasan por todos los puntos que se han observado. Por tanto las dos rectas coinciden. Si r=1 la pendiente de las rectas será positiva y si r=-1 la pendiente de las rectas será negativa (ver figura).

r = 1(corr.perfecta +) r = -1(corr.perfecta -)

C) –1 < r < 0 ó 0 < r < 1. Estas situaciones intermedias serán las que mas veces se presenten en la práctica. A medida que r se aleja de 0 mejor será el ajuste por una recta de mínimos cuadrados. NOTAS: * Si consideramos las rectas de regresión baXYXY +=≡/ y dcYXYX +=≡/

sus pendientes son respectivamente 22y

xy

x

xy

SS

cSS

a == ; y por tanto el coeficiente de

correlación lineal al cuadrado viene determinado como el producto de las pendientes de las dos recta de regresión:

Page 14: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 14-15

bcSS

SS

SSS

ry

xy

x

xy

yx

xy ==⎟⎟⎠

⎞⎜⎜⎝

⎛= 22

2

2

* Ambas rectas se cortan en el punto ( )yx, . Es decir las dos rectas de regresión siempre se cortan y lo hacen en ese punto: y

x * Las dos rectas tienen pendientes con el mismo signo por lo que no es posible la siguiente situación: y x * Si las variables son independientes su covarianza valdrá 0 y por tanto las dos rectas de regresión serán de la forma: yyXY =≡/ y xxYX =≡/ y x * Bondad del ajuste de la parábola. Debido a que la recta es un caso particular de parábola (la parábola tiene por ecuación y = a + bx +cx2 .la recta es el caso particular cuando c = 0), se obtendrán siempre mejores ajustes mediante parábolas que mediante funciones lineales (rectas), siendo el coeficiente de determinación para la parábola siempre mayor que el de la recta (recordemos que en la recta r2 = R2).

Page 15: Tema4 regresionycorrelacion

TEMA 4: REGRESIÓN Y CORRELACIÓN.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA

UNIVERSIDAD POLITÉCNICA DE CARTAGENA 15-15

Por este mismo razonamiento puede pensarse que considerando polinomios de mayor grado se consiguen mejores ajustes (recordemos que la parábola es un polinomio de grado 2). Pero no debe pensarse que simplemente con incrementar el orden del polinomio de ajuste se puede llegar a obtener un ajuste tan bueno como se quiera. La bondad del ajuste dependerá del mayor o menor grado de asociación entre las variables en estudio, si estas no presentan apenas relación (de cualquier tipo) no podremos encontrar funciones que ajusten bien los datos observados. 4.6. Predicción. Como ya indicamos, la predicción es una de las aplicaciones más importantes de la regresión. La predicción consiste en determinar(a partir del modelo ajustado), el valor de la variable dependiente para un valor dado de la variable independiente. Cuando la estimación/predicción se hace para un valor de la variable independiente dentro del rango de nuestras observaciones se denomina interpolación y si se hace para un valor de la variable fuera del rango se denomina extrapolación. Para la interpolación la fiabilidad de los valores pronosticados será tanto mayor cuanto mejor sea el ajuste (cuanto mayor sea R2), en el supuesto, claro esta, de que exista relación/asociación entre las variables. Cuando hacemos predicciones para valores de la variable muy alejados del rango de variación de la variable independiente, se corre el riesgo de que el modelo ajustado no sea valido para dichos valores en la medida dada por R2.

Bibliografía básica

* Mª Angeles palacios, Fernando A. López Hernández , José García Córdoba y

Manuel Ruiz Marín. “INTRODUCCIÓN A LA ESTADÍSTICA PARA LA EMPRESA”.

Librería Escarabajal

* Martín-Pliego López, Fco. “Introducción a la estadística económica y empresarial”.

Ed. Thomson

* Casas, J. M., Callealta, J., Núñez, J., Toledo, M. y Ureña, C. (1986). Curso Básico de Estadística Descriptiva. I.N.A.P.

* Hermoso Gutiérrez, J. A. y Hernández Bastida, A. (1997). Curso Básico de Estadística Descriptiva y Probabilidad. Ed. Némesis. Para saber más o aclarar dudas:

http://www.monografias.com/trabajos26/estadistica-inferencial/estadistica-

inferencial.shtml

http://descartes.cnice.mecd.es/Bach_CNST_1/Variables_estadisticas_bidimensionales_regre

sion_correlacion/Indice.htm

http://campusvirtual.uma.es/estadcomp/Cap2.pdf

http://www.elprisma.com/apuntes/curso.asp?id=5946

http://isi-eh.usc.es/eipc1/MATERIALES/331102886.pdf

http://www.eui.upm.es/~acorral/material/regresion.pdf

http://www3.uji.es/~mateu/t2-ig12.doc