unidad iv introducción a la regresión y correlación · pdf filey como...

12
Antología de Probabilidad y Estadística II Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 48 Unidad IV Introducción a la Regresión y Correlación Última revisión: 25-0ctubre-2009

Upload: dinhcong

Post on 06-Feb-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 48

Unidad IV

Introducción a la Regresión y Correlación

Última revisión: 25-0ctubre-2009

Page 2: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 49

IV.1 Conceptos fundamentales

En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre sí. Por ejemplo, si se analiza la estatura y el peso de los alumnos o alumnas de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el estudiante, cabe pensar que mayor será su peso. En la práctica a menudo se desea estudiar más de una variable aislada. Por lo general, se quiere determinar como una variable está relacionada con otras variables; lo que los estadísticos denominan regresión. La regresión como una técnica estadística, una de ellas la regresión lineal simple, analiza la relación de dos o más variables continuas, cuando analiza las dos variables a esta se le conoce como variables bivariantes que pueden corresponder a variables cualitativas, la regresión nos permite el cambio en una de las variables llamadas respuesta y que corresponde a otra conocida como variable explicativa, la regresión es una técnica utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede suceder. Siendo así la regresión una técnica estadística, por lo tanto para interpretar situaciones reales, pero a veces se manipula de mala manera por lo que es necesario realizar una selección adecuada de las variables que van a construir las formulas matemáticas, que representen a la regresión, por eso hay que tomar en cuenta variables que tiene relación, de lo contraria se estaría matematizando un galimatías.

IV.2 El método de mínimos cuadrados El objetivo es ajustar una recta cuya ecuación es de la forma:

𝑌 = 𝑎 + 𝑏𝑥 Es decir, se debe encontrar una fórmula para calcular la pendiente b y la ordenada al origen a. La pregunta es: ¿cómo se eligen a y b de modo que se minimice al patrón vertical de desviaciones Y (errores de predicción) en la gráfica 1 en la que se grafican los datos de la tabla 1 que se encuentra mas adelante, donde

𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑑 = 𝑌 − 𝑌 ? De primera impresión, se podría intentar minimizar Σd, la suma de todas las desviaciones. Sin embargo, debido a que algunos de los puntos están arriba de la recta y otros están abajo, algunas desviaciones serán positivas y otras negativas; en la medida en

Page 3: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 50

que se cancelen entre sí, pueden hacer que el total (Σd) sea engañosamente cercano a cero. Para evitar este problema, primero podría tomarse el valor absoluto de cada desviación y luego minimizar su suma:

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 Σ 𝑑 = Σ 𝑌 − 𝑌

Una alternativa conocida es elevar al cuadrado cada desviación y luego minimizar la suma de todas ellas:

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 Σ𝑑2 = Σ 𝑌 − 𝑌 2

Lo anterior se denomina criterio de los mínimos cuadrados, mediante el cual se elige una única recta de mínimos cuadrados.

Grafica 1. Relación observada de la producción de trigo con la aplicación de fertilizante en 35 parcelas experimentales.

IV.3 Regresión lineal simple Recuerde que la ecuación de la recta por ajustar es:

𝒀 = 𝒂 + 𝒃𝒙 La pendiente b se calcula a partir de la siguiente fórmula

𝑏 =Σ 𝑋 − 𝑋 (𝑌 − 𝑌 )

Σ(𝑋 − 𝑋 )2

Las desviaciones 𝑋 − 𝑋 y (𝑌 − 𝑌 ) aparecerán tan a menudo que se hace necesario

abreviarlas.

Page 4: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 51

Sean:

𝑥 = 𝑋 − 𝑋

𝑦 = (𝑌 − 𝑌 )

La x (o la y) minúscula constituye un recordatorio de que las desviaciones x típicamente son números mucho más pequeños que los valores originales de X. Con esta notación, ahora se puede simplificar la fórmula para b:

𝑏 =Σ𝑥𝑦

Σ𝑥2

Una vez que se ha calculado b, entonces se puede hallar ordenada al origen a a partir de otra fórmula sencilla:

𝑎 = 𝑌 − 𝑏𝑋 Ejemplo: En un estudio de cómo la producción de trigo depende del fertilizante, supóngase que se dispone de fondos para efectuar solamente siete observaciones experimentales. Así, X se establece a siete deferentes niveles, con una observación Y en cada caso, como se presenta en la tabla siguiente:

Tabla 1. Observaciones del fertilizante y de la producción

X

Fertilizante (kg/Ha) Y

Producción (Ton/Ha) 100 40 200 50

300 50

400 70

500 65

600 65

700 80

Solución. En la tabla 2, se presentan los cálculos para a y b. Se calculan Σxy y Σx2 y se sustituyen en la siguiente expresión que se comento antes:

𝒃 =𝚺𝐱𝐲

𝚺𝐱𝟐=

16 500

280 00= 0.059

Luego se utiliza esta pendiente b (junto con 𝑋 y 𝑌 calculadas en las dos primeras columnas de la tabla 2) para calcular la ordenada al origen a a partir de la fórmula:

Page 5: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 52

𝒂 = 𝒀 − 𝒃𝑿 = 60 − 0.059 400 = 36.5

Al introducir estos valores estimados de a y b en la ecuación 𝒀 = 𝒂 + 𝒃𝒙, que se vio antes, se obtiene la ecuación de la recta de mínimos cuadrados:

𝒀 = 𝒂 + 𝒃𝒙 = 36.4 + 0.059𝑋

Tabla 2. Ajuste de la recta de mínimos cuadrados

Datos Forma de la desviación Productos

X Y 𝑥 = 𝑋 − 𝑋 = 𝑋 − 400

𝑦 = (𝑌 − 𝑌 ) = (𝑌 − 60)

xy x2

100 40 -300 -20 6000 90 000

200 50 -200 -10 2000 40 000

300 50 -100 -10 1000 10 000

400 70 0 10 0 0

500 65 100 5 500 10 000

600 65 200 5 1000 40 000 700 80 300 20 6000 90 000

𝑿 =400 𝒀 = 𝟔𝟎 𝚺𝐱 = 𝟎 𝚺𝐲 = 𝟎 𝚺𝐱𝐲 = 𝟏𝟔 𝟓𝟎𝟎 𝚺𝐱𝟐 = 𝟐𝟖𝟎 𝟎𝟎𝟎

IV.4 Regresión exponencial y logarítmica

Ahora sabemos cómo ajustar una recta a un conjunto de datos. ¿Que hay una curva exponencial de la forma y=A·xr? La idea es convertir una curva exponencial a una recta por medio de logaritmos, ya sea naturales o de cualquier otra base, como sigue. Empiece con la función exponencial

y = A·xr

y tome el logaritmo de ambos lados:

Log10 y = Log10 (Axr) Las propiedades de logaritmos nos dan entonces:

Log10 y = Log10 A + Log10 xr Log10 = Log10 A + r Log10 x

Page 6: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 53

Esto expresa log y como una función lineal de x, de forma ecuación de la recta y = a + bx con:

Log10 y = Log10 A + r Log10 x y = a + b x

Pendiente = b =r Intersección = a = Log10 A Por lo tanto, si calculamos la recta de mejor ajuste usando Log10 y como una función de x, entonces la pendiente y la intersección en y serían dados como más arriba, y después podemos obtener los coeficientes r y A por r = b A = 10a Ejemplo: Ventas de Compaq Ingresos de ventas de computadores Compaq (una marca ahora extinguida) son mostrados en la siguiente tabla, donde t representa años desde 1990.* Obtenga el modelo exponencial de regresión para los datos.

* Datos son redondeados. Fuente: Informes de compañía/The New York Times, Enero 27, 1998, p. D1.

Solución. Pues necesitamos modelar Log10 R como una función lineal de t, primero construimos una tabla con x = t y y = Log10 R, y entonces calculamos la recta de regresión, y = a + bx.

Posteriormente se resuelve con los resultados anteriores como si de una regresión lineal simple se tratara para encontrar la ecuación de la recta de mejor ajuste. Así, la recta de regresión que obtenemos es:

y = 0.427+ 0.139 x El modelo exponencial deseado solo cambia a x por t y y por R en la ecuación, es decir:

y = A·xr R = A·tr

Page 7: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 54

Se resuelve mediante las siguientes igualdades que ya vimos antes donde:

Log10 y = Log10 A + r Log10 x y = a + b x y = 0.427 + 0.139 x

entonces: a = log10 A = 0.427 b = r = 0.139

r = 0.139

𝐥𝐨𝐠𝟏𝟎 𝑨 = 𝟎.𝟒𝟐𝟕

𝟏𝟎(𝐥𝐨𝐠𝟏𝟎 𝑨) = 𝟏𝟎(𝟎.𝟒𝟐𝟕) 𝑨 = 𝟐. 𝟔𝟕𝟕

Por tanto se tiene que: A = 2.677

r = 0.139

Y como nuestro modelo de ingresos para la compañía Compaq es de la forma R = A·tr, se concluye por lo tanto que:

R = 2.6770·t0.139

IV.5 Correlación lineal

El objetivo primordial de la correlación es medir la intensidad de la relación entre dos variables. Se llama variable a la característica o aspecto que se considera para cada elemento de la muestra y puede tomar diferentes valores. Supongamos que tenemos una muestra de N personas, a cada persona se le asignan dos números, uno mide su estatura y otro mide su peso. El conjunto de valores X = {x1, x2, ...,xN} representa las diferentes estaturas y el conjunto Y = {y1, y2, ...,yN} representa los diferentes pesos. De esta forma podemos crear el conjunto de pares ordenados P = {(x1 , y1), (x2 , y2), ...,(xN , yN)} donde el par ordenado (xi , yi) representa el peso y la estatura de la persona número i. Para este conjunto podemos investigar la correlación que existe entre estatura y peso.

Page 8: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 55

En este artículo estudiaremos la correlación lineal. Esta correlación ocurre cuando dos variables X,Y tiende a seguir un patrón lineal. Por ejemplo podemos investigar la relación lineal que existe entre peso y estatura, promedio del CETEC-Jojutla y puntuación en el examen de ingreso (examen de conocimientos), ingreso mensual y gastos mensuales, coeficiente intelectual y promedio universitario, edad e ingreso mensual entre otras. Se dice que existe una relación o correlación positiva entre dos variables X y Y, si al aumentar los valores de X aumentan los valores de Y, o cuando al disminuir los valores de X disminuyen los valores de Y. Por ejemplo: Si la variable X toma los valores 2, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6 y, La variable Y toma los valores 1, 2, 3, 2, 3, 4, 4, 5, 3, 4, 5. Si escribimos los valores de las variables X, Y en forma de pares ordenados obtenemos

P = {(2,1), (3,2), (3,3), (4,2), (4,3), (4,4), (5,4), (5,5), (6,3), (6,4), (6,5)}. Si ubicamos estos puntos en un sistema de coordenadas obtenemos una gráfica llamada diagrama de dispersión. El diagrama de dispersión del ejemplo anterior se muestra en la figura 1.

Este es un ejemplo de una correlación positiva. Se dice que existe una relación o correlación negativa entre dos variables X y Y, si al aumentar los valores de X disminuyen los valores de Y, o cuando al disminuir los valores de X aumentan los valores de Y. Por ejemplo para el conjunto de pares ordenados.

P = {(4,5), (5,3), (5,4), (5,5), (6,4), (6,4), (7,1), (7,2), (7,3), (8,1), (8,2)}.

Page 9: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 56

El diagrama de dispersión para este conjunto se muestra en la figura 2.

Este es un ejemplo de correlación negativa. Cuando dos variables X y Y se correlacionan positivamente, los puntos en su diagrama de dispersión quedan encerrados en una elipse inclinada como se muestra en la figura 3.

Si las variables X y Y se correlacionan negativamente, los puntos en su diagrama de dispersión quedan encerrados en una elipse inclinada como se muestra en la figura 4.

Mientras mayor es el diámetro de la elipse que encierra los puntos de un diagrama de dispersión menor es la relación de las variables que contiene. Cuando esto ocurre decimos que la correlación es débil.

Page 10: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 57

La figura 5 muestra una correlación positiva débil.

Por el contrario mientras menor es el diámetro de la elipse que encierra los puntos de un diagrama de dispersión mayor es la relación de las variables que contiene. Cuando esto ocurre decimos que la correlación es fuerte. La figura 6 muestra una correlación positiva fuerte.

Si las variables X, Y no se correlacionan linealmente los puntos de su diagrama de dispersión no quedan encerrados en una elipse inclinada. La figura 7 muestra un ejemplo donde no hay correlación.

La correlación lineal perfecta ocurre cuando todos los puntos del diagrama de dispersión están exactamente sobre una recta inclinada, como se muestra en la figura 8.

Page 11: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 58

Si los datos forman una recta horizontal o vertical, no hay correlación ya que una variable no afecta la otra como se muestra en las figuras 9 y 10.

Los diagramas de dispersión no siempre se presentan en alguna de las formas que vimos anteriormente. Algunas veces sugieren relaciones que no son lineales, como se muestra en la figura 11. En este diagrama hay un patrón definido, sin embargo las dos variables no están relacionadas linealmente, esto implica que no hay correlación lineal.

Page 12: Unidad IV Introducción a la Regresión y Correlación · PDF fileY como nuestro modelo de ingresos para la compañía Compaq es de la forma R r= A·t, se concluye por lo tanto que:

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 59

Bibliografía: Introducción a la estadística; T. H. Wonnacott, R. J. Wonnacott; 2ª Ed.; Limusa

Wiley; 2004.

Estadística aplicada a los negocios y la economía; Lind, Marchal, Wathen; 13ª Ed.; Mc Graw Hill; 2008.

Probabilidad y estadística aplicadas a la ingeniería; Douglas C. Montgomery,

George C. Runger; 1ª Ed.; Mc Graw Hill; 1994.