regresion linealsimple

61
logo Análisis de regresión Interpretación del modelo de regresión lineal simple RLS Estimación de los Parámetros del MRLS Inferencia acerca de los parámetros del MRLS Análisis de varianza en modelos de RLS Regresión lineal simple Lorena Brun González Universidad de Antioquia Métodos Estadísticos II Ingeniería Industrial Semestre 2015-II 18 de agosto de 2015 Ingeniería Industrial Regresión lineal simple

Upload: gucho-ca

Post on 11-Apr-2017

716 views

Category:

Business


4 download

TRANSCRIPT

Page 1: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Regresión lineal simple

Lorena Brun González

Universidad de Antioquia

Métodos Estadísticos IIIngeniería Industrial

Semestre 2015-II

18 de agosto de 2015

Ingeniería Industrial Regresión lineal simple

Page 2: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

1 Análisis de regresión

2 Interpretación del modelo de regresión lineal simple RLS

3 Estimación de los Parámetros del MRLS

4 Inferencia acerca de los parámetros del MRLS

5 Análisis de varianza en modelos de RLS

Ingeniería Industrial Regresión lineal simple

Page 3: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Análisis de regresiónEl análisis de regresión es apropiado en situaciones donde sesospecha o se asume que una variable está relacionada a unao varias mediadas hechas usualmente en un mismo individuo(objeto). El objetivo del análisis es usar los datos (valores ob-servados de las variables) para estimar la forma de la relación.

Ingeniería Industrial Regresión lineal simple

Page 4: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

EjemploIngreso y el número de años de escolaridad formal.Ingreso y el gasto familiar.Número de horas de sueño y el rendimiento en clase.Número de horas en el Facebook con el grado de estres de unapersona.

Ingeniería Industrial Regresión lineal simple

Page 5: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Definición:

El análisis de regresión es una técnica estadística para investi-gar y modelar la relación entre variables.Es una de las técnicas de uso más frecuente para analizar con-juntos de datos que involucran dos tipos de variables, la variabledependiente o variable respuesta y un grupo de variables inde-pendientes (regresoras o predictoras).

Ingeniería Industrial Regresión lineal simple

Page 6: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

1. Los modelos lineales empleados son aproximaciones que seespera trabajen bien en el rango de valores de las variablesregresoras empleados en la construcción del modelo ajustado.2. Usualmente los métodos de regresión son empleados con lossiguientes fines:2.1 Encontrar variables que expliquen un fenomeno.2.2 Predecir valores.3. El analista debe tener claro los objetivos del estudio y el con-texto del problema. Un modelo que da una solución a un proble-ma en particular no necesariamente da buenos resultados pararesolver otros.

Ingeniería Industrial Regresión lineal simple

Page 7: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Ejemplo 1:Se realiza un estudio de fotoperiodo en aves acuáticas. Se pre-tende establecer una ecuación mediante la cual pueda prede-cirse el tiempo de reproducción (Y ), en base al conocimientodel fotoperiodo (número de horas de luz por día) bajo el que seinició la reproducción (X ). Se obtuvieron datos del comporta-miento de 11 Aythya (patos buceadores). Los resultados fueronlos siguientes:

X 12.8 13.9 14.1 14.7 15.0 15.1 16.0 16.5 16.6 17.2 17.9Y 110 54 98 50 67 58 52 50 43 15 28

Ingeniería Industrial Regresión lineal simple

Page 8: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Fotoperiodo:

Se denomina fotoperiodo al conjunto de procesos de las espe-cies vegetales mediante los cuales regulan sus funciones bio-lógicas (como por ejemplo su reproducción y crecimiento). Elmismo mecanismo también es válido para los animales.

Ingeniería Industrial Regresión lineal simple

Page 9: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Ejemplo 2:

Consideremos el siguiente experimento controlado y aleatori-zado para estudiar el efecto de una nueva droga sobre la fre-cuencia cardiaca de ratas sanas. Cinco ratas fueron asignadasaleatoriamente a una de cinco dosis (X ) y se registró la máximadisminución observada en la frecuencia cardiaca en una hora(Y ). Los datos obtenidos son:

x 0.5 1.0 1.5 2.0 2.5y 5 8 12 13 16

Ingeniería Industrial Regresión lineal simple

Page 10: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Ingeniería Industrial Regresión lineal simple

Page 11: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

El diagrama de dispersión parece indicar con claridad que hayuna relación entre la dosis y la disminución de la frecuencia car-diaca.

La gráfica que sigue muestra la relación de línea recta.

Ingeniería Industrial Regresión lineal simple

Page 12: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Ingeniería Industrial Regresión lineal simple

Page 13: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Ecuación de la recta:

Como la máxima disminución observada en la frecuencia car-diaca en una hora es denotada por Y y X representa dosis delmedicamento, la ecuación de una recta que relaciona estas dosvariables es:

Y = β0 + β1X , (1)

en donde, β0: es la ordenada al origen y β1: es la pendiente.Pero debido a que los datos no caen exactamente sobre unarecta, es necesario modificar la ecuación anterior para tener encuenta dicha situación.

Ingeniería Industrial Regresión lineal simple

Page 14: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Sea la diferencia entre el valor observado de Y y el valor de lalínea recta (β0 + β1X ) un error, denotado por ε.

Conviene imaginar que ε es un error estadístico, es decir, quees una variable aleatoria que explica el porqué el modelo noajusta exactamente los datos.

Este error puede estar formado por los efectos de otras varia-bles sobre la frecuencia cardiaca Y , por errores de medición,etc.

Ingeniería Industrial Regresión lineal simple

Page 15: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Modelo lineal simple:

Un modelo más plausible para los datos de la frecuencia cardia-ca es:

Y = β0 + β1X + ε (2)

A ésta ecuación se le llama modelo de regresión lineal.

Por costumbre se dice que X es la variable independiente y Yla variable dependiente.

También se usa el nombre de variable regresora o predictorapara X y variable respuesta para Y .

Como la ecuación anterior sólo tiene una variable regresora, sele llama modelo de regresión lineal simple.

Ingeniería Industrial Regresión lineal simple

Page 16: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Para comprender mejor el modelo de regresión lineal, supon-ga que se puede fijar el valor de la variable regresora X paraobservar el valor correspondiente de la respuesta Y .

Si X está fija, el componente aleatorio ε del lado derecho delmodelo de RLS determina las probabilidades de Y .

Supongamos que el promedio y la varianza de ε son cero yσ2 respectivamente, entonces la respuesta media en cualquiervalor de la variable regresora será:

E [Y |X = x ] = µy |x

= E [β0 + β1X + ε]

= β0 + β1X + E [ε]

= β0 + β1X .

Ingeniería Industrial Regresión lineal simple

Page 17: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Se observa que la anterior respuesta media coincide con la re-lación dada por la ecuación (1) obtenida a partir del diagramade dispersión de los datos.

Ahora la varianza de Y para cualquier valor de X es:

V [Y |X = x ] = σ2y |x

= V [β0 + β1X + ε]

= V [ε]

= σ2.

De lo anterior se tiene que el verdadero modelo de regresión

µy |x = β0 + β1X .

Ingeniería Industrial Regresión lineal simple

Page 18: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

es una línea recta de valores promedios, es decir, la altura dela línea de regresión en cualquier valor de X no es más que elvalor esperado de Y para ese valor de X .

La pendiente β1 es el cambio de la media de Y por un cambiounitario de X . Además, la variabilidad de Y en cualquier valorparticular de X queda determinada por la varianza del compo-nente de error aleatorio del modelo ε, es decir, por σ2.

Esto implica que hay una distribución de valores de Y en cadavalor de X y que la varianza de dicha distribución es igual encada valor de X .

Ingeniería Industrial Regresión lineal simple

Page 19: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Ingeniería Industrial Regresión lineal simple

Page 20: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

En muchas aplicaciones solo se tiene tanto una variable respu-esta Y como una variable regresora o independiente X, en cuyocaso se habla de modelos de regresión lineal simple (RLS), esdecir, modelos de RLS.

Ingeniería Industrial Regresión lineal simple

Page 21: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Relación estadística entre dos variables

Una relación estadística, a diferencia de una relación funcional,NO ES PERFECTA. En general, las observaciones para unarelación estadística no caen directamente sobre la curva de re-lación.

Ingeniería Industrial Regresión lineal simple

Page 22: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

MRLS con término de error no especificado

En el caso de un modelo de RLS, se considera que existe sola-mente una variable predictora y que la función de regresión eslineal, es decir, el modelo es de la forma:

Yi = β0 + β1Xi + εi , para i = 1, . . . ,n. (3)

Yi : Es el valor de la variable respuesta en el i-ésimo nivel (ovalor) de X .

β0, β1 : Son los parámetros del modelo.

Xi :Es una constante conocida que representa el valor de lavariable predictora para el i-ésimo ensayo o prueba.

Ingeniería Industrial Regresión lineal simple

Page 23: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

εi : Es un error aleatorio, con media cero, es decir, E [εi ] = 0 yvarianza constante, es decir, Var [εi ] = σ2, además los εi sonno-correlacionados, es decir que, Cov [εi ; εj ] = 0; ∀(i , j); i 6= j ;i = 1, . . .n.

El modelo de regresión anterior se dice que es:

? Simple: En el sentido de que sólo hay una variable predictorao independiente.? Lineal: En el sentido de que es lineal en los parámetros.? De primer orden: En el sentido de que la variable predictoraaparece solamente en potencias de uno.

Ingeniería Industrial Regresión lineal simple

Page 24: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Ejemplos

Modelo TipoY = β0 + xβ1 + ε Modelo no lineal

Y =1

[β0 + eβ1x ]+ ε Modelo no lineal

Y = β0 + β1x + β2x2 + ε Modelo de regresión de segundo orden

Ingeniería Industrial Regresión lineal simple

Page 25: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

ALgunas características del modelo de RLS

• La respuesta Yi en el i-ésimo ensayo o prueba, es la sumade dos términos, a saber: un término constante, β0 + β1Xi y untérmino aleatorio, εi .

• Como E [εi ] = 0, entonces se tiene que, E [Yi] = β0 + β1Xi(constante), por lo que, la respuesta Yi cuando el nivel de Xes Xi , viene de una distribución de probabilidad cuya media es:E [Yi] = β0 + β1Xi , y por lo tanto la función de regresión delmodelo es: E [Y ] = β0 + β1Xya que la función de regresión relaciona la media de la dis-tribución de probabilidad de Y para X dado a un nivel.

Ingeniería Industrial Regresión lineal simple

Page 26: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

• La respuesta Yi en el i-ésimo nivel de X , excede o cae cercadel valor de la función de regresión, por una cantidad de tamañoεi .

• Los εi , se asumen que tienen varianza constante σ2, por lotanto, se sigue que la respuesta Yi tiene la misma varianza,es decir, Var [Yi] = σ2. De donde el modelo (3), asume que ladistribución de probabilidad de la variable respuesta Y tiene lamisma varianza constante σ2, independientemente del valor dela variable predictora X .

• Los términos de error εi , se asume que son no-correlacionados,es decir, la entrada en cualquier nivel de X , no tiene efecto so-bre el término de error de cualquier otro nivel.Como εi y εj son no-correlacionados, también lo son Yi y Yj .

Ingeniería Industrial Regresión lineal simple

Page 27: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Estimación de los Parámetros del MRLS

Dado un conjunto de observaciones o datos (X1,Y1); . . . ; (Xn;Yn),se trata de hallar valores apropiados de β0, β1, que se ajustenlo mejor posible a este conjunto de datos.

El método de mínimos cuadrados ordinario (ordinary least squa-res method (OLS)), considera la desviación de Yi a su valor es-perado, es decir,

Yi − (β0 + β1Xi).

Para hallar a β0 y β1, se considera la suma de las n-desviacionesal cuadrado, denotada por,

Q(β0, β1) =n∑

i=1

[Yi − (β0 + β1Xi)]2.

Ingeniería Industrial Regresión lineal simple

Page 28: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Las estimaciones de β0 y β1, son aquellos valores β0 y β1,que minimizan la cantidad Q para las observaciones muestrales(X1,Y1); . . . ; (Xn;Yn).

Para hallar β0 y β1, se pueden usar procesos de búsqueda nu-mérica, hasta hallar valores de β0 y β1 que minimicen a Q, obien, mediante procesos analíticos, cuando el modelo de regre-sión propuesto no es tan complejo matemáticamente.

Ingeniería Industrial Regresión lineal simple

Page 29: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Mediante un acercamiento analático, se tiene que derivandoparcialmente la cantidad Q con respecto a β0 y β1 e igualando acero, se obtienen las siguientes ecuaciones, también llamadasEcuaciones Normales:

n∑i=1

Yi = nβ0 + β1

n∑i=1

Xi ,

n∑i=1

XiYi = β0

n∑i=1

Xi + β1

n∑i=1

X 2i ,

y resolviendo simultáneamente las ecuaciones anteriores, paraβ0 y β1, se obtiene que:

Ingeniería Industrial Regresión lineal simple

Page 30: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

β0 =1n

(n∑

i=1

Yi − β1

n∑i=1

Xi

),

β1 =

∑ni=1(Xi − X )(Yi − Y )∑n

i=1(Xi − X )2=

Sxy

Sxx.

A las cantidades, Sxx y Sxy se les llama: suma corregida decuadrados de X y suma corregida de productos cruzados de Xe Y , respectivamente.

Ingeniería Industrial Regresión lineal simple

Page 31: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Los estimadores de mínimos cuadrados ordinario son:

β0 = Y − β1X , con,

β1 =

∑(Xi − X )(Yi − Y )∑

(Xi − X )2

=

∑XiYi −

∑Xi

∑Yi

n∑(Xi)2 − (

∑Xi )2

n

=Sxy

Sxx

con, Y =

n∑i=1

Yi

n y X =

n∑i=1

Xi

n .

Ingeniería Industrial Regresión lineal simple

Page 32: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

El modelo de RLS ajustado es:

y = β0 + β1X ,

el cual representa una estimación de la media de Y para unvalor específico de X , es decir:

y = β0 + β1X ⇐⇒ E(Y |X ) = β0 + β1X .

Ingeniería Industrial Regresión lineal simple

Page 33: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Residuales

Se llama residual a la diferencia entre el valor observado yi y suvalor estimado, yi , es decir,

ei = yi − yi = yi − (β0 + β1xi).

Para i = 1, . . . ,n

NOTA: Los Residuales serán importantes en la validación delos supuestos de un modelo de regresión.

Ingeniería Industrial Regresión lineal simple

Page 34: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Propiedades de β0 y β1, obtenidos mediante OLS

Bajo las condiciones del modelo de RLS, los estimadoresobtenidos mediante OLS β0 y β1 son insesgados y tienenmínima varianza, entre todos los estimadores linealesinsesgados. La anterior propiedad quiere decir losiguiente:

Primero: E [β0] = β0 y E [β1] = β1 (insesgados).Segundo: Los estimadores β0 y β1 son los más precisos(es decir, sus distribuciones muestrales son menosvariables), esto es, β0 y β1 tienen la variabilidad máspequeña sobre muestras repetidas en las cuales losniveles de X permanecen sin cambiar.

Ingeniería Industrial Regresión lineal simple

Page 35: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Propiedades de β0 y β1, obtenidos mediante OLS

Bajo las condiciones del modelo de RLS, los estimadoresobtenidos mediante OLS β0 y β1 son insesgados y tienenmínima varianza, entre todos los estimadores linealesinsesgados. La anterior propiedad quiere decir losiguiente:

Primero: E [β0] = β0 y E [β1] = β1 (insesgados).Segundo: Los estimadores β0 y β1 son los más precisos(es decir, sus distribuciones muestrales son menosvariables), esto es, β0 y β1 tienen la variabilidad máspequeña sobre muestras repetidas en las cuales losniveles de X permanecen sin cambiar.

Ingeniería Industrial Regresión lineal simple

Page 36: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Propiedades de β0 y β1, obtenidos mediante OLS

Bajo las condiciones del modelo de RLS, los estimadoresobtenidos mediante OLS β0 y β1 son insesgados y tienenmínima varianza, entre todos los estimadores linealesinsesgados. La anterior propiedad quiere decir losiguiente:

Primero: E [β0] = β0 y E [β1] = β1 (insesgados).Segundo: Los estimadores β0 y β1 son los más precisos(es decir, sus distribuciones muestrales son menosvariables), esto es, β0 y β1 tienen la variabilidad máspequeña sobre muestras repetidas en las cuales losniveles de X permanecen sin cambiar.

Ingeniería Industrial Regresión lineal simple

Page 37: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Demostrar que β0 es insesgado.

E [β0] = E[Y − β1X

]= E

[1n

∑yi − X β1

]=

1n

∑E [yi ]− XE [β1]

=1n

∑(β0 + β1xi)− Xβ1

= β0 + Xβ1 − Xβ1

= β0.

Ingeniería Industrial Regresión lineal simple

Page 38: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Cálculo de la varianza de β0

Var [β0] = Var[Y − β1X

]= Var(Y ) + X

2Var(β1)− 2XCov(Y , β1)

=σ2

n+

X2σ2

Sxx− 2X (0), pues Cov(Y , β1) = 0

= σ2

[1n+

X2

Sxx

].

En la demostración anterior se utilizó la siguiente propiedad devarianza:

Var(aX ± bY ) = Var(aX ) + Var(bY )± Cov(aX ,bY )

= a2Var(X ) + b2Var(Y )± abCov(X ,Y )

Ingeniería Industrial Regresión lineal simple

Page 39: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

de igual forma se demuestra que Var [β1] =σ2

Sxx.

Otras propiedades de los estimadores OLS

La suma de residuales en cualquier modelo de regresiónque contiene un intercepto β0 es siempre igual a cero, esdecir,

∑ei =

∑(yi − yi) = 0.

La línea de regresión de mínimos cuadrados, siemprepasa a través del centroide de los datos, es decir, a travésde (x ; y).La suma de residuales por los correspondientes valoresajustados de y ′i s, es siempre cero, es decir,

∑yiei

Ingeniería Industrial Regresión lineal simple

Page 40: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

de igual forma se demuestra que Var [β1] =σ2

Sxx.

Otras propiedades de los estimadores OLS

La suma de residuales en cualquier modelo de regresiónque contiene un intercepto β0 es siempre igual a cero, esdecir,

∑ei =

∑(yi − yi) = 0.

La línea de regresión de mínimos cuadrados, siemprepasa a través del centroide de los datos, es decir, a travésde (x ; y).La suma de residuales por los correspondientes valoresajustados de y ′i s, es siempre cero, es decir,

∑yiei

Ingeniería Industrial Regresión lineal simple

Page 41: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

de igual forma se demuestra que Var [β1] =σ2

Sxx.

Otras propiedades de los estimadores OLS

La suma de residuales en cualquier modelo de regresiónque contiene un intercepto β0 es siempre igual a cero, esdecir,

∑ei =

∑(yi − yi) = 0.

La línea de regresión de mínimos cuadrados, siemprepasa a través del centroide de los datos, es decir, a travésde (x ; y).La suma de residuales por los correspondientes valoresajustados de y ′i s, es siempre cero, es decir,

∑yiei

Ingeniería Industrial Regresión lineal simple

Page 42: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Inferencia acerca de los parámetros del MRLSAhora se realizarán algunos procedimientos de inferencia es-tadística tanto para β0 como para β1, entre los cuales se in-cluyen la realización de pruebas de hipótesis concernientes aambos parámetros, la construcción de intervalos de confianza(I.C) para ambos parámetros, I.C para la respuesta media dela distribución de probabilidad de Y dado X , es decir I.C paraµy = E [Y |X ], intervalos de predicción para nuevas observacio-nes de Y .

Ingeniería Industrial Regresión lineal simple

Page 43: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Para poder hacer inferencia acerca de los parámetros del mo-delo de RLS, es necesario una suposición adicional sobre loserrores del modelo, es decir sobre los εi , la cual es: los erroresεi siguen o tienen una distribución normal. Con esta suposiciónadicional, se tiene el llamado modelo de RLS normal (o modelode RLS con errores normales), definido como:

yi = β0 + β1xi + εi , (4)

con los supuesto: εi ∼ Ni.i.d .(0, σ2).

De lo anterior se sigue que las Y ′i s, son variables aleatoriasindependientes distribuidas normales con media E [Yi ] = β0 +β1Xi y varianza Var [Yi ] = σ2, es decir,

Yi |Xi ∼ Ni.i.d .(β0 + β1Xi , σ2)

Ingeniería Industrial Regresión lineal simple

Page 44: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Inferencia para β1I.C para β1Un I.C del (1− α)% para β1 es:

β1 ± t(α/2,n−2)Sβ1,

β1 ± t(α/2,n−2)

√CMESxx

,

donde CME = σ2 =SCEn − 2

y SCE =∑n

i=1(yi − yi)2.

Ingeniería Industrial Regresión lineal simple

Page 45: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Inferencia para β0I.C β0Un I.C del (1− α)% para β0 es:

β0 ± t(α/2,n−2)Sβ0,

es decir,

β0 ± t(α/2,n−2)

√√√√CME

[1n+

X2

Sxx

],

Ingeniería Industrial Regresión lineal simple

Page 46: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Prueba de hipótesis acerca de β1

Para realizar la siguiente prueba de hipótesis (PH) acerca de β1

H0 : β1 = 0 vs H1 : β1 6= 0,

se utiliza la siguiente estadística de prueba:

tc =β1√CMESxx

,

y cuya regla de decisión con dicha estadística de prueba es:rechazo H0 si |tc | > t(α/2;n−2)

Ingeniería Industrial Regresión lineal simple

Page 47: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Para pruebas de hipótesis de la siguiente forma,

H0 : β1 ≤ 0 vs H1 : β1 > 0H0 : β1 ≥ 0 vs H1 : β1 < 0

se utiliza la misma estadística de prueba, con las siguientes re-glas de decisión:

Rechazo H0 si tc > t(α;n−2) ó tc < −t(α;n−2), respectivamente.Otra forma de tomar la decisión es utilizando el valor-p de laprueba.

Ingeniería Industrial Regresión lineal simple

Page 48: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Prueba de hipótesis acerca de β0

Para realizar la siguiente prueba de hipótesis (PH) acerca de β0

H0 : β0 = 0 vs H1 : β0 6= 0,

se utiliza la siguiente estadística de prueba:

tc =β0√

CME[

1n + X

2

Sxx

] ,y cuya regla de decisión con dicha estadística de prueba es:rechazo H0 si |tc | > t(α/2;n−2)

Ingeniería Industrial Regresión lineal simple

Page 49: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Para pruebas de hipótesis de la siguiente forma,

H0 : β0 ≤ 0 vs H1 : β0 > 0H0 : β0 ≥ 0 vs H1 : β0 < 0

se utiliza la misma estadística de prueba, con las siguientes re-glas de decisión:

Rechazo H0 si tc > t(α;n−2) ó tc < t(α;n−2), respectivamente. Otraforma de tomar la decisión es utilizando el valor-p de la prueba.

Ingeniería Industrial Regresión lineal simple

Page 50: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Análisis de varianza en modelos de RLS Partición de la su-ma total de cuadradosEl acercamiento del análisis de varianza se basa en la particiónde sumas de cuadrados y sus grados de libertad asociados conla variable respuesta Y .

La medida de variación de Y alrededor de su media muestral Yes:

SCT =n∑

i=1

(Yi − Y )2

Ingeniería Industrial Regresión lineal simple

Page 51: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

la cual se le llama suma total de cuadrados. Si todas las ob-servaciones Yi son iguales entonces la SCT = 0. Entre másvariación exista entre las Y ′i s, mayor será la SCT.

Cuando se usa la variable predictora o regresora X , la variaciónque refleja la incertidumbre con respecto a la variable Y estádada por las diferencias entre las observaciones Y ′i s y la líneade regresión ajustada Yi , es decir, por Yi − Yi .

La medida de variación presente en las observaciones Y ′i s cuan-do se tiene en cuenta la variable regresora X , es la suma dedesviaciones al cuadrado, la cual se denota por SCE y está da-da por:

Ingeniería Industrial Regresión lineal simple

Page 52: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

SCE =n∑

i=1

(Yi − Yi)2

y a la cual se le llama, suma cuadrática de errores. Si todas lasY ′i s caen sobre la línea de regresión ajustada, entoncesSCE = 0. Entre mayor es la variación de las Y ′i s alrededor de lalínea de regresión ajustada, mayor es la SCE.

A la diferencia entre la SCT y la SCE se le llama, suma cuadrá-tica de regresión y se denota por, SCR y est definida por:

SCR =n∑

i=1

(Yi − Y )2

La SCR es una medida de la parte de la variabilidad de las Y ′i s,la cual está asociada con la línea de regresión ajustada.

Ingeniería Industrial Regresión lineal simple

Page 53: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Desarrollo formal de la particiónA partir de la siguiente igualdad

Yi − Y = Yi − Yi + Yi − Y

Elevando al cuadrado a ambos lados, se obtiene lo siguiente:

(Yi − Y )2 = (Yi − Yi)2 + (Yi − Y )2 + 2(Yi − Yi)(Yi − Y )

y tomando sumatorias a ambos lados se tiene que:

n∑i=1

(Yi − Y )2 =n∑

i=1

(Yi − Yi)2 +

n∑i=1

(Yi − Y )2

Ingeniería Industrial Regresión lineal simple

Page 54: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

es decir, se obtiene la identidad fundamental del análisis de va-rianza, la cual está dada por:

SCT = SCR + SCE

Para obtener la anterior igualdad se ha utilizado el hecho deque:

n∑i=1

2(Yi − Yi)(Yi − Y ) = 0,

pues,n∑

i=1

(Yi − Yi)(Yi − Y ) =n∑

i=1

Yi(Yi − Yi)−n∑

i=1

Y (Yi − Yi)

=n∑

i=1

Yiei − Yn∑

i=1

ei = 0

Ingeniería Industrial Regresión lineal simple

Page 55: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

El análisis de varianza, divide la variabilidad observada en lamuestra en dos partes:

SCT = SCR + SCE ,

donde,SCT: Variabilidad muestral total y tiene n−1 grados de libertad,

SCR: Variabilidad explicada por el modelo o por las variablesregresoras X y tiene 1 grados de libertad,

SCE: Variabilidad no explicada por el modelo o error y tiene n−2grados de libertad.

Ingeniería Industrial Regresión lineal simple

Page 56: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Medias cuadráticas o cuadrados medios

Las medias cuadráticas se obtienen como las SS divididas porsus respectivos grados de libertad, es decir que

CMR = SCR1 : Cuadrado medio de la regresión,

CME = SCEn−2 : Cuadrado medio del error.

Ingeniería Industrial Regresión lineal simple

Page 57: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Tabla resumen de análisis de varianza

Ahora se presenta la tabla resumen del análisis de varianza (oANOVA) para el modelo de RLS.

F.V G.L SC CM Est. FRegresión 1 SCR CMR Fc = CMR

CME ∼ F(1,n−2)Error n-2 SCE CMETotal n-1 SCT

Ingeniería Industrial Regresión lineal simple

Page 58: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Prueba de Significancia de la regresión

Para realizar la siguiente prueba de hipótesis, también llamadaprueba de significancia de la regresión,

HipótesisH0 : β1 = 0 vs H1 : β1 6= 0,

se utiliza la siguiente estadística de prueba:

Fc =

(SCRσ2

)/1(

SCEσ2

)/(n − 2)

=χ2

1/1χ2

n−2/(n − 2)

=SCR/1

SCE/(n − 2)=

CMRCME

∼ F(1,n−2)

Ingeniería Industrial Regresión lineal simple

Page 59: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Lo anterior se justifica debido a que, si β1 = 0, tal que todas lasY ′i s tienen la misma media µ = β0 y la misma varianza , enton-ces SCE/σ2 y SCR/σ2 son variables aleatorias independientes.

cuando H0 es cierto, esta Fc es el cociente de dos variables in-dependientes chi-cuadrados, cada una dividida por sus respec-tivos grados de libertad, lo cual es la definición de una variablealeatoria con distribución F de Fisher Snedecor.

La regla de decisión para la prueba de significancia de la regre-sión es:Rechazar H0 si Fc > F(α,1,n−2).Si rechazamos H0, es decir que existe una asociación lineal en-tre X y Y.

Ingeniería Industrial Regresión lineal simple

Page 60: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Observación: Se puede verificar la siguiente relación entre laestadística Fc y la estadística tc = β1

Sβ1

utilizada para prueba de

hipótesis individuales acerca de β1

Fc = [tc]2 =

[β1

Sβ1

]2

Para la demostración se utilizan las siguientes igualdades:

SCR = β1Sxx , y Sβ1

= CMESxx

Ingeniería Industrial Regresión lineal simple

Page 61: Regresion linealsimple

logo

Análisis de regresiónInterpretación del modelo de regresión lineal simple RLS

Estimación de los Parámetros del MRLSInferencia acerca de los parámetros del MRLS

Análisis de varianza en modelos de RLS

Referencias

Montgomery D.C. Design and Analysis of Experiment. LimusaWiley, 2001, 5 Edition.

Montgomery D.C y Runger G.C. Probabilidad y Estadística Apli-cadas a la Ingeniería. 2003, tercera edición.

Ingeniería Industrial Regresión lineal simple