completo ojo revisar

41
ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA CORRELACION 1. INTRODUCCIÓN Con frecuencia estamos interesados en investigar dos o mas características de cada individuo o elemento, por ejemplo podemos observar la estatura y el peso de una población de niños entre 0 y 6 años , si asociamos cada característica bajo estudio una variable , digamos x e y respectivamente , tendremos el par ordenado (x, y) de variables . Así para el ejemplo anterior, todas las estaturas medidas formaran la variable x y todos los pesos la variable y. El par (x, y) se llamara variable estadística bidimensional. Estudiamos las variables peso y estatura, esperando que en general ocurra que a mayor estatura también encontremos mayor peso, aunque es posible que en algunos pocos casos no ocurra así. Vemos que existe una relación entre las dos variables, aunque no es funcional, o sea, no podemos determinar con exactitud el peso que corresponderá a cada talla. En este tema trataremos de describir y medir este tipo de relaciones, que aparecen en gran cantidad de problemas. A continuación, desarrollaremos el grado de relación entre dos o mas variables en lo que llamaremos análisis de correlación, Para representar esta relación utilizaremos una representación gráfica llamada diagrama de dispersión, estudiaremos un modelo matemático para estimar el valor de una variable basándonos en el valor de otra, en lo que llamaremos análisis de regresión. En muchas situaciones, las dos características observadas están relacionadas entre si por lo que es interesante su estudio en conjunto. SEMINARIO TERMINAL I 1

Upload: nilo-evanz

Post on 13-Dec-2015

234 views

Category:

Documents


0 download

DESCRIPTION

Completo Ojo Revisar

TRANSCRIPT

Page 1: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

CORRELACION

1. INTRODUCCIÓN

Con frecuencia estamos interesados en investigar dos o mas características de cada individuo o elemento, por ejemplo podemos observar la estatura y el peso de una población de niños entre 0 y 6 años , si asociamos cada característica bajo estudio una variable , digamos x e y respectivamente , tendremos el par ordenado (x, y) de variables . Así para el ejemplo anterior, todas las estaturas medidas formaran la variable x y todos los pesos la variable y. El par (x, y) se llamara variable estadística bidimensional.

Estudiamos las variables peso y estatura, esperando que en general ocurra que a mayor estatura también encontremos mayor peso, aunque es posible que en algunos pocos casos no ocurra así.

Vemos que existe una relación entre las dos variables, aunque no es funcional, o sea, no podemos determinar con exactitud el peso que corresponderá a cada talla. En este tema trataremos de describir y medir este tipo de relaciones, que aparecen en gran cantidad de problemas.

A continuación, desarrollaremos el grado de relación entre dos o mas variables en lo que llamaremos análisis de correlación, Para representar esta relación utilizaremos una representación gráfica llamada diagrama de dispersión, estudiaremos un modelo matemático para estimar el valor de una variable basándonos en el valor de otra, en lo que llamaremos análisis de regresión.

En muchas situaciones, las dos características observadas están relacionadas entre si por lo que es interesante su estudio en conjunto.

La variable estadística bidimensional (x, y) se puede clasificar según la naturaleza de sus variables cualitativas, cuantitativas discretas y cuantitativas continuas, se obtiene los tipos de distribuciones de dos características siguientes:

1. Los dos caracteres cualitativos, por ejemplo nivel de educación, religión.2. Uno cualitativo , otro cuantitativo, estos pueden ser:

a) Uno cualitativo, otro cuantitativo discreto, por ejemplo nivel educacional y numero de hijos de las personas.

b) Uno cualitativo, otro cuantitativo continuo, por ejemplo edad y estado civil de las personas.

3. Los dos cuantitativos, estos pueden ser:a) Uno continuo y otro discreto, por ejemplo horas trabajadas y numero de accidentes

de trabajo.b) Uno discreto y otro continuo, por ejemplo numero de horas extras trabajadas y edad

de las personas.c) Los dos continuos, por ejemplo estatura y peso de las personas.

SEMINARIO TERMINAL I 1

Page 2: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Cuando son observadas más de dos características hablamos de variables estadísticas n-dimensionales, convirtiéndose entonces el análisis en multivariante, situación que no será de análisis en este trabajo.

1.1. DISTRIBUCIONES BIDIMENSIONALES

Cuando sobre una población estudiamos simultáneamente los valores de dos variables estadísticas, el conjunto de los pares de valores correspondientes a cada individuo se denomina distribución bidimensional.

Ejemplo

Supongamos que si a los cinco hijos, A, B, C, D y E, de una familia se les pasan unas pruebas que miden la aptitud musical (Mu) y la aptitud para las matemáticas (Ma), se obtienen los siguientes resultados:

Esta tabla es una distribución bidimensional porque intervienen dos variables: valoración Mu, valoración Ma. A cada individuo le corresponden dos valores: A(5,6), B(7,10), C(4,5), D(8,6), E(2,4).

1.2. IDEA DE CORRELACIÓN

Es frecuente que estudiemos sobre una misma población los valores de dos variables estadísticas distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto decimos que las variables están correlacionadas o bien que hay correlación entre ellas.

En el ejemplo anterior parece que hay cierta tendencia a que cuanto mejor es la nota en Matemáticas, mejor es la de lengua.

1.3. ANÁLISIS DE CORRELACIÓN

Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.

El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.

SEMINARIO TERMINAL I 2

Page 3: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

1.4. NUBE DE PUNTOS O DIAGRAMA DE DISPERSIÓN

La investigación de una relación entre dos variables comienza con un intento por descubrir la forma aproximada de la relación , para lo cual se representan los datos observados en un sistema de coordenadas , esta grafica recibe el nombre de diagrama de dispersión el cual muestra la ubicación de los valores o puntos (x, y) de la variable bidimensional (x, y) en un sistema de coordenadas rectangulares , es esta grafica se puede observar si existe o no la relación acentuada entre las variables x e y ,y se puede ver que forma tiene : lineal u otra.

Ejemplo

De este modo para el ejemplo de la familia de cinco hijos se asocia a cada individuo un punto en un diagrama cartesiano:

Esta representación gráfica de una distribución bidimensional se llama nube de puntos o diagrama de dispersión.

SEMINARIO TERMINAL I 3

Page 4: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

1.5. CORRELACIÓN LINEAL

Covarianza

La covarianza mide la relación lineal entre x e y, para ilustrarlo se dibujo en los ejes coordenados los diagramas de dispersión de las figuras siguientes, donde se muestra distintos tipos de relación entre dos variables y covarianza resultante.

y y

x x

a) Covarianza positiva b) covarianza próxima a cero

y y

x x

c) Covarianza negativa d) covarianza próxima a cero

SEMINARIO TERMINAL I 4

Page 5: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Cuando x e y varían conjuntamente de forma lineal como indican las (a) y (c) la varianza será alta, por ejemplo en el caso de (a) la mayoría de los puntos x, - e y,- están en ele primer cuadrante y tercer cuadrante (definidos por e ) , contribuyendo positivamente a la suma , en el caso (c) la mayoría de los puntos x, - e y,- están en el segundo cuadrante por tanto serna negativos , obteniendo una suma de alta magnitud y negativa en la formula de covarianza.

Por el contrario cuando no existe relación caso (b) o existe relación no lineal caso (d) la covarianza será pequeña al estar los puntos repartidos por los cuatro cuadrantes definidos por

e .Se esta hablando tanto de la covarianza que se hace necesario hacer mención de su formula:

ó

Pero el inconveniente de la covarianza como medida de asociación lineal es su dependencia de las unidades de medida de las variables, en consecuencia para construir una medida adimensional tendremos que dividir la covarianza por un término con sus mismas dimensiones. Si se divide por el producto de sus desviaciones típicas se define el coeficiente de correlación entre dos variables.

Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación lineal. La recta se denomina recta de regresión.

Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una recta y será cada vez más débil (o menos fuerte) cuando la nube vaya desparramándose con respecto a la recta.

SEMINARIO TERMINAL I 5

Page 6: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

En el gráfico observamos que en nuestro ejemplo la correlación es bastante fuerte, ya que la recta que hemos dibujado está próxima a los puntos de la nube.

Cuando la recta es creciente la correlación es positiva o directa: al aumentar una variable, la otra tiene también tendencia a aumentar, como en el ejemplo anterior. Cuando la recta es decreciente la correlación es negativa o inversa: al aumentar una variable, la otra tiene tendencia a disminuir.

Ejemplo 2:

Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. En la gráfica se describen el nº de errores que corresponden a los intentos realizados.

Observa que hay una correlación muy fuerte (los puntos están "casi" alineados) y negativa (la recta es decreciente).

Ejemplo 3:

A 12 alumnos de un centro se les preguntó a qué distancia estaba su residencia del Instituto, con fin de estudiar si esta variable estaba relacionada con la nota media obtenida. Se obtuvieron los datos que figuran en la siguiente tabla:

Distancia (en km) 0,05 0,1 0,12 0,4 0,5 0,7 1 1,2 2,1 2,5 3 3

Nota media 8,4 4 5,7 9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1

SEMINARIO TERMINAL I 6

Page 7: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la correlación es prácticamente inexistente, es decir, no tiene nada que ver con el rendimiento académico la distancia del domicilio al instituto

1.6. MEDIDA DE LA CORRELACIÓN

La apreciación visual de la existencia de correlación no es suficiente. Usaremos un parámetro, llamado coeficiente de correlación que denotaremos con la letra r, que nos permite valorar si ésta es fuerte o débil, positiva o negativa.  

El cálculo es una tarea mecánica, que podemos realizar con una calculadora o un programa informático. Nuestro interés está en saber interpretarlo.

Antes de ponernos a trabajar destacaremos una de sus propiedades

-1 < r < 1

DEFINICIÓN DE COEFICIENTE DE CORRELACIÓN

El coeficiente de correlación (o índice de correlación lineal de Pearson) entre dos variables x e y se define por.

ó

Donde: Sx y Sy son las desviaciones típicas de x y de y respectivamente.

Se demuestra que el coeficiente de correlación cumple:

1. Si se multiplica x por k1 e y por k1 el coeficiente de correlación no varia.2. Si existe una relación lineal exacta entre ambas variables y todos los puntos están

en la línea y= a bx el coeficiente de correlación es igual a 1 (si b > 0) ó -1 (si b<0).

SEMINARIO TERMINAL I 7

Page 8: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

3. Si no existe relación lineal exacta: -1 < r < 1, el cual representa el grado de asociación.

4. r = 0 cuando no hay ninguna correlación entre x e y.

INTERPRETACIÓN

Entre las dos variables que determinan una distribución bidimensional puede existir una relación más o menos estrecha que se llama correlación, y se puede medir mediante el coeficiente de correlación, r, que es un número, asociado a los valores de las dos variables. El coeficiente de correlación puede valer entre -1 y 1.

Cuando r = 1 existe una relación funcional entre las dos variables de modo que el valor de cada variable se puede obtener a partir de la otra. Los puntos de la nube están todos situados sobre una recta de pendiente positiva.

Esto ocurre, por ejemplo, cuando una barra metálica se somete a distintas temperaturas, x1, x2,…, xn, y se miden con precisión sus correspondientes longitudes, y1, y2,…, yn. Las longitudes se obtienen funcionalmente a partir de las temperaturas de modo que, conociendo la temperatura a que se va a calentar, se podría obtener la longitud que tendría la barra.

Cuando r es positivo y grande (próximo a 1) se dice que hay una correlación fuerte y positiva. Los valores de cada variable tienden a aumentar cuando aumentan los de la otra. Los puntos de la nube se sitúan próximos a una recta de pendiente positiva.

Es el caso de las estaturas, x1, x2,…, xn, y los pesos, y1, y2,…, yn, de diversos atletas de una misma especialidad. A mayor estatura cabe esperar que tengan mayor peso, pero puede haber excepciones.

Cuando r es próximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la correlación es muy débil (prácticamente no hay correlación). La nube de puntos es amorfa.

Es lo que ocurriría si lanzáramos simultáneamente dos dados y anotáramos sus resultados: puntuación del dado

SEMINARIO TERMINAL I 8

Page 9: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

rojo, xi; puntuación del dado verde, yi. No existe ninguna relación entre las puntuaciones de los dados en las diversas tiradas.

Cuando r es próximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlación fuerte y negativa. Los valores de cada variable tienden a disminuir cuando aumentan los de la otra. Los puntos de la nube están próximos a una recta de pendiente negativa.

Si en un conjunto de países en vías de desarrollo se miden sus rentas per cápita, xi, y sus índices de natalidad, yi, se obtiene una distribución de este tipo, pues suele ocurrir que, grosso modo, cuanto mayor sea la renta per cápita menor será el índice de natalidad.

Cuando r = -1 todos los puntos de la recta están sobre una recta de pendiente negativa. Existe una relación funcional entre las dos variables.

INTERPRETACIÓN ERRÓNEA DE LOS COEFICIENTES DE CORRELACIÓN

En ocasiones el coeficiente de correlación se interpreta erróneamente como un porcentaje. Si r=0.7 será incorrecto afirmar que el 70 % de las variaciones de y viene explicado por la variable x, para una interpretación correcta deberá considerarse r2, así para r= 0.7 será: r2 = 0.49 solo el 49 % de la variación de y es explicada por la variable x.

PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN

i) número sin dimensiones entre -1 y 1. ii) si las variables son independientes =0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes sí.iii) si las variables estuvieran relacionadas linealmente =1

Un contraste que interesa realizar en un modelo II es H0: =0. Como este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque también hay tablas basadas en que una cierta transformación (de Fisher) de r se distribuye aproximadamente como una normal.

SEMINARIO TERMINAL I 9

Page 10: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

¿Qué mide r?

Se puede demostrar una relación algebraica entre r y el análisis de la varianza de la regresión de tal modo que su cuadrado (coeficiente de determinación) es la proporción de variación de la variable Y debida a la regresión. En este sentido, r2 mide el poder explicatorio del modelo lineal.

¿Qué no mide r?

- no mide la magnitud de la pendiente ("fuerza de la asociación")

- tampoco mide lo apropiado del modelo lineal

1.7. OTROS COEFICIENTES DE CORRELACIÓN COEFICIENTE DE CORRELACIÓN “Q” DE YULE

Mide la asociación de dos variables nominales con solo dos categorías excluyentes (por ejemplo sexo: hombre, mujer; estudia si, no ) .Cuando los valores de x e y son solamente dos, la distribución del numero de puntos puede disponerse como la tabla siguiente:

y

x0 1 Total

0 a b a+b

SEMINARIO TERMINAL I 10

Page 11: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

1 c d c+d

Total a+c b+d

el coeficiente de correlación entre este tipo de variables x e y esta dado por:

el coeficiente Q no es aplicable cuando uno de los casilleros es cero.

Ejemplo

Se desea estudiar la relación que existe entre encontrar trabajo y el conocimiento de un determinado idioma. Con tal objeto se realizo una encuesta , la distribución de resultado es como sigue:

idioma

encontrar trabajoSi No Total

Si 11 7 18

No 4 10 14

Total 15 17 n= 32

Por tanto el coeficiente de correlación de Yule es:

COEFICIENTE DE CORRELACIÓN PHI

Es un coeficiente para medir el grado de asociación entre dos variables cualitativas ordinal o nominal, de solo dos categorías. La distribución del numero de puntos se dispone como en la siguiente tabla:

y

x0 1 Total

0 a b a+b

SEMINARIO TERMINAL I 11

Page 12: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

1 c d c+d

Total a+c b+d n

El coeficiente de correlación PHI o de puntos esta dado por:

Ejemplo

Ver si existe relación entre actividad social y calificación como líder :

Activ. Social

Calif. como líderalta Baja Total

Favorable 86 41 127

Desfavorable 62 71 133

Total 148 112 n= 260

Por tanto el coeficiente de correlación de Yule es:

1.8. CORRELACIÓN Y CAUSALIDAD

Los coeficientes de correlación son solo medida de covariacion de las variables, en cuanto a la variación misma puede deberse a causas que afectan a cada variable de una misma manera o de maneras opuestas, o bien una de ellas es causa de variación de la otra, o puede suceder que la relación causal sea reciproca; todo esto es ajeno a la comprobación de la existencia de la correlación y del valor del coeficiente de correlación.

Es fácil imaginarse que parejas de variables pudieran dar un alto valor de un coeficiente de correlación y que no se deba realmente a una estrecha relación entre ellas, sino el efecto común sobre estas de una tercera variable y entonces este alto valor del coeficiente de relación refleja solo ese efecto común.

SEMINARIO TERMINAL I 12

Page 13: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

En consecuencia los coeficientes de correlación se deben manejar con mucho cuidado, ya que de no ser así puede llevarnos a conclusiones erróneas.

REGRESION LINEAL

2. REGRESIÓN LINEAL

Historia corregir

La primera forma de regresiones lineales documentada fue el método de los mínimos cuadrados, el cual fue publicado por Legendre en 1805, y por Gauss en 1809. El término "mínimos cuadrados" proviene de la descripción dada por Legendre "moindres carrés". Sin embargo Gauss aseguró que conocía dicho método desde 1795.

Tanto Legendre como Gauss aplicaron el método para determinar, a partir de observaciones astronómicas, las órbitas de cuerpos alrededor del sol. En 1821, Gauss publicó un trabajo en dónde desarrollaba de manera más profunda el método de los mínimos cuadrados, y en dónde se incluía una versión del teorema de Gauss-Markov.

Etimología

El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio. La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por parte de la matemática y la estadística mucho más extenso.

Introducción

Si sabemos que existe una relación entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y

SEMINARIO TERMINAL I 13

Page 14: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples valores para una combinación de valores de las independientes.

"Y es una función de X"

Y = f(X)

Como Y depende de X, Y es la variable dependiente, y X es la variable independiente.

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.

En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:

Y = f (X)

"Y está regresando por X"

La variable dependiente es la variable que se desea explicar, predecir. También se le llama

REGRESANDO ó VARIABLE DE RESPUESTA.

La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le

utiliza para EXPLICAR Y.

El modelo de regresión lineal

La regresión es un método de análisis de los datos de la realidad económica que sirve para poner en evidencia las relaciones que existen entre diversas variables. Consiste en determinar los valores de "a" y " " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra.

La ecuación es de carácter deterministico y la ecuación es una función de Regresión Poblacional:

La ecuación es una función de Regresión Muestral:

SEMINARIO TERMINAL I 14

Page 15: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Interpretación de la Función de Regresión Poblacional:

Y es la “variable endógena”, (dependiente o el regresando observable), X es la “variable explicativa o exógena” (independiente o el regresor observable), Ui es la “perturbación estocástica” (no es observable), a y b son los “parámetros de regresión”, desconocidos. Finalmente i como sub-índice, se refiere a la i-ésima observación.

Las “observaciones” pueden tomarse para ciertas unidades a través del tiempo (series cronológicas) o a través de individuos, familias, provincias, países u otros agregados geográficos, etc. Para cierto periodo unitario de tiempo (cortes transversales o cortes de secciones transversales), o a través de una combinación de los dos procedimientos precedentes (combinación de series de tiempo es cortes transversales).

Interpretación de la Función de Regresión Muestral:

Siendo Y^ el valor calculado de Y, por medio de los estimadores a y b de los parámetros a y b

respectivamente, donde “ei” es el termino estocástico de la función.

Supuestos del modelo de regresión lineal

Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes

supuestos:

1. Función de regresión poblacional

2. Ui N Tiene una distribución normal

3. E(Ui) = 0 La media o esperanza es igual a cero

4.

SEMINARIO TERMINAL I 15

Homocedasticidad

Page 16: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

5. E(Ui , Uj) = 0 Ausencia de autoregrasividad

6. Xi es un “regresor fijo” Es una variable no estocástica con valores fijos

Estimación de parámetros de la Función de Regresión PoblacionalMétodo De Los Mínimos Cuadrados.

El objetivo de nuestro análisis es lograr estimadores de los parámetros a y b, tales que reúnan las siguientes condiciones o exhiban las siguientes propiedades:

Que sean combinaciones lineales de las observaciones muéstrales. Que sean insesgados. Que tengan varianzas menores a cualquier otro estimador.

La diferencia entre los valores observados y calculados de Yi esto es (Yi-Yi^) la cual se denomina “residual” o simplemente residuo, representándose por “ ei ” es decir:

El objetivo a través del principio de los mínimos cuadrados es la minimización de la suma a través

de las observaciones de los cuadrados de las perturbaciones establecidas en la ecuación.

Tenemos:

Se debe distinguir cuidadosamente las dos ecuaciones siguientes:

1º Condición:

SEMINARIO TERMINAL I 16

iXiiY ˆˆˆ

F.R.P.UiXiYi

F.R.M.

22 )ˆˆ( XiYie

0)1)(ˆˆ(2

ˆ

2

XiYie

0)ˆˆ( XiYi

0ˆˆ XinYi

XinYi ˆˆ 3)

1)

2)

22 )ˆ( iYYie i

22 )ˆ(minmin iYYiei

1)

Page 17: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

2º Condición:

Obteniendo de las ecuaciones 3 y 4 la Ecuaciones Normales

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución

para ambos parámetros:

Despejando el parámetro “a” de la ecuación (4)

SEMINARIO TERMINAL I 17

0)1)(1)(ˆˆ()1(2

ˆ 2

22

XiYie

nn 2)1(2)1(2)1)(1(2

0))(ˆˆ(2

ˆ

2

XXiYie

0)ˆˆ( XXiYi

0)ˆˆ( 2XXXYi

0ˆˆ 2XXXYi

2ˆˆ XXXYi 4)

XinYi ˆˆ 3)

2ˆˆ XXXYi 4)

XYn

X

n

y

n

XY

ˆˆ

ˆˆ

I

Page 18: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Reemplazamos I en la ecuación (4)

Entonces la ecuación del parámetro B es:

Reemplazando II en I

SEMINARIO TERMINAL I 18

ˆXX

n

XYXY

22

ˆ)(ˆX

n

XYXXY

22 ˆ)(ˆ XnXYXXYn

)((ˆ 22 XXnYXXYn

22 )(

ˆXXn

YXXYn II

22

2

ˆXXnn

XYXXYn

22

222

ˆXXnn

XYXYXnXYXYn

22

2

ˆXXnn

YXXYnXXnY

n

X

XXn

YXYXn

n

Y

22 )(

Page 19: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Entonces la ecuación del parámetro a es:

RESIDUAL

Donde:

Si:

SEMINARIO TERMINAL I 19

ii YYie ˆ

YYYYe ˆ Se ha sumado y restado la media de Y

)ˆ()( YYYYe Se ha asociado y factorizado signos 6)

5)

XY ˆˆˆ XY ˆˆ

)(ˆˆˆˆ XXXXYY

)(ˆˆ XXYY 7)

XXx

YYy

YYy ˆˆ

9)

10)

8)

Page 20: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Reemplazamos las ecuaciones (8) , (9) , (10) en la ecuación (7)

por lo tanto:

Determinación del estimador de la varianza del término estocástico.

Formulas de las Varianzas de los parámetros de a^ y b^

SEMINARIO TERMINAL I 20

xy ˆ 11)

22 )ˆ()( xyei

0))(ˆ(2

ˆ2

2

xxye

0)ˆ( xxy

0)ˆ( 2xxy

02xxy

22 )(

))((ˆXX

YYXX

x

xy

2

ˆ

2

ˆˆ

2222

n

YYXXYY

n

XY

n

eiu

2

ˆˆ2

n

XYYY

2

2

)(

ˆ)ˆ(

XXV u

2

22

2

22 ˆ

)(

1ˆ)ˆ(

XXn

X

XX

X

nV uu

Page 21: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Formulas de las Covarianzas de los parámetros a^ y b^

CASO PRÁCTICO

Supongamos que usted tiene a su cargo el dinero del departamento de Oruro, los datos

corresponden al suministro de dinero y el Producto Nacional Bruto (ambos expresados en millones

de bolivianos)

SEMINARIO TERMINAL I

PNB (en Bs) Y

Suministro de Dinero (en Bs)

XXY X^2 ei Y^2

5,0 2,0 10,00 4,00 0.40 25.005,5 2,5 13,75 6,25 0.04 30.256,0 3,2 19,20 10,24 -0.66 36.007,0 3,6 25,20 12,96 -0.34 49.007,2 3,3 23,76 10,89 0.37 51.847,7 4,0 30,80 16,00 -0.33 59.298,4 4,2 35,28 17,64 0.03 70.569,0 4,6 41,40 21,16 -0.06 81.009,7 4,8 46,56 23,04 0.30 94.0010,0 5,0 50,00 25,00 0.25 100.0075,5 37,2 295,95 147,18 0.00 597.03

21

Page 22: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Se pide:

a) Estimar el siguiente modelo

b) Determinar las ecuaciones normales.

c) Determinar los valores de ei

d) Determinar la varianza muestral del termino estocástico.

e) Determinar la varianza muestral del estimador “a” y su desviación típica muestral de la misma

manera la varianza muestral del parámetro “b” y su desviación típica muestral.

f) Determinar la covarianza de “a” y “b” respectivamente.

SOLUCION.

a)

Entonces el modelo estimado será:

Entonces podemos decir, cuando el suministro de dinero se incrementa en 1 millón de bolivianos el producto nacional bruto aumentara en 1.7156 millones de bolivianos.

b) Se toma las ecuaciones encontradas 3 y 4, y se reemplaza

Reemplazando:

SEMINARIO TERMINAL I 22

22 )(

ˆXXn

YXXYn

2)2.37()18.108147

)5.75(2.37)95.295(10ˆ

84.13838.1471

6.28085.2959ˆ

96.87

9.150ˆ 7156.1ˆ

22

2

)(ˆ

XXn

XYXXY

n

X

n

Y ˆˆ )2

2.37(7156.1

10

5.75ˆ

382.655.7ˆ 1681.1ˆ

XinYi ˆˆ 3)

2ˆˆ XXXYi 4)

Page 23: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Entonces tenemos:

c) Para hallar los valores de ei

Muchas personas cometerán errores pequeños y cuanto mayor sea el error menos será el numero

que los cometan, el error medio de las personas será la sumatoria igual a 0

d) Reemplazamos datos en la siguiente ecuación:

Hallamos la varianza muestral del estimador “b”

SEMINARIO TERMINAL I 23

ˆ20.37ˆ1050.75

ˆ18.147ˆ20.3795.295 4)

3)

XiYiei 7156.11681.1

)0.2(7156.11681.10.51 e )5.2(7156.11681.15.52 e

40.01 e 04.02 e

iYYieiˆ

XiYiei ˆˆ

210

)95.295(7156.1)5.75(1681.103.597ˆ 2

u

8

10663.1ˆ 2 u 14.0ˆ 2 u

2

2

)(

ˆ)ˆ(

XXV u

n

XXXX

2

2)(

10

)20.37(18.147)(

22 XX

250

2199)( 2 XX 796.8)( 2 XX

796.8

1400.0)ˆ( V 0159.0)ˆ( V

)ˆ(ˆ ˆ V 0159.0ˆ ˆ

1260.0ˆ ˆ

Page 24: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Hallamos la varianza muestral del estimador “a”

SEMINARIO TERMINAL I 24

2

22ˆ)ˆ(

XXn

XV u

)796.8(10

18.14714.0)ˆ(V

2337.0)ˆ( V

)ˆ(ˆ ˆ V 2337.0ˆ ˆ

4834.0ˆ ˆ

Page 25: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Hallamos la covarianza de los estimadores “a” y “b”

ANALISIS DE LA VARIANZA DE LA REGRESION

3. INTRODUCCIÓN

En estadística, el análisis de la varianza o análisis de varianza (ANOVA, según

terminología inglesa) es una colección de modelos estadísticos y sus procedimientos

asociados, en el cual la varianza esta particionada en ciertos componentes debidos a

diferentes variables explicativas. Las técnicas iniciales del análisis de varianza fueron

desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es

algunas veces conocido como Anova de Fisher o análisis de varianza de Fisher, debido

al uso de la distribución F de Fisher como parte del test de significancia estadística.

El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos

son significativamente distintos a los valores de otro o más conjuntos de datos. El

procedimiento para comparar estos valores está basado en la varianza global observada en

SEMINARIO TERMINAL I 25

Page 26: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza

para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones

es distinta de la media de otro grupo de puntuaciones.

3.1. DESCOMPOSICIÓN DE LA VARIANZA

La descomposición de la variación muestral de Y, podemos considerar esta variación

representada en el siguiente grafico.

Como se puede ver los 11 valores de Y correspondientes a los respectivos 11 valores de X,

difieren entre ellos, es decir de observación muestral a observación muestral ¿A que se

debe?

En primer lugar, conforme a lo postulado en el modelo que se estudia la variación de Y

viene en parte explicada o es debida a cambios o variaciones en X que generan cambios en

el valor esperado de Y, o variaciones en X que generan cambios en el valor esperado de Y,

es decir en la Función de Regresión Poblacional.

En segundo lugar, parte de la variación observada viene explicada o es debido a los efectos

introducidos por la perturbación aleatoria o estocástica.

Consecuentemente, surge la pregunta de cuanto de la variación de Y puede atribuirse al

primer factor (variación de X) y cuanto de ella puede atribuirse al segundo factor o a la

perturbación estocástica.

SEMINARIO TERMINAL I 26

X

Y XY ˆˆˆ

Y

X

Page 27: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

La respuesta a esta interrogante lo da el “Análisis de la Varianza de la Regresión”, de

acuerdo al siguiente punto de vista:

Si la “variación muestral” de Y fuese nula, todos los valores de Y correspondientes a los

respectivos valores de X, descansarían sobre una horizontal en el grafico de dispersión. Si

este fuese el caso, al ser todos los valores de Y iguales, ellos coincidirían con el valor de su

media muestral de Y (barra), y a esta altura se estabilizaría dicha horizontal.

3.2. SUMA TOTAL DE CUADRADOS

Las distancias desde Y observadas hasta Y (barra), pueden tomarse entonces como

elementos de medidas de la variación total de Y. Una medida basada en dichos elementos

es la suma de los cuadrados de dichas distancias en la muestra, denominada “suma Total de

Cuadrados” (STC).

Por lo tanto el análisis de la varianza de la regresión intenta DESCOMPONER o participar

esta Suma Total de Cuadrados (STC) en dos partes, de tal manera que cada una de ellas

explique las variaciones de Y atribuibles a los factores de X y Ui respectivamente.

En lo que hace el factor X, supongamos que se ha ajustado la recta de regresión (del grafico

anterior) por el método de mínimos cuadrados, logrando de este modo una “recta de mejor

ajuste”

En este contexto consideremos una observación especifica cualquiera por ejemplo la

i - ésima, compuesta por el par de valores (Yi : Xi) y consideremos también la distancia

vertical desde el punto (Yi : Xi) hasta Y(barra) esta distancia total, como la siguiente figura

puede ser descompuesta en dos partes, la primera es la distancia vertical desde el punto

observado hasta la línea (recta) de la función de Regresión Muestral, la otra es la distancia

desde la línea (recta) de la Función de Regresión Muestral hasta Y(barra) es decir.

SEMINARIO TERMINAL I 27

Page 28: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Restando Y (barra) de ambos miembros de la ecuación anterior se tiene

Esto es lo que hace a una observación aislada. Lo mismo sucede con cualquier otra, sin

embargo se pueden también generalizarse para todas las observaciones conjuntamente, y

elevarlas al cuadrado para eliminar la influencia de los signos es decir:

De donde:

Pero:

SEMINARIO TERMINAL I 28

X

YXY ˆˆˆ

Y

X

Yi

Y

)( YYi

iY

ie

Page 29: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Pero a su vez:

Por lo tanto

Consecuentemente:

Lo que se entiende como Suma Total de Cuadrados. Igual a la suma Regresión de

Cuadrados mas la Suma Error de Cuadrados.

Realizando operaciones en la SRC se puede de manera simple descubrir el origen de esta

parte de la contribución a la varianza o dicho de otro modo variación total de Y.

Pero:

Entonces:

SEMINARIO TERMINAL I 29

STC = SRC + SEC

Page 30: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

Con lo que habremos logrado la demostración de la variación muestral de Y (STC), en una

parte que describe la variación de los valores ajustados por mínimos cuadrados de Y (SRC)

y otra parte que toma en cuenta el efecto estimado de la perturbación estocástica (SEC).

Inmediatamente podemos intuir que esta descomposición nos conduce a una medida natural

de la “bondad de ajuste” logrado por mínimos cuadrados, denominado “coeficiente de

determinación y simbolizado por “R2”

Variación total (VT) o Suma Total de Cuadrados (STC)

Variación explicada (VE) o Suma Regresión de Cuadrados (SRC) o Suma Explicada de

Cuadrados (SEC)

Valor residual (VR) o Suma de Errores al Cuadrado (SEC) o Suma Residual de Cuadrados

(SRC)

3.3. DISTRIBUCIÓN F

De las distribuciones de SEC y SRC se deduce que el estadístico:

SEMINARIO TERMINAL I 30

Page 31: Completo Ojo Revisar

ESTADISTICA CORRELACIÓN, REGRESIÓN LINEAL, ANÁLISIS DE LA VARIANZA

SEC/k

F = ------------------- tiene una distribución F(k,T-k-1) de Fisher Snedecor.

SRC(T – k – 1)

Pero como: 1 – R2 = (SRC/STC), podemos poner F de la forma:

R2 (T-k-1)

F(k,T-k-1)= ------------ -------------

1 - R2 k

Este estadístico va a permitir hallar regresiones de confianza a un nivel de significación α

para el conjunto de parámetros bi del modelo. Este estadístico también nos va a permitir

contrastar la hipótesis nula b1=b2=…=bk=0.

4. BIBLIOGRAFÍA

5. BIBLIOGRAFÍA

“ Estadística” Schaum

www.wikipedia.com

SEMINARIO TERMINAL I 31