regresion lineal

28

Upload: alexandro-barradas-diaz

Post on 08-Aug-2015

50 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Regresion Lineal
Page 2: Regresion Lineal

REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN

Términos y conceptos Suposiciones

Análisis de regresión de mínimos cuadrados

Análisis de correlación

Diagrama de dispersión

Coeficiente de correlación r

Prueba de Ho:

P=0

Diagrama de dispersión

Línea de regresión de muestra

Datos recolectados en

orden secuencial

Diagnóstico de regresión

Utilice alternativa a la regresión de mínimos cuadrados

Page 3: Regresion Lineal

REGRESIÓN LINEAL SIMPLE: Estudia cómo los cambios de una variable no aleatoria, afectan a una aleatoria, y si existe una relación se establece en una expresión lineal.

ECUACIÓN DE REGRESIÓN: Relación que se ajusta a un conjunto de datos experimentales.

COEFICIENTES DE REGRESIÓN: Son parámetros a estimar a partir de los datos muestrales.

VALOR MEDIO O ESPERADO: Constante de gravedad que nos señala los valores donde se sitúa los valores de máxima probabilidad de la variable aleatoria.

Ei = Error del modelo

ei= Se denomina residuo y describe el error en el ajuste del modelo en el i-ésimo punto de los datos.

Page 4: Regresion Lineal

CONCEPTOSCONCEPTOS

CORRELACION:se basa en el grado de relación que poseen dos variables numéricas entre si.

COEFICIENTE DE CORRELACIÓN :permite predecir si entre dos variables existe o no una

relación o dependencia matemática.

DIAGRAMA DE DISPERSION: es una representación en un sistema de

coordenadas cartesianas de los datos numéricos observados.

HIPOTESIS NULA: se utiliza para designar cualquier hipótesis formulada para ver si puede

ser rechazada

Page 5: Regresion Lineal

Y|x es la variable aleatoria Y que corresponde a un valor fijo x.

Su media se relaciona linealmente con x mediante:

n parejas de (xi,yi) donde deseamos determinar la línea que mejor se ajuste con:

Hay tres tipos de errores:

Ei: error del modelo

εi = Valor de una variable aleatoria y α tal que μ = 0.

ei= Es el residuo, describe el error en el ajuste:

y = a + Bx

Todas las medias caen en una línea recta, y cada Yi se describe con el modelo de regresión lineal simple:

ei= yi - y

Se predice una variable dependiente en función de una variable independiente simple.

Page 6: Regresion Lineal

Límites de confianza para los coeficientes de regresión:

a +- t α/2 Se √ (Sxx + (nx)2) / nSxx

b +- t α/2 Se √ n / Sxx

Pendiente de la línea de regresión es β es el cambio promedio de las y correspondiente a un incremento unitario en x.

Límites de confianza para α + βxo:

(a+bxo) +- t α/2 Se √ ( 1/n + (n(xo-x)2)/ Sxx

Page 7: Regresion Lineal

Es la línea que se utiliza para distinguir entre le valor Es la línea que se utiliza para distinguir entre le valor estimado o predicho, es la línea que se ajusta mejor a los estimado o predicho, es la línea que se ajusta mejor a los datos que obtenidos de la muestra tomada, entre más datos que obtenidos de la muestra tomada, entre más datos, más exactas serán las suposiciones.datos, más exactas serán las suposiciones.

Page 8: Regresion Lineal
Page 9: Regresion Lineal

Debemos determinar a y b de forma que los errores sean lo más pequeño posible, (ei), se hace la suma:

Σ ei Si Σei=0 , minimizamos la suma de los cuadrados de los ei, elegiremos a y b tales que:

Σ [yi – (a + bxi)]2

Método de calcular la ecuación de la línea que mejor ajusta un conjuntos dado de datos apareados, que da valores de a y b ( estimaciones).

La ecuaciones lineales con las incógnitas a y b se denominan ecuaciones normales.

Page 10: Regresion Lineal

Se emplea cuando la relación entre x y la media de y es lineal o bastante cercana a una línea recta.

Expresiones relacionadas con los valores muestrales (xi,yi):

Sxx= nΣxi2 – (Σxi)2

Syy= n Σyi2 – (Σyi)2

Sxy= n Σ xiyi – (Σ xi)(Σ yi)

Estimacion de σ2

Se2= Sxx Syy – (Sxx)2 / n(n-2) Sxx

Estadísticos para inferencias acerca de α y β:

t= [(a-α) / se] √ (nSxx / Sxx + (nx)2

Page 11: Regresion Lineal

““Entre todos los estimados insesgados de Entre todos los estimados insesgados de αα y y ββ que son que son lineales en las yi, los estimadores de mínimos cuadrados lineales en las yi, los estimadores de mínimos cuadrados tienen la variancia más pequeña. Los estimadores de tienen la variancia más pequeña. Los estimadores de mínimos cuadrados son los más confiables por hallarse mínimos cuadrados son los más confiables por hallarse sujetos a variaciones aleatorias más pequeñas.sujetos a variaciones aleatorias más pequeñas.

Page 12: Regresion Lineal

CORRELACIONCORRELACION

Page 13: Regresion Lineal

CORRELACION

• El concepto de relación o correlación se refiere al grado de variación conjunta existente entre dos o mas variables.

• Nos vamos a centrar en el estudio de un particular de relación llamada lineal y nos

vamos a limitar a considerar dos variables únicamente (simple X y Y) .

Page 14: Regresion Lineal

Análisis de correlación

• Si consideramos la relación entre las precipitaciones pluviales y la producción de

cierta cosecha, la relación entre la resistencia a la tensión y la dureza del aluminio o la conexión entre las impurezas del aire y la incidencia de cierta enfermedad. A esta clase de problemas

se les llama problemas de análisis de correlación donde se supone que los datos

puntuales (Xi, Yi) para i= 1,2,...,n son valores de un par de variables aleatorias cuya densidad

conjunta esta dada por f(X,Y)

Page 15: Regresion Lineal

• El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las varables es lineal

• El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

• Es decir:• Numerador: se denomina covarianza y se calcula de la siguiente manera:

en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra.

• Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raíz cuadrada.

• Los valores que puede tomar el coeficiente de correlación "r" son:• -1 < r < 1• Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable

sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1.

r = Sxy / √ (Sxx *Syy)

Coeficiente de correlación lineal

Page 16: Regresion Lineal

El coeficiente de correlación, r, tiene las siguientes propiedades:

• No tiene dimensiones: Es decir, no depende de las unidades en las que se expresan los valores de las dos variables. Por tanto, si se realiza un cambio de unidades, el valor de r no varía.

•El valor de r está comprendido entre -1 y 1.• Si la correlación es perfecta (puntos de la nube alineados), entonces | r | = 1, es decir, r = 1 ó r = -1.• Si la correlación es fuerte, | r | es próximo a 1.• Si la correlación es débil, | r | es próximo a 0.

PROPIEDADES DEL COEFICIENTE DE CORRELACIONPROPIEDADES DEL COEFICIENTE DE CORRELACION

Page 17: Regresion Lineal
Page 18: Regresion Lineal

DIAGRAMA DE DISPERSIÓN

La forma mas directa e intuitiva de formarnos una primera impresión sobre el tipo de relación existente entre dos variables esa través de un

diagrama de dispersión.diagrama de dispersión. Este es un grafico en el que una de las variables (Xi) se coloca en el eje de la abscisa, la otra (Yi) en la ordenada y

los pares (Xi, Yi) se representan como una nube de puntos. La forma de la nube de puntos nos

informa sobre el tipo de relación existente entre las variables

Page 19: Regresion Lineal

Ejemplo.- Suponga que al administrador de una cadena de almacenes departamentales le gustaría desarrollar un modelo para predecir las ventas semanales ( en miles de dólares) de cada tienda. se seleccionó una muestra de 20 almacenes de entre todos los que conforman la cadena.

Page 20: Regresion Lineal

DIAGRAMA DE DISPERSIÓN

0

5

10

15

0 500 1000 1500

número de clientes

vent

as s

eman

ales

(m

íles

de d

olar

es)

Serie1

Page 21: Regresion Lineal

Muestra una situación de que entre mayores son las puntuaciones en una variable, mayores son también , las puntuaciones en la

otra, cuando ocurre esto, los puntos se sitúan en una línea recta ascendente y hablamos de una relación lineal positiva.

Correlación lineal positiva

1r

Page 22: Regresion Lineal

Representa una situación de que entre mayores sean las puntuaciones de una variable, menores son las puntuaciones en la

otra, en este caso los puntos se sitúan en una línea recta descendente y hablamos de una relación lineal negativa.

Correlación lineal negativa

1r

Page 23: Regresion Lineal

Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma

una línea recta. No se puede trazar una recta de regresión.

 

Hay correlación no lineal

0r

No hay correlación

0r

Page 24: Regresion Lineal

La importancia del cálculo de regresiones lineales es importante porque nos permite predecir valores de respuesta a uno o más valores de la variable independiente.

El intervalo de predicción calculado, representa un intervalo que tiene una probabilidad igual a 1-α de contener no un parámetro sino un valor futuro yo de la variable aleatoria Yo.

Page 25: Regresion Lineal

Una hipótesis estadística es cualquier conjetura sobre una o varias características de interés de un modelo de probabilidad.

Puede ser: paramétrica (simple o compuesta) y no paramétrica.

La hipótesis que se contrasta se denomina hipótesis nula (H0). Si se rechaza la hipótesis nula es porque se asume como correcta una hipótesis complementaria que se denomina hipótesis alternativa (H1).

Ho p= 0

H1 p> 0

En el cálculo de la hipótesis se pueden cometer 2 tipos de errores:

El rechazo de la hipótesis nula cuando es verdadera se llama error tipo I.

La aceptación de la hipótesis nula cuando es falsa se llama error tipo II.

Page 26: Regresion Lineal

HIPOTESIS NULA Ho; p=0HIPOTESIS NULA Ho; p=0

A menudo se requiere que formulemos la hipótesis opuesta a la que deseamos probar. Por ejemplo, si queremos demostrar que un

método de irrigación es más costoso que otro, formulamos la hipótesis de que los dos son

igualmente costosos. En vista de que formulamos la hipótesis de que no hay diferencia en los costos de los dos métodos de irrigación, a esta hipótesis la llamaremos hipótesis nula y la

denotaremos por Ho .

Page 27: Regresion Lineal

En particular podemos probar la hipótesis nula de que no hay

correlación, es decir, la hipótesis nula p=0, con el estadístico

z= √ (n-3) * Z = √ (n-3)/2 * ln (1+r ) / (1-r)

Donde:

n= tamaño de la muestra

Z= transformación Z de Fisher ½*ln (1+r ) / (1-r)

r= coeficiente de correlación

Page 28: Regresion Lineal