rrrregresiegresiÓÓÓÓnnnn llllineal - … · obtener los coeficientes de regresión de un modelo...
TRANSCRIPT
RRRREGRESIEGRESIEGRESIEGRESIÓÓÓÓNNNNLLLLINEALINEALINEALINEAL
Instituto Tecnológico Superior del Sur del Estado de Yucatán
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
•10 cm.
•10 kg.
•2
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Instituto Tecnológico Superior del Sur del Estado de Yucatán
Objetivo de la unidad
�Obtener los coeficientes de regresión de un modelo lineal simple o múltiple, apoyándose con un paquete computacional o bien calculadora científica avanzada a partir de un conjunto de datos de un problema real.
� Evaluar el ajuste del modelo mediante el coeficiente de determinación (correlación), prueba de falta de ajuste y análisis residual.
� Establecer los intervalos de confianza y prueba de hipótesis para los coeficientes del modelo de regresión.
Al término de la unidad, el estudiante evaluará el ajuste de un modelo de regresión con la finalidad de tomar decisiones sobre los parámetros de una población donde exista posible relación lineal entre las variables cuantitativas.
Actividades de aprendizaje
•3
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Análisis de Regresión
� Terminología de la regresión� Estimación de parámetros (mínimos cuadrados)� Pruebas de hipótesis en Regresión Lineal Simple (RLS)� Adecuación del modelo de RLS� Regresión Lineal Múltiple (RLM)� Estimación de parámetros y pruebas de hipótesis en RLM � Análisis Residual: Validación de los Supuestos del Modelo
•4
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
� El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”:
� “Cada peculiaridad en un hombre es compartida por sus descendientes, pero en promedio, en un grado menor.”� Regresión a la media
� Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable).
� Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo:
� Altura del hijo = 85cm + 0,5 altura del padre (aprox.)
� Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.
� Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.
•Francis Galton
•Primo de Darwin
•Estadístico y aventurero
•Fundador (con otros) dela estadística modernapara explicar las teoríasde Darwin.
Relación entre variables y regresión
•5
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Diagrama de dispersión
� A la derecha tenemos una posible manera de colectar los datos obtenidos, observando dos variables en varios individuos de una muestra (de tamaño n).
� En cada hilera tenemos los datos de un individuo
� Cada columna representa los valores que toma una variable sobre los mismos ( la estatura y el peso)
� Los individuos no se muestran en ningún orden particular (sino al azar)
� Dichas observaciones pueden ser representadas en un diagrama de dispersión. En el diagrama de dispersión, cada individuos es un punto cuyas coordenadas son los valores de las variables.
� En el diagrama de dispersión se hace un reconocimiento para ver si hay relación entre las variables, de qué tipo, y si es posible, predecir el valor de una de ellas en función de la otra.
Estatura en cm
Peso en kg
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
•6
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Ejemplo de diagrama de dispersión
•Mid
e 1
87 c
m.
•Mide 161 cm.
•Pesa 76 kg.
•Pesa 50 kg.
Tenemos las estaturas y los pesos de 30 individuos representados en un diagrama de dispersión (conocido también como nube de puntos)
•7
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Relación entre variables
Observamos que hay una relación directa entre las estaturas y los pesos de los 30 individuos representados en el diagrama de dispersión.
•Parece que el peso aumenta con la estatura
•8
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Predicción de una variable en función de la otra•Aparentemente el peso aumenta 10 kg por cada 10 cm de estatura... o sea,
•el peso aumenta en una unidad por cada unidad de estatura.
•10 cm.
•10 kg.
•9
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
•9
Datos no-correlacionados
•30
•80
•130
•180
•230
•280
•330
•140 •150 •160 •170 •180 •190 •200
Tipos de relación entre variables
Fuerte relación
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relación
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
•Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares.
•Para los valores de X mayores que la media le corresponden valores de Ymenores. Esto es relación inversa o decreciente.
•Para los valores de X mayores que la media le corresponden valores de Y mayores también.
•Para los valores de X menores que la media le corresponden valores de Y menores también.
•Esto se llama relación directa.
•10
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
�La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa.�Directa: Sxy >0 � Inversa: Sxy <0�No correlacionadas: Sxy =0
�El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.
Covarianza de dos variables X y Y
))((1
yyxxn
S i
i
ixy −−= ∑
•11
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Coef. de correlación lineal de Pearson� El coeficiente de correlación lineal de Pearson de dos
variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).
� tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa.
� r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)
yx
xy
SS
Sr =
•12
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
�Es adimensional�Sólo toma valores en el intervalo [-1,1]�Las variables son no-correlacionadas � r=0�Relación lineal perfecta entre dos variables � r=+1 o r=-1
�Excluimos los casos de puntos alineados horiz. o verticalmente.
�Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.�Siempre que no existan observaciones anómalas.
Propiedades de r
•-1 •+1•0
•Relación inversa perfecta
•Relación directa
casi perfecta
•Variables no-correlacionadas
•13
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Entrenando el ojo: correlaciones positivas
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30405060708090
100110120130
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
•14
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Entrenando el ojo: correlaciones negativas
r=-0,5
0
10
20
30
4050
60
70
80
90
140 150 160 170 180 190 200
r=-0,7
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
•15
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Animación: Evolución de r y diagrama de dispersión
•16
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Preguntas frecuentes*� ¿Si r=0 eso quiere decir que las variables
son independientes?� En la práctica, casi siempre sí, pero no tiene
por qué ser cierto en todos los casos.� Lo contrario si es cierto: Independencia
implica incorrelación.
� Me ha salido r=1.2 ¿la relación es “superlineal”[sic]?� ¿Superqué? Eso es un error de cálculo. Siempre debe tomar un
valor entre -1 y +1.
� ¿A partir de qué valores se considera que hay “buena relación lineal”?� Imposible dar un valor concreto (mire los gráficos anteriores). Para
este curso digamos que si |r|>0.7 hay buena relación lineal y que si |r|>0.4 hay cierta relación (por decir algo... la cosa es un poco más complicada… observaciones atípicas, homogeneidad de varianzas...)
Francisco Barón, Univ de Málag
•17
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Modelo de Regresión Lineal Simple
�La ecuación que describe cómo se relacionay con x y un término de error se conocecomo modelo de regresión.
�El modelo de regresión lineal simple es:
y = β0 + β1x +ε
� β0 y β1 son llamados parámetros del modelo.� ε es una variable aleatoria llamada el término de
error.
•18
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Ecuación de Regresión Lineal Simple
nn La La ecuaciecuacióónn de de regresiregresióónn lineal simplelineal simple eses::
EE((yy) = ) = ββ00 + + ββ11xx
•• La La grgrááficafica de la de la ecuaciecuacióónn de de regresiregresióónn eses unauna llííneanea recta.recta.
•• ββ00 eses la la interceptadainterceptada de la de la llííneanea de de regresiregresióónn..
•• ββ11 eses la la pendientependiente de la de la llííneanea de de regresiregresióónn..
•• EE((yy) ) eses el valor el valor esperadoesperado de de yy parapara un valor dado de un valor dado de xx..
•19
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
nn RelaciRelacióónn Lineal Lineal PositivaPositiva
••EE((yy))
••xx
••PendientePendiente ββ11
••eses positivapositiva
••LLííneanea de de regresiregresióónn
••InterceptadaInterceptada
�� ββ00
Ecuación de Regresión Lineal Simple
•20
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
nn RelaciRelacióónn Lineal Lineal NegativaNegativa
••EE((yy))
••xx
••PendientePendiente ββ11
••eses negativanegativa
••LLííneanea de de RegresiRegresióónn••InterceptadaInterceptada
�� ββ00
••EcuaciEcuacióónn de de RegresiRegresióónn Lineal SimpleLineal Simple
•21
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
nn No hay No hay relacirelacióónn
••EE((yy))
••xx
••PendientePendiente ββ11
••eses 00
••LLííneanea de de RegresiRegresióónn••InterceptadaInterceptada
�� ββ00
••EcuaciEcuacióónn de de RegresiRegresióónn Lineal SimpleLineal Simple
•22
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
••EcuaciEcuacióónn de de RegresiRegresióónn Lineal Simple Lineal Simple EstimadaEstimada
nn La La ecuaciecuacióónn de de regresiregresióónn lineal simple lineal simple estimadaestimada eses::
•• La La grgrááficafica eses llamadallamada llííneanea de de regresiregresióónn estimadaestimada..
•• bb00 eses la la interceptadainterceptada--yy de la de la llííneanea..
•• bb11 eses la la pendientependiente de la de la llííneanea..
•• eses el valor el valor estimadoestimado de de yy parapara un valor dado de un valor dado de xx..
0 1y b b x= +0 1y b b x= +
yy
•23
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Proceso de Estimación
•Modelo de Regresión
•y = β0 + β1x +ε
•Ecuación de Regresión
•E(y) = β0 + β1x
•Parámetros desconocidos
� β0, β1
•Datos Muestrales:
•x y
•x1 y1
•. .
• . .
•xn yn
•Ecuación de
•Regresión Estimada
•
•Estadísticos Muestrales
•b0, b1
•b0 y b1
•Proveen estimaciones de
� β0 y β1
0 1y b b x= +0 1y b b x= +
•24
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Método de Mínimos Cuadrados
donde:yi : valor observado de la variable
dependientepara la i-ésima observación
yi : valor estimado de la variable dependiente
para la i-ésima observación
min (y yi i−∑ �)2min (y yi i−∑ �)2
••^
•25
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
•Resolviendo las ecuaciones normales para β0 y β1:
•Ajuste de la recta de regresión
•Son los valores de los parámetros que dan una línea ajustada queminimiza el criterio de la suma de cuadrados.
[ ]
[ ]
xyn
x
n
y
xxn
yxyxn
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
⋅−=−=
−
−
=
∑∑
∑∑
∑∑∑
==
==
===
11
11
0
2
11
2
111
1
ˆˆˆ
ˆ
βββ
β
•26
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Ejemplo: Poner un ejemplo
�Regresión Lineal SimpleDescribir el ejemplo.
•27
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
•Ejemplo: datos del ejemplo
nn RegresiRegresióónn Lineal SimpleLineal Simple
NNúúmm. . AnunciosAnuncios TVTV NNúúmm. . CarrosCarros VendidosVendidos11 141433 242422 181811 171733 2727
•28
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
b1 = 220 - (10)(100)/5 = 524 - (10)2/5
b0 = 20 - 5(2) = 10
�Ecuación de Regresión Estimada
y = 10 + 5x••^
Ejemplo: Estimar bo y b1
•29
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Ejemplo: Diagrama de dispersion del ejemplo
�Diagram de Dispersión
y = 10 + 5x
0
5
10
15
20
25
30
0 1 2 3 4Anuncios de TV
Carr
os v
en
did
os
••^
•30
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
El Coeficiente de Determinación
�Relación Entre la SCT, SCR, SCE
SCT = SCR + SCE
donde,SCT: suma de cuadrados totalSCR: suma de cuadrados de la regresiónSCE: suma de cuadrados del error
( ) ( ) ( )y y y y y yi i i i−∑ = −∑ + −∑2 2 2( ) ( ) ( )y y y y y yi i i i−∑ = −∑ + −∑2 2 2•^•^
•31
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
nn El El coeficientecoeficiente de de determinacideterminacióónn eses::
rr22 = SCR/SCT= SCR/SCT
dondedonde::
SCT = SCT = sumasuma de de cuadradoscuadrados totaltotal
SCR = SCR = sumasuma de de cuadradoscuadrados de la de la regresiregresióónn
••El El CoeficienteCoeficiente de de DeterminaciDeterminacióónn
•32
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
�Coeficiente de Determinación
r2 = SCR/SCT = 100/114 = .8772
La relación de regresión es muy fuerteporque el 88% de la variación del número de carros vendidos puede explicarse por la relación lineal entre el número de anunciosde TV y el número de carros vendidos.
Ejemplo: Ventas de Autos Reed
•33
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Supuestos del Modelo
� Supuestos Acerca del Término de Error ε1. El error ε es la variable de error con media cero.2. La varianza de ε , denotada por σ 2, es la misma
para todos los valores de la variable independiente.
3. Los valores de ε son independientes.4. El error ε es una variable aleatoria con distribución
normal.
•34
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Prueba de Significancia
�Para probar la significancia de la regresión, debemos plantear una prueba de hipótesispara determinar si el valor de β1 es cero.
�Dos pruebas se usan comúnmente�Prueba de t
�Prueba de F
�Ambas pruebas requieren un estimador de σ 2, la varianza de ε en el modelo de regresión.
•35
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
�Un Estimador de σ 2
El Cuadrado Medio del Error (CME) proveee el estimador de σ 2, y la notación s2 también se usa.
s2 = CME = SCE/(n-2)
donde:
Prueba de Significancia
∑∑ −−=−= 2
10
2 )()ˆ(SCE iiii xbbyyy ∑∑ −−=−= 2
10
2 )()ˆ(SCE iiii xbbyyy
•36
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Prueba de Significancia
�Un Estimador de σ�Para estimar σ tomamos la raíz de σ 2.�La resultante s es llamada error estándar del
estimador.2
SCECME
−==
ns
2
SCECME
−==
ns
•37
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Intervalo de Confianza para β1�Podemos usar un intervalo de confianza de
95% de β1 para probar la hipótesis (apenas) usada en la prueba de t.
�H0 es rechazada si el valor supuesto de β1 no está incluido en el intervalo de confianzapara β1.
•39
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
•6-2 Simple Linear Regression
•Supuestos de regresión y propiedades del modelo
•40
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
•6-2 Regresión lineal simple
•6-2.2 Pruebas de hipótesis en RLS
•Use of t-Tests
•An important special case of the hypotheses of Equation 6-23
is
•These hypotheses relate to the significance of regression.
•Failure to reject H0 is equivalent to concluding that there is no
linear relationship between x and Y.
•41
Arturo A
. Alvarado S
egura alsegar@hotm
ail.com
ANÁLISIS DE REGRESIÓN
Gracias por su Gracias por su
atenciatencióónn
[email protected]@hotmail.com
httphttp://://mx.geocities.commx.geocities.com//a_alvasega_alvaseg//