rrrregresiegresiÓÓÓÓnnnn llllineal - … · obtener los coeficientes de regresión de un modelo...

41
R R REGRESI EGRESI EGRESI EGRESIÓ Ó ÓN N N L L LINEAL INEAL INEAL INEAL Instituto Tecnológico Superior del Sur del Estado de Yucatán 30 40 50 60 70 80 90 100 140 150 160 170 180 190 200 10 cm. 10 kg.

Upload: hanhu

Post on 20-Sep-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

RRRREGRESIEGRESIEGRESIEGRESIÓÓÓÓNNNNLLLLINEALINEALINEALINEAL

Instituto Tecnológico Superior del Sur del Estado de Yucatán

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

•10 cm.

•10 kg.

•2

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Instituto Tecnológico Superior del Sur del Estado de Yucatán

Objetivo de la unidad

�Obtener los coeficientes de regresión de un modelo lineal simple o múltiple, apoyándose con un paquete computacional o bien calculadora científica avanzada a partir de un conjunto de datos de un problema real.

� Evaluar el ajuste del modelo mediante el coeficiente de determinación (correlación), prueba de falta de ajuste y análisis residual.

� Establecer los intervalos de confianza y prueba de hipótesis para los coeficientes del modelo de regresión.

Al término de la unidad, el estudiante evaluará el ajuste de un modelo de regresión con la finalidad de tomar decisiones sobre los parámetros de una población donde exista posible relación lineal entre las variables cuantitativas.

Actividades de aprendizaje

•3

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Análisis de Regresión

� Terminología de la regresión� Estimación de parámetros (mínimos cuadrados)� Pruebas de hipótesis en Regresión Lineal Simple (RLS)� Adecuación del modelo de RLS� Regresión Lineal Múltiple (RLM)� Estimación de parámetros y pruebas de hipótesis en RLM � Análisis Residual: Validación de los Supuestos del Modelo

•4

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

� El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”:

� “Cada peculiaridad en un hombre es compartida por sus descendientes, pero en promedio, en un grado menor.”� Regresión a la media

� Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable).

� Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo:

� Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

� Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.

� Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.

•Francis Galton

•Primo de Darwin

•Estadístico y aventurero

•Fundador (con otros) dela estadística modernapara explicar las teoríasde Darwin.

Relación entre variables y regresión

•5

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Diagrama de dispersión

� A la derecha tenemos una posible manera de colectar los datos obtenidos, observando dos variables en varios individuos de una muestra (de tamaño n).

� En cada hilera tenemos los datos de un individuo

� Cada columna representa los valores que toma una variable sobre los mismos ( la estatura y el peso)

� Los individuos no se muestran en ningún orden particular (sino al azar)

� Dichas observaciones pueden ser representadas en un diagrama de dispersión. En el diagrama de dispersión, cada individuos es un punto cuyas coordenadas son los valores de las variables.

� En el diagrama de dispersión se hace un reconocimiento para ver si hay relación entre las variables, de qué tipo, y si es posible, predecir el valor de una de ellas en función de la otra.

Estatura en cm

Peso en kg

162 61

154 60

180 78

158 62

171 66

169 60

166 54

176 84

163 68

... ...

•6

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Ejemplo de diagrama de dispersión

•Mid

e 1

87 c

m.

•Mide 161 cm.

•Pesa 76 kg.

•Pesa 50 kg.

Tenemos las estaturas y los pesos de 30 individuos representados en un diagrama de dispersión (conocido también como nube de puntos)

•7

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Relación entre variables

Observamos que hay una relación directa entre las estaturas y los pesos de los 30 individuos representados en el diagrama de dispersión.

•Parece que el peso aumenta con la estatura

•8

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Predicción de una variable en función de la otra•Aparentemente el peso aumenta 10 kg por cada 10 cm de estatura... o sea,

•el peso aumenta en una unidad por cada unidad de estatura.

•10 cm.

•10 kg.

•9

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

•9

Datos no-correlacionados

•30

•80

•130

•180

•230

•280

•330

•140 •150 •160 •170 •180 •190 •200

Tipos de relación entre variables

Fuerte relación

directa.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Cierta relación

inversa

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

•Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares.

•Para los valores de X mayores que la media le corresponden valores de Ymenores. Esto es relación inversa o decreciente.

•Para los valores de X mayores que la media le corresponden valores de Y mayores también.

•Para los valores de X menores que la media le corresponden valores de Y menores también.

•Esto se llama relación directa.

•10

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

�La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa.�Directa: Sxy >0 � Inversa: Sxy <0�No correlacionadas: Sxy =0

�El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.

Covarianza de dos variables X y Y

))((1

yyxxn

S i

i

ixy −−= ∑

•11

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Coef. de correlación lineal de Pearson� El coeficiente de correlación lineal de Pearson de dos

variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).

� tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa.

� r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)

yx

xy

SS

Sr =

•12

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

�Es adimensional�Sólo toma valores en el intervalo [-1,1]�Las variables son no-correlacionadas � r=0�Relación lineal perfecta entre dos variables � r=+1 o r=-1

�Excluimos los casos de puntos alineados horiz. o verticalmente.

�Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.�Siempre que no existan observaciones anómalas.

Propiedades de r

•-1 •+1•0

•Relación inversa perfecta

•Relación directa

casi perfecta

•Variables no-correlacionadas

•13

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Entrenando el ojo: correlaciones positivas

r=0,1

30

80

130

180

230

280

330

140 150 160 170 180 190 200

r=0,4

30405060708090

100110120130

140 150 160 170 180 190 200

r=0,8

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=0,99

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

•14

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Entrenando el ojo: correlaciones negativas

r=-0,5

0

10

20

30

4050

60

70

80

90

140 150 160 170 180 190 200

r=-0,7

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

r=-0,95

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

r=-0,999

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

•15

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Animación: Evolución de r y diagrama de dispersión

•16

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Preguntas frecuentes*� ¿Si r=0 eso quiere decir que las variables

son independientes?� En la práctica, casi siempre sí, pero no tiene

por qué ser cierto en todos los casos.� Lo contrario si es cierto: Independencia

implica incorrelación.

� Me ha salido r=1.2 ¿la relación es “superlineal”[sic]?� ¿Superqué? Eso es un error de cálculo. Siempre debe tomar un

valor entre -1 y +1.

� ¿A partir de qué valores se considera que hay “buena relación lineal”?� Imposible dar un valor concreto (mire los gráficos anteriores). Para

este curso digamos que si |r|>0.7 hay buena relación lineal y que si |r|>0.4 hay cierta relación (por decir algo... la cosa es un poco más complicada… observaciones atípicas, homogeneidad de varianzas...)

Francisco Barón, Univ de Málag

•17

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Modelo de Regresión Lineal Simple

�La ecuación que describe cómo se relacionay con x y un término de error se conocecomo modelo de regresión.

�El modelo de regresión lineal simple es:

y = β0 + β1x +ε

� β0 y β1 son llamados parámetros del modelo.� ε es una variable aleatoria llamada el término de

error.

•18

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Ecuación de Regresión Lineal Simple

nn La La ecuaciecuacióónn de de regresiregresióónn lineal simplelineal simple eses::

EE((yy) = ) = ββ00 + + ββ11xx

•• La La grgrááficafica de la de la ecuaciecuacióónn de de regresiregresióónn eses unauna llííneanea recta.recta.

•• ββ00 eses la la interceptadainterceptada de la de la llííneanea de de regresiregresióónn..

•• ββ11 eses la la pendientependiente de la de la llííneanea de de regresiregresióónn..

•• EE((yy) ) eses el valor el valor esperadoesperado de de yy parapara un valor dado de un valor dado de xx..

•19

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

nn RelaciRelacióónn Lineal Lineal PositivaPositiva

••EE((yy))

••xx

••PendientePendiente ββ11

••eses positivapositiva

••LLííneanea de de regresiregresióónn

••InterceptadaInterceptada

�� ββ00

Ecuación de Regresión Lineal Simple

•20

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

nn RelaciRelacióónn Lineal Lineal NegativaNegativa

••EE((yy))

••xx

••PendientePendiente ββ11

••eses negativanegativa

••LLííneanea de de RegresiRegresióónn••InterceptadaInterceptada

�� ββ00

••EcuaciEcuacióónn de de RegresiRegresióónn Lineal SimpleLineal Simple

•21

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

nn No hay No hay relacirelacióónn

••EE((yy))

••xx

••PendientePendiente ββ11

••eses 00

••LLííneanea de de RegresiRegresióónn••InterceptadaInterceptada

�� ββ00

••EcuaciEcuacióónn de de RegresiRegresióónn Lineal SimpleLineal Simple

•22

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

••EcuaciEcuacióónn de de RegresiRegresióónn Lineal Simple Lineal Simple EstimadaEstimada

nn La La ecuaciecuacióónn de de regresiregresióónn lineal simple lineal simple estimadaestimada eses::

•• La La grgrááficafica eses llamadallamada llííneanea de de regresiregresióónn estimadaestimada..

•• bb00 eses la la interceptadainterceptada--yy de la de la llííneanea..

•• bb11 eses la la pendientependiente de la de la llííneanea..

•• eses el valor el valor estimadoestimado de de yy parapara un valor dado de un valor dado de xx..

0 1y b b x= +0 1y b b x= +

yy

•23

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Proceso de Estimación

•Modelo de Regresión

•y = β0 + β1x +ε

•Ecuación de Regresión

•E(y) = β0 + β1x

•Parámetros desconocidos

� β0, β1

•Datos Muestrales:

•x y

•x1 y1

•. .

• . .

•xn yn

•Ecuación de

•Regresión Estimada

•Estadísticos Muestrales

•b0, b1

•b0 y b1

•Proveen estimaciones de

� β0 y β1

0 1y b b x= +0 1y b b x= +

•24

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Método de Mínimos Cuadrados

donde:yi : valor observado de la variable

dependientepara la i-ésima observación

yi : valor estimado de la variable dependiente

para la i-ésima observación

min (y yi i−∑ �)2min (y yi i−∑ �)2

••^

•25

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

•Resolviendo las ecuaciones normales para β0 y β1:

•Ajuste de la recta de regresión

•Son los valores de los parámetros que dan una línea ajustada queminimiza el criterio de la suma de cuadrados.

[ ]

[ ]

xyn

x

n

y

xxn

yxyxn

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

n

i

ii

⋅−=−=

=

∑∑

∑∑

∑∑∑

==

==

===

11

11

0

2

11

2

111

1

ˆˆˆ

ˆ

βββ

β

•26

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Ejemplo: Poner un ejemplo

�Regresión Lineal SimpleDescribir el ejemplo.

•27

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

•Ejemplo: datos del ejemplo

nn RegresiRegresióónn Lineal SimpleLineal Simple

NNúúmm. . AnunciosAnuncios TVTV NNúúmm. . CarrosCarros VendidosVendidos11 141433 242422 181811 171733 2727

•28

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

b1 = 220 - (10)(100)/5 = 524 - (10)2/5

b0 = 20 - 5(2) = 10

�Ecuación de Regresión Estimada

y = 10 + 5x••^

Ejemplo: Estimar bo y b1

•29

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Ejemplo: Diagrama de dispersion del ejemplo

�Diagram de Dispersión

y = 10 + 5x

0

5

10

15

20

25

30

0 1 2 3 4Anuncios de TV

Carr

os v

en

did

os

••^

•30

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

El Coeficiente de Determinación

�Relación Entre la SCT, SCR, SCE

SCT = SCR + SCE

donde,SCT: suma de cuadrados totalSCR: suma de cuadrados de la regresiónSCE: suma de cuadrados del error

( ) ( ) ( )y y y y y yi i i i−∑ = −∑ + −∑2 2 2( ) ( ) ( )y y y y y yi i i i−∑ = −∑ + −∑2 2 2•^•^

•31

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

nn El El coeficientecoeficiente de de determinacideterminacióónn eses::

rr22 = SCR/SCT= SCR/SCT

dondedonde::

SCT = SCT = sumasuma de de cuadradoscuadrados totaltotal

SCR = SCR = sumasuma de de cuadradoscuadrados de la de la regresiregresióónn

••El El CoeficienteCoeficiente de de DeterminaciDeterminacióónn

•32

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

�Coeficiente de Determinación

r2 = SCR/SCT = 100/114 = .8772

La relación de regresión es muy fuerteporque el 88% de la variación del número de carros vendidos puede explicarse por la relación lineal entre el número de anunciosde TV y el número de carros vendidos.

Ejemplo: Ventas de Autos Reed

•33

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Supuestos del Modelo

� Supuestos Acerca del Término de Error ε1. El error ε es la variable de error con media cero.2. La varianza de ε , denotada por σ 2, es la misma

para todos los valores de la variable independiente.

3. Los valores de ε son independientes.4. El error ε es una variable aleatoria con distribución

normal.

•34

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Prueba de Significancia

�Para probar la significancia de la regresión, debemos plantear una prueba de hipótesispara determinar si el valor de β1 es cero.

�Dos pruebas se usan comúnmente�Prueba de t

�Prueba de F

�Ambas pruebas requieren un estimador de σ 2, la varianza de ε en el modelo de regresión.

•35

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

�Un Estimador de σ 2

El Cuadrado Medio del Error (CME) proveee el estimador de σ 2, y la notación s2 también se usa.

s2 = CME = SCE/(n-2)

donde:

Prueba de Significancia

∑∑ −−=−= 2

10

2 )()ˆ(SCE iiii xbbyyy ∑∑ −−=−= 2

10

2 )()ˆ(SCE iiii xbbyyy

•36

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Prueba de Significancia

�Un Estimador de σ�Para estimar σ tomamos la raíz de σ 2.�La resultante s es llamada error estándar del

estimador.2

SCECME

−==

ns

2

SCECME

−==

ns

•37

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Intervalo de Confianza para β1�Podemos usar un intervalo de confianza de

95% de β1 para probar la hipótesis (apenas) usada en la prueba de t.

�H0 es rechazada si el valor supuesto de β1 no está incluido en el intervalo de confianzapara β1.

•38

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Fin del Capítulo 5

•39

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

•6-2 Simple Linear Regression

•Supuestos de regresión y propiedades del modelo

•40

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

•6-2 Regresión lineal simple

•6-2.2 Pruebas de hipótesis en RLS

•Use of t-Tests

•An important special case of the hypotheses of Equation 6-23

is

•These hypotheses relate to the significance of regression.

•Failure to reject H0 is equivalent to concluding that there is no

linear relationship between x and Y.

•41

Arturo A

. Alvarado S

egura alsegar@hotm

ail.com

ANÁLISIS DE REGRESIÓN

Gracias por su Gracias por su

atenciatencióónn

[email protected]@hotmail.com

httphttp://://mx.geocities.commx.geocities.com//a_alvasega_alvaseg//