regresion lineal y correlacion

73

Click here to load reader

Upload: morris-star

Post on 12-Jun-2015

5.780 views

Category:

Documents


20 download

TRANSCRIPT

Page 1: Regresion Lineal y Correlacion

REGRESION LINEAL Y

CORRELACION

PALACION PALACIOS, Daniel SANCHEZ HUAMAN, Henry

OSORIO TELLO , Jonathan CUBA ATENCIO, Misael

MINAYA ALAYA ,Luis

Page 2: Regresion Lineal y Correlacion

El diagrama de dispersión se obtiene representando cada observación

(xi, yi) como un punto en el plano cartesiano XY.

Diagramas de dispersión y curvas de regresión

El diagrama de dispersión puede presentar formas diversas:

Page 3: Regresion Lineal y Correlacion

Ejemplo de las alturas y los pesos

Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: elindividuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de alturay 56 kg de peso, etc., tal como se ve en la tabla siguiente:

Page 4: Regresion Lineal y Correlacion

La regresión es un método de análisis de los datos de la realidad económica que sirve para poner en evidencia las relaciones que existen entre diversas variables.

Una línea recta denominado regresión lineal, que se usa en el laboratorio en varias situaciones:

Para calcular la velocidad en una experiencia de movimiento rectilíneo .

Para calcular la constante elástica de un muelle, colocando pesas en un platillo que cuelga de su extremo libre y midiendo la deformación del muelle .

ETC.

Regresión Lineal

Page 5: Regresion Lineal y Correlacion

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

Donde : β0 es la intersección o término "constante", Las βi son los parámetros respectivos a cada variable

independiente. P es el número de parámetros independientes a tener en cuenta

en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

Regresión Lineal

Page 6: Regresion Lineal y Correlacion

Formulas Empleadas

Page 7: Regresion Lineal y Correlacion

Regresión Lineal SimpleAhora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además, se sabe que esa relación es de tipo lineal, dentro del rango de los datos. Estableceremos un modelo para explicar la caiisa (Y) en términos el efecto (X), del tipo siguiente:

Donde:para t = 1,2,..., n

En que B1 y B2 son dos cantidades fijas (parámetros del modelo) y los Ut son cantidades aleatorias que representan las diferencias entre lo que postula el modelo a y lo que realmente se observa,

Por esa razón a los e los llamaremos "errores" o "errores aleatorios". Se asume que tienen valor esperado 0 y desviación standard común σ

Page 8: Regresion Lineal y Correlacion
Page 9: Regresion Lineal y Correlacion

Ejemplo 1Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.Para determinar la recta de regresión, calculamos la covarianza maestral Sxy, la varianza maestral y las medias y

Page 10: Regresion Lineal y Correlacion
Page 11: Regresion Lineal y Correlacion

Diagrama de Dispersión

Page 12: Regresion Lineal y Correlacion

Para hacer un modelo de regresión necesitamos lápiz (o bolígrafo), folios y una calculadora

elemental. Nada mas. En las pr¶acticas era su¯ciente con introducir los datos

relativos a x y a y. Sin embargo, para hacer las cosas sin ordenador hay que trabajar un poquito

m¶as. Por ese motivo vamos a hacer ejercicios con pocos datos.

Ejercicio 2:

Page 13: Regresion Lineal y Correlacion

Solución:X =Media de xY =Media de ySxy = Sumatoria de XY =Sxy/n – X*YSx = Sumatoria de X =Sx / n - x2 2 2

Page 14: Regresion Lineal y Correlacion

Ejercicio 3:El departamento de personal de una empresa informática dedicada a la introducción de datos ha llevado a cabo un programa de formación inicial del personal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)obtenido en mecanografía de ocho estudiantes que siguieron el programa y elnúmero de semanas que hace que lo siguen:

Page 15: Regresion Lineal y Correlacion

Diagrama de dispersión:

El diagrama de dispersión nos muestra que la relación entre las dos variables es lineal con pendiente positiva, de manera que cuantas más semanas pasan, mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de regresión.A partir de la tabla de cálculos siguiente:

Page 16: Regresion Lineal y Correlacion
Page 17: Regresion Lineal y Correlacion
Page 18: Regresion Lineal y Correlacion

ANALISIS DE REGRESIÓN Y DE

CORRELACIÓN

Page 19: Regresion Lineal y Correlacion

Regresión y Correlación Análisis de regresión y correlación Relación entre variables Ajuste de curvas El método de los mínimos cuadrados: Relaciones lineales y no lineales Error típico de estimación Coeficiente de Correlación

Page 20: Regresion Lineal y Correlacion

Regresión y Correlación Recta de regresión y el coeficiente de

correlación lineal

Page 21: Regresion Lineal y Correlacion

DIAGRAMA DE DISPERSIÓN

CURVA DE APROXIMACIÓN

Page 22: Regresion Lineal y Correlacion

RELACIÓN LINEAL

RELACIÓN NO LINEAL

Page 23: Regresion Lineal y Correlacion
Page 24: Regresion Lineal y Correlacion
Page 25: Regresion Lineal y Correlacion

Ajuste de curvas Diagrama de dispersión Curva de aproximación Relación lineal Relación no lineal Curva de ajuste

Page 26: Regresion Lineal y Correlacion

Ecuaciones de curvas de aproximación Linea recta Parábola Curva cúbica Curva cuártica Curva de grado n Hipérbola Exponencial Geométrica

Page 27: Regresion Lineal y Correlacion
Page 28: Regresion Lineal y Correlacion
Page 29: Regresion Lineal y Correlacion
Page 30: Regresion Lineal y Correlacion
Page 31: Regresion Lineal y Correlacion

El método de los mínimos cuadrados:

Page 32: Regresion Lineal y Correlacion
Page 33: Regresion Lineal y Correlacion
Page 34: Regresion Lineal y Correlacion
Page 35: Regresion Lineal y Correlacion

Y = m X + b

Page 36: Regresion Lineal y Correlacion
Page 37: Regresion Lineal y Correlacion
Page 38: Regresion Lineal y Correlacion
Page 39: Regresion Lineal y Correlacion
Page 40: Regresion Lineal y Correlacion

COEFICIENTE DE CORRELACIÓN

Page 41: Regresion Lineal y Correlacion

Medidas de Correlación Cualitativa ( observación directa sobre el

diagrama de dispersión) Cuantitativa ( dispersión de los datos

alrededor de las curvas o rectas)

Page 42: Regresion Lineal y Correlacion

¿Qué relación hay entre LxA de una hoja con su area?

Relación entre LxA y el área de las hojas del árbol A

0

2

4

6

8

10

12

14

16

4 6 8 10 12 14 16 18 20 22 24 26

Largo x Ancho de la hoja

Are

a d

e l

a h

oja

Page 43: Regresion Lineal y Correlacion

Examina la relación

Relacion entre LxA y el area de las hojas del arbol A

0

2

4

6

8

10

12

14

16

4 6 8 10 12 14 16 18 20 22 24 26

Largo x Ancho de la hoja

Are

a d

e la

ho

ja

x

y++

- +

- - + -

yy i xxi

Page 44: Regresion Lineal y Correlacion

Coeficiente de correlación

yx

xy

n

ii

n

ii

i

n

ii

ss

s

yyxx

yyxxr

1

2

1

2

1

)()(

)()(

0)()(1

yyxx i

n

ii

Si la pendiente de la recta es positiva esperamos que :

0)(

)()(

1

2

1

n

ii

i

n

ii

xx

yyxxmya que

Coeficiente de correlación

Page 45: Regresion Lineal y Correlacion
Page 46: Regresion Lineal y Correlacion

Significado de la correlación

n

ii

n

ii

n

ii

n

ii

i

n

ii

yy

xx

m

yyxx

yyxxr

1

2

1

2

1

2

1

2

1

)(

)(

)()(

)()(

El coeficiente de correlación y la pendiente tienen el mismo signo.

r es una medida de la dependencia estadística (numérica) lineal de la variables x, y.

Page 47: Regresion Lineal y Correlacion

Ejemplos de correlación

r cerca de 0r > 0

r < 0

No hay relación lineal

Page 48: Regresion Lineal y Correlacion
Page 49: Regresion Lineal y Correlacion
Page 50: Regresion Lineal y Correlacion
Page 51: Regresion Lineal y Correlacion

Propiedades de r

r > 0 si y solo si m > 0

-1 =< r <= 1

r cerca de 1 indica dependencia lineal creciente fuerte

r cerca de 0 indica no hay dependencia estadística lineal

r cerca de -1 indica dependencia lineal decreciente fuerte

Page 52: Regresion Lineal y Correlacion

Propiedades de r x, y pueden estar correlacionadas, pero no

quiere decir que x causa y o que y causa a x.

x, y pueden ser dependientes, pero su coeficiente de correlación puede ser 0:

Ejemplo:◦ x = -1, 0, 1 y = x2 r = 0◦ (la dependencia entre x , y NO es lineal)

Page 53: Regresion Lineal y Correlacion

Dependientes pero no correlacionadas

-1 10

1

X

Y

numerador de r = (-1).33 + (0)0 + (1).33 = 0

Page 54: Regresion Lineal y Correlacion
Page 55: Regresion Lineal y Correlacion

Coeficiente de correlaciónEs la raíz cuadrada del coeficiente de

determinación:

SST

SSESST

SST

SSRRr

2

Page 56: Regresion Lineal y Correlacion

Referencias Mann: Sec. 13. 6, 13.7

◦ probs: 59-67, 75-77, 80, 81,

Weiss: Sec. 13.4◦ probs: 75, 77, 79, 82, 85

Datos en hoja de Excel

Page 57: Regresion Lineal y Correlacion

Correlacion formula

Page 58: Regresion Lineal y Correlacion

r=1 (ó 0,99<r<=1)Dependencia funcional

directaExacta

0< r< 1Dependencia aleatoria

directa

Muy fuerte r de 0,9 a 0,99 Fuerte r de 0,7 a 0,9

Moderada r de 0,4 a 0,7

Débil r de 0,2 a 0,4

Muy Débil r de 0 a 0,2

r=0X,Y aleatoriamente

independientesNula

-1 < r < 0Dependencia aleatoria

inversa entre X, Y

Muy Débil r de -0,2 a 0 Débil r de -0,4 a -0,2

Moderada r de -0,7 a -0,4

Fuerte r de -0,9 a -0,7

Muy Fuerte r de -0,99 a -0,9

r=-1 (ó -1<=r < -0,99)Dependencia funcional

InversaExacta

Page 59: Regresion Lineal y Correlacion
Page 60: Regresion Lineal y Correlacion

Ejercicio

xi yi xi ·yi xi2 yi

2

2 1 2 4 13 3 9 9 94 2 8 16 44 4 16 16 165 4 20 25 166 4 24 36 166 6 36 36 367 4 28 49 167 6 42 49 368 7 56 64 4910 9 90 100 8110 10 100 100 10072 60 431 504 380

Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10

Física 1 3 2 4 4 4 6 4 6 7 9 10

Page 61: Regresion Lineal y Correlacion

ANÁLISIS DE DATOS EN SPSS

Page 62: Regresion Lineal y Correlacion

Datos Iniciales

Notas C.Int Horas

8 120 4

7 125 3

6 100 3

8 115 4

7 120 4

4 95 2

3 80 2

1 80 1

6 100 3

5 90 3

Partimos de la información obtenida de una muestra de 10 elementos de una determinada distribución. Las variables sometidas a observación son:

• Notas Obtenidas

• Coeficiente de Inteligencia

• Horas de Estudio

Page 63: Regresion Lineal y Correlacion

Objetivos Iniciales:

¿ Entendemos que las notas que saca un estudiante depende de las horas de estudio de dedicación a la asignatura o del Coeficiente de Inteligencia que tenga ? Ó ¿ de Ambas variables ?A partir de aquí nos planteamos, en primer lugar, realizar un análisis de regresión.

El primer paso es realizar el análisis por el

método introducir las dos variables

simultáneamente

Page 64: Regresion Lineal y Correlacion

Matriz de Correlación

Planteamiento de que existe o no asociación lineal entre las variables

Ho : el coeficiente de correlación lineal es cero.

Si el p-valor asociado es menor que se rechaza la hip. Nula

1,000 ,900 ,959

,900 1,000 ,819

,959 ,819 1,000

, ,000 ,000

,000 , ,002

,000 ,002 ,

10 10 10

10 10 10

10 10 10

NOTAS

CI

HORAS

NOTAS

CI

HORAS

NOTAS

CI

HORAS

Correlaciónde Pearson

Sig.(unilateral)

N

NOTAS CI HORAS

Correlaciones

HORAS, CIa , IntroducirModelo1

Variablesintroducidas

Variableseliminadas Método

Variables introducidas/eliminadasb

Todas las variables solicitadas introducidasa.

Variable dependiente: NOTASb.

Nos indica las variables introducidas y el método utilizado

Page 65: Regresion Lineal y Correlacion

Análisis de la Varianza

,979a ,959 ,947 ,5244Modelo1

RR

cuadrado

Rcuadradocorregida

Error típ.de la

estimación

Resumen del modelo

Variables predictoras: (Constante), HORAS, CIa.

Raíz cuadrada de la varianza residual

Coeficiente de determinación corregido. Depende del numero de variables y numero de elementos.

44,575 2 22,287 81,036 ,000a

1,925 7 ,275

46,500 9

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

ANOVAb

Variables predictoras: (Constante), HORAS, CIa.

Variable dependiente: NOTASb.

K-1n-k

n-1

SCR= Suma de los cuadrados de la regresión

SCE= Suma de los cuadrados de los errores

)/(

)1/(

knSCE

kSCRF

La Hipótesis nula: La ecuación de regresión muestral no explica un porcentaje significativo de la varianza de la variable

Cuanto mayor sea F mas se explica que se queda por explicar

Page 66: Regresion Lineal y Correlacion

CoeficientesIChorasNotas .047,053,181,3

-3,815 1,261 -3,025 ,019

4,731E-02 ,018 ,348 2,594 ,036

1,540 ,307 ,674 5,023 ,002

(Constante)

CI

HORAS

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientes

estandarizados

t Sig.

Coeficientesa

Variable dependiente: NOTASa.

Coeficientes Coeficientes de regresión

estandarizado

y

x

S

S1

Valor tB/error típico

Cuanto mayor sea mas se explica de la variable dependiente

Al igual que en otros contrastes se rechazara la variable si se acepta que el coeficiente es igual a cero.

Page 67: Regresion Lineal y Correlacion

Ganancias

4%

HORAS

92%

4%

77%

15%COEF. INTEL

81%

R2 = 96 %

¿Que aporta cada una de los regresores a la explicación de la variable dependiente?

Page 68: Regresion Lineal y Correlacion

Ganancias

Método Introducir por bloques 1º horas, 2º C.Int.

Page 69: Regresion Lineal y Correlacion

,959a ,919 ,909 ,6870

,979b ,959 ,947 ,5244

Modelo1

2

RR

cuadrado

Rcuadradocorregida

Error típ.de la

estimación

Resumen del modelo

Variables predictoras: (Constante), HORASa.

Variables predictoras: (Constante), HORAS, CIb.

42,725 1 42,725 90,536 ,000a

3,775 8 ,472

46,500 9

44,575 2 22,287 81,036 ,000b

1,925 7 ,275

46,500 9

Regresión

Residual

Total

Regresión

Residual

Total

Modelo1

2

Suma decuadrados gl

Mediacuadrática F Sig.

ANOVAc

Variables predictoras: (Constante), HORASa.

Variables predictoras: (Constante), HORAS, CIb.

Variable dependiente: NOTASc.

-,854 ,702 -1,216 ,259

2,191 ,230 ,959 9,515 ,000

-3,815 1,261 -3,025 ,019

1,540 ,307 ,674 5,023 ,002

4,731E-02 ,018 ,348 2,594 ,036

(Constante)

HORAS

(Constante)

HORAS

CI

Modelo1

2

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientes

estandarizados

t Sig.

Coeficientesa

Variable dependiente: NOTASa.

Page 70: Regresion Lineal y Correlacion

Método Introducir por bloques 1º C.Int, 2º Horas.

Page 71: Regresion Lineal y Correlacion

,900a ,809 ,786 1,0527

,979b ,959 ,947 ,5244

Modelo1

2

RR

cuadrado

Rcuadradocorregida

Error típ.de la

estimación

Resumen del modelo

Variables predictoras: (Constante), CIa.

Variables predictoras: (Constante), CI, HORASb.

37,634 1 37,634 33,960 ,000a

8,866 8 1,108

46,500 9

44,575 2 22,287 81,036 ,000b

1,925 7 ,275

46,500 9

Regresión

Residual

Total

Regresión

Residual

Total

Modelo1

2

Suma decuadrados gl

Mediacuadrática F Sig.

ANOVAc

Variables predictoras: (Constante), CIa.

Variables predictoras: (Constante), CI, HORASb.

Variable dependiente: NOTASc.

-7,045 2,178 -3,234 ,012

,122 ,021 ,900 5,827 ,000

-3,815 1,261 -3,025 ,019

4,731E-02 ,018 ,348 2,594 ,036

1,540 ,307 ,674 5,023 ,002

(Constante)

CI

(Constante)

CI

HORAS

Modelo1

2

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientes

estandarizados

t Sig.

Coeficientesa

Variable dependiente: NOTASa.

Page 72: Regresion Lineal y Correlacion

Método por Pasos

• Método que se utiliza para la obtención semiautomatica del modelo de regresión. A través de la selección de cada una de las variables

• Se irán introduciendo las variables a partir de aquella que tenga mayor correlación.

• Se establece criterios de entrada y salida

• PIN probabilidad de entrada

• POUT probabilidad de salida (siempre es mayor que la probabilidad de entrada

• El criterio de aceptación de la variable es que se rechace la hipótesis nula de que el coeficiente sea igual a cero

Page 73: Regresion Lineal y Correlacion

Método por Pasos

Vari abl es i nt roduci das/ el i mi nadasa

HO RAS ,Por pasos ( cr it er io: Pr obabilidad de F para ent r ar<= , 050, Probabilidad de F para salir >= , 100) .

CI ,Por pasos ( cr it er io: Pr obabilidad de F para ent r ar<= , 050, Probabilidad de F para salir >= , 100) .

Modelo1

2

Var iablesint roducidas

Var iableseliminadas Mét odo

Var iable dependient e: NO TASa.

Re s um e n de l m ode lo

,9 5 9 a ,9 1 9 ,9 0 9 ,6 8 7 0

,9 7 9 b ,9 5 9 ,9 4 7 ,5 2 4 4

Mo d e lo1

2

R R c u a d ra d oR c u a d ra d oc o rre g id a

Erro r típ . d e lae s ti ma c ió n

Va ri a b le s p re d ic to ra s : (Co n s ta n te ), HORASa .

Va ri a b le s p re d ic to ra s : (Co n s ta n te ), HORAS, CIb .

Coef i ci entesa

- , 854 , 702 -1, 216 , 259

2, 191 , 230 , 959 9, 515 , 000

-3, 815 1, 261 -3, 025 , 019

1, 540 , 307 , 674 5, 023 , 002

4, 731E-02 , 018 , 348 2, 594 , 036

(Const ant e)

HORAS

(Const ant e)

HORAS

CI

Modelo1

2

B Er ror t í p.

Coef icient es noest andar izados

Bet a

Coef icientes

est andar izados

t Sig.

Var iable dependient e: NOTASa.

Vari abl es excl ui dasb

, 348a 2, 594 , 036 , 700 , 329CIModelo1

Bet a dent r o t Sig.Cor r elación

parcial Toler ancia

Est adí st icos decolinealidad

Var iables pr edict oras en el modelo: (Const ant e) , HO RASa.

Var iable dependient e: NO TASb.

Indicador de la colinealidad existente entre las variables.

Tolerancia = ( 1-R2)

Si el valor de la tolerancia es próximo a 0, la variable será casi una combinación lineal de las restantes.