estadística iii. regresión lineal. Ángela segura

39
Ángela María Segura C. Angela María Segura Cardona [email protected] Docente Medellín, marzo 12 a abril 04 de 2013 MAESTRIA EN SALUD PÚBLICA IV ESTADÍSTICA III

Upload: adriana-urrego

Post on 11-Mar-2016

219 views

Category:

Documents


1 download

DESCRIPTION

Estadística III. Regresión lineal. Ángela Segura. Universidad CES.

TRANSCRIPT

Page 1: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Angela María Segura Cardona [email protected]

Docente

Medellín, marzo 12 a abril 04 de 2013

MAESTRIA EN SALUD PÚBLICA IV

ESTADÍSTICA III

Page 2: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Permite resumir en tablas, gráficos, y

algunos parámetros o estadísticos un

conjunto de datos.

Es la generalización que se hace de los

datos muestrales a la población total.

Procedimientos diseñados para

analizar las relaciones entre tres

o mas variables.

Page 3: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

ANÁLISIS ESTADÍSTICO O PLAN DE ANÁLISIS

Page 4: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Análisis Univariado

Análisis Bivariado

Análisis Estratificado

Análisis Multivariado

Page 5: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

ANÁLISIS UNIVARIADO O ANÁLISIS DESCRIPTIVO

Page 6: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Una variable cualitativa

Estado civil No. %

Soltero

Casado

Otro

3426

1483

8

69,6

30,2

0,2

Total 4917 100,0

Tablas

Gráficos

Masculino

56,2%

Femenino

43,8%

Distribución de los encuestados según sexo. Municipio X, 2010

2,8

17,8

38,7

18,5

14,1

8,1

1 2 3 4 5 6Estrato socioeconómico

Distribución de los encuestados según estrato socioeconómico. Municipio X, 2010

Distribución de los encuestados según Estado civil. Municipio X, 2010

Page 7: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C. Una variable cuantitativa

Medidas de resumen

Gráficos Distribución de los encuestados según

edad. Municipio X, 2010 Distribución de los encuestados según

edad. Municipio X, 2010

Media Aritmética

Moda, Mediana, Cuartiles, Deciles, Percentiles

Rango, Rango Intercuartil, Varianza, Desviación Estándar, Coeficiente de

Variación

Coeficiente de Curtosis, Coeficiente de Asimetría

Page 8: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

ANÁLISIS BIVARIADO O ANÁLISIS COMPARATIVO

Page 9: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

• Diferencia de proporciones

• Establecer asociación

• Muestras independientes Chi-cuadrado

• Diferencia de proporciones

• Establecer asociación

• Muestras dependientes McNemar

Page 10: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

• Diferencia de 2 promedios (muestras independientes)

t-Student

• Diferencia de 2 promedios (muestras dependientes)

t-Student pareada

• Diferencia de más de 2 promedios (muestras independientes)

Anova paramétrica (F Snedecor)

• Diferencia de más de 2 promedios (muestras dependientes)

Anova pareada paramétrica

• Establecer correlación

• Tendencia o relación Correlación Pearson

Page 11: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

• Diferencia de 2 medianas (muestras independientes)

U-Mann Withney

• Diferencia de 2 medianas (muestras dependientes)

Wilcoxon

• Diferencia de más de 2 medianas (muestras independientes)

Anova no paramétrica (H

Kruskal-Wallis)

• Diferencia de más de 2 medianas (muestras dependientes)

Anova pareada no paramétrica (Friedman)

• Establecer correlación

• Tendencia o relación Correlación Spearman

Page 12: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

ANÁLISIS ESTRATIFICADO

Page 13: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

• Análisis de confusión

• Análisis de interacción

Análisis estratificado

Asociación de interés

Variable externa

Régimen de afiliación

Cigarrillo

Subsidiado

Contributivo

Ca Pulmón Vinculado

Page 14: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

ANÁLISIS MULTIVARIADO O ANÁLISIS RELACIONAL

Page 15: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Análisis de Regresión Lineal

Análisis de Regresión Logística

Análisis de Supervivencia

Análisis factorial

Análisis de cluster

Modelos mixtos o multinivel

Page 16: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

ANÁLISIS DE REGRESIÓN LINEAL

Page 17: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

“Conjunto de técnicas que son usadas para establecer

una relación entre una variable cuantitativa llamada

variable dependiente y una o más variables

independientes, llamadas predictoras o explicativas”

Page 18: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Dependiente

Y

Presión en mmHg

Altura uterina

Ganancia

Independiente

X

Edad en años

Semanas de embarazo

Inversión

Page 19: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

UNA VARIABLE INDEPENDIENTE

R E C I P R O C O

P R O D U C T O

E X P O N E N C I A L

L O G A R I T M I C O

LINEAL

Page 20: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Y(Cuantitativa)

X3

X6

X4

X1

X2

X5

Londoño, JL. Notas de Clase, 2005

Page 21: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Y

X

Yi = 0+ 1 X1

Page 22: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Y

X1

X2

x

x x

x

x

x

x

x

x

x

x

x

22110ˆ xxy

Page 23: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Pasos para la construcción del modelo

PASO 1: CONSTRUYA EL GRAFICO DE DISPERSION PASO 2: ESTIMACIÓN DE LA LÍNEA DE REGRESIÓN USANDO MÍNIMOS CUADRADOS

Prueba: Prueba t-Student Hipótesis: Ho: La v. independiente no influye en la dependiente Ha: La v. independiente influye sobre la dependiente

Yi = 0+ 1 X1

Page 24: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Incorrelación

30

80

130

180

230

280

330

140 150 160 170 180 190 200

Fuerte relación

directa.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Cierta relación

inversa

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

Grisales H. Notas de clase

PASO 1: Construya el grafico de dispersión

Page 25: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.

PASO 2: Construcción del modelo

Método de construcción

Es un método de selección paso a paso que inicia la modelación considerando únicamente la constante, en el primer paso entra aquella

variable que presentó mayor SCORE, siempre y cuando este sea significativo, y así sucesivamente.

Es otro método de selección de variables paso a paso, inicialmente incluye todas las variables, eliminando a continuación aquellas que no son

significativas para el modelo, usando el estadístico de Wald.

Este método es una variante del método Forward/Backward que admite, paso a paso, la posibilidad de eliminar variables previamente seleccionadas.

Forward

Backward

Stepwise

Page 26: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

PASO 2: Estimación de la línea de regresión usando mínimos cuadrados

• Cambio promedio en la variable respuesta cuando la variable predictora aumenta en una unidad adicional.

βi

• Valor promedio de la variable respuesta cuando la variable predictora vale 0.

• Carece de interpretación práctica si es irrazonable pensar que el rango de valores de X incluye el cero.

β0

Page 27: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

PASO 3: ANOVA APLICADA A LA REGRESION

Prueba: Anova aplicada a la regresión Hipótesis: Ho: No existe relación lineal entre X y Y Ha: Existe relación lineal entre X y Y PASO 4: ANALISIS DE CORRELACIÓN (R) Y COEFICIENTE DE DETERMINACIÓN (R2)

PASO 5: ANALISIS DE RESIDUOS Normalidad, varianza constante e incorrelación

Pasos para la construcción del modelo

Page 28: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

2R %100*22 RR

PASO 4: Análisis de correlación (R) y coeficiente de determinación (R2)

COEFICIENTE DE DETERMINACIÓN

• Es una medida de la bondad de ajuste del modelo

• Un modelo de regresion con R2 mayor o igual a 75% se puede considerar bastante aceptable.

22 )(RhoR

Page 29: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

PASO 5: Análisis de residuos

Normalidad

• La normalidad de los errores es un requisito indispensable para que tengan validez las pruebas estadísticas de t y F que se usan en la regresión.

• Relaciona los residuales Vs. los valores que se esperarían si existiera normalidad.

Varianza constante

• Se grafican los residuales Vs. los valores ajustados o Vs. la variable predictora X.

• Si los puntos del gráfico caen en una franja horizontal alrededor de 0, la varianza es constante; si siguen algún patrón la varianza no es constante.

No correlación

• Prueba de Durbin-Watson (D), mide el grado de correlación de un error con el anterior y el posterior a él.

• Interpretación: D varía entre 0 y 4.

• Si D esta cerca de 0 los errores están correlacionados positivamente.

• Si D está cerca de 4 entonces la correlación es negativa.

• La distribución de D es simétrica con respecto a 2, un valor D cercano a 2 indica que no hay correlación de los errores.

Page 30: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Esperanza de vida femenina Vs. Tasa de natalidad

Tasa de natalidad (por 1.000 habitantes)

60 50 40 30 20 10 0

Esp

eran

za d

e vi

da

fem

enin

a

90

80

70

60

50

40

Page 31: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

B Error típ. Límite inferior Límite superior

(Constante) 89.268 1.203 74.234 .000 86.884 91.652

Tasa de natalidad -.737 .042 -17.592 .000 -.820 -.654

Modelo Sig.

Intervalo de confianza para B

al 95%

Coeficientes no

estandarizados t

Coeficientes

Regresión 8.969.413 1 8.969.413 309.496 .000

Residual 3.100.936 107 28.981

Total 12.070.349 108

Media

cuadráticaF Sig.glModelo

Suma de

cuadrados

Anova

Page 32: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

P-P normal de regresión Residuo tipificado

Prob acum observada 1.00 .75 .50 .25 0.00

Pro

b a

cum

esp

erad

a

1.00

.75

.50

.25

0.00

1 -.862 .743 .741 5.38

Error típ. de la

estimaciónModelo R R cuadrado

R cuadrado

corregida

Tabla de coeficientes

Page 33: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Esperanza de vida femenina

Regresión Valor Pronosticado tipificado

1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -2.5

3

2

1

0

-1

-2

-3

Reg

resi

ón

Res

idu

o T

ipif

icad

o

Page 34: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Hombres alfabet izados

(%)

120 100 80 60 40 20

E s p e r a n z a d e v i d a m a s c u l i n a

80

70

60

50

40

Esperanza de vida masculina vs. Alfabetización masculina

Page 35: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Coeficientesa

36,924 2,861 12,907 ,000 31,234 42,614

,330 ,035 ,717 9,367 ,000 ,260 ,400

(Constante)

Hombres alfabetizados

(%)

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icient

es

estandari

zados

t Sig.

Límite

inferior

Límite

superior

Interv alo de conf ianza

para B al 95%

Variable dependiente: Esperanza de v ida masculinaa.

Page 36: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

ANOVAb

3813,761 1 3813,761 87,738 ,000a

3607,816 83 43,468

7421,576 84

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), Hombres alf abet izados (%)a.

Variable dependiente: Esperanza de v ida masculinab.

Page 37: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Resumen del modelob

,717a ,514 ,508 6,59

Modelo

1

R

R

cuadrado

R

cuadrado

corregida

Error típ.

de la

estimación

Variables predictoras: (Constante), Hombres

alfabetizados (%)

a.

Variable dependiente: Esperanza de v ida masculinab.

Page 38: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Gráfico P-P norm al de regresión Residuo tipificado

Variable dependiente: Esperanza de vida masculina

Prob acum observada

1,00,75,50,250,00

Prob

acu

m e

sper

ada

1,00

,75

,50

,25

0,00

Page 39: Estadística III. Regresión lineal. Ángela Segura

Ángela María Segura C.

Gráfico de dispersión

Variable dependiente: Esperanza de vida masculina

Regresión Valor pronosticado tipificado

210-1-2-3

Reg

resi

ón R

esi

duo

tipif

icad

o

3

2

1

0

-1

-2

-3

-4