14avaclaseregresion logistica.ppt

12
REGRESION LOGISTICA MG. LEOPOLDO BEJARANO B.

Upload: elizabet-cama

Post on 09-Dec-2015

213 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 14avaClaseREGRESION LOGISTICA.ppt

REGRESION LOGISTICA

MG. LEOPOLDO BEJARANO B.

Page 2: 14avaClaseREGRESION LOGISTICA.ppt

REGRESION LOGISTICA simple Cuando la variable dependiente es discreta dicotómica y la variable independiente cuantitativa, se tiene en cuenta el modelo de la regresión logística simple y permite establecer la relación entre ellas. Ejemplo: Si la característica consiste en la presencia o ausencia de la enfermedad del miocardio (Y) en una población de personas de 30 a 69 años de edad. Se tiene que la variable queda definida como: 1 Presencia de la enfermedad del miocardio con probabilidad . Y = 0 ausencia de enfermedad del miocardio con probabilidad 1-. Por consiguiente, la media aritmética de los valores de Y está dado por .

Page 3: 14avaClaseREGRESION LOGISTICA.ppt

La función logística esta expresada de la siguiente manera: 1 f(x) =───────, donde <x<- , 1f(x)0 . 1 + e-x El gráfico que le corresponde a la función logística está dada por:

g(x)

0

0,25

0,5

0,75

1

X

Page 4: 14avaClaseREGRESION LOGISTICA.ppt

Además, se tiene que (x)-1 nos indica la probabilidad de no tener la enfermedad del miocardio. Por consiguiente, el cociente de estas dos probabilidades, nos da como resultado un odds en favor de la enfermedad. Esta razón se establece como:

e=(x)-1

(x)= x*+

El logaritmo natural de este odds, genera una transformación logística que está dado por:

x*+=(x)-1

(x)

ln , el nombre que recibe dicha transformación es Logit.

Page 5: 14avaClaseREGRESION LOGISTICA.ppt

Consideremos una muestra aleatoria de tamaño n dada por (x1,y1), (x2,y2), ..., (xn, yn). Para estimar y ß se utiliza el método de máxima verosimilitud y ^ ^ si ß es el estimador máximo verosímil de ß y ES(ß) es el error estándar estimado de dicho estimador, por consiguiente, el test de Wald queda expresado como : ^ ß W =------ N(0,1) ^ ES(ß)

Page 6: 14avaClaseREGRESION LOGISTICA.ppt

Ejemplo 1 Una muestra de 54 ancianos es sometida a un examen siquiátrico para determinar si presentan o no síntomas de senilidad. Una prueba de la escala Weschller de inteligencia para adultos (WAIS) es usada como variable independiente. Los datos se encuentran en la tabla 1. Los puntajes WAIS de la muestra van de 4 a 20. Los valores altos de esta prueba indica un funcionamiento intelectual más efectivo. Tabla 1

X

Y

X

Y

X

Y

X

Y

X

Y

9

1

7

1

7

0

17

0

13

0

13

1

5

1

16

0

14

0

13

0

6

1

14

1

9

0

19

0

9

0

8

1

13

0

9

0

9

0

15

0

10

1

16

0

11

0

11

0

10

0

4

1

10

0

13

0

14

0

11

0

14

1

12

0

15

0

10

0

12

0

8

1

11

0

13

0

16

0

4

0

11

1

14

0

10

0

10

0

14

0

7

1

15

0

11

0

16

0

20

0

9

1

18

0

6

0

14

0

Page 7: 14avaClaseREGRESION LOGISTICA.ppt

Donde Y es la variable dependiente y que toma los valores: 1 si presenta signos de senílidad y 0 si no presenta signos de senílidad X es la variable independiente y toma como valores los puntajes del test de WAIS. El presente estudio es de tipo transversal, por consiguiente, el propósito es evaluar si el factor (puntajes del test WAIS) está asociado a los síntomas de senelidad en ancianos, es decir, en otras palabras si los puntajes del test WAIS predicen síntomas de senelidad en ancianos.

Page 8: 14avaClaseREGRESION LOGISTICA.ppt

Utilizando el paquete estadístico SPSS, ajustamos estos datos al modelo de regresión logística mediante un ajuste máximo verosímil y obtenemos los siguientes resultados: Regresión logística

Resumen de los modelos

51.017a .181 .266Paso1

-2 log de laverosimilitud

R cuadradode Cox y

Snell

R cuadradode

Nagelkerke

La estimación ha finalizado en el número deiteración 5 porque las estimaciones de losparámetros han cambiado en menos de .001.

a.

Prueba que mide la bondad de ajuste de los datos al modelo

Prueba de Hosmer y Lemeshow

5.991 8 .648Paso1

Chi-cuadrado gl Sig.

Tabla de clasificacióna

37 3 92.59 5 35.7

77.8

ObservadoNoSi

Sintomas desenelidad

Porcentaje global

Paso 1No Si

Sintomas desenelidad Porcentaje

correcto

Pronosticado

El valor de corte es .500a.

Variables en la ecuación

-.324 .114 8.057 1 .005 .724 .579 .9052.404 1.192 4.069 1 .044 11.068

PruebaConstante

Paso1

a

B E.T. Wald gl Sig. Exp(B) Inferior Superior

I.C. 95.0% paraEXP(B)

Variable(s) introducida(s) en el paso 1: Prueba.a.

Page 9: 14avaClaseREGRESION LOGISTICA.ppt

De la tabla de variables obtenemos la siguiente ecuación:

donde a=2.404 y b=-0.324. Como el estimado b de ß es negativo, nos indica que la probabilidad de los síntomas de senilidad decrece en los niveles altos del WAIS. La hipótesis nula Ho: ß=0 establece, que la probabilidad de senilidad es la misma en todos los niveles de la escala WAIS. ^ El error estándar del estimador de ß es ES(ß)=0.114. Para contrastar Ho: ß=0, consideramos el estadístico W=-0.324/0.114=-2.84. Utilizando la distribución normal para un valor de z=-2.84, resulta un P-valor de p=.0046 para H1:ß0; y p=.0023 para Ha:ß <0. Por tanto, hay una fuerte evidencia de una asociación negativa entre la presencia de senilidad y los valores dados por el WAIS.

.324X-2.404 = bX+a = )-1

(

log

Page 10: 14avaClaseREGRESION LOGISTICA.ppt

Ejemplo 2 Supongamos que estamos interesados en estudiar, en un periodo determinado, si la edad joven de la madre es un factor de riesgo del bajo peso al nacer. Edad de la madre: 20 años (Edad joven de la madre) > 20 años Peso al nacer: 2500 grs (Bajo peso al nacer). > 2500 grs En dicha asociación, podría influir el nivel socioeconómico, y para controlarla, consideramos a las madres del nivel socioeconómico bajo. De los registros disponibles de la maternidad de Lima, en un determinado periodo, seleccionamos una muestra sistemática aleatoria de historias, obteniéndose resultados en la siguiente tabla:

Peso al nacer

Edad de la madre

<=2500

>2500

Total

<= 20 > 20

20 15

40 135

60 150

Total

35

175

210

Evento: Bajo peso al nacer Factor: Edad joven de la madre.

Page 11: 14avaClaseREGRESION LOGISTICA.ppt

Para procesar los datos, utilizamos el paquete SPSS, el cuál proporciona los siguientes resultados: ---------------------- Variables in the Equation -- Variable B S.E. Wald df Sig R Exp(B) EDAD 1,5041 ,3861 15,1752 1 ,0001 ,2290 4,50 Constant -1,2164 ,1800 Por tanto, la ecuación de regresión logistica estimada queda como: La estimación del odds ratio (OR) del bajo peso al nacer con respecto a la edad joven de la madre está dado por: OR= eß =e1.5041 = 4.500. Si OR=4.5, nos indica que el riesgo de un nacimiento de bajo peso al nacer es de 4.5 veces más cuando la madre es joven en relación a las madres que tienen mas de 20 años de edad.

e+11

=(x)1.5041x+1.2164-

Page 12: 14avaClaseREGRESION LOGISTICA.ppt

Calculando el intervalo de confianza del 95% para el odds ratio OR, se tiene en cuenta el error estándar de ß es ES(ß)=0.3861, para un nivel de confianza del 95% el valor del coeficiente Z que le corresponde es de 1.96. Por consiguiente, los límites de confianza quedan establecido como: L1 = e

1.5041 - 1.96*0.3861 = 2.1 L2 = e

1.5041 + 1.96*0.3861 = 9.6 Por consiguiente, el riesgo de tener un nacimiento con bajo peso al nacer en madres jóvenes está comprendido entre 2.1 y 9.5 veces más en relación a madres que tienen más de 20 años de edad. Como el intervalo no contiene a la unidad, nos está indicando que OR es estadísticamente significativo, por tanto, la edad joven de la madre es un factor de riesgo del bajo peso al nacer.