regresión linear correlación de pearson, r regresión múltiple regresión logística regresión...

68
Regresión Linear Correlación de Pearson, r Regresión Múltiple Regresión Logística Regresión de Poisson

Upload: ricarda-nolasco

Post on 27-Jan-2016

241 views

Category:

Documents


1 download

TRANSCRIPT

Regresión Linear Correlación de Pearson, r

Regresión MúltipleRegresión Logística

Regresión de Poisson

Propósitos de RL

• Evaluar si las dos variables están asociadas (r)

• Predecir en base a una variable, ¿qué se obtiene de la otra? (ARS)

• Evaluar grado de concordancia entre los valores de las dos variables (ARS)

Supuestos

1. Existencia (para cualquier valor de la variable X, Y es una variable al azar con una cierta probabilidad de distrib teniendo un promedio y varianza finitos)

2. Independencia (los valores de Y son estadísticamente independientes uno de otro).

3. Linearidad (el promedio de Y es una función linear de X)

4. Homocedasticidad (La varianza de Y es la misma para cualquier X)

5. Distribución normal (Para cualquier valor de X, Y tiene distribución normal)

Variables

• Dependiente: eje Y• Independiente: eje X

• Intervalares• Distribución normal

• Gráfico: PLOT DE DISPERSIÓN

• Pares de observaciones

Tipo de relaciones

Regresión linear

• La línea recta es descrita por ecuación:

• Y = 2 + 5X

Var dep Pendiente Var indep

FPLOT y = x+2Intercepto

-1,0 -0,5 0,0 0,5 1,0

x

-10

-8

-6

-4

-2

0

2

4

6

8

10

y

Hipótesis nula

b=0 pendiente = 0

a=0 intercepto = 0

Relación entre presión sistólica mm/Hg vs. Edad (años)

20 30 40 50 60 70 80 90Edad en años

50

100

150

200

250P

resi

ó n m

m/H

g

X

Y

a = interceptob = pendiente

bxay

Residual

20 30 40 50 60 70 80 90Edad en años

50

100

150

200

250P

res i

ó n m

m/H

g

Systat

Stata 1010

015

020

025

0

20 40 60 80Edad (años)

95% CI Fitted valuesPresión Sistólica (mm / Hg)

Relación entre Presión sistólica y Edad

Relación fisuras vs. Año (C Holuigue, 2005).Año 2000: inicio del suplemento de ácido fólico en la harina.

ES ESTO UNA RELACIÓN LINEAL?NO !!!

Evolución de peso vs días en niños con fisuras (con y sin tratamiento ortopédico). (N: control: 40; Fisurados

con trat ortop: 32; Fisurados sin trat ortop: 20) Jara y Vergara, 2009, UM.

GRUPO

0 50 100 150 200

DIA

Control

0 50 100 150 200

DIA

Fisurado con Ortop

0 50 100 150 200

DIA

2,000

3,000

4,000

5,000

6,000

7,000

8,000

9,000

10,000

PE

SO

Fisurado sin Ortop

Evolución de peso vs días en niños con fisuras, (con y sin tratamiento ortopédico). Jara y Vergara, 2009, UM.

GRUPO

0 50 100 150 200

DIA

Control

0 50 100 150 200

DIA

Fisurado con Ortop

0 50 100 150 200

DIA

2,000

3,000

4,000

5,000

6,000

7,000

8,000

9,000

10,000

PE

SO

Fisurado sin Ortop

Evolución de peso vs días en niños con fisuras, (con y sin tratamiento ortopédico). Jara y Vergara, 2009, UM.

Fisurado sin OrtopFisurado con OrtopControl

GRUPO

0 50 100 150 200

DIA

2,000

3,000

4,000

5,000

6,000

7,000

8,000

9,000

10,000

PE

SO

Evolución de peso vs días en niños con fisuras, (con y sin tratamiento ortopédico). Jara y Vergara, 2009, UM.

FISURA

SE

XO

Paladar Fisurado

Hombres

FLP Unilateral FLP Bilateral

2,000

3,000

4,000

5,000

6,000

7,000

8,000

9,000

10,000

PE

SO

Control

0 50 100 150 200

DIA

Mujeres

0 50 100 150 200

DIA0 50 100 150 200

DIA0 50 100 150 200

DIA

2,000

3,000

4,000

5,000

6,000

7,000

8,000

9,000

10,000

PE

SO

Requisitos

• Las dos variables deben ser continuas

• Deben ser independientes una de la otra

• Deben tener distribución normal

Calcular

• Y = a + bXa = intercepto

b = pendiente

• Demostrar Ho: b = 0

• IC 95% de a; IC 95% de b

• Correlación de Pearson (r)

ANALISIS DE REGRESIÓNEdad vs. Presión sistólica en 33 pacientes.

Edad PS Edad PS Edad PS Edad PS22 131 33 99 49 133 56 14523 128 35 121 49 128 57 14124 116 40 147 50 183 58 15327 106 41 139 51 130 59 15728 114 41 171 51 133 63 15529 123 46 137 51 144 67 17630 117 47 111 52 128 71 17232 122 48 115 54 105 77 178

81 217

n = 33 x = 1542 y = 4575 xy = 223 144x2 = 79.176 y2 = 656.481 x = 46,73 y = 138,64

= 79.716 – (1542) 2 / 33 = 7662,6

= 656.481 – (4575) 2 / 33 = 22219,6

= 223144 – (1542)(4575)/33 = 9366,7

bxay

nxxxx /)()( 222

nyyyy /)()( 222

nyxxyyyxx /))(())((

2)(

))((

xx

yyxxb

xbya

Pendiente e intercepto

a: intercepto, en mm de Hg

b: pendiente, ps aumenta 1,22 mmHg por cada año de edad.

xy

a

añommHgb

22,154,81

54,81)73,46)(22,1(65,138

/22,16,7662

7,9366

71,06,22219

6,766222,1

)(

)(

66,18233

)223144)(22,1()4575)(54,81(656481

2

22

22

.

2

.

r

ny

y

nx

xb

s

sbr

S

n

xybyayS

y

x

xy

xy

Correlación de Pearsonr = 0,71 (Fuerza de la asociación entre las dos variables, puede

variar entre -1 y 1, entre más cerca a uno mejor dicha asociación

0,65 a 1 BUENA

0,4 a 0,649 REGULAR

< de 0,4 MALA.

r2 = 0.51

Karl Pearson, 1857-1936

¿Qué tan bueno es el modelo?

• r2= Proporción de la variación total en la variable y, dependiente, en este caso de la presión sistólica, que es explicada por la variación en la variable independiente x, o edad en este caso). O sea 51% de la variación en y es explicada por la variable x (edad).

Error estándar de pendiente e intercepto

2

2

2.

2

2.

)(

1

)(

xx

x

nSSE

xx

sSE

xya

xyb

Error estándar de b y a

47,106,7662

73,46

33

141,347

)(

1

2129,06,766241,347

)(

2

2

2

2.

2

2.

a

xya

b

xyb

SE

xx

x

nSSE

SE

xx

sSE

Intervalo de Confianza (95%) de la pendiente

b ± (t31, 0.05) (SEb) = 1,22 ± (1,96) (0,2129)

= 1,22 ± 0,417

Test de significancia para Ho b = 0

b - 0 1,22

t31 = ------------- = ------------- = 5,74 p<0,001

SEb 0,2129

Resultados con systatwg

Dep Var: PRESION N: 33 Multiple R: 0.718 Squared multiple R: 0.515

Adjusted squared multiple R: 0.500 Standard error of estimate: 18.639

Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)

CONSTANT 81.517 10.465 0.000 . 7.789 0.000

EDAD 1.222 0.213 0.718 1.000 5.741 0.000

Analysis of Variance

Source Sum-of-Squares df Mean-Square F-ratio P

Regression 11449.926 1 11449.926 32.958 0.000

Residual 10769.710 31 347.410

-------------------------------------------------------------------------------

SSY - SSESSY = SSY - SSE: Suma de cuadrados de la reg.

nyyyy /)()( 222

Valor de F, en tabla de anova es para determinar si la b (pendiente) es significatvia

Resultados con Systat v. 12

Regression Coefficients B = (X'X)-1X'Y

Effect Coefficient Standard Error

Std.Coefficient

Tolerance t p-value

CONSTANT 81.517 10.465 0.000 . 7.789 0.000

EDAD 1.222 0.213 0.718 1.000 5.741 0.000

Qué escribir ? Y = 81,52 + 1,22Xr = 0,718r2 = 0,515

Dependent Variable PS

N 33

Multiple R 0.718

Squared Multiple R 0.515

Adjusted Squared Multiple R

0.500

Standard Error of Estimate

18.639

20 30 40 50 60 70 80 90EDAD

50

100

150

200

250

PR

ES

ION

Residual

Nube ?Plot of Residuals against Predicted Values

100 110 120 130 140 150 160 170 180 190ESTIMATE

-50

-40

-30

-20

-10

0

10

20

30

40

50

RE

SI D

UA

L

20 30 40 50 60 70 80 90Edad en años

50

100

150

200

250

Pr e

sión

mm

/Hg

Valores observados (PS), Estimados y Residuales

Case PS ESTIMATE RESIDUAL1 131.000 108.410 22.5902 128.000 109.632 18.3683 116.000 110.854 5.1464 106.000 114.522 -8.5225 114.000 115.744 -1.7446 123.000 116.966 6.0347 117.000 118.189 -1.1898 122.000 120.634 1.3669 99.000 121.856 -22.85610 121.000 124.301 -3.30111 147.000 130.413 16.58712 139.000 131.635 7.36513 171.000 131.635 39.36514 137.000 137.747 -0.74715 111.000 138.970 -27.97016 115.000 140.192 -25.19217 133.000 141.415 -8.41518 128.000 141.415 -13.41519 183.000 142.637 40.36320 130.000 143.859 -13.85921 133.000 143.859 -10.85922 144.000 143.859 0.14123 128.000 145.082 -17.08224 105.000 147.527 -42.52725 145.000 149.971 -4.97126 141.000 151.194 -10.19427 153.000 152.416 0.58428 157.000 153.639 3.36129 155.000 158.528 -3.52830 176.000 163.418 12.58231 172.000 168.307 3.69332 178.000 175.642 2.35833 217.000 180.531 36.469

Cajas de dispersión de PS, Estimada y residual

50

100

150

200

250

PS

100

110

120

130

140

150

160

170

180

190

ES

TIM

AT

E

-50

-40

-30

-20

-10

0

10

20

30

40

50

RE

SID

UA

L

Regresión – Características de una relación (Wilkinson, 1996)

¿Existe?

¿Qué fuerza tiene?

¿Qué tamaño?

¿Qué dirección tiene?

¿Qué patrón tiene?

Existencia de la relación.

• El valor de p en la tabla de análisis de varianza de la regresión nos indica si el modelo es significativamente diferente del azar.

• Los test t y valores de p asociados con los coeficientes individuales nos indican si existe una relación entre cada variable independiente y la variable dependiente.

Fuerza de la asociación.

• Uno no está satisfecho con saber si existe una relación además quiere saber que tan fuerte es. Generalmente la vemos con el valor de R múltiple, el R múltiple al cuadrado, el R cuadrado ajustado, y el error estándar de la media. El mejor de todos es R cuadrado ajustado.

• R múltiple al cuadrado indica la proporción de varianza en la variable dependiente que puede ser explicada por la(s) variable(s) independiente(s).

Tamaño de la asociación

• A veces uno está interesado en el tamaño de los coeficientes de la regresión más que en demostrar que difieren de 0.

• Para esto simplemente ver los valores de los coeficientes.

Dirección de la asociación.

• El signo de los coeficientes nos da esta dirección.

Patrón de la asociación.

Los plots y los estadísticos basados en los valores residuales nos dan información acerca del patrón de la relación :

Es la relación linear? Presentan los plots algún valor “escapado”, o fuera de lugar (outlier”)? Existe indicación por los valores de Cook, residual estandarizado, o

Leverage de algún caso influyente? Están los residuales curvados o por otro lado presentan forma o

dirección irregular? En otras palabras deberá agregarse otras variables al modelo?

Los residuales están formando una banda horizontal a lo largo de todo el rango de la variable dependiente?, o sea están los residuales homoscedásticos?

Tienen los residuales una distribución normal?

Homocedasticidad: de -homo (igual) y scedastic: disperso

Análisis de Regresión Linear

MODEL CS = CONSTANT+LSMUFC

ESTIMATE

Dep Var: CS N: 30 Multiple R: 0.626 Squared multiple R: 0.392

Adjusted squared multiple R: 0.370 Standard error of estimate: 6.543

Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)

CONSTANT -19.601 7.712 0.0 . -2.542 0.017

LSMUFC 5.987 1.409 0.626 1.000 4.248 0.000

Regresión Linear, comparación entre

dos grupos

CASO PA HB_GLI GRUPO$ GRUPO

1 91 9,8 Enalapril 1

2 104 7,4 Enalapril 1

3 107 7,9 Enalapril 1

4 107 8,3 Enalapril 1

5 106 8,3 Enalapril 1

6 100 9,0 Enalapril 1

7 92 9,7 Enalapril 1

8 92 8,8 Enalapril 1

9 105 7,6 Enalapril 1

10 108 6,9 Enalapril 1

11 98 9,5 Placebo 0

12 105 6,7 Placebo 0

13 100 7,0 Placebo 0

14 101 8,6 Placebo 0

15 99 8,7 Placebo 0

16 87 9,5 Placebo 0

17 98 9,0 Placebo 0

18 104 7,6 Placebo 0

19 106 8,5 Placebo 0

20 90 8,6 Placebo 0

Presión arterial (PA)y Hemoglobina Glicosilada(HB_GLI) en dosGrupos: con Enalapril (1)y Placebo (0)

80 90 100 110Presión Sanguínea arterial media (mmHg)

0

4

8

12C

on

cen

tra

ció

n to

tal d

e H

em

og

l ob

i na

glic

os i

l ad

a (

%)

PlaceboEnalapril

GRUPO

80 90 100 110Presión Sanguínea arterial media (mmHg)

6

7

8

9

10C

once

n tra

ción

tota

l de

Hem

o glo

b ina

glic

o sil a

d a (

%)

PlaceboEnalapril

GRUPO

Donde está la diferencia?

80 90 100 110Presión Sanguínea arterial media (mmHg)

6

7

8

9

10C

once

n tra

ción

tota

l de

Hem

o glo

b ina

glic

o sil a

d a (

%)

PlaceboEnalapril

GRUPO

Donde está la diferencia?

Caso PA HB GRUPO 1 91 9,8 Enalapril 2 104 7,4 Enalapril 3 107 7,9 Enalapril 4 107 8,3 Enalapril 5 106 8,3 Enalapril 6 100 9,0 Enalapril 7 92 9,7 Enalapril 8 92 8,8 Enalapril 9 105 7,6 Enalapril 10 108 6,9 EnalaprilPromedios: 101,2 8,37DS: 6,941 0,9615DS de la línea de regresión (Sres): 0,5485

Caso PA HB GRUPO11 98 9,5 Placebo 12 105 6,7 Placebo 13 100 7,0 Placebo 14 101 8,6 Placebo 15 99 6,7 Placebo 16 87 9,5 Placebo 17 98 9,0 Placebo 18 104 7,6 Placebo 19 106 8,5 Placebo 20 90 8,6 PlaceboPromedios: 98,8 8,17DS: 6,161 1,0914DS de la línea de regresión (Sres): 0,9866

2

))(1( 222

n

SbSnS xy

res

Resultado con Systat v. 11Análisis de regresión de cada grupo, Enalapril y Placebo

ENALAPRILDep Var: HB_GLIC N: 10 Multiple R: 0.843 Squared multiple R: 0.711 Adjusted squared multiple R: 0.675 Standard error of estimate: 0.548 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)

CONSTANT 20.189 2.671 0.000 . 7.558 0.000PA -0.117 0.026 -0.843 1.000 -4.434 0.002

PLACEBODep Var: HB_GLIC N: 10 Multiple R: 0.523 Squared multiple R: 0.274 Adjusted squared multiple R: 0.183 Standard error of estimate: 0.987 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)

CONSTANT 17.327 5.283 0.000 . 3.280 0.011PA -0.093 0.053 -0.523 1.000 -1.736 0.121

Resultado con Systat v. 11Comparando los dos grupos

Dep Var: HB_GLIC N: 20 Multiple R: 0.682 Squared multiple R: 0.464 Adjusted squared multiple R: 0.401 Standard error of estimate: 0.779 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)

CONSTANT 18.659 2.774 0.000 . 6.727 0.000PA -0.106 0.028 -0.686 0.964 -3.797 0.001GRUPO1 0.455 0.355 0.232 0.964 1.283 0.217

Hipótesis nula

Las pendientes son iguales (bE = bP)

Los interceptos son iguales (aE = aP)

Las correlaciones son iguales (rE = rP)

Intervalo de confianza para la diferencia de dos pendientes

1. Calcular DS mezclada (pooled) residual según:

2. luego:

3. IC 95% =

4

)2()2(

21

222

211

nn

SnSnS resres

pool

222

211

21 )1(

1

)1(

1)(

xxpool SnSn

SbbSE

)( 212/121 bbSEtbb

Ecuación y correlación para los grupos PLACEBO y ENALAPRIL

Grupo PLACEBO:

Y=17,33 – 0,093X r = -0,523

Grupo ENALAPRIL:

Y=20,189 – 0,117X r = -0,843

Son las pendientes iguales?

098,0147,005774,012,2024,0

)(024,0

024,0093,0117,0

05774,0161,69

1

941,69

17982,0)(

7982,041010

987,0)210(548,0)210(

4

)2()2(

212/1

21

2221

21

222

211

a

bbSEt

bb

bbSE

S

S

nn

SnSnS

pool

pool

resrespool

Incluye 0 por lo tanto no hay dif significativa entre las pendientes

Análisis de Regresión Múltiple (RM)

MODEL CS = CONSTANT+BUFFER+VFS

ESTIMATE

Dep Var: CS N: 30 Multiple R: 0.033 Squared multiple R: 0.001

Adjusted squared multiple R: 0.0 Standard error of estimate: 8.540

Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail)

CONSTANT 12.784 6.368 0.0 . 2.007 0.055

BUFFER 0.177 1.847 0.019 0.980 0.096 0.924

VFS -0.660 5.088 -0.025 0.980 -0.130 0.898

Analysis of Variance

Source Sum-of-Squares df Mean-Square F-ratio P

Regression 2.201 2 1.100 0.015 0.985

Residual 1969.166 27 72.932

-------------------------------------------------------------------------------

Regresión Logística

• Variable dependiente o de interés en el estudio: binaria (tiene infarto / no tiene inf.)

• En lugar de utilizar una combinación de variables exploratorias para predecir la variable dependiente como en RM, se predice una transformación de la variable dependiente

Variable binaria (0 / 1)

0 = No (No tuvo infarto)

1 = Si (Tuvo infarto)

El promedio de estos valores en una muestra en estudio es igual a la proporción de individuos con la característica.

0101111101

-------7/10=0,7

Modelo de regresión logística:

• Predecirá la proporción de sujetos con la característica de interés (o la probabilidad de un individuo de tener la característica) para cualquier combinación de las variables exploratorias en el modelo.

• Se utiliza una transformación de esta proporción ya que si no es imposible trabajar con valores fuera del rango de 0 a 1

Transformación

• Se llama logit (p) (p: proporción de individuos con la característica)

• p: proporción con infarto

• 1-p: proporción sin infarto

• Relación (odds): p / (1-p)

p

ppit e 1

log)(log

Hipertensión, tabaco, obesidad, ronquera(Norton y Dunn, 1985)

Fuma Obeso Ronca N Número de hombres con HipertensiónN (%)

0 0 0 60 5 (18)

1 0 0 17 2 (11)

0 1 0 8 1 (13)

1 1 0 2 0 (0)

0 0 1 187 35 (19)

1 0 1 85 13 (15)

0 1 1 51 15 (29)

1 1 1 23 8 (35)

Total 433 79 (18)

Análisis de RL de los datos de la tabla anterior

Parameter Estimates

Parameter Estimate Standard Error

Z p-value 95 % Confidence Interval

Lower Upper

1 CONSTANT -2.378 0.380 -6.254 0.000 -3.123 -1.633

2 FUMA -0.068 0.278 -0.244 0.807 -0.613 0.477

3 OBESIDAD 0.695 0.285 2.439 0.015 0.137 1.254

4 RONCA 0.872 0.398 2.193 0.028 0.093 1.651

Odds Ratio Estimates

Parameter Odds Ratio Standard Error

95 % Confidence Interval

Lower Upper

2 FUMA 0.934 0.260 0.542 1.612

3 OBESIDAD 2.004 0.571 1.146 3.505

4 RONCA 2.392 0.951 1.097 5.213

Receiver Operating Characteristic Curve

0.0 0.2 0.4 0.6 0.8 1.0

1 - Specificity

0.0

0.2

0.4

0.6

0.8

1.0

Se

nsi

tivity

Area under ROC Curve : 0.617

Análisis de RL de los datos de la tabla anterior SIN FUMAR

Parameter Estimates

Parameter Estimate Standard Error Z p-value 95 % Confidence Interval

Lower Upper

2 OBESIDAD 0.695 0.285 2.440 0.015 0.137 1.254

3 RONCA 0.865 0.397 2.182 0.029 0.088 1.643

Odds Ratio Estimates

Parameter Odds Ratio Standard Error

95 % Confidence Interval

Lower Upper

2 OBESIDAD 2.005 0.571 1.146 3.505

3 RONCA 2.376 0.943 1.092 5.170

Receiver Operating Characteristic Curve

0.0 0.2 0.4 0.6 0.8 1.0

1 - Specificity

0.0

0.2

0.4

0.6

0.8

1.0

Se

nsi

tivity

Area under ROC Curve : 0.609

ROC: Receiver Operating Curve

• Plot de la sensibilidad vs 1-especificidad para cada posible punto de corte, y unión de ellos.

• Si el “costo” de un resultado falso negativo es el mismo que del resultado de un falso positivo, la mejor zona de corte es aquella que maximiza la suma de la sensibilidad y especificidad, la cual es el punto más cerca al rincón superior izquierdo

Guía para análisis de regresión

Método Dependiente Independiente Propósito

Linear Continua Continua Describir extensión, dirección y fuerza de la relación entre dos variables.

Múltiple Continua Continua Describir extensión, dirección y fuerza de la relación entre varias variables independientes y una variable dependiente.

Logística Dicotómica Mezcla Determinar como una o más variables independientes están relacionadas a la probabilidad de ocurrencia de un posible resultado.

Poisson Discreta Mezcla Determinar como una o más variables independientes están relacionadas con el conteo de un posible resultado

Varianza Continua Nominales Describir relación entre una variable continua y una o más variables dependientes

RESUMEN

• Regresión lineal: x / y: intervalares, independiente / dependiente.

• Regresión múltiple: una dependiente, varias dependientes (intervalares).

• Regresión logística: una dependiente (nominal), varias independientes (puede haber nominales, ordinales, intervalares).