apuntes bioestadistica

122
Apuntes de Bioestadística Dr. José A. García Laboratorio de Biología Teórica Posgrado e Investigación Universidad La Salle, México [email protected] 31 de mayo de 2005

Upload: saphkiel

Post on 30-Nov-2015

82 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: apuntes bioestadistica

Apuntes de Bioestadística

Dr. José A. GarcíaLaboratorio de Biología Teórica

Posgrado e InvestigaciónUniversidad La Salle, México

[email protected]

31 de mayo de 2005

Page 2: apuntes bioestadistica

Índice general

Índice de Figuras 8

Índice de Cuadros 10

1. Introducción a R 11

1.1. Ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.1.1. Ayuda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2. Vectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2.1. Redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2.2. Comparación de vectores . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.3. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.3.1. Renglones y columnas en matrices . . . . . . . . . . . . . . . . . . . . . . 16

1.3.2. Ecuaciones lineales con matrices . . . . . . . . . . . . . . . . . . . . . . . 16

1.4. Factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.5. Data frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.6. Importar y exportar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.6.1. Importar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.6.2. Exportar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2. Bioestadística 20

1

Page 3: apuntes bioestadistica

2.1. Conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2. Tipos de estudios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3. Diseño experimental 23

3.1. Métodos estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2. Hipótesis y experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4. Principio de parsimonia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.5. Replicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4. Tablas de Frecuencia 27

4.1. Datos discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.2. Datos continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2.1. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2.2. Tablas de tronco y hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.2.3. Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5. Estadística Descriptiva 33

5.1. Tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.1.1. La media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.1.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.1.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.2. Variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2

Page 4: apuntes bioestadistica

5.2.1. El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.2.2. Suma de cuadrados (SS) . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.2.3. La varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.2.4. Desviación Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.2.5. Error estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.2.6. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.2.7. Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

6. Análisis Gráfico 39

6.1. QQ-plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.2. Stripcharts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.3. Barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

6.4. Dotcharts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

6.5. Gráficas con condiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

7. Muestreo 46

7.1. Potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

8. Probabilidad 48

8.1. Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

8.2. Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

8.3. Determinación de resultados posibles . . . . . . . . . . . . . . . . . . . . . . . . 49

8.3.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

8.3.2. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3

Page 5: apuntes bioestadistica

8.4. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

8.5. Axiomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

8.6. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

8.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

9. Distribución Normal 55

9.1. Áreas bajo la curva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

9.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

9.3. Función de densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

9.4. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

9.5. Cuantiles normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

9.6. Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

9.7. Teorema del límite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

9.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

10. Estimación 61

10.1. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

10.2. Distribución t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

10.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

11. Bootstrap 63

11.1. Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

11.2. Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

11.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

12. Prueba de Hipótesis 66

12.1. Pruebas de una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4

Page 6: apuntes bioestadistica

12.2. Dos varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

12.3. Dos medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

12.3.1. Medias con varianzas diferentes . . . . . . . . . . . . . . . . . . . . . . . 70

12.3.2. Prueba de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . 71

12.4. Muestras pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

13. ANOVA 75

13.1. ANOVA sobre la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

13.2. Comparación entre grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

13.2.1. Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

13.2.2. Comparación por pares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

13.3. Pruebas no-paramétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

13.3.1. Pruebas multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

14. Distribuciones discretas 80

14.1. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

14.2. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

14.2.1. Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

14.2.2. Riesgo reltativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

14.2.3. Relación de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 82

14.2.4. Pruebas de χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

15. Regresión y Correlación Lineal 85

15.1. Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

15.1.1. Regresión en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

15.2. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5

Page 7: apuntes bioestadistica

16. Ajuste de modelos 89

16.1. Modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

16.1.1. Criterios de Información . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

16.1.2. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

16.1.3. Predicciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

16.2. Modelos No Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

16.2.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

17. Modelos matemáticos 96

17.1. Modelos continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

17.1.1. Enfermedades infecciosas . . . . . . . . . . . . . . . . . . . . . . . . . . 96

17.1.2. Modelo Presa – Depredador . . . . . . . . . . . . . . . . . . . . . . . . . 97

17.2. Modelos Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

17.2.1. Crecimiento y decaimiento exponencial . . . . . . . . . . . . . . . . . . . 99

17.2.2. Ecuación logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

17.2.3. Caos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

18. Análisis de Sobrevivencia 104

18.1. Funciones de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

18.1.1. Función de densidad de muerte . . . . . . . . . . . . . . . . . . . . . . . . 105

18.1.2. Función de muerte acumulada . . . . . . . . . . . . . . . . . . . . . . . . 106

18.1.3. Función de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

18.1.4. Función de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

18.2. Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

18.2.1. Ejemplo con datos censurados . . . . . . . . . . . . . . . . . . . . . . . . 108

18.3. Modelo de Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

6

Page 8: apuntes bioestadistica

18.3.1. Análisis sin datos censurados . . . . . . . . . . . . . . . . . . . . . . . . . 110

18.3.2. Análisis con datos censurados sin riesgo proporcional . . . . . . . . . . . . 111

19. Análisis de Series de Tiempo 113

19.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

19.2. Análisis preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

19.2.1. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

19.3. ACF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

19.4. FFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

19.4.1. Periodograma acumulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

19.4.2. Espectro de Potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

19.5. Mapas de retorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

7

Page 9: apuntes bioestadistica

Índice de figuras

4.1. Distribución de grupos sanguíneos . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.2. Distribución de concentraciones de hemoglobina . . . . . . . . . . . . . . . . . . 31

5.1. Boxplot de las concentraciones de hemoglobina. . . . . . . . . . . . . . . . . . . . 38

6.1. Gráficas de alturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.2. Stripcharts del gasto energético de mujeres . . . . . . . . . . . . . . . . . . . . . . 41

6.3. Tasas de mortalidad de Virginia en 1940 . . . . . . . . . . . . . . . . . . . . . . . 43

6.4. Tasas de mortalidad en Virgina por grupo etáreo. . . . . . . . . . . . . . . . . . . 43

6.5. Coplot de contaminación, temperatura y lluvia . . . . . . . . . . . . . . . . . . . . 44

9.1. Distribuciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

13.1. Spaghetigrama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

14.1. Capacidad vital baja en fumadores y no fumadores. . . . . . . . . . . . . . . . . . 84

16.1. Comparación de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . 90

16.2. Registro de tiempo de luz solar en Boston. . . . . . . . . . . . . . . . . . . . . . . 93

16.3. Efecto de las transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

17.1. Simulación del modelo SIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

17.2. Modelo Lotka-Volterra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

8

Page 10: apuntes bioestadistica

17.3. Simulación de ecuación exponencial discreta . . . . . . . . . . . . . . . . . . . . 100

17.4. Simulación de la ecuación logística . . . . . . . . . . . . . . . . . . . . . . . . . . 102

17.5. Mapas de retorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

17.6. Mapa de bifurcación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

18.1. Funciones de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

18.2. Análisis de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

19.1. ACF de series estudiadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

19.2. FFT de series estudiadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

19.3. Periodograma acumulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

19.4. Espectros de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

19.5. Mapas de retorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

9

Page 11: apuntes bioestadistica

Índice de cuadros

1.1. Funciones para vectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1. Pruebas sugeridas, según tipo de variables . . . . . . . . . . . . . . . . . . . . . . 24

4.1. Tabla de frecuencias de grupos sanguíneos en el salón 491 de QFB. . . . . . . . . 27

4.2. Concentración de hemoglobina de mineros (g/cc). . . . . . . . . . . . . . . . . . . 29

4.3. Tabla de frecuencias de concentraciones de hemoglobina de mineros (g/cc). . . . . 30

5.1. Presión sistólica de varones adultos jóvenes (mmHg) . . . . . . . . . . . . . . . . 38

6.1. Gasto energético de mujeres por complexión. . . . . . . . . . . . . . . . . . . . . 40

8.1. Probabilidad de muerte por décadas. . . . . . . . . . . . . . . . . . . . . . . . . . 52

12.1. Estadísticas de Mann-Whithney . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

13.1. Análisis de varianza de cuatro dietas experimentales . . . . . . . . . . . . . . . . . 76

14.1. Asociación entre fumadores y capacidad vital baja . . . . . . . . . . . . . . . . . . 82

18.1. Muertes por fiebre escarlata por grupo etáreo. . . . . . . . . . . . . . . . . . . . . 105

18.2. Tiempo de sobrevivencia (meses) de un estudio clínico . . . . . . . . . . . . . . . 107

18.3. Cálculo de la sobrevivencia acumulada para los primeros meses del Cuadro 18.2 . . 108

10

Page 12: apuntes bioestadistica

Capítulo 1

Introducción a R

1.1. Ambiente

La última versión de R se puede bajar de Internet de la página web del CRAN. Existen dos tiposde distribuciones del software, la binaria (binaries) y las fuentes (source). Si se va a instalar en unambiente de Windows se recomienda la binaria (ejecutable).

R es un software científico que provee de un ambiente para poder hacer diferentes operacionesmatemáticas incluidas las estadísticas. Dado que es un ambiente de programación de distribucióngratuita, su interacción es a través de línea de comando en lugar de menús (como suele usarse enprogramas comerciales como Excel). Este tipo de interacción, aunque es menos amigable, sueleser más rápida una vez que se conocen los diferentes comandos.

El objetivo de este capítulo es dar una pequeña introducción de R para que su uso sea más óptimoen la implementación de las técnicas estadísticas que se presentan en capítulos posteriores.

Cuando se abre R, buscará archivos (cuando así se le requiera) en el folder en que fue instalado.En este sentido, es recomendable tener todos los archivos de datos que se vayan a emplear en undirectorio especial e indicar a R que ese será nuestro directorio de trabajo. Supongamos que crea-mos un folder llamado biostat donde se guardarán todos nuestros archivos. En R existe una funcióndentro del menú que permite cambiar el directorio de trabajo; esta función es “Change workingdirectory”. Es muy importante inicializar cada sesión con esta función para evitar confusionesposteriores.

Hay ocasiones en que se pueden estar usando muchas variables. Para ver las variables que se hanasignado puede teclearse ls(). Cuando se quiere borrar una variable en concreto (e.g. la variable x)se usa el comando rm(x). Para evitar confusiones, puede ser conveniente eliminar todas las varia-bles de la memoria. Para hacer esto se puede buscar la función Clear workspace que se encuentradisponible en el menú, o bien se puede teclear rm(list = ls()).

11

Page 13: apuntes bioestadistica

1.2. VECTORES CAPÍTULO 1. INTRODUCCIÓN A R

1.1.1. Ayuda

Para ver algunas demostraciones de cómo funciona R se puede escribir demo() con lo cual seabrirá una ventana con las demostraciones disponibles. Para ver una en concreto, sólo es necesarioescribir el nombre correspondiente dentro del paréntesis, por ejemplo: demo(graphics)

La ayuda sobre los comandos o funciones se puede obtener con: hel p( f un) o bien con: ? fundonde f un es la función sobre la que se quiere obtener ayuda. Por ejemplo: hel p(mean)

Cuando se quiere introducir un comando que se ha escrito recientemente, es posible ahorrartiempo usando la tecla ↑ que permite ir retrocediendo en la historia de lo que se ha escrito.

1.2. Vectores

R puede usarse como una simple calculadora. La jerarquía de las operaciones algebraicas es lamisma (por ejemplo, la multiplicación precede a la adición). Para la asignación de una variable seutiliza una flecha en lugar del signo de igual. Esta flecha se escribe con el signo de “menor que”con un signo “menos” junto a él. Es importante que no existan espacios entre estos dos signos. Amanera de ejemplo, si queremos establecer que x = 5 entonces escribimos:

x <– 5

y damos enter. Los nombres de las variables pueden ser de cualquier longitud; no deben tenerespacios ni guiones; deben comenzar siempre con una letra; pueden contener números y puntos.Hay que hacer énfasis en que las variables minúsculas son diferentes a las mayúsculas, es decir, aes diferente de A. Debe procurase asignar variables que tengan sentido para el trabajo que se estádesarrollando, para evitar confusiones posteriores (por ejemplo: pesos.mujeres).

Existen ciertos caracteres que tienen un valor preasignado, por lo que debe evitarse su uso comovariable. Los que no son obvios son: c,q, t,C,D,F, I,T . Los demás describen funciones como:log,di f f ,d f , etc.

El poder de este tipo de paquetes reside en su capacidad para realizar operaciones vectoriales(además de las escalares). Para la generación de vectores suele usarse la concatenación que seestablece con el comando c:

alturas <– c(1.71, 1.75, 1.8, 1.65, 1.74, 1.91)

En caso de que en el vector se quieran guardar valores no numéricos (de caracteres), estos debenescribirse entre comillas. Pueden usarse comillas sencillas o dobles, sin embargo, en el caso delos teclados en español, no suele estar disponible la comilla sencilla, ya que se utiliza el acento(que no es el mismo caracter). En este sentido, es preferible utilizar las comillas dobles para evitarproblemas. Ejemplo:

12

Page 14: apuntes bioestadistica

1.2. VECTORES CAPÍTULO 1. INTRODUCCIÓN A R

nombres <– c(“miriam”,“marcela”,“karen”,“carlos”,“enrique”)

Existen ocasiones, en que se quieren generar secuencias de números. En estos casos es másrápido generarlas como se muestra en los siguientes ejemplos:

1:10 es la secuencia 1, 2, 3, ..., 10

seq(1,10,0.1) es la secuencia 1, 1.1, 1.2, 1.3, ...,10

numeric(10) genera un vector con 10 ceros

character(10) genera un vector con 10 espacios (“ ”)

rep(1,10) genera un vector con 10 unos

El número de elementos que tiene un vector puede obtenerse con la función length(x) donde xrepresenta la variable aleatoria que contiene al vector. Cuando se utilizan operaciones algebraicas,estas afectan a cada uno de los elementos que contiene el vector, lo que puede simplificar loscálculos. Un ejemplo clásico en estadística es la “suma de cuadrados” (SS). Esta operación estádefinida como:

SS =n

∑i=1

(xi− x)2 (1.1)

x representa la media aritmética (promedio) de x. La eq. 1.1 indica que a cada elemento del vectorx hay que restarle su media y su resultado elevarlo al cuadrado y finalmente sumar cada uno delos valores obtenidos. Dado que esta fórmula es de suma importancia en estadística, se explicará acontinuación, paso a paso, siguiendo un ejemplo.

Suponga que usted tiene el vector:

pesos <−c(55,32,66,27,64,25,59,48,44,32,72,8,66,36,55,23)

El número de elementos n del vector es: n <−length(pesos) y su media aritmética es: media <−mean(pesos) cuyo valor numérico es 60.50. La operación que se requiere hacer es:

(55.32−60.5)2 +(66.27−60.5)2 + · · ·+(55.23−60.5)2

Esta operación puede hacerse en un paso de la siguiente manera: sum((pesos-media)∧2). Enel Cuadro 1.1 se presenta una pequeña lista de las principales funciones que pueden aplicarse avectores.

En ocasiones es necesario seleccionar ciertos valores del vector original que cumplan con ciertacondición lógica. Por ejemplo, podríamos querer saber qué valores tienen un peso mayor a 60 kg.

13

Page 15: apuntes bioestadistica

1.2. VECTORES CAPÍTULO 1. INTRODUCCIÓN A R

Cuadro 1.1. Funciones para vectores.

Función Operaciónmax(x) valor máximo en el vector xmin(x) valor mínimo en el vector xsum(x) sumatoria de valores en xmean(x) media aritmética de xmedian(x) mediana de xrange(x) rango de x (valor menor y valor mayor)round(x) valores redondeados de xvar(x) varianza de xsd(s) desviación estándar de xsort(x) el vector x ordenado de menor a mayorsummary(x) cuartiles, media, valor mínimo y máximosample(x,y) muestra aleatoria de tamaño y≤ n de x

En este caso se pueden hacer dos preguntas, la primera sobre qué valores son mayores a 60 y la otrasobre cuáles son esos valores. En el primer caso tendríamos las posiciones de los valores y en elsegundo el valor numérico. Para saber las posiciones (primer caso) se escribe: which(pesos > 60)y para tener los valores (segundo caso) se escribe: pesos[pesos > 60]

1.2.1. Redondeo

Existen 3 funciones de redondeo en R. La más clásica es round, donde la regla de redondeo esdar el valor entero original cuando el primer decimal es menor a 5 o el valor entero superior si elprimer decimal es igual o mayor a 5. La función f loor redondea olvidándose de los decimales,mientras que la función ceiling redondea al entero siguiente.

1.2.2. Comparación de vectores

Existen diversas funciones que nos permiten comparar los elementos de dos vectores. Primerovamos a generar dos vectores con números aleatorios enteros, distribuidos de manera uniformeentre 1 y 10. A estos vectores les vamos a asignar las variables x1 y x2. Dado que se generaránnúmeros aleatorios, los resultados serán diferentes en cada caso.

x1 <−round(runi f (7,min = 1,max = 10))x2 <−round(runi f (9,min = 1,max = 10))

En nuestro caso, x1 contiene los siguientes valores: (6, 10,2, 4, 8, 10, 8) mientras que x2 contiene

14

Page 16: apuntes bioestadistica

1.3. MATRICES CAPÍTULO 1. INTRODUCCIÓN A R

a: (6, 5, 8, 8, 3, 2, 5, 4, 1). Si se quiere saber cuáles valores se encuentran en ambos vectores seescribe: intersect(x1,x2), que en nuestro caso da los valores 6, 2, 4, 8. Note que se obtienen valoresúnicos.

Para saber los valores que están en x1 y no en x2 se escribe: setdi f f (x1,x2), mientras que parasaber los que están en x2 y no en x1 se escribe setdi f f (x2,x1)

1.3. Matrices

Las matrices son arreglos de números en dos dimensiones. Aunque en R es posible realizar ope-raciones aritméticas sobre matrices, su utilidad en estadística radica en su capacidad para contenertablas de datos de una manera ordenada. Existen diferentes maneras de poder construir matrices.Una es mediante la función dim que establece las dimensiones (renglones,columnas) de una matriz.Por ejemplo, si se quiere hacer una matriz de 3 x 4 con los primeros 12 números enteros se teclea:

x <−1 : 12dim(x) <−c(3,4)x

Otra manera es mediante la función matrix donde se introducen primero los datos, después elnúmero de renglones y finalmente si los datos se están introduciendo por renglones o por columnas.Para esta última opción, se utiliza el comando byrow = al que se le asigna el valor lógico deT RUE o FALSE (debe escribirse en mayúsculas), el cual puede definirse usando sólo la primeraletra. Por ejemplo, para generar la misma matriz que en el caso anterior, se teclea: z <−matrix(1 :12,nrow = 3,byrow = F). En este caso el valor de FALSE es el default, por lo que puede omitirsede la instrucción.

La tercera opción es mediante la unión de varios vectores previamente asignados, para lo cualpueden usarse las funciones cbind (por columnas) o rbind (por renglones). Siguiendo el mismoejemplo:

x1 <−1 : 3x2 <−4 : 6x3 <−7 : 9x4 <−10 : 12matriz.x <−cbind(x1,x2,x3,x4)

Para obtener la matriz traspuesta del ejemplo anterior se teclea: transp.x <– t(matriz.x).

15

Page 17: apuntes bioestadistica

1.3. MATRICES CAPÍTULO 1. INTRODUCCIÓN A R

1.3.1. Renglones y columnas en matrices

Una vez que se tiene una matriz, es posible que se desee hacer alguna operación sobre sóloalgunas columnas, o menos frecuente, sobre algunos renglones. En estos casos, es importante sabercomo se identifican cada uno de ellos.

Siguiendo los ejemplos anteriores, se crearon 4 matrices, que están contenidas en las variables x,z, matriz.x y transp.x. En los primeros 3 casos, los nombres de cada renglón son iguales. Regre-sando al ejemplo de dim, recordemos que las dimensiones de una matriz están dadas en renglonesx columnas. En este sentido, si se quiere saber el valor que se encuentra en el segundo renglón,tercera columna se puede teclear, por ejemplo: z[2,3] que corresponde al 8. Cuando se quierentener todos los valores, se teclea una coma. De esta manera, si se quieren saber todos los valores dela segunda columna se puede teclear: z[,2], mientras que si se quieren todos los valores del tercerrenglón, se puede teclear z[3, ].

En los ejemplos que presentamos, las columnas de matriz.x ya están nombradas, por lo que si sequieren todos los valores de la primera columna, simplemente se teclea: matriz.x[x1].

Para asignar nombres a renglones y columnas que no están previamente identificadas (se verá suimportancia en las tablas de contingencia), se utilizan las funciones rownames y colnames respec-tivamente. Por ejemplo: rownames(z) <– c(“ren1”,“ren2”,“ren3”). Debe tenerse precaución, deque en este caso, a pesar de que se asignaron nombres a los renglones, no se encuentra definida lavariable z[ren1] como en el caso anterior.

1.3.2. Ecuaciones lineales con matrices

R tiene la capacidad de resolver sistemas de ecuaciones lineales usando matrices. Esta es unacapacidad que no será utilizada en el curso de bioestadística, pero que se presenta para su posibleuso.

Suponga que tiene el siguiente sistema de ecuaciones:

3x+4y = 12 (1.2)x+2y = 8 (1.3)

Para resolver este sistema de ecuaciones, primero es necesario ordenar cada ecuación, como sepresenta en las Ec. 1.2 y 1.3. Posteriormente se definen dos matrices. La primera a contiene a loscoeficientes de las variables, mientras que la segunda vc contiene los valores conocidos. Finalmentese utiliza la función solve, como se presenta a continuación:

16

Page 18: apuntes bioestadistica

1.4. FACTORES CAPÍTULO 1. INTRODUCCIÓN A R

a <−matrix(c(3,1,4,2),nrow = 2)vc <−matrix(c(12,8),nrow = 2)solve(a,vc)

1.4. Factores

Como se mencionará posteriormente, existen variables de tipo categórico. Este tipo de variables,aunque no son numéricas, tienen jerarquía entre ellas. Por ejemplo, supongamos que queremoscuantificar el dolor de alguna manera. Una manera sería por los términos: “nada”, “poco”, “medio”y “mucho”.

Este tipo de variables deben especificarse en R como “factores”. Existen diversos tipos de aná-lisis, donde es indispensable identificar que las variables son factores. Dentro de R, los factorescontienen niveles (“levels”). Siguiendo el ejemplo anterior, si la variable dolor contiene los ele-mentos descritos anteriormente, entonces, contiene 4 niveles. A continuación se presenta la maneraen que se definen los factores, así como la manera en que se les puede asignar niveles ordenados:

dolor <−c(0,3,2,2,1)dolor. f ac <− f actor(dolor, levels = 0 : 3)levels(dolor. f ac) <−c(“nada”, “poco”, “medio” , “mucho”)

El primer comando genera el vector numérico dolor que contiene los niveles de dolor en la escalaque definimos, para cinco pacientes. Mediante el segundo comando se define que estas variablesson categóricas y que contienen 4 niveles. Mediante el último comando se indica el orden al quecorresponde, en nuestra escala, cada nivel.

1.5. Conjuntos de datos (Data frames)

Los conjuntos de datos o “data frames” en R son listas de vectores o factores de la misma longitudque se encuentran relacionados entre ellos (se dicen que están “pareados”), de tal manera queprovienen del mismo individuo experimental.

Este tipo de listas es muy usado en R, dada su frecuencia en los análisis estadísticos. Por ejemplo,cuando se importan datos de otras fuentes (ver más adelante), estos quedan asignados a variablesde tipo data frame.

Suponga que quiere estudiar el efecto de un nuevo hipoglucemiante en un modelo experimental.En su diseño inicial, sólo quiere saber si su fármaco es capaz de disminuir las concentracionessanguíneas de glucosa en ratones, por lo que Ud. la mide antes y digamos 3 horas después de

17

Page 19: apuntes bioestadistica

1.6. IMPORTAR Y EXPORTAR CAPÍTULO 1. INTRODUCCIÓN A R

aplicar el fármaco. Vamos a suponer que las concentraciones normales de glucosa en sangre en elratón son similares a las del humano. En su experimento Ud. utiliza ratones de la cepa NOD (nonobese diabetic) que bajo condiciones normales tienen concentraciones altas de glucosa. Con estosantecedentes, vamos a suponer que los resultados corresponden a los valores que presentamos acontinuación, donde primero asignamos los datos a las variables hipo.antes e hipo.despues, parafinalmente definir el conjunto de datos en la variable exp:

hipo.antes <−c(143,161,115,200,180,167)hipo.despues <−c(127,138,80,175,172,133)exp <−data. f rame(hipo.antes,hipo.despues)

En el caso de data frames el acceso a cada vector es mediante el signo de pesos, de tal maneraque si se quieren los valores de la primera columna, debe teclearse exp$hipo.antes. Por ejemplo,si se quieren obtener los valores de la diferencia entre los dos vectores (que en este caso puedenser atribuibles a la acción del medicamento), se teclea: exp$hipo.antes – exp$hipo.despues.

1.6. Importar y exportar

1.6.1. Importar

Suele ser muy frecuente que la gente desee conservar una base de datos en hojas de cálculo (comoExcel) y que sobre estos datos desee realizar ciertas estadísticas. Aunque hay muchas operacionesestadísticas que pueden realizarse directamente en Excel, hay que recordar que Excel no es unpaquete estadístico, sino una hoja de cálculo.

Si se quieren importar bases de datos en R, estos tienen que estar guardados en formato de textodelimitado por tabulaciones, lo cual puede hacerse desde Excel o mediante un editor de texto (e.g.Notepad). Se recomienda que ni el nombre del archivo, ni el de las columnas contenga: nombresmuy largos; espacios; acentos; símbolos diferentes al punto. Esto puede evitar muchos problemasposteriores.

Si se trabaja en Excel para Windows, es necesario hacer notar que por default, al salvar el docu-mento en formato de texto con tabulaciones, se le anexa la terminación txt, aunque ésta no esvisible para el usuario. Por ejemplo, supongamos que metemos los datos correspondientes a losexperimentos con el hipoglucemiante en un archivo de Excel al que llamaremos: “hipo”. Suponga-mos, también, que la primera columna se llama “antes” y que la segunda se llama “despues”. Alguardar el archivo en formato texto definimos el nombre “hipo”, con lo que quedará guardadocomo “hipo.txt”. En el caso de ambiente Macintosh esto no ocurre, por lo que resulta más flexibley accesible la definición de los nombres a los archivos.

Una vez guardada, se puede “cargar” este archivo en la variable exp mediante el comandoread.table. En este caso, dado que nombramos a las columnas, se indica de manera explícita que

18

Page 20: apuntes bioestadistica

1.6. IMPORTAR Y EXPORTAR CAPÍTULO 1. INTRODUCCIÓN A R

nuestro archivo contiene “encabezados”:

exp <−read.table(“hipo.txt”,header = T )

Mediante names(exp) podemos ver los nombres de nuestras columnas, sin embargo, dado queexp es de tipo “data frame”, los nombres de las variables son: exp$antes y exp$despues. Si se quie-re declarar como variables a nuestros nombres de columnas, entonces se usa el comando attach,en este caso, attach(exp), con lo que quedan definidas las variables antes y despues.

En caso de que no se hayan incluido los encabezados, el archivo se carga con: exp <– read.table(“hipo.txt”) que contiene a los vectores: V 1 y V 2. Por tanto, el nombre de las variables son: exp$V 1y exp$V 2.

1.6.2. Exportar

También es posible exportar tanto datos como gráficas de R. En el caso de gráficas lo más comúnes seleccionar la ventana de la gráfica, y posteriormente buscar en el menú la opción de “Save as”que en el caso de Windows presenta las opciones tanto de formato jpg como de formato pdf. Enel caso de Windows se recomienda el primero por su facilidad para ser insertado en documentos,aunque su calidad no sea buena. Cuando se quiere una gráfica de excelente calidad, se recomiendagenerar un archivo tipo eps, del que se pueden obtener archivos pdf (ver más adelante en el Capítulo4). Para publicaciones, suelen preferirse este tipo de archivos.

También es posible exportar vectores (datos) en formato de texto. Para esto, es necesario ex-portar la transpuesta de la matriz, e indicar el número de columnas que se desean exportar. Porejemplo, supongamos que la variable guela es un “data frame” con 10 columnas que se quiere ex-portar en el archivo “guela.txt” la instrucción correspondiente es: write(t(guela), file=“guela.txt”,ncolumns=10). Este archivo se generará en el directorio en el que estemos trabajando (“workingdirectory”).

19

Page 21: apuntes bioestadistica

Capítulo 2

Introducción a la Bioestadística

2.1. Conceptos

Estadística descriptiva: proporciona herramientas para el análisis y comprensión de datos.

Estadística inferencial: busca obtener conclusiones que puedan ser aplicadas a otros casos(predicción).

Al proponer un modelo conceptual del proceso de una enfermedad, se deben considerar los si-guientes periodos:

Inducción o incubación: tiempo que transcurre entre la causa de la enfemedad y la apariciónde la misma.

Latencia: tiempo entre el comienzo de una enfermedad y su diagnóstico.

Tratamiento: usualmente comienza una vez diagnosticada la enfermedad.

Enfermedad: abarca los períodos de latencia y tratamiento.

Para hacer un buen diseño experimental, debe estimarse el número de personas con el factor deriesgo o la enfermedad. En este sentido, surgen estos dos conceptos epidemiológicos:

Prevalencia: proporción de personas en una población que presentan la enfermedad.

Tasa de incidencia: número de nuevos casos que presentan una enfermedad en un tiempodeterminado (usualmente anual), entre la suma del total del tiempo en que cada individuo dela población se encuentra libre de enfermedad.

20

Page 22: apuntes bioestadistica

2.2. TIPOS DE ESTUDIOS CAPÍTULO 2. BIOESTADÍSTICA

Por otra parte, el reporte de las variables medidas requiere de los siguientes conceptos:

Exactitud. Hace referencia a la cercanía con la que se encuentra la medición realizada con elvalor real de la variable medida.

Precisión. Hace referencia a la cercanía con que se encuentran un conjunto de medicionesrealizadas sobre la misma variable.

Cifras significativas. Es el número de cifras (decimales) que deben considerarse al reportarun dato o medición. Por convención el valor que se reporta representa el punto medio de unrango implícito cuyo tamaño esta dado por el último decimal. Por ejemplo, 8 cm implica unrango de 1 cm; 8.3 cm implica un rango de 0.1 cm; 8.32 cm implica un rango de 0.001cm

2.2. Tipos de estudios biomédicos

1. Encuestas o estudios transversales. La observación o medición se realiza una sóla ocasión,por lo que los resultados corresponden a un período de tiempo.

2. Experimentos. Implica la manipulación de variables independientes para determinar su efec-to en variables dependientes, bajo una situación de control. De manera típica, una muestrase divide en por lo menos dos grupos, el experimental y el control. El grupo control pue-de no llevar tratamiento, un tratamiento placebo o un tratamiento estándar, que es útil parapropósitos de comparación. La asignación a cualquiera de los grupos debe ser aleatoria.

3. Estudios clínicos (clinical trials). Es un tipo de experimentos en donde los sujetos de estudioson pacientes (padecen alguna enfermedad). Usualmente se evalúa la eficacia y/o toxicidadde un tratamiento determinado.

4. Estudios de campo (field trials). Se realizan con sujetos que no son pacientes, lo que requierefrecuentemente reclutar voluntarios en una comunidad específica. Un ejemplo clásico son losestudios de Fase III de las vacunas.

Tanto en los estudios clínicos como en los de campo, se busca que el sujeto desconozca loque se le está aplicando, y que de ser posible, la persona que está en contacto directo con lossujetos también lo desconozca. Esto disminuye un error, que en estadística se conoce comosesgo (bias). Estos estudios se conocen como doble ciego.

5. Estudios prospectivos. En estos estudios, no se aplica tratamiento. Los más comunes sondel tipo de panel donde se toman mediciones repetidas sobre los mismos individuos en undeterminado período de tiempo.

6. Estudio de casos. Se estudian casos de pacientes que ya fueron diagnosticados con la enfer-medad, y se busca encontrar la causas probables que la pudieron ocasionar.

21

Page 23: apuntes bioestadistica

2.3. TIPOS DE DATOS CAPÍTULO 2. BIOESTADÍSTICA

2.3. Tipos de datos biológicos

1. Datos en una escala de relación. Independientemente de las unidades que se utilicen paraestos datos numéricos, deben tener las siguientes dos características:

a) Existe un tamaño constante entre intervalos idénticos de medición.

b) La escala contiene un cero con significado físico.

2. Datos en una escala de intervalo. En estos casos, se mantiene el intervalo constante, pero laescala carece de un cero verdadero. El ejemplo clásico, son las escalas de temperatura engrados Celsius o Fahrenheit.

3. Datos en una escala ordinal. Las mediciones son relativas entre los datos, de modo que seestablece un orden: pequeños, medianos, altos.

4. Datos en una escala nominal. Son datos que se clasifican con base a un parámetro cualitativoen lugar de cuantitativo. La variable suele llamársele atributo

Asimismo, los datos o variables pueden ser:

1. Continuos. Si existe siempre un valor posible entre otros dos valores.

2. Discretos.

2.4. Problemas

1. Proponga un ejemplo del área de ciencias biomédicas, para cada uno de los tipos de estudios.Considere la pertinencia de grupos control en sus ejemplos.

2. Calcule la prevalencia y tasa de incidencia de una enfermedad en una comunidad en parti-cular.

22

Page 24: apuntes bioestadistica

Capítulo 3

Diseño experimental

Existen libros completos dedicados sólo al diseño experimental. En este capítulo se presenta unabreve introducción de tipo conceptual, mientras que en el Capítulo 13 se presentan algunas técnicaspara su implementación.

3.1. Métodos estadísticos

La estadística proporciona un conjunto de herramientas matemáticas muy poderosas que nospermiten obtener conclusiones concretas de nuestras hipótesis experimentales. Lamentablemente,es necesario saber el tipo de prueba que es apropiado tanto para el tipo de datos que se tienen,como para contestar la pregunta original. Es posible obtener conclusiones diferentes si las técnicasempleadas no son las adecuadas.

Existen algunas guías útiles para determinar el tipo de prueba que se debe aplicar. Primero esnecesario que se contesten este tipo de preguntas:

¿Cuáles son las variables de respuesta (dependientes)?

¿Cuáles son las variables que explican (independientes)?

¿Las variables que explican son continuas, categóricas o una mezcla de ambas?

¿Qué clase de variable de respuesta se tiene? ¿Es una medición continua, una cuenta, unaproporción, tiempo, tiempo de muerte o una categoría?

Las respuestas a estas preguntas pueden guiarnos a seleccionar el tipo de método. El siguientepaso consiste en determinar si se puede utilizar alguna prueba “clásica”, o si se requiere llevar acabo una modelación estadística más complicada. Hay que hacer énfasis en que no tiene caso llevara cabo un análisis más elaborado del que se requiere. Dentro de las pruebas clásicas se tienen:

23

Page 25: apuntes bioestadistica

3.2. HIPÓTESIS Y EXPERIMENTOS CAPÍTULO 3. DISEÑO EXPERIMENTAL

Pruebas de una muestra sobre la media (e.g. t de Student)

Pruebas de dos muestras sobre la media (e.g. Mann-Withney)

Pruebas de dos muestras sobre la varianza (e.g. Fisher)

Pruebas de correlación (e.g. Spearman)

Tablas de contingencia (e.g. χ2)

Comparación de distribuciones (e.g. Kolmogorov-Smirnov)

Es de suma importancia identificar los tipos de variables que se tienen. En el Cuadro 3.1 sepresenta una guía breve que puede ser muy útil en la identificación de las técnicas que se seguirán,y que se explican en los capítulos correspondientes.

Cuadro 3.1. Pruebas sugeridas, según tipo de variables

Var. dependiente Var. independiente Prueba1 continua 1 categórica Pruebas de 2 muestras sobre la media2 o más continuas 1 categórica ANOVA2 o más continuas 2 o más categóricas Análisis multivariadoproporción o cuenta proporción o cuenta Tablas de contingencia1 continua 1 continua Regresión– 2 continuas Correlación– Tiempo Análisis de series de tiempoTiempo de un evento – Análisis de sobrevivencia

3.2. Hipótesis y experimentos

Vamos a considerar como un experimento verdadero a la manipulación de variables indepen-dientes, bajo una situación de control, para determinar su efecto sobre las variables dependientes.A lo largo del curso se verá la importancia de contar con los controles adecuados para poder llegara conclusiones válidas. En el diseño experimental es indispensable contar con un buen controlnegativo. En ocasiones, también será conveniente considerar algún tipo de control positivo.

Dado que para ser considerado un experimento verdadero se requiere de por lo menos un grupocontrol y un grupo experimental, tanto la elección de los sujetos de estudio, como su asignación acada grupo, debe ser totalmente aleatoria. Estos conceptos se verán con más detalle en el Capítulo7.

24

Page 26: apuntes bioestadistica

3.3. MÁXIMA VEROSIMILITUD CAPÍTULO 3. DISEÑO EXPERIMENTAL

En el caso de las hipótesis, el planteamiento adecuado de ésta representa un paso relevante deldiseño experimental. De hecho, es tan importante este aspecto que se le dedica un capítulo a laprueba de hipótesis. Aquí solo se dará una pequeña introducción al concepto de hipótesis nula.

Karl Popper fue un filósofo de la ciencia que estableció que una buena hipótesis es aquella quepuede ser rechazada. En sus términos, las mejores hipótesis son f alseables. Para aclarar esto,considere las siguientes dos hipótesis:

1. Hay víboras en el parque de la colonia.

2. No hay víboras en el parque de la colonia.

Ambas involucran esencialmente la misma idea, sin embargo, una es falseable y la otra no loes. Supongamos que trata de rechazar la primera hipótesis, y desarrolla un recorrido por el parquebuscando víboras. El hecho de que no vea a ninguna, no implica que no estén por algún lado es-condidas. Recuerde que una de los principios más importante en ciencia establece que la ausenciade evidencia no es evidencia de ausencia.

El caso de la segunda hipótesis es completamente diferente. Esta hipótesis se puede rechazar enel momento en que Ud. vea a la primera víbora en el parque. Es decir, se trabaja bajo el supuesto deesta hipótesis es verdadera, hasta que se demuestre lo contrario. Este tipo de hipótesis se conocen enestadística como hipótesis nula, y las técnicas han sido desarrolladas para ver si se puede rechazaro no a estas hipótesis. Note que es muy probable, que Ud. esté más familiarizado con las otrashipótesis (alternas).

3.3. Máxima verosimilitud

El objetivo de la modelación estadística es determinar los valores de los parámetros en un modeloespecífico, que nos permitan realizar el mejor ajuste de éste a los datos experimentales. Las técnicasempleadas deben llevar a la determinación de estimadores insesgados (sin sesgo) que minimicenla varianza. En estos casos, el concepto “mejor” se define en términos de la máxima verosimilitud(maximum likelihood).

La máxima verosimilitud opera de la siguiente manera: dados una serie de datos y un modelode elección, ¿cuáles son los valores de los parámetros del modelo que pueden predecir con mayorprobabilidad los datos observados?

3.4. Principio de parsimonia

El principio de parsimonia se le atribuye al filósofo inglés William de Occam, por lo que aeste principio, también se le conoce coloquialmente como “la rasuradora de Occam”, dado que

25

Page 27: apuntes bioestadistica

3.5. REPLICACIÓN CAPÍTULO 3. DISEÑO EXPERIMENTAL

se dice que se “afeitan” las explicaciones al mínimo. Occam insistía en que, dadas un conjuntode explicaciones posibles para un fenómeno dado, la correcta es la más simple. En modelaciónestadística el principio de parsimonia implica que:

los modelos deben tener el menor número de parámetros posible

se deben preferir los modelos lineales a los modelos no lineales

se deben preferir los experimentos basados en pocas suposiciones, a los experimentos basa-dos en muchas

los modelos deben llevarse hasta un mínimo adecuado

se deben preferir las explicaciones simples a las explicaciones complejas

3.5. Replicación

El requerimiento de replicación surge debido a que si se realiza el mismo experimento en indivi-duos diferentes, es muy probable que se tengan repuestas diferentes. La causa de la heterogeneidades muy variada e incluye: genotipo, edad, sexo, clima, historia, etc. El objetivo de la replicaciónes, por tanto, aumentar la confiabilidad de los parámetros estimados y permitirnos cuantificar lavariable de estudio. Para ser considerado como una réplica, las mediciones deben:

ser independientes

no deben formar parte de una serie de tiempo (datos colectados del mismo lugar, en dife-rentes ocasiones)

no deben estar agrupados en el mismo lugar (en cuyo caso no serían espacialmente indepen-dientes)

¿Cuántas réplicas son necesarias? La respuesta más común es todas las que se puedan obtener.Una respuesta alternativa son 30. Sin embargo, esta regla no siempre opera. Dados los costos quepuede implicar procesar un número de muestras muy grande, se han desarrollado herramientasestadísticas que permiten establecer el número mínimo de muestras que se requieren para poderrechazar una hipótesis en concreto. Estas herramientas se presentan en el Capítulo 7.

26

Page 28: apuntes bioestadistica

Capítulo 4

Tablas de Frecuencia

4.1. Datos discretos

Cuando se recolecta una catidad relativamente grande de datos, suele ser más sencillo, presentar-lo en forma de una tabla de frecuencias. Cuando se tienen datos ordinales o nominales, se muestrantodas las variables observadas con el número correspondiente de observaciones. Estos datos pue-den presentarse también en gráficas de barras, donde la altura de cada barra es proporcional a lafecuencia de la clase (grupo) representada. El grosor de las barras debe ser el mismo para todos loscasos, de modo tal que el área de cada barra también es proporcional a su frecuencia. Debe hacersenotar que la escala de las frecuencias en el eje vertical debe comenzar siempre en cero para evitaraumentar diferencias aparentes entre las barras.

A manera de ejemplo se grafican los datos del Cuadro 4.1 en la Fig. 4.1. Note la estructura yformalismo tanto de la tabla como de la figura. Dado que se trata de datos discretos, las barrasdeben estar separadas entre ellas.

Cuadro 4.1. Tabla de frecuencias de grupos sanguíneos en el salón 491 de QFB.

Grupo sanguíneo Número Frecuencia relativa Frecuencia acumuladaO 27 0.61 0.61A 10 0.23 0.84B 5 0.11 0.95

AB 2 0.05 1.00

Para generar la gráfica del panel (a) en R se escribieron los siguientes comandos:

x <– c(“0”,“A”,“B”,“AB”)

27

Page 29: apuntes bioestadistica

4.1. DATOS DISCRETOS CAPÍTULO 4. TABLAS DE FRECUENCIA

O A B AB

(a)

Grupo

Cue

nta

05

1015

2025

A AB B O

(b)

Grupo

Fre

cuen

cia

0.0

0.2

0.4

0.6

Figura 4.1. Distribución de grupos sanguíneos en el grupo 491 de QFB. En (a) se muestran losdatos totales y en (b) se muestra su frecuencia relativa.

y <– c(27,10,5,2)ds <– “darksalmon”par(mfrow=c(1,2))barplot(y,names.arg=x,col=ds,main=“(a)”,xlab=“Grupo”,ylab=“Cuenta”)

En R se pueden utilizar un total de 657 colores diferentes, cuyos nombres se pueden accesartecleando colors(). Cuando se define un color por su nombre, es necesario escribirlo entre comillas(pueden ser dobles o sencillas). En este ejemplo, se asigna a la variable dg el nombre “darksalmon”para no tener que reescribirlo en la siguiente gráfica. Note que es posible organizar varias gráficasen una sola figura. Para hacer esto, es necesario utilizar la función par(m f row = c(x,y)) donde xrepresenta el número de renglones y y el número de columnas. En este caso, se definió un renglóncon 2 columnas, con el objetivo de tener las dos gráficas juntas y poder hacer comparaciones.

La segunda gráfica se puede generar de manera similar, definiendo los valores de las frecuencias.A continuación se presenta una manera alternativa de generar la gráfica, usando la función f reqque se encuentra dentro del archivo “funciones.txt” en la página de Archivos. Para poder utilizaresta función, o cualquiera de las que se encuentran ahí definidas, solo se requiere abrir el archivo,copiar la función completa y pegarla en la sesión de R. Sólo es necesario pegarla una vez por sesión,a menos que se borren todas las variables de la memoria. Con esta función es posible obtener elvector tanto de las frecuencias relativas como de frecuencias absolutas. Note que en este caso,las variables quedan ordenadas alfabéticamente, por lo que es necesario generar un vector con losnombres ordenados.

28

Page 30: apuntes bioestadistica

4.2. DATOS CONTINUOS CAPÍTULO 4. TABLAS DE FRECUENCIA

x2 <– c(“A”,“AB”,“B”,“O”)gpo <– c(rep(“O”,27),rep(“A”,10),rep(“B”,5),rep(“AB”,2))gpo.fq <– freq(gpo)barplot(gpo.fq$rel,col=ds,names.arg=x2,xlab=“Grupo”,ylab=“Frecuencia”,main=“(b)”)

Para generar el archivo eps que se utilizó en este documento se escriben los siguientes comandos:

postscript(“figblood.eps”,height=1.9,width=3.3,pointsize=7)par(mfrow=c(1,2),mex=0.8)barplot(y,names.arg=x,col=color,main=“(a)”,xlab=“Grupo”,ylab=“Cantidad”)barplot(gpo.fq$rel,col=ds,names.arg=x2,xlab=“Grupo”,ylab=“Frecuencia”,main=“(b)”)dev.off()

4.2. Datos continuos

4.2.1. Tablas de frecuencias

Cuando los datos son continuos, lo primero que se recomienda es ordenarlos de manera crecien-te, para que después puedan agruparse por clases. En el Cuadro 4.2 se muestra la concentraciónde hemoglobina en sangre en mineros. Los datos se encuentran ordenados. En el Cuadro 4.3 semuestran estos datos organizados por clases. En esta última tabla se sacrifica información con elfin de poder analizar mejor esta información.

Cuadro 4.2. Concentración de hemoglobina de mineros (g/cc).

12.2 16.4 17.8 18.4 19.0 19.5 20.0 20.9 23.013.1 16.8 17.8 18.4 19.1 19.5 20.0 20.9 23.014.3 16.9 17.8 18.4 19.1 19.7 20.2 21.0 23.215.5 17.1 17.8 18.4 19.2 19.7 20.3 21.1 23.315.5 17.2 18.0 18.5 19.2 19.7 20.3 21.4 23.515.6 17.3 18.1 18.5 19.3 19.7 20.5 21.6 23.515.9 17.4 18.2 18.5 19.3 19.7 20.6 21.7 24.116.1 17.6 18.3 18.5 19.4 19.8 20.6 22.0 24.216.2 17.8 18.3 18.8 19.4 19.9 20.8 22.4 24.816.2 17.8 18.3 19.0 19.5 19.9 20.8 22.7 26.2

Para construir el Cuadro 4.3 se decide primero el número de clases en que se van a organizar losdatos. Se trata que no sean tan pocas clases que los datos estén poco representados, pero tampoco

29

Page 31: apuntes bioestadistica

4.2. DATOS CONTINUOS CAPÍTULO 4. TABLAS DE FRECUENCIA

Cuadro 4.3. Tabla de frecuencias de concentraciones de hemoglobina de mineros (g/cc).

Clase Punto medio Frecuencia relativa Frecuencia absolutax x f (x) F(x)

12.0–12.9 12.45 0.01 0.0113.0–13.9 13.45 0.01 0.0214.0–14.9 14.45 0.01 0.0315.0–15.9 15.45 0.04 0.0716.0–16.9 16.45 0.07 0.1417.0–17.9 17.45 0.12 0.2618.0–18.9 18.45 0.17 0.4319.0–19.9 19.45 0.23 0.6620.0–20.9 20.45 0.13 0.7921.0–21.9 21.45 0.05 0.8522.0–22.9 22.45 0.03 0.8823.0–23.9 23.45 0.07 0.9524.0–24.9 24.45 0.03 0.9825.0–25.9 25.45 0.00 0.9826.0–26.9 26.45 0.01 0.99

demasiadas, en cuyo caso carecería de sentido la tabla. Un buen número puede ser entre 8 y 20.En este caso se escogieron 15 y se establecen las clases de modo que todos los datos se encuentrencontenidos. En principio, el rango debe ser mayor a los valores frontera de los datos (en este caso,menor a 12.2 y mayor a 26.2).

Este tipo de tablas también pueden generarse con ayuda de R mediante la función hist. Estafunción grafica el histograma de un vector (ver más adelante), pero si se asigna a una variablenueva, entonces, además, se tiene acceso a las cuentas (counts), los puntos medios (mids), lospuntos de corte (breaks) y las frecuencias relativas (density). Supongamos que se tienen cargadoslos datos del Cuadro 4.2 en la variable hg, para obtener los datos se pude emplear el siguientealgoritmo:

hg.hist <– hist(hg,prob=T,breaks=15)hg.new <– rep(hg.hist$mids,hg.hist$counts)n <– length(hg.hist$density)hg.abs <– numeric(n)hg.abs[1] <– hg.hist$density[1]for(i in 2:n) hg.abs[i] <- hg.abs[i-1] + hg.hist$density[i]

En la variable hg.hist$counts se encuentran las cuentas (el número de casos en cada clase);en la variable hg.hist$breaks se encuentran los puntos de corte de cada clase; en la variablehg.hist$density se encuentran las frecuencias relativas para cada clase y en la variable hg.abs se

30

Page 32: apuntes bioestadistica

4.2. DATOS CONTINUOS CAPÍTULO 4. TABLAS DE FRECUENCIA

encuentra la frecuencia absoluta de cada clase.

4.2.2. Tablas de tronco y hojas

Otra manera de organizar y presentar datos continuos es haciendo tablas de tronco y hojas (stemand leaf). Para hacer estas tablas, se tabulan en la primera columna los primeros dígitos de losdatos (en el ejemplo de hemoglobina, los primeros 2) y en la segunda columna se pone el últimodígito, sin importar el número de veces que se repita. Estas tablas dan una idea de la distribuciónde los datos y contienen toda la información.

Para hacer estas tablas con R se escriben los siguientes comandos (se parte de un archivo que eneste ejemplo llamamos “hemog.txt”; el archivo debe guardarse en formato ASCII - text tabulateden Excel- y supone que el archivo no tiene encabezados, o bien están comentados con #):

hg <– read.table(“hemog.txt”)stem(hg$V1,scale=2)

4.2.3. Histogramas

A diferencia de los datos discretos, los continuos se grafican en histogramas, es decir, las barrasse encuentran continuas y representan a cada una de las clases.

En la Fig. 4.2 se presenta el histograma correspondiente al Cuadro 4.3 así como la gráfica de lafrecuencia acumulada.

(a)

Conc. (g/cc)

Fre

cuen

cia

rela

tiva

15 20 25

0.00

0.10

0.20

12 16 20 24

0.0

0.4

0.8

(b)

Conc. (g/cc)

Fre

cuen

cia

abso

luta

Figura 4.2. Distribución de concentraciones de hemoglobina. En (a) se muestran el histograma yen (b) se muestra la frecuencia acumulada.

31

Page 33: apuntes bioestadistica

4.3. PROBLEMAS CAPÍTULO 4. TABLAS DE FRECUENCIA

Para hacer la Fig. 4.2 en R, se escriben los siguientes comandos (en este ejemplo, no se incluyenpor comodidad de escritura las definiciones de color ni de títulos):

hg <– read.table(“hemog.txt”)hg <– hg$V1x <– hgm <– mean(x)s <– sd(x)par(mfrow=c(1,2))hist(hg,prob=T,breaks=15)curve(dnorm(x,mean=m,sd=s),add=T,col=“darkgreen”,lwd=2)plot(hg.hist$mids,hg.abs,type=“l”)

En el Capítulo 9 se presenta la explicación sobre como ajustar una distribución normal a unhistograma.

4.3. Problemas

1. Recolecte la estatura de por lo menos 50 adultos diferentes, del mismo sexo y de edadessimilares (rango de 5 años).

a) Organize sus datos en una tabla de frecuencia.

b) Haga una tabla de troncos y hojas.

c) Grafique el histograma correspondiente.

d) Compare la frecuencia acumulada con la distribución normal correspondiente.

32

Page 34: apuntes bioestadistica

Capítulo 5

Estadística Descriptiva

A los números que pueden describir una población se les conoce como parámetros, si describenuna muestra entonces, se les conoce como estadísticas. La convención es que los parámetros seescriben con letras griegas, mientras que las estadísticas con letras latinas.

Existen dos tipos de medidas para describir una población o una muestra: las medidas de ten-dencia central y las medidas de variación.

5.1. Tendencia central

5.1.1. La media

El número mas usado para describir el centro de una población es el promedio o media aritméticay se utiliza la µ en caso de poblaciones y x para muestras. Su fórmula es muy conocida:

x =n

∑i=1

xn

(5.1)

donde n representa el tamaño de la muestra: x < −sum(x)/length(x) que se obtiene de maneradirecta mediante la función mean(x)

En las áreas de ecología y economía, suele preferirse la media geométrica ya que resulta másrepresentativa. Esta se define como la raiz n de los productos:

x = n√

∏x =(∏x

)1/n (5.2)

que se puede obtener con: prod(x)∧ (1/length(x)). Para comprender el uso de esta media, se

33

Page 35: apuntes bioestadistica

5.2. VARIACIÓN CAPÍTULO 5. ESTADÍSTICA DESCRIPTIVA

utilizará el siguiente ejemplo. Suponga que se tienen los siguientes salarios mensuales de 5 me-xicanos en miles de pesos: salario < −c(10,1,1,10,100). La media aritmética se obtiene con:mean(salario) que da $24,400.00 que dista mucho de ser un descriptor de la muestra. Este re-sultado se debe a la presencia de un dato fronterizo que llamaremos outlier, y que corresponde a$100,000.00. Si ahora consideramos la media geométrica: prod(salario)∧ (1/length(salario)) elresultado es de: $6,309.57 que es más representativo.

5.1.2. La mediana

La mediana es el número que divide el total de las obersvaciones ordenadas en dos. Cuando elnúmero de observaciones length(x) es impar, entonces, la mediana corresponde a la observación(n + 1)/2. Cuando n es par, entonces la mediana corresponde al promedio de las observacionesn/2 y (n/2) + 1. El valor puede obtenerse de manera directa (sin necesidad de ordenar) con lainstrucción median(x)

La mediana provee el valor numérico del caso más típico, por lo que en ocasiones se prefiere ala media. De hecho en el área de ciencias biomédicas, y de química es muy utilizado el conceptode la mediana, algunos ejemplos son el tiempo de vida media, la dosis letal media, etc.

5.1.3. La moda

La moda corresponde al valor de la variable que ocurre con mayor frecuencia. Si los datos seencuentran organizados por intervalos de clases, entonces la moda representa la clase con mayorfrecuencia. Si los datos tienen una distribución cercana a la normal, los datos más frecuentes seencontrarán en el centro y el valor de la moda estará cerca del de la mediana y la media.

Puden presentarse muestras o poblaciones donde existen dos o más clases cuya frecuencia esmayor a las demás. En esos casos, se presentarán muestras multimodales.

5.2. Variación

Las medidas de variación suelen ser las más importantes en los análisis estadísticos, ya que nospermiten conocer la naturaleza de nuestros datos, así como su distribución.

5.2.1. El rango

Representa la medida de variación más simple de obtener, pero a la vez la menos útil, ya que esmuy susceptible a la presencia de outliers. Se obtiene por la diferencia del valor más alto menos el

34

Page 36: apuntes bioestadistica

5.2. VARIACIÓN CAPÍTULO 5. ESTADÍSTICA DESCRIPTIVA

valor más bajo. Cuando se escribe la función range(x), R da como resultado un vector con el valormínimo y el valor máximo de la muestra. El resultado del rango puede obtenerse con la instrucción:max(x)−min(x).

5.2.2. Suma de cuadrados (SS)

Se quiere saber que tan lejos se encuentra cada observación del valor de la media. Si se sumantodas las diferencias: ∑(x− x), el resultado dará cero, ya que por definición, la media aritméticapasa por enmedio de todos los puntos. Una manera de evitar la presencia de números negativos enla sumatoria es elevando cada diferencia al cuadrado:

SSx = ∑(x− x)2 (5.3)

A este término se le conoce como suma de cuadrados y es usado en varias técnicas estadísticascomo pruebas de hipótesis, regresión, correlación, etc. Cuando se realizan varios cálculos, y no setiene acceso a una computadora, es posible calcular la suma de cuadrados mediante otra fórmula,que resulta más sencilla:

SS = ∑y2− [∑y]2

n(5.4)

5.2.3. La varianza

Es la medida de variación más importante de la estadística. Su valor representa el promedio dela suma de cuadrados:

σ2x = ∑(x− x)2

N(5.5)

s2x = ∑(x− x)2

n−1(5.6)

Nótese que en la Ec. 5.6, que se utiliza para las muestras, a diferencia de la Ec. 5.5, se divide entren−1, que representan los grados de libertad (ν) de la muestra. Los grados de libertad equivalen altamaño de la muestra n menos el número de parámetros p estimados de los datos. Dado que en estecaso sólo se ha determinado un parámetro de la muestra (la media), entonces lo grados de libertadse calculan como n−1. En R se puede obtener con: var(x).

Para ilustrar la importancia de la varianza, se toma el siguiente ejemplo. Se supone que lossiguientes vectores contienen los valores de las concentraciones de ozono (en partes por cien mi-llones pphm) máximas alcanzadas en 10 días de verano en tres jardines públicos diferentes:

35

Page 37: apuntes bioestadistica

5.2. VARIACIÓN CAPÍTULO 5. ESTADÍSTICA DESCRIPTIVA

A <- c(3,4,4,3,2,3,1,3,5,2)B <- c(5,5,6,7,4,4,3,5,6,5)C <- c(3,3,2,1,10,4,3,11,3,10)

Los promedios correspondientes son: A = 3, B = 5,C = 5 y sus respectivas varianzas: s2A = 1.33,

s2B = 1.33, s2

C = 14.22. Note que a pesar de que las muestras de B y C tienen la misma media, suvarianza es muy diferente. No deben compararse muestras con varianzas diferentes. Se sabeque existe posibilidad de daño físico cuando la concentración de ozono rebasa las 8 pphm. Lamedia indica que los 3 jardines son seguros y que el jardín B tiene el mismo comportamiento queC, sin embargo, en este último caso, se rebasa la norma más del 30 % de las veces (3 de 10 días).

Dado que en varias aplicaciones es posible calcular directamente la varianza y se conocen losgrados de libertad, entonces puede calcularse la suma de cuadrados despejando de la Ec. 5.6:

SSx = s2xν (5.7)

5.2.4. Desviación Estándar

Cuando se calcula la varianza las unidades corresponden al cuadrado de las originales. En esesentido, surge el concepto de la desviación estándar, que es la raiz cuadrada de la varianza:

σx =

√∑(x− x)2

N(5.8)

sx =

√∑(x− x)2

n−1(5.9)

La desviación estándar se obtiene de manera directa con: sd(x).

5.2.5. Error estándar

Representa una estadística similar a la desviación estándar, pero que es más representativa cuan-do se buscan obtener inferencias a partir de los datos de una muestra. El error estándar de la mediase calcula como:

SEx =

√s2

xn

=sx√

n(5.10)

36

Page 38: apuntes bioestadistica

5.2. VARIACIÓN CAPÍTULO 5. ESTADÍSTICA DESCRIPTIVA

Se puede obtener con la instrucción: sqrt(var(x)/length(x))

5.2.6. Cuantiles

Suponga que divide el total de observaciones en cuatro grupos de la misma proporción. Cadagrupo representa, entonces, el 25 % de la población. A cada uno de estos grupos se le conoce comocuartil, siendo el segundo cuartil igual a la mediana.

A través de los cuartiles es posible obtener un tipo de rango que es menos susceptible a lapresencia de outlier. El rango de intercuartiles (IQR) se define como: IQR = Q3−Q1. Para ob-tener los cuartiles en R, simplemente se escribe quantile(x). Asimismo, recuerde que la funciónsummary(x) da como resultado los cuartiles, los valores mínimo y máximo (rango) asi como elvalor de la media.

5.2.7. Boxplots

Una de las maneras más usadas para graficar variaciones son las gráficas de cajas conocidascomo boxplots (antes box and whisker plots). Estas gráficas se construyen a partir de los datos delos cuartiles.

La longitud de la caja abarca el IQR, es decir, desde Q1 hasta Q3. Se cruza una linea justo en lamediana (Q2). Las lineas verticales por arriba y por abajo de la caja se conocen como las “barbas”y para establecer los bordes de éstas se toman las siguientes consideraciones:

El borde superior se coloca ya sea en Q3 + 1,5(IQR) o en la observación mayor; se escogeel número menor de estas dos cantidades.

El borde inferior se coloca ya sea en Q1−1,5(IQR) o en la observación menor; se escoge elnúmero mayor de estas dos cantidades.

Para obtener estas gráficas en R simplemente se utiliza la instrucción boxplot(x). Por ejemplo,para hacer la Fig. 5.1 correspondiente al boxplot de los datos de hemoglobina se dan las siguientesinstrucciones:

hg <– read.table(“hemog.txt”)boxplot(hg$V1,col=“darksalmon”,ylab=“Hemoglobina (g/cc)”,notch=T)

Cuando existen observaciones por fuera de los bordes, éstas se indican con círculos vacíos;estos datos pueden representar outliers. En el caso de la Fig. 5.1 puede observarse la presenciade 3 posibles outliers. La opción notch=T se utiliza para graficar con diagonales los intervalos deconfianza al 95 % de la mediana.

37

Page 39: apuntes bioestadistica

5.3. PROBLEMAS CAPÍTULO 5. ESTADÍSTICA DESCRIPTIVA

1214

1618

2022

2426

Hem

oglo

bina

(g/

cc)

Figura 5.1. Boxplot de las concentraciones de hemoglobina.

5.3. Problemas

1. Los datos del Cuadro 5.1 corresponden a la presión sistólica en mmHg de 48 varones adultosjóvenes.

a) Haga una estadística descriptiva de estos datos.

b) Grafique el histograma y un boxplot.

c) Establezca si los datos siguen una distribución simétrica.

d) Establezca los datos que Ud. verificaría para detectar outliers.

Cuadro 5.1. Presión sistólica de varones adultos jóvenes (mmHg)

87 106 114 120 129 140 155 18393 107 116 122 133 141 155 194

101 107 117 122 133 146 162 197104 109 118 125 134 146 167 204105 110 118 125 135 148 173 212105 114 119 128 138 152 176 230

38

Page 40: apuntes bioestadistica

Capítulo 6

Análisis Gráfico

En este capítulo se presentan algunas de las capacidades de R para hacer gráficas y Tablas.Comenzamos generando los datos. Se van a generar 100 datos de altura y de peso. Para generarlos,se utilizará la función rnorm(n,mean = x,sd = y). Por ejemplo suponemos que la media de lospesos está en 67 kg con una desviación estándar de 5 kg:pesos <−rnorm(100,mean = 67,sd = 5).Con summary(pesos) se obtienen los cuartiles, el valor mínimo y máximo así como la mediana.Se puede generar un vector de 100 alturas de la misma manera: alturas < −rnorm(100,mean =1,65,sd = 0,08). Estos datos, como fueron generados al azar no están correlacionados, lo cual sepuede observar al graficar: plot(alturas, pesos). Note que en este comando se escribe primero x yluego y. En la Fig. 6.1 (a) se presenta esta gráfica, la cual se generó con: plot(pesos,alturas,main =“(a)”,xlab = “Pesos (Kg)”,ylab = “Alturas (m)”, pch = 20) (previa definición de las 3 gráficascon: par(m f row = c(1,3)).

55 60 65 70 75 80

1.5

1.6

1.7

1.8

(a)

Pesos (Kg)

Altu

ras

(m)

(b)

Alturas (m)

Den

sida

d

1.4 1.5 1.6 1.7 1.8 1.9

01

23

45

−2 −1 0 1 2

1.5

1.6

1.7

1.8

(c)

Cuantiles Teóricos

Cua

ntile

s m

uest

read

os

Figura 6.1. Gráficas de alturas. (a) Scatterplot de alturas y pesos. (b) Histograma de las alturas. (c)QQ-plot de las alturas.

Para generar el histograma de la Fig. 6.1 (b) se escribieron las siguientes instrucciones:

39

Page 41: apuntes bioestadistica

6.1. QQ-PLOTS CAPÍTULO 6. ANÁLISIS GRÁFICO

x <- alturashist(x,freq=F,main=“(b)”, xlab=“Alturas (m)”, ylab=“Densidad”, col=“gray”)curve(dnorm(x,mean=1.65,sd=0.08),add=T)

La asignación de alturas a x es importante para la función dnorm ya que requiere que el nombrede la variable contenga x.

6.1. QQ-plots

Uno de los propósitos de calcular la distribución empírica acmulada es tratar de determinar si losdatos se encuentran distribuidos de manera normal. Para realizar una mejor pruba, puede graficarsela observación k más pequeña en contra del valor esperado k más pequeño de una observación de ndatos en una distribución normal. Esto quiere decir, que si los datos originales estuvieran distribui-dos normalmente, se esperaría obtener una línea recta. El QQ-plot de la Fig. 6.1 (c) se obtuvo con:qqnorm(x,main = “(c)”,xlab = “Cuantiles Teóricos”,ylab = “Cuantiles muestreados”, pch = 20)

6.2. Stripcharts

Para explicar estas gráficas, se utilizarán los datos del archivo energy.txt que puede encontrarseen la librería (paquete) ISwR. Los datos se traducen en el Cuadro 6.1.

Cuadro 6.1. Gasto energético de mujeres por complexión.

gasto complex gasto complex9.21 obesa 7.53 delgada7.48 delgada 8.08 delgada8.09 delgada 10.15 delgada8.40 delgada 10.88 delgada6.13 delgada 7.90 delgada

11.51 obesa 12.79 obesa7.05 delgada 11.85 obesa9.97 obesa 7.48 delgada8.79 obesa 9.69 obesa9.68 obesa 7.58 delgada9.19 obesa 8.11 delgada

Los datos se cargan con: energy <−read.table(“energy.txt”,header = T ), para saber los nom-bres de las columnas: names(energy) y finalmente, para tener disponibles como variables, los nom-bres de las columnas: attach(energy). Si se grafican los datos en un boxplot: boxplot(gasto ∼

40

Page 42: apuntes bioestadistica

6.2. STRIPCHARTS CAPÍTULO 6. ANÁLISIS GRÁFICO

complex), se podrá percibir que uno de los grupos tiene un intervalo de cuartiles mayor que elotro, dificultando la comparación. Note que en este caso la tilde se utiliza para poner una fórmu-la que equivale a decir: graficar los datos del vector gasto de acuerdo a las categorías del vectorcomplex.

Una mejor opción pude ser graficar ambos grupos en un srtipchart. En este tipo de gráficas,las observaciones de cada grupo se ubican horizontalmente, dependiendo de su valor numérico(ver Fig. 6.2). Estas gráficas representan una alternativa a los boxplots cuando las muestras sonrelativamente pequeñas.

6 7 8 9 10 11 12 13delg

ada

obes

a

(a)

6 7 8 9 10 11 12 13delg

ada

obes

a

(b)

6 7 8 9 10 11 12 13

delg

ada

obes

a

(c)

6 7 8 9 10 11 12 13

delg

ada

obes

a

(d)

Figura 6.2. Stripcharts del gasto energético de mujeres según su complexión. (a) Stripchart condatos sobrepuestos. (b) Stripchart con datos apilados. (c) Stripchart con opción jitter. (d) Stripchatcon opción jitter= 0.03

Para generar la gráfica de la Fig. 6.2 (a) simplemente se escribe: stripchart(gasto ∼ complex).Existen diferentes métodos para graficar los datos, el default es sobrepuestos, donde observacionescon el mismo valor no son distinguibles. En la Fig. 6.2 (b) se presenta la versión graficando losdatos apilados: stripchart(gasto ∼ complex,method = “stack′′), mientras que en la Fig. 6.2 (c) y(d) se aplicó inestabilidad a los datos (jitter). La diferencia entre estas últimas dos figuras estribaen el grado de inestabilidad aplicado (0.1 y 0.03 respectivamente).

41

Page 43: apuntes bioestadistica

6.3. BARRAS CAPÍTULO 6. ANÁLISIS GRÁFICO

6.3. Barras

Las gráficas de barras ya se explicaron en capítulos anteriores. Aquí sólo se mostrará comoagregar a las barras líneas que establezcan el error estándar sobre la media. Supongamos quetenemos los datos de la tasa de mortandad en Virginia por sexo y localización. Los datos originalespueden cargarse con la función: data(VADeaths) y posteriormente pueden verse simplemente con:VADeaths. Con estos datos se puede generar otro archivo, donde en la primera columna (muerte)contendrá las tasas de mortalidad y la segunda columna (gpo) el grupo al que pertenece cada tasa(RM, RF, UM, UF). Suponemos que nombramos a este nuevo archivo “virginia2.txt”.

Primero se carga el archivo en una variable y se declara que gpo es un factor:

vir <– read.table(“virginia2.txt”,header=T)attach(vir)gpo <– factor(gpo)

Se calculan las medias y errores estándar sobre la media de cada grupo con la función tapply:

med <– tapply(muerte, gpo, mean)desv <– tapply(muerte, gpo, sd)n <– tapply(muerte, gpo, length)sem <– desv/sqrt(n)

Para graficar los errores estándar, se utiliza la función arrow, para lo cual se requiere dar lascoordenadas (x1,y1) de donde se comienza el trazo, así como las coordenadas (x2,y2) donde setermina. Para tener las coordenadas en x asignamos la gráfica a una variable, donde se obtendránlos centros de cada barra y posteriormente se añaden las líneas:

x <- barplot(med,ylim=c(0,55),col=“gray”)arrows(x,med+sem,x,med-sem,length=0.1,angle=90,code=3)

Note que, en este caso, para hacer la gráfica de barras se definió la longitud del eje de las or-denadas. Cuando se hace de manera directa, al agregar las líneas, algunas de ellas no alcanzan agraficarse completamente, por lo que es necesario reescalar el eje. En la Fig. 6.3 se compara elboxplot contra la gráfica de barras de las medias.

6.4. Dotcharts

Las gráficas de puntos (dotcharts) representan una alternativa a las gráficas de barras. Para ejem-plificar, se tomarán los datos originales (completos) de las tasas de mortalidad en Virginia en 1940:

42

Page 44: apuntes bioestadistica

6.4. DOTCHARTS CAPÍTULO 6. ANÁLISIS GRÁFICO

RF RM UF UM

1030

5070

(a)

RF RM UF UM

(b)

010

2030

4050

Figura 6.3. Tasas de mortalidad de Virginia en 1940. (a) Boxplot. (b) Gráfica de barras (x± sx).

data(VADeaths). En la Fig. 6.4 se muestra el dotchart que se obtiene con las siguientes instruccio-nes:

data(VADeaths)dotchart(VADeaths)

50−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5455−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5960−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6465−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6970−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−74

50−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5455−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5960−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6465−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6970−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−74

50−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5455−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5960−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6465−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6970−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−74

50−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5450−5455−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5955−5960−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6460−6465−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6965−6970−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−7470−74

Rural Male

Rural Female

Urban Male

Urban Female

10 20 30 40 50 60 70

Figura 6.4. Tasas de mortalidad en Virgina por grupo etáreo.

43

Page 45: apuntes bioestadistica

6.5. GRÁFICAS CON CONDICIONES CAPÍTULO 6. ANÁLISIS GRÁFICO

6.5. Gráficas con condiciones

En ocasiones se tienen datos multivariados, donde la relación entre dos variables puede verseafectada por los efectos de otros procesos. La función coplot permite obtener gráficas condicio-nadas de manera automática como se muestran en la Fig. 6.5. Para hacer la figura, se baja elarchivo “Pollute.txt” de la página del Crawley; se asigna a una variable x, se carga en memoria conattach(x) y finalmente se grafica con: coplot (Pollution ∼ Temp|Rain).

2040

6080

100

45 50 55 60 65 70 75

45 50 55 60 65 70 75 45 50 55 60 65 70 75

2040

6080

100

Temp

Pol

lutio

n

10 20 30 40 50

Given : Rain

Figura 6.5. Niveles de contaminación contra temperatura, según la precipitación pluvial.

La Fig. 6.5 está descrita por la fórmula: la contaminación (Pollution) está en el eje de las or-denadas, la tempertatura (Temp) está en el eje de las abscisas en 6 gráficas condicionadas por losvalores de lluvia (Rain) mostrados en el panel superior. Los páneles se encuentran ordenados delinferior de la izquierda, en sentido de renglones, hasta el superior de la derecha según su preci-pitación pluvlial (de menor a mayor). Note que el rango de la precipitación pluvial varía por panel,de tal manera que el rango mayor (8–33) se encuentra en el panel inferior izquierdo, mientras queel rango menor (35–39) se encuentra en el panel medio inferior.

6.6. Problemas

1. Obtenga o genere una serie de datos (en cualquier caso, indique la procedencia) en la cualestén involucradas 3 variables numéricas (1 dependiente y 2 independientes).

44

Page 46: apuntes bioestadistica

6.6. PROBLEMAS CAPÍTULO 6. ANÁLISIS GRÁFICO

2. Establezca gráficamente, para una de las variables, si su distribución es normal.

3. Obtenga la gráfica con condiciones correspondiente.

45

Page 47: apuntes bioestadistica

Capítulo 7

Muestreo

Dado que los datos son muestreados aleatoriamente, existe siempre el riesgo de llegar a conclu-siones erroneas al probar una hipótesis. En estadística su pueden cometer 2 tipos de errores:

Tipo I. A pesar de que la hipótesis nula es correcta, la prueba estadística la rechaza.

Tipo II. A pesar de que la hipótesis nula es falsa, la prueba estadística la acepta.

El riesgo de cometer un error Tipo I se conoce como el nivel de significancia α. El riesgo decometer un error Tipo II, β, dependerá del tamaño y la naturaleza de la diferencia que se estátratando de detectar.

Los aspectos más importantes en un diseño experimental son la aleatorización, la reproducibi-lidad y los grupos control. La selección del tamaño de muestra para probar la hipótesis de interésdepende de los siguientes puntos:

La varianza de la variable dependiente: entre mayor sea la varianza, mayor será la muestranecesaria.

La diferencia entre el grupo experimental y el grupo control, que se quiere determinar.

El riesgo de cometer un error Tipo I (rechazar una hipótesis nula verdadera)

El riesgo de cometer un error Tipo II (aceptar una hipótesis nula falsa)

En la práctica, el tamaño de la muestra suele depender de cuestiones prácticas como los recursos,las personas disponibles para hacer el experimento, el espacio disponible, el número de animales,etc. Sin embargo, cabe hacer mención que no vale la pena realizar un experimento si el tamañode la muestra no es suficiente para poder probar la hipótesis nula. Una prueba estadística noserá capaz de detectar una diferencia verdadera, si la muestra es muy pequeña, comparada con lamagnitud de la diferencia.

46

Page 48: apuntes bioestadistica

7.1. POTENCIA CAPÍTULO 7. MUESTREO

7.1. Potencia

Se conoce como potencia de la prueba a la probabilidad de que un estudio rechase la hipótesisnula cuando ésta es falsa. Es decir, la potencia estadística está relacionada con los errores Tipo II.La probabilidad de aceptar una hipótesis nula falsa se denomina β, luego la potencia se calculacomo 1−β. En general se recomienda trabajar con una α =0.05 (probabilidad de cometer errorTipo I); una β =0.2, y por tanto una potencia de 0.8.

La diferencia que se quiere determinar no siempre es evidente. En la práctica, algunos investi-gadores diseñan sus pruebas para encontrar diferencias del 25 % o del 50 % entre las medias dealguna variable. Entonces si la media de un grupo es digamos 16 g, y se quiere encontrar unadiferencia del 25 %, entonces la media mínima será de 16 x 1.25 = 20, por lo tanto la diferencia,δ = 4.

Para calcular el tamaño de la muestra n, se utiliza la siguiente fórmula:

n =(

s(zα + z1−β)δ

)2

(7.1)

Los valorez de z provienen de las tablas de la distribución normal para los parámetros α y (1−β).Estos valores, considerando una prueba de dos colas (ver más adelante en distribución normal) ylos valores tradicionales de α = 0.05 y β = 0.2 se obtienen con la instrucción: qnorm(1–0.025) yqnorm(1–0.2) obteniéndose 1.959964 y 0.8416212 respectivamente. En este sentido, puede sim-plificarse la Ec. 7.1 quedando como:

n≈ 8× s2

δ2 (7.2)

Este cálculo se facilita en R con la función power.t.test que se encuentra en la librería ctest. Acontinuación se indica el procedimiento con un ejemplo:

library(ctest)power.t.test(delta=0.5, sd=2, sig.level=0.05,power=0.8) (7.3)

cuyo resultado da un tamaño de muestra (para cada grupo) de mínimo 253 (252.1281). Con estecomando puede preguntarse el tamaño de la muestra, la δ, o bien la potencia de la prueba; si seescriben las demás variables, se calcula la faltante.

47

Page 49: apuntes bioestadistica

Capítulo 8

Probabilidad

8.1. Eventos

El resultado de una observación simple o medición se conoce generalmente como evento. Algu-nos eventos pueden descomponerse en eventos más simples. Por ejemplo, si se dice que una mujeres adolescente, este evento incluye a mujeres de diversas edades, o bien si se encuentra que unapersona es hiperglucémica, se esta refiriendo a un evento compuesto.

Dos eventos simples no pueden ocurrir al mismo tiempo. Se dice que se excluyen uno al otro,es decir, son mutuamente excluyentes. Por otra parte, eventos compuestos pueden presentarse demanera simultánea.

Al conjunto de todos los eventos posibles que pueden presentarse en un experimento determi-nado, se le conoce como espacio de resultados. En teoría de conjuntos, un evento simple es unmiembro del espacio de resultados, es decir, es un subconjunto. Cuando no se tiene certidumbresobre el resultado del experimento (e.g. lanzar una moneda), entonces se habla de experimentosaleatorios o estocásticos.

8.2. Concepto de Probabilidad

Vamos a considerar el caso de la ocurrencia en los nacimientos de varones H y mujeres M.Si no se consideran a los hermafroditas, entonces el conjunto de resultados es simplemente H,M.Sea n el número total de descendientes y k el número de descendientes varones. Se conoce a kcomo la “frecuencia absoluta” o simplemente “frecuencia” del evento varón. Debido a que este esun evento estocástico, la frecuencia puede ser cualquier número entero entre 0 y n, esto es:

48

Page 50: apuntes bioestadistica

8.3. DETERMINACIÓN DE RESULTADOS POSIBLES CAPÍTULO 8. PROBABILIDAD

0≤ k ≤ n (8.1)

Con base a lo anterior, es posible acercarse al concepto de probabilidad mediante el cálculo dela “frecuencia relativa” h, de la cual se habló anteriormente:

h =kn

(8.2)

Mientras que k puede ir de 0 a n, h comprende el rango de 0 a 1, aunque también puede repor-tarse como porcentaje. Conforme n tiende a infinito la frecuencia relativa tiende a alcanzar ciertovalor, es decir, se estabiliza. Podemos asumir que existe un número fijo p al que se aproxima h alaumentar el tamaño de n. Este número hipotético se conoce como la probabilidad del evento bajoconsideración, en este caso, la probabilidad de nacimiento varón. Aunque no se conoce el valornumérico exacto de p, para este ejemplo, se tiene registrado, mediante observaciones, que estevalor es cercano a 0.53.

En estadística, la frecuencia relativa de un evento puede emplearse para estimar la probabilidaddel mismo. Si E es un evento proveniente de un espacio de resultados, entonces la probabilidad deE es un número asociado con E y que se denota por: P(E).

Con el objetivo de determinar el espacio de resultados, es indispensable cuantificar todos loseventos posibles, de modo que sean además de excluyentes, exhaustivos. A continuación se pre-sentan los principales casos de conteo.

8.3. Determinación de resultados posibles

Suponga que algo puede ocurrir en cualquiera de k1 maneras diferentes y que otra cosa puedepresentarse en cualquiera de k2 maneras diferentes. En este caso el número en que ambas cosaspueden presentarse es k1× k2. Por ejemplo, si se lanza una moneda existen 2 resultados posibles,mientras que si se tira un dado hay 6 resultados posibles. En el caso de que se hagan ambas cosas,entonces se presentaran 2×6 = 12 resultados posibles.

Esta forma de conteo puede generalizarse para n número de eventos que ocurren de manerasimultánea esto es: (k1)(k2)(k3) · · ·(kn). Cuando se trata del mismo evento, que se realiza en másde una ocasión, entonces simplemente se eleva al número de veces n los resultados diferentes k1,en que puede presentarse el evento dado.

49

Page 51: apuntes bioestadistica

8.3. DETERMINACIÓN DE RESULTADOS POSIBLES CAPÍTULO 8. PROBABILIDAD

8.3.1. Permutaciones

Se conoce como permutación a un arreglo de objetos en una secuencia específica. Por ejemplo,suponga que existen 3 cepas diferentes de rinovirus (responsable de la gripe) y que no existerespuesta cruzada entre ellos. Bajo estas circunstancias un individuo se puede infectar con las 3cepas de 6 maneras diferentes: 123, 132, 213, 231, 312, 321.

La fórmula para calcular el número de permutaciones lineales de n objetos que ocupan X posi-ciones es:

nPX =n!

(n−X)!(8.3)

Por ejemplo, para calcular el número de permutaciones posibles de 4 objetos en 2 posiciones seescriben las siguientes instrucciones en R:

n <−4x <−2prod(n : 2)/prod(n− x : 2)

Note que para calcular el factorial se utiliza la función prod y que en este caso sólo se calculahasta 2, ya que carece de sentido calcularlo hasta 1 (aunque da el mismo resultado).

8.3.2. Combinaciones

En el caso de las permutaciones el orden de los eventos es importante. En algunas ocasiones, sinembargo, no importa el orden sino más bien los integrantes del grupo. Por ejemplo, si una personase va a infectar con 2 cepas de hepatitis de 4 existentes, el número de permutaciones es: 4P2 = 12.Si escribe todas las posibilidades, notará que existen varias combinaciones repetidas. El númerode combinaciones de n objetos, tomando X a la vez se calcula por:

nCX =n!

X!(n−X)!(8.4)

En R se calcula de manera directa con: choose(n,x).

50

Page 52: apuntes bioestadistica

8.4. MUESTREO ALEATORIO CAPÍTULO 8. PROBABILIDAD

8.4. Muestreo aleatorio

En el capítulo de muestreo se habló de la importancia de la aleatorización y de cómo calcularel tamaño de muestra. El concepto de procesos aleatorios o estocásticos es muy importante paraintroducir al capítulo de probabilidad. En R puede simularse la selección de una muestra aleatoriacon la función sample(u,m) donde x representa el vector con toda la población (universo), mientrasque m es el tamaño que se desea de la muestra.

Si por otra parte, lo que se quiere es generar números aleatorios entre dos valores, pueden obte-nerse con la función: runi f (n,min = x1,max = x2). En este caso, los números aleatorios podránser decimales, ya que la función es continua y no discreta como en el caso de sample.

8.5. Axiomas

1. Para cada evento perteneciente a un espacio existe, de manera asociada, un número deno-minado probabilidad del evento. Este número se encuentra restringido en el intervalo de 0 a1.

2. Para el evento imposible existe asociado la probabilidad 0 y para el evento certero la proba-bilidad 1. En símbolos:

P( /0) = 0, P(Ω) = 1

3. Regla de la adición. Sean E1 y E2 dos eventos mutuamente exclusivos pertenecientes alespacio Ω. Sea p1 = P(E1), p2 = P(E2) y p = P(E1∪E2), entonces:

p = p1 + p2

Cuando los eventos no son mutuamente exluyentes, es decir: E1∩E2 6= /0, entonces es nece-sario restar los eventos comunes (intersección):

p = p1 + p2− p1∩ p2

4. Probabilidad condicionada. Considere que la distribución de los gentotipos AA,Aa,aa enuna población de individuos seleccionados aleatoriamente es: P(AA) = 0.36; P(Aa) = 0.48y P(aa) = 0.16. Ahora bien, supongamos que el genotipo aa esta asociado a una enfermedadgrave, por lo que se presenta sólo en individuos jóvenes. Bajo esta circunstancia, si ahora sequieren saber las probabilidades de los genotipos restantes, es necesario hacer un ajuste.En este caso se habla de probabilidad condicionada. Llamemos P(E) a la probabilidad delevento donde ya no existe el genotipo aa, es decir, que siguiendo el axioma anterior: P(E) =P(AA)+P(Aa). Bajo esta nueva circunstancia, las probabilidades condicionadas se calculanpor:

P(AA|E) =P(AA)P(E)

, P(Aa|E) =P(Aa)P(E)

51

Page 53: apuntes bioestadistica

8.5. AXIOMAS CAPÍTULO 8. PROBABILIDAD

Ahora bien, para el caso en que los eventos no fueran mutamente excluyentes, como en elejemplo anterior, se puede considerar lo siguiente. Dado un espacio determinado, sean A yB dos eventos cualquiera pertenecientes a este espacio. La probabilidad del evento B dadoque el evento A ha ocurrido es la probabilidad de que de manera simultánea ocurra A y B,dividido por la probabilidad de A (para toda P(A) > 0):

P(B|A) =P(A∩B)

P(A)

Es importante no confundir P(B|A) con P(A∩B). Esta última se refiere al espacio originalΩ, mientras que la primera está definida por el espacio restringido de A.

5. Regla de la multiplicación. La probabilidad de la ocurrencia simultánea de dos eventos A yB es el producto de la probabilidad del evento A y la probabilidad condicionada del evento Bdado A:

P(A∩B) = P(A) ·P(B|A)

Un caso especial ocurre cuando el evento A no tiene influencia en el evetno B, es decir soneventos independientes, lo que quiere decir que P(B|A) = P(B) y por tanto: P(A∩ B) =P(A) ·P(B).

Para clarificar los últimos dos axiomas se utilizarán los siguiente ejemplos. Considere la probabi-lidad de muerte en cierto país, dada por los datos del Cuadro 8.1.

Cuadro 8.1. Probabilidad de muerte por décadas.

Edad (años) Probabilidad de muerte ( %)0≥ x < 10 3.2310≥ x < 20 0.6520≥ x < 30 1.2130≥ x < 40 1.8440≥ x < 50 4.3150≥ x < 60 9.6960≥ x < 70 18.2170≥ x < 80 27.28

80≥ x 33.58Total 100.00

¿Cuál es la probabilidad de que una persona que actualmente tiene 20 años muera antes de quecumpla 30? Para contestar esta pregunta no se puede simplemente tomar el dato de 1.21 correspon-diente a la tercera década. Debe emplearse la probabilidad condicionada. Sabemos que la personaha sobrevivido 2 décadas, por lo que es necesario restringir el espacio, de modo que el evento“muerte después de la segunda década” A tiene una probabilidad: P(A) = 1.21 + 1.84 + · · ·+33.58 = 96.12. Si B denota al evento “muerte antes de la cuarta década”, entonces:

52

Page 54: apuntes bioestadistica

8.6. MÁXIMA VEROSIMILITUD CAPÍTULO 8. PROBABILIDAD

P(B|A) =P(A∩B)

P(A)=

1.2196.12

= 0.0126

es decir, el 1.26 %.

Ahora presentamos otro ejemplo. Dado que un hombre celebra su cumpleaños 70 ¿cuál es laprobabilidad de que alcance los 72 años? Suponga que la tabla de vida presenta las siguientesprobabilidades condicionadas para la sobrevivencia de los hombres:

Edad (años) (x) px70 0.949271 0.944472 0.9391

En este caso p70 es la probabilidad de que un hombre de 70 años viva hasta los 71, y así sucesi-vamente. Entonces, se concluye que la probabilidad de que un hombre alcance su cumpleaños 71y 72 es simplemente 0.9492 × 0.9444 = 0.8964.

8.6. Máxima verosimilitud

Cuando se quieren hacer predicciones, es necesario utilizar modelos matemáticos que se adecúana datos experimentales. Aunque no existe el modelo perfecto, si existen mejores modelos que otros.Una de las manera de definir mejor consiste en seleccionar aquél modelo que haga a los datos másprobables. A esto se le ha llamado máxima verosimilitud (maximum likelihood).

Para explicar este concepto se partirá de un ejemplo relativamente sencillo y se realizarán losexperimentos correspondientes en R (note que al ser experimentos estocásticos, los resultados se-rán diferentes cada vez que se realicen). Suponga que Ud. tira 3 dados y quiere saber cual es elnúmero más probable para la suma de ellos. Para simular el tiro de un dado se puede emplear:round(runi f (1,1,6)). La función runi f proporciona números uniformemente distribuidos, en estecaso, de 1 a 6.

Para tener la suma de 3 dados se escribe: sum(round(runi f (3,1,6))). El valor mínimo de la sumaes 3 y el máximo es 18. A continuación calculamos la media teórica de muchas realizaciones, esdecir el valor que nosotros esperaríamos que fuera el más frecuente para una distribución normal.A este concepto le denominaremos esperanza o valor esperado, que se define por la siguienteecuación:

E(x) =n

∑i=1

pixi (8.5)

La Ec. 8.5 implica multiplicar cada valor por su probabilidad o frecuencia relativa. Nótese que sila distribución de frecuencias es uniforme, entonces se simplifica la Ec. 8.5, ya que simplemente,

53

Page 55: apuntes bioestadistica

8.7. PROBLEMAS CAPÍTULO 8. PROBABILIDAD

se suman todos los valores de x y posteriormente se dividen entre n, el tamaño de la muestra, quees la fórmula que previamente se introdujo para calcular la media aritmética.

En el ejemplo que se tiene de los dados, comenzaremos con el caso más simple, es decir, cuandose tiene un solo dado. La probabilidad de cada cara es de 1/6 y la suma de todas las caras es 21, porlo que el valor esperado de un dado es 21/6 = 3.5. Por lo tanto, el valor esperado para tres dados(la suma de las tres caras) es de (21∗3)/6 = 10.5.

En este caso sabemos que la probabilidad de cada número en los dados es de 1/6. Vamos asuponer que este es un parámetro desconocido al que llamaremos p y que vamos a estimar a partirde datos experimentales. El objetivo es encontrar el valor de p que haga los datos más probables.

Para obtener los datos experimentales, se partirá inicialmente de un vector al que se le iránasignando los resultados de 1000 experimentos:

vc <– numeric(1000)for (i in 1:1000) vc[i] <– sum(round(runif(3,1,6)))hist(vc, col=“gray”)exp.4 <– sample(vc,4)

Con numeric se generó un vector con 1000 espacios (ceros) al que después se le asignaron losvalores de las sumas en el ciclo. En la variable exp,4 tenemos una muestra de 4 resultados, tomadosaleatoriamente. Se puede probar con diferentes estimados de p, por ejemplo 1/4, 1/6 y 1/8. Concada uno de estos se calcula el valor esperado usando la Ec. 8.5.

Para determinar cual de los tres valores propuestos “hace a los datos más probables”, se puede,por ejemplo, calcular la suma de cuadrados (SS) usando el valor de la esperanza para cada caso enlugar de la media aritmética. La SS cuyo valor sea más pequeño hace a que los valores sean másprobables y, por lo tanto, favorecen ese estimado de p sobre los otros.

8.7. Problemas

1. Determinar el valor de p más probable para el ejemplo de los dados, empleando un tamañode muestra n1 = 5 y n2 = 50.

54

Page 56: apuntes bioestadistica

Capítulo 9

Distribución Normal

Si se toma una muestra aleatoria relativamente grande de las alturas de los hombres, se colectanlos datos en una tabla de distribución de frecuencias y se grafica el histograma correspondiente,éste será semejante al de una función matemática conocida como la distribución normal y que tienela siguiente fórmula:

Y =1

σ√

2πe−(X−µ)2

2σ2 (9.1)

La distribución normal tiene las siguientes propiedades:

1. El área bajo la curva de una distribución normal es igual a una unidad cuadrada.

2. La curva es simétrica alrededor del punto X = µ y tiene forma de campana.

3. Para cada par de números µ y σ, se puede graficar una curva de distribución normal. Estoes, hay muchas curvas de distribución normal, cada una caracterizada por su media y sudesviación estándar.

9.1. Áreas bajo la curva

Cuando una población sigue una distribución normal, la proporción de valores que se encuentraentre dos cantidades X1 y X2 es igual al área bajo la curva entre estos dos puntos. Dado que noresulta práctico tener tablas para cada una de las posibles distribuciones normales, se han tabuladolos valores para la curva normal estándar, que tiene una media µ = 0 y una desviación estándarσ = 1.

55

Page 57: apuntes bioestadistica

9.1. ÁREAS BAJO LA CURVA CAPÍTULO 9. DISTRIBUCIÓN NORMAL

Para poder utilizar los datos de la curva normal estándar, es necesario transformar los datosoriginales. El cálculo se obtiene con la siguiente fórmula:

z =X−µ

σ(9.2)

Para explicar el tipo de cálculos que se realizan con la distribución normal, se seguirá el siguienteejemplo. Suponga que se mide la estatura de 100 personas y que su media es 170 cm con unadesviación estándar de 8 cm. Pueden formularse 3 tipos de preguntas: ¿Cuál es la probabilidad deque un individuo seleccionado aleatoriamente sea:

más pequeño que una altura en particular?

más grande que una altura en particular?

se encuentre entre dos alturas específicas?

Suponga que se quiere saber la probabilidad (proporción) de que un individuo tomado al azar deesta población tenga una altura menor a 160 cm. Lo primero que se requiere es convertir este valora su correspondiente z:

z =(160−170)

8=−1.25

Dado que la curva normal es simétrica, sólo se requieren los datos correspondientes a la mitadde la curva, esto es, a los valores positivos. Para cada valor de z positivo, se da la proporción(probabilidad) de valores que se encuentran por debajo de ese valor. Por ejemplo, para un valor dez = 0 la probabilidad es: 0.5000 (recuerde que la media es 0). Para un valor de z =1.25 se tiene unaprobabilidad igual a 0.8943502, por lo que la probabilidad para z =−1.25 es igual a 1 – 0.8943502= 0.1056498. El valor puede obtenerse directamente con la función: pnorm(−1.25) en R.

Regresando a la pregunta original, la probabilidad de que un individuo tomado aleatoriamentemida menos de 160 cm es de 10.56 %.

La segunda pregunta que se quiere contestar es saber la probabilidad de que un individuo to-mado al azar mida más de 185 cm. El valor de z para esta altura es de 1.875. Si se pide el valorpnorm(1.875) se obtiene la probabilidad de tener menos de 1.875 cm. Para responder la pregunta,mayor a 1.875, simplemente se resta de 1: 1− pnorm(1.875), obteniéndose una probabilidad de3.04 %.

Finalmente, suponga que se quiere saber la probabilidad de que un individuo tomado al azarmida entre 165 y 180 cm. Primero se obtienen los dos valores de z: z1 =−0.625 y z2 = 1.25. Paraobtener el área entre los dos valores, se resta la menor probabilidad de la mayor: pnorm(1.25)−pnorm(−0.625) que da como resultado una probabilidad de 62.84 %.

56

Page 58: apuntes bioestadistica

9.2. MOMENTOS CAPÍTULO 9. DISTRIBUCIÓN NORMAL

9.2. Momentos

En estadística la sumatoria de potencias: ∑(Xi−µ)p/N se conoce como el p momento alrededorde la media. Para cualquier distribución, el primer momento alrededor de la media es cero. Elsegundo momento alrededor de la media es la varianza. El tercer momento alrededor de la medianos indica la simetría de una distribución. Una estadística para este parámetro es:

k3 =n∑(Xi− X)3

(n−1)(n−2)(9.3)

Dado que k3 tiene unidades cúbicas, la siguiente estadística adimensional suele ser más emplea-da:

g1 =k3

s3 =k3√(s2)3

(9.4)

Un valor de g1 que no difiere significativamente de 0 indica que la muestra proviene de unapoblación que se distribuye de manera simétrica alrededor de la media y por lo tanto el valor de éstaes igual al de la mediana. Un valor de g1 significativamente menor a 0 indica que la población estácargada a la izquierda, presentando por tanto, un valor de la media menor a la mediana. Finalmente,un valor de g1 significativamente mayor a 0 implica una población cargada a la derecha con unamedia mayor a su mediana.

Puesto que no todas las distribuciones simétricas son normales, es necesario tener otro indicadorde normalidad. El cuarto momento alrededor de la media se conoce como curtosis y nos indica laforma de la curva de distribución. Formalmente, puede calcularse con la siguiente estadística:

k4 =∑(Xi− X)4n(n+1)/(n−1)−3

[∑(Xi− X)2]2

(n−2)(n−3)(9.5)

Como en el caso de la simetría, para la curtosis suele usarse la siguiente estadística adimensional:

g2 =k4

s4 (9.6)

La curtosis puede describirse como la dispersión alrededor de los valores µ−σ y µ +σ. Para elcaso de muestras con un valor de g2 que no difiere significativamente de 0, se dice que provienende una población mesocúrtica (normal). Cuando el valor de g2 es significativamente menor a 0, sedice que proviene de una población platicúrtica (achatada). Finalmente, cuando el valor de g2 essignificativamente mayor a 0, entonces la población es leptocúrtica (picuda).

57

Page 59: apuntes bioestadistica

9.3. FUNCIÓN DE DENSIDAD CAPÍTULO 9. DISTRIBUCIÓN NORMAL

9.3. Función de densidad

La probabilidad de densidad se obtiene especificando los valores de z, la media y la desviaciónestándar. Si se omiten los últimos 2, se asume que la z pertenece a la curva normal estándar. Su-ponga que se quiere obtener la probabilidad de tener z = 1 de una curva normal estándar, entoncesse escribe: dnorm(1) obteniéndose un valor de 0.2419707. Esta función puede emplearse para gra-ficar una curva normal, para valores específicos de z (por ejemplo de –2.5 a 2.5 en pasos de 0.05).La gráfica correspondiente se presenta en la Fig. 9.1 (a).

−2 −1 0 1 2

0.1

0.2

0.3

0.4

(a)

z

Den

sida

d

−2 −1 0 1 2

0.0

0.2

0.4

0.6

0.8

1.0

(b)

z

Pro

babi

lidad

0.0 0.2 0.4 0.6 0.8 1.0

−2−1

01

2

(c)

Probabilidad

z

Figura 9.1. Gráficas asociadas a la distribución normal. (a) Función de densidad. (b) Función deprobabilidad. (c) Cuantiles.

Para generar la Fig. 9.1 (a) primero se define el rango de z: z <−seq(-2.5,2.5,0.05); se asigna lafunción de densidad a una variable: y <−dnorm(z) y finalmente se grafica la función de densidad:plot(z,y,main = “(a)”,ylab = “Densidad”, type = “l”).

9.4. Función de probabilidad

En la práctica se requiere saber más la función de probabilidad que la de densidad, ya que senecesitan calcular probabilidades, sobre todo, cerca de las colas de la distribución. La probabi-lidad acumulada utiliza la función pnorm. La curva de esta función se muestra en la Fig. 9.1(b), que se obtiene asignando la función a una variable: y2 < −pnorm(z) y luego graficando:plot(z,y2,main = “(b)”,ylab = “Probabilidad”, type = “l”). La función pnorm se emplea parapruebas de hipótesis, cuando se quiere saber si un valor en particular de z es extremo. Para las pro-babilidades en la cola derecha, se requiere el valor de 1− pnorm(z) como se mostró anteriormente.

58

Page 60: apuntes bioestadistica

9.5. CUANTILES NORMALES CAPÍTULO 9. DISTRIBUCIÓN NORMAL

9.5. Cuantiles normales

Los cuantiles de una distribución normal representan el inverso de la probabilidad de densidad.Esta función calcula el valor de z asociado al valor de probabilidad que se introduce. La Fig. 9.1(c) muestra la curva correspondiente. Note que, dado que se trata de la curva normal estándar, paraun valor de p = 0.5 se tiene un valor de z = 0. Para obtener esta gráfica se define primero el rangode probabilidades: p <−seq(0,1,0.01) y luego se grafican: plot(p,qnorm(q),main = “(c)”,xlab =“Probabilidad”,ylab = “z”, type = “l”).

9.6. Normalidad

En ocasiones es importante determinar si una población determinada tiene un comportamientonormal. Una manera es a través de la simetría y curtosis. Aquí se presenta un análisis comparandolos datos observados con una curva normal que posee la misma media y la misma desviaciónestándar. La secuencia de pasos es la siguiente (suponemos que los datos han sido cargados en lavariable x):

m <- mean(x)s <- sd(x)hist(x,prob=T,col=“gray”)curve(dnorm(x,mean=m,sd=s),add=T)

Con respecto a este algoritmo, son pertinentes las siguientes observaciones:

Debe definirse la probabilidad como verdadera al hacer el histograma.

Deben calcularse previamente los valores de la media y la desviación estándar antes degraficar la función de densidad.

Para graficar la función de densidad, la variable debe llamarse x.

9.7. Teorema del límite central

Una de las razones por la cual la distribución normal es tan importante, es por su capacidad deenglobar a otras distribuciones (bajo ciertas circunstancias), cuando el número de observaciones eslo suficientemente grande.

El conjunto de medias provenientes de muestras aleatorias de tamaño n tiende a una distribuciónnormal. Entre más grande sean las muestras, mayor será la aproximación de sus medias a la nor-

59

Page 61: apuntes bioestadistica

9.8. PROBLEMAS CAPÍTULO 9. DISTRIBUCIÓN NORMAL

malidad. El teorema del límite central establece que para cualquier distribución con varianza finita,la media de una muestra aleatoria tiende a estar normalmente distribuida.

La varianza de la distribución de las medias decrece conforme aumenta n; de hecho, la va-rianza de la población de todas las posibles medias de muestras de tamaño n provenientes de unapoblación con varianza σ2 es:

σ2x =

σ2

n(9.7)

A esta cantidad se le conoce como la varianza de las medias y dado que tiene unidades cuadradas,su raiz cuadrada tendrá las mismas unidades que la media y la desviación estándar. Este nuevovalor σx es la desviación estándar de las medias, usualmente conocido como error estándar de lasmedias (abreviado sem) o simplemente como error estándar (abreviado se).

9.8. Problemas

1. Se tiene una población de pesos normalmente distribuida con media de 63.5 g y una desvia-ción estándar de 12.2 g.

a) ¿Qué proporción de esta población pesa 78.0 g o más?

b) ¿Qué proporción de esta población pesa 64.0 g o menos?

c) Si la población es de 1000 observaciones, ¿cuántos pesan entre 62 y 75 g?

2. Comprobar gráficamente el teorema del límite central:

a) Genere 500 valores aleatorios con: rbinom(500,10,0.3).

b) Grafique el histograma correspondiente y pruebe normalidad.

c) Genere una nueva población que contenga 500 medias provenientes de muestras alea-torias de tamaño 50.

d) Grafique el histograma correspondiente y pruebe normalidad.

60

Page 62: apuntes bioestadistica

Capítulo 10

Estimación

10.1. Intervalos de Confianza

Cuando se trabaja con muestras, se obtienen estadísticas de éstas con el fin de tener un valorestimado del parámetro original (el de la población). Tomemos como ejemplo la media. El valorde la media x es una estimación de la media µ de la población.

Sin embargo, dado que la muestra es aleatoria, realmente no sabemos si nuestro valor estimadosea realmente representativo para toda la población. Dado que estamos en un problema de estadís-tica, realmente no podemos tener la certidumbre total sobre el valor real, aunque podemos calcularun rango que nos de el 95 % de seguridad en el valor de la media. A esto le llamamos intervalo deconfianza.

El intervalo de confianza nos indica el rango de valores en el que nosotros encontraríamos el 95 %de las ocasiones a nuestra estadística. Esto es, si se habla de la media, el intervalo de confianza dael rango en el que se encuentra la media de la población con una p=0.95.

Cuando se conoce el valor de la desviación estándar de la población, y ésta sigue una distribuciónnormal, entonces el intervalo de confianza se calcula empleando el valor de z = 0.975 (dado quese trata de una prueba de 2 colas). Este valor es aproximadamente 1.96 (puede obtenerse de tablaso bien con qnorm(0.975). El intervalo de confianza para una media, se calcula con la siguientefórmula:

x±1.96σx = x± 1.96σ√n

(10.1)

donde σx es el error estándar sobre la media. Suponga que estudia el efecto de un nuevo suple-mento alimenticio para infantes en la ganancia de peso. Asimismo, suponga que Ud. sabe que ladesviación estándar de la ganancia de pesos en infantes es de 120 g. De 16 observaciones suponga

61

Page 63: apuntes bioestadistica

10.2. DISTRIBUCIÓN T CAPÍTULO 10. ESTIMACIÓN

que obtiene una media de 311.9 g en la muestra de su dieta. Para calcular el intervalo de confianza,primero es necesario el valor del error estándar:

σx = 120g/√

16 = 30g

Luego, el intervalo de confianza es:

311.9±1.96(30g) = 311.9±58.8g

Esto quiere decir que tenemos el 95 % de certidumbre de que la media se encuentra entre 253.1g y370.7g.

10.2. Distribución t

La mayor parte de las ocasiones se desconoce la desviación estándar de la población. En estoscasos, es necesario estimarla a partir de las observaciones de la muestra. Dado que se estiman 2estadísticas a partir de la muestra, la distribución normal ya no es válida, y es necesario emplearotra distribución que se conoce como t de Student.

La distribución t aunque es simétrica y tiene forma de campana, no es un tipo de distribuciónnormal ya que tiene las colas más anchas. Esta distribución varía con el tamaño de la muestra: sila muestra es pequeña, la curva tiene más área en la zona de las colas en comparación a cuando lamuestra es grande (que se acerca a una distribución normal).

El cálculo de los intervalos de confianza con la distribución t es similar al caso de la normal. Unadiferencia importante, es que dado que la distribución t es dependiente del tamaño de muestra n,es necesario buscar en las tablas el valor de t correspondiente para 2 colas, una α = 0.05 y n− 1grados de libertad.

Siguiendo el ejemplo anterior, se requiere buscar el valor de t0.05(2),15, que es de 2.131. Algunastablas sólo consideran los valores de t para una cola. En estos casos se busca el valor de t0.975(2),15que da el mismo resultado. Este valor se obtiene en R con: qt(0.975,15)

10.3. Problemas

1. Calcular el intervalo de confianza de la media, para una muestra proveniente de una pobla-ción teórica de 1000 observaciones, donde Ud. suponga que la desviación estándar no difieresignificativamente del de la población.

2. Calcular el intervalo de confianza de la media, para una muestra experimental o teórica demenos de 30 observaciones.

3. Compare gráficamente la distribución normal y la distribución t. Demuestre que al aumentarel tamaño de la muestra, la distribución t se aproxima mejor a la normal.

62

Page 64: apuntes bioestadistica

Capítulo 11

Bootstrap

El desarrollo de técnicas estadísticas computacionales intensivas, ofrece una alternativa a la teo-ría clásica sobre la distribución Normal, en el sentido de que son relativamente más sencillas y másrobustas. Con estas técnicas, el mismo modelo puede ser ajustado a datos remuestreados 10 000veces en pocos segundos. Las pruebas que se pueden hacer, son básicamente:

1. Bootstrap. Los datos son remuestreados con reemplazo, de manera repetitiva, con el objetivode estimar intervalos de confianza para diferentes parámetros.

2. Jackknife. Cada dato es eliminado de la muestra para determinar su influencia particular enla prueba.

Para el desarrollo simple de estas pruebas en R se recomienda que se baje la librería bootstrapde Internet.

11.1. Bootstrap

El fundamento de esta técnica es el muestreo con reemplazo. Cuando se aplica un muestreo,usualmente se realiza sin reemplazo, lo que implica que cada observación tiene la misma probabi-lidad de salir elegida al inicio, sin embargo, conforme avanza la selección, la probabilidad de lasobservaciones restantes (aún no muestreadas) aumenta de manera progresiva. Cuando se realizaun muestreo con reemplazo, la observación que es muestreada vuelve a colocarse en la poblaciónoriginal, de tal manera que la probabilidad de selección es constante a lo largo de todo el mues-treo. El efecto de esta técnica es que en un muestreo de tamaño n (donde n es también el tamañode la población) algunas observaciones podrán ser muestreadas en más de una ocasión y algunasobservaciones no serán muestreadas.

63

Page 65: apuntes bioestadistica

11.2. JACKKNIFE CAPÍTULO 11. BOOTSTRAP

Para realizar un muestreo con reemplazo en R se utiliza la función: sample(x,replace = T ). Porejemplo, suponga que se tiene una serie de números del 0 al 9 (se encuentran distribuidos de manera“uniforme”): x < −0 : 9. La media de este vector es 4.5, sin embargo, si se obtienen diferentesmuestras con reemplazo, cada una tendrá su propio valor de media, y que se encontrará alrededorde 4.5. A continuación se desarrollará la técnica de bootstrap, para determinar los intervalos deconfianza de la media de esta población:

xmeans <– numeric(10000) # Se genera el vectorfor(i in 1:10000) xmeans[i]<-mean(sample(x,replace=T)) # Ciclo de remuestreomean(xmeans) # mediahist(xmeans) # histogramaquantile(xmeans,c(0.025,0.975)) # intervalo de confianza del 95 %

Otra manera de realizar esta operación, sin la necesidad del ciclo, es con la función bootstrap:

x.boot <– bootstrap(x,1000,mean) # bootstrap con 1000 replicacioneshist(x.boot$thetastar,freq=F) # histogramaquantile(x.boot$thetastar,c(0.025,0.975)) # intervalo de confianza

Finalmente, de manera directa, se puede obtener el intervalo de confianza con la instrucción:boott(x,mean,nboott = 1000). Note que los valores son muy semejantes.

11.2. Jackknife

Jackknife es una prueba que determina la influencia de las observaciones individuales de la va-riable dependiente, en la estimación de parámetros. Se diferencia del bootstrap en que sólo serecalculan los parámetros de interés n veces (donde n es el tamaño de la muestra) en lugar de,por ejemplo, 1000 veces. Primero se presenta el cálculo por partes (para entender la lógica de laoperación) y posteriormente en un paso.

Los resultados muestran el valor de la media cuando se elimina cada uno de los valores. En elejemplo que se ha utilizado, la secuencia de pasos es:

jk <– numeric(10) # genera el vector del tamaño de la muestrafor(i in 1:10) jk[i]<– mean(x[-i]) # hace el ciclojk # se observa el resultado

En un sólo paso, simplemente se escribe: jackkni f e(x,mean) que da como resultado el error es-tándar, el sesgo, así como los valores de la media cuando se elimina cada una de las observaciones.

64

Page 66: apuntes bioestadistica

11.3. PROBLEMAS CAPÍTULO 11. BOOTSTRAP

11.3. Problemas

1. Obtenga los intervalos de confianza por bootstrap para una muestra teórica o experimentaldonde haya presencia de valores extremos (outliers).

2. Determine el efecto de los valores extremos sobre el cálculo de la media mediante un análisisde Jackknife.

3. Vuelva a obtener los intervalos de confianza por bootstrap, eliminando a los valores extremosde la muestra y compare los valores con el intervalo anterior.

65

Page 67: apuntes bioestadistica

Capítulo 12

Prueba de Hipótesis

Las estrategias clásicas para probar a la hipótesis nula incluyen:

Comparar dos medias muestrales con errores normales (t de Student)

Comparar dos medias muestrales con errores no-normales (Wilcoxon)

Comparar dos varianzas (Fisher)

Correlacionar dos variables (Pearson o Spearman)

Independencia en tablas de contingencia (χ2)

Comparar dos proporciones (binomial)

12.1. Pruebas de una muestra

En estos casos, se quiere probar si la media de una determinada muestra es significativamentedifererente de una media estándar o teórica. Comenzaremos con un ejemplo, para aclarar el con-cepto de la hipótesis nula y de la hipótesis alterna. Hay que recordar que las pruebas estadísticasestán hechas para aprobar o rechazar a la hipótesis nula.

Supongamos que se está trabajando en una industria farmacéutica y que se requiere que ciertomedicamento contenga 500 mg de principio activo. Durante el proceso de producción se tomandigamos 15 muestras aleatorias, y se calcula la concentración real del principio activo en cadatableta. Primero se hace el planteamiento de las hipótesis. Al conjunto de nuestras muestras lellamaremos x.

H0 : x = 500mgHA : x 6= 500mg

66

Page 68: apuntes bioestadistica

12.1. PRUEBAS DE UNA MUESTRA CAPÍTULO 12. PRUEBA DE HIPÓTESIS

Note que la hipótesis nula también pudo establecerse como: H0 : x−500 = 0 mg, es decir, que lahipótesis nula esta igualada a cero (de ahí el nombre nula). Para realizar el ejemplo en R, generamosprimero los valores; obtenemos sus principales 2 estadísticas (media y error estándar); calculamosel valor de t experimental y finalmente comparamos el valor absoluto de t experimental con el tteórico. Si el valor absoluto de t experimental es menor al teórico, la hipótesis nula no se puederechazar:

x <– rnorm(15,mean=500,sd=0.5)m <– mean(x)se <– sd(x)/sqrt(15)texp <– (m-500)/setteo <– qt(0.975,14)abs(texp) <tteo

que en este caso da un resultado verdadero, es decir, no se puede rechazar la hipótesis nula. Noteque para el cálculo de la t experimental se utiliza el error estándar y que, dado que esta es unaprueba de 2 colas, el valor que se busca es para 0.975. Si se usan tablas que contengan los valoresde α para 1 o 2 colas, entonces se busca: t0.05(2),14 que corresponde a 2.144787. Este es el algoritmopara hacer pruebas de hipótesis. Se recomienda hacer un esquema de lo que se quiere probar, parafacilitar la interpretación de los resultados.

Para hacer la prueba de manera directa, primero se carga la librería de las pruebas estadísticas:library(ctest) (sólo es necesario cargarla una vez por sesión). La prueba se hace simplemente conla función: t.test(x,mu = 500). En este caso se prueba la hipótesis de si la media es igual a 500mg. El resultado incluye el valor de t, el intervalo de confianza sobre la media, la hipótesis alternaasí como el valor de p obtenido. Cuando este valor es menor a 0.05, entonces se puede rechazarla hipótesis nula. En el ejemplo mencionado, se obtuvo un valor de p = 0.4208, por lo que no sepuede rechazar la hipótesis nula (existe un 42 % de error al rechazarla).

Ahora presentamos un ejemplo para una prueba de una cola. Suponga que se está desarrollandoun nuevo antipirético, y Ud. quiere evaluar la eficacia de éste en un lapso de 1 hr. En su experimentoUd. consigue elevar la temperatura corporal de 10 conejos a 40 C, les administra su antipirético yvuelve a tomar la temperatura de cada conejo 1 hr después. Supongamos que estas observaciones seencuentran en la variable temp, entonces nuestro planteamiento de hipótesis queda de la siguientemanera:

H0 : xtemp ≥ 40HA : xtemp < 40

es decir, que sólo podremos rechazar la hipótesis nula si efectivamente hay una disminución enla media de las temperaturas. Ahora simulamos el experimento en R y probamos la hipótesis nulasiguiendo el algoritmo descrito anteriormente:

temp <– rnorm(10,mean=37,sd=0.1)mt <– mean(temp)set <– st/sqrt(10)ttemp.exp <– (mt-40)/setttemp.teo <– qt(0.05,9)ttemp.exp <ttemp.teo

67

Page 69: apuntes bioestadistica

12.2. DOS VARIANZAS CAPÍTULO 12. PRUEBA DE HIPÓTESIS

que en este ejemplo sale como verdadero, por lo que se puede rechazar la hipótesis nula, es decir,el antipirético efectivamente disminuye significativamente la temperatura corporal en el lapso de1 hr. Para hacer la prueba en un paso, debe indicarse no sólo el valor de la media, sino también lahipótesis alterna, ya que el dafault es de dos colas: t.test(temp,alternative = c(“less”),mu = 40).El resultado nos da un valor de p = 2.110e-15 que es claramente menor a 0.05, por lo que se puederechazar la hipótesis nula.

12.2. Diferencia entre dos varianzas

Si se tienen dos muestras de observaciones, cada una tomada aleatoriamente de poblacionesnormales, es posible preguntarse si sus varianzas son iguales o diferentes. Esta pregunta es impor-tante, entre otras cosas, porque influye en el tipo de prueba que se puede aplicar para comparar dosmedias. En principio, debe tenerse cuidado cuando se comparan las medias de poblaciones convarianzas diferentes. El planteamiento de la igualdad es de dos colas y es como sigue:

H0 : s2A = s2

BHA : s2

A 6= s2B

Se muestra el algoritmo correspondiente mediante un ejemplo concreto. Suponga que se deseasaber si la varianza entre 2 equipos de producción es la misma. Generamos los datos (a,b) yobtenemos la varianza (s2) de cada una:

a <– rnorm(11,mean=35,sd=4.6)b <– rnorm(8,mean=55,sd=4)s2a <– var(a)s2b <– var(b)

En este caso se utiliza una distribución diferente, que corresponde a la F (de Fisher), que seobtiene del cociente de las dos varianzas. Como esta es una prueba de 2 colas, la varianza mayorse coloca en el numerador y la menor en el denominador:

F =s2

A

s2B

(12.1)

En nuestro ejemplo, A tiene una mayor varianza por lo que: F < −s2a/s2b que da un valor de1.485445. Este valor se compara con el correspondiente teórico (F0.05(2),10,7), es decir, se requierebuscar los grados de libertad tanto del numerador (10), como los del denominador (7). En R elvalor se obtiene con: q f (0.975,10,7) que es: 4.761116. Como el valor experimental es menor alteórico, no existen razones para rechazar a la hipótesis nula.

El cálculo directo se realiza una vez cargada la librería ctest con la función: var.test(a,b) que da

68

Page 70: apuntes bioestadistica

12.3. DOS MEDIAS CAPÍTULO 12. PRUEBA DE HIPÓTESIS

como resultado una p = 0.6159 que es mayor a 0.05, por lo que no se puede rechazar la hipótesisnula.

Cuando se hacen pruebas de 1 cola, la hipótesis alterna determina el valor de la varianza quedebe ir en el numerador y la que debe ir en el denominador (según el signo correspondiente).

12.3. Diferencia entre dos medias

Cuando se comparan dos medias que no difieren significativamente en sus varianzas, se sigueel algoritmo del ejemplo que se pone a continuación. Suponga que se quiere probar si existe di-ferencia significativa en el tiempo de coagulación que se tiene tras ingerir el medicamento A o elmedicamento B. El planteamiento es el siguiente:

HO : xA = xBHA : xA 6= xB

Primero generamos los datos (a,b), suponiendo la misma varianza y calculamos media (m), númerode observaciones (n), grados de libertad (d f ) y suma de cuadrados (ss):

a <– rnorm(6,mean=8.7,sd=0.6)b <– rnorm(7,mean=9.7,sd=0.6)ma <– mean(a)mb <– mean(b)na <– length(a)nb <– length(b)dfa <– na–1dfb <– nb–1ssa <– sum((a–ma)∧2)ssb <– sum((b–mb)∧2)

Note que si realiza estas operaciones en su calculadora, resulta más cómodo calcular la suma decuadrados multiplicando el valor de la varianza por sus correspondientes grados de libertad, esdecir: ss = (sd)2 ∗d f .

Ahora procedemos a calcular la varianza global:

s2p =

SS1 +SS2

ν1 +ν2(12.2)

Siguiendo con la sesión en R: sp2 < −(ssa + ssb)/(d f a + d f b). Con este valor se calcula elerror estándar de la diferencia entre las medias:

sx1−x2 =

√s2

p

n1+

s2p

n2(12.3)

69

Page 71: apuntes bioestadistica

12.3. DOS MEDIAS CAPÍTULO 12. PRUEBA DE HIPÓTESIS

Que puede calcularse con: se < −sqrt(sp2/na + sp2/nb). Este resultado se emplea, a su vez,para obtener el valor de texp:

texp =x1− x2

sx1−x2

(12.4)

Que se obtiene con: texp <−(ma−mb)/se. Finalmente se compara este valor con el correspon-diente teórico (t0.05(2),11). En el presente ejemplo se obtuvo una texp = –2.996303, por lo que debecompararse con el valor de t que se encuentra del lado izquierdo de la curva: qt(0.025,11) que daun valor de —2.200985 (compruebe que en las tablas obtiene el mismo valor). Dado que en estecaso, el valor absoluto de texp es mayor al valor absoluto de tteo, se rechaza la hipótesis nula sobrela igualdad de las medias.

Para hacer el mismo análisis en R en un sólo paso, una vez cargada la librería ctest simplemen-te se hace la prueba indicando que no existe diferencia entre las varianzas de las dos muestras:t.test(a,b,var.equal = T ). El resultado de la prueba indica una p = 0.01216 que es menor a 0.05,por lo que se rechaza la hipótesis nula.

12.3.1. Medias con varianzas diferentes

La comparación entre dos medias provenientes de poblaciones con distribución normal, pero convarianzas diferentes, puede hacerse con la t aproximada de Welch que se obtiene con la siguientefórmula:

tW =x1− x2√

s21

n1+ s2

2n2

(12.5)

Este valor se compara con el correspondiente t teórico que tiene los siguientes grados de libertad:

νW =

(s21

n1+ s2

2n2

)2

(s21

n1

)2

n1−1 +

(s22

n2

)2

n2−1

(12.6)

Dado que los grados de libertad calculados no dan un número entero, se utiliza el siguiente enteromenor. Este cálculo es muy simple en R, ya que por default asume diferencia entre las varianzas ypor tanto hace una prueba de Welch. Si se usaran los datos del ejemplo anterior, simplemente seescribe t.test(a,b) para hacer la prueba.

70

Page 72: apuntes bioestadistica

12.3. DOS MEDIAS CAPÍTULO 12. PRUEBA DE HIPÓTESIS

12.3.2. Prueba de Mann-Whitney

La teoría en la que se basa la prueba de t requiere que las dos muestras provengan de poblacionesnormales con la misma varianza. Cuando esta última no es igual puede hacerse la aproximación deWelch (ver atrás).

Se han desarrollado una serie de pruebas que no requieren la estimación de parámetros a partirde las muestras y que tampoco hacen suposiciones sobre la naturaleza de la distribución de las po-blaciones. A estos métodos se les conoce como no-paramétricos. Un ejemplo de estos métodos, loconstituye la prueba de Mann-Whitney (también llamada de Wilcoxon) para comparar dos mediasque no provienen de una distribución normal (sólo considera una distribución continua).

Para esta prueba, no se utilizan los datos originales, sino más bien el orden de las observaciones.Este orden puede ser de menor a mayor o de mayor a menor. Por ejemplo, si se ordenan lasobservaciones del mayor al menor, la observación con el valor más alto recibe la calificación de 1,el que le sigue la calificación de 2 y así sucesivamente. Cuando se tienen 2 o más observaciones conel mismo valor, se dice que están empatados y se les asigna la misma calificación, correspondienteal promedio de las calificaciones que obtendrían si no fuesen iguales. La estadística que se calculaes U y se obtiene con la siguiente fórmula:

U = n1n2 +n1(n1 +1)

2−R1 (12.7)

donde n1 y n2 representan el número de observaciones en las muestras 1 y 2 respectivamente yR1 es la suma de los rangos de las observaciones correspondientes a la muestra 1. Esta estadísticatambién puede calcularse como:

U ′ = n2n1 +n2(n2 +1)

2−R2 = n1n2−U (12.8)

donde R2 es la suma de los rangos en las observaciones de la muestra 2.

Pruebas de 2 colas

Cuando la prueba de hipótesis es de dos colas, se deben calcular tanto U como U ′ y el valor másgrande se compara con el valor crítico de las tablas U0.05(2),n1,n2 (la tabla asume que n1 < n2 siocurre lo contrario, debe utilizarse U0.05(2),n2,n2 como valor crítico).

Para aclarar los cálculos, se utilizará un ejemplo. Suponga que se quiere saber si existe diferenciaen el tamaño de una especie determinada, entre machos (m) y hembras ( f ). A continuación sepresenta la asignación de las variables correspondientes, el cálulo de los rangos y de las estadísticas

71

Page 73: apuntes bioestadistica

12.3. DOS MEDIAS CAPÍTULO 12. PRUEBA DE HIPÓTESIS

(para facilitar la comprensión, se incluyen pequeños comentarios después del signo #):

m <– c(19.3,18.8,18.5,18.3,18,17.8,17) # los machosf <– c(17.5,17.3,16.8,16.5,16.3) # las hembrasnm <– length(m) # num. de machosnf <– length(f) # num. de hembrasmf <– c(m,f) # vector con machos y hembrasrmf <– rank(mf) # vector con los rangos correspondientesn <– nm+1 # valor que se usa para calculos posterioresnt <– length(mf) # num. de observaciones totalesrm <– sum(rmf[1:nm]) # suma de rangos para machosrf <– sum(rmf[n:nt]) # suma de rangos para hembrasU <– nm*nf+(nm*n)/2-rm # calc. de UU2 <– nm*nf-U # calc. de U’

El valor que se obtiene de U es de 2 y de U ′ es de 33. Este último se compara con el de las tablasque en R se obtiene con: qwilcox(0.975,nm,n f ) y es de 29, por lo que se rechaza la hipótesis nula.

La prueba en un sólo paso se hace con wilcox.test(m, f ) que da una p = 0.01010 que es menora 0.05, por lo que se rechaza la hipótesis nula.

Pruebas de 1 cola

Para hacer pruebas de 1 cola se requiere declarar el extremo de la distribución de Mann-Whitneyque es de interés, ya que éste determina si debe calcularse U o U ′. En el Cuadro 12.1 se presentala estadística apropiada para cada caso.

Cuadro 12.1. Estadísticas apropiadas para pruebas de Mann-Whitney de 1 cola.

Orden H0 : a≥ b H0 : a≤ b(Rango) HA : a < b HA : a > b

Menor a mayor U U ′

Mayor a menor U ′ U

Como referencia, R coloca los rangos con la función rank(x), ordenando los valores individualesde menor a mayor.

Suponga que desea saber si en promedio una persona que estudió taquigrafía puede escribir máspalabras por minuto, que una sin estudios. Al primer grupo le llamaremos a y al segundo b. Ahorabien, supongamos que los resultados correspondientes fueron: a <−c(44,48,36,32,51,45,54,56)y b <−c(32,40,44,44,34,30,26). En la variable ab concatenamos ambas variables: ab <−c(a,b).Asignamos los rangos correspondientes a la variable rab: rab <−rank(ab). Debido que la hipóte-sis alterna establece que a > b la estadística adecuada es U ′ que se calcula como en el caso anterior,

72

Page 74: apuntes bioestadistica

12.4. MUESTRAS PAREADAS CAPÍTULO 12. PRUEBA DE HIPÓTESIS

y cuyo valor es 47.5. Para realizar la prueba en un paso escribimos: wilcox.test(a,b,alternative =c(“g”)) que nos da una p = 0.01360, menor a 0.05, por lo que se rechaza la hipótesis nula.

12.4. Muestras pareadas

Las pruebas de la sección anterior se aplican para muestras independientes, es decir, que los da-tos de una muestra no se encuentran asociados de ninguna manera con los datos de la otra muestra.Sin embargo, existen circunstancias en las que las observaciones de la muestra 1 se encuentrancorrelacionadas con las observaciones de la muestra 2, por lo que se dice que son muestras parea-das.

Cuando se tienen muestras pareadas, cada dato en la muestra 1 tiene su correspondiente en lamuestra 2, por lo que ambas muestras tienen el mismo número de datos, y estos están correlacio-nados. Para las muestras pareadas suele utilizarse el promedio de las diferencias en las medias, detal modo que:

xd = x1− x2 (12.9)

En este sentido, en una prueba de 2 colas se podría establecer como hipótesis nula que: H0 : xd =0. La estadística t se calcula dividiendo la media de las diferencias (xd) entre el error estándar delas diferencias.

Para el caso de pruebas de 1 cola, el planteamiento de la hipótesis depende de la pregunta quese quiera contestar, y el algoritmo que se sigue es el mismo. Supongamos, por ejemplo, que sequiere probar si un nuevo fertilizante (n) es capaz de incrementar la producción de un cultivo en250 kg/ha con respecto a un fertilizante viejo (o). Para el experimento, se dividen 9 parcelas en 2,de tal manera que en una mitad se coloca el nuevo fertilizante y en la otra el viejo. Dado que laparcela es la misma, los datos estarán pareados. El planteamiento de la prueba sería como sigue:

HO : xd ≤ 250kg/haHA : xd ≥ 250kg/ha

A continuación se presentan los cálculos comentados:

73

Page 75: apuntes bioestadistica

12.4. MUESTRAS PAREADAS CAPÍTULO 12. PRUEBA DE HIPÓTESIS

n <– c(2250,2410,2260,2200,2360,2320,2240,2300,2090) # fert. nuevoo <– c(1920,2020,2060,1960,1960,2140,1980,1940,1790) # fert. viejod <– n-o # vector con las diferencias (pareadas)md <– mean(d) # media de las diferenciasnd <– length(d) # num. observaciones pareadeassed <– sd(d)/sqrt(nd) # error estándar de las diferenciastexp <– (md-250)/sed # calc. de t exp.tteo <– qt(0.95,8) # calc. de t teor.texp >tteo # comparación de las t

que en este caso da falso, por lo que no se puede rechazar la hipótesis nula. Para hacer la pruebaen un paso en R, simplemente se escribe: t.test(n,o,alternative = c(“g”),mu = 250, paired = T ).Note que se indican de manera explícita la hipótesis alterna, el valor de 250 que se quiere probares mayor y que las muestras son pareadas.

74

Page 76: apuntes bioestadistica

Capítulo 13

ANOVA

Cuando se comparan más de dos variables independientes (que explican) de tipo categórico, nose recomienda que se hagan varias pruebas de hipótesis para determinar posibles diferencias entreellas, ya que se aumenta considerablemente el error tipo I por cada variable que sea considerada(para dos variables es sólo 0.05). En estos casos debe realizarse un análisis de varianza (ANOVA)sobre la media o sobre la varianza, dependiendo de lo que se quiera comparar.

Para realizar un ANOVA es recomendable que todos los grupos (variables) tengan el mismonúmero de observaciones. Para explicar el procedimiento, se presenta el siguiente ejemplo teórico.

13.1. ANOVA sobre la media

Supongamos que estamos probando 4 dietas diferentes en grupos de 10 ratones. A cada grupose le administra su dieta respectiva desde el destete hasta cierto tiempo, cuando todos los ratonesson pesados. La hipótesis nula es que la media de los pesos, de todos los grupos es la misma.Comenzemos generando los datos:

a <– rnorm(10,mean=15.7,sd=1)b <– rnorm(10,mean=23.1,sd=1)c <– rnorm(10,mean=20.3,sd=1)d <– rnorm(10,mean=18.5,sd=1)peso <– c(a,b,c,d) # pesos concatenadosgpo <– rep(c(“a”,“b”,“c”,“d”),each=10) # grupos concatenadosexp <– data.frame(peso,gpo) # tabla con todos los datosattach(exp)

A continuación deben realizarse los cálculos para hacer la tabla de ANOVA. Este procedimientoes relativamente complicado, por lo que se debe tener cuidado. Primero pondremos las fórmulasgenerales para obtener la suma de cuadrados del total (SStot), del grupo (SSgpo) y del error (SSerr):

75

Page 77: apuntes bioestadistica

13.1. ANOVA SOBRE LA MEDIA CAPÍTULO 13. ANOVA

SStot = ∑i

∑j

x2i j−C (13.1)

SSgpo = ∑i

(∑ j xi j

)2

ni−C (13.2)

SSerr = SStot−SSgpo (13.3)

C =

(∑i ∑ j xi j

)2

N=

(∑i ∑ j xi j

)2

∑ki=1 ni

(13.4)

Explicando un poco, para calcular C se requiere la suma de todos los valores, luego se eleva alcuadrado y finalmente se divide entre el número total de observaciones (N). Para calcular SStot seresta C de la suma de los cuadrados de todas las observaciones. El cálculo de SSgpo es un poco máscomplicado: se calcula la sumatoria de las observaciones por grupo, se eleva este valor al cuadradoy se divide el resultado entre el número de observaciones en ese grupo (n); se suman estos valoresobtenidos para cada grupo, y finalmente a este resultado se le resta C.

Para construir la tabla del ANOVA se requiere además saber los grados de libertad (ν) tanto delgrupo como del error. Los grados de libertad se calculan con las siguientes fórmulas:

νtot = N−1 (13.5)νgpo = k−1 (13.6)

νerr = N− k = νtot−νgpo (13.7)

donde N representa el número total de observaciones y k representa el número total de grupos. Lamedia de los cuadrados (MS) se obtiene dividiendo las sumas de cuadrados SS entre sus respec-tivos grados de libertad ν. De esta manera, para el ejemplo que se mencionó, la tabla de ANOVAcorrespondiente, se presenta en el Cuadro 13.1.

Cuadro 13.1. Análisis de varianza de cuatro dietas experimentales

SS ν MSGrupo 249.237 3 83.079Error 35.234 36 0.979

La estadística que se calcula en un ANOVA es la F , que se obtiene por:

F =MSgpo

MSerr(13.8)

En nuestro ejemplo, F = 84.86. Este valor se compara con el valor teórico (de tablas) que es:F0.05,(1),3,36 = 2.866. Este valor se obtiene en R con: q f (0.95,3,36)

76

Page 78: apuntes bioestadistica

13.2. COMPARACIÓN ENTRE GRUPOS CAPÍTULO 13. ANOVA

La prueba de ANOVA en R es relativamente sencilla, simplemente se escribe la función: anova(lm(peso∼ gpo, data=exp)), que produce como resultado la tabla del ANOVA con el valor obtenidode F y de p, que si es menor a 0.05, se puede rechazar la hipótesis nula (como ocurre en nuestroejemplo).

Otra manera de realizar el ANOVA en R es mediante la instrucción: model ← aov(peso∼gpo,data=exp) para posteriormente ver el resultado con summary(model). Aunque en este caso se rea-lizan dos pasos, es más recomendable que el anterior, ya que se pueden graficar los resultados delanálisis y se puede hacer la comparación entre grupos (ver a continuación).

13.2. Comparación entre grupos

13.2.1. Tukey

Una vez que se ha rechazado la hipótesis nula, es deseable saber dónde se encuentra la diferenciaentre los grupos. Una primera aproximación, consiste en comparar al primer grupo, contra los otrosrestantes (suponemos que el primer grupo es el control).

Mediante la prueba de Tukey se pueden obtener las diferencias entre las medias de cada grupo,con respecto al control, con sus respectivos intervalos de confianza: TukeyHSD(model,order = T ).La gráfica correspondiente se obtiene con la función: plot(TukeyHSD(model,order = T )).

13.2.2. Comparación por pares

La técnica pairwise prueba si existe diferencia estadística entre medias por pares de grupos.Se realiza con la función: pairwise.t.test(peso,gpo,data = exp). Los resultados proporcionan elvalor de p para cada comparación.

Finalmente con la función: sort(tapply(peso,gpo,mean)) visualizamos las medias de cada gru-po, lo cual, en conjunto con el análisis de Tukey, nos permite ordenar los grupos por diferenciaestadística.

Otra opción es definiendo un modelo lineal (como en el caso de la regresión), y obteniendo loscoeficientes correspondientes con summary:

mod <– lm(peso∼gpo,data=exp)summary(mod)

Los resultados de los coeficientes, no corresponden, en este caso, a la ordenada al origen y a lapendiente. El valor de Intercept indica la media del primer grupo, mientras que los otros estimadoscorresponden a la diferencia de la media de cada grupo, con respecto al primero. En cada renglón

77

Page 79: apuntes bioestadistica

13.3. PRUEBAS NO-PARAMÉTRICAS CAPÍTULO 13. ANOVA

se agrega también la p sobre la diferencia significativa entre las medias. En nuestro ejemplo, todoslos grupos son significativamente diferentes del primero, siendo el de mayor diferencia el grupo b.

13.3. Pruebas no-paramétricas

La prueba de ANOVA contempla las siguientes consideraciones:

Muestreo aleatorio

Igualdad de varianzas

Independencia de los errores

Distribución normal de los errores

Aditividad de los efectos del tratamiento

Cuando alguna o más de una de éstas no se cumple, entonces se recomienda realizar una pruebano-paramétrica, siendo la más conocida, la prueba de Kruskal-Wallis.

Como un primer paso, se puede probar la hipótesis nula sobre la homogeneidad de las varianzas.Esto se realiza con la prueba de Bartlett: bartlett.test(peso ∼ gpo,data = exp). Si se rechaza lahipótesis nula, entonces, se puede aplicar la prueba de Kruskal-Wallis con: kruskal.test(peso ∼gpo,data = exp).

Si se encuentra diferencia significativa en esta prueba, se rechaza la hipótesis nula, con lo quese sabe que por lo menos el grupo cuya media es mayor, pertenece a una población estadística-mente diferente de la del grupo cuya media es menor. Para hacer un análisis más detallado, hayque recordar que la prueba de “Pairwise” así como la de Tukey, implican que la distribución delos errores es normal, por lo que no pueden utilizarse en estos casos. Haciendo algo similar a laprueba de Tukey, es posible calcular los intervalos de confianza por bootstrap para cada grupo, paraposteriormente, detectar los posibles traslapes entre los grupos que se están comparando, y poderllegar a una conclusión más detallada.

13.3.1. Pruebas multivariadas

En los casos anteriores, aunque existían más de 2 muestras, sólo se estaban relacionando 2 va-riables, una que explica (independiente, de tipo categórica) y otra de respuesta (dependiente, detipo continua). Aunque es mucho más complicado, desde el punto de vista estadístico, también esposible probar hipótesis que involucren a más de una variable que explica. En estos casos, se diceque se realiza un análisis multivariado.

78

Page 80: apuntes bioestadistica

13.3. PRUEBAS NO-PARAMÉTRICAS CAPÍTULO 13. ANOVA

Ejemplos de este tipo de pruebas, se han mencionado brevemente cuando se presentaron lasgráficas condicionadas (coplot) y los dendrogramas (gráficas de árbol).

Para este tipo de pruebas, se propone como ejemplo la base de datos “heart.rate” que se encuen-tra en la librería ISwR. Este archivo, contiene las mediciones, a diferentes tiempos, de la frecuenciacardíaca de nueve pacientes a los cuales se les administra enalprilato. Es decir, que podría esta-blecerse, como hipótesis alterna, que la frecuencia cardíaca depende tanto del paciente, como deltiempo en que se está midiendo. La prueba se realiza mediante la definición de la ecuación en R:

library(ISwR)data(heart.rate)attach(heart.rate)model← aov(hr ∼ sub j + time,data = heart.rate)summary(model)plot(model)f riedman.test(hr ∼ time|sub j,data = heart.rate)interaction.plot(time,sub j,hr,col = 1 : 9, lty = 1, lwd = 2, trace.label =′ Su j.′)

Con la última instrucción se grafica el “spaghetigrama” que se presenta en la Fig. 13.1. La pruebade Friedman es cuando se requiere un análisis no paramétrico.

7080

9010

011

012

013

0

Tiempo (min)

Fre

cuen

cia

card

iaca

(m

edia

)

0 30 60 120

Suj.

529613487

Figura 13.1. Frecuencia cardíaca (media) contra tiempo en sujetos (Suj.) tratados con enalprilato.

79

Page 81: apuntes bioestadistica

Capítulo 14

Distribuciones discretas

Estas distribuciones suelen emplearse para datos categóricos, es decir, ordinales o nominales. EnR a este tipo de variables se les conoce como factores, que presentan diferentes niveles.

14.1. Bernoulli

En este tipo de distribución sólo existen 2 posibles resultados, que generalmente se traducen enéxito o fracaso. En el caso de estudios en bioestadística, la variable sexo sería un ejemplo. Otroejemplo es cuando se analizan los resultados de un tratamiento (por ejemplo cirugía), en donde loque se manejan son proporciones.

Usualmente se le da el valor de 1 al éxito y de 0 al fracaso. Ahora bien, la probabilidad de éxitose denomina p, mientras que la probabilidad de fracaso es q = 1− p.

Las estadísticas más importantes en una distribución de Bernoulli, se describen en las siguientesecuaciones:

x = p (14.1)

s2 = pq (14.2)

s2x =

√pqn

(14.3)

Suponga, a manera de ejemplo, que se analizan en un hospital las complicaciones de una ope-ración determinada. En el estudio clínico se tienen los resultados de 20 pacientes, de los cualessólo 5 presentaron complicaciones. Entonces, p = 15/20 = 0.75 y q = 5/20 = 0.25. Por lo tanto lamedia de esta muestra es de 0.75 con desviación estándar de 0.433.

80

Page 82: apuntes bioestadistica

14.2. BINOMIAL CAPÍTULO 14. DISTRIBUCIONES DISCRETAS

14.2. Binomial

Es un caso más general de la distribución de Bernoulli, donde se toman muestras de tamaño n y seinvestiga la probabilidad de obtener un número determinado de casos exitosos. Una consideraciónimportante de la distribución binomial es que supone que el muestreo se lleva a cabo con remplazo.Esto quiere decir, que cada vez que se toma un elemento de la muestra, este se regresa a la poblaciónoriginal, de modo que la probabilidad de éxito o fracaso es constante en todo el proceso. Si lasmuestras son pequeñas esta consideración es de suma importancia, sin embargo, si la muestra esrelativamente grande, entonces no hay un efecto significativo. La función de probabilidad de ladistribución binomial está dada por:

f (x) = nCx pxqn−x =(

nx

)pxqn−x (14.4)

En el caso de la distribución binomial, las principales estadísticas son:

x = np (14.5)

s2 = npq (14.6)

Para muestras relativamente grandes, la distribución binomial puede aproximarse a la normal.Para poder aproximar a la distribución normal debe haber más de 5 observaciones exitosas y másde 5 observaciones no exitosas.

Si x representa el número de observaciones exitosas, entonces la prueba de que p = p0 estábasada en:

u =x−N p0√

N p0(1− p0)(14.7)

que tiene una distribución aproximada a la normal con media cero y desviación estándar de 1 yque en u2 tiene una distribución aproximada a χ2 con 1 grado de libertad.

14.2.1. Tablas de contingencia

Un tipo de tabla, relativamente común, se basa en datos de una sóla muestra que incluye dosvariables categóricas. Por ejemplo, se puede tener una muestra de personas a las cuales se lesencuesta para saber tanto si son fumadores, como su capacidad vital (una medida de la funciónpulmonar). En este estudio, se quiere saber si la gente que fuma tiene menor capacidad vital (enpromedio) que una que no fuma. Supongamos que el total de encuestados es n = 120 y que losdatos obtenidos fueran los del Cuadro 14.1.

Con estos datos haremos varias pruebas, que se describen a continuación.

81

Page 83: apuntes bioestadistica

14.2. BINOMIAL CAPÍTULO 14. DISTRIBUCIONES DISCRETAS

Cuadro 14.1. Asociación entre fumadores y capacidad vital baja. Se indican el número de obser-vaciones con su respectiva observación esperada en paréntesis.

FumadorCapacidad vital baja Si No Total

Si 11 (5.25) 10 (15.75) 21No 19 (24.75) 80 (74.25) 99

Total 30 90 120

14.2.2. Riesgo reltativo

Cuando se compara el riesgo relativo de un estudio observacional, se compara el riesgo de en-fermedad del grupo expuesto contra el riesgo de enfermedad del grupo control (no expuesto). Enel caso de los datos del Cuadro 14.1, el riesgo relativo es:

RR =11/3010/90

=0.36670.1111

= 3.30

Es decir, el hecho de fumar, aumenta 3.30 veces el riesgo relativo de tener una capacidad vitalbaja.

Cuando el valor numérico del riesgo relativo es menor a 1, se dice que el riesgo es negativo ycuando es mayor a 1 se dice que es positivo.

14.2.3. Relación de probabilidades

De los datos del Cuadro 14.1 se puede estimar la probabilidad (odds) de la muestra, de adquirirla enfermedad. Esta probabilidad se estima como:

odds =total enfermos

total muestra – total enfermos

Es decir, odds = 21/(120−21) = 0.212. En este sentido, se podría decir que la probabilidad deque un individuo de nuestra muestra tenga capacidad vital baja es de 21.2 %. Ahora que se puedecalcular esta probabilidad por grupos, de modo tal que se pueda determinar si por el hecho depertenecer a un grupo, se tenga mayor probabilidad de desarrollar la enfermedad. A este conceptose le conoce como relación de probabilidades (odds ratio). Para el caso que se ha estado manejandoeste valor es:

82

Page 84: apuntes bioestadistica

14.2. BINOMIAL CAPÍTULO 14. DISTRIBUCIONES DISCRETAS

OR =11/(30−11)10/(90−10)

=11/1910/80

= 4.63

El resultado se interpreta de la siguiente manera: la probabilidad de que una persona que fumedesarrolle capacidad vital baja es 4.63 veces mayor que el de una persona que no fuma.

14.2.4. Pruebas de χ2

En el ejemplo que se ha manejado, este test puede probar si existe o no existe asociación entreel hecho de fumar y desarrollar una capacidad vital baja. Es decir, que la hipótesis nula estableceque estas dos variables categóricas son independientes.

Para hacer esta prueba, se deben calcular primero las frecuencias esperadas para cada grupo.El razonamiento es como sigue: si las variables fuesen independientes, entonces sus frecuenciasde desarrollar enfermedad serían las mismas. Por ejemplo, para el primer valor, se tiene que 11fumadores tienen capacidad vital baja, si las frecuencias fuesen las mismas entonces esta cantidada guardaría la siguiente relación:

a30

=21

120

Por lo que a = 30× 21/120 = 5.25. Siguiendo el mismo razonamiento se pueden calcular losvalores esperados para cada combinación. Los resultados correspondientes, se incluyen entre pa-réntesis en el Cuadro 14.1.

La estadística que utilizamos para probar la hipótesis nula se calcula con la siguiente fórmula:

χ2 =

n

∑(observados− esperados)2

esperados(14.8)

donde n es el número de celdas con datos (en este caso, 4). Al sustituir los valores respectivos delCuadro 14.1 en la fórmula anterior, se obtiene que χ2 = 10.178. Este valor se tiene que compararcon el teórico que viene en las tablas. Para poder saber el valor teórico, es necesario saber conanticipación los grados de libertad de la prueba:

grados de libertad = ν = (num. columnas – 1)(num. renglones – 1) (14.9)

En este ejemplo, se tiene, por tanto, un grado de libertad, con lo que: χ20.05,1 = 3.841, que es

menor al experimental, por lo que se puede rechazar la hipótesis nula. Este valor de tablas se puedeobtener en R con: qchisq(0,95,1).

83

Page 85: apuntes bioestadistica

14.2. BINOMIAL CAPÍTULO 14. DISTRIBUCIONES DISCRETAS

Para hacer la prueba en 1 paso es necesario que los datos estén en forma de matriz. La maneramás sencilla de hacer la matriz es mediante la función “cbind” como se muestra a continuación:

Fuma <– c(11,19)No.Fuma <– c(10,80)vital <– cbind(Fuma,No.Fuma)rownames(vital) <– c(“Enfermo”,“Sano”)chisq.test(vital,correct=F)

Note que para la prueba se utilizó la opción de “corrección” como falsa, con el objetivo dehacer el análisis clásico. Dado que se trata de variables categóricas, se recomiendas las gráficas debarras como se muestra en la Fig. 14.1 donde se puede detectar fácilmente que la distribución deproporciones en los no fumadores es muy diferente a la de los fumadores.

Fuma No.Fuma

Núm

ero

de S

ujet

os

020

4060

80

EnfermoSano

Figura 14.1. Capacidad vital baja en fumadores y no fumadores.

La gráfica anterior se realizó con las siguientes instrucciones:

barplot(vital,beside=T,col=c(“darkgreen”,“darksalmon”),ylab=“Número de Sujetos”)legend(1,80,rownames(vital),fill=c(“darkgreen”,“darksalmon”))

84

Page 86: apuntes bioestadistica

Capítulo 15

Regresión y Correlación Lineal

La relación entre dos variables puede implicar la dependencia de una de ellas con respecto ala otra. Esto es, la magnitud de la variable dependiente, se asume que está dada por la magnitudde la variable independiente. Lo contrario no ocurre. Por ejemplo, en la relación entre la presiónarterial y la edad en humanos, la primera es función de la segunda. Cabe hacer mención que enestos casos, el término dependencia no implica una relación causa-efecto entre las dos variables.A esta relación de dependencia se le conoce como regresión, siendo la regresión simple el caso enque sólo dos variables se consideran.

En otras ocasiones, la relación entre dos variables determinadas no es de dependencia, aunque esposible que el cambio en una variable esté relacionada, de alguna manera, con el cambio en la otra.En estos casos, se deben realizar análisis de correlación. Por ejemplo, la longitud de los brazos estácorrelacionada con la longitud de las piernas en un mismo individuo, pero eso no implica que hayadependencia entre ellas.

Estos análisis (regresión y correlación) se utilizan cuando las dos variables analizadas son con-tinuas. Cuando la variable independiente (la que explica) es de tipo categórica, entonces se realizaotro tipo de análisis como las pruebas de hipótesis vistas en capítulos anteriiores, o bien un análisisde varianza si más de dos variables independientes están involucradas.

15.1. Regresión lineal simple

Una de los pasos más importantes en este tipo de análisis, es el de seleccionar un modelo entre losposibles, que sea más adecuado para ajustarse a los datos observados. El principio de parsimonianos dice que debemos ajustar con el modelo más simple posible. En la práctica, esto significa quese debe ajustar con el modelo que contenga el menor número de parámetros. En el modelo nulo noexiste relación entre la variable y y la variable x, por ejemplo, y puede ser constante:

85

Page 87: apuntes bioestadistica

15.1. REGRESIÓN CAPÍTULO 15. REGRESIÓN Y CORRELACIÓN LINEAL

y = a (15.1)

Si existe relación entre y y x, el modelo más simple es el suponer que dicha relación es lineal:

y = a+bx (15.2)

donde la variable de respuesta y es una función lineal de la variable que explica x, el parámetro aes la ordenada al origen o intercepto y el parámetro b es la pendiente de la línea. Los objetivos delanálisis lineal son los siguientes:

Estimar los valores de los parámetros a y b

Estimar los errores estándar de esos parámetros

Utilizar los errores estándar para determinar si estos valores son estadísticamente diferentesde cero

Predecir valores de y teóricos, para diferentes valores de x

Para establecer un análisis de regresión lineal simple, el primer paso consiste en graficar losdatos. Una vez graficados, es posible tener una primera aproximación mediante una regresióngráfica. Esta técnica, poco precisa, consiste en trazar una recta que pasa por en medio de todas lasobservaciones.

Con base al principio anterior, si una recta teórica pasa por en medio de todos los datos, entonceslas distancias de los datos por arriba de la recta será igual a la suma de las distancias por abajo deella. Matemáticamente se trata de minimizar estas distancias. A este procedimiento se le conocecomo mínimos cuadrados. La deducción de la fórmula no se presenta en estos apuntes, sólo sepresentan las fórmulas resultantes para los dos parámetros:

b =SSxy

SSxx(15.3)

a = y−bx (15.4)

Para la Ec. 15.3, las sumas de cuadrados se obtienen, a su vez, de las siguientes ecuaciones:

SSxy = ∑xiyi−∑xi ∑yi

n= ∑(x− x)(y− y) (15.5)

SSxx = ∑x2i −

[∑xi]2

n= ∑(x− x)2 (15.6)

Dado que la mejor recta pasa por el punto de los promedios (x, y), el parámetro a se obtienedespejando de la Ec. 15.2 usando esta coordenada, como se muestra en la Ec. 15.4.

86

Page 88: apuntes bioestadistica

15.1. REGRESIÓN CAPÍTULO 15. REGRESIÓN Y CORRELACIÓN LINEAL

Una vez estimados los parámetros, se pueden obtener los valores de los errores estándar, consi-derando dos grados de libertad (debido al número de parámetros estimados) y se puede emplearla ecuación para poder predecir valores de y. La desviación estándar del error se obtiene de lasuma de cuadrados entre los valores teóricos (teo) que se obtienen de la ecuación y los valoresexperimentales (exp):

s =

√SSerr

n−2=

√∑(yexp− yteo)2

n−2(15.7)

Con este valor se calcula el error estándar dividiendo entre la raíz cuadrada de la suma de cua-drados en x:

se =s√SSxx

=s√

(x− x)2(15.8)

Un indicador de ajuste se obtiene con el coeficiente de regresión o de determinación que secalcula como:

r2 =SSyy−SSerr

SSyy(15.9)

15.1.1. Regresión en R

Para ilustrar la regresión lineal simple en R, se utilizarán los datos del archivo “regression.txt”de la página web del Crawley:

reg <– read.table(“regression.txt”,header=T) # se cargan los datosattach(reg)reg.lm <– lm(growth∼tannin) # regresion linealreg.lm # valores de los parametrossummary(reg.lm) # analisis lineal

Con la última instrucción se obtienen no sólo los valores de los parámetros, sino que además suserrores estándar y la prueba de hipótesis de si son diferentes de cero. Esta prueba es importanteen el caso de la pendiente, ya que si no es distinta de cero, entonces no existe relación entre lasvariables. Asimismo, se proporciona el valor del coeficiente de regresión (r2) que es uno de losindicadores estadísticos importantes del modelo. Cuando el ajuste es muy bueno, se tienen valorescercanos a uno; valores cercanos a cero, indican un mal ajuste. Para trazar la recta de la ecuación,una vez graficados los datos originales, se escribre la función: abline(reg.lm).

Para obtener predicciones, puede usarse R como calculadora y sustituir en la ecuación original,o bien puede usarse la función predict. Por ejemplo, si se quiere saber el crecimiento para un

87

Page 89: apuntes bioestadistica

15.2. CORRELACIÓN CAPÍTULO 15. REGRESIÓN Y CORRELACIÓN LINEAL

porcentaje de tanina de 3 se escribe: predict(reg.lm, list(tannin = 3)); si se quieren más valores seutiliza la concatenación: predict(reg.lm, list(tannin = c(5.5,6.8))).

15.2. Correlación lineal simple

Mediante este análisis se quiere establecer la posible relación o correlación entre dos variablescontinuas. A diferencia de la regresión, la relación sólo es supuesta. Se parte de la hipótesis nulade que no hay correlación, por lo que, en un modelo lineal, la pendiente no es significativamentediferente de cero. El coeficiente de correlación tiene valores entre -1 y 1. Valores cercanos a ceroimplican no-correlación. La fórmula es la siguiente:

r =SSxy√

SSxxSSyy= ∑(x− x)(y− y)√

∑(x− x)2 ∑(y− y)2(15.10)

En R esta es una función directa que se realiza con: cor(x,y). Si se desea realizar un análisis másformal, entonces se puede probar la hipótesis nula de la no correlación mediante cor.test(x,y) dela librería ctest. Con esta prueba se obtiene el coeficiente de correlación de Pearson (el default),que depende de la distribución normal de las diferencias entre las variables. Si se desea realizarpruebas no paramétricas, se puede escoger el método de Spearman o de Kendall, por ejemplo:cor.test(growth, tannin,method = c(“spearman”)).

88

Page 90: apuntes bioestadistica

Capítulo 16

Ajuste de modelos

En el capítulo anterior se presentó brevemente el análisis de regresión lineal. En este capítulo serealiza un análisis más profundo sobre como ajustar los modelos a un conjunto de datos (observa-ciones).

16.1. Modelos lineales

Hay que hacer notar, que en ocasiones, el modelo lineal no es el modelo que mejor se ajusta alos datos, aunque si es el más simple. También hay que hacer énfasis en que dado que los datos sonexperimentales, es posible que tengan error y por tanto, modifiquen considerablemente un modelodeterminado. En este sentido, hay que recordar que al aplicar un modelo, sólo se tienen estimadosgruesos sobre los valores de los parámetros y que hay que reflexionar sobre el resultado que sereporta.

Para tratar de aclarar lo anterior, se presenta un caso concreto, basada en un principio de astrono-mía conocido como “ley de Bode” que trata de establecer una relación lineal en la distancia de losplanetas de la vía lactea con respecto al sol. Estos datos se encuentran en el archivo “bode.txt”, quese encuentra en la sección de “Archivos”, de la página web del curso. Comenzamos con el modeloinicial que considera todos los datos:

bode <– read.table(“bode.txt”, header=T)attach(bode)plot(x,y,pch=16,col=2)model1 <– lm(y∼x)abline(model1)summary(model1)

Como se observa en la Fig. 16.1a, pese a lo que indica el coeficiente de regresión (0.93), el

89

Page 91: apuntes bioestadistica

16.1. MODELOS LINEALES CAPÍTULO 16. AJUSTE DE MODELOS

ajuste no es muy bueno, ya que el modelo no sigue adecuadamente a los datos. De hecho, si se esobservador, se puede notar que el último valor sugiere una ligera curvatura en el modelo.

0 20 40 60 80

010

2030

40

(a)

x

y

0 10 20 30 40

05

1015

2025

30

(b)

x2

y2

Figura 16.1. Comparación de modelos lineales. (a) Modelo lineal considerando todas las observa-ciones (model1). (b) Modelo lineal que no considera la última observación (model2).

Dado lo anterior, es posible plantear la hipótesis que las variables sólo siguen una relación linealhasta un valor de x = 40, y que después, la relación es no lineal. En este sentido, se puede proponerun segundo modelo donde se descarta la última observación, como se muestra a continuación:

x2 <– x[-10]y2 <– y[-10]model2 <– lm(y2∼x2)plot(x2,y2,pch=16,col=2abline(model2,col=4)summary(model2)

El resultado de este ajuste se presenta en la Fig. 16.1b, donde se puede observar un mejor ajustedel modelo. Ahora se puede realizar una comparación más detallada de ambos modelos. En primertérmino, se pueden comparar algunos criterios de información sobre los modelos. El más conocidose presentó en el capítulo anterior y corresponde al coeficiente de regresión.

90

Page 92: apuntes bioestadistica

16.1. MODELOS LINEALES CAPÍTULO 16. AJUSTE DE MODELOS

16.1.1. Criterios de Información

Existen otros criterios de información, que no sólo evalúan que tanto se acercan los valores teó-ricos a los experimentales, sino que además castigan de acuerdo al número de parámetros que seestán estimando (en el caso lineal son dos: el intercepto y la pendiente). De este tipo de criterios,los más usados son el de Akaike y el Bayesiano. Entre más pequeños sean estos valores, mejor esel modelo. En el archivo “funciones.txt” se encuentra un concentrado de las funciones más impor-tantes que se han ido utilizando en el curso, y que no están definidas en R. De este archivo podemoscopiar la función akaike para calcular los principales criterios de información. Esta función requie-re que se introduzcan los valores experimentales, los valores teóricos y el número de parámetros.Suponiendo que ya se tenga cargada la función, se presenta a continuación su uso para el caso delprimer modelo:

theo1 <– fitted.values(model1)akaike(y,theo1,2)

Como se pude observar, con la función fitted.values se obtienen los valores teóricos correspon-dientes al ajuste con el modelo propuesto. Si se realiza la misma operación para el segundo modelo,se encontrará que el valor de r2 es más grande, y que los de AIC y BIC son más pequeños, por loque se puede concluir que el modelo es mejor.

16.1.2. Intervalos de confianza

Dado que los valores de los parámetros son sólo estimaciones, es conveniente calcular el interva-lo de confianza que se tiene sobre estos valores. Obviamente, entre más pequeño sea este intervalo,mayor certidumbre se tiene sobre su valor. Una manera de calcular el intervalo de confianza puedeser a través de la técnica de bootstrap. Para aplicar esta técnica se requiere que los valores expe-rimentales se encuentren cargados en una matriz y posteriormente, se puede usar la función bst.fitque se encuentra en el archivo de “funciones.txt”. A continuación se presenta el procedimientopara calcular los intervalos de confianza del primer modelo (recuerde que requiere copiar y pegarprimero las funciones bst.fit y ci para poder llevarlo a cabo):

bode1.mat <– cbind(x,y)bst.fit(bode1.mat)ci(-0.003,4.674)

En el cálculo que se realizó, del bootstrap se encontró que el intervalo de confianza para elintercepto fue de -0.003432224 a 4.674105818. Recuerde a que en cada realización el valor serádiferente, aunque muy parecido. Una manera de reportar el intervalo de confianza es indicando elvalor de la media más menos su intervalo. Esto se puede calcular con la función ci, la cual requiereque se introduzcan los valores mínimo y máximo del intervalo de confianza (en este caso -0.003

91

Page 93: apuntes bioestadistica

16.2. MODELOS NO LINEALES CAPÍTULO 16. AJUSTE DE MODELOS

y 4.674), como se muestra arriba. Si se realiza el mismo procedimiento para el segundo modelo,se encontrará que los intervalos de confianza son más pequeños, lo cual denota que se tiene mayorcertidumbre sobre los parámetros estimados.

16.1.3. Predicciones

Como se mencionó en el capítulo anterior, uno de los objetivos importantes de un análisis deregresión es el poder hacer predicciones teóricas. Supongamos que se quisiera saber el valor de ladistancia (y) que se tendría para un valor de x = 30. Este valor se encuentra dentro del rango de xdonde es posible hacer predicciones en ambos modelos.

El valor que se obtiene con el primer modelo: predict(model1,list(x=30)) de 18.77, es diferenteal que se obtiene con el segundo modelo predict(model2,list(x2=30)) y que es de 24.70. Con estose quiere hacer énfasis en la necesidad de seleccionar al mejor modelo, ya que las prediccionespueden cambiar dramáticamente.

16.2. Modelos No Lineales

En ocasiones no es posible ajustar un modelo lineal a un conjunto de datos. En el área de cienciasbiomédicas los fenómenos que se tienen siguen, en general, una dinámica no lineal.

Cuando se ajusta un modelo no lineal, a diferencia del caso lineal, es necesario establecer un va-lor aproximado de los parámetros que se están estimando. El algoritmo comienza con esos valores,y posteriormente trata de converger en la búsqueda de los mínimos cuadrados. En ocasiones, es po-sible que se pueda llegar a la convergencia con valores triviales (por ejemplo, hacer que todos losparámetros sean 1), pero en la mayoría de las veces es necesario tener una del valor del parámetroque se está estimando, el cual, además, hay que recordar que puede tener un significado físico.

Como ejemplo, se presenta el análisis de los datos del archivo “daytime.txt” (de la página web deArchivos), que contiene el tiempo en minutos que se observó de luz solar en la ciudad de Boston,en el transcurso de 3 años.

Como es de suponer, esta función es cíclica, lo cual se verifica al graficar los datos. En la Fig.16.2 se presentan los datos con el modelo ajustado.

Estos datos pueden ajustarse con una función seno del tipo:

y = asin(2πbx+ c)+d (16.1)

En este caso, el parámetro a corresponde a la amplitud de la onda seno. Para tener un valoraproximado de este, hay que imaginar una linea horizontal que cruza por la mitad de los datos

92

Page 94: apuntes bioestadistica

16.2. MODELOS NO LINEALES CAPÍTULO 16. AJUSTE DE MODELOS

0 200 400 600 800 1000

600

700

800

900

Día

Tie

mpo

(m

in)

Figura 16.2. Registro de tiempo de luz solar en Boston.

(aproximadamente en y = 700) y a partir de esta línea se calcula la distancia al valor máximo(aproximadamente en y = 900), por lo que a≈ 200. El parámetro b corresponde a la frecuencia dela onda. La frecuencia es el inverso del período, por lo que b≈ 1/365. El parámetro c correspondea la fase de la onda seno. Esta es más difícil de estimar, pero en este caso es aproximadamente−π/2. Finalmente, el parámetro d es el tiempo promedio, por lo que d ≈ 700. Dado que R utilizala letra c para concatenar, es mejor no utilizarla como variable. En este sentido, se cambiará estaletra por la variable cc como se muestra en el algoritmo para realizar el ajuste del modelo no lineal:

daytime <– read.table(“daytime.txt”,header=T)attach(daytime)plot(day,time,pch=16,col=2,xlab=“Día”,ylab=“Tiempo (min)”)model <– nls(time ∼ a*sin(2*pi*b*day+cc)+d,start=list(a=200,b=1/365,cc=-pi/2,d=750))summary(model)theo <– fitted.values(model)lines(day,theo,col=4)

Como se mostró en la sección anterior, pueden calcularse los criterios de información para eva-luar la parsimonia del modelo, así como los intervalos de confianza para cada parámetro. Para esteúltimo caso, la función que se requiere copiar es bst.nls, la cual tiene definida la función seno.En caso de que se quisiera ajustar otro tipo de modelos, sería necesario hacer las correccionespertinentes.

93

Page 95: apuntes bioestadistica

16.2. MODELOS NO LINEALES CAPÍTULO 16. AJUSTE DE MODELOS

16.2.1. Transformaciones

En ocasiones, es posible que mediante alguna transformación matemática, un conjunto de ob-servaciones que siguen una dinámica no lineal, puedan ajustarse con un modelo lineal. El ejemplomás clásico es cuando al graficar en escala semilogarítmica o logarítmica se detecta una correlaciónlineal entre las variables. En estos casos, aunque el modelo lineal es más simple de implementar,no es estadísticamente el más adecuado.

A manera de ejemplo, se presenta el análisis de los datos contenidos en el archivo “regmod.txt”que contiene un conjunto de datos teóricos que se generaron introduciendo algo de ruido gaussianoa una función exponencial. En la Fig.16.3a se presentan los datos originales con el ajuste no lineal,mientras que en la Fig. 16.3b se presentan lo datos transformados con el ajuste lineal.

0 50 100 150

02

46

810

12

(a)

x

y

0 50 100 150

−1

01

2

(b)

x

log(

y)

Figura 16.3. Efecto de las transformaciones. (a) Ajuste del modelo no lineal sobre los datos origi-nales. (b) Ajuste del modelo lineal sobre los datos transformados.

De esta gráfica se puede estimar que el intercepto aproximadamente es 14 y la pendiente aproxi-madamente es de -0.03. A continuación se presenta el algoritmo para el análisis de los modelos:

regmod <– read.table(“regmod.txt”,header=T)attach(regmod)plot(x,y,pch=16,col=2)y2 <– log(y)model.nls <– nls(y ∼ a*exp(b*x),start=list(a=14,b=-0.03))theo.nls <– fitted.values(model.nls)

94

Page 96: apuntes bioestadistica

16.2. MODELOS NO LINEALES CAPÍTULO 16. AJUSTE DE MODELOS

lines(x,theo.nls,col=4)plot(x,y2,pch=16,col=2,ylab=“log(y)”)model.lm <– lm(y2∼x)coefficients(model.nls)coefficients(model.lm)

Si se comparan los criterios de información para cada modelo, se encontrará que se tienen me-jores valores para el caso del modelo no lineal que para el caso del modelo lineal.

95

Page 97: apuntes bioestadistica

Capítulo 17

Modelos matemáticos

En este capítulo se presentan algunos ejemplos de modelación matemática en biología. Paraevaluar estos modelos matemáticos, se recomienda el empleo de software desarrollado específica-mente para simulación. El más conocido es Matlab y es de tipo comercial. Una alternativa máseconómica es Berkeley Madonna, el cual suele ser más rápido en sus cálculos, a la vez que la im-plementación de los modelos es más sencilla. También es posible hacer simulaciones con softwarelibre (gratuito), como es el caso de Octave, SciLab y XPPAUT (o WinPP en plataforma Windows).Aunque R no es un software de simulación, también es posible resolver ecuaciones diferenciales oen diferencia. Con el objetivo de mantener la consistencia con el resto del texto, se presentan lassimulaciones implementadas en R.

17.1. Modelos continuos

Los modelos continuos se establecen a través de la definición de ecuaciones diferenciales or-dinarias (ODEs). Para resolver estas ecuaciones numéricamente, hay que establecer, además delsistema de ODEs, las condiciones iniciales, el tiempo, el paso de integración y el valor de los pa-rámetros. En el caso de R, es necesario cargar primero a la librería odesolve. A continuación, sepresentan dos ejemplos muy conocidos en biología.

17.1.1. Enfermedades infecciosas

Este modelo fue inicialmente propuesto por Kermack y McKendrick en 1927 y se conoce comomodelo SIR. Se tiene un grupo de personas susceptibles (S) que entran en contacto con un pequeñonúmero de personas infectadas (I). El modelo sigue la ley de acción de masas la cual suponeque cada vez que un individuo S entra en contacto con un individuo I se infecta con una ciertaprobabilidad β (el contacto se modela matemáticamente mediante una multiplicación). A su vez

96

Page 98: apuntes bioestadistica

17.1. MODELOS CONTINUOS CAPÍTULO 17. MODELOS MATEMÁTICOS

los individuos I, después de cierto tiempo, pasan a un estado de recuperados (R) o inmunes (a unatasa ν), con lo cual no pueden volver a padecer la infección. En el caso más simple, no se incluyeuna dinámica vital, es decir, se asume que la tasa de natalidad es igual a la de mortalidad en todoslos casos. El sistema de ODEs está definido por:

dSdt

=−βIS (17.1)

dIdt

= βIS−νI (17.2)

dRdt

= νI (17.3)

Una vez cargada la librería odesolve, establecemos valores de los parámetros en la variableparms y definimos las ecuaciones en la función sir como se muestra a continuación:

library(odesolve)parms <– c(beta=1e-4, nu=1/8)sir <– with(as.list(parms), function(t,x,parms)ds <– -beta*x[“i”]*x[“s”]di <– beta*x[“i”]*x[“s”] - nu*x[“i”]dr <– nu*x[“i”]res <– c(ds,di,dr)list(res) )

Posteriormente, establecemos el tiempo y paso de integración en la variable times y varias con-diciones iniciales en la variable init. El sistema de ODEs se resuelve con la función lsoda:

times <– seq(0,90,0.2)init1 <– c(s=2000,i=10,r=0)out1 <– as.data.frame(lsoda(init1,times,sir,parms))plot(out1$time,out1$s,type=“l”,col=2,xlab=“Tiempo (días)”,ylab=“Suceptibles”)plot(out1$time,out1$i,type=“l”,col=3,xlab=“Tiempo (días)”,ylab=“Infectados”)plot(out1$time,out1$r,type=“l”,col=4,xlab=“Tiempo (días)”,ylab=“Removidos”)

En la Fig.17.1 se presentan los resultados de la simulación numérica de este modelo bajo 3 condi-ciones iniciales diferentes. Como puede observarse, al aumentar el número de personas infectadasal inicio del estudio, la epidemia aparece más pronto y alcanza valores más altos.

17.1.2. Modelo Presa – Depredador

Este modelo inicialmente propuesto, de manera independiente por Lotka y Volterra es uno delos más conocidos en biología y en modelación matemática. El modelo asumen que las presas

97

Page 99: apuntes bioestadistica

17.1. MODELOS CONTINUOS CAPÍTULO 17. MODELOS MATEMÁTICOS

0 20 40 60 80

5010

015

020

025

0

Tiempo (días)

Infe

ctad

os

I(0) = 10I(0) = 20I(0) = 100

Figura 17.1. Resultados de la simulación del modelo SIR bajo distintas condiciones iniciales.

(pre) se reproducen a una tasa a y se mueren debido a que son cazadas por los depredadores a unatasa b. Note que este contacto presa–depredador se modela siguiendo la ley de acción de masas,descrita anteriormente. Por otro lado, los depredadores (dep) sólo se pueden reproducir cuandohan cazado, y lo hacen a una tasa d y se mueren a una tasa c, de esta manera el sistema de ODEsse define de la siguiente manera:

d predt

= a ·pre−b ·dep ·pre (17.4)

ddepdt

= d ·dep ·pre− c ·dep (17.5)

El algoritmo en R es el siguiente:

parms <– c(a=0.1, b=0.005/60, cc=0.04, d=4e-5)lvmodel <– with(as.list(parms), function(t, x, parms)dpre <– a*x[“pre”] - b*x[“pre”]*x[“dep”]ddep <– d*x[“pre”]*x[“dep”] - cc*x[“dep”]res <– c(dpre, ddep)list(res))times <– seq(0,360,0.5)init1 <– c(pre=2000,dep=600)out1 <– as.data.frame(lsoda(init1,times,lvmodel,parms))plot(out3$time,out3$pre,type=“l”,col=4,xlab=“Tiempo (días)”,ylab=“Depredador”)

98

Page 100: apuntes bioestadistica

17.2. MODELOS DISCRETOS CAPÍTULO 17. MODELOS MATEMÁTICOS

Dado que los depredadores dependen del número de presas que hay disponibles, para vivir, sellega a un estado estacionario, donde tanto la dinámica de presas como de depredadores es cíclica.En la Fig. 17.2 se presenta la relación de las dos dinámicas para diferentes condiciones iniciales enel número de depredadores.

0 1000 2000 3000 4000

500

1000

1500

2000

2500

3000

3500

Presa

Dep

reda

dor

dep(0)=600dep(0)=1200dep(0)=3000

Figura 17.2. Dinámicas del modelo Lotka-Volterra para distintas condiciones iniciales.

17.2. Modelos Discretos

Los modelos en tiempo discreto, se simulan utilizando ecuaciones en diferencia, es decir, elestado de una variable x en el tiempo t va depender, esencialmente, del estado que guardaba en eltiempo anterior (es decir, t−1), con lo que: xt = f (xt−1).

17.2.1. Crecimiento y decaimiento exponencial

En el caso más sencillo, podemos suponer que el número de individuos (población) de unadeterminada especie, en un tiempo discreto determinado, depende del número que se encontrabavivo en el tiempo anterior. Esta es una relación directamente proporcional que se puede establecercon la siguiente ecuación:

xt = rxt−1 (17.6)

99

Page 101: apuntes bioestadistica

17.2. MODELOS DISCRETOS CAPÍTULO 17. MODELOS MATEMÁTICOS

Se pueden obtener 6 diferentes tipos de dinámicas, de acuerdo al valor del parámetro r, las cualesse muestran en la Fig. 17.3.

5 10 15 20

0.00

0.05

0.10

0.15

0.20

(a)

Tiempo

x1

5 10 15 20

020

0040

0060

0080

0010

000

1200

014

000

(b)

Tiempo

x2

5 10 15 20

−0.

050.

000.

050.

100.

150.

20

(c)

Tiempo

x3

5 10 15 20−15

000

−10

000

−50

000

5000

(d)

Tiempo

x4

5 10 15 20

0.15

0.20

0.25

(e)

Tiempo

x5

5 10 15 20

−0.

2−

0.1

0.0

0.1

0.2

(f)

Tiempo

x6

Figura 17.3. Simulación de ecuación exponencial discreta. (a) Crecimiento exponencial para r =0.3. (b) Decaimiento exponencial para r = 1.8. (c) Decaimiento alternativo para r = −0.3. (d)Crecimiento alternativo para r =−1.8. (e) Estado estacionario para r = 1. (f) Ciclo periódico parar =−1. En todos los casos, la condición inicial es x(0) = 0.2.

De las 6 dinámicas anteriores, sólo 3 tienen significado biológico, ya que r, la tasa de crecimien-to, no puede tener un valor negativo. Para valores de 0 < r < 1 se tiene un decaimiento exponencial(si se grafica el logaritmo de x1, se obtiene una línea recta) como en la Fig. 17.3a; para valres der > 1, se tiene un crecimiento exponencial como en la Fig. 17.3b. Finalmente, para el caso de r = 1o el caso trivial de r = 0, se tiene un estado estacionario, como en la Fig. 17.3e. En otras palabras,para valores de r mayores a uno se tiene crecimiento y para valores menores a 1 (pero positivos)se tiende a la extinción.

Para resolver la ecuación diferencial en R, se genera primero un vector vacío, posteriormente,se establece una condición inicial, y finalmente se resuelve la ecuación mediante un ciclo, porejemplo:

100

Page 102: apuntes bioestadistica

17.2. MODELOS DISCRETOS CAPÍTULO 17. MODELOS MATEMÁTICOS

r1 <– 0.3x0 <– 0.2x1 <– numeric(20)x1[1] <– x0for(t in 2:20) x1[t] <– r1*x1[t-1]

17.2.2. Ecuación logística

El problema del crecimiento exponencial es que aunque en principio la tasa de reproduccióndebe ser mayor a uno para asegurar el crecimiento, existen limitantes dadas, principalmente, por lacantidad de recursos disponibles (tanto de espacio, como de alimento). En este sentido, es de es-perarse, que conforme va aumentando una población, comienzan a escasear los recursos, aumentala competencia entre los individuos de la especie, y por tanto dejan de crecer, ya sea quedándoseen un estado estacionario, o bien comienzan a decaer para comenzar un nuevo ciclo (como se ob-servó en el modelo de presa-depredador). Para modelar este efecto, la ecuación más utilizada es laecuación logística, que es una ecuación de tipo no lineal como se muestra a continuación:

xt = rxt−1(1− xt−1) (17.7)

Es decir, que si se parte de una condición inicial decimal (por tanto menor a 1), al comienzo de ladinámica el segundo término del paréntesis es despreciable y se tiene un crecimiento exponencial,sin embargo, conforme va creciendo la población en el tiempo, este término se hace más grande,con lo que, eventualmente, el crecimiento de la población cambia su dinámica. En la Fig. 17.4 sepresenta el resultado de varias dinámicas de x para diferentes valores de r, en todos los casos, lacondición inicial fue de x(0) = 0.01.

Como puede observarse, en el caso del panel (a) de la Fig. 17.4, se alcanza un estado estacionario,mientras que en los paneles (b) y (c) se presenta un comportamiento cíclico de período dos y cuatrorespectivamente. Finalmente, en el caso del panel (d) de la misma figura, la dinámica es caótica.Más adelante se define el concepto de caos.

Por otra parte, si se grafica la población en el tiempo t contra la misma población, pero en untiempo anterior (es decir, t− 1), entonces se puede observar la formación de una parábola, comose muestra en la Fig. 17.5, para los mismos valores de r de la Fig. 17.4. A este tipo de gráficas seles conoce como de empotramiento, mapas de retorno o mapas de Poincaré y pueden obtenerse enR con la función embed(x,2), que implica empotrar al vector x en dos dimensiones. Como puedeobservarse en la Fig. 17.5, en general, al ir aumentando el valor de r se define mejor la parábola. Dehecho, esto ocurre conforme se va uno adentrando en la zona de caos. Sin embargo, existe algunasventanas en la zona de caos donde es posible volver a distinguir ciclos límite.

101

Page 103: apuntes bioestadistica

17.2. MODELOS DISCRETOS CAPÍTULO 17. MODELOS MATEMÁTICOS

0 10 20 30 40 50

0.0

0.2

0.4

(a)

Tiempo

x1

0 10 20 30 40 50

0.0

0.2

0.4

0.6

0.8

(b)

Tiempo

x2

0 10 20 30 40 50

0.0

0.2

0.4

0.6

0.8

(c)

Tiempo

x3

0 10 20 30 40 50

0.0

0.2

0.4

0.6

0.8

(d)

Tiempo

x4

Figura 17.4. Dinámicas de la ecuación logística para diferentes valores del parámetro r. (a) Diná-mica para r = 2.3. (b) Dinámica para r = 3.3. (c) Dinámica para r = 3.5. (d) Dinámica para r =3.6. En todos los casos, la condición inicial es x(0) = 0.01.

0.0 0.2 0.4 0.6 0.8 1.0

0.1

0.3

0.5

(a)

xt−1

x t

0.0 0.2 0.4 0.6 0.8 1.0

0.2

0.4

0.6

0.8

(b)

xt−1

x t

0.0 0.2 0.4 0.6 0.8 1.0

0.2

0.4

0.6

0.8

(c)

xt−1

x t

0.0 0.2 0.4 0.6 0.8 1.0

0.2

0.4

0.6

0.8

(d)

xt−1

x t

Figura 17.5. Mapas de retorno correspondientes a las mismas condiciones descritas en la Fig. 17.4.

102

Page 104: apuntes bioestadistica

17.2. MODELOS DISCRETOS CAPÍTULO 17. MODELOS MATEMÁTICOS

17.2.3. Caos

Se pude definir caos en matemáticas como la dinámica aperiódica acotada de un sistema deter-minístico, con alta sensibilidad a las condiciones iniciales. A continuación se presentan con másdetalle estas características:

1. Aperiódica. No se vuelve a presentar el mismo resultado dos veces. Esto puede observarseparcialmente en el panel (d) de la Fig. 17.4. Si uno revisa los números, de hecho, ninguno serepite.

2. Acotada. A pesar de que se hagan numerosas iteraciones, los valores obtenidos se encuentrandentro de un rango finito de números, por lo que nunca se alcanza ±∞.

3. Determinístico. Es decir, que sigue una ecuación que no contiene elementos estocásticos oprobabilísticos. Se puede resolver la ecuación con precisión para cualquier valor inicial de xy del parámetro r.

4. Sensible a condiciones iniciales. Cuando se resuelve la ecuación para dos valores inicialesmuy cercanos, el resultado en el tiempo x(t) es muy diferente.

Es posible visualizar la ruta al caos en un mapa de bifurcación. En este mapa se grafican losúltimos valores obtenidos en la variable x (digamos, los últimos 50 valores) para diferentes valoresdel parámetro r como se muestra en la Fig. 17.6.

2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

r

x t

Figura 17.6. Mapa de bifurcación.

103

Page 105: apuntes bioestadistica

Capítulo 18

Análisis de Sobrevivencia

Hay varios estudios estadísticos cuya variable de respuesta es el tiempo en el que ocurre unevento, como una muerte o una falla. Estos estudios no siguen una distribución normal, por lo quesu análisis requiere de técnicas estadísticas especiales que se incluyen en el llamado “análisis desobrevivencia”.

En el caso de ciertos estudios clínicos, como en el caso de cáncer, la eficiencia de un nuevo tra-tamiento se evalúa en estudios de Fase II y Fase III. En el último caso, los pacientes son asignadosde manera aleatoria a un tratamiento y son seguidos hasta su muerte, o bien hasta que termine elestudio. Esto quiere decir, que al final del estudio, habrán algunos pacientes que no hayan muerto,por lo que el tiempo en que ocurre el evento (en este caso muerte) no es preciso, aunque se conoceel tiempo que, por lo menos, permanecen vivos. En bioestadística este tipo de datos se dice queson censurados y representan un tiempo mínimo de sobrevivencia.

Idealmente debemos utilizar toda la información del estudio con la que se cuenta, es decir, con-siderar tanto los datos de muerte real como los datos censurados. El método más usado en estudiosclínicos para este tipo de análisis es el de Kaplan-Meier.

18.1. Funciones de sobrevivencia

Para explicar las diferentes funciones de sobrevivencia se partirá de los datos del Cuadro 18.1que contiene el número de muertes debido a la fiebre escarlata, por año. Ninguno de estos datos escensurado.

Primero se asignan los datos del Cuadro 18.1 a dos variables, digamos age y death:

age <– 0:13death <– c(0,18,43,50,60,36,22,21,6,5,1,1,1,1)

104

Page 106: apuntes bioestadistica

18.1. FUNCIONES DE SOBREVIVENCIACAPÍTULO 18. ANÁLISIS DE SOBREVIVENCIA

Cuadro 18.1. Muertes por fiebre escarlata por grupo etáreo.

Edad (años) Muertes Edad (años) Muertes0 0 7 211 18 8 62 43 9 53 50 10 14 60 11 15 36 12 16 22 13 1

18.1.1. Función de densidad de muerte

Esta función corresponde a la función de probabilidad (pdf = probability density function) paradatos de muerte, donde el área bajo la curva es 1 como en el caso de todas las distribuciones (verCapítulo 9). Esta función de densidad, f (t), se obtiene de las frecuencias relativas para cada tiempo.En nuestro ejemplo, se puede obtener con: freq <– death/sum(death). La Fig. 18.1a presenta ladistribución de esta función, con la curva de distribución normal correspondiente.

0 2 4 6 8 10 12

0.00

0.10

0.20

(a)

Edad (años)

f(x)

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

(b)

Edad (años)

F(x

)

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

(c)

Edad (años)

S(x

)

0 2 4 6 8 10 12

0.0

0.4

0.8

1.2

(d)

Edad (años)

h(x)

Figura 18.1. Funciones de sobrevivencia para los datos del Cuadro 18.1. (a) Función de densidadde muerte. (b) Función de muerte acumulada. (c) Función de sobrevivencia. (d) Función de riesgo.

Como se observa en la Fig. 18.1a, se obtiene una distribución que dista de ser normal. Estagráfica permite identificar el tiempo pico de muerte (en este caso, 4 años).

105

Page 107: apuntes bioestadistica

18.1. FUNCIONES DE SOBREVIVENCIACAPÍTULO 18. ANÁLISIS DE SOBREVIVENCIA

18.1.2. Función de muerte acumulada

Esta función equivale a la frecuencia acumulada F(t) de muertos para cada tiempo y representala proporción de muertos en el tiempo t, por lo que al principio F(0) = 0 y al final F(13) = 1. Estafunción se muestra en la Fig. 18.1b. Para obtener el vector acum, con las frecuencias acumuladas,se pueden escribir las siguientes instrucciones:

acum <– numeric(14)for(i in 1:14) acum[i] <– acum[i]+sum(freq[1:i])

A través de esta función, se puede decir, por ejemplo, que aproximadamente a los 3.5 años, hamuerto la mitad de la población estudiada.

18.1.3. Función de sobrevivencia

La función de sobrevivencia S(t) mide la probabilidad de estar vivo en un tiempo determinado,por lo que se obtiene con la operación: sob <– 1–acum. En este caso, S(0) = 1 y S(13) = 0. Estafunción, nos permite decir, por ejemplo, que aproximadamente el 77 % de la población sobrevive2 años. La función de sobrevivencia para los datos del Cuadro 18.1 se presenta en la Fig.18.1c.

18.1.4. Función de riesgo

Otra función importante en el análisis de sobrevivencia es la función de riesgo. Con el objetivode conocer el riesgo de muerte que los pacientes tienen con respecto al tiempo, se debe examinarel riesgo de muerte dado que el paciente ha sobrevivido hasta ese tiempo. Por ejemplo, después deun tratamiento severo debe de haber un mayor riesgo de morir pronto, o bien, como en el caso dealgunos cánceres, puede haber un mayor riesgo de morir 2 o 3 años después de la operación y laquimioterapia.

La función de riesgo h(t) establece la probabilidad condicional de morir entre el tiempo t y eltiempo t + ε está dada por la Ec. 18.1, que es la definición de la derivada.

lımε→0

t + ε− tε

(18.1)

Esta función, a diferencia de las otras, no es una probabilidad, sino más bien, una tasa cuyo valormáximo puede ser mayor a 1. Matemáticamente se obtiene con la Ec. 18.2.

h(t) =f (t)S(t)

(18.2)

106

Page 108: apuntes bioestadistica

18.2. KAPLAN-MEIER CAPÍTULO 18. ANÁLISIS DE SOBREVIVENCIA

La función de riesgo, para los datos del Cuadro 18.1 se presenta en la Fig. 18.1d. Mientras que lafunción de sobrevivencia siempre decrece con respecto al tiempo, la función de riesgo puede tenermuchas formas diferentes, que permiten describir el riesgo de muerte de un paciente con respectoal tiempo.

Por ejemplo, si se tiene una h(t) con pendiente 0 (una linea horizontal), implicaría que el riesgode morir es el mismo para todos los tiempos. Una h(t) que disminuye puede interpretarse comoresultado de un tratamiento exitoso, donde el riesgo de morir disminuye con respecto al tiempo(los que se mueren, se mueren pronto tras el tratamiento). Si h(t) aumenta, se puede interpretarcomo un tratamiento deficiente, donde el riesgo de morir aumenta progresivamente.

18.2. Kaplan-Meier

Este análisis es relativamente simple de realizar en R usando los comandos de la librería survival.Primero se presentará el fundamento de la técnica, para después mostrar su implementación en R.

Partimos de los datos del Cuadro 18.2 que contiene el tiempo de muerte de un estudio clínicoimaginario. En este cuadro, los datos censurados se indican con un signo +.

Cuadro 18.2. Tiempo de sobrevivencia (meses) de un estudio clínico

1 7+ 17 262 9 18+ 28

4+ 11 24 31+6 15+ 24+ 32+6 16 25+ 35+

Cuando se hace un análisis de sobrevivencia, el primer paso es ordenar los tiempos de muerte demenor a mayor, como se muestra en el Cuadro 18.2. Posteriormente se va calculando la sobrevi-vencia acumulada para cada tiempo en que ocurre un evento, usando el concepto de probabilidadcondicionada (es decir, suponemos una unión de eventos y se calcula como una multiplicación deprobabilidades, como se mencionó en el Capítulo 8). Los cálculos de sobrevivencia acumuladapara los primeros meses se presentan en el Cuadro 18.3.

Para obtener el valor de la sobrevivencia acumulada se multiplica el valor de los sobrevivientesen ese tiempo por la sobrevivencia acumulada del tiempo anterior. Por ejemplo, para los 6 mesesse multiplica: (15/17) × 0.9 = 0.794.

Como en otros estudios en bioestadística, cuando se tienen este tipo de dinámicas, se sueleutilizar como valor de referencia la mediana. Es decir, se determina el valor al cual el 50 % de lapoblación sobrevive.

107

Page 109: apuntes bioestadistica

18.2. KAPLAN-MEIER CAPÍTULO 18. ANÁLISIS DE SOBREVIVENCIA

Cuadro 18.3. Cálculo de la sobrevivencia acumulada para los primeros meses del Cuadro 18.2

Tiempo Número Número Número Sobrevivientes Sobrevivencia(meses) en riesgo de muertes de censurados este tiempo acumulada

1 20 1 0 19/20 0.952 19 1 0 18/19 0.904 18 0 1 18/18 0.906 17 2 0 15/17 0.794...

......

......

...

Para realizar los cálculos en R, primero se carga la librería survival. Para asignar los valores, a lasvariables, se considera que el “estado” 0 proviene de un dato censurado, y el “estado” 1 provienede un dato real (en este caso muerte). Por lo que la asignación se realiza con:

time <– c(1,2,4,6,6,7,9,11,15,16,17,18,24,24,25,26,28,31,32,35)status <– c(1,1,0,1,1,0,1,1,0,1,1,0,1,0,0,1,1,0,0,0)

Posteriormente se declara el algoritmo del método Kaplan-Meier (en este caso en la variablemodel). El tiempo de vida media se obtiene de manera directa; la tabla correspondiente (sólo coneventos reales), se obtiene con summary; y finalmente, la gráfica clásica se obtiene con plot ypuede observarse en la Fig. 18.2:

model <– survfit(Surv(time,status))modelsummary(model)plot(model)

Las gráficas de análisis de sobrevivencia, como las de la Fig. 18.2 son escalonadas. La línea con-tinua representa los datos del modelo de Kaplan-Meier, mientras que las líneas punteadas corres-ponden a los intervalos de confianza. Los datos censurados se indican con líneas verticales en eltiempo correspondiente.

18.2.1. Ejemplo con datos censurados

En esta sección se utilizarán los datos del archivo “roaches.txt” de la página web del Crawley.Este archivo contiene datos sobre experimentos de sobrevivencia de cucarachas a tres diferentestipos de insecticidas. Se registra el tiempo de muerte en días, el grupo, así como el peso inicial decada cucaracha (en gramos) al inicio del experimento. Primero se asignan las variables y se graficael análisis de sobrevivencia usando el modelo más simple:

108

Page 110: apuntes bioestadistica

18.2. KAPLAN-MEIER CAPÍTULO 18. ANÁLISIS DE SOBREVIVENCIA

0 5 10 15 20 25 30 35

0.0

0.2

0.4

0.6

0.8

1.0

Tiempo (meses)

Sob

revi

venc

ia

Figura 18.2. Análisis de sobrevivencia para los datos del Cuadro 18.2.

rm(list=ls())cuca <– read.table(“roaches.txt”, header=T)attach(cuca)names(cuca)plot(survfit(Surv(death,status)∼group), col=2:4, xlab=“Tiempo (días)”, ylab=“Sobrevivencia”)legend(40,0.95,c(“A”,“B”,“C”),lty=c(1,1,1),col=2:4)

La regresión paramétrica en los modelos de sobrevivencia utilizan la función survreg para lacual se pueden especificar un amplio rango de diferentes distribuciones del error. En este caso, seasumirá una distribución exponencial. Se comienza ajustando con un análisis completo de cova-rianza, para, posteriormente, ir simplificando el modelo, hasta tener sólo a las variables relevantes.La simplificación se hace eliminando variables, poco a poco, y comparando con el modelo anterior(mediante un ANOVA), de tal modo que si no existen diferencias significativas, entonces la varia-ble estudiada no es relevante, y si existen diferencias estadísticas, entonces la variable estudiada esrelevante:

109

Page 111: apuntes bioestadistica

18.3. MODELO DE COX CAPÍTULO 18. ANÁLISIS DE SOBREVIVENCIA

model <– survreg(Surv(death,status)∼weight*group, dist=“exponential”)summary(model)model2 <– survreg(Surv(death,status)∼weight+group, dist=“exponential”)anova(model,model2,test=“Chi”)model3 <– survreg(Surv(death,status)∼group, dist=“exponential”)anova(model2,model3,test=“Chi”)model4 <– survreg(Surv(death,status)∼1, dist=“exponential”)anova(model3,model4,test=“Chi”)summary(model3)

Es decir, dado que en el último ANOVA la diferencia fue significativa, se considera que el modelomínimo es el tercer modelo que considera únicamente a los grupos, ya que no existe evidencia deque el peso inicial tenga algún tipo de influencia sobre la sobrevivencia. Finalmente, se comparanlos promedios de muerte entre el tercer modelo y los datos crudos, donde pude observarse el efectoque tienen la presencia de los datos censurados en los primeros dos grupos:

tapply(predict(model3,type=“response”), group, mean)tapply(death,group,mean)

18.3. Modelo de Cox

El modelo de riesgo proporcional de Cox es el modelo de regresión, más ampliamente usadopara datos de sobrevivencia. Asume que el riesgo es de la forma:

λ(t;Zi) = λ0(t)ri(t)

donde Zi(t) es el conjunto de variables que explican (independientes) para el individuo i al tiempot. El escore de riesgo para el sujeto i es:

ri(t) = eβZi(t)

donde β es un vector de parámetros proveniente del predictor lineal y λ0(t) es una función deriesgo basal inespecífica que se cancela en el transcurso del algoritmo.

18.3.1. Análisis sin datos censurados

A continuación se presenta un ejemplo del análisis de sobrevivencia, usando el modelo de Cox,para conjuntos que no incluyen datos censurados. Para este ejemplo, se utilizará el archivo “seed-lings.txt” de la página web del Crawley. Este archivo contiene datos referentes a unos experimentos

110

Page 112: apuntes bioestadistica

18.3. MODELO DE COX CAPÍTULO 18. ANÁLISIS DE SOBREVIVENCIA

de ecología, donde se probaron dos tratamientos diferentes de germinación: en uno se germinaronlas plantas a principios de septiembre, y en el otro se germinaron a mediados de octubre. Se registrael tiempo de muerte de la semilla en semanas, la cohorte (tratamiento) y el lapso entre el sembradoy la germinación para cada semilla (gapsize).

Primero, se limpia la memoria, se asignan las variables, y se aplica un modelo para compararentre los dos tratamientos:

rm(list=ls())seed <– read.table(“seedlings.txt”, header=T)attach(seed)status <– rep(1,60)model1 <– survfit(Surv(death,status)∼cohort)

Como en la sección anterior, se pueden obtener los tiempos de vida media para cada tratamien-to, así como la gráfica correspondiente, donde la primera línea en graficarse corresponde a la deoctubre (se grafican por orden alfabético), para distinguir a quien corresponde cada una, se puedengraficar con colores diferentes (col = c(2,3)), o con tipos de líneas diferentes (lty = c(1,2)). Alcomparar los intervalos de confianza para cada tratamiento, se puede observar como existe un tras-lapo en las medianas (tiempo de vida media). Para hacer la prueba de hipótesis formal, se puedeusar: survdiff(Surv(death, status)∼cohort), donde se demuestra que la línea basal de sobrevivenciano difiere significativamente entre los dos tratamientos.

Para hacer un análisis completo de covarianza, ajustando el intervalo de tiempo (gapsize), sepa-radamente para cada tratamiento, se utiliza la opción strata en la fórmula del modelo con riesgoproporcional: model2 <– coxph(Surv(death, status)∼strata(cohort)*gapsize), donde se demuestraque el intervalo de tiempo no tiene ningún efecto en la sobrevivencia de cada cohorte. Finalmente,para probar si los coeficientes son una función del tiempo, se utiliza la función cox.zph:

model3 <– cox.zph(coxph(Surv(death, status)∼strata(cohort)*gapsize))model3plot(model3)

18.3.2. Análisis con datos censurados sin riesgo proporcional

Para este ejemplo, se usará el archivo “cancer.txt” de la página web del Crawley. El archivocontiene datos de un estudio que involucró a 4 grupos de pacientes con cáncer, a los cuales seles administró un determinado tratamiento. Se registró el tiempo de muerte, y algunos pacientesdejaron el estudio antes de que se conociera su edad de muerte (datos censurados con status = 0).Primero se asignan las variables y se grafica el análisis de sobrevivencia:

111

Page 113: apuntes bioestadistica

18.3. MODELO DE COX CAPÍTULO 18. ANÁLISIS DE SOBREVIVENCIA

cancer <– read.table(“cancer.txt”, header=T)attach(cancer)names(cancer)plot(survfit(Surv(death,status)∼treatment), col=2:5, xlab=“Tiempo (años)”, ylab=“Sobrevivencia”)legend(30,0.95,c(“A”,“B”,“C”,“Placebo”), lty=rep(1,4), col=2:5)

Se aplican dos modelos, el primero asume una distribución exponencial de los errores, mientrasque el otro utiliza una distribución de valores extremos:

model <– survreg(Surv(death,status)∼treatment, dist=“exponential”)summary(model)model2 <– survreg(Surv(death,status)∼treatment, dist=“extreme”)summary(model2)

Como puede observarse, en el primer modelo no se observan diferencias significativas, mientrasque en el segundo, claramente se identifica la diferencia, así como el mejor tratamiento (en estecaso el que usa el medicamento “A”). Se pueden comparar las medias de los valores predichos porel segundo modelo, con las medias de los datos crudos:

tapply(predict(model2,type=“response”), treatment, mean)tapply(death, treatment, mean)

112

Page 114: apuntes bioestadistica

Capítulo 19

Análisis de Series de Tiempo

19.1. Introducción

Cuando se lleva a cabo un experimento, o bien se realizan observaciones, existe limitación tantoen la cantidad como en la precisión de las mediciones que pueden hacerse. Estas mediciones sonaproximaciones que reflejan la dinámica real de las variables. La diferencia entre estos se conocecomo error de medición. Este error puede provenir de diferentes fuentes:

1. Sesgo sistemático. Resultado de una o más deficiencias en el proceso de medición.

2. Ruido en la medición. Hace referencia a fluctuaciones en las mediciones que surgen demanera aleatoria.

3. Ruido en la dinámica. Representa una fuente importante de ruido en los datos. Dado que lossistemas reales no se encuentran aislados, se ven influenciados por numerosas influenciasdel entorno en que se encuentran. Una manera de incluir estas influencias en los modelosmatemáticos es considerando a estas influencias como ruido aleatorio que afecta a las varia-bles dinámicas. Al ruido caracterizado por contener valores completamente independientesse le conoce como ruido blanco, dado que el espectro de este color, no contiene ningunafrecuencia dominante.

Las series de tiempo son vectores de números que se encuentran regularmente espaciados en eltiempo. Algunos ejemplos son las cuentas anuales de ciertas especies, promedios mensuales detemperatura o IMECAS, etc. En algunas ocasiones el interés se encuentra en la serie en sí (e.g.para saber si es cíclica) y, en otras ocasiones, en que tan bien un modelo teórico se ajusta a losdatos experimentales.

113

Page 115: apuntes bioestadistica

19.2. ANÁLISIS PRELIMINARES CAPÍTULO 19. ANÁLISIS DE SERIES DE TIEMPO

19.2. Análisis preliminares

Algunos análisis de series de tiempo, asumen que los datos no tienen tendencia, que la seriees estacionaria (i.e. con una varianza característica) y que su media es igual al origen. Cuando seobserva una tendencia en la serie, es necesario eliminarla previa al análisis.

La presencia de una tendencia puede determinarse mediante el ajuste de un modelo lineal, dondese determine si el valor de la pendiente es estadísticamente distinto de cero (que es cuando notiene tendencia). Si se rechaza la hipótesis nula sobre la pendiente, entonces es necesario restarel modelo (los valores teóricos) de la serie para poder continuar con los análisis subsecuentes.Cuando no se puede rechazar la hipótesis nula, y el promedio es estadísticamente distinto de cero,entonces, la operación preliminar que se realiza es la sustracción del promedio a la serie original.

Para aclarar estos conceptos, se parte del siguiente ejemplo. El archivo “lynx.txt” de la basede datos de R, contiene el número de linces canadienses atrapados por año de 1821 a 1934. Estearchivo se encuentra en formato de series de tiempo (ts), por lo que, para hacer el análisis detendencia, se utilizarán los datos en forma de vector. La posible presencia de tendencia se puededetectar rápidamente con la función lowess, como se muestra a continuación:

data(lynx)lince <– as.vector(lynx)time <– 1821:1934plot(time,lince,type=“l”,xlab=“Tiempo”,ylab=“Linces”)lines(lowess(lince∼time),col=4)

La gráfica sugiere la presencia de ciclos y los datos parecen presentar una ligera tendencia alfinal de la serie. Aunque no se detecta la tendencia, se presenta de cualquier manera el cálculopara reforzar el procedimiento, tanto para la serie completa, como para la parte final de la serie. Elpunto de quiebre, se determina previamente con la función locator(1).

model <– lm(lince∼time)n <– length(lince)lince2 <– lince[63:n]time2 <– time[63:n]model2 <– lm(lince2∼time2)summary(model)summary(model2)

Como puede observarse con summary la pendiente no es estadísticamente distinta de cero enninguno de los dos casos. Cuando ocurre lo contrario, es necesario restar el modelo lineal a losdatos originales. En este caso, lo único que se haría sería quitar al promedio. Si se realizan las dosgráficas que se muestran a continuación, podrá percatarse de que no existe diferencia, en este caso,entre restar el modelo y restar el promedio.

114

Page 116: apuntes bioestadistica

19.3. ACF CAPÍTULO 19. ANÁLISIS DE SERIES DE TIEMPO

lynx1 <– lince – predict(model)lynx2 <– lince – mean(Lynx)plot(lynx1,type=“l”)plot(lynx2,type=“l”)

Con el objetivo de que los análisis queden más claros y puedan hacerse comparaciones, se tra-bajará, al mismo tiempo, con series de tiempo conocidas. Se propone trabajar con las siguientesseries de tiempo:

1. Ruido blanco gaussiano. Valores aleatorios que siguen la distribución normal. Los datos sontotalmente independientes. A este vector se le llamará ruido.

2. Serie cíclica. Serie determinística que sigue una función seno. A este vector se le llamaráciclo.

3. Serie experimental. Se utilizará el vector lynx1.

4. Serie caótica. Se utilizará el atractor de Lorentz en la variable lorentz.

Los archivos se encuentran en la sección de AST de la página web.

ruido <– rnorm(2000)e3 <– read.table(“E3.txt”)lorentz <– e3$V1e7 <– read.table(“E7.txt”)ciclo <– e7$V1

19.2.1. Prueba de independencia

Con el objetivo de determinar si los datos son estocásticos (aleatorios), se pude realizar unaprueba estadística sobre la independencia entre los datos. Cuando los datos son independientes(hipótesis nula), entonces es que son estocásticos, en cambio, si se rechaza la hipótesis nula (conun a p < 0.05) entonces es que existe algún tipo de dependencia y que, por tanto, los datos no sonaleatorios. Esta prueba se realiza con la función Box.test(x). Si se aplica esta función a las seriespropuestas, se encontrará que solo en el caso del ruido no se puede rechazar la hipótesis nula.

19.3. Función de autocorrelación (ACF)

La función de autocorrelación (ACF) calcula la correlación entre una serie de tiempo, con sigomisma, pero con diferentes retardos. Mediante la ACF es posible detectar la presencia de ciclos.

115

Page 117: apuntes bioestadistica

19.3. ACF CAPÍTULO 19. ANÁLISIS DE SERIES DE TIEMPO

La gráfica muestra el intervalo de confianza del cero con lineas punteadas de color azul. Cuandolos valores se encuentran dentro de esta banda, no hay presencia de autocorrelación estadística.La primera linea vertical corresponde al retardo 0, por lo que la autocorrelación siempre es uno,independientemente de la serie. Dado que se grafica sólo hasta un número predeterminado deretardos, en ocasiones estos no son suficientes para detectar los ciclos. En estos casos, hay queaumentar el número de retardos con lag.max=x, donde x es el número de retardos que se quierengraficar:

par(mfrow=c(2,2))acf(ruido)acf(ciclo,lag.max=70)acf(lorentz)acf(lynx1)

Como puede observarse en la Fig. 19.1 la presencia de ciclos es evidente para la serie ciclo ylynx1 con un periodo aproximado de 63 y 10 unidades de tiempo, respectivamente.

0 5 10 15 20 25 30

0.0

0.4

0.8

Retardo

AC

F

(a) Ruido

0 10 20 30 40 50 60 70

−1.

00.

00.

51.

0

Retardo

AC

F

(b) Ciclo

0 5 10 15 20 25 30

0.0

0.4

0.8

Retardo

AC

F

(c) Lorentz

0 5 10 15 20

−0.

50.

00.

51.

0

Retardo

AC

F

(d) Linces

Figura 19.1. Función de autocorrelación (ACF) para las series estudiadas. (a) ACF para ruidoblanco gaussiano. (b) ACF para función seno. (c) ACF para el atractor de Lorentz. (d) ACF paranúmero de linces atrapados en Canadá de 1821 a 1934.

116

Page 118: apuntes bioestadistica

19.4. FFT CAPÍTULO 19. ANÁLISIS DE SERIES DE TIEMPO

19.4. Transformada rápida de Fourier (FFT)

Fourier estableció que cualquier señal puede descomponerse en una suma de senos y cosenos.Al transformar una serie del dominio del tiempo, al dominio de la frecuencia, es posible detectarlas frecuencias dominantes de la serie, y visualizarlas separadas del ruido. Dado que al calcularla FFT se obtiene un número complejo, con la función abs (absoluto) es posible extraer sólo elcomponente real. Finalmente, al realizar la gráfica sólo debe considerarse la mitad de la serie,dado que se obtiene una imagen en el espejo de la FFT, por lo que debe ajustarse el eje de lasabscisas como se muestra a continuación:

ruido.fft <– abs(fft(ruido))ciclo.fft <– abs(fft(ciclo))lorentz.fft <– abs(fft(lorentz))lynx.fft <– abs(fft(lynx1))plot(ruido.fft,type=“l”,xlim=c(0,1000))plot(ciclo.fft,type=“l”,xlim=c(0,1000))plot(lorentz.fft,type=“l”,col=2,xlim=c(0,1000))plot(lynx.fft,type=“l”,col=2,xlim=c(0,n/2))

Como puede observarse en la Fig. 19.2 el ruido blanco no presenta ninguna frecuencia caracte-rística (de ahí su nombre), la función seno, presenta una sola frecuencia característica (además nose observa presencia de ruido), el atractor de Lorentz no presenta tampoco frecuencia característi-ca, pero su espectro es claramente distinto al ruido (observe la diferencia en las escalas del eje delas ordenadas) y, finalmente, la serie de Linces presente varias frecuencias dominantes.

19.4.1. Periodograma acumulado

Otra manera de visualizar las frecuencias dominantes es a través del periodograma acumulado.Cuando no existen frecuencias dominantes, entonces el periodograma acumulado resultante es unadiagonal de 45C. Cuando hay presencia de frecuencias dominantes, estas aparecen como lineasverticales. El periodograma acumulado se obtiene en R con la función cpgram(x).

En la Fig. 19.3 se presenta el periodograma acumulado para las series propuestas.Como puedeobservarse en el panel (a) el ruido se presenta dentro de los intervalos de confianza del cero; enel panel (b) se detecta claramente la única frecuencia dominante presente en la serie senoidal. Porsu parte, el atractor de Lorentz, no presenta frecuencias dominantes pero se aleja claramente delruido, como se observa en el panel (c). Finalmente, para el caso de la serie de linces, en el panel(d) se pueden detectar la presencia de varias frecuencias dominantes.

117

Page 119: apuntes bioestadistica

19.4. FFT CAPÍTULO 19. ANÁLISIS DE SERIES DE TIEMPO

0 200 400 600 800

040

8012

0

(a) Ruido

FF

T

0 200 400 600 800

040

080

0

(b) Ciclo

FF

T

0 200 400 600 800

010

0025

00

(c) Lorentz

FF

T

0 10 20 30 40 50

040

000

8000

0

(d) Linces

FF

T

Figura 19.2. Transformada rápida de Fourier (FFT) para las series estudiadas. (a) FFT para ruidoblanco gaussiano. (b) FFT para función seno. (c) FFT para el atractor de Lorentz. (d) FFT paranúmero de linces atrapados en Canadá de 1821 a 1934.

0.0 0.2 0.4

0.0

0.4

0.8

frequency

(a) Ruido

0.0 0.2 0.4

0.0

0.4

0.8

frequency

(b) Ciclo

0.0 0.2 0.4

0.0

0.4

0.8

frequency

(c) Lorentz

0.0 0.2 0.4

0.0

0.4

0.8

frequency

(d) Linces

Figura 19.3. Periodograma acumulado para las series estudiadas. (a) Ruido blanco gaussiano. (b)Función seno. (c) Atractor de Lorentz. (d) Número de linces atrapados en Canadá de 1821 a 1934.

118

Page 120: apuntes bioestadistica

19.4. FFT CAPÍTULO 19. ANÁLISIS DE SERIES DE TIEMPO

19.4.2. Espectro de Potencias

Una manera amplificar el efecto de la transformada de Fourier, es mediante el espectro de poten-cias. Este se puede obtener directamente en R con la función spectrum(x) y existen dos métodosde visualización. El más común es el periodograma (dado por default) y el otro, que suele ser másclaro y más parecido al espectro de Fourier, el autorregresivo (AR). En la Fig. 19.4 se presentan losespectros de potencias para todas las series estudiadas usando ambos métodos AR. En los panelessuperiores se utiliza el método AR, mientras que en los inferiores se utiliza el periodograma (PG).

0.0 0.1 0.2 0.3 0.4 0.5

0.94

0.98

1.02

1.06

Frecuencia

Esp

ectr

o

(a) Ruido (AR)

0.0 0.1 0.2 0.3 0.4 0.5

1e−

041e

−02

1e+

001e

+02

Frecuencia

Esp

ectr

o

(b) Ciclo (AR)

0.0 0.1 0.2 0.3 0.4 0.5

1e−

011e

+01

1e+

03

Frecuencia

Esp

ectr

o

(c) Lorentz (AR)

0.0 0.1 0.2 0.3 0.4 0.5

1e+

055e

+05

5e+

065e

+07

Frecuencia

Esp

ectr

o

(d) Linces (AR)

0.0 0.1 0.2 0.3 0.4 0.5

5e−

035e

−02

5e−

015e

+00

Frecuencia

Esp

ectr

o

(e) Ruido (PG)

bandwidth = 0.000144

0.0 0.1 0.2 0.3 0.4 0.5

1e−

151e

−07

1e+

01

Frecuencia

Esp

ectr

o

(f) Ciclo (PG)

bandwidth = 0.000144

0.0 0.1 0.2 0.3 0.4 0.51e−

071e

−04

1e−

011e

+02

Frecuencia

Esp

ectr

o

(g) Lorentz (PG)

bandwidth = 0.000144

0.0 0.1 0.2 0.3 0.4 0.5

5e+

035e

+04

5e+

055e

+06

5e+

07

Frecuencia

Esp

ectr

o

(h) Linces (PG)

bandwidth = 0.00241

Figura 19.4. Espectros de potencias para las series estudiadas. Los paneles superiores muestran elmétodo autorregresivo (AR), mientras que los paneles inferiores muestran el periodograma (PG).En la parte superior de cada panel, se indica la serie analizada.

Como era de esperarse, en el caso del ruido blanco no hay frecuencias dominantes (Fig. 19.4panel (e)), mientras que para la serie cíclica se detecta una sola frecuencia (Fig. 19.4 panel (b)).Como en este caso se tiene la frecuencia y dado que el periodo es el inverso de ésta, es posiblecalcular matemáticamente la duración de los ciclos en esta serie. Primero se asigna a una variableel espectro de potencias, posteriormente se pregunta por la localización del valor más alto delespectro, para detectar la frecuencia correspondiente, y finalmente se calcula el inverso, como semuestra a continuación:

ciclo.spec <- spectrum(ciclo,method=“ar”)which(ciclo.spec$spec==max(ciclo.spec$spec))ciclo.spec$freq[17]1/ciclo.spec$freq[17]

119

Page 121: apuntes bioestadistica

19.5. MAPAS DE RETORNO CAPÍTULO 19. ANÁLISIS DE SERIES DE TIEMPO

Al realizar este algoritmo, se obtiene que el valor mayor del espectro se encuentra en la posición17 con una frecuencia correspondiente de 0.01603206, por lo que el periodo es de aproximada-mente 62 unidades de tiempo.

El atractor de Lorentz, presenta un periodograma muy característico de las señales caóticas ocon una distribución 1/ f , también conocida como ruido rosa (Fig. 19.4 panel (g)). En este perio-dograma se detecta una linea recta con una pendiente a 270.

Finalmente, para el caso de la serie de linces, en la Fig. 19.4 panel (d) son claras la presencia detres frecuencias. La mayor puede determinarse como en el caso de la serie cíclica, y las otras dospueden aproximarse usando la función locator(2) como se ha indicado anteriormente.

19.5. Mapas de retorno

Una manera de visualizar la dinámica de una serie es a través de los mapas de retorno o mapas dePoincaré. En estos mapas se grafica la serie contra ella misma pero con cierto retardo (generalmenteel primer retardo), lo que da un indicio de la zona a la que están siendo “atraídos” los puntos.

Para realizar los mapas de retorno, pueden usarse dos funciones. Con la función embed(x,n) segeneran los vectores de x, hasta el retardo n. Posteriormente se tendrían que graficar los vectorescorrespondientes a los retardos que se requieren. Por otra parte, con la función lag.plot(x,n) segrafican directamente todos los mapas de retorno, de la serie x, hasta el retardo n.

En la Fig. 19.5 se presentan los mapas de retorno para las series propuestas. Como se puedeobservar en el panel (a), en el ruido blanco gaussiano, los puntos son atraídos hacia el origen(donde se encuentra el valor de la media). La presencia del ciclo es más que evidente en la seriesenoidal que se encuentra en el panel (b). Por su parte, el atractor de Lorentz se reconstruye conesta técnica y se presenta en el panel (c). Finalmente, en el caso de la serie de linces, no se observaningún patrón claro, aunque los puntos están siendo atraídos hacia el vértice inferior izquierdo.

120

Page 122: apuntes bioestadistica

19.5. MAPAS DE RETORNO CAPÍTULO 19. ANÁLISIS DE SERIES DE TIEMPO

−3 −2 −1 0 1 2 3

−3

−1

13

(a) Ruido

ruido.em[, 2]

ruid

o.em

[, 1]

−1.0 −0.5 0.0 0.5 1.0

−1.

00.

00.

51.

0

(b) Ciclo

ciclo.em[, 2]

cicl

o.em

[, 1]

−15 −5 0 5 10

−15

−5

515

(c) Lorentz

lorentz.em[, 2]

lore

ntz.

em[,

1]

−1000 1000 3000 5000

−10

0020

0050

00

(d) Linces

lynx.em[, 2]

lynx

.em

[, 1]

Figura 19.5. Mapas de retorno para las series estudiadas. (a) Ruido blanco gaussiano. (b) Funciónseno. (c) Atractor de Lorentz. (d) Número de linces atrapados en Canadá de 1821 a 1934.

121