bioestadistica, daniels

735

Click here to load reader

Upload: escuela-preparatoria-oficial-143

Post on 13-Jun-2015

26.755 views

Category:

Documents


1.847 download

TRANSCRIPT

  • 1. 1.1 INTRODUCCION 1.4 MUESTREO ALEATORIO SIMPLE 1.2 ALGUNOS CONCEPTOS BAsICOS 1.5 COMPUTADORAS Y ANIDSIS BIOESTADiSTICO 1.3 MEDIDAS Y ESCALAS DE MEDICION 1.6 RESUMEN 1.1 INTRODUCCION Con frecuencia se recuerda el hecho de que se vive en la edad de la informacion, asi que, oportunamente, este libro es acerca de informacion: como se obtiene, como se analiza y como se interpreta. A la informacion que trata este libro se Ie llama datos, los cuales estan disponibles en forma de niimeros. Los objetivos de este libro sondos: 1) ensefiar al estudiante a organizar y resumir datos; 2) ensefiarle como tomar decisiones respedo a un gran volumen de datos al examinar solo una pequefia parte de ellos. Los conceptos y metodos necesarios para lograr el primer objetivo se presentan bajo el titulo de estadistica descnptiva, y el segundo objetivo se logra mediante el estudio de 10 que se conace como estadistica inforencial. En este capitulo se estudia la estadistica descriptiva. Del capitulo 2 al 5 se estudian los t6picos que conforman la base de la inferencia estadistica, y en elresto dellibro se expone la estadistica inferenciaL Puesto que.este libro esta disefiado para personas que se preparan para iniciar 0 que ya cursan una carrera en el area de ciencias de la salud, el material y los ejercicios reflejan los problema:s y actividades que tales personas probablemente encontraran en la practica de su trabajo. 1

2. 2 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA 1.2 ALGUNOS CONCEPTOS BAsICOS AI igual que en todos los campos del aprendizaje, la estadistica tiene su propio vocabulario. AIgunas de las expresiones frecuehtes en el estudio de la estadfstica son nuevas para quienes no han tenido relaci6n previa con el tema. Otros terminos, aunque parecen familiares, probablemente tienen significados especializados que difieren del significado asociado por costumbre a dichos t'erminos. Los siguientes terminos se utilizan extensamente en todo ellibro. Datos Los datos son la materia prima de la estadfstica. Para este prop6sito se puede definir a los datos como numeros. Las dos clases de numeros que se utilizan en estadfstica son numeros que resultan de la toma --en el sentido literal del termi no- de medidas, y aquellos que resultan del proceso de conteo. Por ejemplo, cuando una enfermera pesa al paciente 0 Ie toma 1a temperatura, se obtiene 1a medida que consiste en una cantidad, por ejemp10 150 libras 0 100 grados Farenheit. Un tipo bastante diferente de numeros se obtiene cuando el administrador de un hospital cuenta el numero de pacientes, quiza 20, dados de alta en un dfa. Cada uno de los tres numeros es un dato (datum) y los tres juntos son datos. Estadlstica En la seccion anterior esta imp1icito el significado de la estadfstica. Pero, para ser mas precisos, se puede decir que la estadistica es la disciplina que se ocupa de 1) la recoleccion, organizacion, resumen y analisis de datos, y 2) la obtenci6n de inferencias a partir de un volumen de datos cuando se examina solo una parte de estos. Las personas que realizan estas actividades estadfsticas deben estar prepara das para interpretar y comunuar los resultados a los demas, tal como 10 demande la situaci6n. En terminos sencillos, se puede decir que los datos son numeros, que los numeros contienen informacion y que el prop6sito de la estadistica es investigar y evaluar 1a naturaleza y el significado de esa informacion. Fuente de datos EI desempeflo de actividades estadfsticas obedece a la necesi dad de responder a diversas preguntas. Por ejemplo, los medicos probablemente quieran encontrar respuestas a preguntas con respettoa la utilidad relativa de pro cedimientos de tratamiento alternativos. Losadministradores posiblemente quie ran responder a preguntas respecto a areas de interescomo el espfritu de equipo de los empleados 0 el uso de las instalaciones. Cuando se determina que el enfoque adecuado para buscar una respuesta a la pregunta requiere del uso de la estadistica, se comienza a investigar datos apropiados que sirvan como la materia prima en la investigacion. Estos datos norrnalmente esrnn disponibles de una 0 mas fuentes como las siguientes: . 1. Registros rutinarios. Es diffcil imaginar algun tipo de organizaci6n que no lleve registros de 1aoperacion diaria de sus actividades. Mientras que los registtosclinicos de un hospital, por ejemplo, contienen una inmensa canti dad de informaci6nacerca de los pacientes, los registros contables de la instituci6n contienen datos en abundancia sobre las actividades financieras del hospital. Cuando surge la necesidad de tener datos, se debe buscar prime ro en los registros que se llevan rutinariamente. 3. 31.2 ALGUNOS CONCEPTOS BAsICOS 2. Encuesta. 8i los datos necesarios para contestar una pregunta no estan disponibles a partir de los registros almacenados de manera rutinaria, la fuente 16gica puede ser una encuesta. Por ejemplo, suponga que el admi nistrador de una cHnica desea obtener informacion respecto a Ia forma de transporte que utiliza el paciente para visitar la cHnica. 8i Ia forma de admi sion no contiene una pregunta acerca del transporte, es posible llevar a cabo una encuesta entre los pacientes para obtener esta informacion. 3. Experimentacion. Frecuentemente, los datos necesarios para responder una pregunta estan disponibles solo como resultado de la experimentacion. Tal vez una enfermera quiere saber que estrategia es mejor para maximizar el seguimiento de las indicaciones medicas por parte del paciente. La enferme ra podria conducir un experimento en el que se prueben diferentes estrate gias para motivar el cumplimiento del tratamiento en distintos pacientes. La evaluacion subsecuente de las respuestas a las diversas estrategias puede ca pacitar a Ia enfermera para decidir cual es mas efectiva. 4. Fuentes externas. Los datos necesarios para responder a una pregunta pue den ya existir como informes publicados, bancos de datos disponibles 0 en la literatura de investigacion. En otras palabras, uno se puede encontrar con que alguien mas ya planteo la misma pregunta y que la respuesta que obtuvo puede aplicarse a la situacion presente. Bioestadistlca Las herramientas de Ia estadistica se utilizan en muchos cam pos: negocios,ensefianza, psicologia, agricultura y economia, por mencionar algu nos cuantos. Cuando los datos que se analizan proceden de las ciencias biologicas 0 medicas, se utiliza el termino bioestadistica para diferenciar esta aplicacion particu lar de las herramientas y conceptos de la estadfstica general. Dicha aplicacion es la que se estudia en este libra. Variable Una caracteristica se clasifica como variable si, tal como se observa, se encuentra que esta toma diferentes valores en diferentes personas, lugares 0 cosas. Esto se hace por la simple razon de que la caracterfstica no es la misma cuando se observa en diferentes sujetos. Algunos ejemplos de variables son: presion sanguf nea diastolica, frecuencia cardiaca, estaturas de varones adultos, peso de ninos en edad preescoIar, y la edad de los pacientes que consultan a un dentista. Variable cumditativa Una variable cuantitativa es aquella que puede medirse en la forma usual. 8e pueden obtener mediciones de la estatura de los varones adultos, del peso de los ninos en edad preescolar, y de la edad de los pacientes que consultan a un dentista. Estos son ejemplos de variables cuantitativas. Las mediciones hechas sobre va riables cuantitativas conllevan informaci6n respecto a cantidad. Variable cualitatlva Algunas caracteristicas no pueden ser medidas como la estatura, el peso y la edad. Muchas de ellas solo se pueden clasificar, por ejemplo, cuando a una persona enferma se Ie da un diagnostico medico 0 cuando se deter mina que alguien pertenece a un grupo etnico dado, 0 bien, cuando se dice que una persona, Iugar 0 cosa poseen 0 no alguna caracteristica de interes. En tales 4. 4 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA casos, la medicion consiste en una clasificacion. Y las variables a las que uno se refiere se Haman variables cualitativas. Las mediciones hechas sobre este tipo de variables cdntienen informacion respecto a los atributos. Aunque en el caso de las variables cualitativas las mediciones no se llevan a cabo en el sentido usual de la palabra, se puede contar el numero de personas, lugares 0 cosas pertenecientes a varias categorfas. EI administrador de un hospital, por ejem plo, puede contar el n6.mero de pacientes internados en un dfa, con base en cada uno de los diagnosticos de admision. Estos conteos 0 jrecuencias, como se denominan, son el numero que se maneja cuando el analisis involucra variables cualitativas. Variable alealoria Siempre que se determina la estatura, el peso 0 la edad de un individuo, el resultado frecuentemente se denomina valor de la variable respec tiva. Cuando los valores se originan como resultado de factores aleatorios (al azar), que no pueden predecirse con exactitud y anticipacion, la variable se llama variable aleatoria. Un ejemplo de variable aleatoria es la estatura de los adultos; cuando nacen los ninos no es posible predecir con exactitud la estatura que tendran en su edad adulta; la estatura que alcanza un adulto es el resultado de muchos factores geneticos y ambientales. Los valores resultantes de los procedimientos de medicion se denominan observaciones 0 medidas. Variable alealoria discreta Las variables pueden caracterizarse aun mas como discretas 0 continuos. Puesto que la definicion rigurosamente matematica de las variables discreta y continua va mas aHa del limite de este libro, en su lugar se presentan definiciones menos formales y un ejemplo de ca~ una. Una variable discreta se caracteriza por separaciones 0 interrupciones en la escala de valores que puede tomar. Estas separaciones 0 interrupciones indican la ausencia de valores entre los valores especfficos que puede asumir la variable. Algunos ejemplos ilustran el punto. EI numero de admisiones diarias en un hospital general es una variable aleatoria discreta, puesto que el numero de admisiones por dia debe repre sentarse con numeros enteros tales como 0, 1,203. EI numero de admisiones en un dfa determinado no puede ser 1.5, 2.997 0 3.333. EI n6.mero de caries, amalga mas 0 perdida de dientes por nino en una escuela primaria es otro ejemplo de una variable discreta. Variable alealoria continua Una variable aleatoria continua no posee las sepa raciones 0 interrupciones tipicas de una variable a/eatoria discreta. Una variable aleatoria continua puede tomar cualquier valor dentro de un intervalo espedficado de valo res asumidos poria variable. Entre los ejemplos de variables continuas se hallan las diversas mediciones que pueden hacerse en individuos tales como su estatura, peso y diametro craneano. Sin importar cuan cerca esten las estaturas de dos personas, teoricamente siempre es posible encontrar otra persona cuya estatura se encuentre entre las dos estaturas de referenda. Ahora bien, debido a las limitaciones de los instrumentos de medicion disponi bles, las observaciones sobre variables que son inherentemente continuas se registran como si fueran discretas. La estatura, por ejemplo, normalmente se redondea hacia el cuarto, media 0 pulgada completa mas cercanos, mientras que si se cuenta con el ins trumento de medicion adecuado, esa medida puede hacerse tan precisa como se desee. 5. 1.3 MEDIDAS Y ESCALAS DE MEDICION 5 Poblacion Habitualmente se considera a una poblacion como una coleccion de entidades, por 10 general personas. Sin embargo, una poblacion 0 coleccion de entidades puede estar compuesta de animales, maquinas, plantas 0 celulas. Para los propositos de este libro, una poblaci6n de entidades se define como la colecci6n mas grande de entidades de interes en un momento particular. Si se toma la medida de alguna variable para cada una de las entidades en una poblacion, se obtiene una poblacion de valores para esa variable. Por 10 tanto, una poblaci6n de valores se puede definir como la mayor colecci6n de valores para una variable aleatoria, los cuales son de interes en un momento particular. Por ejemplo, si se tiene interes en conocer el peso de todos los niiios inscritos en el sistema de educacion primaria del estado, la poblacion esta formada por todos esos pesos. Si se tiene interes solo en el peso de los estudiantes inscritos en el primer grado, se tiene una poblacion diferente, compuesta por los pesos de los estudiantes de primer grado. Por 10 tanto, las poblaciones se determinan 0 definen con base en el campo de interes. Las pobla ciones pueden ser finitas 0 infinitas. Si una poblacion de valores consiste en un numero fijo de esos valores, se dice que la poblacion es finita. Si, por otra parte, una poblacion consiste en una sucesion interminable de valores, entonces es una poblacion infinita. Muestra Una muestra puede definirse simplemente como una parte de una po blaci6n. Suponga que una poblacion se compone de los pesos de todos los niiios inscritos en el sistema de educacion primaria del estado, y se escoge para el analisis solo una fraccion de los niiios; entonces se tiene unicamente una parte de la pobla cion, es decir, se tiene una muestra. 1.3 MEDIDAS YESCALAS DEMEDICION En la seccion anterior se utilizo varias veces la palabra medici6n en su sentido usual y, con seguridad, ellector ha comprendido claramente el significado deseado. Sin embargo, la palabra medici6n puede tener una defininicion mas cientifica. De he cho, existe una gran cantidad de obras dedicadas al tema de mediciOn. Una parte de estas obras se ocupa tambien de la naturaleza 'de los numeros que resultan de las mediciones. Expertos en el tema de mediciones, hablan de escalas de medicion que dan como resultado la categorizacion de mediciones de acuerdo con su naturaleza. En este apartado se define la medici6n y las cuatro escalas de medici6n resultantes. El estudio del tema con mas detalle, se encuentra en las obras de Stevens (1, 2). MediciOn Se define como la asignaci6n de numeros a objetos 0 eventos de acuerdo con un conjunto de reglas. Las diversas escalas de medicion son consecuencia de que la medici6n puede llevarse a cabo seglin diferentes conjuntos de reglas. Escala nominal La escala de medici6n mas baja es la escala nominal. Como su nombre 10 indica, consiste en designar 0 "nombrar" las obserVaciones 0 clasificarlas en varias categorias mutuamente excluyentes y colectivamente exhaustivas. La prac tica de utilizar numeros para distinguir entre diversos diagn6sticos medicos consti 6. 6 CAPITULO 1 INTRODUCCION A LA BIOESTADisTICA tuye una medicion sobre una escala nominal. Otros ejemplos incluyen dicotomfas . como masculino-femenino, sano-enfermo, menor de 65 aiios de edad-mayor de 65 aiios de edad en adelante, nifio-adulto y casado-soltero. Escala ordinal Siempre que las observaciones no solo difieran de categoria a categoria, sino que ademas puedan clasificarse por grados de acuerdo con alglin criterio, se dice que se miden sobre una escala ordinal. Los padentes convalescien tes pueden c1asificarse como sin mejoria, mejorados y bastante mejorados. Las per sonas pueden clasificarse de acuerdo con su estado sodoeconomico como de clase baja, de clase media 0 clase alta. La inteligencia de los niiios puede estar por enci ma del promedio, promedio 0 por debajo del promedio. En cada uno de estos ejemplos, todos los miembros de cualquiera de las categorias se consideran iguales, pero los miembros de una categoria se consideran inferiores, peores 0 menores que los de otra que, a su vez, guarda una relacion similar con otra categorfa. Por ejem plo, un paciente bastante mejorado esta en mejor estado de salud que uno clasifica do como mejorado, mientras que un paciente que ha mejorado esta en mejor condicion que uno sin mejoria. Por 10 general, es imposible inferir que la diferencia entre los miembros de una de las categorias y la categoria inmediata adyacente sea igual ala diferenda entre los miembros de esa categoria y los miembros de la categorfa adyacente a ella. El grade de mejoria entre los sin mejoria y los mejora dos quiza no sea el mismo que el :que existe entre los mejorados y los bastante mejorados. La implicacion es que si se hiciera una division mas fina, que produje ra mas categorfas, estas podrfan tambien ordenarse de manera semejante. La funcion de los numeros asignados a datos ordinales es la de ordenar (0 asignar una categoria seglin el rango) las observaciones desde las mas bajas hasta las mas altas; de aqui el termino ordinal. Escala de intervalos La escala de intervalos es una escala masespecializada que la nominal 0 la ordinal en el sentido de que, con esta escala, no soloes posible ordenar las mediciones, sino que tambien se conoce la distancia entre dos medicio nes cualesquiera. Por ejemplo, se sabe que la diferencia entre una medida de 20 y una medida de 30 es igual a la diferencia entre lasmedidas de,30 y 40. La capaci dad para hacer esto implica el uso de una distancia unitaria y un punto cero, los cuales son arbitrarios. El punto cero seleccionado no es necesariamente un cero verdadero en el sentido de que no indica una ausencia total de la cantidad que se esta midiendo. Quiza el mejor ejemplo de una escala de intervalos es la forma en que generalmente se mide la temperatura (grados Fahrenheit 0 Celsius). La uni dad de medidon es el grado, y el punto de comparadon es el que se selecciona arbitrariamente como "cero grados", el cual no implica una ausencia de calor. La escala de intervalos, a diferencia de las escalas nominal y ordinal, es una escala realmente cuantitativa. Escala de razones El nivel mas alto de medicion es la escala de razones. Esta escala se caracteriza por el hecho de que puede determinarse tanto la igualdad de las razones como la de los intervalos. Y para esta escala es fundamental un punto cero verdadero. La medicion de rasgos tan familiares como altura, peso y longitud, hacen uso de este tipo de escala. 7. 1.4 MUESTREO ALEATORIO SIMPLE 7 1.4 l'IUESTREO ALFATOmO SIMPLE Tal como se sefialo can anterioridad, uno de los prapositos de este libra es ensefiar los conceptos de inferencia estadfstica, la cual puede ser definida como sigue: DEFINICION La inferencia estadistica es el procedillliento por llledio del cual se llegaa una conclusion acerca de una poblacion con base en los resultados que se obtienen de una llluestra extraida de esa poblacion. Existen muchas clases de muestras que pueden obtenerse de una poblaci6n. Sin embargo, no se puede utilizar cualquier tipo de muestra como base para hacer inferencias validas acerca de la poblacion. En general, para realizar una inferencia valida acerca de una poblacion se necesita un muestreo de la poblacion fundamen tado cientfficamente. Tambien existen muchas c1ases de muestras cientificas que pueden obtenerse de una poblacion. La mas sencilla es la muestra aleatoria sim ple. En esta secci6n se define la muestra aleatoria simple y se explica como obtener la de la poblacion. Si se utiliza la letra N para designar el tamafio de una poblacion finita, y la letran para designar el tamafio de la muestra, es posible definir una muestra aleatoria simple como: . DEFINICION Si se extrae una muestra de tamaiio n de una poblaci6n de talllano N, de lllanera que cada llluestra posible de tamano n tenga la lllisllla probabilidad de ser seleccionada, la llluestra se llallla muestra aleatoria simple. El sistema de seleccion de muestras que satisface la definicion anterior se llama muestreo aleatorio simple. Mas adelante se demuestra el pracedimiento del muestreo aleatorio simple, pero antes se considera la cuesti6n de si se muestrea con reemplazo a sin reemplazo. Cuando se utiliza un muestreo con reemplazo, cada elemento de la poblacion esta disponible para cada seleccion. Par ejempl0, como parte de un estudio de duracion de la estancia, se selecciona una muestra de una poblacion de pacientes que alguna vez fueran internados en el hospital. Suponga que el muestreo comprende la seleccion de una muestra de expedientes, tornados del archivo del departamento de registra medi co, de los pacientes dados de alta. En el muestreo con reemplazo se selecciona un expediente para incluirlo en la muestra, se registra la duracion de la estancia y se de vuelve el expediente al archivo. AI devolver el expediente a la "poblacion" este puede ser seleccionado de nuevo, en cuyo caso, el tiempo de estancia se registrara una vez mas. En un muestreo sin reemplazo, el expediente extrafdo no se regresa al archivo despues de registrar el data que se investiga, sino que se separa hasta extraer toda la 8. 8 CAPiTULO I INTRODUCCION A LA BIOESTADiSTICA muestra. Con este procedimiento, un expediente debe aparecer solo una vez en la muestra. En la practica, por 10 general, un muestreo siempre se hace sin reempla zoo La importancia y significado de esto se explica mas adelante; por ahora, es nece sario estudiar la manera en que se selecciona una muestra aleatoria simple. Para asegurar una seleccion totalmente aleatoria, se debe seguir algful procedimiento ob jetivo, pues se intenta evitar el uso dejuicios subjetivos para decidir que elementos de la poblacion constituyen una muestra aleatoria. En el siguiente ejemplo se muestra un metodo para elegir una muestra aleatoria simple a partir de una poblacion. EJEMPLO 1.4.1 Clasen et al. (A-I) estudiaron la oxidacion de esparteina y mefenitoina en un grupo de individuos residentes en Groenlandia. Se representaron dos poblaciones en su estudio: habitantes del este y del oeste de Groenlandia. Los investigadores se interesaron en comparar los dos grupos con respecto a las variables de interes. La tabla 1.4.1 muestra las edades de 169 individuos del oeste de Groenlandia. Para propositos ilustrativos, considere que estos individuos forman una poblacion de tamafio N = 169 de la que se quiere obtener una muestra aleatoria simple de tamafio 10. TABlA 1.4.1 Edades de 169 individuos que participan en un estudio de oxidacion de esp81'teina y mefenitoina Individuo num. Edad Individuo nUm. Edad Individuo num. Edad 1 27 57 29 113 45 2 27 58 26 114 28 3 42 59 52 115 42 4 23 60 20 116 40 5 37 61 37 117 26 6 47 62 27 118 29 7 30 63 63 119 48 8 27 64 44 120 53 9 47 65 22 121 27 10 41 66 44 122 38 11 19 67 45 123 53 12 52 68 40 124 33 13 48 69 48 125 24 14 48 70 36 126 25 15 32 71 51 127 43 16 35 72 31 128 39 17 22 '73 28 129 40 18 23 74 44 130 22 19 37 75 63 131 25 20 33 76 30 132 21 21 26 77 21 133 26 (Continua) 9. 1.4 MUESTREO ALEATORIO SIMPLE 9 TABlA 1.4.1 (Continuaci6n) Individuo num. Edad Individuo num. Edad Individuo num. Edad 22 22 78 50 134 41 23 48 79 30 135 47 24 43 80 31 136 30 25 34 81 30 137 42 26 28 82 24 138 33 27 23 83 26 139 31 28 61 84 56 140 29 29 24 85 31 141 37 30 29 86 26 142 40 31 32 87 23 143 31 32 38 88 18 144 26 33 62 89 38 145 30 34 25 90 53 146 27 35 34 91 40 147 26 36 46 92 23 148 36 37 24 93 24 149 24 38 45 94 18 150 50 39 26 95 49 151 31 40 29 96 49 152 42 41 48 97 39 153 34 42 34 98 32 154 27 43 41 99 25 155 28 44 53 100 32 156 31 45 30 101 23 157 40 46 27 102 47 158 28 47 22 103 34 159 29 48 27 104 26 160 29 49 38 105 46 161 24 50 26 106 21 162 28 51 27 107 19 163 22 52 30 108 37 164 50 53 32 109 36 165 30 54 43 110 24 166 38 55 29 III 51 167 28 56 24 112 30 168 23 169 39 FUENTE: Reproducido can autorizaci6n de Kim BI1i'isen, M. D. 10. 10 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA Solucion: Una forma de seleccionar lUla muestra aleatoria simple es utilizar una tabla de nfuneros aleatorios como la tabla A, que se. muestra en el apendi ceo EI primer paso es localizar un punto de partida aleatorio en la tabla. Esto se puede hacer de varias formas: una de ellas es quitar la vista de la pagina mientras se toca esta con la punta del lapiz. EI punto de partida aleatorio es el dfgito mas cercano allugar donde apunte ellapiz. Suponga que el punta de partida aleatorio, obtenido mediante el procedimiento descrito, se encuentra en la intersecci6n del rengl6n 21 y la columna 28. El dfgito en ese PlUlto es 5. Puestd que se tienen unicamente 169 valores para elegir, s610 se puede utilizar nfuneros aleatorios dell a1169. Resulta conveniente seleccionar numeros de tres dfgitos, de manera que solamen te pueda elegirse entre los numeros del 001 a1169. El primer numero de tres dfgitos para el punto de partida aleatorio es 532, un numero que no se puede utilizar. AI recorrer la tabla hacia abajo, aparecen los numeros 196,372,654,928 Yfinalmente el137, que es un numero que sf se puede utilizar. La edad del sujeto que tiene ellugar 137 de la tabla 1.4.1 es 42, y este constituye el primer valor de la muestra. Se procede a registrar el numero aleatorio y la edad correspondiente en la tabla 1.4.2. Los nume ros aleatorios se registran para ver cuales fueron seleccionados. Puesto que se trata de una muestra sin reemplazos, no se incluye dos veces un mismo valor. AI continuar con este procedimiento se obtienen los nueve numeros aleatorios restantesjunto con sus edades respectivas, tal como se muestra en la tabla 1.4.2. Observe que, cuando se llega al final de la co lumna, simplemente se avanzo tres digitos hasta el 028 y se continu6 ha cia arriba de la columna. Tambien se pudo haber comenzado desde la parte de arriba de dicha columna con el numero 369. De esta forma se obtiene la muestra aleatoria simple de tamano 10 a partir de la poblacion de tamano 169. En todo estudio futuro, siempre que se utilice el termino de muestra aleatoria simple, se entendera que dicha muestra se obtiene de esta forma 0 de una equivalente. TABlA 1.4.2 Muestra de 10edades extralda de las edades de la tabla t .4.t Numero Numero de individuo aleatorio de la muestra Edad 137 1 42 114 2 28 155 3 28 028 4 61 085 5 31 018 6 23 164 7 50 042 8 34 053 9 32 108 10 37 11. 111.5 COMPUTADORAS Y AJ~ALISIS BIOESTADISTICO EJERCICIOS 1.4.1 Utilice latabla de numerus aleatorios para seleccionar un nuevo punto aleatorio de partida, y extraiga otra muestra aleatoria simple de tamafto 10 apartir de la tabla 104.1. Registre las edades de losindividuos de la nueva muestra. Guarde sus datos para uso futuro. ~Cual es la variable de interes en este ejercicio? ~Que escala de medici6n se utiliz6 para obtener las mediciones? 1.4.2 Ebja otra muestra aleatoria simple de tamafio lOa partir dela poblaci6n representada en la iabla 104.1. Compare a los sujetos de esta muestra con los de las muestras obtenidas en el ejerCicio 1.4. L (Existen individuos que aparezcan en ambas muestras? ~Cuantos? Compa re las edades de los individuos en las dos inuestras. ~Cuantas edades de la primera muestra se duplicaron en la segunda? 1.5 COMPUTADORAS Y ANAuSIS BIOESTADiSTICO La difusi6n relativamente reciente del uso de la computadora ha tenido un gran impacto, particularmente en el analisis bioestadistico y, en general, en la investiga ci6n de ciencias de la salud. La necesidad de efectuar un gran numero de calculos aritmeticos como parte del analisis estadistico de los datos solo vive en el recuerdo de aquellos investigadores y profesionales cuyas carreras son anteriores a la llama da "revolucion de las computadoras". Las computadoras pueden ejecutar calculos mas rapidos y mucho mis predsos de 10 que puede un tecnico humano. El uso de las computadoras hace posible que los investigadores dediquen mas tiempo a me jorar la calidad de los datos originales y a la interpretacion de resultados. El predominio actual de las computadoras y la disponibilidad de gran canti dad de programas de software para estadfstica han revoludonado aun mas el calcu 10 estadistico. EI estudiante interesado en los paquetes de software estadistico encontrara fiUY utiles las revistas como The American Statistician, publicacion tri mestral del American Statistical Association (Asodadon Estadistica de Estados Uni dos de Norteamerica), donde regularmente aparecen las resefias y promoci6n de dichos paquetes. Muchas de las computadoras actualmente en el mercado estan equipadas con capacidad para generar numeros aleatorios. Los investigadores pueden utili zar las computadoras para generar los numeros aleatorios que necesiten, como alternativa al uso de tablas impresas de numeros aleatorios. En realidad, los nu meros "aleatorios" generados por muchas computadoras son realmente numeros pseudoaleatorios porque son el resultado de una formula determinfstica. Sin em bargo, Fishman (3) asegura que los numeros parecen ser satisfactorios para mu chos prop6sitos practicos. La utilidad de la computadora en las ciencias de la salud no se limita al analisis estadistico. El estudiante interesado en aprender mas acerca del uso de la computadora en ciendas de la salud encontrara utiles los libros de Hersh (4), Johns (5), Miller et al. (6), y Saba y McCormick (7). Aquellos que quieran obtener mayor 12. 12 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA beneficio de la Internet probablemente quieran consultar los libros Physician's Guide to the Internet (8) y Computers in Nursing's Nurses' Guide to the Internet (9). Los avances actuales en el empleo de la computadora en los campos de biologfa, medicina y otros se publican en algunas revistas dedicadas al tema, como: Computers in Biology and Medicine, Computers and Biomedical Research, InternationalJournal ofBio-Medical Computing, ComputerMethods and Programs in Biomedicine, ComputerApplications in the Biosciences y Computers in Nursing. En este libro se utilizan salidas impresas de computadora para ejemplificar el uso de computadoras en el analisis bioestadfstico; los paquetes de software estadis tico como MINITAB, SPSS YSAS, para computadoras personales obedecen al mis mo proposito. Seutilizo MINITAB para Windows en los ejemplos que muestran el uso de MINITAB. Despues de ingresar los datos para la aplicacion, MINITAB ini cia con una barra de menu como la siguiente: tile ~dit Manip Qale 5.tat Graph ~ditor Window Help Para cada ejemplo que se utiliz6 para ilustrar MINITAB se muestra el procedi miento de Windows (identificado como "Caja de dialogo") y los comandos corres pondientes (con el membrete "Comandos de la sesion") que tambien pueden teclearse. 1.6 RESllMEN En este capitulo se presentan los conceptos basicos de estadfstica. Se define a la estadistica como un area que se dedica a la recolecci6n y descripcion de datos, as! como a la elaboracion de inferencias estadfsticas. Se define la inferencia estadfsti ca como el procedimiento por medio del cual se obtienen conclusiones acerca de una poblacion con base en la informacion contenida en la muestra extraida de esa poblacion. Se estudia que el tipo basico de muestreo para hacer inferencias validas es el muestreo aleatorio simple. Se describe como milizar las tablas de numeros aleatorios para obtener muestras aleatorias simples de una poblacion. Se presentan las definiciones de algunos terminos basicos, como variable y muestra, que se usan en el estudio de la estadistica. Tambien se habla acerca de la medicion y se definen cuatro escalas de medicion: nominal, ordinal, de intervalos y de razones: Por ultimo, se menciona la importancia de las computadoras en el desarrollo de las actividades propias de la estadistica. PREGUNTAS YEJERCICIOS DE REPASO 1. Explique que significa estadfstica descriptiva. 2. Explique que significa estadistica inferenciaL 13. 13BIBLIOGRAFlA 3. Defina: a) Estadistica b) Bioestadfstica c) Variable d) Variable cuantitativa e) Variable cualitativa f) Variable aleatoria g) Poblaci6n h) Poblaci6n finita i) Poblaci6n infinita j) Muestra k) Variable discreta 1) Variable continua m) Muestra aleatoria simple n) Muestreo con reemplazo 0) Mliestreo sin reemplazo 4. Defina la palabra medici6n. 5. Enumere, describa y compare las cuatro escalas de medici6n. 6. Para cada una de las siguientes variables indique si son cuantitativas 0 cualitativas, y especi fique la escala de medicion que se utilizo cuando se tomaron las mediciones en cada una de las siguientes: a) Posicion social de los miembros de esta clase en relacion con los demas. b) Diagnosticos de admisi6n de pacientes admitidos en clinicas de salild mental. c) Peso de los bebes nacidos en un hospital en un ano. d) Sexo de los bebes nacidos en un hospital en un ano. e) Rango de movilidad de la articulaci6n del codo de estudiantes inscritos en un programa de estudios de ciencias de la salud. f) Temperatura axilar de bebes con un dia de nacidos en el hospital. 7. Para cada una de las siguientes situaciones, responda los incisos a-e: a) (Cmil es la muestra del estudio? b) (Cual es la poblaci6n? c) lCua! es la variable de interes? d) (CUantas mediciones se hicieron para ca1cular los resultados informados? e) (Que escala de medici6n se utilizo? Situaci6n A. Un estudio de 300 hogares en un pequeno pueblo sureno revel6 que 20 por ciento tiene al menos un hijo en edad escolar. Situaci6n B. Un estudio de 250 pacientes admitidos en un hospital durante el ano pasado revel6 que, en promedio, los pacientes viven a 22.5 kilometros del hospital. BffiUOGRAFiA Bibliografia de metodologia 1. S. S. Stevens, "On the Theory ofScales ofMeasurement". Science. 103,677-680. 2. S. S. Stevens, "Mathematics, Measurement and Psychophysics", in S. S. Stevens (editor). Handbook ofExperimental Psychology, Wiley. New York. 14. 14 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA 3. George S. Fishman, Concepts and Methods in Discrete Event Digital Simulation, Wiley, New York. 4. William R. Hersh, Information Retrieval: A Health Care Perspective, Springer, New York. 5. Merida L. Johns, Information Management for Health Proftssions, Delmar Publishers, Albany, NY. 6. MarvinJ. Miller, KenricW. Hammond y Matthew G. Hile (editores), Mental Health Computing, Springer, New York. 7. Virginia K. Saba y Kathleen A. McCormick, Essentials ofComputers for Nurses, McGraw-Hill, New York. 8. Lee Hancock, Physicians' Guide to the Internet, Lippincott-Raven, Philadelphia. 9. Leslie H. Nicoll y Teena H. Ouellette, Computers in Nursing's Nurses' Guide to the Intemet, Lippincott, Philadelphia. .Bibliografia de aplicaciones A-I. Knud Clasen, Laila Madsen, Kim Brylsen, Kurt Albylge, Susan Misfeldt y Lars F. Gram, "Sparteine and Mephenytoin Oxidation: Genetic Polymorphisms in East and West Greenland", Clinical Pharmacology & Therapeutics, 49,624-631. 15. 2.1 INTRODUCCION 2.4 ESTADISllCA DESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL 2.2 ARREGLO ORDENADO 2.5 ESTADISllCA DESCRIPTIVA: 2.3 DATOS AGRUPADOS Y MEDIDAS DE DISPERSION DISTRIBUCION DE FRECUENCIAS 2.6 RESUMEN 2.t JNTRODUCCION En el capitulo 1 se establecio que la toma de mediciones y el proceso de conteo producen numeros que contienen informacion. El objetivo de la gente que aplica herramientas estadisticas a esos numeros es determinar la naturaleza de esa informacion. Esta tarea es mucho mas facil si los numeros estan organizados y resumidos. Cuando se hacen las mediciones sobre entidades de una poblaci6n 0 . muestra, los valores resultantes estan disponibles para el investigador 0 estadfstico como una masa de datos desorganizados. Las mediciones que no han sido organizadas, procesadas 0 manejadas de alguna otra forma se les llama datos crudos (materia prima). A menos que el numero de observaciones sea extremadamente pequeno, es improbable que esos datos crudos proporcionen suficiente informaci6n hasta que sean puestos en alglin orden. En este capitulo se ensenan algunas tecnicas para organizar y procesar datos de tal manera que sea mas facil determinar que informacion contienen. Lo mas actual en procesamiento de datos es el calculo de un numero individual que de alguna manera incluye informaci6n importante acerca de los datos que sirvieron para calcularlo. A estos numeros individuales utilizados para describir datos se les llama medidas descriptivas. Despues de estudiar este capitulo el estudiante podra calcular algunas medidas descriptivas tanto para poblaciones como para muestras de datos. EI proposito de este capitulo es desarrollar en el estudiante habilidades para poder manejar la informacion numerica que se encuentre como profesional en ciencias de la salud. Entre mejor capacitado este para manejar tal informacion, tendra una mejor idea del ambiente y de las fuerzas que generan la informacion. 15 16. 16 CAPITULO 2 ESTADISTICA DESCRIPTIVA 2.2 ARREGLO OBDENADO EI primer paso para organizar datos es preparar un arreglo ordenado. Un arreglo ordenado es una lista de valores de un grupo (sea poblacion 0 muestra) en orden de magnitud de menor a mayor valor. Se recomienda el uso de la computadora si el numero de mediciones a ordenar es bastante grande. Un arreglo ordenado permite determinar con rapidez los valores de las medi ciones mas pequefias, de las mas grandes, y otros aspectos acerca de los datos arre glados que pudieran necesitarse en caso de urgencia. A continuaci6n se muestra la construcci6n de un arreglo ordenado con los datos que se estudiaron en el ejemplo 1.4.1. EJEMPL92.2.1 La tabla 1.4.1. contiene una lista de las edades de los individuos que participaron en el estudio de residentes de Groenlandia, estudiados en el ejemplo 104.1. Como puede apreciarse, esta tabla desordenada requiere de mucha investigaci6n para determinar informacion basica como la edad de los individuos mas j6venes hasta los mas viejos. Soludon: La tabla 2.2.1 presenta los datos de la tabla 1.4.1 en forma de arreglo ordenado. AI referirse a la tabla 2.2.1 es posible determinar rapidamen te la edaddel individuo mas joven (18) y la edad del mas viejo (63). Tambien es posible identificar con facilidad que casi tres cuartas partes de los individuos tienen menos de 40 afios de edad. Anii1isisporcompldadom Cuando se requieren cilculos adicionales yorganiza cion de un conjunto de datos en forma manual, el trabajo se facilita mediante un arre glo ordenado. Si los datos son analizados por computadora, esto no es aconsejable TABIA2.2.1 Arreglo ordenado de las edades de los individuos de la tabla 1.4.1 18 18 19 19 20 21 21 21 22 22 22 22 22 22 23 23 23 23 23 23 23 24 24 24 24 24 24 24 24 24 25 25 25 25 26 26 26 2626 . 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 30 30 31 31 31 31 31 31 31 32 32 32 32 32 33 33 33 34 34 34 34 34 35 36 36 36 37 37 37 37 37 38 38 38 38 38 39 39 39 40 40 40 40 40 40 41 41 41 42 42 42 42 43 43 43 44 44 44 45 45 45 46 46 47 47 47 47 48 48 48 48 48 48 49 49 50 50 50 51 51 .52 52 53 53 53 53 56 . 61 62 63 63 17. 172.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS Dialog box: Manip .. Sort Session command: II Sort ~===i 0 Qescending l====i 0 Dgscending }====i 0 D&.5c"Qding o Descendin! ~~~ l;,;l.l@iIL:1 MTB > Sort Cl C2; SUBC> By Cl. FIGURA 2.2.1 Caja de diaIogo para e1 ejemplo 2.2.1. para preparar un arreglo ordenado, a menos que se necesite para prop6sitos de refe rencia 0 para otro uso. La computadora no necesita que el usuario haga un arreglo ordenado antes de meter los datos para construir la distribuci6n de frecuencias y para hacer otros amllisis. Si desea un arreglo ordenado, muchos paquetes de software para computado ni contienen rutinas para construirlo. Por ejemplo, suponga que se usa el MINITAB Yque las edades de la tabla 104.1 estan en la columna 1. El comando SORT C1 C2 dasifica las edades y las pone en la columna 2, como 10 muestra la tabla 2.2.1. Si se utilizael paquete MINITAB para Windows, y los datos se colocan en la columna 1, el proceso es como sigue: con el mouse haga die en Manip, luego en Sort, escriba c1 en la caja etiquetada como "Sort column[s]", escriba c2 en la caja eti quetada como "Store sorted column[s] in" (para tener los datos dasificados en c2), y escriba c1 en la caja etiquetada "Sort by column". Si desea ordenar en forma descendente haga dic en "Descending". Si no se selecciona esa opci6n en este punto, el resultado es una clasificaci6n en orden ascendente. Finalmente, haga dic en OK. La caja de dialogo para el ejemplo 2.2.1 se muestra en la figura 2.2.1. 2.3 DATOSAGRUPADOSYDISTRIBUCION DE FRECUENCIAS Aunque un conjunto de observaciones puede hacerse mas comprensible y mas sig nificativo por medio de un arregloordenado, es mas util el resumen que se obtiene mediante la agrupaci6n de datos. Antes de la era de las computadoras, uno de los principales objetivos de agrupar grandes conjuntos de datos era el de facilitar el calculo de varias medidas descriptivas, como porcentajes y promedios. Debido a 18. 18 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA . que las computadoras pueden ejecutar esos calrulos a partir de grandes conjuntos sin agrupacion previa, actualmente el proposito principal de agrupar los datos es el de resumir la informacion. Se debe tener en mente que los datos contienen infor macion y que el resumen es una forma sencilla para determinar su naturaleza. Para agruparun conjunto de observaciones se debe seleccionar un conjunto de intervalos contiguos que no se traslapen, para que cada valor en el conjunto de observaciones pueda ser puesto en uno y solo uno de los intervalos. Estos intervalos normalmente se identifican como intervalos de clase. Una de las primeras consideradones ruando se agrupan datos es la de ruantos intervalos se deben incluir. Resulta inadecuado incluir pocos intervalos, porque se perderia informacion. Por otro lado, si se utilizan muchos intervalos, el objetivo de resumir no se consigue. La mejor guia en este caso, asi como para la toma de otras dedsiones sobre la agrupadon de datos, es el conocimiento de los datos. Puede ser que los intervalos de clase queden determinados por los precedentes, como en el caso de las tabulaciones anuales, en las que los intervalos de clase de los afios anteriores se conservan para propositos comparativos. Una regIa empfrica que habitualmente se sigue establece que deben ser.entre seis y 15 intervalos. Si hay menos de seis intervalos, los datos se han resumido en exceso y la informaci6n que contienen se habra perdido. Si hay mas de 15 intervalos, los datos no fueron resumidos 10 suficiente. Quienes deseen gufas mas espedficas para decidir cuantos intervalos de clase son necesarios, pueden utilizar la f6rmula propuesta por Sturges (1). Esta formula se enuncia k = 1 + 3.322(loglO n), donde k es el numero de intervalos de clase y n es el numero de valores en el conjunto de datos en observaci6n. La respuesta que se obtiene con la regla de Sturges no es definitiva, sino que se debe considerar unica mente como gufa. El numero de intervalos de clase especificado par esta regIa debera incrementarseo disminuirse por conveniencia y para lograr una presenta cion mas clara. Por ejemplo, suponga que una muestra tiene 275 observaciones para agrupar. Ellogaritmo base 10 de 275 es 2.4393. Con la aplicacion de la formula de Sturges se obtiene k = 1 + 3.322(2.4393)::::: 9. En la practica, otras consideraciones pueden sugerir el uso de 8 0 menos, 0 quiza 10 0 mas intervalos de clase. Otra preguntaque se debe responder se refiere a la amplitud del intervalo de clase. Los intervalos de clase generalmente deben ser de la misma amplitud, aun que algunas veces esto es imposible. La amplitud se determina dividiendo el rango entre k, que es el numero de intervalos de clase. Simbolicamente, la amplitud de los intervalos de clase esta dada por: R w (2.3.1) k donde R (el rango) es la diferencia entre la observacion mas pequefia y la mas grande dentro del conjunto de datos. Por 10 general, con este procedimiento se obtiene una amplitud que no es conveniente usar, y de nuevo se debe utilizar el sentido comun para elegir la amplitud (normalmente cercana a la que se obtiene con la ecuacion 2.3.1) que sea mas conveniente. 19. 192.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS Existen otras reglas empiricas que son de gran ayuda para armar intervalos de clase utiles. Cuando la naturaleza de los datos los hace adecuados, la amplitud de los intervalos de clase de 5 0 10 unidades y amplitudes multiplos de 10 tienden a hacer que el resumen sea mas comprensible. Cuando se utilizan estas amplitudes es una buena practica tener ellimite inferiorde cada extrema de intervalo en 0 0 5. Generalmente los intervalos de clase se almacenan de menor a mayor: es decir; el primer intervalo de clase contiene las mediciones mas pequenas y el ultimo inter valo contiene las mediciones mas grandes. Cuando sea este el caso, ellimite infe rior del primer intervalo de clase debe ser menor 0 igual que la medici6n mas pequena en el conjunto de datos, y ellimite superior del ultimf) intervalo de clase debe ser mayor 0 igual que la medici6n mas grande. Aunque muchos paquetes de software para microcomputadora contienen ru tinas para construir intervalos de clase, frecuentemente requieren que el usuario registre la amplitud del intervalo y el numero de intervalos deseados. A continua ci6n se utilizan las 169 edades incluidas en la tabla 1.4.1 y arregladas en la tabla 2.2.1 para ilustrar la construcci6n de la distribuci6n de frecuencias. EJEMPLO 2.3.t Se quiere saber cuantos intervalos de clase se tienen en la distribuci6n de frecuen cias de datos y tambien se quiere saber que tan amplios deben ser los intervalos. Solucion: Para tener una idea del numero de intervalos a utilizar, la aplicaci6n de la regIa de Sturges indica: k = 1 + 3.322(log 169) = 1 + 3.322(2.227886705) "" 8 Ahora, al dividir el rango entre 8 para darse una idea de la ampli tud de los intervalos de clase, se obtiene: R = 63 -18 = 45 =5.625 k 8 8 Es evidente que un intervalo de clase con una amplitud de 5 0 10 es mas conveniente y significativo para ellector. Suponga que se decide que sea 10. Ahora es posible construir los intervalos. Puesto que el valor mas pequeno en la tabla 2.2.1 es 18 y el mayor es 63', entonces los intervalos inician con 10 Yterminan con 69. Se obtienen los siguientes intervalos: 10-19 20-29 30-39 40-49 50-59 60-69 20. 20 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA Puede observarse que hay 6 de esos intervalos, es dedr, dos menos que el numero de intervalos calculados con la regIa de Sturges. .AIgunas veces resulta util referirse al centro Hamado punta media del intervalo de clase, el cual se determina sumando los limites extre mosdel intervalo de clase y dividiendo entre 2~ Por ejemplo, el punto medio del intervalo de clase 10-19 es (10 + 19)/2= 14.5. Cuando se agrupan datos manualmente, determinar el numero de valores que caen dentro de cada intervalo de clase es solo un problema de busqueda en el arreglo ordenadoy conteo del numero de observadones que caen en los distintos intervalos. Si se aplica esto al ejemplo anterior, se obtiene la tabla 2.3.1. Una tabla de este tipo se canoce como distribucwn de frecuencias. En ella se muestra como se distribuyen los valores dentro de los intervalos de clase espedfica dos. AI consll,ltarla, es posible determinar la frecuenda de ocurrencia de los valores dentro de cualquiera de los intervalos. Frecuencias relaiivas En ocasiones, puede ser de utilidad conocer la pro pordon, en lugar del nlimero, de valores que caen dentro de un intervalo de clase en particular. Esta informacion se obtiene dividiendo el numero de valores en un intervalo de clase particular entre el numero total de valores. Si en el ejemplo ante rior se pretende conocer la proporci6n de valores entre 30 y 39, inclusive, se divide 47 entre 169, para obtener .2781. Esto indica que 47 de 169, ~7/169, 0 0.2781 de los valores caen entre 30 y 39. AI multiplicar .2781 por roo se obtiene el porcen taje de valores entre 30 y 39. Con 10 anterior se puede decir que el 27.81 por ciento de los individuos tienen entre 30 y 39 alios de edad. Finalmente, a la pro pordon de valores que caen dentro de un intervalo de clase se Ie conoce como la frecuencia relativa de acurrencias en ese intervalo. TABlA 2.3.1 Distribuci6n de frecuencias de las edades de los 169 individuos incluidos en la talJla 1.4.1 y2.2.1 Intervalos de clase Frecuencias 10-19 4 20-29 66 30-39 47 40-49 36 50-59 12 60-69 4 Total 169 21. 212.3 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS TABlA 2.3.2 Distribuciones de: frecuencia, frecuencia acumulada, frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 1.4.1 Frecuencia Intervalos de Frecuencia Frecuencia relativa clase Frecuencia acumulada relativa acumulada 10-19 4 4 .0237 .0237 20-29 66 70 .3905 .4142 30-39 47 117 .2781 .6923 40-49 36 153 .2130 .9053 50-59 12 165 .0710 .9763 60-69 4 169 .0237 1.0000 Total 169 1.0000 Para determinar la frecuencia de valores que caen dentro de dos 0 mas in tervalos de clase, se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes. Analogamente, si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas interva los de clase, entonces, se suman las frecuencias relativas respectivas. Se pueden sumar, 0 acumular, las frecuencias y las frecuencias relativas para facilitar la obten cion de informacion acerca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos. La tabla 2.3.2 muestra los datos de la tabla 2.3.1 con las frecuencias acumuladas, frecuencias relativas y frecuen cias relativas acumuladas. Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59, entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2.3.2 y se resta .4142 de .9763 para obtener .5621. Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 2.3.2. MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en por centajes. EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado. Cuando se asignan los codigos 0, 1, 2, 3, 4 Y5, respectivamente, a las seis clases de intervalos, se debeteclear el siguiente comando: MTB> Code (10: 19)0 (20:29)1 (30:39)2 (40:49)3 (50:59)4 (60:69)5 c1 c2 La caja de dialogo, los comandos de la sesion y la salida se muestran en la figura 2.3.1. E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma, que es un tipo especial de grafica de barras. 22. 22 CAPITULO 2 ESTADISTICA DESCRIPTIVA Caja de dialogo: Comandos de la sesi6n: MTB> C2i Stat >- Tables >-- Tally SUBC> Countsi SUBC> CumCountsi Teclear C2 en Variables. Verifique Counts, SUBC> Percents; Percents, Cumulative Counts y SUBC> CumPercents. Cumulative percents en Display. Clic OK Resultados: Resumen estadlstico para variables discretas C2 Count CumCnt Percent CumPct 0 4 4 2.37 2.37 1 66 70 39.05 41.42 2 47 117 27.81 69.23 3 36 153 21.30 90.53 4 12 165 7.10 97.63 5 4 169 2.37 100.00 N 169 FIGURA2.3.1 Distribuci6n de frecuencia, frecuencias acumuladas, porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 1.4.1, tal como 10 construy6 el paquete MINITAB. Para construir un histograma, los valores de la variable respectiva se ponen sabre el eje horizontal, y las frecuencias (0 frecuencias relativas, si as! se quiere) de ocurrencia, en el eje vertical. Sobre cada intervalo de clase, arriba del eje hori zontal, se levanta una barra rectangular, 0 celda, como algunas veces se Ie nom bra, hasta que intercepte con la frecuencia respectiva. Las barras del histograma deben ser adyacentes, y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica. El nivel de precision que se observa en los datos obtenidos y que tienen medi ciones ~obre una escala continua indica algUn orden de redondeo. El orden de redon dec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados. Cuando una distribucion de frecuencia se construye a par tir de los datos, los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales. Esto mismo se ha efectuado en el ejemplo. Sin embargo, se sabe que algunos de los valores que caen dentro del segundo intervalo de clase, por ejemplo, probablemente seran un poco menores que 20 mientras que 23. 232.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS 70TABlA 2.3.3 Datos de la iabla 2.3.t que muestra los 60 IImites COl'l"ectos de los intervalos de clase 50 Intervalos de clase Frecuencias ::l 40'0 c: Q) :::J Q)9.5-19.5 4 t,) 30 u: 19.5-29.5 66 20 29.5-39.5 47 39.5-49.5 36 10 49.5-59.5 12 59.5-69.5 4 Total 169 otros seran un poco mayores que 29, cuando la medici6n es precisa. AI considerar la continuidad implfcita de la variable, y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo, entonces es 16gico suponer que 19.5 y 29.5 son los limites correctos para este segundo intervalo. Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 2.3.3. Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos, no habra separaciones entre las barras, y se obtendra el histograma que se muestra en la figura 2.3.2. Se utiliz6 el paquete MINITAB para elaborar el histograma. Se almacenaron los datos en la columna 1 y se Ie nombr6 "Edad". El procedimiento se muestra en la figura 2.3.3. EI mensaje 14.5:64:5110 indica que el primer punto medio es 14.5, que el ultimo punto medio es 64.5 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades. Se con sider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 2.3.2. 14.5 24.5 34.5 44.5 54.5 64.5 Edad FIGURA 2.3.2 Histograma de las edades de 169 individuos a partir de la tabla 2.3.1. Caja de dialogo: Comandos de la sesi6n: Graph ,.. Histogram Teclear Edad en X. MTB> Histogram 'Edad'; SUBC> MidPoint 14.5:64.5/10; SUBC> Bar. Clic Options. Elegir MidPoint. Teclear 14.5:64.5/l0 en MidPoint/cutPoint positions: Clic OK dos veces. FIGURA 2.3.3 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 1.4.1. 24. 24 CAPITULO 2 ESTADISTICA DESCRIPTIVA AI espacio entre los limites del histograma se Ie conoce como area del histograma. A cada observacion se Ie asigna una unidad de esta area. Puesto que se tienen 169 observaciones, el histograma tiene en total 169 unidades. Cada harra contiene cierta proporcion del area total, de acuerdo con la frecuencia. La segunda barra, por ejemplo, contiene 66/169 del area. Esto, como ya se estudi6, es la fre cuencia de ocurrencia de los valores entre 19.5 y 29.5. A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las fre cuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizon tal. El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los valores entre los puntos correspondientes sobre el eje horizontal. El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia, que es una dase especial de grafica lineal. Para dibujar este poHgono, primero se hace una marca arriba del punto medio de cada intervalo de clase, representado sobre el ~je horizontal de la grafica, como se muestra en la figura 2.3.2. La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase. AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuen cia. La figura 2.3.4 muestra el polfgono de frecuencia para los datos de edades de la tabla 2.2.1. Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adi donal en cada extremo del histograma correspondiente. Esto permite que el area total sea delimitada. El area total bajo el poligono de frecuencia es igual al area bajo 70 70 60 60 '"'5 50 ro '5 50 c: Stem-and-Leaf 'Edad'i .Graph >- Characte~ Graphs >- Histogram > SUBC> Increment 10. Stem-and-Leaf Tedear Edad en Variables. Tedear 10 en Increment. Clic OK. Resultados: Oespliegue en modo caracter de tallo y hojas Stem-and-Leaf of 'Edad' N= 169 Leaf Unit = 1.0 4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+ (47) 3 00000000001111111222223334444456667777788888999 . 52 4 0000001112222333A4455566777788888899 16 5 000112233336 4 6 1233 FIGURA 2.3.7 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 2.2.1. 27. EJERCICIOS 27 Por ejemplo, el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba. EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacio nes en esa linea y en todas las de abajo. El numero entre parentesis dice que hay 47 observaciones en esa lInea. Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observa ciones es impar, 0 las dos observaciones centrales si el numero total de observaciones es par. EI signa + al final de la segunda linea de la figura 2.3.7 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea, y que existe al menos una hoja adicional que no se muestra. En este caso, la frecuencia para el grupo de edades de 20-29 es de 66. En la linea hay s6lo 65 hojas, as! que el signo + indica que existe una hoja mas, un 9, que no se muestra. Una manera para no exceder la capacidad dela linea es tener mas lineas. Esto se puedehacer acortando la distancia entre las lfneas, es decir, reduciendo la ampli tud de los intervalos de c1ase. Para este ejemplo, se puede utilizar un intervalo de dases con amplitud 5, as! que la distancia entre las lfneas es de 5. La figura 2.3.8 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas. Stem-and-Leaf of 'Edad' N 169 Leaf Unit 1.0 4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999 (30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333 5 5 6 4 6 1233 FIGURA 2.3.8 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 2.2.1, con intervalos de clase de amplitud =5. EjERCICIOS 2.3.1 En un estudio de la actividad proliferativa del cancer de seno, Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67. Los investi gadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho. Los pacientes 28. 28 CAPiTULO 2 ESTADISTICA DESCRIPTIVA tenfan entre 26 y 82 aftos de edad. La siguiente tabla muestra los valores de !{i-67 (expresa dos en porcentajes) para esos pacientes. 10.12 10.80 10:54 27.30 8.38 10.15 5.48 23.50 32.60 42.70 19.30 16.40 4.40 26.80 16.60 33.00 11.65 26.30 1.73 35.90 9.63 9.31 7.40 9.35 14.78 ~1.42 25.11 12.60 17.96 41.12 28.30 19.50 15.92 19.40 7.19 4.65 73.00 17.84 10.90 2.74 21.09 11.95 33.30 .. 4.53 19.40 1.00 27.00 9.03 51.20 6.40 13.72 32.90 9.80 2.43 2.00 8.77 9.40 35.40 51.70 43.50 3.00 4.70 14.00 15.00 3.60 4.09 9.20 6.20 5.00 15.00 17.60 50.00 10.00 20.00 30.00 5.22 5.00 15.00 25.00 10.00 12.70 30.00 10.00 15.00 20.00 7.39 4.00 25.00 20.00 30.00 21.36 49.85 29.70 19.95 5.00 11.36 24.89 29.55 10.00 38:90 8.12 28.85 19.80 4.99 6.00 3.14 5.00 44.20 30.00 9.88 4.33 9.20 4.87 10.00 29.10 5.07 2.00 3.00 2.00 2.96 8.10 4.84 9.79 5.00 9.50 4.23 10.00 19.83 20.00 4.77 13.11 75.00 20.00 5.00 4.55 4.07 14.79 8.99 3.97 30.00 6.07 15.00 40.00 18.79 13.76 45.82 4.32 5.69 1.42 18.57 5.58 12.82 4.50 4.41 1.88 5.00 10.00 4.12 14.24 9.11 9.69 8.37 6.20 2.07 3.12 4.14 2.03 2.69 3.69 5.42 4.59 10.00 6.27 6.37 13.78 27.55 9.83 6.55 8.21 3.42 3.51 9.10 11.20 6.88 7.53 8.58 5.00 29.50 9.60 6.03 14.70 5.60 28.10 5.48 7.00 6.72 3.32 13.52 5.70 17.80 13.10 9.75 7.37 FUENTE: Utilizado con autorizaci6n de Silvio M. Veronese, Ph. D. 29. EJERCICIOS 29 a) Construya con los datos: Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas Una distribuci6n de frecuencias relativas acumuladas Un histograma Un poligono de frecuencia b) ~Que porcentaje de las mediciones es menor que 10? c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20? d) ~Que porcentaje de mediciones esta entre 20 y 49, inclusive? e) ~Cuantas mediciones son mayores que 39? t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69? g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor. ~Cual seria su respuesta? ~Por que? b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma. Por ejemplo, puede ser simetrica (la mitad izquierda es al menos aproximadamente igual a la mitad de la derecha), con inclinaci6n a la izquierda (las frecuencias tienden a incrementarse conforme-Ias medicionesse iilcrementan en tamano), con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamano), 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro). ~C6mo se describe esta distribuci6n? 2.3.2 Jarjour et al. (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL, siglas en ingles) en individuos con rinitis alergica, individuos con asma y voluntarios normales. Una de las mediciones obtenidas es la protei na total Olg/ml) en muestras de BAL. Los siguientes son los resultados de 61 muestras analizadas: 76.33 57.73 74.78 100.36 73.50 77.63 88.78 77.40 51.16 62.20 149.49 86.24 57.90 72.10 67.20 54.38 54.07 91.47 62.32 44.73 55.47 95.06 71.50 73.53 57.68 51.70 114.79 61.70 47.23 78.15 53.07 106.00 35.90 85.40 72.30 61.10 72.20 41.98 59.36 63.96 66.60 69.91 59.20 54.41 59.76 128.40 67.10 83.82 95.33 88.17 109.30 79.55 58.50 82.60 153.56 84.70 62.80 70.17 44.40 61.90 55.05 FUENTE: Utilizado con autorizaci6n de Nizar N. ]arjour, M. D. 30. 30 CAPITULO 2 ESTADISTICA DESCRIPTIVA a) Construya con los datos: Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas Una distribuci6n de frecuencias relativas acumuladas Un histograma Un polfgono de frecuencia b) ~Que porcentaje de mediciones esta entre 55 y 114, inclusive? c) ~Cuantas mediciones son menores que 95? d) ~Que proporci6n de las mediciones es mayor 0 igual que 75? e) ~Que porcentaje de mediciones es menor que 55 0 mayor que 114.99? f) Remitase al ejercicio 2.3.1 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n. 2.3.3 Ellis etal. (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos. Como parte del estudio, los investigadores obtuvieron los valores maximos de uni6n a la molecula receptora (Brna) en estos individuos. Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar. 1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479 FUENTE: Utilizado con autorizaci6n de Peter E. Ellis. a) Construya con los datos: Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas Una distribuci6n de frecuencias relativas acumuladas Un histograma Un polfgono de frecuencia b) ~Que porcentaje de mediciones es menor que 500? c) ~Que porcentaje de mediciones esta entre 500 y 999, inclusive? 31. EJERCICIOS 31 d) ~Que porcentaje de mediciones es mayor que 749? e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio2.3.1, inciso h. f) C:Cuantas de las mediciones son menores que 1000? 2.3.4 EI objetivo de un estudio de Herrman et at. (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n social'en Melboume, Australia. Los tres grupos de convictos se cIasificaron como: aquellos que estuvieron de acuerdo en ser entrevistados, aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar. Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos, los investigadores ob tuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio. Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivi duo que rehus6 la entrevista. 18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344 3650 0 2340 2555 2920 540 360 545 270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660 90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90 1460 1000 3160 450 1095 1460 910 1200 635 360 360 120 1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730 FUENTE: Utilizado con autorizacion de Helen Herrman, M. D. a) Construya con los datos: Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas Una distribuci6n de frecuencias relativas Un histograma Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia 32. 32 CAPITULO 2 ESTADISTICA DESCRIPTIVA b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 2.3.1, indso h. c) ~Por que se cree que los datos esuin inclinados de esa manera? d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores? e) (Cmintas mediciones son mayores que 729? f) (Que porcentaje de mediciones es menor que 1460? 2.3.5 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico. 7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8 a) Construya a partir de estos datos: Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 2.3.1, inciso h. 2.3.6 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano, en 60 hospitales comunitarios: 30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29 a) Construya a partir de estos datos: Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 2.3.1, inciso h. 2.3.7 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad, se registraron las siguientes puntuaciones con base en algunas ruti nas de ejercicios. 254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210 (ContinUa) 33. EJERCICIOS 33 214 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208 a) Construya a partir de estos datos: Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un poligono de frecuencia Un histograma b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 2.3.1, inciso h. 2.3.8 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe. Construya un despliegue de tallo y hojas con esos datos. Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 2.3.1, inciso h. . 35 32 21 43 39 60 36 12 54 45 37 53 45 23. 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57 2.3.9 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgen cias de dos hospitales urbanos. Construya un despliegue de tallo y hojas para cada conjunto de datos. ':Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales? Describa los dos conjuntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 2.3.1. inciso h. Hospital A 249.10 202.50 222.20 214.40 205.90 214.30 195.10 213.30 225.50 191.40 201.20 239.80 245.70 213.00 238.80 171.10 222.00 212.50 201.70 184.90 248.30 209.70 233.90 229.80 217.90 Hospital B 199.50 184.00 173.20 186.00 214.10 125.50 143.50 190.40 152.00 165.70 154.70 145.30 154.60 190.30 135.40 167.70 203.40 186.70 155.30 195.90 168.90 166.70 178.60 150.20 212.40 34. 34 CAPITULO 2 ESTADISTICA DESCRIPTIVA 2.3.10 Para este ejercicio es necesario utilizar los datos del ejemplo 1.4.1 desplegados en la tabla 1.4.1. a) Construya intervalos de clase con amp1itud 5 para: Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas Una distribuci6n de frecuencias relativas acumuladas Un histograma Un poHgono de frecuencia b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 2.3.1, incisoh. 2.3.11 Los objetivos de una investigaci6n realizada por Skjelbo et ai. (A-5)fueron examinar: a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la mala ria;o) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania. A partir de la informacion proporcionada por las muestras de orina de 216 individuos, los investigadores calcularon el porcentaje de inmutabilidad de S mefenitofna hacia R-mefenitoina (porcentaje SIR). Los resultados son los siguientes: 0.0269 0.0400 0.0550 0.0550 0.0650 0.0670 0.0700 0.0720 0.0760 0.0850 0.0870 0.0870 0.0880 0.0900 0.0900 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0;0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.1000 0.1020 0.1040 0.1050 0.1050 0.1080 0.1080 0.1090 0.1090 0.1090 0.1160 0.1190 0.1200 0.1230 0.1240 0.1340 0.1340 0.1370 0.1390 0.1460 0.1480 0.1490 0.1490 0.1500 0.1500 0.1500 0.1540 0.1550 .0.1570 0.1600 .0.1650 0.1650 0.1670 0.1670 0.1677 0.1690 0.1710 0.1720 0.1740 0.1780 0.1780 0.1790 0.1790 0.1810 0.1880 0.1890 0.1890 0.1920 0.1950 0.1970 0.2010 0.2070 0.2100 0.2100 . 0.2140 0.2150 0.2160 0.2260 0.2290 0.2390 0.2400 0.2420 0.2430 0.2450 0.2450 0.2460 0.2460 0.2470 0.2540 0.2570 0..2600 0.2620 0.2650 0.2650 0.2680 0.2710 0.2800 0.2800, 0.2870 0.2880 0.2940 0.2970 0.2980 0.2990 0.3000 0.3070 0.3100 0.3110 0.3140 0.3190 0.3210 0.3400 0.3440 0.3480 0.3490 0.3520 0.3,530 0.3570 0.3630 0.3630 0.3660 0.3830 0.3900 0.3960 0.3990 0.4080 0.4080 0.4090 0.4090 0.4100 0.4160 0.4210 0.4260 0.4290 0.4290 0.4300 0.4360 0.4370 0.4390 0.4410 0.4410 0.4430 0.4540 0.4680 0.4810 0.4870 0.4910 0.4980 0.5030 0.5060 0.5220 0.5340 0.5340 0.5460 0.5480 0.5480 0.5490 0.5550 0.5920 0.5930 0.6010 0.6240 0.6280 0.6380 0.6600 0.6720 0.6820 0.6870 0.6900 0.6910 0.6940 ().7040 0.7120 0.7200 0.7280 0.7860 0.7950 0.8040 0.8200 0.8350 0.8770 0.9090 0.9520 0.9530 0.9830 0.9890 l.()120 l.0260 l.0320 1.0620 1.1600 FUENTE: Utilizado con autorizaci6n de Erik Skjelbo, M. D. 35. EJERCICIOS 35 a) Construya con los datos las siguientes distribuciones: frecuencia, frecuencia relativa, fre cuencia acumulada y frecuencia relativa acunmlada; asi como las siguientes graficas: histograma, poligono de frecuencia y desplieglte de tallo y hojas. . b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 2.3.1, inciso h. . c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a .9. ~Cuantos y que porcenta je de individuos son metabolizantesde bajo rendimiento? d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que.7, entre .3 y .6999, inclusive, y mayores que .4999? 2.3.12 Schmidt et al. (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologay reducir la cantidadde sangre hom61oga transfundida utilizando crite rios de transfusion fijos. La siguiente tabla muestra las estaturas en centimetros de 109 indi viduos de los cuales 97 son varones. 1.720 1.710 1.700 1.655 1.800 1.700 1.730 1.700 1:820 1.810 1.720 1.800 1.800 1.800 1.790 1.820 1.800 1.650 1.680 1.730 1.820 1.720 1.710 1.850 1.760 1.780 1.760 1.820 1.840 1.690 1.770 1.920 1.690 1.690 1.780 1.720 1.750 1.710 1.690 1.520 1.805 1.780 1.820 1.790 1.760 1.830 1.760 1.800 1.700 1.760 1.750 1.630 1.760 1.770 1.840 1.690 1.640 1.760 1.850 1.820 1.760 1.700 1.720 1.780 1.630 1.650 1.660 1.880 1.740 1.900 1.830 1.600 1.800 1.670 1.780 1.800 1.750 1.610 1.840 1.740 1.750 1.960 1.760 1.730 1.730 1.810 1.810 1.775 1.710 1.730 1.740 1.790 1.880 1.730 1.560 1.820 1.780 1.630 1.640 1.600 1.800 1.800 1.780 1.840 1.830 1.770 1.690 1.800 1.620 FUENTE: Utilizado con autorizaci6n de Henrik Schmidt, M. D. a) Construya con los datos las siguientes distribuciones: frecuencia, frecuencia relativa, frecuencia acumulada y frecuencia relativa acumulada; as! como las siguientes grMicas: histograma, poligono de frecuencia y despliegue de !;allo y hojas. b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 2.3.1, inciso h. . c) ~C6mo se puede explicar la forma de distribucion de estos datos? d) ~Que tan altos son el6.42 por ciento de individuos mas altos? e) ~Que tan altos son ell0.09 por ciento de individuos de menor estatura? 36. 36 CAPITULO 2 ESTADISTICA DESCRIPTIVA 2.4 ESTADiSTICADESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles, existen muchas situaciones en que se requieren otros tip6s de resumen de datos. Lo que se necesita, en muchos casos, es la: posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva. Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n. Para distinguirlas entre sf se tienen las siguientes definiciones: DEFINICIONES 1. Una Inedida descriptiva calculada a partir de los datos de una m1,lestra se llaIna estadistica. 2. Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro. Algunos tipos de medidas descriptivas se pueden calcular a partir de un con junto de datos. Sin embargo, este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion. Las medidas de tendencia central se consideran en esta secci6n, y las medidas de dispersi6n, en la siguiente. Encada una de las medidas de tendenda central, de las que se discuten s6lo tres, tinicamente un valor delconjunto de datos se considera como el representati vo del todo. Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores. Tal como se vera, la palabra promedio se puede definir en diversas formas. Las tres medida~ de tendencia central de uso mas frecuente son: la media, la moda y la mediana. La media aritmetica La medida de tendencia central mas conocida es la me dia aritmetica. Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de "promedio". EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular. Puesto que no se estudian otras medias en este libro, no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media. La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados. FJEMPLO 2.4.1 Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 1.4.1. Soluci6n: Se procede de la siguiente forma: 27+27++23+39 edad media =------- 169 5797 169 34.302 Los tres puntos en el numerador representan valores que no se muestran para economizar espacio. 37. 2.3 ESTADisTICA DESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL 37 Formula general para la media Es conveniente generalizar el procedi miento para obtener la media y, ademas ,representarlo en notaci6n de forma mas compacta. Se inicia por designar a la variable aleatoria con la letra mayiiscula X. En este ~empl0 X representa a la variable aleatoria de edad. Los valores espedficos para una variable aleatoria se representan con la letra minuscula x. Para referirse al primero, alsegundo, al tercer valor, y asf sucesivamente, se afiade un subfndice a la x. Por ejemplo, a partir de la tabla 1.4.1 se tiene: Xl = 27, x;1 = 27, ..., = 39X l69 En general, un valor comun para la variable aleatoria se designa con Xi' y el valor final en una poblaci6n finita de valores, con xN ' donde N es el numero de valores en la poblacion. Por ultimo, se utiliza la letra griega Il para simbolizar la media de la poblacion. Ahora se puede escribir la formula general para la media de una pobla ci6n finita como sigue: N LXi (2.4.1)Il=~ N El simbolo :2.:1significa que todos los valores para la variable se suman desde el primero hasta el ultiIJ1.o. A este slmbolo L se Ie conoce como signa de sumataria, y se utiliza extensamente en este libro. Cuando por el contexto sea obvio cuales son los valores que se suman, los simbolos de arriba y de abajo del signo L se omiten. La media de la muesira Cuando se calcula laIl1edia para una muestra de valores, el procedimiento reciendescrito requiere algunas modificaciones en la nota cion. Se utiliza '3c para identificar a la media dela muestra, yn para indicar el numero de valoresenla muestra. For 10 tanto, la media de la muestra se expresa como sigue: (2.4.2) n EJEMPLO 2.4.2 . En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 1.4.1. Ahora corresponde calcular la edad media de los 10 individuos en la inuestra. . Soludon: Las edades (vease la tabla 1.4.2) de los 10 individuos de la muestra son: XI =42,x =28,x =28,x 61,xs 31,x6 =23,x7 =50,xs =34,xg = 32,2 3 4 x10 = 37. AI sustituir los datos de la muestra en la ecuaci6n 2.4.2 se obtiene: n :2.Xi 42+28+ ... +37366 x=~= =-=36.6 n 10 10 38. 38 CAPITULO 2 ESTADISTICA DESCRIPTIVA Propiedades de ta media La media aritmetica tiene ciertas prapiedades, algunas deseables y otras no tanto. Algunas de estas propiedades son las siguientes: 1. Es unica. Para un conjunto de datos existeuna y s610 una media aritmetica. 2. Simplicidad. EI calculo y comprension de lamedia aritmetica son sencillos. 3. Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media, esta es afectada por cada valor. Por 10 tanto, los valores extremos influyen sobre la media y, en algunos casos, pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central. A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media. Considere la siguiente situacion: cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento. Suponga que se reporta 10 siguiente: $75, $75,$80, $80 Y$280. EI cobra medio para los cinco medicos es de $118, un valor que no es muy representativo del con junto de datos. El unico valor atlpico del conjunto tuvo el efecto de inflar la media. La mediana La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes iguales, de forma que el numero de valores mayo res 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta. Si el numero de valores es impar, la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud. Cuando el nu mera de valores en e!: conjunto es pat, no existe un valor medio unico, sino que existen dos valores medios. En tal caso, la mediana corresponde a la media de esos dos valores centrales, cuando todos los valores son arreglados en orden de magni tud. Es decir, la mediana del conjuntode datos .es la (n+ 1) 12-esima observacion, cuando las observaciones han sido ordenadas. Por ejemplo, si se tienen 11 observa cjones, la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada. Si se tienen 12 observaCiones, la mediana es la (12+ 1)/2=6.5-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada. EJEMPLO 2.4.3 Encuentre la mediana de los datos contenidos en la tabla 2.2.1. Soluci6n: En la tabla, los valores ya estan ordenados, de modo que s610 se requiere encontrar losqos valores medios.El valor medio es el (n+ 1)/2 =(169+ 1)1 2 170/2 85-esimo. Contando desde el mas pequeno hasta el 85 esimo valor se observa que corresponde al 31. Por 10 tanto, la edad me diana de los 169 individuos es de 31 anos. FJEMPLO 2.4.4 Obtenga ahora la edad mediana para los ind}viduos de la muestra descrita en el ejemplo 2.4.2. 39. 392.5 ESTADisTICA DESCRIPTIVA: MEDIDAS DE DISPERSION Soluci6n: Al arreglar las 10 edades en orden de magnitud desde el valor mas pe quefio hasta el mas grande seobtiene 23,28,28,31,32,34,37,42,50, 61. Puesto que se trata de un numero impar de valores, no existe solo un valor central. Sin embargo, los dos valores del centro son 32 y 34, asf que la mediana es (32 + 34)/2 = 33. _ Propiedades de la mediana Entre las propiedades de la mediana se en cuentran las siguientes: 1. Es unica. Al igual que en el caso de la media, existe solamente una mediana par~un conjunto de datos. 2. Simplicidad. Es muy sencillo calcularla. 3. Los valores extremos no tienen efectos importantes sobre la mediana, 10 que sf ocurre con la media. La moda La moda de un conjunto.devalores es aquel valor que ocurre con mayor frecuencia. Si todos los valores son diferentes, no hay moda. Por otra parte, un conjunto devalores puede tener mas de una moda. FJEMPLO 2.4.5 Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 2.2.1. Soluci6n: El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con mas frecuencia (11veces). La moda para esta poblaci6n de edades es de 26. Para ilustrar un conjunto de valores que tiene mas de una moda, considere un laboratorio con diez empleados cuyas edades son: 20, 21,20,20,34,22,24,27,27 Y27. Se puede decir que estos datos tienen dos modas 20 y 27. Una muestra que consista en los valores 10, 21, 33, 53 Y 54 no tiene moda,puestoque todos los valores son diferentes. La moda se puedeutilizarpara describir datos cualitativos. Por ejemplo, su ponga que los pacientes de una cHnica de salud mental durante un afio dado reci bieron uno de los siguientes diagnosticos: retardo mental, sfndrome cerebral organico, psicosis, neurosis y trastornos de personalidad.El diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal. 2.5 ESTADISllCA DESCRIP11VA: MEDIDA.." DE DISPERSION G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas. Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos. Si todos los valores son iguales, no hay dispersion, perosi no todos son iguales, entoncesexiste dispersi6n en los datos. La magnitud de la dispersion es pequefia cuando los valores, aunque dife rentes, son cercanos entre sf. La figura 2.5.1 muestra los pollgonos de frecuencia 40. 40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA PobIaci6n A ,..."......... ~, Poblacl6n B , ",, )1 FIGUBA 2.5.t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n. para dos poblaciones que tienen medias iguales, pero diferente magnitud de varia bilidad. La poblacion B, mas variable que la poblaeion A, es mas dispersa. Si los valores estan ampliamente esparcidos, la dispersion es mayor. Otros ti!:rminos sino nimos de dispersion son: variaciOn, expansion y dispersion. El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango. Este es la difereneia entre el valor mas pe quenoy el mas grande en un eonjumo de observaciones. Si se representa el rango como R, el valor mayor como xL' Yel valor menor como xs' el rango se ealcula como sigue: (2.5.1) EJEMPLO 2.5.1 Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 2.4.2. Soluci6n: Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61, el rango calculado es: R = 61- 23 .38 La utilidad de rango es limitada. EI hecho de que toma en consider;acion solo dos valores hace que sea una medida pobre de dispersion. Su ventaja principal es la simplicidad de su caleulo. . La variancia Cuando los valores de un conjunto de observaciones se eneuen tran ubicados cerca de su media,la dispersion es menor que cuando estan esparcidos. En consecuencia, sepuede pensar intuitivamente que es posible medir la disper sion en funcion del esparcimiento de los valores alrededor de su media. Esta medi 41. 412.5 ESTADISTICA DESCRIPTIVA: MEDIDAS DE DISPERSION cion se efectlia mediante 10 que se conoce como variancia. Por ejemplo, para calcu lar la variancia de una muestra de valores, se resta la media de cada uno de los valores individuales, las diferencias se elevan al cuadrado y despues se suman entre sf. Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra, menos 1, para obtener la variancia de la muestra. Si se asigna la letra S2 para simbolizar la variancia de la muestra, el procedimiento descrito se expresa como sigue: 9 i=l (2.5.2)s-=..:..,.:--- n-l FJEMPl,O 2.5.2 .Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 2.4.2. Soluci6n:. (42 -36.6)2 + (28 -36.6)2 +... +(37 36.6)2 9 1196.399997 = ---,.,--;--- 132.933333 9 Grados de libertad La razon de dividir entre n - 1, en lugar de entre n, como hubiera de esperarse, es una consideracion teorica conocida comogradas de libertad. En el calculo de la variancia, se puede decir que hay n - 1 gradas de libertad. El razonamiento es como sigue: la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero, hecho que puede demostrarse. Si se cono cen los valores de n 1 de las desviaciones a partir de la media, entonces se conoce el n-esimo valor, ya que queda determinado automaticamente debido a la restric cion de que todos los valores de n se sumen a cero. Desde un punto de vista practi co, dividir las diferencias al cuadrado entre n 1en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferen cia que se estudian posteriormente. Elconcepto de grados de libertad se tratara de nuevo mas adelante. Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2). Cuando se calcula la variancia a partir de una poblacion finita de N valores, se sigue el procedimiento recien descrito, excepto que se resta Jl de cada x y se divide entre N en lugar de N-l. Si se asigna el sfmbolo (52 para la variancia de una pobla cion finita, la formula es la siguiente: (2.5.3) N DesviaclOn estdndar La variancia representa unidades al cuadrado, por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concep to enlerminos de las unidades originales. Para obtener la medida de dispersion en unidades originales, simplemente se obtiene la rafz cuadrada de la variancia. El 42. 42 CAPITULO 2 ESTADISTICA DESCRIPTIVA resultado se llama desviaci6n estandar. En general, la desviacion estandar de una muestra se obtiene mediante la siguiente formula: (2.5.4)s n-l La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 2.5.3. El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos. Sin embargo, cuando se quiere comparar la dispersion de dos conjuntos de datos, la comparacion de las dos desviaciones estandar puede dar un resultado equivocado. Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades. Por ejem plo: se pretende conocer, para una poblacion dada, si los niveles de colesterol en el suero, medidos en miligramos por cada 100 mI, son mas variados que el peso del cuerpo, medido en libras 0 kilogramos. . Ademas, aunque se utilice la misma unidad de medicion, las dos medias pue den diferir bastante. Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso, se encontrani que esta ultima es numericamente mayor que la anterior, debido a que los pesos mismos son mayo res y no porque la dispersion sea mayor. Lo que se necesitaensituaciones como esta es una medida de variancia rela tiva en lugar de una de variancia absol