semana 10 capitulo 4
TRANSCRIPT
8/19/2019 Semana 10 Capitulo 4
http://slidepdf.com/reader/full/semana-10-capitulo-4 1/6
Semana 10: Capítulo 4
1
DIPLOMATURA
Bioestadística básica aplicada, mediada con entorno R.
Cuando en la Semana 3 vimos la forma de tomar muestras, hablamos sobre la importancia de que
la muestra sea representativa de la población. Ese concepto de "representatividad" venía
aparejado a la idea de poder inferir los resultados de la muestra a la población.
De este modo pensábamos en el cómo: Cómo muestrear
Ahora la pregunta es sobre cuánto: Cuánto muestrear.
Cuál debiera ser el n que debemos tener para que nuestra muestra "represente" la variabilidad de
la población.
El n mínimo debiera ser el número final de unidades al terminar la experiencia, dado una confianza
y error máximo dispuesto a cometer.
Por ejemplo la estimación del n mínimo no está teniendo en cuenta los inconvenientes
"operacionales" que puedan tener. Si el n mínimo es 200 pacientes. Al terminar la experiencia
debemos tener 200 datos. Si arrancamos con 200 pacientes y 50 pacientes no vuelven, estaremos
trabajando con menor confianza y/o mayor error que el establecido a priori.
Cálculo de tamaño de la muestra.
Está claro que si todas las unidades fuesen exactamente iguales sólo debiéramos tomar una
unidad o elemento para que represente a todas. Y resulta intuitivo pensar que a mayor variabilidad
en la población, mayor número de unidades serán necesarias.
Cochran (1963) presentó unas fórmulas sencillas para el cálculo del n mínimo. Luego de estas han
surgido muchas versiones y abordajes más.
1) Variables cuantitativas con distribución normal
A partir del Estadístico:
̅
√
Y despejando n, se puede obtener:
8/19/2019 Semana 10 Capitulo 4
http://slidepdf.com/reader/full/semana-10-capitulo-4 2/6
Semana 10: Capítulo 4
2
DIPLOMATURA
Bioestadística básica aplicada, mediada con entorno R.
Donde:
S2: varianza muestral
t: valor del estadístico t para n-1 y 1-α.
e: error máximo que se está dispuesto a cometer. Se expresa en la unidad de la variable, por
ejemplo un error máximo del 10 % corresponde al valor e= 0.1*
Ejemplo 1: Se desea estimar a la media poblacional del contenido de sales minerales (en %) del
agua en el mar en una zona cercana a la Costa de la provincia de Chubut. Se cuenta con una
muestra piloto de 20 muestras con los siguientes valores: = 3,5 %; S = 0, 05%. Se desea
trabajar con una confianza del 95% y un error no mayor al 1%.
Si e<1%→ 0,01 * 3,5 = 0,035.
Si 1-α= 0,95 y n-1= 19 → valor t de tabla: 2,09, entonces:
Por lo que para estimar a la media poblacional se deben tomar 9 elementos en la muestra.
A partir de la fórmula anterior se observa que a mayor confianza, el número mínimo aumenta, a
mayor variabilidad (varianza), el número aumenta. Pero a mayor error, el número mínimo
disminuye.
El problema principal aquí se presenta ya que necesito un valor de varianza muestral y de media
muestral para hacer los cálculos. Dicho de otro modo debo tener idea de la variabilidad. Si no lo sé,
debo tomar una muestra piloto o tomar los valores de estimadores o parámetros de otros estudios
similares
2) Variables nominales (aproximación de la Binomial a la Normal)
a) N poblacional desconocido
8/19/2019 Semana 10 Capitulo 4
http://slidepdf.com/reader/full/semana-10-capitulo-4 3/6
Semana 10: Capítulo 4
3
DIPLOMATURA
Bioestadística básica aplicada, mediada con entorno R.
A partir del Estadístico:
√
Y despejando n, se puede obtener:
Donde:
p: proporción de éxitos de la muestra
q= (1-p): proporción de fracasos en la muestra
Z: valor del estadístico Z para 1-α.
e: error máximo que se está dispuesto a cometer. Se expresa en la unidad de la variable, por
ejemplo un error máximo del 10 % corresponde al valor e= 0.1.
Nótese que como la máxima varianza se obtiene con p=0,5, si se desconoce el valor de la varianza
poblacional o no existe una muestra piloto, se puede estimar a p=0,5 de un modo conservador para
trabajar con la máxima varianza posible.
Ejemplo 2: Se desea saber qué número de personas se deberá encuestar para conocer la
intención de voto de una población. Si se desconoce p, entonces p=0,5; q= 0,5; e= 0,1 y 1-α= 0,95
y → valor Z de tabla: 1,96, entonces:
Por lo que para estimar la proporción poblacional con una confianza del 95% y un error máximo del
10% se deben encuestar 96 personas.
8/19/2019 Semana 10 Capitulo 4
http://slidepdf.com/reader/full/semana-10-capitulo-4 4/6
Semana 10: Capítulo 4
4
DIPLOMATURA
Bioestadística básica aplicada, mediada con entorno R.
Nótese que en la fórmula anterior no estamos hablando del N poblacional, con lo que corremos el
riesgo de que el n mínimo sea mayor que en N, para ello hay una corrección de la fórmula:
b) N poblacional conocido
Se adaptó la fórmula para los casos en que se conoce (aunque sea aproximado) el valor de N:
Donde:
p: proporción de éxitos de la muestra
q= (1-p): proporción de fracasos en la muestra
Z: valor del estadístico Z para 1-α.
e: error máximo que se está dispuesto a cometer. Se expresa en la unidad de la variable, porejemplo un error máximo del 10 % corresponde al valor e= 0.1.
N: Número de unidades o elementos de la población
Ejemplo 3: Se desea saber qué número de personas se deberá encuestar para conocer la
intención de voto de una población. Pero la población tiene 2000 votantes. Si se desconoce p,
entonces p=0,5; q= 0,5; e= 0,05 y 1-α= 0,95 y → valor Z de tabla: 1,96, entonces:
Cómo hacerlo en R
Vamos a utilizar lo que vimos hasta ahora para hacer el cálculo de las fórmulas: ya hemos
aprendido a crear objetos, a invocarlos más tarde y a crear fórmulas, entonces veamos:
##### 1) n mínimo para variables cuantitativas
####Objetos Iniciales (COMPLETAR LOS 5)
CONFIANZA <- 0.95
VARIANZA <-0.0025
8/19/2019 Semana 10 Capitulo 4
http://slidepdf.com/reader/full/semana-10-capitulo-4 5/6
Semana 10: Capítulo 4
5
DIPLOMATURA
Bioestadística básica aplicada, mediada con entorno R.
ERROR_EN_PORCENTAJE<- 1
MEDIA_MUESTRAL <- 3.5
n_MUESTRA <- 20
#Script n_minimo_var_cuanti
CUANTIL <- qt((1-(1-CONFIANZA)/2), (n_MUESTRA - 1), 0, lower.tail = TRUE)
ERROR_CUADRADO <- ((ERROR_EN_PORCENTAJE/100)* MEDIA_MUESTRAL)^2
N_MINIMO <-((CUANTIL^2)*VARIANZA)/ERROR_CUADRADO
N_MINIMO
#### 2) n mínimo para variables cualitativas y N desconocido
####Objetos Iniciales (COMPLETAR LOS 3. Si no conocemos p, debemos colocar 0.5)
CONFIANZA <- 0.95
p <-0.5
ERROR<- 0.1
#Script n_minimo_var_cuali
CUANTIL <- qnorm((1-(1-CONFIANZA)/2), mean = 0, sd = 1)
N_MINIMO <-((CUANTIL^2)*p*(1-p))/(ERROR^2)
N_MINIMO
####3 ) n mínimo para variables cualitativas con N conocido
####Objetos Iniciales (COMPLETAR LOS 3. Si no conocemos p, debemos colocar 0.5)
8/19/2019 Semana 10 Capitulo 4
http://slidepdf.com/reader/full/semana-10-capitulo-4 6/6
Semana 10: Capítulo 4
6
DIPLOMATURA
Bioestadística básica aplicada, mediada con entorno R.
CONFIANZA <- 0.95
p <-0.5
ERROR<- 0.05
N <- 2000
#Script n_minimo_var_cuali
CUANTIL <- qnorm((1-(1-CONFIANZA)/2), mean = 0, sd = 1)
N_MINIMO <-(CUANTIL^2*p*(1-p)*N)/ ((N*ERROR^2)+CUANTIL^2*p*(1-p))
N_MINIMO
Entonces a partir de ahora puede saber el valor de n mínimo tanto para variables cualitativas como
cuantitativas. Pero una advertencia:
Las plantas se pueden secar, las ratas se pueden morir, los pacientes pueden no volver, por lo que
el n no está contemplando las vicisitudes de la vida. En áreas con "pérdidas" de datos mayores,
debemos garantizar este n al final de la experiencia. Dicho de otro modo: si tus elementos tienen la
costumbre de perderse, tomá más por las dudas!
¡Suerte!