semana 10 capitulo 4

6
8/19/2019 Semana 10 Capitulo 4 http://slidepdf.com/reader/full/semana-10-capitulo-4 1/6 Semana 10: Capítulo 4 1 DIPLOMATURA Bioestadística básica aplicada, mediada con entorno R. Cuando en la Semana 3 vimos la forma de tomar muestras, hablamos sobre la importancia de que la muestra sea representativa de la población. Ese concepto de "representatividad" venía aparejado a la idea de poder inferir los resultados de la muestra a la población. De este modo pensábamos en el cómo: Cómo muestrear  Ahora la pregunta es sobre cuánto: Cuánto muestrear. Cuál debiera ser el n que debemos tener para que nuestra muestra "represente" la variabilidad de la población. El n mínimo debiera ser el número final de unidades al terminar la experiencia, dado una confianza y error máximo dispuesto a cometer. Por ejemplo la estimación del n mínimo no está teniendo en cuenta los inconvenientes "operacionales" que puedan tener. Si el n mínimo es 200 pacientes. Al terminar la experiencia debemos tener 200 datos. Si arrancamos con 200 pacientes y 50 pacientes no vuelven, estaremos trabajando con menor confianza y/o mayor error que el establecido a priori. Cálculo de tamaño de la muestra.  Está claro que si todas las unidades fuesen exactamente iguales sólo debiéramos tomar una unidad o elemento para que represente a todas. Y resulta intuitivo pensar que a mayor variabilidad en la población, mayor número de unidades serán necesarias. Cochran (1963) presentó unas fórmulas sencillas para el cálculo del n mínimo. Luego de estas han surgido muchas versiones y abordajes más. 1) Variables cuantitativas con distribución normal   A partir del Estadístico:    Y despejando n, se puede obtener:    

Upload: agustinsalguero

Post on 08-Jul-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Semana 10 Capitulo 4

8/19/2019 Semana 10 Capitulo 4

http://slidepdf.com/reader/full/semana-10-capitulo-4 1/6

Semana 10: Capítulo 4 

DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Cuando en la Semana 3 vimos la forma de tomar muestras, hablamos sobre la importancia de que

la muestra sea representativa de la población. Ese concepto de "representatividad" venía

aparejado a la idea de poder inferir los resultados de la muestra a la población.

De este modo pensábamos en el cómo: Cómo muestrear

 Ahora la pregunta es sobre cuánto: Cuánto muestrear.

Cuál debiera ser el n que debemos tener para que nuestra muestra "represente" la variabilidad de

la población.

El n mínimo debiera ser el número final de unidades al terminar la experiencia, dado una confianza

y error máximo dispuesto a cometer.

Por ejemplo la estimación del n  mínimo no está teniendo en cuenta los inconvenientes

"operacionales" que puedan tener. Si el n  mínimo es 200 pacientes. Al terminar la experiencia

debemos tener 200 datos. Si arrancamos con 200 pacientes y 50 pacientes no vuelven, estaremos

trabajando con menor confianza y/o mayor error que el establecido a priori.

Cálculo de tamaño de la muestra. 

Está claro que si todas las unidades fuesen exactamente iguales sólo debiéramos tomar una

unidad o elemento para que represente a todas. Y resulta intuitivo pensar que a mayor variabilidad

en la población, mayor número de unidades serán necesarias.

Cochran (1963) presentó unas fórmulas sencillas para el cálculo del n mínimo. Luego de estas han

surgido muchas versiones y abordajes más.

1)  Variables cuantitativas con distribución normal 

 A partir del Estadístico:

  ̅

√ 

 

Y despejando n, se puede obtener:

 

 

Page 2: Semana 10 Capitulo 4

8/19/2019 Semana 10 Capitulo 4

http://slidepdf.com/reader/full/semana-10-capitulo-4 2/6

Semana 10: Capítulo 4 

DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Donde:

S2: varianza muestral

t: valor del estadístico t para n-1 y 1-α. 

e: error máximo que se está dispuesto a cometer. Se expresa en la unidad de la variable, por

ejemplo un error máximo del 10 % corresponde al valor e= 0.1*  

Ejemplo 1: Se desea estimar a la media poblacional del contenido de sales minerales (en %) del

agua en el mar en una zona cercana a la Costa de la provincia de Chubut. Se cuenta con una

muestra piloto de 20 muestras con los siguientes valores:   = 3,5 %; S = 0, 05%. Se desea

trabajar con una confianza del 95% y un error no mayor al 1%.

Si e<1%→ 0,01 * 3,5 = 0,035. 

Si 1-α= 0,95 y n-1= 19 → valor t de tabla: 2,09, entonces:  

 

 

Por lo que para estimar a la media poblacional se deben tomar 9 elementos en la muestra.

 A partir de la fórmula anterior se observa que a mayor confianza, el número mínimo aumenta, a

mayor variabilidad (varianza), el número aumenta. Pero a mayor error, el número mínimo

disminuye.

El problema principal aquí se presenta ya que necesito un valor de varianza muestral y de media

muestral para hacer los cálculos. Dicho de otro modo debo tener idea de la variabilidad. Si no lo sé,

debo tomar una muestra piloto o tomar los valores de estimadores o parámetros de otros estudios

similares

2)  Variables nominales (aproximación de la Binomial a la Normal) 

a) N poblacional desconocido

Page 3: Semana 10 Capitulo 4

8/19/2019 Semana 10 Capitulo 4

http://slidepdf.com/reader/full/semana-10-capitulo-4 3/6

Semana 10: Capítulo 4 

DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

 A partir del Estadístico:

√ 

 

Y despejando n, se puede obtener:

 

 

Donde:

p: proporción de éxitos de la muestra

q= (1-p): proporción de fracasos en la muestra

Z: valor del estadístico Z para 1-α.

e: error máximo que se está dispuesto a cometer. Se expresa en la unidad de la variable, por

ejemplo un error máximo del 10 % corresponde al valor e= 0.1.

Nótese que como la máxima varianza se obtiene con p=0,5, si se desconoce el valor de la varianza

poblacional o no existe una muestra piloto, se puede estimar a p=0,5 de un modo conservador para

trabajar con la máxima varianza posible.

Ejemplo 2: Se desea saber qué número de personas se deberá encuestar para conocer la

intención de voto de una población. Si se desconoce p, entonces p=0,5; q= 0,5; e= 0,1 y 1-α= 0,95

y → valor Z de tabla: 1,96, entonces: 

 

Por lo que para estimar la proporción poblacional con una confianza del 95% y un error máximo del

10% se deben encuestar 96 personas.

Page 4: Semana 10 Capitulo 4

8/19/2019 Semana 10 Capitulo 4

http://slidepdf.com/reader/full/semana-10-capitulo-4 4/6

Semana 10: Capítulo 4 

DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Nótese que en la fórmula anterior no estamos hablando del N poblacional, con lo que corremos el

riesgo de que el n mínimo sea mayor que en N, para ello hay una corrección de la fórmula:

b) N poblacional conocido

Se adaptó la fórmula para los casos en que se conoce (aunque sea aproximado) el valor de N:

 

  

Donde:

p: proporción de éxitos de la muestra

q= (1-p): proporción de fracasos en la muestra

Z: valor del estadístico Z para 1-α. 

e: error máximo que se está dispuesto a cometer. Se expresa en la unidad de la variable, porejemplo un error máximo del 10 % corresponde al valor e= 0.1.

N: Número de unidades o elementos de la población

Ejemplo 3:  Se desea saber qué número de personas se deberá encuestar para conocer la

intención de voto de una población. Pero la población tiene 2000 votantes. Si se desconoce p,

entonces p=0,5; q= 0,5; e= 0,05 y 1-α= 0,95 y → valor Z de tabla: 1,96, entonces:  

 

Cómo hacerlo en R 

Vamos a utilizar lo que vimos hasta ahora para hacer el cálculo de las fórmulas: ya hemos

aprendido a crear objetos, a invocarlos más tarde y a crear fórmulas, entonces veamos:

##### 1) n mínimo para variables cuantitativas

####Objetos Iniciales (COMPLETAR LOS 5)

CONFIANZA <- 0.95

VARIANZA <-0.0025

Page 5: Semana 10 Capitulo 4

8/19/2019 Semana 10 Capitulo 4

http://slidepdf.com/reader/full/semana-10-capitulo-4 5/6

Semana 10: Capítulo 4 

DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

ERROR_EN_PORCENTAJE<- 1

MEDIA_MUESTRAL <- 3.5

n_MUESTRA <- 20

#Script n_minimo_var_cuanti

CUANTIL <- qt((1-(1-CONFIANZA)/2), (n_MUESTRA - 1), 0, lower.tail = TRUE)

ERROR_CUADRADO <- ((ERROR_EN_PORCENTAJE/100)* MEDIA_MUESTRAL)^2

N_MINIMO <-((CUANTIL^2)*VARIANZA)/ERROR_CUADRADO

N_MINIMO

#### 2) n mínimo para variables cualitativas y N desconocido

####Objetos Iniciales (COMPLETAR LOS 3. Si no conocemos p, debemos colocar 0.5)

CONFIANZA <- 0.95

p <-0.5

ERROR<- 0.1

#Script n_minimo_var_cuali

CUANTIL <- qnorm((1-(1-CONFIANZA)/2), mean = 0, sd = 1)

N_MINIMO <-((CUANTIL^2)*p*(1-p))/(ERROR^2)

N_MINIMO

####3 ) n mínimo para variables cualitativas con N conocido

####Objetos Iniciales (COMPLETAR LOS 3. Si no conocemos p, debemos colocar 0.5)

Page 6: Semana 10 Capitulo 4

8/19/2019 Semana 10 Capitulo 4

http://slidepdf.com/reader/full/semana-10-capitulo-4 6/6

Semana 10: Capítulo 4 

DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

CONFIANZA <- 0.95

p <-0.5

ERROR<- 0.05

N <- 2000

#Script n_minimo_var_cuali

CUANTIL <- qnorm((1-(1-CONFIANZA)/2), mean = 0, sd = 1)

N_MINIMO <-(CUANTIL^2*p*(1-p)*N)/ ((N*ERROR^2)+CUANTIL^2*p*(1-p))

N_MINIMO

Entonces a partir de ahora puede saber el valor de n mínimo tanto para variables cualitativas como

cuantitativas. Pero una advertencia:

Las plantas se pueden secar, las ratas se pueden morir, los pacientes pueden no volver, por lo que

el n no está contemplando las vicisitudes de la vida. En áreas con "pérdidas" de datos mayores,

debemos garantizar este n al final de la experiencia. Dicho de otro modo: si tus elementos tienen la

costumbre de perderse, tomá más por las dudas!

¡Suerte!