muestreo en poblaciones finitas - muestreo aleatorio...
TRANSCRIPT
Muestreo en Poblaciones FinitasMuestreo Aleatorio Simple
José A. Mayor Gallego
Departamento de Estadística e Investigación OperativaUniversidad de Sevilla
Septiembre de 2011
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 1/22
Contenidos
1 Diseño Muestral Aleatorio SimpleCaracterísticasMagnitudes Muestrales
2 Estimación de ParámetrosEstimación de la Media PoblacionalEstimación del Total PoblacionalEstimación de Proporciones
3 Tamaño MuestralEstimación de la Media PoblacionalEstimación de la Proporción Poblacional
4 Estimación en subpoblaciones
5 Bibliografía
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 2/22
Diseño Muestral Aleatorio Simple, MAS(N, n)
Espacio Muestral.
M = {m ⊆ U|n(m) = n}
Distribución de Probabilidad.
Pr(m) =1(Nn
) , ∀m ∈ M
Probabilidades de Inclusión.
πi =nN
πij =n(n − 1)
N(N − 1)∆ij =
−f (1− f )
N(N − 1)∆ii = f (1−f )
NOTA: f = n/N. Fracción de Muestreo.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 3/22
Idea de la Ponderación
Supongamos que en una población de 20000 habitantes se realizaun muestreo aleatorio y se obtiene una muestra de 100 personas.Como 20000/100=200, cada elemento de la muestra estárepresentando a 200 de la población. Entonces, cuando interviene enla estimación, su valor habría que ponderarlo por 200. Por ejemplo, siqueremos estimar la media poblacional,
yU =1
20000
∑i∈U
yi
podríamos emplear el estimador,
yU =1
20000
∑i∈m
200yi =1
100
∑i∈m
yi
es decir, la media muestral.Nótese que la ponderaciones son precisamente N/n = 1/πi , esdecir, los inversos de las probabilidades de inclusión. Esta idea seextenderá posteriormente a cualquier otro diseño muestral.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 4/22
Magnitudes Muestrales
Media Muestral.ym =
1n
∑i∈m
yi
Cuasivarianza Muestral.
S2ym =
1n − 1
∑i∈m
(yi − ym)2
Varianza Muestral.
σ2ym =
1n
∑i∈m
(yi − ym)2 =1n
∑i∈m
y2i − y2
m
Relación entre Varianza y Cuasivarianza.
S2ym =
nn − 1
σ2ym
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 5/22
Estimación de la Media
Estimador Insesgado de la Media Poblacional.
yU = ym la media muestral
Varianza.V [yU ] = V [ym] =
1− fn
S2yU
Estimador Insesgado de la Varianza.
V [yU ] = V [ym] =1− f
nS2
ym
Intervalo de Confianza al 100(1− α) %.(ym − z1−α/2
√1− f
nS2
ym , ym + z1−α/2
√1− f
nS2
ym
)Error de Muestreo. Confianza 100(1− α) %
EM = z1−α/2
√1− f
nS2
ym
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 6/22
Estimación del Total
Estimador Insesgado del Total Poblacional.
ty = Nym
Varianza.V [ty ] = V [Nym] = N2 1− f
nS2
yU
Estimador Insesgado de la Varianza.
V [ty ] = N2 1− fn
S2ym
Intervalo de Confianza al 100(1− α) %.(Nym − Nz1−α/2
√1− f
nS2
ym , Nym + Nz1−α/2
√1− f
nS2
ym
)Error de Muestreo. Confianza 100(1− α) %
EM = Nz1−α/2
√1− f
nS2
ym
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 7/22
Estimación de una Proporción
Sea C una característica o cualidad que un elemento puede tener ono. Sea Uc el subconjunto de U con los elementos que tienen dichacualidad y Nc el tamaño del mismo. La proporción poblacional de lacaracterística es,
P =Nc
NSi definimos la variable,
yi =
{1 si el individuo i posee la cualidad0 en caso contrario
entonces,
P =1N
tyU = yU siendo tyU =∑i∈U
yi
es decir, media poblacional de Y , por lo que,
P = yU = ym =1n
∑i∈m
yi = p
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 8/22
Estimación de una Proporción
Estimador Insesgado de la Proporción Poblacional.
P = p proporción muestral
Varianza.
V [P] =N − nN − 1
P(1− P)
n=
N − nN − 1
PQn
Estimador Insesgado de la Varianza.
V [P] =1− fn − 1
p(1− p) =1− fn − 1
pq
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 9/22
Estimación de una Proporción
Intervalo de Confianza al 100(1− α) %.(p − z1−α/2
√1− fn − 1
p(1− p) , p + z1−α/2
√1− fn − 1
p(1− p)
)
Error de Muestreo. Confianza 100(1− α) %
EM = z1−α/2
√1− fn − 1
p(1− p)
Porcentaje=100× Proporción.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 10/22
Tamaño Muestral
La determinación del tamaño de muestra se realiza a partir deun requerimiento previo de precisión bajo un nivel de confianzaprefijado.
Para la media poblacional, que es un parámetro no normalizado,el requerimiento de precisión se plantea, en términos relativos,como,
|yU − ym||yU |
= δ
Para la proporción poblacional, que es un parámetronormalizado entre CERO y UNO, el requerimiento de precisiónse plantea, en términos absolutos, como,
|P − p| = δ
En general, es necesario disponer de información previa parasatisfacer estos requerimientos.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 11/22
Tamaño Muestral. Media Poblacional
El requerimiento,|yU − ym||yU |
< δ
es equivalente a,
ym − yUδ < yU < ym + yUδ
por lo que,
yUδ = z1−α/2
√1− f
nS2
yU
de donde se obtiene,
n =
z21−α/2S2
yU
δ2y2U
1 +z2
1−α/2S2yU
Nδ2y2U
=
z21−α/2Cv2
yU
δ2
1 +z2
1−α/2Cv2yU
Nδ2
siendo CvyU =SyU
yU
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 12/22
Tamaño Muestral. Media Poblacional
Denotando,
n0 =z2
1−α/2Cv2yU
δ2 tenemos n =n0
1 + n0/N
El cuasicoeficiente de variación poblacional tiene su versiónmuestral, sustituyendo la cuasidesviación típica poblacional por lamuestral, y la media poblacional por la muestral, es decir,
Cvym =Sym
ym
Para el cálculo de n0 necesitamos conocer el cuasicoeficiente devariación poblacional, o al menos el muestral que será unaestimación.
Emplear información obtenida en otros estudios, extrapolandoalgunos resultados.
Obtener una muestra preliminar o muestra piloto para estimarCvyU
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 13/22
Tamaño Muestral. Proporción Poblacional
El requerimiento,|P − p| < δ
es equivalente a,p − δ < P < p + δ
por lo que,
δ = z1−α/2
√(1− f )
PQn
de donde se obtiene,
n =
z21−α/2PQ
δ2
1 +z2
1−α/2PQ
Nδ2
=n0
1 + n0/N
siendo,
n0 =z2
1−α/2PQ
δ2
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 14/22
Tamaño Muestral. Proporción Poblacional
La cantidad PQ verifica siempre PQ ≤ 14 , cualquiera que sea P,
podemos dar una cota superior conservadora para n escribiendo,
n =
z21−α/2
4δ2
1 +z2
1−α/2
4Nδ2
=n0
1 + n0/N
siendo,
n0 =z2
1−α/2
4δ2
Notemos finalmente que si α = 0′05, es decir, queremos un intervalode confianza al 95 %, podemos tomar z2
1−α/2 = 1′962 ≈ 4 con lo quen0 es aproximadamente 1/δ2 lo que permite el cálculo rápido deltamaño muestral.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 15/22
Estimación en Subpoblaciones. Estimación de la Media
En muchas situaciones, es interesante no sólo la estimación de unparámetro en U, sino también en una sumpoblación Ud .
Por ejemplo, en un estudio sobre el hábito de fumar, queremosestimar el porcentaje de fumadores en una población, y tambiénestimar dicho porcentaje para HOMBRES y para MUJERES porseparado, es decir, desagregar la estimación global por sexo.
Nd es el tamaño de la Subpoblación Ud
Media de Y en Ud .
yUd =1
Nd
∑i∈Ud
yi
MAS(N,n) −→ m. md = m ∩ Ud . nd = |md | ∈ {0,1,2, . . . ,n}Nueva variable, Yd ,
ydi =
{yi si i ∈ Ud0 si i 6∈ Ud
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 16/22
Estimación en Subpoblaciones. Estimación de la Media
yUd =1
Nd
∑i∈Ud
yi =NNd
1N
∑i∈U
ydi =NNd
ydU
y en caso de que Nd sea conocido, tendremos el siguiente estimadorinsesgado,
yUd =NNd
ydm =NNd
1n
∑i∈m
ydi =N
nNd
∑i∈md
yi
Varianza
V [ydm] =N2
N2d
1− fn
S2yd U
Varianza Estimada. Insesgada.
V [ydm] =N2
N2d
1− fn
S2yd m
Nótese que S2yd m es la cuasivarianza muestral de la variable Yd , es
decir, los valores correspondientes a elementos de la subpoblaciónlos conservaremos, y los que no los sustituiremos por 0.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 17/22
Estimación en Subpoblaciones. Estimación de la Media
En caso de que Nd no sea conocido, el anterior estimador esinviable. Una solución es estimar Nd .Nd = NPd donde Pd es la proporción de elementos de la poblaciónque pertenecen a la subpoblación Ud .
Nd = Nnd
n
yUd,alt =N
nNd
∑i∈md
yi =N
nNnd/n
∑i∈md
yi =1nd
∑i∈md
yi = ymd
es decir, la media muestral de los elementos de la muestra quepertenecen al dominio Ud .Este estimador alternativo es de tipo NO LINEAL y puede serempleado también aunque se conozca Nd ; es el que usualmenteemplean los distintos “softwares” de aplicación al Muestreo:SURVEY, SPSS, SAS, etc.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 18/22
Estimación en Subpoblaciones. Estimación de la Media
Estimación de la media poblacional en una subpoblación
En una población, U, de 10000 personas, hay 3000 personas conedad comprendida entre 0 y 21 años, tipo A, y 7000 de edadsuperior, tipo B.Para realizar un estudio de hábitos de ocio, se selecciona unamuestra aleatoria simple de 15 personas de la población y sepregunta a cada una el gasto aproximado mensual [en EUROS] enasistencia al CINE y la edad. Los resultados son,
70 75 60 10 90 30 40 50 50 40 65 70 60 50 60A A B B B B B A B B B A B B A
Vamos a estimar la media de gasto en CINE para los menores de 21años. En principio, como Nd = 3000 es conocido, aplicaremos elprimer estimador,
yUd =N
nNd
∑i∈md
yi =10000
15× 3000(70 + 75 + 50 + 70 + 60) = 72′222
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 19/22
Estimación en Subpoblaciones. Estimación de la Media
Para estimar la varianza, calcularemos la cuasivarianza de losvalores,
70 75 0 0 0 0 0 50 0 0 0 70 0 0 60A A B B B B B A B B B A B B A
tendremos pues, descartando los CEROS,
S2yd m =
1514
[702 + 752 + 502 + 702 + 602
15−(
70 + 75 + 50 + 70 + 6015
)2]
= 1034, 524
por lo que,
V [ydm] =N2
N2d
1− fn
S2yd m =
100002
300021− 15/10000
151034,524 = 765′164
siendo pues el error de muestreo, al 95 %,
EM = 1′96×√
765′164 = 54′217
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 20/22
Estimación en Subpoblaciones. Estimación de la Media
Si Nd no fuera conocido tendríamos que recurrir al estimadoralternativo,
yUd,alt =1nd
∑i∈md
yi =15
(70 + 75 + 50 + 70 + 60) = 65′000
No disponemos de las expresiones para estimar la varianza nicalcular el error de muestreo este estimador es no lineal.
El error de muestreo obtenido para el primer estimador es bastanteelevado debido l pequeño tamaño de muestra obtenido en lasubpoblación, nd = 5. Este es un problema de la estimación ensubpoblaciones; en casos extremos puede ocurrir nd = 0 en cuyocaso la estimación sería inviable.Existe toda una rama del Muestreo en Poblaciones Finitas, dedicadaespecíficamente al estudio de estas cuestiones, que genéricamentese denomina Estimación en Áreas Pequeñas o DominiosReducidos.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 21/22
Bibliografía
Fernández García, F.R. y Mayor Gallego, J.A. (1995). Muestreo enpoblaciones finitas: Curso básico. E.U.B. Ediciones Universitarias deBarcelona.
Lohr, S.L. (2010). Sampling: Design and Analysis. 2nd Edition.Brooks/Cole. International Edition.
Särndal, C., Swensson, B. and Wretman, J. (1992). Model AssistedSurvey Sampling. Springer-Verlag. New York, Inc.
INSTITUTO DE ESTADÍSTICA DE ANDALUCÍA. Curso de Muestreo. Septiembre 2011Muestreo Aleatorio Simple CB � 22/22