muestreo

20

Click here to load reader

Upload: alvaro-lara

Post on 01-Jul-2015

373 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: MUESTREO

MUESTREO

1.- INTRODUCCIÓN

El muestreo estadístico es la herramienta que la Matemática utiliza para el estudio de las características de una población a través de una determinada parte de la misma.

La muestra de estudio debe ser lo más pequeña posible ya que del hecho de que una muestra sea más grande, no se desprende necesariamente que la información sea más fiable.

Además, la muestra elegida debe serlo por un proceso aleatorio para que sea lo más representativa posible.

Términos usuales en un estudio estadístico

Población: conjunto de todos los individuos que son objeto del estudio.

Muestra: parte de la población en la que miden las características estudiadas.

Muestreo: proceso seguido para la extracción de una muestra.

Encuesta: proceso de obtener información de la muestra.

Métodos de muestreo

1.- Muestreo no probabilístico: no se usa el azar, sino el criterio del investigador.

2.- Muestreo probabilístico o aleatorio:

2.1.- Muestreo aleatorio simple: se asigna un número a cada uno de los individuos de la población, y seguidamente se van eligiendo al azar los componentes de la muestra. La elección de un individuo no debe afectar a la del siguiente, por tanto debe reemplazarse el nº, una vez extraído.

2.2.- Muestreo sistemático: se ordenan previamente los individuos de la población, después se elige uno al azar y a continuación, a intervalos constantes, se eligen todos los demás hasta completar la muestra.

2.3.- Muestreo estratificado: se divide la población total en clases homogéneas (estratos). La muestra se escoge aleatoriamente en número proporcional al de los componentes de cada estrato.

Ejemplo: en un I.E.S. hay 120 alumnos en 2º de Bachillerato provenientes de 4 zonas o pueblos.

Zona A: 20 alumnos

Zona B: 32 alumnos

Page 2: MUESTREO

Zona C: 60 alumnos

Zona D: 8 alumnos

Hay que elegir una muestra de 20 alumnos para hacerles una serie de preguntas.

Utiliza los tres métodos de muestreo aleatorio para escoger la muestra.

2.- DISTRIBUCIONES DE MUESTREO

Es evidente que los resultados obtenidos del estudio de una muestra no son del todo fiables, pero sí en buena medida. Los parámetros que obtienen de una muestra (estimadores estadísticos) nos permitirán arriesgarnos a predecir una serie de resultados para toda la población. De estas predicciones y del riesgo que conllevan se ocupa la Inferencia Estadística.

Parámetros muestrales

Elegida una muestra, hallaremos en ella la media y la desviación típica S. Lo que tendremos que estudiar será la representatividad de estos parámetros muestrales con los parámetros reales de la población, es decir: la media poblacional , y la desviación típica de la población .

Si en una población de N individuos tomamos todas las muestras posibles de tamaño n, se puede demostrar que la media de las medias muestrales coincide con la media

poblacional, esto es

Sin embargo, no se cumple lo mismo para la desviación típica de las medias muestrales,

sino que se verifica que , siendo n el tamaño de las muestras.

Teorema central del límite

La distribución de las medias muestrales de tamaño n, extraídas de una

población normal

, se ajustan a una normal .

Si las medias muestrales provienen de una población no normal, pero el tamaño de las mismas es n"30, la distribución de las medias muestrales también se ajusta

a una .

Page 3: MUESTREO

Ejemplo: en el último año, el peso de los recién nacidos en una maternidad se ha distribuido según una ley normal de parámetros =3.100 gramos y = 150 gramos.

¿Cuál es la probabilidad de que un recién nacido pese más de 3.130 gramos?

¿Qué distribución seguirán las muestras de tamaño 100 de recién nacidos?

¿Cuál será la probabilidad de que la media de una muestra de tamaño 100 sea superior a 3.130 gramos?

Ejercicio: en una oposición en la que participan miles de candidatos se hizo un examen tipo test. Las calificaciones se distribuyeron normalmente con media =72 puntos y desviación típica =10.

¿Cuál es la probabilidad de que un opositor elegido al azar obtenga más de 76 puntos?

¿Cuál es la probabilidad de que una muestra de 64 opositores obtenga un promedio superior a 76 puntos?

Ejercicios:

Supongamos que la estatura media de las alumnas de bachillerato es 165 cm, con desviación típica 8 cm.

Halla los parámetros de las medias muestrales de tamaños n=36 y n= 64

¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una media superior a 167 cm.? ¿Y de que una muestra de 64 alumnas supere esa misma medida?

¿Tiene algo de extraño que una muestra de tamaño 36 tenga una media de 170 cm.?

3.- INTERVALOS DE PROBABILIDAD

A los intervalos simétricos respecto de la media o proporción poblacionales se les denomina intervalos de probabilidad.

Intervalos de probabilidad para la media muestral

Sabemos que la distribución de medias muestrales es normal de media y desviación típica, donde y son los parámetros de la población.

Nos haremos la siguiente pregunta:

¿Cuál es la probabilidad de que la media muestral se encuentre entre dos valores simétricos respecto de la media poblacional?, es decir, queremos evaluar las siguientes probabilidades:

Page 4: MUESTREO

Se llama intervalo de probabilidad para la media a uno de la forma

tal que se cumple que la probabilidad de que se encuentre en él es igual a .

Al parámetro se le llama nivel de confianza, y la diferencia (1-) es el riesgo asumido.

Si tipificamos la variable

, llegaremos a una expresión de la forma: , donde Z es una variable que se ajusta a una N(0, 1). De este modo podremos evaluar el valor de k consultando la tabla de valores de dicha distribución.

Ejemplo: vamos a hallar el intervalo de probabilidad para el peso medio de una muestra de 100 recién nacidos, con un nivel de confianza de 0,9, sabiendo que =3.100 gramos y =150 gramos.

Solución: como se ha dicho anteriormente, tenemos que evaluar la siguiente expresión

si consultamos en la tabla de la N(0, 1), comprobaremos que , por lo tanto, el intervalo de probabilidad será el siguiente:

que simplificado, es el intervalo (3.075,325 ; 3.124,675)

Ejercicios:

Hallar el intervalo de probabilidad con una confianza de 0,95 para la misma distribución.

Para las muestra de tamaño 36 extraídas de la distribución de calificaciones en una población de 120 alumnos, con media 5´5 y desviación típica 2´04, halla los intervalos de probabilidad para un nivel de confianza de:

75´4%

0´87

Ejercicios:

Page 5: MUESTREO

Si la estatura de las alumnas de segundo de Bachillerato se ajusta a la normal N(165, 8), en cm, halla, para las muestras de tamaño 64:

El porcentaje de ellas que dará una media entre 163 y 167 cm.

El intervalo de probabilidad con un nivel de confianza del 80%.

El nivel medio de colesterol (en mg/dl), en individuos sanos, depende de la edad y el sexo; para los hombres con menos de 21 años su distribución es normal con media =160

y desviación típica =10. Un nivel fuera de resulta extraño: indica que puede haber alguna anomalía. Lo mismo cabe decir de las

muestras: un nivel muestral fuera de resulta extraño. ¿Cuál es el intervalo de probabilidad admisible (no extraño) para las muestra de tamaño

1

9

100

¿Qué porcentaje de individuos o muestras se encuentran en los intervalos hallados para los diferentes tamaños de la muestra?

TEORIA DEL MUESTREO

Uno de los propósitos de la estadística inferencial es estimar las características poblacionales desconocidas, examinando la información obtenida de una muestra, de una población. El punto de interés es la muestra, la cual debe ser representativa de la población objeto de estudio.

Se seguirán ciertos procedimientos de selección para asegurar de que las muestras reflejen observaciones a la población de la que proceden, ya que solo se pueden hacer observaciones probabilísticas sobre una población cuando se usan muestras representativas de la misma.

Page 6: MUESTREO

Una población está formada por la totalidad de las observaciones en las cuales se tiene cierto observa.

Una muestra es un subconjunto de observaciones seleccionadas de una población.

Muestras Aleatorias

Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras por muchas razones; una enumeración completa de la población, llamada censo, puede ser económicamente imposible, o no se cuenta con el tiempo suficiente.

A continuación se verá algunos usos del muestreo en diversos campos:

1. Política. Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinión pública y el apoyo en las elecciones.

2. Educación. Las muestras de las calificaciones de los exámenes de estudiantes se usan para determinar la eficiencia de una técnica o programa de enseñanza.

3. Industria. Muestras de los productos de una línea de ensamble sirve para controlar la calidad.

4. Medicina. Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la eficacia de una técnica o de un fármaco nuevo.

5. Agricultura. Las muestras del maíz cosechado en una parcela proyectan en la producción los efectos de un fertilizante nuevo.

6. Gobierno. Una muestra de opiniones de los votantes se usaría para determinar los criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional.

Errores en el Muestreo

Cuando se utilizan valores muestrales, o estadísticos para estimar valores poblacionales, o parámetros, pueden ocurrir dos tipos generales de errores: el error muestral y el error no muestral.

El error muestral se refiere a la variación natural existente entre muestras tomadas de la misma población.

Cuando una muestra no es una copia exacta de la población; aún si se ha tenido gran cuidado para asegurar que dos muestras del mismo tamaño sean representativas de una cierta población, no esperaríamos que las dos sean idénticas en todos sus detalles. El error muestral es un concepto importante que ayudará a entender mejor la naturaleza de la estadística inferencial.

Los errores que surgen al tomar las muestras no pueden clasificarse como errores muestrales y se denominan errores no muestrales.

El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se refiere a una tendencia sistemática inherente a un método de muestreo que

Page 7: MUESTREO

da estimaciones de un parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real.

El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización.

La aleatorización se refiere a cualquier proceso de selección de una muestra de la población en el que la selección es imparcial o no está sesgada; una muestra elegida con procedimientos aleatorios se llama muestra aleatoria.

Los tipos más comunes de técnicas de muestreo aleatorios son el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el muestreo sistemático.

Si una muestra aleatoria se elige de tal forma que todos los elementos de la población tengan la misma probabilidad de ser seleccionados, la llamamos muestra aleatoria simple.

Ejemplo 1.1

Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de estadística de 20 alumnos. 20C5 da el número total de formas de elegir una muestra no ordenada y este resultado es 15,504 maneras diferentes de tomar la muestra. Si listamos las 15,504 en trozos separados de papel, una tarea tremenda, luego los colocamos en un recipiente y después los revolvemos, entonces podremos tener una muestra aleatoria de 5 si seleccionamos un trozo de papel con cinco nombres. Un procedimiento más simple para elegir una muestra aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un recipiente, revolverlos y después extraer cinco papeles al mismo tiempo.

Otro método parea obtener una muestra aleatoria de 5 estudiantes en un grupo de 20 utiliza una tabla de números aleatorios. Se puede construir la tabla usando una calculadora o una computadora. También se puede prescindir de estas y hacer la tabla escribiendo diez dígitos del 0 al 9 en tiras de papel, las colocamos en un recipiente y los revolvemos, de ahí, la primera tira seleccionada determina el primer número de la tabla, se regresa al recipiente y después de revolver otra vez se selecciona la seguida tira que determina el segundo número de la tabla; el proceso continúa hasta obtener una tabla de dígitos aleatorios con tantos números como se desee.

Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco práctico, imposible o no deseado; aunque sería deseable usar muestras aleatorias simples para las encuestas nacionales de opinión sobre productos o sobre elecciones presidenciales, sería muy costoso o tardado.

El muestreo estratificado requiere de separar a la población según grupos que no se traslapen llamados estratos, y de elegir después una muestra aleatoria simple en cada estrato. La información de las muestras aleatorias simples de cada estrato constituiría entonces una muestra global.

Page 8: MUESTREO

Ejemplo 1.2

Suponga que nos interesa obtener una muestra de las opiniones de los profesores de una gran universidad. Puede ser difícil obtener una muestra con todos los profesores, así que supongamos que elegimos una muestra aleatoria de cada colegio, o departamento académico; los estratos vendrían a ser los colegios, o departamentos académicos.

El muestreo por conglomerados requiere de elegir una muestra aleatoria simple de unidades heterogéneas entre sí de la población llamadas conglomerados. Cada elemento de la población pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogéneos o disímiles.

Ejemplo 1.3

Suponga que una compañía de servicio de televisión por cable está pensando en abrir una sucursal en una ciudad grande; la compañía planea realizar un estudio para determinar el porcentaje de familias que utilizarían sus servicios, como no es práctico preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la cual forma un conglomerado.

En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea posible, a toda la población; entonces se usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados.

El muestreo sistemático es una técnica de muestreo que requiere de una selección aleatoria inicial de observaciones seguida de otra selección de observaciones obtenida usando algún sistema o regla.

Ejemplo 1.4

Para obtener una muestra de suscriptores telefónicos en una ciudad grande, puede obtenerse primero una muestra aleatoria de los números de las páginas del directorio telefónico; al elegir el vigésimo nombre de cada página obtendríamos un muestreo sistemático, también podemos escoger un nombre de la primera página del directorio y después seleccionar cada nombre del lugar número cien a partir del ya seleccionado. Por ejemplo, podríamos seleccionar un número al azar entre los primeros 100; supongamos que el elegido es el 40, entonces seleccionamos los nombres del directorio que corresponden a los números 40, 140, 240, 340 y así sucesivamente.

Error Muestral

Cualquier medida conlleva algún error. Si se usa la media para medir, estimar, la media poblacional , entonces la media muestral, como medida, conlleva algún error. Por ejemplo, supongamos que se ha obtenido una muestra aleatoria de tamaño 25 de una población con media = 15: si la media de la

Page 9: MUESTREO

muestra es x=12, entonces a la diferencia observada x- = -3 se le denomina el error muestral. Una media muestral x puede pensarse como la suma de dos cantidades, la media poblacional y el error muestral; si e denota el error muestral, entonces:

Ejemplo 1.5

Se toman muestras de tamaño 2 de una población consistente en tres valores, 2, 4 y 6, para simular una población "grande" de manera que el muestreo pueda realizarse un gran número de veces, supondremos que éste se hace con reemplazo, es decir, el número elegido se reemplaza antes de seleccionar el siguiente, además, se seleccionan muestras ordenadas. En una muestra ordenada, el orden en que se seleccionan las observaciones es importante, por tanto, la muestra ordenada (2,4) es distinta de la muestra ordenada (4,2). En la muestra (4,2), se seleccionó primero 4 y después 2. La siguiente tabla contiene una lista de todas las muestras ordenadas de tamaño 2 que es posible seleccionar con reemplazo y también contiene las medioas muestrales y los correspondientes errores muestrales. La media poblacional es igual a

= (2+4+6)/3 = 4. Ver la tabla en la siguiente página.

Notese las interesantes relaciones siguientes contenidas en la tabla:

La media de la colección de medias muestrales es 4, la media de la población de la que se extraen las muestras. Si x denota la media de todas las medias muestrales entonces tenemos:

x = (3+4+3+4+5+5+2+4+6)/9 = 4

La suma de los errores muestrales es cero.

e1 + e2 + e3 + . . . + e9 = (-2) + (-1) + 0 + (-1) + 0 + 1 + 0 + 1 + 2 = 0

Muestras ordenadas x Error muestral e = x -

(2,2) 2 2 – 4 = -2

(2,4) 3 3 – 4 = -1

(2,6) 4 4 – 4 = 0

(4,2) 3 3 – 4 = -1

(4,4) 4 4 – 4 = 0

(4,6) 5 5 – 4 = 1

(6,2) 4 4 – 4 = 0

Page 10: MUESTREO

(6,4) 5 5 – 4 = 1

(6,6) 6 6 – 4 = 2

En consecuencia, si x se usa para medir, estimar, la media poblacional , el promedio de todos los errores muestrales es cero.

Distribuciones Muestrales

Las muestras aleatorias obtenidas de una población son, por naturaleza propia, impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y tomadas de la misma población tenga la misma media muestral o que sean completamente parecidas; puede esperarse que cualquier estadístico, como la media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos los valores posibles de un estadístico. Tales distribuciones serán muy importantes en el estudio de la estadística inferencial, porque las inferencias sobre las poblaciones se harán usando estadísticas muestrales. Como el análisis de las distribuciones asociadas con los estadísticos muestrales, podremos juzgar la confiabilidad de un estadístico muestral como un instrumento para hacer inferencias sobre un parámetro poblacional desconocido.

Como los valores de un estadístico, tal como x, varían de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribución de frecuencias.

La distribución de frecuencia de un estadístico muestral se denomina distribución muestral. En general, la distribución muestral de un estadístico es la de todos sus valores posibles calculados a partir de muestras del mismo tamaño.

Suponga que se han seleccionado muestras aleatorias de tamaño 20 en una población grande. Se calcula la madia muestral x para cada muestra; la colección de todas estas medias muestrales recibe el nombre de distribución muestral de medias, lo que se puede ilustrar en la siguiente figura:

Page 11: MUESTREO

Suponga que se eligen muestras aleatorias de tamaño 20, de una población grande, y se calcula la deviación estándar de cada una. La colección de todas estas desviaciones estándar muestrales se llama distribución muestral de la desviación estándar, y lo podemos ver en la siguiente figura:

Ejemplo 1.6

Se eligen muestras ordenadas de tamaño 2, con reemplazo, de la población de valores 0, 2, 4 y 6. Encuentre:

, la media poblaciona.

, la desviación estándar poblacional.

x, la media de la distribución muestral de medias.

x, la desviación estándar de la distribución muestral de medias.

Además, grafique las frecuencias para la población y para la distribución muestral de medias.

Page 12: MUESTREO

Solución:

a. La media poblacional es:

b. La desviación estándar de la población es:

c. A continuación se listan los elementos de la distribución muestral de la media y la correspondiente distribución de frecuencias.

La media de la distribución muestral de medias es:

d) La desviación estándar de la distribución muestral de medias es:

Page 13: MUESTREO

De aquí que podamos deducir que:

Como para cualquier variable aleatoria, la dsitribución muestral de medias tiene una media o valor esperado, una varianza y una desviación estándar, se puede demostrar que la distribución muestral de medias tiene una media igual a la media poblacional. Esto es:

Distribuciones muestrales

Después de haber realizado el ejercicio anterior se puede ver que una distribución muestral se genera extrayendo todas las posibles muestras del mismo tamaño de la población y calculándoles a éstas su estadístico.

Si la población de la que se extraen las muestras es normal, la distribución muestral de medias será normal sin importar el tamaño de la muestra.

Si la población de donde se extraen las muestras no es normal, entonces el tamaño de la muestra debe ser mayor o igual a 30, para que la distribución muestral tenga una forma acampanada. Mientras mayor sea el tamaño de la muestra, más cerca estará la distribución muestral de ser normal.

Para muchos propósitos, la aproximación normal se considera buena si se cumple n=30. La forma de la disitribución muestral de medias sea aproximadamente normal, aún en casos donde la población original es bimodal, es realmente notable.

Page 14: MUESTREO

ESTIMACIÓN ESTADÍSTICA

1.- ESTIMACIÓN A PARTIR DE UNA MUESTRA

Habitualmente, lo normal es que se desconozcan la media y la desviación típica de la población y que, mediante técnicas de muestreo, se busque estimarlas con la fiabilidad necesaria. Así, si para 400 individuos de una región, elegidos al azar, se obtiene una renta per cápita de 1.215.000 ptas, con una desviación típica de 650.000 ptas, podemos hacernos dos preguntas:

¿La renta per cápita de los habitantes de toda la región será de 1.215.000 ptas?

¿Qué seguridad se tiene de tal afirmación?

Cuando se contestan estas preguntas se está haciendo una estimación a partir de la muestra.

2.- INTERVALOS DE CONFIANZA

En este apartado vamos a dar respuesta a las dos preguntas anteriores.

Intervalo de confianza para la media muestral

Al intervalo se le llama intervalo de confianza para la media poblacional, siendo los elementos que aparecen en dicho intervalo, los ya estudiados anteriormente.

La probabilidad de que la media de la población se encuentre en este intervalo es , que es el nivel de confianza. Si la confianza es , suele decirse que el nivel de significación es 1- , o nivel de riesgo.

En el caso en que la desviación típica de la población sea desconocida (), no tendríamos más remedio que sustituirla por la desviación muestral s; así el intervalo de confianza para la media poblacional , para , sería

Page 15: MUESTREO

con una probabilidad de , siendo y s la media y la desviación típica de la muestra, respectivamente.

A se le llama error típico de la media.

Ejemplo: para una muestra de 400 personas elegidas al azar se obtiene una renta per cápita de 1.215.000 ptas. Si la desviación típica de la renta per cápita para la población es de 700.000 ptas, calcula el intervalo de confianza para la media poblacional con un nivel de significación de:

0,1

0,05

Ejercicios:

Para una muestra de 30 alumnos se obtuvo una nota media en el último examen de

matemáticas de , con una desviación típica s= 1'92. Determina el intervalo de confianza al 80%. Interpreta el resultado.

El peso medio de una muestra de 100 recién nacidos es 3.200 gramos. Sabiendo que la desviación típica de los pesos de la población de recién nacidos es de 150 gramos, halla el intervalo de confianza para la media poblacional para una significación de 0'05

3.- ERROR ADMITIDO Y TAMAÑO DE LA MUESTRA

Error admitido

Cuando decimos que la media poblacional con un nivel de confianza

, estamos admitiendo un error máximo de . A este número se le llama error máximo admisible.

Tamaño muestral

El tamaño muestral mínimo de una encuesta depende de la confianza que se desee para los resultados y del error máximo que se esté dispuesto a asumir.

Page 16: MUESTREO

El tamaño mínimo n de una muestra viene dado por:

Para la media:

Para tamaños de muestra mayores que n el error será menor que E.

Ejercicios:

Se desea realizar una investigación para estimar el peso medio de los hijos recién nacidos de madres fumadoras. Se admite un error máximo de 50 gramos, con una confianza del 95%. Si por estudios anteriores se sabe que la desviación típica del peso medio de tales recién nacidos es de 400 gramos, ¿qué tamaño mínimo de muestra se necesita en la investigación?

Para 96 familias españolas, elegidas al azar, se ha determinado que la televisión permanece encendida en la casa una media de 217 minutos diarios; la desviación típica de la muestra fue de 40 minutos.

Para una fiabilidad del 95%, ¿qué error se asume cuando se da por bueno ese dato para el total de las familias españolas?

¿Qué tamaño muestral sería necesario para reducir ese error a la mitad?