distribuciones de muestreo
TRANSCRIPT
Introducción• Cuando se necesitan estudiar poblaciones muy grandes
es casi imposible analizar todos los elementos, en estos casos se extrae un subconjunto "representativo"
• Analizar toda la población tiene un alto costo economico o computacional
• Del subconjunto– Estudiarlo y poder caracterizar el total de la población– Inferir algo, respecto a una población
4/27/2016 Distribuciones de muestreo 2
Muestreo aleatorio• Población: total de observaciones que se quieren
estudiar– Finitas
• Hay 600 estudiantes que se clasifican de acuerdo a su tipo de sangre
– Infinitas• Las observaciones que se obtienen al medir diariamente la presión
atmosférica desde el pasado hasta el futuro• En un trabajo de investigación de mercados en México se analiza el
comportamiento de 119,530,753 habitantes
4/27/2016 Distribuciones de muestreo 3
Muestreo aleatorio,~• Muestra: subconjunto de la población, deben ser
representativas de la población– Para eliminar cualquier posibilidad de sesgo(elegir a los mejores
o peores) en el procedimiento de muestreo es deseable elegir una muestra aleatoria• Observaciones independientes y al azar
4/27/2016 Distribuciones de muestreo 4
Muestreo aleatorio,~• Inferencia de datos• Tipos de muestreo
– Probabilístico• Aleatorio Simple
– El muestreo es totalmente aleatorio• Sistemático
– La población está ordenada• Estratificado
– Divide en estratos(sexo,edad...)• ...
– No probabilístico• Bola de nieve
4/27/2016 Distribuciones de muestreo 5
Muestreo aleatorio,~• Sin reemplazo
– probabilidad de selección: 1/(N-t)
– No existen elementos repetidos
– Confiable
• Con reemplazo– probabilidad de selección:
1/N– Pueden existir elementos
repetidos– No muy confiable
4/27/2016 Distribuciones de muestreo 6
Muestreo aleatorio,~Sean X1, X2,..., Xn variables aleatorias independientes n, cada una con la misma distribución de probabilidad f (x).
Definimos X1, X2,..., Xn como una muestra aleatoria de tamaño n de la población f(x) y escribimos su distribución de probabilidad conjunta como:
f(x1 , x2 ,..., xn) = f(x1 ) f(x2 )··· f(xn)
• Todos los individuos deben tener idéntica probabilidad (no nula) de ser seleccionados
4/27/2016 Distribuciones de muestreo 7
Muestreo aleatorio,~Consideraciones• "8 de cada 10 gatos prefieren wiskas"
¿El gato se ubica a la misma distancia de ambos bols?¿Los gatos tienen tendencia a preferir comida a la que están acostumbrados?¿De ser así, los gatos del experimento comían whiskas? ¿Se usa el mismo sabor de comida en ambos bols? ¿Se usa la misma cant idad?¿Se pone whiskas aleatoriamente a la derecha y a la izquierda? ¿El gato entró al área de prueba sin pasar cerca de uno de los bols? ¿La raza del gato afecta la preferencia?
4/27/2016 Distribuciones de muestreo 8
Muestreo aleatorio, tamaño de la muestra
• Cuanta más precisión se requiera,mayor debe ser la muestra(?)
• Entre mas pequeña sea la población, mayor debe ser la muestra
• A medida que se estudia universos mayores, el tamaño de muestra que se necesita cada vez representa un porcentaje menor de dicho universo
4/27/2016 Distribuciones de muestreo 9
Muestreo aleatorio, tamaño de la muestra
Consideraciones1. Porcentaje de confianza
Porcentaje de seguridad que para generalizar los resultados obtenidos. Comúnmente en las investigaciones sociales se busca un 95%
4/27/2016 Distribuciones de muestreo 10
Muestreo aleatorio, tamaño de la muestra
Consideraciones1. Porcentaje de confianza2. Porcentaje de error
Equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o rechazar la hipótesis verdadera por considerarla falsa
Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son complementarios la confianza y el error.
4/27/2016 Distribuciones de muestreo 11
Muestreo aleatorio, tamaño de la muestra
Consideraciones1. Porcentaje de confianza2. Porcentaje de error3. Nivel de variabilidad que se calcula para comprobar la
hipótesisEs la probabilidad con el que se aceptó y se rechazó la hipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo a la investigación actual
El porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y se denota por p, y el porcentaje con el que se rechazó se la hipótesis es la variabil idad negativa , denotada por q, son complementarios4/27/2016 Distribuciones de muestreo 12
Muestreo aleatorio, tamaño de la muestra
Se aplica en el caso de que no se conozca con precisión el tamaño de la población
• n : tamaño de la muestra• Z: nivel de confianza• p: variabilidad positiva• q: variabilidad negativa• E: precisión o error
4/27/2016 Distribuciones de muestreo 13
Muestreo aleatorio, tamaño de la muestra
Se aplica cuando se conoce el tamaño de la población
• n: tamaño de la muestra• Z: nivel de confianza, los más usuales son: 90%; 95% y 99%• p: variabilidad positiva• q: variabilidad negativa• N: tamaño de la población• E: es la precisión o el error
4/27/2016 Distribuciones de muestreo 14
Muestreo aleatorio, tamaño de la muestra: ejemplo
En una escuela, se desea realizar una investigación sobre los alumnos inscritos en primer y segundo años, para lo cual se aplicará un cuestionario de manera aleatoria a una muestraSuponiendo que no se conoce el tamaño exacto de la población, pero con la seguridad de que ésta se encuentra cerca a los diez mil estudiantes, se aplicará la primera fórmulaSe considerará una confianza del 95%, un porcentaje de error del 5% y la máxima variabilidad por no existir antecedentes en la institución sobre la investigación y porque no se puede aplicar una prueba previa
4/27/2016 Distribuciones de muestreo 15
Muestreo aleatorio, tamaño de la muestra: ejemplo
Primero obtener el valor de Z: confianza del 95%P(-Z<z<Z)=0.95
P(-1.96<z<1.96)= 0.9750-0.0250= 0.95Z=1.96
4/27/2016 Distribuciones de muestreo 16
1-a a/2 Za/2
0.90 0.05 1.645
0.95 0.025 1.96
0.99 0.005 2.575
Muestreo aleatorio, tamaño de la muestra: ejemplo,~
Suponiendo que ahora que sí se conoce el tamaño de la población estudiantil y es de 9,408, entonces se aplicará la segunda fórmula. Utilizando los mismos parámetros la sustitución queda como:
4/27/2016 Distribuciones de muestreo 17
Estadístico muestral• Medida cuantitativa de la muestra• Estiman o infieren caracteristicas de una población o
modelo estadístico
– Media muestral– Varianza – ...
4/27/2016 Distribuciones de muestreo 18
Algunos estadísticos importantes
• Si deseamos concluir algo respecto a la proporción de consumidores de café en Estados Unidos que prefieren cierta marca de café– Sería imposible interrogar a cada consumidor de café para
calcular el valor del parámetro p que representa la proporción de la población
• Se selecciona una muestra aleatoria grande y se calcula la proporción ῤ de personas en esta muestra que prefieren la marca de café
4/27/2016 Distribuciones de muestreo 19
Algunos estadísticos importantes,~
• Ahora, ῤ es una función de los valores observados en la muestra aleatoria– Normalmente ῤ variará un poco de una a otra muestra
• Cualquier función de las variables aleatorias que forman una muestra aleatoria se llama estadístico
4/27/2016 Distribuciones de muestreo 20
Algunos estadísticos importantes,~
• Medidas de localización de una muestra: – Media muestral: promedio de los datos
– Mediana muestral: dato central de la muestra
– Moda muestral• Es el valor que ocurre con mayor frecuencia en la muestra• Amodales, modales, bimodales, multimodales
4/27/2016 Distribuciones de muestreo 21
Algunos estadísticos importantes,~
• Suponga que un conjunto de datos consta de las siguientes observaciones:
• Moda: 0.43
• Una medida de localización en una muestra no da por sí misma una indicación clara de la naturaleza de ésta, también se deben considerar medidas de variabilidad en la muestra
4/27/2016 Distribuciones de muestreo 22
0.32 0.53 0.28 0.37 0.47 0.43 0.36 0.42 0.38 0.43
Algunos estadísticos importantes,~
• Medidas de variabilidad de una muestra– Varianza muestral
– Como el último valor de Xˉ es determinado por los primeros n-1 valores, se dice que éstas son n - 1 “piezas de información” que produce s2. • Hay n-1 grados de libertad en vez de n grados de libertad para calcular la
varianza de una muestra
4/27/2016 Distribuciones de muestreo 23
Algunos estadísticos importantes,~
• Medidas de variabilidad de una muestra– Desviación estandar
– Rango de la muestra
• La variabilidad en la muestra refleja cómo se dispersan las observaciones a partir de la media
4/27/2016 Distribuciones de muestreo 25
Algunos estadísticos importantes,~
• Medidas de variabilidad de una muestraConsidere las siguientes mediciones, en litros, para dos muestras de jugo de naranja envasado por las empresas A y B:
– Muestra AMedia= (1/5)(0.97+1+0.94+1.03+1.06) = 1Mediana= x(5+1)/2 = 0.94– Muestra BMedia= (1/5)(1.06+1.01+0.88+0.91+1.14) = 1Mediana= x(5+1)/2 = 0.88
4/27/2016 Distribuciones de muestreo 26
Muestra A 0.97 1.00 0.94 1.03 1.06Muestra B 1.06 1.01 0.88 0.91 1.14
Algunos estadísticos importantes, ejemplo 1
• Una comparación de los precios de café en 4 tiendas de abarrotes de San Diego, seleccionadas al azar, mostró aumentos en comparación con el mes anterior de 12, 15, 17 y 20 centavos por bolsa de una libra. Calcule la varianza de esta muestra aleatoria de aumentos de precio– Media
– Varianza
4/27/2016 Distribuciones de muestreo 27
Distribuciones muestrales• El campo de la inferencia estadística trata básicamente
con generalizaciones y predicciones
– Ejemplo: con base en las opiniones de varias personas entrevistadas en la calle, los estadounidenses podrían afirmar que en una próxima elección 60% de los votantes de la ciudad de Detroit favorecerían a cierto candidato. Con una muestra aleatoria de opiniones de una población finita muy grande
4/27/2016 Distribuciones de muestreo 28
Distribuciones muestrales,~• El campo de la inferencia estadística trata básicamente
con generalizaciones y predicciones
– Ejemplo: una máquina despachadora de bebida que está diseñada para servir en promedio 240 mililitros. Un ejecutivo de la empresa calcula la media de 40 bebidas servidas y obtiene Ẍ=236 mililitros y, con base en este valor, decide que la máquina está sirviendo bebidas con un contenido promedio de μ = 240 mililitros.
4/27/2016 Distribuciones de muestreo 29
Distribuciones muestrales,~• Inferencias sobre la población a partir de información de
la muestra– En los ejemplos anteriores se calculó un estadístico de una
muestra que se selecciona de la población, y con base en tales estadísticos se hicieron varias afirmaciones respecto a los valores de los parámetros de la población, que pueden ser o no ciertas
4/27/2016 Distribuciones de muestreo 30
Distribuciones muestrales,~• Inferencias sobre la población a partir de información de
la muestra
– La máquina despachadora está sirviendo bebidas con un contenido promedio de 240 ml, aunque la media de la muestra fue de 236 ml, segun la teoría del muestreo
Si μ= 240 ml, tal valor de la muestra podría ocurrir fácilmente. Si realiza pruebas similares, cada hora por ejemplo, esperaría que los valores del estadístico Ẍ fluctuaran por arriba y por abajo de μ = 240 ml
4/27/2016 Distribuciones de muestreo 31
Distribuciones muestrales,~• La distribución muestral de la media(Ẍ) con tamaño
muestral n es la distribución que resulta cuando un experimento se lleva a cabo una y otra vez y resultan los diversos valores de Ẍ
• Esta distr ibución describe la var iabi l idad de los promedios muestrales alrededor de la media de la población μ
4/27/2016 Distribuciones de muestreo 33
Distribuciones muestrales de medias y el teorema del límite central
• Suponga que de una población normal con media μ y varianza σ2 se toma una muestra aleatoria de n observaciones. Cada observación Xi, i = 1, 2,..., n, de la muestra aleatoria tendrá entonces la misma distribución normal que la población de donde se tomó
Tiene una distribución normal con media y varianza
4/27/2016 Distribuciones de muestreo 34
Distribuciones muestrales de medias y el teorema del límite central
• Si tomamos muestras de una población con distribución desconocida, ya sea finita o infinita, la distribución muestral de Ẍ aún será aproximadamente normal con media μ y varianza σ2/n
4/27/2016 Distribuciones de muestreo 35
Teorema del límite central• Si Ẍ es la media de una muestra aleatoria de tamaño n,
tomada de una población con media μ y varianza finita σ2, entonces la forma límite de la distribución de
A medida que n→∞, es la distribución normal estándar n(z; 0, 1), sin importar cual sea el modelo de probabilidad del cual se obtuvo la muestra
4/27/2016 Distribuciones de muestreo 37
Teorema del límite central,~• "Sin importar cual sea el modelo de probabilidad del cual
se obtuvo la muestra"– Distribución normal(Seguirá normal)– Distribución binomial– Distribución exponencial– ...
• TCL para sucesiones i.i.d(TCL de muestreo aleatorio)• TCL de Lindeberg-Feller• TCL de Liapounov• TCL para sucesiones α-mixing
4/27/2016 Distribuciones de muestreo 38
Teorema del límite central,~• Condiciones para asegurar la convergencia
– Que sean variables independientes– Que este idénticamente distribuidas– Media y varianza finitos no nulos
• La aproximación entre dos distribuciones es mayor en el centro de las mismas, que en los extremos– "teorema del límite central" ("central" califica al límite, más que al
teorema)
4/27/2016 Distribuciones de muestreo 39
Teorema del límite central,~• Distribución de la población:
exponencial– media=.100– desviación estandar=0.03– tamaño de la muestra= 30
• Distribución de la población: binomial– media=.100– desviación estandar=0.03– tamaño de la muestra= 30– p=0.5 q=0.5
4/27/2016 Distribuciones de muestreo 40
Teorema del límite central,~• El tamaño de la muestra n = 30 es un lineamiento para
el teorema del límite central. Sin embargo, la suposición de normalidad en la distribución de Ẍ se vuelve más precisa a medida que n se hace más grande
4/27/2016 Distribuciones de muestreo 41
Teorema del límite central,ejemplo 1
• Una empresa de material eléctrico fabrica bombillas que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas
• Calcule la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio de menos de 775 horas
4/27/2016 Distribuciones de muestreo 42
Teorema del límite central,ejemplo 1,~
– media μ μ=800– varianza σ2/n σ= 40/√16 =10– Media muestral Ẍ Ẍ=775
P (Ẍ< 775) = P (Z <− 2.5) = 0.0062
4/27/2016 Distribuciones de muestreo 43
Referencias• Walpole,Myers.Probabilidad y estadística para ingeniería y
ciencias: Pearson• César Pérez López. (2005). Muestreo estadístico. Madrid:
Pearson• Martha Yolanda Franco García. (Septiembre 2009). Sobre el
teorema del límite central. Tesis, pag 81. 27-04-2016, De UNAM.
• Editor de formulas: www.mathway.com
• NotaciónẌ= media muestral
4/27/2016 Distribuciones de muestreo 44