estadística inferencial -...
TRANSCRIPT
Estadística Inferencial
ESTADÍSTICA INFERENCIAL
1
Sesión No. 5
Nombre: Distribuciones de probabilidad para variables aleatorias. Parte I. Objetivo: Al finalizar la sesión, el estudiante conocerá el concepto de variable
aleatoria continua, las características de la distribución normal y el cálculo de
probabilidades de variables normales, así mismo conocerá cómo utilizar la
distribución normal para aproximar la distribución de probabilidad binomial.
Contextualización
La distribución normal fue considerada por primera vez por De Moivre en 1753,
pero pronto fue relegada al olvido. Posteriormente, Laplace y Gauss la pusieron
de actualidad y por ello en la literatura estadística se le conoce también con el
nombre de distribución de Laplace-Gauss. El nombre de «normal» tiene
solamente carácter histórico, ya que se creyó que, en la práctica, la mayoría de
las distribuciones eran de este tipo, normal, y las restantes anormales. Lo de
«normal» es sólo un nombre y hoy día esta distribución es tan corriente como
otra cualquiera de las que se utilizan en Estadística (Quesada Paloma & García
Pérez, 1988).
Debido a que la distribución normal se presenta en una gran cantidad de
procesos en nuestras vidas, es importante conocer variables aleatorias
continuas, la distribución normal y cómo utilizar la distribución normal para
aproximar la distribución de probabilidad binomial.
ESTADÍSTICA INFERENCIAL
2
Introducción al Tema
¿Cuáles son las características de las variables aleatorias continuas? ¿Por qué la distribución normal ocupa un lugar prominente en la estadística?
Imagen recuperada de: 3.bp.blogspot.com
Existen variables que pueden tomar cualquier valor que esté en un intervalo de
valores dado, y en los cuales la distribución es continua. Una distribución de
probabilidad continua muy importante es la distribución normal.
En esta sesión, se inicia con el estudio de la variable aleatoria continua,
posteriormente se analizará la distribución de probabilidad normal, y por último
revisarás cómo la distribución normal es una buena aproximación a una
distribución binomial cuando ésta última adquiere una forma de campana
simétrica.
ESTADÍSTICA INFERENCIAL
3
Explicación
3.1 Variables aleatorias continuas
¿Cuándo una variable aleatoria se considera continua?
Una variable aleatoria continua es aquella cuyo conjunto de valores posibles es
un intervalo. Es decir, una variable aleatoria continua puede tomar cualquier
valor comprendido dentro de un cierto intervalo (Ross, 2007).
Los resultados experimentales basados en escalas de medición tales como peso,
volumen, distancia, estatura, tiempo, pH, temperatura, etc. pueden ser descritos
por variables aleatorias continuas. Por ejemplo el número de mililitros que
contiene una botella de jugo con la etiqueta de que el contenido es de “250 ml”.
¿Cuántas botellas contendrán 250 ml?, es decir, ¿qué probabilidad tendremos
de encontrar botellas de jugo que contengan 250 ml? Si se toma en cuenta que
exactamente 250 ml significa: 250.000000000….000 ml y que se puede añadir
todos los ceros que se deseen, parece imposible que encontrar una botella que
contenga exactamente eso. Pero en cambio, si tendría sentido preguntar, por
ejemplo, ¿cuántás contendrán entre 249.5 y 250.5 ml? La variable aleatoria que
interesa es: la cantidad de ml que contiene una botella de jugo. Esta variable
puede tomar cualquier valor entre el intervalo 249.5 ≤ 𝑥 ≤ 250.5. En efecto, 𝑥
puede tomar un número infinito de valores, entre los que se encuentran
2249.515, 249.85 ml, 249.9 ml, 250.333 ml, 250.399, etc.
Si se trata de asignar una probabilidad positiva a cada uno de estos numerosos
valores, las probabilidades ya no sumarán 1, como es el caso de las variables
aleatorias discretas. Por lo que se debe emplear un método diferente para
generar la distribución de probabilidad para una variable aleatoria continua.
ESTADÍSTICA INFERENCIAL
4
Suponiendo que cuentas con un conjunto de mediciones de la cantidad de ml
que contiene cada botella de jugo del ejemplo anterior y, elaboras un histograma
de frecuencia relativa para describir la distribución de las mismas.
Para unas cuantas mediciones, se puede usar un número pequeño de clases;
pero a medida que se recolectan más y más mediciones, se pueden emplear
más clases y reducir el ancho de clase. El perfil del histograma cambiará
ligeramente, casi todo el tiempo haciéndose cada vez más irregular. Cuando el
número de mediciones se hace muy grande y los anchos de clase muy angostos,
el histograma de frecuencia relativa aparece cada vez más como una curva
suave. Esta curva suave describe la distribución de probabilidad de la variable aleatoria continua (Mendenhall, Beaver, & Beaver, 2015).
Imagen recuperada de: 4.bp.blogspot.com
La distribución de probabilidad, mostrada en siguiente la imagen, es creada al
distribuir una unidad de probabilidad a lo largo de la recta real. La densidad de
la probabilidad, que varía con 𝑥, puede ser descrita por una fórmula matemática
𝑓(𝑥) , llamada distribución de probabilidad o función de densidad de
probabilidad para la variable aleatoria 𝑥.
ESTADÍSTICA INFERENCIAL
5
Las distribuciones de probabilidad tiene las siguientes características:
• El área bajo una distribución continua de probabilidad es igual a 1.
• La probabilidad de que 𝑥 caiga en un intervalo particular, por ejemplo de 𝑎
a 𝑏, es igual al área bajo la curva entre los dos puntos 𝑎 y 𝑏.
• 𝑃(𝑥 = 𝑎) = 0 , esto implica que 𝑃(𝑥 ≥ 𝑎) = 𝑃(𝑥 > 𝑎) y 𝑃(𝑥 ≤ 𝑎) = 𝑃(𝑥 <
𝑎).
Para seleccionar la distribución de probabilidad 𝑓(𝑥) apropiada para un
experimento dado, existen muchos tipos de curvas continuas para modelar, pero
en general, se deben de tomar en cuenta que se ajuste al cuerpo de datos
acumulado y permita hacer inferencias posibles usando los datos.
3.2 Distribución normal de probabilidad
¿Cuáles son las características de la distribución normal de probabilidad?
La distribución normal de probabilidad es la más utilizada para describir variables
aleatorias continuas, describiendo que tan probables son los resultados
obtenidos en un muestreo.
La forma de la distribución normal es una curva en forma de campana y la
función de densidad de probabilidad que define esta curva es:
Función de densidad de probabilidad normal
𝒇(𝒙) =𝟏
𝝈√𝟐𝟐𝒆
−(𝒙−𝝁)𝟐𝟐𝝈𝟐�
Donde
𝝁 = media
𝝈 = desviación estándar
𝟐 = 3.14159
𝒆 = 2.71828
ESTADÍSTICA INFERENCIAL
6
La media 𝜇 localiza el centro de la distribución, y la distribución es simétrica
alrededor de su media 𝜇 . Como el área total bajo la distribución normal de
probabilidad es igual a 1, la simetría implica que el área a la derecha de 𝜇 es 0.5
y el área a la izquierda de 𝜇 es también 0.5. La forma de la distribución está
determinada por 𝜎, la desviación estándar
de la población.
No sólo existe una distribución normal,
sino una familia. En las tres distribuciones
normales de probabilidad con diferentes
medias y desviaciones estándar, que se
muestran en la imagen, se aprecia como los valores grandes de 𝜎 reducen la
altura de la curva y aumentan la dispersión;
valores pequeños de 𝜎 aumentan la altura
de la curva y reducen la dispersión.
Una variable aleatoria normal está
estandarizada al expresar su valor como el
número de desviaciones estándar (𝜎) que
se encuentran a la izquierda o derecha de su media 𝜇. La variable aleatoria 𝑧, se
deriva de la fórmula (Levin & Rubin, 2004):
𝒛 =𝒙 − 𝝁𝝈
Donde:
• 𝒙: Valor de la variable aleatoria que nos preocupa.
• 𝝁: Media de la distribución de la variable aleatoria.
• 𝝈: Desviación estándar de la distribución.
• 𝒛: Número de desviaciones estándar que hay desde 𝒙 a la media de la
distribución.
ESTADÍSTICA INFERENCIAL
7
Se emplea 𝑧 en lugar del número de desviaciones estándar porque las variables
aleatorias normalmente distribuidas, tienen muchas unidades diferentes de
medición (metros, minutos, kilogramos, pesos, etc.). Al utilizar la tabla de
distribución de probabilidad normal estándar, se habla de unidades estándar
(desviaciones estándar) y se identifica a éstas como 𝑧. Cada renglón de la tabla
corresponde a un valor de 𝑧 , hasta el primer dígito decimal, las distintas
columnas corresponden al segundo dígito decimal.
Los tres tipos de probabilidad que se necesitan calcular son:
1. La probabilidad de que la variable aleatoria normal estándar 𝑧 sea menor
o igual que un valor dado.
2. La probabilidad de que 𝑧 esté entre dos valores dados.
3. La probabilidad de que 𝑧 sea mayor o igual que un valor dado.
Para que puedas ver el uso de las tablas de probabilidad acumulada de la
distribución normal estándar en el cálculo de estos tres tipos de probabilidades
se muestran algunos ejemplos.
Se ha diseñado un programa de entrenamiento para mejorar la calidad de las
habilidades de los agentes de ventas. Como el programa es aplicado por ellos
mismos, los agentes requieren un número diferente de horas para concluirlo. El
registro de los participantes anteriores muestra que el
tiempo promedio para completar el programa es de
50 horas, y que esta variable aleatoria normalmente
distribuida tiene una desviación estándar de 10 horas.
a. ¿Cuál es la probabilidad de que un agente de ventas elegido al azar
requiera más de 50 horas para completar el programa?
Solución
𝜇 = 50 y 𝜎 = 10
ESTADÍSTICA INFERENCIAL
8
La probabilidad de que la variable aleatoria toma un valor mayor a 50 es el
área sombreada, es decir 0.5
b. ¿Cuál es la probabilidad de que un agente de ventas elegido al azar se
tome entre 50 y 65 horas para completar el programa?
Solución
La probabilidad en este caso está representada en la imagen por el área
sombreada entre 𝜇 = 50 ℎ𝑜𝑜𝑎𝑎 y el valor 𝑥, el cual nos interesa (65 horas).
Empleamos la ecuación para obtener 𝑧
𝒛 =𝒙 − 𝝁𝝈
=65 − 50
10= 1.5
𝑧 = 1.5 Desviaciones estándar. Localizando el valor de 𝑧 en la tabla, se tiene
una probabilidad de 0.4332. Por lo tanto, la probabilidad de que un agente de
ventas escogido al azar requiera entre 50 y 65 horas para terminar el
programa de entrenamiento es de 43.32%.
c. ¿Cuál es la probabilidad de que un
agente de ventas escogido al azar
se tome menos de 56 horas para
ESTADÍSTICA INFERENCIAL
9
completar el programa?
Solución
Primero se calcula un valor para 𝑧 correspondiente a 56 horas:
𝒛 =𝒙 − 𝝁𝝈
=56 − 50
10= 0.6
En la tabla se busca el valor de 𝑧 = 0.6, encontrándose una probabilidad de
0.2257, que corresponde a la probabilidad de que la variable aleatoria esté
comprendida entre la media y 56 horas. A esta probabilidad se le suma la
probabilidad de que la variable esté entre la cola izquierda y la media y cuyo
valor es 0.5.
0.2257 + 0.5 = 0.7257
Por lo que, la probabilidad de que un agente de ventas escogido al azar se
tome menos de 56 horas para completar el programa es de 72.57%.
3.3 Aproximación normal de probabilidades binomiales
¿Cuál es la relación entre la distribución normal y la binomial?
La distribución normal es continua, pero resulta conveniente destacar que
algunas veces puede utilizarse para aproximar distribuciones discretas. Las
probabilidades binomiales pueden ser aproximadas muy bien por áreas de curva
normal, en tanto que el histograma de probabilidad binomial no sea demasiado
asimétrico. Si 𝑛 es muy grande y 𝑝 no está muy próximos a 0 o 1, la distribución
binomial se aproxima cada vez más a una distribución normal como se muestra
en la imagen.
ESTADÍSTICA INFERENCIAL
10
El teorema central del límite permite utilizar áreas bajo la curva normal para
aproximar propiedades binomiales.
La distribución normal con 𝜇 = 𝑛𝑝 y 𝜎2 = 𝑛𝑝𝑛 no sólo proporciona una
aproximación muy precisa a la distribución binomial cuando 𝑛 → ∞ y 𝑝 no está
extremadamente cercana a 0 o 1, sino que también la aproximación es
aceptable aún con valores pequeños de 𝑛, siempre que 𝑝 esté cerca de 0.5, o si
simultáneamente 𝑛𝑝 > 5 y 𝑛(1 − 𝑝) > 5.
Para ver cómo se puede usar la distribución normal para aproximar la
distribución binomial, supón que un examen para ingresar a un posgrado tiene
200 preguntas de opción múltiple. Cada una de las preguntas con cuatro
posibles respuestas de las que sólo una es la correcta. ¿Cuál es la probabilidad
de que por pura intuición se tengan de 25 a 30 respuestas correctas para 80 de
las 200 preguntas acerca de las que el aspirante no tiene conocimientos?
Solución
𝒁 =𝑿− 𝝁𝝈
=𝑿 − 𝒏𝒏�𝒏𝒏𝒏
Si 𝑋 es una variable aleatoria binomial con una media 𝜇 = 𝑛𝑝 y varianza 𝜎2 = 𝑛𝑝𝑛.
La distribución tiende a la normal estándar cuando el número de ensayos
independientes 𝑛 se repite un número muy grande de veces (𝑛 → ∞):
Es la distribución normal estándar: N (0,1)
ESTADÍSTICA INFERENCIAL
11
Sea 𝑋: el número de respuestas correctas debidas a la intuición, con 𝑛 = 80 y
𝑝 = 14
Al emplear la aproximación de la curva normal con
𝜇 = 𝑛𝑝 = (80) �14� = 20
𝜎 = �𝑛𝑝𝑛 = �(80) �14� �
34� = 3.87298
Se necesita el área entre 𝑥1 = 24.5 y 𝑥2 = 30.5. Los valores 𝑍 correspondientes
son:
𝑍1 =24.5 − 203.87298
= 1.16
𝑍2 =30.5 − 203.87298
= 2.71
La probabilidad de responder correctamente por intuición de 25 a 30 preguntas
está dada por la región sombreada de la siguiente imagen
Entonces
𝑃(25 ≤ 𝑋 ≤ 30) = 𝑃(1.16 < 𝑍 < 2.71)
= 𝑃(𝑍 < 2.71) − 𝑃(𝑍 < 1.16)
De la tabla encontramos
ESTADÍSTICA INFERENCIAL
12
𝑃(𝑍 < 2.71) = 0.9966
𝑃(𝑍 < 1.16) = 0.8770
Por lo tanto
𝑃(25 ≤ 𝑋 ≤ 30) = 0.9966 − 0.8770 = 0.1196
La probabilidad de responder correctamente por intuición de 25 a 30 es del
11.96% para 80 de las 200 preguntas acerca de las que el aspirante no tiene
conocimientos.
ESTADÍSTICA INFERENCIAL
13
Conclusión
Pudiste ver que las variables aleatorias continuas definen reglas de
correspondencia entre los resultados obtenidos en experimentos, cuyos valores
pueden asumir cualquier valor en un intervalo o conjunto de intervalos; y que la
distribución normal, que fue investigada por primera vez en el siglo XVIII, es un
modelo matemático empleado para calcular la probabilidad en muchos procesos
en los que intervienen variables aleatorias continuas. Además, de que la
distribución normal es útil por sí misma, también puede emplearse para
aproximar distribuciones de probabilidad discreta como la binomial.
¿Podrá emplearse la distribución normal para aproximar a otra distribución de probabilidad discreta?
ESTADÍSTICA INFERENCIAL
14
Para aprender más
¿Qué variables asociadas a fenómenos naturales siguen el modelo de distribución normal?
• La Crónica Diaria (08 de 04 de 2009) ¿Qué es la campana de Gauss?
Información obtenida de:
http://www.cronica.com.mx/notas/2009/425115.html
¿Cuál es el alcance de distribución normal?
• Rivero, P. C. (s/f). Por quién doblan las campanas. Documento obtenido
de:
http://bioinformatica.uab.es/base/documents/genetica_gen/Por%20qui%C
3%A9n%20doblan%20las%20campanas2015_5_31P20_21.pdf
ESTADÍSTICA INFERENCIAL
15
Actividad de Aprendizaje
Instrucciones:
Con la finalidad de profundizar en los conocimientos adquiridos a lo largo de esta
sesión, ahora tendrás que realizar las siguientes actividades.
Actividad 1
Investiga cuáles son las desventajas de la distribución normal. Puedes realizarlo
en un procesador de texto, al final tendrás que guardarlo en formato PDF junto
con la siguiente actividad, es decir, en un mismo archivo ambas actividades y
entregarlas de acuerdo a las indicaciones de tu profesor.
Actividad 2
Resuelve los siguientes problemas:
1. El tiempo necesario para llenar una lata de un producto es una variable
aleatoria que sigue una distribución normal con una media de 10
segundos y una desviación estándar de 2 segundos.
a. Calcula la probabilidad de que el tiempo de llenado exceda a 11
segundos.
b. Encuentra el tiempo de llenado de la lata tal que la probabilidad de
excederlo tenga una probabilidad de 3%.
2. Los estudios que se realizan en un laboratorio indican que la cantidad de
sustancia “S” contenida en una dosis de un cierto medicamento se
distribuye según un modelo Normal de probabilidad con una media de 50
unidades. Se ha comprobado que el medicamento surte efecto, si la dosis
administrada contiene una cantidad de la sustancia comprendida entre 46
y 54 unidades. Conociendo que el 2.5% de las dosis contienen una
cantidad superior a 54 unidades. ¿Qué probabilidad hay de que un
ESTADÍSTICA INFERENCIAL
16
individuo, al que se le administra una dosis elegida al azar, no le surta
efecto el medicamento? Justifica tu respuesta.
3. En el proceso de fabricación de recipientes de plástico el porcentaje de
defectuosos es del 1%. Si se fabrican 330 recipientes por día. ¿Cuál es la
probabilidad de que el número de recipientes defectuosos fabricados en
un día sea superior a 4?
4. Un canal de televisión afirma que su programa de espectáculos del
viernes por la noche tiene regularmente el 36% del total de los
televidentes. En caso de que esto sea cierto, ¿cuál es la probabilidad de
que entre 400 televidentes llamados por teléfono los viernes por la noche
estén viendo dicho programa más de 125?
Recuerda que estas actividades te ayudarán a comprender los conceptos de
variable aleatoria continua y distribución normal, así como el uso de ésta para
aproximar distribuciones de probabilidad binomial.
Estas actividades representan el 5% de tu calificación y se tomará en cuenta lo
siguiente:
• Tus datos generales.
• Título de la actividad.
• Procedimiento completo y correcto de los ejercicios propuestos.
• Ortografía y redacción.
ESTADÍSTICA INFERENCIAL
17
Bibliografía
• Alvarado, V. V. M. (2014). Probabilidad y estadística. México: Patria.
• Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística
para administración y economía (10 ed.). México: Cengage Learning.
• Devore, J. L. (2008). Probabilidad y estadística para ingeniería y ciencias
(8 ed.). México: Cengage Learning.
• Elorza, Pérez-Tejada, H. (2008). Estadística para las ciencias sociales,
del comportamiento y de la salud (3 ed.). México: Cengage Learning.
• García, R. J. A., Ramos, G. C., & Ruiz, G. G. (2008). Estadística
administrativa. España: Servicio de publicaciones UCA.
• Gutiérrez, G. E., & Vladimirovna Panteleeva, O. (2014). Probabilidad y
estadística. Aplicaciones a la ingeniería y las ciencias. México: Patria.
• Levin, R. I., & Rubin, D. S. (2004). Estadística para administración y
economía (7 ed.). México: Pearson Educación.
• Lind, D. A., Marchal, W. G., & Wathen, S. A. (2012). Estadística aplicada a
los negocios y economía (15 ed.). México: McGraw-Hill.
• Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2015). Introducción a la
probabilidad y estadística (14 ed.). México: Cengage Learning.
• Quesada, P. V., & García Pérez, A. (1988). Lecciones de cálculo de
probabilidades. España: Díaz de Santos.
• Quintana, R. C. (1996). Elementos de inferencia estadística. Costa Rica:
Universidad de la Costa Rica.
ESTADÍSTICA INFERENCIAL
18
• Rodríguez, F. J., Pierdant Rodríguez, A., & Rodríguez Jiménez, E. C.
(2014). Estadística para administración. México: Grupo Editorial Patria.
• Ross, S. M. (2007). Introducción a la estadística. España: Reverté.
• Triola, M. F., & Pineda, A. M. L. (2004). Probabilidad y Estadística. México:
Pearson Education.
• Walpole, R. E., Myers, R. H., & Myers, S. L. (1999). Probabilidad y
estadística para ingenieros (6 ed.). México: Prentice-Hall.
Cibergrafía
• La Crónica Diaria (08 de 04 de 2009) ¿Qué es la campana de Gauss?
Información obtenida de:
http://www.cronica.com.mx/notas/2009/425115.html
• Rivero, P. C. (s/f). Por quién doblan las campanas. Documento obtenido
de:
http://bioinformatica.uab.es/base/documents/genetica_gen/Por%20qui%C
3%A9n%20doblan%20las%20campanas2015_5_31P20_21.pdf
Te invito a que consultes la Biblioteca Digital UNID