estadística inferencial -...

Estadística Inferencial

ESTADÍSTICA INFERENCIAL

1

Sesión No. 5

Nombre: Distribuciones de probabilidad para variables aleatorias. Parte I. Objetivo: Al finalizar la sesión, el estudiante conocerá el concepto de variable

aleatoria continua, las características de la distribución normal y el cálculo de

probabilidades de variables normales, así mismo conocerá cómo utilizar la

distribución normal para aproximar la distribución de probabilidad binomial.

Contextualización

La distribución normal fue considerada por primera vez por De Moivre en 1753,

pero pronto fue relegada al olvido. Posteriormente, Laplace y Gauss la pusieron

de actualidad y por ello en la literatura estadística se le conoce también con el

nombre de distribución de Laplace-Gauss. El nombre de «normal» tiene

solamente carácter histórico, ya que se creyó que, en la práctica, la mayoría de

las distribuciones eran de este tipo, normal, y las restantes anormales. Lo de

«normal» es sólo un nombre y hoy día esta distribución es tan corriente como

otra cualquiera de las que se utilizan en Estadística (Quesada Paloma & García

Pérez, 1988).

Debido a que la distribución normal se presenta en una gran cantidad de

procesos en nuestras vidas, es importante conocer variables aleatorias

continuas, la distribución normal y cómo utilizar la distribución normal para

aproximar la distribución de probabilidad binomial.


2

Introducción al Tema

¿Cuáles son las características de las variables aleatorias continuas? ¿Por qué la distribución normal ocupa un lugar prominente en la estadística?

Imagen recuperada de: 3.bp.blogspot.com

Existen variables que pueden tomar cualquier valor que esté en un intervalo de

valores dado, y en los cuales la distribución es continua. Una distribución de

probabilidad continua muy importante es la distribución normal.

En esta sesión, se inicia con el estudio de la variable aleatoria continua,

posteriormente se analizará la distribución de probabilidad normal, y por último

revisarás cómo la distribución normal es una buena aproximación a una

distribución binomial cuando ésta última adquiere una forma de campana

simétrica.


3

Explicación

3.1 Variables aleatorias continuas

¿Cuándo una variable aleatoria se considera continua?

Una variable aleatoria continua es aquella cuyo conjunto de valores posibles es

un intervalo. Es decir, una variable aleatoria continua puede tomar cualquier

valor comprendido dentro de un cierto intervalo (Ross, 2007).

Los resultados experimentales basados en escalas de medición tales como peso,

volumen, distancia, estatura, tiempo, pH, temperatura, etc. pueden ser descritos

por variables aleatorias continuas. Por ejemplo el número de mililitros que

contiene una botella de jugo con la etiqueta de que el contenido es de “250 ml”.

¿Cuántas botellas contendrán 250 ml?, es decir, ¿qué probabilidad tendremos

de encontrar botellas de jugo que contengan 250 ml? Si se toma en cuenta que

exactamente 250 ml significa: 250.000000000….000 ml y que se puede añadir

todos los ceros que se deseen, parece imposible que encontrar una botella que

contenga exactamente eso. Pero en cambio, si tendría sentido preguntar, por

ejemplo, ¿cuántás contendrán entre 249.5 y 250.5 ml? La variable aleatoria que

interesa es: la cantidad de ml que contiene una botella de jugo. Esta variable

puede tomar cualquier valor entre el intervalo 249.5 ≤ 𝑥 ≤ 250.5. En efecto, 𝑥

puede tomar un número infinito de valores, entre los que se encuentran

2249.515, 249.85 ml, 249.9 ml, 250.333 ml, 250.399, etc.

Si se trata de asignar una probabilidad positiva a cada uno de estos numerosos

valores, las probabilidades ya no sumarán 1, como es el caso de las variables

aleatorias discretas. Por lo que se debe emplear un método diferente para

generar la distribución de probabilidad para una variable aleatoria continua.


4

Suponiendo que cuentas con un conjunto de mediciones de la cantidad de ml

que contiene cada botella de jugo del ejemplo anterior y, elaboras un histograma

de frecuencia relativa para describir la distribución de las mismas.

Para unas cuantas mediciones, se puede usar un número pequeño de clases;

pero a medida que se recolectan más y más mediciones, se pueden emplear

más clases y reducir el ancho de clase. El perfil del histograma cambiará

ligeramente, casi todo el tiempo haciéndose cada vez más irregular. Cuando el

número de mediciones se hace muy grande y los anchos de clase muy angostos,

el histograma de frecuencia relativa aparece cada vez más como una curva

suave. Esta curva suave describe la distribución de probabilidad de la variable aleatoria continua (Mendenhall, Beaver, & Beaver, 2015).

Imagen recuperada de: 4.bp.blogspot.com

La distribución de probabilidad, mostrada en siguiente la imagen, es creada al

distribuir una unidad de probabilidad a lo largo de la recta real. La densidad de

la probabilidad, que varía con 𝑥, puede ser descrita por una fórmula matemática

𝑓(𝑥) , llamada distribución de probabilidad o función de densidad de

probabilidad para la variable aleatoria 𝑥.


5

Las distribuciones de probabilidad tiene las siguientes características:

• El área bajo una distribución continua de probabilidad es igual a 1.

• La probabilidad de que 𝑥 caiga en un intervalo particular, por ejemplo de 𝑎

a 𝑏, es igual al área bajo la curva entre los dos puntos 𝑎 y 𝑏.

• 𝑃(𝑥 = 𝑎) = 0 , esto implica que 𝑃(𝑥 ≥ 𝑎) = 𝑃(𝑥 > 𝑎) y 𝑃(𝑥 ≤ 𝑎) = 𝑃(𝑥 <

𝑎).

Para seleccionar la distribución de probabilidad 𝑓(𝑥) apropiada para un

experimento dado, existen muchos tipos de curvas continuas para modelar, pero

en general, se deben de tomar en cuenta que se ajuste al cuerpo de datos

acumulado y permita hacer inferencias posibles usando los datos.

3.2 Distribución normal de probabilidad

¿Cuáles son las características de la distribución normal de probabilidad?

La distribución normal de probabilidad es la más utilizada para describir variables

aleatorias continuas, describiendo que tan probables son los resultados

obtenidos en un muestreo.

La forma de la distribución normal es una curva en forma de campana y la

función de densidad de probabilidad que define esta curva es:

Función de densidad de probabilidad normal

𝒇(𝒙) =𝟏

𝝈√𝟐𝟐𝒆

−(𝒙−𝝁)𝟐𝟐𝝈𝟐�

Donde

𝝁 = media

𝝈 = desviación estándar

𝟐 = 3.14159

𝒆 = 2.71828


6

La media 𝜇 localiza el centro de la distribución, y la distribución es simétrica

alrededor de su media 𝜇 . Como el área total bajo la distribución normal de

probabilidad es igual a 1, la simetría implica que el área a la derecha de 𝜇 es 0.5

y el área a la izquierda de 𝜇 es también 0.5. La forma de la distribución está

determinada por 𝜎, la desviación estándar

de la población.

No sólo existe una distribución normal,

sino una familia. En las tres distribuciones

normales de probabilidad con diferentes

medias y desviaciones estándar, que se

muestran en la imagen, se aprecia como los valores grandes de 𝜎 reducen la

altura de la curva y aumentan la dispersión;

valores pequeños de 𝜎 aumentan la altura

de la curva y reducen la dispersión.

Una variable aleatoria normal está

estandarizada al expresar su valor como el

número de desviaciones estándar (𝜎) que

se encuentran a la izquierda o derecha de su media 𝜇. La variable aleatoria 𝑧, se

deriva de la fórmula (Levin & Rubin, 2004):

𝒛 =𝒙 − 𝝁𝝈

Donde:

• 𝒙: Valor de la variable aleatoria que nos preocupa.

• 𝝁: Media de la distribución de la variable aleatoria.

• 𝝈: Desviación estándar de la distribución.

• 𝒛: Número de desviaciones estándar que hay desde 𝒙 a la media de la

distribución.


7

Se emplea 𝑧 en lugar del número de desviaciones estándar porque las variables

aleatorias normalmente distribuidas, tienen muchas unidades diferentes de

medición (metros, minutos, kilogramos, pesos, etc.). Al utilizar la tabla de

distribución de probabilidad normal estándar, se habla de unidades estándar

(desviaciones estándar) y se identifica a éstas como 𝑧. Cada renglón de la tabla

corresponde a un valor de 𝑧 , hasta el primer dígito decimal, las distintas

columnas corresponden al segundo dígito decimal.

Los tres tipos de probabilidad que se necesitan calcular son:

1. La probabilidad de que la variable aleatoria normal estándar 𝑧 sea menor

o igual que un valor dado.

2. La probabilidad de que 𝑧 esté entre dos valores dados.

3. La probabilidad de que 𝑧 sea mayor o igual que un valor dado.

Para que puedas ver el uso de las tablas de probabilidad acumulada de la

distribución normal estándar en el cálculo de estos tres tipos de probabilidades

se muestran algunos ejemplos.

Se ha diseñado un programa de entrenamiento para mejorar la calidad de las

habilidades de los agentes de ventas. Como el programa es aplicado por ellos

mismos, los agentes requieren un número diferente de horas para concluirlo. El

registro de los participantes anteriores muestra que el

tiempo promedio para completar el programa es de

50 horas, y que esta variable aleatoria normalmente

distribuida tiene una desviación estándar de 10 horas.

a. ¿Cuál es la probabilidad de que un agente de ventas elegido al azar

requiera más de 50 horas para completar el programa?

Solución

𝜇 = 50 y 𝜎 = 10


8

La probabilidad de que la variable aleatoria toma un valor mayor a 50 es el

área sombreada, es decir 0.5

b. ¿Cuál es la probabilidad de que un agente de ventas elegido al azar se

tome entre 50 y 65 horas para completar el programa?

Solución

La probabilidad en este caso está representada en la imagen por el área

sombreada entre 𝜇 = 50 ℎ𝑜𝑜𝑎𝑎 y el valor 𝑥, el cual nos interesa (65 horas).

Empleamos la ecuación para obtener 𝑧


=65 − 50

10= 1.5

𝑧 = 1.5 Desviaciones estándar. Localizando el valor de 𝑧 en la tabla, se tiene

una probabilidad de 0.4332. Por lo tanto, la probabilidad de que un agente de

ventas escogido al azar requiera entre 50 y 65 horas para terminar el

programa de entrenamiento es de 43.32%.

c. ¿Cuál es la probabilidad de que un

agente de ventas escogido al azar

se tome menos de 56 horas para


9

completar el programa?

Solución

Primero se calcula un valor para 𝑧 correspondiente a 56 horas:


=56 − 50

10= 0.6

En la tabla se busca el valor de 𝑧 = 0.6, encontrándose una probabilidad de

0.2257, que corresponde a la probabilidad de que la variable aleatoria esté

comprendida entre la media y 56 horas. A esta probabilidad se le suma la

probabilidad de que la variable esté entre la cola izquierda y la media y cuyo

valor es 0.5.

0.2257 + 0.5 = 0.7257

Por lo que, la probabilidad de que un agente de ventas escogido al azar se

tome menos de 56 horas para completar el programa es de 72.57%.

3.3 Aproximación normal de probabilidades binomiales

¿Cuál es la relación entre la distribución normal y la binomial?

La distribución normal es continua, pero resulta conveniente destacar que

algunas veces puede utilizarse para aproximar distribuciones discretas. Las

probabilidades binomiales pueden ser aproximadas muy bien por áreas de curva

normal, en tanto que el histograma de probabilidad binomial no sea demasiado

asimétrico. Si 𝑛 es muy grande y 𝑝 no está muy próximos a 0 o 1, la distribución

binomial se aproxima cada vez más a una distribución normal como se muestra

en la imagen.


10

El teorema central del límite permite utilizar áreas bajo la curva normal para

aproximar propiedades binomiales.

La distribución normal con 𝜇 = 𝑛𝑝 y 𝜎2 = 𝑛𝑝𝑛 no sólo proporciona una

aproximación muy precisa a la distribución binomial cuando 𝑛 → ∞ y 𝑝 no está

extremadamente cercana a 0 o 1, sino que también la aproximación es

aceptable aún con valores pequeños de 𝑛, siempre que 𝑝 esté cerca de 0.5, o si

simultáneamente 𝑛𝑝 > 5 y 𝑛(1 − 𝑝) > 5.

Para ver cómo se puede usar la distribución normal para aproximar la

distribución binomial, supón que un examen para ingresar a un posgrado tiene

200 preguntas de opción múltiple. Cada una de las preguntas con cuatro

posibles respuestas de las que sólo una es la correcta. ¿Cuál es la probabilidad

de que por pura intuición se tengan de 25 a 30 respuestas correctas para 80 de

las 200 preguntas acerca de las que el aspirante no tiene conocimientos?

Solución

𝒁 =𝑿− 𝝁𝝈

=𝑿 − 𝒏𝒏�𝒏𝒏𝒏

Si 𝑋 es una variable aleatoria binomial con una media 𝜇 = 𝑛𝑝 y varianza 𝜎2 = 𝑛𝑝𝑛.

La distribución tiende a la normal estándar cuando el número de ensayos

independientes 𝑛 se repite un número muy grande de veces (𝑛 → ∞):

Es la distribución normal estándar: N (0,1)


11

Sea 𝑋: el número de respuestas correctas debidas a la intuición, con 𝑛 = 80 y

𝑝 = 14

Al emplear la aproximación de la curva normal con

𝜇 = 𝑛𝑝 = (80) �14� = 20

𝜎 = �𝑛𝑝𝑛 = �(80) �14� �

34� = 3.87298

Se necesita el área entre 𝑥1 = 24.5 y 𝑥2 = 30.5. Los valores 𝑍 correspondientes

son:

𝑍1 =24.5 − 203.87298

= 1.16

𝑍2 =30.5 − 203.87298

= 2.71

La probabilidad de responder correctamente por intuición de 25 a 30 preguntas

está dada por la región sombreada de la siguiente imagen

Entonces

𝑃(25 ≤ 𝑋 ≤ 30) = 𝑃(1.16 < 𝑍 < 2.71)

= 𝑃(𝑍 < 2.71) − 𝑃(𝑍 < 1.16)

De la tabla encontramos


12

𝑃(𝑍 < 2.71) = 0.9966

𝑃(𝑍 < 1.16) = 0.8770

Por lo tanto

𝑃(25 ≤ 𝑋 ≤ 30) = 0.9966 − 0.8770 = 0.1196

La probabilidad de responder correctamente por intuición de 25 a 30 es del

11.96% para 80 de las 200 preguntas acerca de las que el aspirante no tiene

conocimientos.


13

Conclusión

Pudiste ver que las variables aleatorias continuas definen reglas de

correspondencia entre los resultados obtenidos en experimentos, cuyos valores

pueden asumir cualquier valor en un intervalo o conjunto de intervalos; y que la

distribución normal, que fue investigada por primera vez en el siglo XVIII, es un

modelo matemático empleado para calcular la probabilidad en muchos procesos

en los que intervienen variables aleatorias continuas. Además, de que la

distribución normal es útil por sí misma, también puede emplearse para

aproximar distribuciones de probabilidad discreta como la binomial.

¿Podrá emplearse la distribución normal para aproximar a otra distribución de probabilidad discreta?


14

Para aprender más

¿Qué variables asociadas a fenómenos naturales siguen el modelo de distribución normal?

• La Crónica Diaria (08 de 04 de 2009) ¿Qué es la campana de Gauss?

Información obtenida de:

http://www.cronica.com.mx/notas/2009/425115.html

¿Cuál es el alcance de distribución normal?

• Rivero, P. C. (s/f). Por quién doblan las campanas. Documento obtenido

de:

http://bioinformatica.uab.es/base/documents/genetica_gen/Por%20qui%C

3%A9n%20doblan%20las%20campanas2015_5_31P20_21.pdf


http://bioinformatica.uab.es/base/documents/genetica_gen/Por%20qui%C3%A9n%20doblan%20las%20campanas2015_5_31P20_21.pdf



15

Actividad de Aprendizaje

Instrucciones:

Con la finalidad de profundizar en los conocimientos adquiridos a lo largo de esta

sesión, ahora tendrás que realizar las siguientes actividades.

Actividad 1

Investiga cuáles son las desventajas de la distribución normal. Puedes realizarlo

en un procesador de texto, al final tendrás que guardarlo en formato PDF junto

con la siguiente actividad, es decir, en un mismo archivo ambas actividades y

entregarlas de acuerdo a las indicaciones de tu profesor.

Actividad 2

Resuelve los siguientes problemas:

1. El tiempo necesario para llenar una lata de un producto es una variable

aleatoria que sigue una distribución normal con una media de 10

segundos y una desviación estándar de 2 segundos.

a. Calcula la probabilidad de que el tiempo de llenado exceda a 11

segundos.

b. Encuentra el tiempo de llenado de la lata tal que la probabilidad de

excederlo tenga una probabilidad de 3%.

2. Los estudios que se realizan en un laboratorio indican que la cantidad de

sustancia “S” contenida en una dosis de un cierto medicamento se

distribuye según un modelo Normal de probabilidad con una media de 50

unidades. Se ha comprobado que el medicamento surte efecto, si la dosis

administrada contiene una cantidad de la sustancia comprendida entre 46

y 54 unidades. Conociendo que el 2.5% de las dosis contienen una

cantidad superior a 54 unidades. ¿Qué probabilidad hay de que un


16

individuo, al que se le administra una dosis elegida al azar, no le surta

efecto el medicamento? Justifica tu respuesta.

3. En el proceso de fabricación de recipientes de plástico el porcentaje de

defectuosos es del 1%. Si se fabrican 330 recipientes por día. ¿Cuál es la

probabilidad de que el número de recipientes defectuosos fabricados en

un día sea superior a 4?

4. Un canal de televisión afirma que su programa de espectáculos del

viernes por la noche tiene regularmente el 36% del total de los

televidentes. En caso de que esto sea cierto, ¿cuál es la probabilidad de

que entre 400 televidentes llamados por teléfono los viernes por la noche

estén viendo dicho programa más de 125?

Recuerda que estas actividades te ayudarán a comprender los conceptos de

variable aleatoria continua y distribución normal, así como el uso de ésta para

aproximar distribuciones de probabilidad binomial.

Estas actividades representan el 5% de tu calificación y se tomará en cuenta lo

siguiente:

• Tus datos generales.

• Título de la actividad.

• Procedimiento completo y correcto de los ejercicios propuestos.

• Ortografía y redacción.


17

Bibliografía

• Alvarado, V. V. M. (2014). Probabilidad y estadística. México: Patria.

• Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística

para administración y economía (10 ed.). México: Cengage Learning.

• Devore, J. L. (2008). Probabilidad y estadística para ingeniería y ciencias

(8 ed.). México: Cengage Learning.

• Elorza, Pérez-Tejada, H. (2008). Estadística para las ciencias sociales,

del comportamiento y de la salud (3 ed.). México: Cengage Learning.

• García, R. J. A., Ramos, G. C., & Ruiz, G. G. (2008). Estadística

administrativa. España: Servicio de publicaciones UCA.

• Gutiérrez, G. E., & Vladimirovna Panteleeva, O. (2014). Probabilidad y

estadística. Aplicaciones a la ingeniería y las ciencias. México: Patria.

• Levin, R. I., & Rubin, D. S. (2004). Estadística para administración y

economía (7 ed.). México: Pearson Educación.

• Lind, D. A., Marchal, W. G., & Wathen, S. A. (2012). Estadística aplicada a

los negocios y economía (15 ed.). México: McGraw-Hill.

• Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2015). Introducción a la

probabilidad y estadística (14 ed.). México: Cengage Learning.

• Quesada, P. V., & García Pérez, A. (1988). Lecciones de cálculo de

probabilidades. España: Díaz de Santos.

• Quintana, R. C. (1996). Elementos de inferencia estadística. Costa Rica:

Universidad de la Costa Rica.


18

• Rodríguez, F. J., Pierdant Rodríguez, A., & Rodríguez Jiménez, E. C.

(2014). Estadística para administración. México: Grupo Editorial Patria.

• Ross, S. M. (2007). Introducción a la estadística. España: Reverté.

• Triola, M. F., & Pineda, A. M. L. (2004). Probabilidad y Estadística. México:

Pearson Education.

• Walpole, R. E., Myers, R. H., & Myers, S. L. (1999). Probabilidad y

estadística para ingenieros (6 ed.). México: Prentice-Hall.

Cibergrafía

• La Crónica Diaria (08 de 04 de 2009) ¿Qué es la campana de Gauss?

Información obtenida de:


• Rivero, P. C. (s/f). Por quién doblan las campanas. Documento obtenido

de:

http://bioinformatica.uab.es/base/documents/genetica_gen/Por%20qui%C

3%A9n%20doblan%20las%20campanas2015_5_31P20_21.pdf

Te invito a que consultes la Biblioteca Digital UNID




estadística inferencial -...

Documents