cap´ıtulo 3 distribuciones de familias comunes

Capıtulo 3

Distribuciones de Familias comunes

Distribuciones estadısticas son usadas para modelar poblaciones. Nosotros usualmente

trataremos con familias de distribuciones, en vez de con una simple distribucion. Esas famil-

ias son indexadas por uno o mas parametros, lo cual nos permite variar ciertas caracterısticas

de la distribucion. Por ejemplo, podemos especificar que la distribucion Normal es una elec-

cion de un modelo razonable para una poblacion particular, pero no podemos especificar

precisamente la media; entonces trataremos con una familia parametrica, la normal con

media µ, donde este es un parametro no especificado −∞ < µ < ∞.

En este capıtulo seran catalogadas algunas de las muchas distribuciones estadısticas,

algunas de las cuales ya hemos tratado previamente. Para cada una de las distribuciones

que describamos, daremos su media y su varianza, y algunas otras descripciones adicionales

o medidas que pudieran agregar comprension. Tambien se indicara alguna aplicacion tıpica

de esas distribuciones, e interrelaciones adicionales.

3.1. Distribuciones discretas

Una va. X se dice tiene una distribucion discreta, si su rango; e.d. el espacio muestral es

numerable. En la mayorıa de las situaciones, la va. es entero-positiva valuada.

75

Probabilidad y Estadıstica

3.1.1. Distribucion uniforme discreta

Una va. X tiene distribucion uniforme discreta (1, N), si

P (X = x | N) =1N

, x = 1, 2, . . . , N (3.1)

donde N es un entero especificado. Esta distribucion pone igual masa sobre cada uno de los

resultados 1, 2, . . . , N .

Una cuestion de Notacion Cuando estamos tratando con distribuciones parametri-

cas, como sera en la mayorıa de los casos, la distribucion depende de los parametros. Con

la idea de enfatizar este hecho, y de mantener visibles los parametros, los escribiremos

en la fmp precedido por un ”|”(dado). Esta misma convencion tambien sera usada con la

fdp, la fda, la esperanza, y otros casos donde pudiera ser necesario. Cuando no haya posibil-

idad de confusion, los parametros pueden ser omitidos para no desordenar tanto la notacion.

Calculemos ahora la media y la varianza de X. Entonces

E X =N∑

x=1

xP (X = x | N) =N∑

x=1

x1N

=1N

N(N + 1)2

=N + 1

2

y

E X2 =N∑

x=1

x2P (X = x | N) =N∑

x=1

x2 1N

=1N

N(N + 1)(2N + 1)2

=(N + 1)(2N + 1)

2

y ası,

V ar X = E X2 − (E X)2

=(N + 1)(2N + 1)

2−

(N + 12

)2

=(N + 1)(N − 1)

2.

Esta distribucion puede ser generalizada, a un espacio muestral en cualquier rango de en-

teros, N0, N0 + 1, . . . , N1, con fmp P (X = x | N0, N1) = 1/(N1 −N0 + 1).

3.1.2. Distribucion Hipergeometrica

La distribucion hipergeometrica tiene muchas aplicaciones en muestreo de poblaciones

finitas. Es mejor para su comprension pensarla en el ejemplo clasico de un modelo de urna.

Probabilidad y EstadısticaSegundo Semestre 2005

76 Prof. Magister Osmar Vera


Supongamos tenemos una urna con N bolillas iguales, salvo por el color, es decir, hay M

rojas y N −M verdes. K de tales bolillas son seleccionadas aleatoriamente (se toman una

a una de la urna, sin regresarla a la misma; se trata de un caso de muestreo sin reemplazo).

¿Cual es la probabilidad que exactamente x de las bolillas sean rojas?.

El numero total de muestras de medida K que pueden ser seleccionadas de un total de

N es(NK

). Se requiere que x de tales bolillas sean rojas, lo cual puede ser realizado de

(Mx

)formas, dejando

(M−NK−x

)caminos para elegir las K − x restantes que no son rojas. Ası,

denotaremos por X la va. que mide el numero rojas en la muestra de tamano K, entonces

X tiene distribucion hipergeometrica dada por

P (X = x | N, N, K) =

(Mx

)(N−MK−x

)(NK

) , x = 0, 1, . . . , K. (3.2)

Note que hay implıcita en (3.2), un supuesto adicional sobre el rango de X. Los coeficientes

binomiales de la forma(nr

), han sido definidos solamente si n ≥ r, y ası el rango de x

esta adicionalemente restringido por el siguiente par de inecuaciones

M ≥ x y N −M ≥ K − x,

las cuales pueden ser combinadas como

M − (N −K) ≤ x ≤ M.

En muchos casos K es pequeno comparado con N y M , ası el rango 0 ≤ x ≤ K estara con-

tenido en el rango ultimo anterior dado para x, y por lo tanto sera apropiado. La formula

para la funcion de probabilidad hipergeometrica es difıcil de tratar. En efecto no es trivial

verificar queK∑

x=0

P (X = x) =K∑

x=0

(Mx

)(N−MK−x

)(NK

) = 1.

El caso de la distribucion hipergeometrica, ilustra la dificultad estadıstica de tratar con

poblaciones finitas (finito N).

La media de la distribucion hipergeometrica esta dada por

E X =K∑

x=0

x

(Mx

)(N−MK−x

)(NK

) =K∑

x=1

(Mx

)(N−MK−x

)(NK

) .




(el sumando es 0 en x = 0). Para evaluar estas expresiones, usamos las siguientes iden-

tidades,

x

(M

x

)= M

(M − 1x− 1

),

(N

K

)=

N

K

(N − 1K − 1

),

y obtener

E X =K∑

x=1

M(M−1x−1

)(N−MK−x

)NK

(N−1K−1

) =KM

N

K∑

x=1

(M−1x−1

)(N−MK−x

)(N−1K−1

) .

Es posible reconocer la segunda suma anterior como la suma de las probabilidades de otra

distribucion hipergeometrica basada en valores de parametros N−1,M−1, y K−1. Luego

esa suma vale 1. Finalmente se tiene que

E X =KM

N.

En forma similar, pero con mas labor, es posible establecer que

V ar X =KM

N

((N −M)(N −K)N(N − 1)

).

Ejemplo 3.1.1. La biblioteca de una escuela de estudiantes no graduados tiene 20 ejem-

plares de cierto tipo de texto de introduccion a la economıa, de los cuales 8 son primeras

impresiones y 12 son segundas impresiones (que contienen correcciones de algunos pequenos

errores que aparecieron en la primera edicion). El instructor del curso ha solicitado que 5

ejemplares sean puestos en reserva de 2 horas. Si los ejemplares se seleccionan en una

forma por completa al azar, de modo que cada subconjunto de tamano 5 tenga la misma

probabilidad de ser seleccionado, ¿cual es la probabilidad de que x (x = 0, 1, 2, 3, 4o 5) de los

seleccionados sean segundas impresiones?

Ejemplo 3.1.2. Cinco ejemplares de una poblacion animal considerados en vıa de extincion

en cierta region han sido atrapados, marcados y puestos en libertad para que se mezclen en la

poblacion. Despues de tener la oportunidad de mezclarse, se selecciono una muestra aleatoria

de 10 de estos animales. Sea X = numero de animales marcados de la segunda muestra .

Si hay en realidad 25 animales de este tipo en la region. ¿Cual es la probabilidad de que

(a) halla dos marcados en la muestra?




(b) halla a lo sumo dos marcados en la muestra?

(c) Determine la media y la varianza de X.

3.1.3. Distribucion Binomial

La distribucion binomial, una de las distribuciones discretas mas usadas, esta basada

sobre la idea de una ensayo de Bernoulli. Un ensayo de Bernoulli es un experimento con

dos, y solamente dos, resultados posibles. Una va. tiene una distribucion Bernoulli(p) si

X =

1 con probabilidad p

0 con probabilidad 1− p0 ≤ p ≤ 1. (3.3)

El valor X = 1 es a menudo tomado como un ”exito 2p se refiere a la probabilidad de que

ocurra el exito. El valor X = 0 es tomado como una ”falla”.

Tambien es posible realizar la siguiente interpretacion de un ensayo de Bernoulli, si con-

sideremos un evento A ⊆ Ω con probabilidad p, X = IA es una variable discreta con

P (X = 1) = p, P (X = 0) = 1− p. Calculemos con estas dos interpretaciones la media y la

varianza de esta va.

E X = E(IA) = 1p + 0(1− p) = p,

V ar X = (1− p)2p + (0− p)2(1− p) = p(1− p).

Muchos experimentos pueden ser modelados por una secuencia de ensayos de Bernoulli,

tales como el lanzamiento de monedas, eleccion de candidatos polıticos, incidencia de una

enfermedad, etc.

Si con n indicamos la cantidad de ensayos de Bernoulli que son realizados, definimos los

eventos

Ai = X = 1 en el i-esimo ensayo, i = 1, 2, . . . , n.

Si asumimos que los eventos A1, A2, . . . , An representan una coleccion de eventos indepen-

dientes (como es el caso del lanzamiento de una moneda), es facil encontrar la distribucion

del numero total de exitos en n ensayos. Definamos la va. Y por

Y = numero total de exitos en n ensayos.




El evento Y = y ocurrira solamente si, exactamente y de los eventos A1, A2, . . . , An

ocurren, y n − y de ellos no ocurren. Un resultado particular de n ensayos (un particular

ordenamiento de ocurrencias y no-ocurrencias) de los n ensayos de Bernoulli podrıa ser

A1 ∩A2 ∩Ac3 ∩ . . . ∩Ac

n−1 ∩An. Este tiene probabilidad de ocurrrencia

P (A1 ∩A2 ∩Ac3 ∩ . . . ∩Ac

n−1 ∩An) = pp(1− p) . . . . . . p(1− P )

= py(1− p)n−y,

donde nosotros hemos usado la independencia de los Ais en este calculo. Note que el calculo

no depende sobre cuales de los Ais ocurre, solamente que algun conjunto de y de ellos

ocurra. Poniendo todo esto junto, vemos que una secuencia particular de n ensayos con

exactamente y exitos tiene probabilidad py(1−p)n−y de ocurrencia; ya que hay(ny

)de tales

secuencias (el numero de ordenamientos de y unos y de (n− y) ceros), se tiene

P (Y = y | n, p) =(

n

y

)

e Y es llamada una variable aleatoria Bin(n,p). Y puede ser definida en forma equivalente del

siguiente modo: como una secuencia de n identicas, e independientes ensayos de Bernoulli,

cada una con exito p y fracaso 1− p, definiendo las variables X1, X2, . . . , Xn por

Xi =

1 con probabilidad p

0 con probabilidad 1− p0 ≤ p ≤ 1.

Entonces la va.

Y =n∑

i=1

Xi

tiene distribucion Bin(n, p). Analogamente, usando funciones indicadoras, Y podrıa es-

cribirse como

Y =n∑

i=1

IAi ,

y por lo tanto toda va. binomial se puede escribir como una suma de indicadoras.

Hemos ya obtenido tanto la esperanza, la varianza y la fgm para una va. binomial. Para

completar, afirmemos entonces que si X ∼ Bin(n, p) se tiene




E X = np , V ar X = np(1− p) ,

y su fgm es

MX(t) = [pey + (1− p)]n.

Ejemplo 3.1.3. A cada una de seis personas que toman refresco cola, seleccionadas al azar,

se les da un vaso que contiene refresco de cola S y uno que contiene refresco de cola F. Los

vasos son identicos en apariencia excepto por un codigo que se encuentra en el fondo para

identificar la marca. Supongamos que en realidad no hay preferencia entre las personas que

beben refresco de cola para preferir entre una marca u otra.

(a) Determine la probabilidad de que exactamente tres prefieran la marca de cola S

(b) Determine la probabilidad de que por lo menos tres personas prefieran la marca de cola

S.

(c) Calcule la probabilidad de que a lo suma 1 prefiera la marca de cola S

(d) Calcule la E X, V ar X, σX .

Ejemplo 3.1.4. Suponga que el 20% de todos los ejemplares de un texto en particular fallan

en una prueba de resistencia a la encuadernacion. Si X es el numero entre 15 ejemplares

seleccionados al azar que fallan a la prueba.

(a) ¿Que distribucion sigue X?

(b) Determine la probabilidad de que a lo sumo 8 fallen a la prueba

(c) ¿Cual es la probabilidad de que exactamente 8 fallen a la prueba?, y ¿la probabilidad

de que por lo menos 8 fallen a la prueba?

(d) Halle la probabilidad de que entre 4 y 7 fallen a la prueba.

(e) Determine la media y la varianza de X.

Ejemplo 3.1.5. Un fabricante de equipos electronicos argumenta que a los sumo el 10% de

sus unidades de fuentes de alimentacion necesitan reparacion durante el perıodo de garantıa.




Para investigar esto, tecnicos de un laboratorio de pruebas compran 20 unidades y las some-

ten a pruebas aceleradas para simular su uso durante el perıodo de garantıa. Denotemos por

p la probabilidad de que una fuente de alimentacion necesita reparacion durante el perıodo

(la proporcion de todas las unidades que necesitan reparacion). Los tecnicos de laborato-

rio deben determinar si los datos resultantes del experimento apoyan el argumento de que

p ≤ 0,10.

3.1.4. Distribucion de Poisson

La distribucion de Poisson es una distribucion discreta ampliamente aplicada, y puede

servir como un modelo de un numero diferente de experimentos. Por ejemplo, si estamos

modelando un fenomeno en el cual estamos esperando alguna ocurrencia (tales como es-

perando un omnibus, esperando que lleguen clientes a la ventanilla de un banco), el no

de ocurrencias en un intervalo de tiempo dado puede ser muchas veces modelado por la

distribucion de Poisson. Uno de los supuestos basicos sobre los cuales esta distribucion

se construye, es que, para pequenos intervalos de tiempo, la probabilidad de un arribo es

proporcional a la medida del tiempo esperado. Esto lo hace un modelo razonable para situa-

ciones como las que indicamos mas arriba. Por ejemplo, esto hace razonable asumir que en

un largo tiempo de espera, es mas probable que un cliente entre al banco.

Otro area de aplicacion es en distribuciones espaciales, donde, por ejemplo, la Poisson

puede ser empleada para modelar la distribucion del estallido de una bomba en un area, o

la distribucion de peces en un lago.

La distribucion de Poisson tiene solo un parametro, λ, algunas veces llamado parametro de

intensidad. Una va. X que toma valores enteros no negativos, tiene una distribucion Po(λ)

si

P (X = x | λ) =e−λλx

x!, x = 0, 1, . . . . . . (3.4)

Para ver que∑∞

x=0 P (X = x | λ) = 1, debemos ocupar la expansion en serie de Taylor de

ey,

ey =∞∑

i=0

yi

y!.




Ası∞∑

x=0

P (X = x | λ) = e−λ∞∑

x=0

λx

x!= e−λeλ = 1

La media de X se puede ver facilmente, haciendo

E X =∞∑

x=0

xe−λλx

x!

=∞∑

x=1

xe−λλx

x!

= λe−λ∞∑

x=1

λx−1

(x− 1)!

= λe−λ∞∑

y=0

λy

y!sustituyendo y = x− 1

= λ.

Calculos similares mostraran que

V ar X = λ,

Ası el parametro λ es el mismo tanto para la media como para la varianza de la distribucion

Poisson.

Tambien puede ser obtenida la fgm usando argumentos de calculos analogos, siendo

MX(t) = eλ(et−1).

Ejemplo 3.1.6. Si X es el numero de la fallas en la superficie de un calentador de cierto

tipo seleccionado al azar. Suponga que X tiene una distribucion de Poisson con λ = 5.

Determine:

(a) La probabilidad de que tenga exactamente dos fallas

(b) La probabilidad de que un calentador contenga un maximo de dos fallas

Ejemplo 3.1.7. Supongamos que llegan pulsos al contador con una tasa promedio de seis

por minuto, supongamos α = 6. Para hallar la probabilidad de que en un intervalo de 0.5

min se reciba por lo menos un pulso, observe que el nro. de pulsos en tal intervalo tiene

una distribucion de Poisson con parametro λ = αt = 6(0,5). Si X representa el numero de

pulsos recibidos en el intervalo de 30 segundos. Determine la probabilidad de que reciba mas

de una llamada.




3.1.5. Distribucion Binomial Negativa

La distribucion Binomial cuenta el numero de exitos en un numero prefijado de ensayos

de Bernoulli. Supongamos que, en cambio, contamos el numero de ensayos de Bernoulli

requeridos para conseguir un numero prefijado de exitos. Esta ultima formulacion nos an-

ticipa la distribucion binomial negativa.

En una secuencia de ensayos independientes de Bernoulli(p), sea la va. X, que denota el

ensayo para el cual el r-esimo exito ocurre, donde r es un entero prefijado. Entonces

P (X = r | r, p) =(

x− 1r − 1

)pr(1− p)x−r , x = r, r + 1, . . . (3.5)

y diremos que X tiene una distribucion binomial negativa (r,p).

La obtencion de (3.5) se sigue rapidamente de la distribucion binomial. El evento X = xpuede ocurrir solamente si hay exactamente r − 1 exitos en los primeros x − 1 ensayos, y

un exito en el ensayo x. La probabilidad de r− 1 exitos en x− 1 ensayos es la probabilidad

binomial(x−1r−1

)pr−1(1 − p)x−r y con probabilidad p hay un exito en el ensayo x. Multipli-

cando esas probabilidades se llega a la igualdad (3.5).

La distribucion binomial negativa es muchas veces definida en terminos de la va. Y =

numero de fracasos antes del r-esimo exito. Esta formulacion es estadısticamente equiva-

lente a la dada antes en terminos de X = ensayos en los cuales el r-esimo exito ocurre,

en consecuencia Y = X − r. Usando la relacion entre y y X, la forma alternativa para la

distribucion binomial negativa es

P (Y = y) =(

r + y + 1y

)pr(1− p)y , y = 0, 1, . . . . . . (3.6)

A menos que sea notado, cuando nos hagamos referencia a la distribucion binomial negativa(r, p)

usaremos la fmp (3.6).

La distribucion binomial negativa, tiene ese nombre de la relacion

(r + y + 1

y

)= (−1)y

(−r

y

)= (−1)y (−r)(−r − 1)(−r − 2) . . . (−r − y + 1)

y(y − 1)(y − 2) . . . 2,1,




la cual es, en efecto, la definicion para un coeficiente binomial con enteros negativos (ver

Feller (1968) para un tratamiento con mayor profundidad). Sustituyendo en (3.6), se obiene

P (Y = y) = (−1)y

(−r

y

)pr(1− p)y , y = 0, 1, . . . . . .

la cual muestra un parecido muy llamativo con la distribucion binomial.

El hecho que∑∞

y=0 P (Y = y) = 1 no es facil de verificar, pero proviene de una extension

del Teorema del Binomio, extension que incluye exponentes negativos. No expondre esto

aquı. Una excelente exposicion de este hecho lo puede encontrar en Feller (1968).

La media y la varianza de Y puede ser calculada usando tecnicas similares a las usadas para

la distribucion binomial:

E Y =∞∑

y=0

y

(r + y + 1

y

)pr(1− p)y

=∞∑

y=1

(r + y − 1)!(y − 1)!(r − 1)!

pr(1− p)y

=∞∑

y=1

r

(r + y + 1

y − 1

)pr(1− p)y.

Ahora escribimos z = y − 1, y la suma se transforma en

E Y =∞∑

z=0

r

(r + z

z

)pr(1− p)z+1

= r(1− p)

p

∞∑

z=0

((r + 1) + z − 1

z

)pr+1(1− p)z ,

este ultimo sumando se corresponde con la fmp de una binomial negativa, de donde

E Y = r(1− p)

p

Un calculo similar mostrara que

V ar Y = r(1− p)

p2.

La familia de la distribucion binomial negativa incluye a la Poisson como un caso lımite. Si

r −→∞ y p −→ 1 tal que r(1− p) −→ λ, 0 < λ < ∞, entonces

E Y = r(1− p)

p−→ λ,

V ar Y = r(1− p)

p2−→ λ,

lo cual se corresponde con la media y la varianza de la Poisson.




Ejemplo 3.1.8. Un pediatra desea conseguir 5 parejas, cada una de las cuales espera

a su primer hijo, para que participen en un regimen de nacimiento natural. Sea p =

P (una pareja seleccionada al azar acceda a participar). Si p = 0,2, ¿cual es la probabili-

dad de que se le pida a 15 parejas que participen antes de encontrar 5 que accedan?. Esto

es, si S=accede a participar, ¿cual es la probabilidad de que ocurran 10 fallas antes del

quinto exito?.

3.1.6. Distribucion Geometrica

La distribucion geometrica es la mas simple de las distribuciones, y es un caso especial

de la distribucion binomial negativa. Si se hace r = 1 en (3.5) tenemos

P (X = x | p) = p(1− p)x−1 , x = 1, 2, . . .

la cual define la fmp de una variable aleatoria X geometrica con probabilidad de exito p.

X puede ser interpretada como el ensayo para el cual el primer exito ocurre. Ası, diremos

”esperando el primer exito”. El hecho que∑∞

x=1 P (X = x) = 1 se sigue de la propiedad de

series geometricas. Para cualquier a tal que | a |< 1,

∞∑

x=1

ax−1 =1

1− a,

la cual ya ha sido probada anteriormente.

La media y la varianza de X puede ser calculada usando las formulas de la binomial negativa

y escribiendo X = Y + 1 para obtener

E X = EY + 1 =1p

y V ar X =1− p

p2.

La distribucion geometrica tiene una propiedad interesante conocida como ”perdida de

memoria”. Para enteros s > t, esto significa que

P (X > s | X > t) = P (X > s− t); (3.7)

Esto significa que la distribucion geometrica olvida lo que ha ocurrido.




3.2. Distribuciones Continuas

En esta seccion discutiremos algunas de las familias de distribuciones continuas mas co-

munes, aquellas que tienen nombres bien conocidos. Las distribuciones mencionadas aquı no

constituyen todas las distribuciones usadas en estadıstica; pues ademas como vimos en sec-

ciones anteriores, cualquier funcion nonegativa, e integragrable puede ser transformada en

una fdp.

3.2.1. Distribucion Uniforme

La distribucion uniforme continua esta definida de manera tal que se extiende masa

uniformemente sobre un intervalo [a, b]. Su fdp esta dada por

f(x | a, b) =

1b−a si x ∈ [a, b]

0 en otro caso(3.8)

Es facil demostrar que∫ ba f(x) dx = 1. Tambien se tiene

E X =∫ b

a

x

b− adx =

a + b

2

V ar X =∫ b

a

(x− a+b2 )2

b− adx =

(b− a)2

12.

3.2.2. Distribucion Gamma

La familia de distribuciones gamma es una familia flexible de distribuciones sobre [0,∞].

Esta familia puede ser derivada por la siguiente construccion.

Sea α una constante positiva, la integral

∫ ∞

0tα−1 e−t dt

es finita. Si α es un entero positivo la integral puede ser expresada en forma cerrada, en

otro caso no es posible. En cualquier caso, su valor define la funcion gamma,

Γ(α) =∫ ∞

0tα−1 e−t dt. (3.9)




La funcion gamma satisface muchas relaciones muy usadas, en particular

Γ(α + 1) = αΓ(α) , α > 0, (3.10)

la cual puede ser verificada utilizando integracion por partes. Combinando (3.9) y (3.10)

verificando el hecho que Γ(1) = 1, se tiene para cualquier entero n > 0,

Γ(n) = (n− 1)!. (3.11)

(Otro caso especial muy usado, que veremos en breve es: Γ(12) =

√π.)

Las expresiones (3.10) y (3.11) dan relaciones recursivas para la funcion gamma, que

hacen mas facil su calculo.

Ya que la integral en (3.9) es positiva, inmediatamente se sigue que

f(t) =tα−1 e−t

Γ(α), 0 < t < ∞ (3.12)

es una fdp. La familia gamma completa, sin embargo, tiene dos parametros, y puede ser

derivada por cambio de variables para conseguir la fdp de la va. X = βT en (3.12), donde

β es una constante positiva. Al hacer esto, conseguimos la familia gamma(α, β),

f(x) =1

Γ(α)βαxα−1 e−x/β , 0 < x < ∞ , α > 0 , β > 0. (3.13)

El parametro α es conocido como el parametro de forma, ya que es el que mas influencia

tiene en el pico de la distribucion, mientras que β es llamado el parametro de escala, ya que

su influencia esta sobre la cuan abierta o cerrada es la distribucion.

Hemos ya probado que la media de la distribucion es

E X =1

Γ(α)βα

∫ ∞

0x, xα−1 e−x/β dx. (3.14)

Para evaluar (3.14), note que el integrando es el nucleo de una fdp gamma(α + 1, β). De la

(3.13) sabemos que para α, β > 0,

∫ ∞

0xα−1 e−x/β dx = Γ(α)βα, (3.15)




ası tenemos

E X =1

Γ(α)βα

∫ ∞

0x, xα−1 e−x/β dx =

1Γ(α)βα

Γ(α + 1)βα+1

=αΓ(α)βΓ(α)

= αβ.

Note que para evaluar la E X hemos usado la tecnica de reconocimiento de la integral como

el nucleo de una fdp. Este hecho ya fue utilizado en multiples oportunidades.

La varianza de la distribucion gamma(α, β ) se calcula de manera analoga. En particular,

en el calculo de E X2 nos manejamos con el nucleo de una distribucion gamma(α + 2, β).

El resultado es

V ar X = αβ2

. En un ejemplo anterior hemos calculado la fgm de una distribucion gamma(α, β). Esta

esta dada por

MX(t) =( 1

1− βt

)α.

Ejemplo 3.2.1. Existe una interesante relacion entre las distribuciones gamma y la Pois-

son. Si va. X es una gamma(α, β), donde α es un entero, entonces para cualquier x,

P (X ≤ x) = P (Y ≤ α), (3.16)

donde Y ∼ Poisson(x/β). La ecuacion (3.16) puede ser establecida por sucesivas integra-

ciones por partes. Ya que α es un entero, podemos escribir Γ(α) = (α− 1)! para conseguir

P (X ≤ x) =1

(α + 1)βα

∫ x

0tα−1 e−t/β dt

=1

(α + 1)βα

[[− t(α−1)β − tβ/t

]x

0+

∫ x

0(α− 1)tα−2 βe−t/β dt

],

hemos usado la integracion por partes, sustituyendo u = tα−1 , dv = e−t/β dt. Continuando

con la evaluacion de la probabilidad, tenemos

P (X ≤ x) =−1

(α− 1)!βα−1xα−1 e−x/β +

1(α− 2)!βα−1

∫ x

0tα−2 βe−t/β dt

=1

(α− 2)!βα−1

∫ x

0tα−2 βe−t/β dt− P (Y = α− 1),

donde Y ∼ Poisson(x/β). Continuando de esta manera, es posible establecer (3.16).




Hay dos importantes casos especiales de distribucion gamma. Si hacemos α = p/2, donde

p es un entero, y β = 2, entonces la fdp de la gamma resulta

f(x) =1

Γ(p/2)2p/2x(p/2)−1 e−x/2 , 0 < x < ∞, (3.17)

la cual es la fdp de la chi cuadrado con p grados de libertad. La media, la varianza, y la

fgm de la distribucion chi cuadrado pueden todas se calculadas usando las formulas gamma

derivadas previamente.

La distribucion chi cuadrado juega una papel importante en inferencia estadıstica, especial-

mente cuando se muestrea de una distribucion normal. Esto sera estudiado con detalle mas

adelante.

Otro caso especial importante proveniente de la distribucion gamma se obtiene cuando

se reemplaza α = 1. Ahora resulta,

f(x | β) =1β

e−x/β , 0 < x < ∞, (3.18)

la fdp exponencial con parametro de escala β. Su media y su varianza fueron calculadas en

ejemplos anteriores.

La distribucion exponencial puede ser usada para modelar tiempos de vida, analogo al uso

de la distribucion geometrica en el caso discreto.

Otra distribucion relacionada con la exponencial y con la familia gamma es la distribucion

Weibull. Si X ∼ Exp(β), entonces Y = X1/γ tiene una distribucion Weibull(γ, β).

fY (y | γ, β) =γ

βyγ−1 eyγ/β , 0 < y < ∞, γ > 0 , β > 0. (3.19)

La distribucion Weibull juega un rol extremadamente importante en el analisis de tiempo de

fracaso (ver Kalbfleidch and Prentice (1980)para un tratamiento de este topico). La Weibull

en particular es muy usada para modelar funciones de riesgo.

3.2.3. Distribucion Normal

La distribucion Normal (muchas veces llamada Distribucion gaussiana juega un rol cen-

tral a lo largo de toda la estadıstica. Existen tres grandes razones para ello. Primero, la




distribucion Normal y las distribuciones asociadas con ella, son muy tratables analıtica-

mente (aunque no lo parezca con una primera mirada). Segundo, la distribucion normal

tiene una forma de campana familiar, cuya simetrıa la hace elegible para modelar un sin

fin de poblaciones. Aunque hay muchas otras distribuciones que tienen forma de campana,

pero no poseen la tratabiliad analıtica de la normal. Tercero, existe el Teorema Central del

Lımite (mas adelante se vera con detalle) el cual muestra que bajo algunas condiciones, la

distribucion normal puede ser usada para aproximar una gran variedad de distribuciones

en grandes muestras.

La distribucion normal tiene dos parametros, usualmente anotados por µ y σ2, las cuales

son su media y su varianza. La fdp de la distribucion Normal con media µ y varianza σ2

(usualmente anotada N(µ; σ2)) esta dada por,

f(x | µ, σ2) =1√2πσ

e−(x−µ)2/(2σ2) ,−∞ < x < ∞. (3.20)

Si X ∼ N(µ;σ2), entonces la va. Z = (X−µ)/σ tiene distribucion N(0, 1), tambien conocida

como Normal estandar. Esto se establece facilmente escribiendo

P (Z ≤ z) = P(X − µ)/σ ≤ z

)

= P (X ≤ zσ + µ)

=1√2πσ

∫ zσ+µ

−∞e−(x−µ)2/(2σ2) dx

=1√2π

∫ z

−∞e−t2/2 dt, (sustituyendo t =

x− µ

σ)

mostrando que P (Z ≤ z) es la fda de la normal estandar.

Lo ultimo anterior muestra que todas las probabilidades normales puedes ser calculadas

en terminos de la normal estandar. Ademas, el calculo de la media puede ser simplificado,

calculandolo para la N(0, 1), y luego transformando para el caso de N(µ, σ2). Por ejemplo,

si Z ∼ N(0, 1),

E Z =1√2π

∫ ∞

−∞ze−z2/2 dz = − 1√

2πe−z2/2 |∞−∞= 0

y ası, si X ∼ N(µ, σ2), se sigue que

E X = E(µ + zσ) = µ + σE Z = µ.




En forma analoga, se tiene que V ar Z = 1, y se prueba que V ar X = σ2.

Ya hemos probado que (3.20) integra 1 sobre la recta real, o sea vimos, via integral doble

que1√2π

∫ ∞

−∞e−z2/2 dz = 1.

Note que esta integral es simetrica alrededor del 0, lo cual implica que la integral sobre

(−∞, 0) es igual a la integral sobre (0,∞). Ası el problema se reducıa a probar

∫ ∞

−∞e−z2/2 dz =

√2π

2=

√π

2. (3.21)

Dijimos que la funcion e−z2/2 no tiene una antiderivada que puede ser escrita explıcitamente

en terminos de funciones elementales (esto es, en forma cerrada), por ello, no podemos

resolver la integral en forma directa. Se resuelve vıa una integral doble

La integral (3.21) esta relacionada con la funcion gamma; en efecto haciendo la sustitucion

w = 12z2 en (3.21) nosotros vemos que esta integral es Γ(1

2). Si se es cuidadoso al conseguir

las constantes correctas ,nosotros vemos que la sustitucion propuesta implica

Γ(1

2

)=

∫ ∞

0w−1/2 e−w dw =

√π. (3.22)

La distribucion normal es un poco especial en el sentido, que sus dos parametros, µ (la

media) y σ2 (la varianza), nos proveen una completa informacion exacta acerca de la forma

y la ubicacion de la distribucion. Esta propiedad que tiene la distribucion normal, no es solo

para esta fdp, pero esta formada por una familia de fdp´s llamadas familias de localizacion

y escala.

Basta con resolver un elemental problema de calculo para mostrar que la fdp normal (3.20)

tiene un maximo en x = µ y puntos de inflexion (donde la curva cambia de concava a

convexa) en x = µ±σ. Ademas la probabilidad contenida entre 1,2 o 3 desviaciones estandar

de la media es

P (| X − µ |≤ σ) = P (| Z |≤ 1) = 0,6826

P (| X − µ |≤ 2σ) = P (| Z |≤ 2) = 0,9544

P (| X − µ |≤ 3σ) = P (| Z |≤ 3) = 0,9947




Donde X ∼ N(µ, σ2), Z ∼ N(0, 1) , y los valores numericos provienen de una tabla de dis-

tribucion normal. A menudo valores de dos dıgitos son reportados, aunque no representan

valores redondeados, se ocupan frecuentemente.

Entre los muchos usos de la distribucion Normal, uno de gran importancia es su uso como

aproximacion de otras distribuciones (los cuales son justificados por el Teorema central del

Lımite). Por ejemplo, si X ∼ Bin(n, p), entonces E X = np y V ar X = np(1 − p), y bajo

condiciones convenientes, la distribucion de X puede ser aproximada con una va. normal

con media µ = np y varianza σ2 = np(1− p). Las condiciones convenientes”son que n debe

ser grande y p no debe ser un valor extremo (ni estar cerca del 0, ni cerca del 1). Como es el

caso de todas las aproximaciones no hay reglas absolutas, y para cada aplicacion debe ser

chequeada para decidir si la aproximacion es buena para ese caso. Una regla conservativa

que se sigue es que la aproximacion sera buena si min(np, n(1− p)) ≥ 5.

Ejemplo 3.2.2. Sea X ∼ Bin(25, 0,6). Aproximar X con una va. Y normal, y calcule la

probabilidad de que X tome valores menores o iguales que 13, y compare con el valor exacto.

La aproximacion puede ser grandemente mejorada, por una correccion por continuidad”.

Se describira un metodo estandar para mejorar la calidad de la aproximacion que se obtiene

cuando se aproxima una probabilidad basada en una distribucion discreta por una basada

en una distribucion continua.

Supongase, que la va. X tiene una distribucion discreta con fmp f(x) y se desea aproximar

esta distribucion por una distribucion continua con fdp g(x). Consideremos por simplicidad

solamente una distribucion discreta para la que todos los valores posibles de X sean enteros.

Si la fdp g(x) proporciona una buena aproximacion a la distribucion de X, entonces para

cualquier par de enteros a, b se puede aproximar simplemente la probabilidad

P (a ≤ X ≤ b) =b∑

x=a

f(x) (3.23)

por la integral ∫ b

ag(x) dx. (3.24)




Esta sencilla aproximacion tiene el siguiente inconveniente: aunque P (X ≥ a) y P (X > a)

en general tendran valores distintos para la distribucion discreta, estas probabilidades seran

siempre iguales para la distribucion continua. Otra forma de expresar este inconveniente es

la siguiente: aunque P (X = x) > 0 para cualquier x entero que es un valor posible de X,

esta probabilidad es necesariamente 0 con la fdp aproximada.

La fmp de X se puede representar por un histograma, o diagrama de barras. Para cada

entero x, la probabilidad de que x se representa por el area de un rectangulo cuya base se

extiende desde x − 12 hasta x + 1

2 y cuya altura es f(x). Entonces, el area del rectangulo

cuya base esta centrada en el entero x es simplemente f(x).

Desde este punto de vista se puede observar que P (a ≤ X ≤ b), como se especifica en

la ecuacion (3.23), es la suma de la areas de los rectangulos formados por las barras que

representan la distribucion discreta que estan centrados en a, a + 1, . . . , b. La suma de estas

areas se aproxima con la integral∫ b+ 1

2

a− 12

g(x) dx. (3.25)

el ajuste la integral (3.24) a la integral (3.25) se llama correccion por continuidad.

Si se utiliza la correccion por continuidad se determina que la probabilidad f(a) del entero

a se puede aproximar como sigue,

P (X = a) = P(a− 1

2≤ X ≤ a +

12

)(3.26)

≈∫ a+ 1

2

a− 12

g(x) dx. (3.27)

Analogamente,

P (X > a) = P (X ≥ a + 1) = P(X ≥ a +

12

)

≈∫ ∞

a+ 12

g(x) dx.

Ejemplo 3.2.3. Continuacion ejemplo ultimo anterior Determinar usando la correc-

cion por continuidad P (X ≤ 13) y comparar todas las aproximaciones hechas sobre esta

probabilidad.




3.2.4. Distribucion Beta

La familia de distribuciones beta es una familia continua sobre (0, 1) indexada por dos

parametros. La fdp de la beta(α, β) es

f(x | α, β) =1

B(α, β)xα−1(1− x)β−1 , 0 < x < 1 α > 0 β > 0, (3.28)

donde B(α, β) denota la funcion beta,

B(α, β) =∫ 1

0xα−1(1− x)β−1 dx.

La funcion beta esta relacionada con la funcion gamma a traves de la siguientes identidad:

B(α, β) =Γ(α)Γ(β)Γ(α + β)

. (3.29)

La (3.29) es muy usada al ocupar la funcion Beta, permitiendonos ciertas ventajas tomadas

de la funcio Gamma. En efecto, nunca trataremos directamente con la Beta, sino con (3.29)

para todas las evaluaciones que hagamos.

La distribucuın Beta, es una de las pocas distribuciones, entre las mas conocidas que dan

probabilidad 1 sobre un intervalo finito, aquı el intervalo es el (0, 1). De esta manera, la

Beta es muy usada para modelas proporciones, las cuales, naturalmente caen entre 0 y 1.

Seran ilustradas algunas de estas situaciones en el capıtulo 4.

Calculemos los momentos para esta distribucion. Resolverlo es facil por la forma de la fdp.

Para n > −α se tiene

E Xn =1

B(α, β)

∫ 1

0xnxα−1(1− x)β−1 dx

=1

B(α, β)

∫ 1

0x(α+n)−1(1− x)β−1 dx.

Reconocemos la integral como el nucleo de una densidad beta(α + n, β), de donde

E Xn =B(α + n, β)

B(α, β)=

Γ(α + n)Γ(α + β)Γ(α + β + n)Γ(α)

. (3.30)

Usando (3.10) y (3.30) con n = 1 y n = 2, podemos calcular la media y la varianza de la

distribucion beta(α, β) como sigue

E X =α

α + βy V ar X =

αβ

(α + β)2(α + β + 1).




Como los valores de α y β varıan, la distribucion beta toma diversas formas, estrictamente

decrece (α = 1, β > 1), forma de U (α < 1, β < 1) o es unimodal (α > 1, β > 1). El

caso α = β la fdp es simetrica alrededor de 1/2 y varianza (4(2α + 1)−1). La fdp se vuelve

mas concentrada cuando α crece, pero sigue siendo simetrica. Finalmente, si α = β = 1,

la distribucion se reduce a una uniforme en (0,1), mostrando que la uniforme puede ser

considerada un miembro de la familia beta. La beta esta tambies relacionada, a traves de una

transformacion, con la distribucion F , una distribucion que juega un papel extremadamente

importante en analisis estadıstico.

3.2.5. Distribucion Cauchy

La distribucion Cauchy, es una distribucion simetrica y con forma de campana sobre

(−∞,∞) con fdp

f(x | θ) =1π

1(x− θ)2

, −∞ < x < ∞ , −∞ < θ < ∞. (3.31)

A los ojos, en principio, no parece tener grandes diferencias con la normal. Sin embargo

existe una gran diferencia entre ambas. Ya hemos vista que la media de esta distribucion

no existe, o sea hemos probado que E | X |= ∞. Es facil probar que la (3.31) es una fdp

para todo θ.

Ya que la E | X |= ∞, se sigue que esta no existen momentos para la distribucion

Cauchy, o sea que el valor absoluto de todos los momentos es ∞. En particular la fgm

no existe.E | X |= ∞.

El parametro θ en no mide (3.31) el centro de la distribucion; sino que representa la me-

diana. De donde, se sique que si una va. X tiene distribucion Cauchy con parametro θ,

entonces P (X ≥ θ) = 12 , mostrando que θ es la mediana de la distribucion.

La distribucion Cauchy juega un rol especial en estadıstica teorica. Ella representa, mas

bien un caso extremo contra conjeturas que pueden ser probadas; es decir en otras palabras

propiedades que todas las distribuciones cumplen en general no de dan para la Cauchy!!.

Diriamos que es un caso patologico. Por ejemplo es comun en la practica calcular cocientes

de observaciones, esto es cocientes de va.. Una sorpresa es el hecho que el cociente de dos




normales estandar tiene distribucion Cauchy; de donde el hecho de tomar cocientes nos

puede llevar a distribucines enfermas!!.

3.2.6. Distribucion Lognormal

Si X es una va. cuyo logaritmo esta normalmente distribuıdo (esto es, logX ∼ N(µ, σ2),

entonces se dice que X tiene una distribucion lognormal. La fdp de X puede ser obtenida por

una transformacion de la fdp Normal usando el teorema de las transformacines, obteniendose

f(x | µ, σ2) =1√2π

1x

e−(logx−µ)2/(2σ2) , 0 < x < ∞ , ∞ < µ < ∞ , σ > 0 (3.32)

para la fdp de la lognormal. Los momentos de X pueden ser calculados directamete, usando

(3.32), o explotando su relacion con la normal.

E X = E elog X

= E Y Y = log X ∼ N(µ;σ2))

= eµ+(σ2/2).

La ultima igualdad se obtiene reorganizando la fgm de la distribucion normal (tomar t = 1).

Es posible usar una tecnica similar para calcular E X2, y conseguir asi

V ar X = e2(µ+σ2) − e2µ+σ2.

La distribucion lognormal, es en apariencia similar a la distribucion gamma. Esta distribu-

cion es muy comun cuando se aplican modelos, donde interesa la asimetrıa a la derecha.

3.2.7. Distribucion Doble Exponencial

La distribucion doble exponencial se forma reflejando la distribucion exponencial alrede-

dor de su media. La fdp esta dada por

f(x | µ, σ) =12σ

e−|x−µ|/σ ,−∞ < x < ∞ , −∞ < µ < ∞ , σ > 0. (3.33)




La doble exponencial provee una distribucion simetrica con colas pesadas (mucho mas pe-

sadas que la Normal), pero tiene todos sus momentos. La esperanza y la varianza son muy

faciles de calcular, ellas son

E X = µ y V ar X = 2σ2.

La doble exponencial no tiene forma de campana. En efecto, tiene un pico (dicho de

manera mas formal, un punto de no diferenciabilidad) en x = µ. Es muy importante recor-

darlo al tratar con esta distribucion en forma analıtica.

Existen muchas otras distribuciones continuas que tienen uso en diferentes aplicaciones

estadısticas, muchas de las cuales quizas apareceran a lo largo de estas notas. El material

bibliografico referente para las distribuciones usadas en estadıstica, puede ser el trabajo de

Johnson y Kotz (1969,1970a,1970b).

3.3. Familias Exponenciales

Una familia de fdp o de fmp se denomina familia exponencial, si puede ser expresada

como

f(x | θ) = h(x)c(θ) exp( k∑

i=1

wi(θ)ti(x)). (3.34)

Aquı h(x) ≥ 0 y t1(x), t2(x), . . . , tk(x) son funciones real valoradas de las observaciones x

(o sea, ellas no pueden depender de θ), c(ϑ) > 0 y w1(θ), w2(θ), . . . , wk(θ) son todas funciones

real valoradas positivas del parametro vector valuado θ (ellas no pueden depender de x).

Muchas de las familias introducidas en las secciones previas son familias exponenciales.

Ellas incluyen las familias continuas (normal, gamma, beta, etc.) y las familias discretas

(binomial, Poisson, binomial negativa, etc.)

La forma especıfica (3.34) implica que las familias exponenciales tienen muchas propiedades

interesantes desde el punto de vista matematico. Pero aun mas importante para un modelo

estadıstico, esta forma (3.34) implica muchas propiedades estadısticas interesantes y de facil

deduccion a partir de la misma.

Para verificar que una familia de fpd´s o fmp´s es una familia exponencial, nosotros debemos




identificar las funciones h(x), c(θ), wi(θ), ti(x) y mostrar que la familia tiene la forma (3.34).

Esto se ilustra en los siguientes dos ejemplos

Ejemplo 3.3.1. Mostrar que la familia bin(n,p), con n entero positivo, 0 < p < 1, es una

familia exponencial.

Ejemplo 3.3.2. Sea f(x | µ, σ2) la familia de densidades N(µ, σ2), donde θ = (µ, σ)

−∞ < x < ∞ σ > 0. Mostrar que esta es una familia exponencial.



cap´ıtulo 3 distribuciones de familias comunes

Documents