5. probabilidad - halweb.uc3m.es

5. PROBABILIDAD

Objetivo

Aprender el concepto de la probabilidad y las

reglas basicas de probabilidades para sucesos.

Entender la probabilidad condicionada.

En el idioma habitual, usamos frases como:

Es probable que gane Madrid hoy

Manana llovera seguro.

Es posible que te llamen pero lo dudo.

En todas estas frases, explicamos un sentido de

incertidumbre sobre sucesos aleatorios. Ahora

queremos formalizar la idea del azar y proba-

bilidad.

Conceptos basicos

La probabilidad de un suceso es una medida

numerica de la posibilidad de que ocurra. La

idea es relevante en situaciones donde el azar

juega un papel importante.

Se necesita el concepto de un experimento aleato-

rio y de sus posibles resultados.

Definicion 19 Un experimento aleatorio es

el proceso de observar un fenomeno cuyos posi-

bles resultados son inciertos. Se supone que se

saben todos los posibles resultados del experi-

mento de antemano y que se puede repetir el

experimento en condiciones identicas.

Ejemplo 50 Lanzar una moneda y observar si

sale cruz o cara.

Definicion 20 El espacio muestral (Ω) es el

conjunto de todos los posibles resultados del

experimento.

Ejemplo 51 Si el experimento es lanzar la mon-

eda una vez, el espacio muestral es Ω = C,Xdonde C significa cara y X cruz. Si el experi-

mento es lanzar la moneda dos veces, el espa-

cio muestral es (C,C), (C,X), (X,C), (X,X)donde (C,X) es el suceso de que la primera

tirada sea cara y la segunda cruz.

Definicion 21 Los posibles resultados del ex-

perimento o componentes del espacio muestral

(ei) se llaman sucesos elementales:

Ω = e1, . . . , ek

Ejemplo 52 En el caso de lanzar la monedados veces, los sucesos elementales son e1 =(C,C), e2 = (C,X), e3 = (X,C) y e4 = (X,X).

Definicion 22 Un suceso es un conjunto desucesos elementales.

Ejemplo 53 En el caso de lanzar la monedados veces, el suceso A =“sale exactamente unacara” es

A = (C,X), (X,C).El suceso B = “la primera tirada es cara” es

B = (C,C), (C,X).

Dos sucesos importantes son el suceso se-guro = Ω, es decir todo el espacio muestraly el suceso imposible = φ, el conjunto vacio.Ademas, para cada suceso A, podemos definirA =el suceso contrario de A, es decir

A = Ω \A = ei : ei /∈ AObservamos que Ω = A ∪ A y que A ∩ A = φ.

Ejemplo 54

A = (C,C), (X,X)B = (X,C), (X,X)

Para dos sucesos, A y B, se define el sucesoA ∩ B (o A y B) como el conjunto de sucesoselementales contenidos en A y B. Si ocurre elsuceso A y B, se han ocurrido ambos sucesos.

Dos sucesos A y B que no pueden ocurrir a lavez (A ∩B = φ) se llaman sucesos incompat-ibles.

Al contrario se dice que ha ocurrido el sucesoA ∪ B (A o B) si se ocurre por lo menos unode dos sucesos.

Ejemplo 55

A y B = (C,X)A o B = (C,C), (C,X), (X,C)

A y B no son sucesos incompatibles.

Diagramas de Venn

Una manera visual de ver los distıntos sucesos

es a traves del diagrama de Venn.

Frecuencia y probabilidad

Aun no hemos definido la probabilidad de unsuceso. El metodo mas frecuente es usar laidea de frecuencias relativas.

Ejemplo 56 Definimos el experimento de tiraruna moneda una vez. Repetimos el experimen-to un numero n de veces y calculamos las fre-cuencias relativos de cada suceso elemental.

n = 1 n = 10

n = 100 n = 1000

En el ejemplo, se ve que las frecuencias rela-

tivas se acercan a un lımite cuando se repite

el experimento muchas de veces. El valor del

lımite es la probabilidad del suceso.

Para un suceso A se escribe P(A) para repre-

sentar su probabilidad.

Se han definido las probabilidades como lımites

de frecuencias, y se puede deducir las sigu-

ientes propiedades basicas que poseen las prob-

abilidades. Se tiene:

Para cualquier suceso A, 0 ≤ P (A) ≤ 1.

P (A) =∑

i:ei∈A P (ei)

P (Ω) = 1

Si A y B son sucesos incompatibles (es decir queA y B = φ) entonces

P (A o B) = P (A) + P (B).

De estas tres propiedades, se deduce que si A

es el suceso complementario a A,

P(A) = 1 − P(A)

Demostracion

A y A son sucesos incompatibles y entonces

P(A o A) = P(A) + P(A)

Pero Ω = A o A es decir que A o A es un

suceso seguro y entonces

1 = P(A o A).

Luego el resultado sigue inmediatamente.

Inmediatamente podemos concluir que como

φ = Ω, entonces P(φ) = 0, es decir que el

suceso imposible es de verdad imposible.

Espacios equiprobables

En algunas situaciones, la definicion del exper-

imento asegura que todos los sucesos elemen-

tales tienen la misma probabilidad de ocurrir.

En este caso, se dice que el espacio muestral

es equiprobable.

Si el espacio muestral es equiprobable y con-

tiene k sucesos elementales,

Ω = e1, . . . , ekluego se tiene

P(ei) =1

kpara i = 1,2, . . . , k.

Para cualquier suceso A entonces, la probabil-

idad de A es

P(A) =1

k×numero de sucesos elementales en A.

Ejemplo 57 Supongamos que se lanza una mon-

eda equilabrada dos veces. Luego hay cuatro

sucesos elementales,

(C,C), (C,X), (X,C), (X,X)

cada suceso con probabilidad 14.

Entonces, la probabilidad de observar A = ex-

actamente una cara es

P(A) = P((C,X), (X,C))= 2 × 1

2Ademas, la probabilidad de que la primera tira-

da sea cara es P(B) = 24 = 1

¿Cual es la probabilidad de que la primera tira-

da sea cruz?

P(B) = 1 − P(B) = 1 − 1

La probabilidad subjetiva

Se han visto anteriormente dos ideas para definir

probabilidades: via frecuencias relativas y ade-

mas el caso de espacios equiprobables. Existe

otra enfoque completemente distınto que de-

fine la probabilidad como una medida subjeti-

va de incertidumbre sobre la aparicion de un

suceso. Ası nuestras probabilidades para algun

suceso pueden ser distıntos, ya que tenemos

diferentes cantidades de informacion.

En este caso, se pueden definir probabilidades

para experimentos irrepetibles.

Ejemplo 58 ¿Cual es la probabilidad de que

naciera yo en el 1965?

La probabilidad P(A o B)

Sii A y B son sucesos incompatibles, tenemos

el siguiente diagrama de Venn.

La area en A o B es igual a la suma de las

dos areas. Entonces, interpretando probabili-

dad como area, concluimos que

P(A o B) = P(A) + P(B).

En el caso mas general, tenemos el siguiente

diagrama Venn.

Vemos que la area contenida en el suceso A o B

es igual a la area en A mas la area en B menos

la area en A y B. Entonces, tenemos la formula

general.

Para dos sucesos A y B, se tiene la ley de

adicion:

P(A o B) = P(A) + P(B) − P(A y B)

Observamos tambien que se tiene P(A y B) ≤mınP(A), P(B) y P(A y B) ≥ maxP(A), P(B).

Ejemplo 59 Hay 15 clınicas en una ciudad. De

ellas, 6 no cumplen las reglas sanitarias y 8 no

cumplen los requisitos de seguridad. 5 clınicas

no cumplen ni los requisitos de seguridad ni las

reglas sanitarias.

Si se elige una clınica para inspeccionar al azar,

¿cual es la probabilidad de que cumpla ambos

reglamientos?

Sea A el suceso de que cumple las reglas san-

itarias y B el suceso de que cumple los requi-

sitos de seguridad.

Si elegimos una clınica al azar, tenemos

P(A) =6

P(B) =8

P(A y B) =5

Deducimos que P(A) = 1 − P(A) = 915 y tam-

bien que P(B) = 1 − P(B) = 715.

Ahora miramos el diagrama de Venn.

Observamos que (A o B)∪(A y B) = Ω y tam-

bien los dos sucesos son incompatibles. Luego

P(A o B) = 1 − P(A y B) =10

Ahora necesitamos calcular P(A y B).

Recordamos que

P(A o B) = P(A) + P(B) − P(A y B)

que implica que P(A y B) = 915 + 7

15 − 1015 =

615 = 2

Una extension P(A o B o C)

Pensamos en probabilidad como si fuera area.

P(A o B o C) = P(A) + P(B) + P(C) −P(A y B) − P(B y C) − P(A y C)

+P(A y B y C)

Probabilidad condicionada

Ejemplo 60 Se clasifica un grupo de 100 ejec-

utivos en acuerdo con su peso y si tienen hiperten-

sion. La tabla de doble entrada muestra el

numero de ejecutivos en cada categorıa.

insuficiente normal sobrepeso Totalhipertenso 02 08 10 20

normal 20 45 15 80Total 22 53 25 100

Si se elige un ejecutive al azar, ¿cual es la prob-

abilidad de que tenga hipertension (H)?

Hay 20 ejecutivos con hipertension y luego

P(H) =20

100= 0,2.

Igualmente, la probabilidad de que tenga so-

brepeso (S) es P(S) = 25100 = 0,25.

Se elige una persona al azar del grupo y se de-scubre que tiene sobrepeso. ¿Cual es la proba-bilidad de que esta persona sea hipertenso?

Escribimos P(H|S) para representar la prob-abilidad de que sea hipertenso sabiendo quesobra peso.

Para calcular P(H|S), las primeras dos colum-nas de la tabla son irrelevantes.

Hay 25 ejecutivos gordos y de ellos, 10 sonhipertensos. Luego P(H|S) = 10

25 = 0,4.

Observamos tambien que P(H y S), la proba-bilidad de que una persona elegida al azar seagordo y hipertenso es P(H y S) = 10

100 = 0,1.

Observamos entonces que

P(H|S) =P(H y S)

Definicion 23 Para dos sucesos A y B, se de-

fine la probabilidad condicionada de A dado

B como

P(A|B) =P(A y B)

Se entiende la expresion como la probabilidad

de A suponiendo que B haya ocurrido.

A menudo se escribe esta formula de otra man-

P(A y B) = P(A|B)P(B).

En este caso, se llama la formula la ley de

multiplicacion.

Ejemplo 61 Se dan dos cartas de una baraja

espaola. ¿Cual es la probabilidad de que ambas

cartas sean copas?

Sea A (B) el suceso de que la primera (segun-

da) carta sea copa. Queremos P(A y B).

Usamos la ley de multiplicacion.

P(A y B) = P(B|A)P(A)

Ahora P(A) = 1040 y P(B|A) = 9

39 porque si la

primera carta es copa, quedan 39 cartas, nueve

de ellos siendo copas.

Luego P(A y B) = 1040 × 9

39 = 352.

Ejemplo 62 Una urna contiene tres balas ro-

jas y dos verdes. Se quitan dos balas sin reem-

plazamiento.

¿Cual es la probabilidad de que la primera bala

sea verde (A)?

P(A) = 25.

Observamos tambien que P(A) = 35.

¿Cual es la probabilidad de que la segunda bala

quitada sea verde (B)?

P(B) = P(B y A) + P(B y A)

= P(B|A)P(A) + P(B|A)P(A)

Independencia

Definicion 24 Se dicen que dos sucesos A y B

son independientes si P(A y B) = P(A)P(B).

Igualmente, A y B son independientes si P(A|B) =

P(A) o si P(B|A) = P(B).

Ejemplo 63 En el Ejemplo 62, A y B no son

independientes.

P(B) =2

5 = P(B|A) =

En el Ejemplo 62, hemos aplicado otra reglautil de la probabilidad.

Teorema 7 Para dos sucesos A y B, se tiene

P(A) = P(A|B)P(B) + P(A|B)P(B).

Demostracion

A y BA y B

Mirando el diagrama Venn, vemos que

A = (A y B) ∪ (A y B)

Luego:

P(A) = P(A y B) + P(A y B)

= P(A|B)P(B) + P(A|B)P(B)

aplicando la ley de multiplacion en cada caso.

Ejemplo 64 El 42 % de la poblacion activa de

cierto pais esta formada por mujeres. Se sabe

que un 24 % de las mujeres y un 16 % de los

hombres estan en el paro.

¿Cual es la probabilidad de que una persona

elegida al azar de la poblaccion activa en esta

pais este en el paro?

¿Cual es la probabilidad de que tenga trabajo?

Sea P el suceso de que la persona este en el

paro. Sea M el suceso de que sea mujer y H el

suceso de que sea hombre.

Luego sabemos que

P(M) = 0,42

P(H) = P(M)

= 1 − P(M) = 0,58

P(P |M) = 0,24

P(P |H) = 0,16

Entonces,

P(P) = P(P |M)P(M) + P(P |H)P(H)

= 0,24 × 0,42 + 0,16 × 0,58

= 0,1936

Ahora P(P ) = 1 − P(P) = 0,8064 es la proba-

bilidad de que tenga trabajo.

Ejemplo 65 Un 3 % de la poblacion adulta de

un pais africano padecen a beri beri. Existe

una prueba diagnostica para detectar si una

persona tiene la enfermedad o no, pero es im-

perfecta. La prueba tiene un 10 % de falsos

positivos (es decir que para gente sana, hay

una probabilidad de 10 % de que la prueba di-

ga que es enferma) y 5 % de falsos negativos

(hay una probabilidad de 5 % de que identifique

un enfermo como sano).

Si se elige una persona para la prueba aleato-

riamente, ¿cual es la probabilidad de que la

prueba le de un resultado positivo?

Sea B = tiene beri beri y S = la prueba da un

resultado positivo. Luego:

P(B) = 0,03

P(S|B) = 0,10

P(S|B) = 0,05

Queremos hallar P(S).

P(S) = P(S|B)P(B) + P(S|B)P(B)

Tenemos P(B) = 1−P(B) = 0,97 y P(S|B) =

1 − P(S|B) = 0,95. Entonces

P(S) = 0,95 × 0,03 + 0,10 × 0,97 = 0,1255

Una descomposicion mas general

Consideramos el siguiente diagrama de Venn.

Los sucesos B1, . . . , B4 dividen el espacio mues-

tral en 4 partes distıntas.

Definicion 25 Un conjunto de sucesos B1, . . . , Bkdonde Bi ∩ Bj = φ para todo i = j y

Ω = B1 ∪B2 ∪ . . . Bk

se llama una particion del espacio muestral.

Ahora supongamos que introducimos otro suce-

Tenemos

A = (A ∩B1) ∪ (A ∩B2) ∪ (A ∩B3) ∪ (A ∩B4)

Luego como los Bi son incompatibles,

P (A) = P (A∩B1)+ P (A∩B2)+ P (A∩B3)+ P (A∩B4)

y usando la ley de multiplicacion,

P (A ∩Bi) = P (A|Bi)P (Bi) para i = 1, . . . ,4

P (A) =4∑

P (A|Bi)P (Bi)

La ley de la probabilidad total

Teorema 8 (Ley de la probabilidad total)

Para un suceso A y sucesos B1, . . . , Bk, donde

B1 ∪B2 ∪ . . . ∪Bk = Ω y Bi ∩Bj = φ para todo

i = j, entonces

P(A) =k∑

P(A|Bi)P(Bi)

Ejemplo 66 En una fabrica se embalan (en

cajas) galletas en 4 cadenas de montaje; A1,

A2, A3 y A4. El 35 % de la produccion total se

embala en la cadena A1 y el 20 %, 24 % y 21 %

en A2, A3 y A4 respectivamente. Los datos

indican que no se embalan correctamente un

porcentaje pequeno de las cajas; el 1 % de A1,

el 3 % de A2, el 2.5 % de A3 y el 2 % de A4.

¿Cual es la probabilidad de que una caja elegida

al azar de la produccion total sea defectuosa?

Sea D = defectuosa. Luego

P(D) =4∑

P(D|Ai)P(Ai)

= ,01 × ,35 + ,03 × ,20 + ,025 × ,24 +

+,02 × ,21

= ,0197

El teorema (o la regla) de Bayes

Teorema 9 Para dos sucesos A y B, se tiene

P(A|B) =P(B|A)P(A)

Demostracion

Por la regla de multiplicacion, se tiene

P(A y B) = P(A|B)P(B) y igualmente

P(A y B) = P(B|A)P(A) y luego

P(A|B) =P(B|A)P(A)

Ejemplo 67 Volvemos al Ejemplo 64. Supong-

amos que se elige un adulto al azar para rel-

lenar un formulario y se observa que no tiene

trabajo. ?Cual es la probabilidad de que la per-

sona elegida sea mujer?

Necesitamos calcular P(M |P). Mediante el teo-

rema de Bayes, tenemos

P(M |P) =P(P |M)P(M)

=0,24 × 0,42

0,1936≈ 0,5207

Ejemplo 68 Retomando el Ejemplo 65 supong-

amos que la prueba le da positivo a la persona.

¿Cual es la probabilidad de que tenga beri beri?

P(B|S) =P(S|B)P(B)

P(S)por el teorema de Bayes

=0,95 × 0,03

0,1255≈ 0,2271

¿Y si la prueba da negativa?

P(B|S) =P(S|B)P(B)

=0,05 × 0,03

1 − 0,1255≈ 0,0017

Ejemplo 69 Volviendo al Ejemplo 66, supong-amos que descubrimos que una caja es defectu-osa. Calculamos la probabilidad de que la cajaprovenga de la cadena A1.

P(A1|D) =P(D|A1)P(A1)

=,01 × ,35

,0197≈ ,1777

Igualmente P(A2|D) = ,03×,20,0197 ≈ ,3046 y tam-

bien, P(A3|D) = ,025×,24,0197 ≈ ,3046.

Finalmente mediante el teorema de Bayes,

P(A4|D) =,02 × ,21

,0197≈ ,2132

o mas facilmente,

P(A4|D) = 1 − P(A1|D) − P(A2|D) − P(A3|D)

= 1 − ,1777 − ,3046 − ,3046 ≈ ,2132

Ejemplo 70 3 prisioneros, Andres, Bruno y Car-los han solicitado la libertad condicional. Sesabe que el gobernador va a poner en libertada uno de los tres pero el no va a decir quienhasta finales del mes. El gobernador dice a An-dres que puede informarle del nombre de unsolicitante sin exıto dadas las siguientes condi-ciones.

1. Si se va a liberar a Andres, el gobernadordira Bruno o Carlos con la misma probabil-idad (1/2).

2. Si se libera a Bruno, dira el nombre de Car-los.

3. Si Carlos es el que se va a liberar, dira Bruno.

Andres pide al gobernador que le cuente surollo y el gobernador creyendo que su informa-cion es inutil dice a Andres que Bruno se va aquedar en la carcel.

Andres piensa ”mi probabilidad de que me pon-

gan en libertad ha cambiado de 1/3 a 1/2. Es-

toy muy contento.”

¿Tiene razon?

Sean A, B,C los sucesos de que Andres, Bruno

y Carlos respectivamente esten puestos en lib-

ertad. Sea b el suceso de que el gobernador

diga el nombre de Bruno.

Se tiene:

P(A) = P(B) = P(C) = 1/3

porque solo uno de los tres va a salir de la

carcel.

Ademas, sabiendo que el gobernador ha dicho

el nombre de Bruno, se tiene

P(b|A) = 1/2, P(b|B) = 0, P(b|C) = 1.

Entonces, mediante el teorema de Bayes,

P(A|b) =P(b|A)P(A)

=P(b|A)P(A)

P(b|A)P(A) + P(b|B)P(B) + P(b|C)P(C)

=1/2 × 1/3

1/2 × 1/3 + 0 × 1/3 + 1 × 1/3= 1/3

¡Andres no tiene razon!

6. VARIABLES ALEATORIAS

Objetivo

Introducir la idea de una variable aleatoria y

su distribucion y caracterısticas como media,

varianza etc.

Hasta ahora, hemos tratado de sucesos, por

ejemplo A = “la suma de dos tiradas de un da-

do es 7”. Ahora queremos generalizar y tratar

de variables, por ejemplo “la suma de las dos

tiradas” o “el numero de llamadas telefonicas

en una hora”.

Variables aleatorias

Definicion 26 Una variable aleatoria es una

funcion que asocia un valor numerica a to-

dos los posibles resultados de un experimento

aleatorio.

Ejemplo 71 Consideramos el experimento de

lanzar un dado equilibrado dos veces. Sea X =

suma de las dos tiradas.

El espacio muestral es (1,1), (1,2), . . . , (6,6)y para cada suceso elemental, podemos calcu-

lar el valor de X. Por ejemplo si el resultado

del experimento es (3,4) luego X = 7.

La tabla muestra los sucesos elementales aso-

ciados con cada posible valor de X.

x Sucesos elementales2 (1,1)3 (1,2) (2,1)4 (1,3) (2,2) (3,1)5 (1,4) (2,3) (3,2) (4,1)6 (1,5) (2,4) (3,3) (4,2) (5,1)7 (1,6) (2,5) (3,4) (4,3) (5,2) (6,1)8 (2,6) (3,5) (4,4) (5,3) (6,2)9 (3,6) (4,5) (5,4) (6,3)

10 (4,6) (5,5) (6,4)11 (5,6) (6,5)12 (6,6)

Este es un ejemplo de una variable discreta.

Como en el ejemplo, a menudo, se denotan

variables aleatorias por letras mayusculas, por

ejemplo X, y sus posibles valores con letras

minusculas, por ejemplo X = x1.

Observamos que variables pueden ser discre-

tas, como en el ejemplo, o continuas, por

ejemplo el tiempo que dure mi siguiente llama-

da telefonica. El tratamiento de los dos tipos

de variable es algo distınto.

Para variables discretas, podemos definir direc-

tamente la distribucion de la variable.

La distribucion de una variable aleatoria

Definicion 27 Sea X una variable aleatoria disc-

reta con posibles valores x1, x2, . . .. Sean pi =

P(X = xi) para i = 1,2, . . . las correspondi-

entes probabilidades.

Este conjunto de probabilidades se llama la

funcion de probabilidad o la funcion de masa

de la variable.

Ejemplo 72 Supongamos que el dado es equi-

librado. Entonces la funcion de probabilidad de

la variable X = suma de las dos tiradas es la

siguiente.

La distribucion de X

La funcion de probabilidad de X es la siguiente:

x P (X = x)

10 336

11 236

12 136

Total 1

Para ver la forma de la distribucion, es habitual

dibujar la funcion de probabilidad.

Grafico de la funcion de probabilidad de X

0 1 2 3 4 5 6 7 8 9 10 11 12 130

P(X = x)

Vemos que la distribucion es simetrica y uni-

modal.

Propiedades de la distribucion de una vari-able discreta X

1. 0 ≤ P(X = xi) ≤ 1 para todos los valoresxi.

2.∑i P(X = xi) = 1.

3. P(X ≤ x) =∑i, xi≤x P(X = xi).

4. P(X > x) = 1 − P(X ≤ x).

Ejemplo 73 Volviendo al Ejemplo 71, hallam-os las siguientes probabilidades.

1. la suma es menos o igual a 4.

2. la suma es entre 6 y 8 inclusive.

3. la suma es mayor de 3.

1. Queremos P (X ≤ 4)

P (X = 4) = P (X = 2) + P (X = 3) + P (X = 4)

P (6 ≤ X ≤ 8) = P (X = 6) + P (X = 7) + P (X = 8)

P (X > 3) = 1 − P (X ≤ 3)= 1 − P (X = 2) + P (X = 3)=

Ejemplo 74 En ocasiones, algunas lineas aereas

venden mas pasajes que los disponibles en un

vuelo. Una compania ha vendido 205 billetes

que corresponden a un avion con 200 plazas.

Sea X la variable aleatoria que expresa el numero

de viajeros que se presentan en el aeropuerto

para viajar en el avion. La distribucion de X es

x 198 199 200 201 202 203 204 205P (X = x) ,05 ,09 ,15 ,20 ,23 ,17 ,09 ,02

Hallar la probabilidad de que todos los pasajeros

que llegan a tomar el vuelo tengan plaza.

¿Cual es la probabilidad de que se quede sin

plaza alguno de los pasajeros que se presentan

en el aeropuerto?

Ejemplo tomado de Pe~na y Romo (1997).

Queremos calcular P(X ≤ 200).

P(X ≤ 200) = P(X = 198) + P(X = 199)

+P(X = 200)

= ,05 + ,09 + ,15

La probabilidad de que todos los pasajeros ten-

gan viaje es ,29.

Igualmente, la probabilidad de que se quede sin

viaje algun pasajero es

P(X > 200) = 1 − P(X = 200) = ,71.

La funcion acumulada de distribucion

Definicion 28 La funcion (acumulada) de

distribucion de una variable X es la funcion

F(x) = P(X ≤ x).

Para una variable discreta, la funcion de dis-

tribucion es una funcion escalon, es decir que

tiene las siguientes propiedades:

1. F(−∞) = 0

2. F(∞) = 1

3. F(x) ≤ F(x+ ε) para cualquier ε > 0.

Ejemplo 75 Volviendo al Ejemplo 71, tabu-

lamos la funcion acumulada de distribucion.

x P (X = x) F (x)

10 336

11 236

12 136

1Total 1 −−

Construimos un grafico de la funcion de dis-

tribucion.

Grafico de la funcion acumulada de dis-

tribucion de X

0 1 2 3 4 5 6 7 8 9 10 11 12 130

Ejemplo 76 En el Ejemplo 74, tenemos

x 198 199 200 201 202 203 204 205P (X = x) ,05 ,09 ,15 ,20 ,23 ,17 ,09 ,02

F (x) ,05 ,14 ,29 ,49 ,72 ,89 ,98 1

197198199200201202203204205206 x

Media o esperanza de una variable discreta

Supongamos que se repite un experimento (tirar

un dado 2 veces) n veces y que se observan los

resultados (suma de las dos tiradas) cada vez.

Supongamos que se observa ni repeticiones del

valor xi.

Luego, la media muestral es

nixi =∑i

donde fi es la proporcion de veces que ha ocur-

rido xi.

Si supongamos un numero infinito de repeti-

ciones, tenemos fi → P(X = xi) y

x → E[X] =∑i

P(X = xi) × xi

Luego E[X] es una medida de localizacion de

la distribucion de X.169

Definicion 29 La esperanza o media de una

variable aleatoria discreta X es

E[X] =∑i

P(X = xi) × xi

A menudo, tambien se utiliza la letra griega µ

para representar la media de X.

Ejemplo 77 Volvemos al Ejemplo 71.

La media de X es

E[X] =1

36× 2 +

36× 3 +

36× 4 + . . .+

36× 11 +

36× 12

Ejemplo 78 En el Ejemplo sobre los pasajeros,

el numero medio de pasajeros que llegan al

aeropuerto es

µ = ,05 × 198 + ,09 × 199 +

. . .+ ,02 × 205

= 201,44

Observamos que la media no siempre es uno

de los valores posibles de X.

Esperanza de una funcion de X

Definicion 30 Sea g(X) una funcion de X.

Luego la esperanza de g(X) es

E[g(X)] =∑i

P(X = xi) × g(xi)

Ejemplo 79 En el Ejemplo 74 supongamos que

la compania area recibe 250 euros por cada

billete que vende pero que tiene que devolver

el precio del ticket y ademas pagar una multa

de 1000 euros a cada pasajero que no puede

montar en el avion.

Calcular la cantidad de dinero que espera co-

brar la compania en este vuelo.

Sea g(X) las ganancias de la compania.

Las ventas totales de tickets son 250 × 205 =

51250 euros.

Si llegan x ≤ 200 personas entonces g(x) =

51250. Si llegan x > 200 personas, g(x) =

51250 − (x− 200) ∗ (1250).

Entonces

E[g(X)] = 51250 × ,05 + 51250 × ,09 +

51250 × ,15 +

(51250 − (201 − 200) ∗ 1250) × ,20 +

(51250 − (202 − 200) ∗ 1250) × ,23 +

+(51250 − (205 − 200) ∗ 1250) × ,02

= 49212,5 euros

En particular tenemos los siguientes resultados

Teorema 10

E[c] = c para una constante c

E[bX] = bE[X]

E[g(X) + h(X)] = E[g(X)] + E[h(X)]

E[a+ bX] = a+ bE[X]

Demostracion

E[c] =∑i

P(X = xi) × c

= c×∑i

P(X = xi)

= c× 1 = c

E[bX] =∑i

P(X = xi) × (bxi)

= b×∑i

P(X = xi) × xi

= bE[X]

E[g(X) + h(X)] =∑i

P(X = xi) × (g(xi) + h(xi))

P(X = xi) × g(xi) +

P(X = xi) × h(xi)

= E[g(X)] + E[h(X)]

El ultimo resultado es consecuencia de los de-

amos que cada pasajero que se presenta al

aeropuerto compra una bebida para 2 euros.

Calcular las ganancias en promedio recibido

por Coca Cola c©.

Queremos E[2X] = 2 × E[X] = 2 × 201,44 =

402,88 euros.

Varianza y desviacion tıpica

Recordamos que la desviacion tıpica muestral

es una medida de la desviacion de la muestra en

torno de la media. Podemos definir de manera

semejante la desviacion tıpica de una variable.

Definicion 31 La varianza de una variable X

que tiene media µ es

V [X] = E[(X − µ)2

]=∑i

P(X = xi)×(xi−µ)2.

La desviacion tıpica es DT [X] =√V [X].

A menudo se escribe σ2 para representar la

varianza y σ para la desviacion tıpica.

Ejemplo 81 Retomamos el Ejemplo sobre los

dados. Tenemos

V [X] =1

36× (2 − 7)2 +

36× (3 − 7)2 +

. . .+1

36× (12 − 7)2

= 6,388 ≈ 6,389

La desviacion tıpica es

DT [X] =√

6,388 ≈ 2,53.

Es lioso calcular la varianza ası. Existe una

manera mas facil

Teorema 11 La varianza de X es

V [X] = E[X2

]− E[X]2

P(X = xi) × x2i − E[X]2

Demostracion

V [X] = E[(X − E[X])2

[X2 − 2XE[X] + E[X]2

]− 2E[X]E[X] + E[X]2

= E[X2

]−E[X]2

Ejemplo 82 En el Ejemplo 74,

E[X2] = ,05 × 1982 + . . .+

,02 × 2052

= 40580,88

σ2 = E[X2] − µ2 = 40580,88 − 201,442

= 2,8064

Luego la desviacion tıpica es σ ≈ 1,675 pasajeros.

Variables continuas

Si tenemos una variable continua X, podemos

definir la funcion acumulada de distribucion de

la misma manera que para una variable discre-

F(x) = P(X ≤ x).

Ahora esta funcion sera una funcion suave y

no una funcion escalon, pero tendra las mismas

propiedades que la funcion de distribucion para

una variable discreta.

F(−∞) = 0, F(∞) = 1, F(x + ε) ≥ F(x) para

cualquier ε > 0.

Ejemplo 83 ¿Cuales de las siguientes funciones

pueden ser funciones de distribucion para una

variable continua X?

1. F(x) =

0 si x < 0x2

4 para 0 ≤ x ≤ 21 para x > 2

2. F(x) =

0 para x < −1x2 para −1 ≤ x ≤ 21 para x > 2

3. F(x) =

0 si x ≤ 0

1 − e−x para 0 < x < ∞

Funciones 1 y 3 pueden ser funciones de dis-

tribucion. La funcion 2 es negativa en el rango

−1 < x < 0. Los siguientes dibujos muestran

las funciones de distribucion en casos 1 y 3.

0.0 0.2 0.4 0.6 0.8 1.0

1−e −

0.0 0.2 0.4 0.6 0.8 1.0

La funcion de densidad

Para una variable continua, la funcion de prob-abilidad ya no tiene sentido. No obstante, sedefine otra funcion con propiedades semejantes.

Definicion 32 Para una variable continua Xcon funcion de distribucion F(x), la funcionde densidad de X es

f(x) =dF(x)

Las propiedades de la funcion de densidad son:

f(x) ≥ 0 para todo x.

∫∞−∞ f(x) dx = 1.

F(x) =∫ x−∞ f(u) du.

P(a < X < b) =∫ ba f(x) dx = F(b) − F(a).

Ejemplo 84 Volvemos al Ejemplo 83 y calcu-

lamos las funciones de densidad en casos 1 y

f(x) =d

f(x) =

x2 para 0 < x < 20 si no

f(x) =d

(1 − e−x

)= e−x

f(x) =

e−x para 0 < x < ∞0 si no

Los siguientes dibujos muestran las funciones

de densidad.184

0.0 0.2 0.4 0.6 0.8 1.0

e −x.

0.0 0.2 0.4 0.6 0.8 1.0

Interpretacion de la funcion de densidad

Pensamos en tomar una muestra muy grande

y hacer un histograma de los datos (con bas-

tantes barras) con la area normalizada a 1.

0 2 4 6 8 10

Se ve que el histograma es parecido a la fun-

cion de densidad.

Ejemplo 85 Una variable aleatoria Y tiene la

funcion de densidad

f(y) =

cy2(1 − y) si 0 < y < 1

0 si no

¿Cual es el valor de c?

1 =∫ ∞−∞

f(y) dy

=∫ 1

0cy2(1 − y) dy

= c∫ 1

(y2 − y3

3− y4

3− 1

c = 12

Se ve un diagrama de la funcion de densidad

0.0 0.2 0.4 0.6 0.8 1.0

La densidad es asimetrica a la izquierda.

Hallamos la funcion de distribucion.

Sea 0 < y < 1. Luego

F(y) = P(Y ≤ y)

=∫ y

−∞f(y) dy

=∫ y

012u2(1 − u) du

3− u4

3− y4

F(y) =

0 si y ≤ 0

3 − y4

)si 0 < y < 1

1 si y ≥ 1

0.0 0.2 0.4 0.6 0.8 1.0

¿Cual es P(Y ≤ 0,5)?

P(Y ≤ 0,5) = F(0,5) = 12

3− 0,54

)= ,3125

Media, varianza y desviacion tıpica de unavariable continua

Recordamos las formulas para la media y vari-anza de una variable discreta:

µ =∑i

P(X = xi) × xi

σ2 =∑i

P(X = xi) × (xi − µ)2

En el caso de una variable continua, la funcionde densidad juega el papel de la funcion deprobabilidad y integramos en lugar de sumar.

Definicion 33 Si X es una variable continuacon funcion de densidad f(x) entonces, la me-dia de X es

E[X] =∫f(x) × x dx

y la varianza de X es

V [X] =∫f(x) × (x−E[X])2 dx

La desviacion tıpica es DT [X] =√V [X].

Igual que con variables discretas, se usan los

sımbolos µ y σ para representar la media y

desviacion tıpica respectivamente.

Ademas, existe una forma mas sencilla de ex-

presar la varianza

V [X] = E[X2

]−E[X]2

=∫f(x) × x2 dx− µ2

Las expresiones derivadas para variables disc-

retas valen tambien para variables continuas,

sustituyendo integracion por sumacion.

Ejemplo 86 Volvemos al Ejemplo 83. Calcu-

lamos la media y varianza de la variables del

apartado 1.

f(x) =

x2 para 0 < x < 20 si no

E[X] =∫xf(x) dx

=∫ 2

2× x dx

=∫ 2

2× x2 dx

=∫ 2

V [X] = E[X2

]− E[X]2

= 2 −(4

La desviacion tıpica es DT [X] =√

79 ≈ ,882.

Ejemplo 87 Calculamos la media, varianza y

desviacion tıpica para la variable del Ejemplo

µ =∫ 1

012y2(1 − y) × y dy

=∫ 1

012y3(1 − y) dy

= 12∫ 1

(y3 − y4

4− y5

= 12(1

4− 1

)= 0,6

012y2(1 − y) × y2 dy

=∫ 1

012y4(1 − y) dy

= 12∫ 1

(y4 − y5

5− y6

= 12(1

5− 1

)= 0,4

σ2 = E[Y 2

]− µ2

= 0,4 − 0,62 = 0,04

σ = 0,2

Otras medidas

El coeficiente de variacion de una variable

con media µ y desviacion tıpica σ es

|µ|σ.

El coeficiente de asimetrıa es

E[(X − µ)3

El coeficiente de kurtosis es

E[(X − µ)4

Mediana y Cuartıles

Definicion 34 Para una variable continua X

con funcion acumulada de distribucion F(x),

la mediana es el punto M donde F(M) = 0,5.

Igualmente, si la densidad de X es f(x), se

tiene ∫ M

−∞f(x) dx = 0,5.

Ejemplo 88 Volvemos al caso 1 del Ejemplo

83. En este caso, la funcion de distribucion es

F(x) =x2

4y la mediana es el punto M para que

F(M) =1

√2 ≈ 1,414.

(Si X es una variable discreta, entonces, la me-

diana es el punto mınimo M donde F(M) ≥0,5.)

Se definen los cuartıles de manera semejante.

El primer cuartıl es el punto Q1 donde F(Q1) =14 y el tercer cuartıl es el punto Q3 donde F(Q3) =34.

Ejemplo 89 En el Ejemplo anterior se tiene

4Q1 = 1

√3 ≈ 1,73

Transformaciones de variables

Si X es una variable discreta e Y = g(X) es

una transformacion, se calcula la funcion de

probabilidad de Y mediante

P(Y = y) = P(g(X) = y) = P(X = g−1(y)).

No obstante, si X es continua, es mas compli-

cada sacar una formula general para la densi-

dad de Y .

f(y) = fX(g−1(y))

∣∣∣∣∣ ddyg−1(y)

∣∣∣∣∣

Pero hay algunas reglas para la media y vari-

anza de transformaciones lineales. Vimos antes

en el Teorema 10 algunos resultados para vari-

ables discretas. que tambien valen para vari-

ables continuas.

Transformacion lineal

Sea Y = a + bX una transformacion lineal.

Luego se puede observar que si FY (·) es la fun-

cion de distribucion de Y ,

FY (y) = P(Y ≤ y)

= P(a+ bX ≤ y)

(X ≤ y − a

)si b > 0 o

(y − a

y se a expresado la probabilidad en terminos

de la funcion de distribucion de X.

Ademas, existen expresiones sencillas para la

media y varianza de una transformacion lineal.

E[Y ] = a+ bE[X]

DT [Y ] = bDT [X]

La transformacion tipificante

La transformacion lineal mas importante con-

siste en tipificar una variable aleatoria, X, que

consiste en restarle la media y dividirla por su

desviacion tıpica.

En este caso, siendo

Y =X − µXσX

se tiene E[Y ] = 0 y DT [Y ] = 1.

Sumas y diferencias de variables

Sean X e Y dos variables con medias µX yµY . Entonces si la suma es Z = X + Y , e ladiferencia es S = X − Y , se tiene

µZ = µX + µYµS = µX − µY

Se dice que dos variables X e Y son indepen-dientes si

P(X = x ∩ Y = y) = P(X = x)P(Y = y)

para cualquier valor de x e y. En el caso de dosvariables independientes, tambien existe unaexpresion sencilla para la varianza de la suma.

Si X e Y son independientes, se tiene

σ2Z = σ2

= σ2X + σ2

7. MODELOS DISCRETAS

Objetivo

Introducir las distribuciones discretas mas im-

portantes: las distribuciones Bernoulli, binomi-

al, geometrica y binomial negativa, la distribu-

cion Poisson.

Hasta ahora, hemos tratado todos los proble-

mas de probabilidad por separado. No obstante

en muchos casos, la formula para hallar las

probabilidades tiene la misma forma.

El modelo de Bernoulli

Supongamos que hacemos un experimento sim-

ple de lanzar una moneda sesgada con p =

P(cruz) una vez.

Definimos una variable X como

1 si sale cruz0 si sale cara

es decir que X = el numero de cruces.

En este caso, se dice que X tiene una distribu-

cion de Bernoulli con parametro p.

Una variable con solo dos posibles resultados

(cruz / cara, exito / fracaso, . . .) donde se da

un valor de 1 en caso de cruz (exito) y 0 en

caso de cara (fracaso) tiene una distribucion de

Bernoulli. El experimento se llama un ensayo

de Bernoulli.

Media y varianza de una variable Bernoulli

Sea X una variable Bernoulli con parametro p.

Luego:

E[X] = p× 1 + (1 − p) × 0

]= p× 12 + (1 − p) × 02

V [X] = E[X2

]− E[X]2

= p− p2

= p(1 − p)

DT [X] =√p(1 − p)

Ejemplo 90 Se sabe que una maquina pro-

duce un 3 % de piezas defectuosas. Elegimos

una pieza al azar para comprobar si no presen-

ta defectos. ¿C omo se distribuye la variable X

que vale 1 si la pieza no es defectuosa y 0 si

es defectuosa?

¿Cuales son su media y su varianza?

X sigue una distribucion Bernoulli con parametro

0,97. La media y varianza son

E[X] = ,97

V [X] = ,97 × ,03

= ,0291

Ejemplo tomado de Pe~na y Romo (1997)

La distribucion binomial

Supongamos ahora que se repiteun ensayo de

Bernoulli n veces de forma independiente, por

ejemplo que se tira la moneda con p = P(cruz)

n veces, y que se quiere la distribucion de X =

el numero de cruces. Esta distribucion se llama

la distribucion binomial con parametros n y p.

Definicion 35 Una variable X tiene una dis-

tribucion binomial con parametros n y p si

P(X = x) =

)px(1 − p)n−x

para x = 0,1, . . . , n donde

x!(n−x)!. En

este caso, se escribe X ∼ B(n, p).

Por tanto, la distribucion Bernoulli es el caso

especial X ∼ B(1, p).

Ejemplo 91 Volviendo al Ejemplo 90, supong-

amos que se eligen 10 piezas al azar. Si X es

el numero de piezas defectuosas, ¿cual es la

distribucion de X?

X ∼ B(10, 0,03)

Igualmente, si Y es el numero de piezas buenas,

Y ∼ B(10, 0,97)

¿Cual es la probabilidad de que se encuentre

por lo menos una pieza defectuosa?

P(X ≥ 1) = 1 − P(X = 0)

= 1 −(

),030(1 − ,03)10−0

≈ ,263

La media y desviacion tıpica de una vari-able binomial

Teorema 12 Sea X ∼ B(n, p). Luego

E[X] = np

V [X] = np(1 − p)

DT [X] =√np(1 − p)

Demostracion

Escribimos X = X1+X2+ . . .+Xn donde cadaXi es un ensayo de Bernoulli. Luego,

E[X] = E[X1 +X2 + . . .+Xn]

= E[X1] + . . .+E[Xn]

= p+ . . .+ p = np

V [X] = V [X1 +X2 + . . .+Xn]

= V [X1] + . . .+ V [Xn]

= np(1 − p)

Ejemplo 92 El numero medio de piezas de-

fectuosas en una muestra de 10 es

10 × 0,03 = 0,3

La desviacion tıpica es

√10 × 0,03 × 0,97 ≈ ,54

La distribucion geometrica

Hemos visto que si se tira una moneda (conp = P(cruz)) n veces, entonces el numero decruces se distribuye como binomial.

Consideramos otro experimento relacionado.Vamos a sequir tirando la moneda hasta queveamos la primera cruz ?Cuantas caras obser-vamos antes de que ocurra?

Sea X el numero de caras. Luego

P(X = 0) = p

P(X = 1) = (1 − p)p

P(X = 2) = (1 − p)2p... = ...

P(X = x) = (1 − p)xp

La distribucion de X se llama la distribuciongeometrica con paramtero p.

tribucion geometrica con parametro p si

P(X = x) = (1 − p)xp para x = 0,1,2, . . .

En este caso, se escribe X ∼ G(p).

Teorema 13 Si X ∼ G(p), luego E[X] = 1−pp

y V [X] = 1−pp2

Ejemplo 93 En el Ejemplo 90, supongamos

que se va a inspeccionar piezas hasta encon-

trar la primera pieza defectuosa. ¿Cual es la

probabilidad de que se necesiten inspeccionar

4 o menos piezas para encontrar la primera

pieza defectuosa?

Sea Y el numero de inspecciones necesarios.

Luego Y + 1 ∼ G(0,03).

P(Y ≤ 4) = P(Y − 1 ≤ 3)

0,97y × 0,03

≈ 0,115

El numero esperado de inspecciones necesarias

serıa

1 + 0,97/0,03 = 33.3.

La distribucion binomial negativa

En el caso de la distribucion geometrica, se

mide el numero de tiradas antes de ver la primera

cruz. Ahora se mide el numero de tiradas antes

de ver el r’esima cruz.

tribucion binomial negativa con parametros

r y p si

P(X = x) =

(r + x− 1

)(1 − p)xpr

para x = 0,1,2, . . .

En este caso, se escribe X ∼ NB(r, p).

La media y varianza de esta distribucion son

E[X] = r1 − p

pV [X] = r

1 − p

Muestreo sin reemplazamiento y la distribu-

cion hipergeometrica

Supongamos que una urna contiene N pelotas,

R de ellas rojas y los demas blancas. Se decide

quitar n pelotas una por una sin reemplaza-

miento. Sea X el numero de pelotas rojas que

se quitan. Entonces X tiene una distribucion

hipergeometrica.

tribucion hipergeometrica con parametros N,R, n

P(X = x) =

)(N −Rn− x

para x = 0,1, . . . , n

Se tiene E[X] = nRN .

Sucesos raros y la distribucion de Poisson

La distribucion del numero de “sucesos raros”

(llamadas de telefono, emisiones de partıcu-

los radioactivos, accidentes de trafico, numero

de erratas) que ocurren en un periodo fijo del

tiempo (una hora, un segundo, un ano, una

pagina) es la llamada distribucion Poisson. Es-

ta distribucion tiene un parametro λ que rep-

resenta el numero medio de accidentes por

unidad de tiempo.

tribucion Poisson con parametro λ si

P(X = x) =λxe−λx!

para x = 0,1,2, . . .

En este caso, se escribe X ∼ P(λ).

Teorema 14 Si X ∼ P(λ), luego E[X] = λ,

V [X] = λ y DT [X] =√λ.

Ejemplo 94 El numero medio de erratas por

transparencia es 1,2. ¿Cual es la probabilidad

de que en una transparencia no haya erratas?

Sea X el numero de erratas. Luego X ∼ P(1,2).

P(X = 0) =1,20e−1,2

0!= e−1,2 ≈ 0,301

¿Y la probabilidad de que haya 2 o mas er-

ratas?

P(X ≥ 2) = 1 − P(X < 2)

= 1 − P(X = 0) − P(X = 1)

= 1 −1,20e−1,2

1,21e−1,2

≈ 0,34

Teorema 15 Si X ∼ P(λ) es el numero de

sucesos raros en una unidad de tiempo e Y

representa el numero de sucesos raros en un

tiempo t, entonces

Y ∼ P(tλ).

Ejemplo 95 En promedio, hay 50 incendios

serios cada ano en la provincia de Chimbomba.

?Cual es la probabilidad de que no haya ningun

incendio manana?

El numero medio de incendios por dıa es 50364 ≈

0,137. Luego, la probabilidad de cero incendios

mnana es

0,1370e−0,137

0!≈ 0,872

amos que escribo 10 transparencias para un

curso. ¿Cual es la probabilidad de que con-

tengan por lo menos una errata?

Sea Y el numero de erratas. Luego

E[Y ] = 10 × 1,2 = 12

e Y ∼ P(12).

P(Y > 0) = 1 − P(Y = 0)

= 1 − 120e−12

0!≈ 0,999994

Aproximacion de la distribucion binomial

con una distribucion Poisson

Sea X ∼ B(n, p) donde p es pequena y n grande.

P(X = x) =

)px(1 − p)n−x

≈ (np)xe−npx!

= P(Y = x) donde Y ∼ P(np).

El resultado implica que para n grande (n >

50) y p pequeno, (p < 0,1) entonces se pueden

aproximar probabilidades binomiales a traves

de la distribucion Poisson.

Ejemplo 97 Sea X ∼ B(100, 0,05). Estimar

P(X ≤ 3).

E[X] = 100 × 0,05 = 5

Luego aproximando usando las tablas de la dis-

tribucion Poisson, se tiene

P(X ≤ 3) =3∑

P(X = x)

≈ 0,0067 + 0,0337 + 0,0842 + 0,1404

= 0,265

La solucion exacta usando la distribucion bino-

mial es 0,2578.

8. MODELOS CONTINUOS

Objetivo

Introducir las distribuciones distribuciones con-

tinuas mas importantes: las distribuciones uni-

forme, exponencial y normal. Ilustrar el uso de

tablas de probabilidades de la distribucion nor-

mal. Comentar el teorema central del lımite y

el uso de la distribucion normal como aproxi-

macion.

La distribucion uniforme

Supongamos que una variable X puede tomar

valores al azar en un rango (a, b). En este caso,

se dice que X tiene una distribucion uniforme

entre a y b y se escribe

X ∼ U(a, b).

En este caso, la probabilidad de que X caiga

en cualquier zona es la misma, y entonces la

funcion de densidad es constante.

1b−a

La funcion de distribucion

Si X ∼ U(a, b), luego, si a < x ≤ b,

F(x) = P(X ≤ x)

=∫ x

b− adu

b− a

=x− a

b− a

La media y desviacion tıpica

Teorema 16 Sea X ∼ U(a, b). Luego,

E[X] =a+ b

V [X] =(b− a)2

DT [X] =b− a√

Demostracion

E[X] =∫ b

b− a× x dx

2(b− a)

=b2 − a2

2(b− a)

b− adx

3(b− a)

=b3 − a3

3(b− a)

=b2 + ab+ a2

3V [X] = E

]− E[X]2

=b2 + ab+ a2

3−(a+ b

=b2 + ab+ a2

3− a2 + 2ab+ b2

=a2 − 2ab+ b2

=(b− a)2

La distribucion exponencial

Anteriormente estudiamos la distribucion Pois-

son X ∼ P(λ) como modelo para el numero de

sucesos raros, X, en una unidad del tiempo.

Ahora, supongamos que queremos estudiar la

distribucion del tiempo Y entre un suceso y el

siguiente.

En este caso, la distribucion de Y es una dis-

tribucion exponencial con parametro λ.

Definicion 40 Y tiene una distribucion ex-

ponencial con parametro λ si

f(y) = λe−λy

para 0 < y ≤ ∞. En este caso se escribe Y ∼Ex(λ).

La funcion de distribucion de Y es

F(y) = P(Y ≤ y)

=∫ y

0λe−λu du

=[−e−λu

= 1 − e−λy

para 0 < y < ∞.

La media y varianza

Teorema 17 Si Y ∼ Ex(λ), entonces

E[Y ] =1

V [Y ] =1

DT [Y ] =1

Ejemplo 98 Volvemos al Ejemplo 95. Sabe-

mos que el numero de fuegos por ano tiene

una distribucion Poisson P(50).

?Cual es el tiempo medio entre fuegos?

Hallar la probabilidad de que despues del ulti-

mo fuego, tarda mas de 2 semanas hasta el

siguiente.

El tiempo medio entre fuegos es 1/50 de un

ano, es decir 364/50 = 7,28 dıas.

P(T > 14) =∫ ∞14

364e−

50364t dt

= e−50364×14

≈ 0,146

Generalizando la distribucion exponencial:la distribucion gamma

Supongamos que en lugar de medir el tiempoentre dos sucesos en un proceso Poisson, semide el tiempo hasta que ocurran n sucesos,es decir

X = X1 +X2 + . . .+Xn

donde Xi ∼ Ex(λ).

Entonces, la distribucion de X se llama la dis-tribucion (o Erlang con parametros n y λ. Ladistribucion Erlang es un caso especial de ladistribucion gamma.

Definicion 41 Una variable X se distribuye co-mo gamma con parametros α y β si

f(x) =βα

Γ(α)xα−1e−βx

para α, β > 0.

La media y varianza de X son E[X] = α/β yV [X] = α/β2 resprectivamente.

La distribucion normal

La distribucion normal o gaussiana es la dis-

tribucion continua mas importante.

Definicion 42 Se dice que una variable X se

distribuye como normal con parametros µ y

f(x) =1

2πexp

(− 1

2σ2(x− µ)2

En este caso, se escribe X ∼ N (µ, σ).

La media de la distribucion normal es µ y la

desviacion tıpica es σ. El siguiente grafico mues-

tra la funcion de densidad de tres distribuciones

normales con distıntas medias y desviaciones

tıpicas.

La funcion de densidad normal

−10 −5 0 5 10 15

Se ve que la densidad es simetrica en torno de

la media.

Una propiedad de la distribucion normal

Si X ∼ N(µ, σ), entonces

P(µ− σ < X < µ+ σ) ≈ 0,683

P(µ− 2σ < X < µ+ 2σ) ≈ 0,955

P(µ− 3σ < X < µ+ 3σ) ≈ 0,997

−4 −2 0 2 4

La regla de Chebyshev dice que para cualquiera

variable X

P(µ < kσ < X < µ+ kσ) ≥ 1 − 1

El resultado para la normal justifica la regla

empırica del Tema 1.

Transformacion de una distribucion normal

Si X ∼ N(µ, σ) e Y = a+ bX es una transfor-

macion lineal, luego

Y ∼ N(a+ bµ, bσ).

En particular, definiendo la transformacion

tipificante Z = X−µσ , se tiene

Z ∼ N(0,1)

que es la distribucion normal estandar.

Existen tablas de esta distribucion que se em-

plean para hallar probabilidades.

Ejemplo 99 Es difıcil etiquetar la carne empa-quetada con su peso correcto debido a los efec-tos de perdida de lıquido (definido como por-centaje del peso original de la carne). Supong-amos que la perdida de lıquido en un paquetede pechuga de pollo se distribuye como normalcon media 4% y desviacion tıpica 1%

Sea X la perdida de lıquido de un paquete depechuga de pollo elegido al azar.

¿Cual es la probabilidad de que 3% < X <

¿Cual es el valor de x para que un 90% depaquetes tienen perdidas de lıquido menoresde x?

En una muestra de 4 paquetes, hallar la prob-abilidad de que todos tengan perdidas de pesode entre 3 y 5%.

Sexauer, B. (1980). Journal of Consumer Affairs, 14,

307-325.

P(3 < X < 5) = P

(3 − 4

1<X − 4

5 − 4

)= P(−1 < Z < 1)

= P(Z < 1) − P(Z < −1)

= 0,8413 − 0,1587 = 0,6827

Queremos P(X < x) = 0,9. Entonces

(X − 4

1<x− 4

)= P(Z < x− 4) = 0,9

Mirando las tablas, tenemos x− 4 ≈ 1,282 queimplica que un 90 % de las paquetes tienenperdidas de menos de x = 5,282%.

Para un paquete p = P(3 < X < 5) = 0,6827.Sea Y el numero de paquetes en la muestraque tienen perdidas de entre 3% y 5%. LuegoY ∼ B(4,0,6827).

P(Y = 4) =

)0,68274(1−0,6827)4 = 0,2172

Sumas y diferencias de dos variables nor-

Si X ∼ N(µX, σX) e Y ∼ N(µ, σY ) son indepen-

dientes, entonces la distribucion de la suma o

diferencia de ambas variables es tambien nor-

mal con las siguientes medias y desviaciones

tıpicas.

X + Y ∼ N

(µX + µY ,

√σ2X + σ2

X − Y ∼ N

(µX − µY ,

√σ2X + σ2

Aproximacion mediante la distribucion nor-

Hacemos el experimento de tirar una moneda

con p = 1/3 un numero n de veces. Dibujamos

la funcion de probabilidad de X = # cruces en

los casos n = 5, 20, 50 y 100.

0 1 2 3 4 5

0 5 10 15 20

0 10 20 30 40 50

0 20 40 60 80 100

Se ve que para n grande, la funcion de proba-

bilidad binomial tiene una forma parecida a la

densidad normal.

0 20 40 60 80 100

Aproximacion de la distribucion binomial

Teorema 18 Si X ∼ B(n, p), entonces si n (ynp y np(1 − p)) es grande,

X − np√np(1 − p)

≈ N(0,1)

Esta aproximacion funciona bastante bien sitanto n (n > 30) como np y n(1 − p) son bas-tante grandes. Si np o n(1 − p) es pequeno,(< 5) la aproximacion Poisson funciona mejor.

Ejemplo 100 Sea X ∼ B(100, 1/3). EstimarP(X < 40).

Calculamos primero a media y varianza de X.

E[X] = 100 × 1

3= 33.3

V [X] = 100 × 1

3= 22.2

DT [X] ≈ 4,714

Ahora usamos la aproximacion normal

P(X < 40) = P

(X − 33.3

4,714<

40 − 33.3

≈ P (Z < 1,414) donde Z ∼ N(0,1)

≈ 0,921

La probabilidad correcta es

39∑x=0

)100−x= 0,903

La aproximacion no parece gran cosa pero lo

podemos mejorar.

La correccion de continuidad

Si X ∼ B(n, p), entonces X es una variablediscreta y luego P(X ≤ x) = P(X < x + 1) yigualmente P(X ≥ x) = P(X > x− 1).

Luego cuando implementamos la aproximacionnormal, usamos la correccion de continuidad

P(X ≤ x) = P(X < x+ 0,5)

P(X ≥ x) = P(X > x− 0,5)

P(x1 ≤ X ≤ x2) = P(x1 − 0,5 < X < x2 + 0,5)

Ejemplo 101 Volvemos al Ejemplo 100. Aho-ra usamos la correccion de continuidad.

P(X < 40) = P(X ≤ 39)

= P(X < 39,5)

39,5 − 33.3

= P(Z < 1,308) = 0,905

La aproximacion es algo mejor usando la cor-reccion de continuidad.

Ejemplo 102 El 35 % de los habitantes de una

ciudad votan a cierto partido polıtico. Se en-

cuesta a 200 personas. Llamemos X al numero

de personas que votan a dicho partido.

¿Cual es la distribucion de X?

Calcular la probabilidad de que entre la gente

de la encuesta haya entre 70 y 80 votantes de

ese partido.

La verdadera distribucion de X es binomial

X ∼ B(200, 0,35).

La media de la distribucion es 70 y la desviacion

tıpica es 6,745.

Para calcular P(70 ≤ X ≤ 80) usamos una

aproximacion normal

P (70 ≤ X ≤ 80) = P (69,5 < X < 80,5)

(69,5 − 70

6,745<X − 70

6,745<

80,5 − 70

)≈ P (−0,074 < Z < 1,557)= P (Z < 1,557) − P (Z < −0,074)= 0,940 − 0,470 = 0,47

La distribucion binomial no es la unica dis-

tribucion que se puede aproximar mediante una

distribucion normal. Cualquiera distribucion la

que se puede representar como la distribucion

de una media (o suma) de variables indepen-

dientes y identicamente distribuidas

n(X1 + . . .+Xn)

puede estar aproximada por una normal.

El teorema central del lımite

Teorema 19 Sea X1, . . . , Xn ∼ f(·) con media

µ y desviacion tıpica σ. Luego si n es grande,

X − µ

σ/√n

≈ N(0,1)

El teorema tambien implica que si n es grande,

la suma∑ni=1Xi tiene aproximadamente una

distribucion normal

n∑i=1

Xi ≈ N(nµ, nσ2

Aproximacion de la distribucion Poisson

Sea X ∼ P(λ) el numero de sucesos raros en

una unidad de tiempo. Definimos Y como el

numero de sucesos en n unidades de tiempo.

Luego podemos escribir

Y = X1 +X2 + . . .+Xn

donde Xi ∼ P(λ) es el numero de sucesos en

la i-esima unidad de tiempo.

Ası, podemos aplicar el teorema central del

lımite a aproximar la distribucion Poisson con

una distribucion normal.

Teorema 20 Sea X ∼ P(λ). Para λ grande

(λ > 20), entonces

X ≈ N(λ,√λ)

El grafico muestra la funcion de probabilidad

de la distribucion Poisson con λ = 20 y la den-

sidad normal con media y varianza λ.

0 10 20 30 40

La aproximacion se mejora si el valor de λ es

mas grande.

Cuando se utiliza la aproximacion a la distribu-cion Poisson, es importante aplicar la correc-cion de continuidad.

Ejemplo 103 Sea X ∼ P(49).Estimar P(45 ≤ X ≤ 52).

P (45 ≤ X ≤ 52) = P (44,5 < X < 52,5)por la correccion de continuidad

(44,5 − 49√

49<X − 49√

52,5 − 49√49

)≈ P (−0,643 < Z < 0,5) donde Z ∼ N(0,1)= P (Z < 0,5) − P (Z < −0,643)= 0,6915 − 0,2602≈ 0,431

La solucion exacta calculada a traves de la dis-tribucion Poisson es

P(45 ≤ X ≤ 52) =52∑

49xe−49

= 0,433

Distribuciones asociadas con la distribu-cion normal:

1) La distribucion logarıtmico normal

Si X ∼ N(µ, σ) y se define Y = eX, luego sedice que Y se distribuye como logarıtmico nor-mal con parametros µ, σ. La distribucion log-arıtmico normal es un modelo empleado tıpi-camente para tiempos de funcionamiento demaquinas y para variables asımetricas como in-gresos o gastos.

0 5 10 15

2) La distribucion ji-cuadrado

Definicion 43 Sean X1, . . . , Xn variables nor-

males estandares. Luego si X =∑ni=1X

2i en-

tonces X tiene una distribucion ji-cuadrado

con n grados de libertad.

Se puede demostrar que esta distribucion es un

caso especial de la distribucion gamma.

Teorema 21

X ∼ Ga

Luego E[X] = n y V [X] = 2n.

3) La distribucion F de Fisher

Definicion 44 Sean X e Y dos variables ji-

cuadrado con m y n grados de libertad respec-

tivamente. Luego la distribucion de la razon

F =X/m

es la distribucion F de Fisher con m y n grados

de libertad.

4) La distribucion t de Student

Definicion 45 Si F es una variable F de Fisher

con 1 y n grados de libertad, luego T =√F

tiene la distribucion t de Student con n grados

de libertad.

9. INTRODUCCION A DISTRIBU-CIONES MULTIVARIANTES

Objetivo

Introducir la idea de la distribucion conjunta

de dos variables discretas. Generalizar las ideas

del tema 2. Introducir la distribucion normal

bivariante.

En esta seccion se trata de la distribucion con-

junta de dos variables. Veremos un ejemplo.

Ejemplo 104 Se lanzan tres monedas distıntas

con probabilidades de cara de 0,5, 0,4 y 0,3 re-

spectivamente. Sean X el numero de caras (C)

en las primeras dos monedas e Y el numero de

cruces (c) en las ultimas dos lanzadas.

Los posibles resultados del experimento, sus

probabilidades y los valores de las variables X

e Y son los siguientes.

Resultado Prob. X YC,C,C 0,06 2 0C,C, c 0,14 2 1C, c, C 0,09 1 1C, c, c 0,21 1 2c, C,C 0,06 1 0c, C, c 0,14 1 1c, c, C 0,09 0 1c, c, c 0,21 0 2

Hacemos una tabla de doble entrada mostran-

do la distribucion conjunta de las dos variables.

La distribucion conjunta de X e Y

Definicion 46 Para dos variables discretas X

e Y , la distribucion conjunta de X e Y es el

conjunto de probabilidades P(X = x, Y = y)

para todos los posibles valores de x e y.

Y0 1 2

0 0,00 0,09 0,21X 1 0,06 0,23 0,21

2 0,06 0,14 0,001

Observamos que∑x

∑yP(X = x, Y = y) = 1.

Las distribuciones marginales de X e Y

Y0 1 2

0 0,00 0,09 0,21 0,3X 1 0,06 0,23 0,21 0,5

2 0,06 0,14 0,00 0,20,12 0,46 0,42 1,0

La distribucion marginal de X es

P(X = x) =

0,3 si x = 00,5 si x = 10,2 si x = 2

0 si no

Observamos que

P(X = x) =∑yP(X = x, Y = y)

La distribucion condicionada

La distribucion condicionada de Y dado X = 2

P(Y = y|X = 2) =

0,3 si y = 00,7 si y = 1

0 si no

Observamos que P(Y = y|X = x) = P (X=x,Y=y)P (X=x) .

La media condicionada es

E[Y |X = 2] = 0,3 × 0 + 0,7 × 1 = 0,7

Independencia

Definicion 47 Se dicen que dos variables (disc-

retas) X e Y son independientes si

P(X = x, Y = y) = P(X = x)P(Y = y)

para todos los valores de x e y.

Esta definicion equivale a decir que

P(X = x|Y = y) = P(X = x) o

P(Y = y|X = x) = P(Y = y)

para todos los valores de x e y.

En nuestro ejemplo, X e Y no son independi-

entes.

Covarianza y correlacion

Definicion 48 Para dos variables X e Y , la

covarianza entre X e Y es

Cov[X,Y ] = E[(X − E[X])(Y − E[Y ])

A menudo, se escribe σXY para representar la

covarianza.

En la practica, normalmente, se evalua la co-

varianza a traves de otra formula equivalente.

Teorema 22

Cov[X,Y ] = E[XY ] −E[X]E[Y ]

Se calcula E[XY ] =∑x∑y xyP(X = x, Y = y).

Ejemplo 105 Volvemos al Ejemplo. Tenemos:

E[X] = 0 × 0,3 + 1 × 0,5 + 2 × 0,2

E[Y ] = 0 × 0,12 + 1 × 0,46 + 2 × 0,52

E[XY ] = 0 × 0 × 0,00 + 0 × 1 × 0,09 + . . .

+2 × 1 × 0,14 + 2 × 2 × 0

= 0,93

Cov[X,Y ] = 0,93 − 0,9 × 1,5

= −0,42

Una medida sin unidades es la correlacion.

Definicion 49 La correlacion entre X e Y es

Corr[X, Y ] =Cov[X,Y ]

DT [X]DT [Y ]

A menudo, se escribe ρXY para representar lacorrelacion y entonces ρXY = σXY

σXσY.

Ejemplo 106 Tenemos

]= 02 × 0,3 + 12 × 0,5 + 22 × 0,2

V [X] = 1,3 − 0,92 = 0,49

DT [X] = 0,7

]= 02 × 0,12 + 12 × 0,46 + 22 × 0,52

= 2,54

V [Y ] = 2,54 − 0,932 = 1,6751

DT [Y ] ≈ 1,294

Corr[X, Y ] =−0,42

0,7 × 1,294≈ −0,464

Hay una relacion negativa entre las dos vari-ables.

Propiedades de la correlacion

1. −1 ≤ ρXY ≤ 1

2. La correlacion es igual a 1 si y solo si existeuna relacion lineal positiva entre X e Y , esdecir

Y = α+ βX

donde β > 0.

3. La correlacion es −1 si y solo si existe unarelacion lineal negativa

Y = α− βX

donde β < 0.

4. Si X e Y son independientes, ρXY = 0.

El ultimo resultado no es verdad al reves. Ex-isten variables incorreladas pero dependientes.

Variables continuas

Para dos variables continuas, se puede definir

la funcion de distribucion conjunta

F(x, y) = P(X ≤ x, Y ≤ y)

y la funcion de densidad conjunta

f(x, y) =∂2

∂x∂yF(x, y)

Se tiene∫ x

−∞

−∞f(x, y) dx dy = F(x, y)∫ ∞

−∞

∫ ∞−∞

f(x, y) dx dy = 1

Se calcula la distribucion condicionada, media,

covarianza etc. de manera semejante al calculo

para variables discretas pero sustituyendo inte-

grales por sumatorios donde sea necesario.

Ejemplo 107 Verificar que la siguiente fun-

cion bivariante es una densidad

f (x, y) = 6xy2, 0 < x < 1,0 < y < 1,

En primer lugar observamos que f(x, y) ≥ 0 y

en segundo lugar, debemos comprobar que la

densidad integra a 1.

06xy2dxdy =

=∫ 1

3dx = 2

Las densidades marginales

La densidad marginal de X es

f(x) =∫f(x, y) dy

Luego tenemos

f(x) =∫ 1

06xy2 dy

= 2x para 0 < x < 1

Igualmente, la densidad marginal de Y es

f(y) =∫ 1

06xy2 dx

2y2]10

= 3y2 para 0 < y < 1

Observamos que

f(x, y) = 6xy2

= 2x× 3y2

= f(x)f(y)

Luego X e Y son independientes.

Entonces sabemos que

f(x|y) = f(x)

f(y|x) = f(y)

Cov[X,Y ] = 0

La distribucion normal bivariante

La distribucion normal bivariante es la mas im-

portante de las variables aleatorias continuas

bivariantes. Una variable aleatoria bivariante

(X, Y ) que sigue una distribucion normal bi-

variante se carateriza por un vector de medias,

(µXµY

y una matriz de varianzas y covarianzas,

(σ2X σXY

σXY σ2Y

Si X e Y tienen una distribucion normal bivari-

ante, se escribe (X, Y ) ∼ N (µ,Σ) .

Propiedades de la distribucion normal bi-

variante

1. Las distribuciones marginales de X y de Y

son normales.

2. Las distribuciones condicionadas son nor-

males.

3. Si la covarianza es cero, entonces X e Y

son independientes.

4. Cualquier transformacion lineal,(UV

donde A es una matriz, es normal.

El siguiente grafico muestra la funcion de den-

sidad conjunta de una distribucion normal bi-

variante estandar, con media µ = (0,0)T y ma-

triz de varianzas y covarianzas Σ = I.

−3−2

5. probabilidad - halweb.uc3m.es

Documents

unidad 5 probabilidad

apunte probabilidad 5

algebra de probabilidad - actividad 5 - saia

probabilidad contrastes y anova [modo de...

act 5 compilacion unidad probabilidad

tema 4. probabilidad y variables aleatorias -...

probabilidad y estadÍstica i -...

aacap 5 distribuciones de probabilidad

statistics ii lesson 5. regression analysis (second...

asignatura : inferencia estad´istica titulacio´n :...

trabajo fin de mÁster probabilidad 4º e.s.o. opción a ·...

sesion 5 probabilidad

probabilidad ss: cívica y 5 temas de

unidad 5. distribuciones de probabilidad probabilidad y...

unidad 5. probabilidad y estadistica enemay2015

4. probabilidad condicionada y el teorema...

5. probabilidad clásica

1.experimentos aleatorios. sucesos aleatorios....

5 conceptos de probabilidad (ii)

capítulo 5: probabilidad e inferencia estadística ·...