libro estadistica

322
1 CAPITULO I PROBABILIDADES Existen muchos caminos para llegar al concepto de probabilidad, sin embargo, el más primitivo, simple y manejable, para científicos e investigadores que deban aplicar resultados de probabilidades a problemas concretos del mundo real, consiste en repetir un experimento o juego muchas veces bajo las mismas condiciones, y calcular la frecuencia relativa con que ocurre un determinado suceso de interés. Lo anterior significa que el número de veces que se haya realizado el suceso debe dividirse por el número total de veces que se hizo el experimento o se jugó la partida. A este cociente se le llama frecuencia relativa del suceso. Por ejemplo, cuando decimos que en determinadas condiciones un tirador hace blanco en el 96% de los casos, ello quiere decir que por cada 100 disparos efectuados por él en condiciones similares, en promedio, 96 dan en el blanco. De esta forma, el número 0.96 proporciona un índice de la puntería de nuestro tirador; esto es, el número de blancos efectuados en idénticas condiciones de tiro será casi siempre el mismo. La forma actual de acercarse a la noción de probabilidad consiste en adoptar un punto de vista abstracto, donde se parte de un conjunto de axiomas y a partir de ellos se deducen y demuestran propiedades adicionales de las probabilidades. Este es el enfoque axiomático de las probabilidades que emplearemos en este texto y, como veremos, proporciona una descripción matemática del concepto de probabilidad. La teoría de probabilidades proporciona las herramientas básicas para construir y analizar modelos matemáticos para fenómenos aleatorios. El estudio de estos fenómenos está relacionado con experimentos cuyos resultados no pueden ser predichos con certeza. 1.1. Espacio Muestral, Eventos Cuando se efectúa un experimento, muchas veces no se sabe con certeza el resultado que se va a obtener; por ejemplo, si lanzamos una moneda al aire, no sabemos si ésta, al caer, mostrará una cara o un sello. En tal caso, el experimento se dice . En cambio, si al realizar No-determínistico o Aleatorio un experimento sabemos de antemano cuál será el resultado, decimos que el experimento es de tipo ; por ejemplo, la caída de un cuerpo en Determínistico un campo gravitacional, la aceleración que adquiere un cuerpo al caer en el vacio, etc. En general, hablaremos de para referirnos a cualquier operación experimento cuyo resultado no puede ser predicho con certeza antes de realizarlo.

Upload: maria-jose-a-cruces

Post on 01-Dec-2015

829 views

Category:

Documents


11 download

TRANSCRIPT

Page 1: Libro Estadistica

1

CAPITULO IPROBABILIDADES

Existen muchos caminos para llegar al concepto de probabilidad, sin embargo,el más primitivo, simple y manejable, para científicos e investigadores quedeban aplicar resultados de probabilidades a problemas concretos del mundoreal, consiste en repetir un experimento o juego muchas veces bajo las mismascondiciones, y calcular la frecuencia relativa con que ocurre un determinadosuceso de interés.

Lo anterior significa que el número de veces que se haya realizado el sucesodebe dividirse por el número total de veces que se hizo el experimento o sejugó la partida. A este cociente se le llama frecuencia relativa del suceso. Porejemplo, cuando decimos que en determinadas condiciones un tirador haceblanco en el 96% de los casos, ello quiere decir que por cada 100 disparosefectuados por él en condiciones similares, en promedio, 96 dan en el blanco.De esta forma, el número 0.96 proporciona un índice de la puntería de nuestrotirador; esto es, el número de blancos efectuados en idénticas condiciones detiro será casi siempre el mismo.

La forma actual de acercarse a la noción de probabilidad consiste en adoptar unpunto de vista abstracto, donde se parte de un conjunto de axiomas y a partir deellos se deducen y demuestran propiedades adicionales de las probabilidades.Este es el enfoque axiomático de las probabilidades que emplearemos en estetexto y, como veremos, proporciona una descripción matemática del conceptode probabilidad. La teoría de probabilidades proporciona las herramientasbásicas para construir y analizar modelos matemáticos para fenómenosaleatorios. El estudio de estos fenómenos está relacionado con experimentoscuyos resultados no pueden ser predichos con certeza.

1.1. Espacio Muestral, Eventos

Cuando se efectúa un experimento, muchas veces no se sabe con certeza elresultado que se va a obtener; por ejemplo, si lanzamos una moneda al aire, nosabemos si ésta, al caer, mostrará una cara o un sello. En tal caso, elexperimento se dice . En cambio, si al realizarNo-determínistico o Aleatorioun experimento sabemos de antemano cuál será el resultado, decimos que elexperimento es de tipo ; por ejemplo, la caída de un cuerpo enDetermínisticoun campo gravitacional, la aceleración que adquiere un cuerpo al caer en elvacio, etc.

En general, hablaremos de para referirnos a cualquier operaciónexperimentocuyo resultado no puede ser predicho con certeza antes de realizarlo.

Page 2: Libro Estadistica

2

Al desarrollar un experimento tendremos, como consecuencia, un conjunto deresultados posibles asociados a dicho experimento, que llamaremos EspacioMuestral y que denotaremos por . Este conjunto tiene variasHcaracterísticas que veremos a continuación.

Si el espacio muestral tiene un número finito o infinito numerable deHelementos, diremos que es . Por el contrario, si tiene comoH HDiscretoelementos todos los puntos de algún intervalo de la recta real, diremos que Hes un espacio muestral .Continuo

Ejemplo. Seleccionemos al azar una ficha desde una caja que contiene seis.Entonces el experimento consiste en la extracción de una ficha. Si las fichasestán numeradas del 1 al 6, entonces = {1,2,3,4,5,6}, con lo que el resultadoHde una extracción es un número entre 1 y 6.

Consideremos ahora la misma caja y supongamos que extraemos dos fichas a lavez. Los resultados de las dos extracciones los podemos denotar como paresordenados (i,j), i=1,..,6, j=1,..,6, i j, donde la primera componente denota elÁnúmero de la primera ficha extraída y la segunda el número de la otra ficha. Eneste caso el espacio muestral tendrá 30 elementos. Así,H

= { (i,j); i= 1,..,6; j=1,..,6, i j }.H Á

Finalmente, es claro que en ambos casos es un conjunto discreto.H

Llamaremos a un subconjunto cualquiera del espacioEvento o Suceso muestral. Todo subconjunto es un evento; en particular mismo es un evento,Hllamado , y el conjunto vacio también es un evento llamadosuceso seguro Fsuceso imposible.

Diremos que un evento A ocurre si el resultado del experimento es unelemento de A. Por otra parte, dado que los eventos son subconjuntos de , seHpuede aplicar la teoría de conjuntos para obtener nuevos eventos. Así, diremosque el evento A B ocurre si y sólo si ocurre A o ocurre B, o ambos a la vez(por lo menos uno de ellos ocurre). El evento A B ocurre si y sólo si ocurrenA y B a la vez (o uno primero y luego el otro). Finalmente, diremos que elcomplemento de A, A , ocurre si y sólo si no ocurre A.-

Llamaremos a un subconjunto que tiene sólo un elemento.Evento Elemental En caso contrario, hablaremos de Evento Compuesto.

Ejemplo. Consideremos el experimento de observar las caras que muestran dosdados al ser lanzados al aire. El espacio muestral es

Page 3: Libro Estadistica

3

= { (i,j); i=1,..,6; j=1,..,6}.H

Este experimento tiene 36 eventos elementales. Definamos los eventossiguientes:

A : "La suma de los dos números es divisible por tres"."

A : "Los dos dados muestran el mismo número".#

A : "El segundo número es el cuadrado del primero".$

Evidentemente estos eventos son compuestos y podemos describirlos como:

A = { (i,j) : i+j=3n, n=1,2,3,4}" − H

= {(1,2),(2,1),...,(5,4),(6,6)}.

A = { (i,j) : i=j }# − H

= {(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)}.

A = { (i,j) : j=i }$#− H

= {(1,1),(2,4)}.

También podemos formar los eventos

A A = {(1,1), (2,2), (3,3), (4,4), (5,5), (6,6), (2,4)# $ }. A A = {(2,4)}, ..., etc.1 3

1.2. Formas de Contar

Uno de los problemas que el estadístico debe intentar evaluar es el elemento deazar, asociado con la ocurrencia de ciertos eventos de interés, cuando se realizaun experimento. Esta situación en realidad pertenece al campo de lasprobabilidades propiamente tal, que veremos en las secciones siguientes. Sinembargo, un problema que va muy ligado al anterior es el de contar el númerode elementos del espacio muestral asociado a un experimento con un númerofinito de resultados y, en particular, el número de elementos que pertenecen aun evento o suceso específico. Así, más que listar o enumerar los elementos deun espacio muestral, interesa contar los elementos correspondientes. Elprincipio fundamental del conteo es el llamado principio de multiplicación.

Principio de Multiplicación. Si una operación consta de dos etapas: la primerade las cuales puede realizarse de n formas y la segunda de n formas, entonces" #

la operación completa puede realizarse de n n formas." #†

Page 4: Libro Estadistica

4

Ejemplo. Supongamos que un residente de la ciudad de Santiago decide salirde vacaciones un fin de semana. Para este efecto, tiene como alternativasValparaíso, Serena, Los Andes y Concepción, y él puede ir en bus, tren o auto.¿De cuántas formas diferentes puede él realizar esta operación de salir devacaciones?.

El lugar para vacacionar puede ser elegido en n =4 formas y el medio de"

transporte en n = 3 formas. El viaje completo puede llevarse a cabo, de acuerdo#

al principio multiplicativo, en 4 3=12 formas posibles. Un diagrama de árbol†que representa la situación descrita en este ejemplo, aparece en la Figura 1.1. Elprimer conjunto de ramas del árbol representa las cuatro opciones de la primeraetapa y el segundo conjunto de ramas representa las tres alternativas de lasegunda etapa.

Valparaísobustrenauto

Serenabus trenauto

Los Andesbustrenau

ÚÝÝÝÝÝÝÝÝÝÝÝÝÝÝÝÝÝÝÛÝÝÝÝÝÝÝÝÝÝÝÝÝÝÝÝÝÝÜ

ÚÛÜÚÛÜÚÛÜ to

Concepciónbustrenauto

ÚÛÜ

Diagrama de árbolFigura 1.1.

Ejemplo. ¿Cuántos resultados posibles se pueden obtener si lanzamos al airedos dados distinguibles?.

El primer dado puede caer en cualquiera de seis formas. Para cada una de estasseis formas, el segundo dado puede también caer en seis formas. Por lo tanto, elpar de dados puede caer de 6 6 = 36 formas.†

El principio de multiplicación puede extenderse en forma natural a unaoperación que consiste de k etapas. En este caso la operación completa puederealizarse de n n . ... n formas." #† † † k

Page 5: Libro Estadistica

5

Ejemplo. Un autoservicio dispone de 4 tipos de sopa, 3 tipos de sandwich, 5postres diferentes y 4 tipos de bebida. Un almuerzo consiste de una sopa, unsandwich, un postre y una bebida. ¿Cuántos almuerzos diferentes son posibles?.

Aquí la operación completa consta de 4 operaciones diferentes; las operacionesde elegir el tipo de sopa, el tipo de sandwich, el tipo de postre y el tipo debebida, se pueden realizar de 4, 3, 5 y 4 formas diferentes, respectivamente. Porlo tanto, la operación completa de elegir un almuerzo determinado puederealizarse de 4 3 5 4 = 240 formas distintas, en virtud del principio† † †multiplicativo.

Definición. Consideremos n objetos diferentes (o por lo menos distinguibles).El número de de orden k con repetición está dado por n .arreglos k

Ejemplo. Si tenemos tres fichas A, B, C, en una caja y la operación consiste enextraer dos fichas con repetición, entonces el número de arreglos es 3 ; esto es,2

{AA, BB, CC, AB, BA, AC, CA, BC, CB}.

Definición. Llamaremos permutación de n símbolos a cualquier arreglo de losn símbolos en un orden definido.

El número de permutaciones de un conjunto con n símbolos es

n! = n(n 1)(n 2)...3·2·1

Ejemplo. Consideremos todas las permutaciones posibles con las letras A, B yC. Para ello notamos que A puede ocupar 3 posiciones, B y C pueden ocupar 2y 1 posiciones, respectivamente. Así, tenemos 3 2 1 = 6 permutaciones† †distintas, las que podemos denotar como ABC, ACB, BAC, BCA, CAB, CBA.

Ejemplo. Supongamos que de entre un grupo de personas deseamos elegir unPresidente, un Secretario y un Tesorero. ¿De cuántas formas se puede hacer laelección si hay 10 candidatos y en el entendido que una persona puede ocuparsólo un cargo?.

Tenemos 10 alternativas para la elección del Presidente, una vez elegido éstequedan 9 alternativas para la elección de Secretario y luego 8 para la deTesorero. Por el principio de multiplicación hay 10 9 8 = 720 modos† †diferentes de realizar esta operación completa.

La situación del ejemplo anterior corresponde al número de permutaciones uordenaciones de 3 elementos elegidos de un total de 10 elementos.

Page 6: Libro Estadistica

6

Definición. El número de k-uplas que podemos formar usando n símbolosdiferentes (k<n), cada uno una sola vez, se llama permutación de n objetostomando k a la vez. La notación es P .n

k

Utilizando el principio multiplicativo tenemos que P lo podemos escribirnk

como P = n(n 1).....(n k+1), o equivalentemente P =n nk k n!

(n k)!

Ejemplo. Supongamos que 20 atletas entran en una competencia para los 1500metros. ¿De cuántas formas diferentes se pueden repartir los tres primeroslugares?. ¿En cuántas de estas formas tendríamos al atleta número 5 en primerlugar?.

La primera pregunta corresponde a ¿cuál es el número de permutaciones de 20objetos tomando tres a la vez?. Entonces la respuesta es

P = = 6840.#!$

20!17!

Para la segunda pregunta, dado que deseamos que un atleta específico resulteen el primer lugar, sólo podemos elegir para los lugares restantes, por lo que

P = = 342"*#

19!17!

son las formas diferentes mediante las cuales ocupamos las dos últimasposiciones de la terna.

Las permutaciones que ocurren cuando se arreglan objetos en un círculo sonllamadas . Dos permutaciones circulares no sonpermutaciones circularesconsideradas distintas a menos que los objetos correspondientes en los dosarreglos estén precedidos o seguidos por un objeto diferente cuandoprocedemos en dirección horaria. Por ejemplo, si cuatro personas están jugandodominó, no tenemos una nueva permutación si todos se mueven de posición enel sentido horario. Sin embargo, si consideramos una persona en una posiciónfija y arreglamos los 3 restantes en 3! formas, encontramos que hay 6 arreglosdistintos para este juego. Así, tenemos el siguiente resultado dado como unadefinición.

Definición. El número de permutaciones de n objetos distintos arreglados en uncírculo es (n 1)!.

Hasta aquí hemos supuesto que los n objetos considerados son distintos. Así,no podemos aplicar nuestros resultados para determinar el número de formas enlas cuales podemos arreglar las letras de la palabra : "ojos" o las letras en lapalabra "osono" por ejemplo. Esto se resuelve utilizando conpermutaciones repetición. Si consideramos por ejemplo las letras a, b, c, y si las letras b y c

Page 7: Libro Estadistica

7

son ambas iguales a x, entonces las 6 permutaciones de las letras a, b, c setransforman en axx, axx, xax, xxa, xax, xxa, de las cuales sólo 3 son distintas.Así, con 3 letras, de las cuales dos son iguales, tenemos 3!/(2!1 )=3xpermutaciones distintas. Este caso corresponde a permutaciones con repetición.

Definición. El número de permutaciones de n objetos, de los cuales n son de"

un tipo, n de un segundo tipo,..., n son del tipo k-ésimo, está dado por# k

n!n !.n !...n !" # k

Ejemplo. ¿Cuántas permutaciones existen con las letras de la palabra "osono"?.

Considerando todas las letras como distinguibles tenemos 5! permutaciones;pero la letra "o" se repite tres veces. Luego hay 5!/(3!1 ) = 20 arreglosxdiferentes de las letras de la palabra osono.

Ejemplo. ¿De cuántas formas puede una persona recolectar información parauna investigación de mercado si entrevista a 3 de las 20 familias que viven enun edificio de departamentos?.

Tomando en cuenta el orden tenemos P = 6840 arreglos posibles; pero cada#!$

conjunto de 3 puede ser considerado 6 veces. Así, hay 6840/6 = 1140 formasdistintas de obtener información.

Frecuentemente estamos interesados en particionar un conjunto en varias claseso categorías. Esto lo podemos realizar de acuerdo a la definición siguiente:

Definición. El número de formas de particionar un conjunto de n objetosdistintos en k subclases, con n objetos en el primer subconjunto, n en el" #

segundo,..., n en el k-ésimo subconjunto, es:k

PŠ ‹nn , n ,...,n n !n ...n !

nn n n

n!" # " #" #k kk

= = ÞÞÞ

donde n = n.!ki"

Ejemplo. ¿De cuántas formas puede un conjunto de 4 elementos serparticionado en tres subconjuntos conteniendo 2, 1 y 1 objetos,respectivamente?

Sean a, b, c, y d los objetos. Tenemos por enumeración las siguientes 12posibilidades, donde los dos primeros elementos pertenecen al primersubconjunto, el tercero al segundo y el cuarto al tercer subconjunto

Page 8: Libro Estadistica

8

a b c d a b d c a c b d a c d b a d b c a d b c b c a d b c d a b d a c b d c a c d a b c d b a.

El número de particiones en este caso esta dado por:

=12.Š ‹%#ß"ß" = 4!

2!1!1!

Notemos que cuando trabajamos con permutaciones, las k-uplas consideradasdeben tener un orden definido. Esta es la razón de ser de las permutaciones.

En muchas aplicaciones estamos interesados en el número de formas deseleccionar k objetos desde un conjunto que contiene n, sin importar el orden.Este tipo de selección se llama . Una combinación es, en general,combinaciónuna partición en dos celdas, una de las cuales contiene k objetos y la otracontiene los n-k objetos restantes. El número de tales combinaciones deberíadenotarse como ; sin embargo, se utiliza la notación puesto que elŠ ‹ ˆ ‰n n

k,n-k knúmero de elementos en la segunda celda debe ser n-k.

Definición combinación . Llamaremos de n objetos, tomando k a la vez, alnúmero de subconjuntos, cada uno de tamaño k, que tiene un conjunto de nelementos.

Notemos que ahora los subconjuntos no necesitan estar ordenados. Así, siconocemos y multiplicamos por k! deberíamos obtener P ya que cadaˆ ‰n

knk

subconjunto diferente de k elementos dará origen a k!-uplas diferentes.Entonces tenemos que:

k! Pˆ ‰nk (n k)!

n! nk = =

de donde

ˆ ‰nk (n k)!k!

n =

Ejemplo. Un "grafo completo de orden tres" está definido por 3 puntosconectados en todas las formas posibles. Si 15 puntos son unidos en todas lasformas posibles, ¿Cuántos grafos completos de orden 3 deberían incluirse?.¿Cuántos de orden 4, 5,...,15?.

Dado que todos los puntos están unidos, se trata de elegir 3 puntos cualesquierade los 15, en cualquier forma; es decir, es el número de subconjuntos de 3

Page 9: Libro Estadistica

9

elementos que podemos extraer de un conjunto de 15 elementos. Así, hay ˆ ‰"&$

= 455 grafos completos de orden 3, ,... y grafos completos de orden 4,ˆ ‰ ˆ ‰"& "&% "&

... y 15, respectivamente.

Notemos que:

.ˆ ‰ ˆ ‰ ˆ ‰ ˆ ‰n n n k nk (n k)!k! n k k k

n! = = = + " "

La expresión recibe usualmente el nombre de y estሠ‰nk coeficiente binomial

relacionada con el teorema del binomio, el cual nos da la expansión de (x+y)n

para cualquier x e y real, en la expresión

(x+y) = x y .n i n ini

! ˆ ‰œ!

ni

Una aplicación inmediata del teorema del binomio, consiste en determinar elnúmero total de eventos que se pueden definir en un espacio muestral que tienen elementos. Para ver esto, notemos que: el número de eventos con 0 elementoses 1= y corresponde al evento ; hay n = eventos con 1 elemento yˆ ‰ ˆ ‰n n

0 1F

corresponden a los n eventos elementales; con 2 elementos se pueden definirˆ ‰ ˆ ‰n n2 3, con 3 elementos se pueden definir eventos,....,con n-1 elementos se

pueden definir y, finalmente, con n elementos tenemos 1 evento queˆ ‰nn-1

corresponde al mismo . Por lo tanto, el número total de eventos a definir esH

+ + +....+ + = ˆ ‰ ˆ ‰ ˆ ‰ ˆ ‰ ˆ ‰ ˆ ‰!n n n n n n0 1 2 n-1 n i

i=0

n

= 1 1 = (1+1) = 2 .!ˆ ‰i=0

ni n-i n nn

i

1.3. Axiomas de Probabilidad

Al efectuar un experimento es necesario "medir", de alguna manera, loseventos o sucesos que ocurren. La teoría matemática de probabilidades nos dala forma de proceder. En general, las probabilidades están relacionadas con laasignación de números a la ocurrencia de los eventos, los cuales se llamanprobabilidades de dichos eventos.

Definición. probabilidad Una es una función de conjunto, real valuada,definida sobre una clase de subconjuntos del espacio muestral , tal que a unT H subconjunto cualquiera A de le asocia un número P(A), llamadoTprobabilidad de A, y que debe satisfacer los siguientes axiomas:

Page 10: Libro Estadistica

10

Ax.1.- P( ) = 1H

Ax.2.- P(A) 0 

Ax.3.- P( A ) = P(A ), A = , i j .i a E Ái i i j

i! F

En realidad es una clase bien específica: una -álgebra. Esta clase incluye al T 5conjunto , al espacio y es cerrada bajo uniones e intersecciones numerablesF Hde sus conjuntos. Es claro además que la clase de todos los subconjuntos de Hes una -álgebra. Sin embargo, en el desarrollo de los conceptos básicos de5probabilidad, esta particular -álgebra es muy grande y poco práctica. En5general, consideraremos la menor clase de subconjuntos de que constituyaHuna -álgebra y contenga todos los conjuntos y elementos bajo consideración.5

La formulación de los axiomas de probabilidad completa la descripciónmatemática de un experimento aleatorio. Esta consta de tres elementosfundamentales: un espacio muestral , una -álgebra de eventos , y laH 5 Tfunción de probabilidad P. La terna ordenada ( , , P) constituye un H T espaciode probabilidad asociado a un experimento aleatorio.

Los tres axiomas recién enunciados definen una función de conjuntocontablemente aditiva y no negativa. Enseguida, partiendo de estos tresaxiomas fundamentales, veremos algunas propiedades y consecuenciasimportantes de una probabilidad.

En todo experimento aleatorio, el espacio muestral juega el papel deHconjunto universal de manera que todos los complementos son tomados conrespecto a .H

Teorema 1.1. Sean A y B dos eventos arbitrarios. Entonces

(a) P( ) = 0F (b) P(A ) = 1 P(A), donde A es el complemento de A- c

(c) Si A B, entonces P(A) P(B).§ Ÿ (d) Si A B, entonces P(B A) = P(B) P(A).§

Demostración. Dado que y son disjuntos, por Ax.3 tenemos queH F

P( ) = P( ) = P( ) + P( ).H H F H F

Se sigue entonces por Ax.1 que 1 = 1 + P( ) o P( ) = 0, y luego (a).F F

Para (b) notemos que A y A son disjuntos, entonces aplicando Ax.3 y Ax.1-

tenemos

Page 11: Libro Estadistica

11

1 = P( ) = P(A A ) = P(A) + P(A ),H - -

de donde P(A ) = 1 P(A).-

Finalmente, para (c) y (d), si A B entonces B = A (B A ) y§ -

A (B A ) = . Enseguida, aplicando Ax.3 tenemos - F

P(B) = P(A (B A )) -

= P(A) + P(B A ) -

= P(A)+ P(B A) (1.1)

para (c) tenemos de inmediato que P(A) P(B) por Ax.2 y (d) se obtieneŸdespejando P(B A) en (1.1).

Observación. Como un corolario de la parte (c) del Teorema 1.1, se tiene deinmediato que P(A) 1.Ÿ

Teorema 1.2. Dados dos eventos arbitrarios A y B, se tiene:

P(A B) = P(A) + P(B) P(A B). (1.2)

Demostración. Sean A y B eventos, entonces de la teoría de conjuntostenemos que A B = A (B A ). Enseguida utilizando Ax.3, -

P(A B) = P(A (B A )) = P(A) + P(B A ). (1.3) - -

Por otra parte, B = (A B) (B A ) y aplicando nuevamente Ax.3 -

P(B A ) = P(B) P(A B). -

Sustituyendo en ecuación (1.3) obtenemos la ecuación (1.2).

El resultado de este teorema podemos generalizarlo inmediátamente y en formanatural a la unión de tres o más eventos. Utilizando el mismo procedimientopodemos probar que, para eventos arbitrarios A, B y C. P(A B C) = P(A)+P(B)+P(C) P(A B) P(A C)

P(B C) +P(A B C)

y más generalmente

= +P(U A ) P(A ) P(A A )n

j œ "j j i j

n nj i j

i j

! !œ" ß

Page 12: Libro Estadistica

12

+ )+...+ ! i j k

i j k

i j k in

ß ß

"P(A A A ( 1) P( A ),n

i

œ "

donde A , j=1,...,n son eventos arbitrarios.j

Teorema 1.3. Dado un espacio muestral y cualquier evento A ,H H§

P(A) = P(A ),i!k

iœ "

donde A , i=1,k son eventos elementales distintos y A = A .k

ii iœ "

Demostración. Si los A , i=1,..,k son eventos elementales distintos entoncesiA A = , i j y por Ax.3i j a ÁF

P( UA ) = P(A )., si A = U A .k

i=1k

i=

"i i i

k

i!œ"

Ejemplo. Sea A , A ,... una sucesión creciente de eventos. Nos interesa" #

determinar la probabilidad de la unión de los A ; i=1,2,... Para esto definimosiuna nueva sucesión E , E ,... de la siguiente forma:" #

E =A , E = A A ,..., E = A A ," " # # " " n n n

donde definimos A = . Entonces! F

U E = U A y U E = A .i= i= i=

n" " "

_ _i i i n

Además, E E = i j. Enseguida, aplicando Ax.3 o Teorema 1.3 eni j a ÁFforma directa, tenemos

P( A ) = P( E ) = P(E )i=1 i=1 _ _

i i ii!_œ"

= lim P(E )n Ä _!n

ii

œ"

= lim P(U E )nn

iÄ œ "_ i

Page 13: Libro Estadistica

13

= lim P(A ).n Ä _ n

Nota. Si la sucesión de eventos (A ) es decreciente, definimos la nuevai i−Rsucesión (E ) tal que E = A A n, que es una sucesión creciente. Den n n n−R " aaquí, siguiendo el mismo esquema del ejemplo último, se tiene finalmente que

P( A ) = lim P(A ).n= n

" Ä_

_n n

Los axiomas Ax1, Ax2 y Ax3 y los resultados obtenidos de ellos definen laspropiedades de una medida de probabilidad, las cuales son consistentes connuestra noción intuitiva. Sin embargo, ellos no proporcionan que númerosasignar como probabilidad a los eventos.

En problemas relacionados con ciencias aplicadas, una forma natural de asignarla probabilidad de un evento es mediante la observación de la frecuenciarelativa del evento de interés en repetidos ensayos del experimento aleatorio.En este caso se habla de noción frecuencial de probabilidad. Aunque esteesquema está descrito a continuación, no es el único método de asignación deprobabilidades. Otro método común, pero más subjetivo, es el de laverosimilitud relativa, que consiste básicamente en asignar la probabilidad deun evento como el resultado de un juicio subjetivo. La afirmación "hay unaposibilidad del 40% que llueva mañana" es un ejemplo de esta interpretación,donde el número 0.4 es asignado basándose en la información disponible y eljuicio profesional.

El Teorema 1.3 nos da una caracterización de los eventos compuestos medianteeventos elementales, lo que facilita en gran medida el cálculo deprobabilidades, sobre todo en aquellos casos en que es finito.H

En muchos experimentos existe un número finito de resultados posibles y sepuede suponer que cada evento elemental es igualmente probable de ocurrir.De esta manera, si E ; i=1,...,n son los eventos elementales de un espacioimuestral finito, P(E )=1/n, donde n es el número de elementos del espacioimuestral . Entonces por el Teorema 1.3, para el evento compuesto A,Htenemos que

P(A) = 1/n.!E Ai−

Así, podemos definir la probabilidad para cualquier evento A mediante la§ Hregla P(A) = n(A)

n( )H

Page 14: Libro Estadistica

14

donde n(A) es el número de elementos de A y n( ) es el número de elementosHdel espacio muestral. De aquí vemos la conveniencia de manejar bien lastécnicas de conteo, para poder determinar rápidamente el número de elementosque posee el espacio muestral y el evento de interés. Se puede probar que laregla que asigna probabilidades al evento A, mediante el cuociente entre casosfavorables a A y todos los casos posibles, satisface los axiomas para unafunción de probabilidad.

Ejemplo. Supongamos que lanzamos dos dados distinguibles. Entonces elespacio muestral asociado a este experimento está dado por = {(i,j); i,j= 1,6 }, n( ) = 36 y el número total de sucesos que se puedenH Hdefinir es 2 = 263000 millones, aproximadamente.36

Consideremos los sucesos:

A = {(i,j) : i+j 3} = {(1,1),(1,2),(2,1)}% H Ÿ

B = {(i,j) : j=6} = {(1,6),(2,6),(3,6),(4,6),(5,6),(6,6)}% H

C = {(i,j) : j es par} = {(1,2), (2,2), (3,2). . . (5,6), (6,6)}.% H

Supongamos que P((i,j)) = 1/36 (i,j) , entoncesa % H

P(A) = P(i,j) = !(i j) Aß %

n(A)n( ) 36 12

3 1H = = ,

P(B) = P(i,j) = !(i j) Bß %

n(B)n( ) 36 6

6 1H = =

y

P(C) = 18 136 2 = .

Notemos que A B = , por lo que P(A B) = 0. Por otra parte, P(A C)= F1/36.

1.4. Probabilidad Condicional, Independencia

En ocasiones sabemos que un evento determinado ocurre y queremos,basándonos en esta información, averiguar cuál es la probabilidad de otroevento. Por ejemplo, supongamos que deseamos apostar por la ocurrencia delnúmero 2 al lanzar un dado corriente. Sea A: "el número 2 se observa".Entonces, si los resultados son equiprobables, P(A) = 1/6. Supongamos ahoraque un amigo está mirando el juego y nos informa que el resultado es un

Page 15: Libro Estadistica

15

número par. Sea entonces el evento B: "un número par se observa".Obviamente, ahora nosotros no estamos dispuestos a jugar a uno de losnúmeros impares, puesto que esta información los descarta. El espacio muestralahora se reduce al conjunto B = {2,4,6}, cuya ocurrencia constituye lainformación anticipada. Así, sabiendo que un resultado par ha ocurrido, laprobabilidad de obtener un 2 ahora es 1/3.

Cuando los resultados de un experimento son igualmente probables de ocurrir,el cálculo de probabilidades condicionales puede basarse en nuestra intuición,considerando al evento condicionante B como un espacio muestral reducido yde este nuevo espacio determinar los resultados favorables al evento A. Cuandolos experimentos son más complicados, nuestra intuición nos puede fallar, demanera que se hace necesario dar una definición más amplia de probabilidadescondicionales, en el sentido que considere el espacio muestral original.

Definición. Sean A y B dos eventos. La probabilidad condicional de que Aocurra, dado que ha ocurrido B, se define y denota como

P(A/B) = , si P(B)>0 (1.4)P(A B)P(B)

y definimos P(A/B) = 0 si P(B) = 0

Es importante notar que las probabilidades condicionales satisfacen losaxiomas de probabilidad. En efecto, utilizando (1.4), el segundo axioma sesatisface automáticamente. Para el primer axioma tenemos

P( /B) = = 1.H = P( B) P(B)P(B) P(B)H

Finalmente, si A , A ,... son eventos disjuntos, entonces A B, A B," # " # A B,...... son también disjuntos. De aquí$

P(A A A ..../B) = " # $ P[(A A ...) B]

P(B)" #

= P[(A B) (A B) ...]P(B)

" #

= + +...P(A B) P(A B)P(B) P(B)

" #

= P(A /B) + P(A /B) +..." #

lo que muestra el Ax.3.

Ejemplo. Componentes complejas son ensambladas en una planta que usa doslineas de ensamblado, A y A . La linea A usa equipos más viejos que A , dec c

manera que es algo más lenta y menos confiable. Suponga que en un día dado,

Page 16: Libro Estadistica

16

la linea A ha ensamblado 8 componentes de las cuales 2 se identifican comodefectuosas y 6 como no defectuosas, mientras que la linea A ha producido 1c

componente defectuosa y 9 no defectuosas. El encargado de ventas seleccionaal azar una de estas 18 componentes para una demostración y encuentra que esdefectuosa. ¿Cuál es la probabilidad que esta componente haya sidoensamblada por la linea A?.

Definamos los eventos:A = ''Componente ensamblada por la linea A''.A = ''Componente ensamblada por la linea A ''.c c

B = '' Componente defectuosa''.B = ''Componente no defectuosa''.c

Ordenando el número de ocurrencia de los distintos eventos en una tablatenemos A A Totales

B 2 1 3B 6 9 15Totales 8 10 18

c

c

La probabilidad que la componente sea defectuosa es P(B) = y que además 318

provenga de la linea A es P(A B) = . Así, la probabilidad pedida es 218.

P(A/B) = =P(A B 2/18 23/18 3

)P(B) = .

Generalmente, en la práctica es más frecuente la necesidad de determinar laprobabilidad de la intersección de algunos eventos, que determinar laprobabilidad condicional misma, puesto que esta última aparece como un dato.De la definición de probabilidad condicional encontramos una expresion útilpara la probabilidad de intersección de eventos y ésta es

P(A A ) = P(A ) P(A /A ) (1.5)" # " # "

para cualquier par de eventos A y A ." #

A A puede ser interpretado como una sucesión de eventos en dos etapas." #El evento A describe el resultado de la primera etapa y A el resultado de la" #

segunda.

Ejemplo. En Concepción, la probabilidad que llueva el primero de Julio es 0.5.Si llueve el día 1 de Julio, la probabilidad que llueva al día siguiente es 0.8.¿Cuál es la probabilidad que llueva los dos primeros días de Julio?.

Sean los eventos:

Page 17: Libro Estadistica

17

J : "llueve el día 1 de Julio""

J : "llueve el día 2 de Julio".#

Entonces el evento J J : "Llueve el día 1 y 2 de Julio", tiene probabilidad" #

P(J J ) = P(J ) P(J /J ) = (0.5)(0.8) = 0.4." # " # 1

La probabilidad de la intersección de conjuntos puede ser extendida a unnúmero finito de sucesos A ,A ,...,A . Mediante aplicaciones sucesivas de (1.5)" # kse tiene:

P( A ) = P(A )P(A /A )P(A /A A )...P(A / A )k k-1

i=1 i=1 i k i" # " $ " #

que es la llamada o regla del producto ley multiplicativa de probabilidades.

Ejemplo. Una caja contiene dos bolas blancas y tres negras. Una bola seselecciona al azar y enseguida se extrae la otra de las restantes. ¿Cuál es laprobabilidad que la primera sea negra y la segunda blanca?. ¿Cuál es laprobabilidad que la segunda sea blanca?.

Definamos los siguientes eventos

A: " la primera bola es negra"

B: " la segunda bola es blanca".

Tenemos entonces que P(A) = 3/5 y la segunda extracción depende de lo quehaya sucedido en la primera extracción. Si la primera fue negra restan dosblancas y dos negras para la segunda extracción. Así, de acuerdo a nuestranotación P(B/A) = 2/4 y luego

P(A B) = P(A) P(B/A) = 3/5·2/4= 3/10.

Para la segunda pregunta, notemos que B = (A B) (A B), y por Ax.3 -

P(B) = P(A B) + P(A B) -

= 3/5 · 2/4 + 2/5·1/4 = 2/5.

Ejemplo. Una caja de fusibles contiene 20 unidades, de los cuales 5 sondefectuosas. Si tres de estos fusibles son tomados al azar, en sucesión y sinreemplazo,

Page 18: Libro Estadistica

18

a) ¿Cuál es la probabilidad que los tres sean defectuosos?

b) Si en cada una de las dos primeras se extrajo un defectuoso, ¿Cuál es laprobabilidad que el tercero extraido sea bueno?.

c) Si los dos primeros estaban buenos, ¿Cuál es la probabilidad que el terceroextraído sea defectuoso?.

d) ¿Cuál es la probabilidad que los dos primeros sean buenos y el tercerodefectuoso?.

Definamos los eventos: A: "El primer fusible extraído es defectuoso" B: "El segundo fusible extraído es defectuoso" C: "El tercer fusible extraído es defectuoso".

Del enunciado tenemos P(A)=5/20, P(B/A)=4/19 y P(C/A B)=3/18.

Para (a) notamos que la probabilidad que los tres sean defectuosos correspondea la probabilidad de la intersección de los sucesos recién definidos; esto es,P(A B C). Aplicando la regla del producto y reemplazando los valores correspondientes tenemos

P(A B C) = P(C/A B)P(B/A)P(A)

= = 0.0087.3 4 5 118 19 20 114 · · =

La pregunta (b) es una probabilidad condicional y corresponde a

P(C /A B) = 1 P(C/A B) =1 = 0.83.- 3 1518 18 =

Para la parte (c) tenemos que

P(C/A B ) = = 0.277.- - 518

Finalmente, la probabilidad que los dos primeros sean buenos y el tercerodefectuoso está dada por:

P(A B C) = P(C/A B )P(B /A )P(A )- - - - - - -

= = 0.155 14 15 3518 19 20 228· · =

Page 19: Libro Estadistica

19

Teorema 1.4. De la probabilidad total( ). Supongamos que los eventos

A ,A ,....,A forman una partición de ; es decir A = y A A =k

i=1" # k i i jH H F

a Ái j. Entonces para cualquier evento E se tiene

P(E) = P(A )P(E/A ).!k

ii i

œ"

Demostración. Dado que los eventos A , i=1,...,k forman una partición de ,i Hentonces E : E = (E A ) (E A ) ... (E A ) cona § H " # k(E A ) (E A ) = i j. Por lo tanto, a Ái j F

P(E) = P( (E A )) = P(E A )k

i=1 i i

k

i!œ"

y utilizando la ley multiplicativa tenemos el resultado.

Teorema 1.5 De Bayes). ( Bajo las mismas condiciones del Teorema 1.4 setiene

P(A /E) = ; i=1,...,ki P(A )P(E/A )

P(A )P(E/A )

i i

j j!k

jœ"

Demostración. Inmediata de la definición de probabilidad condicional y elteorema anterior.

Ejemplo. El gerente de una empresa regional dispone de dos autos; unoproporcionado por la empresa y el otro de su propiedad. La probabilidad queutilice su auto es 2/5 y la probabilidad que utilice el auto de la empresa es 3/5.Además se sabe que el gerente llega a tiempo a las reuniones de la empresa conprobabilidad 1/5 y que, si utiliza el auto de la empresa, la probabilidad de llegara tiempo a esas reuniones es 1/4. ¿Cuál es la probabilidad que llegue a tiempo auna reunión, dado que utilizó su propio auto?. Dado que el gerente llegó atiempo a la reunión, ¿Cuál es la probabilidad que haya utilizado el auto de laempresa?.

Definamos los siguientes eventos

A: "el gerente utiliza auto propio" B: "el gerente utiliza auto proporcionado por la empresa" C: "el gerente llega a tiempo a las reuniones".

Page 20: Libro Estadistica

20

Tenemos entonces, de acuerdo al enunciado del problema, que: P(A)=2/5,P(B)=3/5, P(C)=1/5 y P(C/B)=1/4.

La primera pregunta corresponde a P(C/A). Del teorema de la probabilidadtotal tenemos P(C) = P(C/A)P(A) + P(C/B)P(B),

de donde

P(C/A) = P(C) - P(C/B) P(B)P(A)

= =1/8.1/5 - 1/4 · 3/52/5

La segunda pregunta corresponde a P(B/C) y es una aplicación directa delteorema de Bayes. En efecto,

P(B/C) = P(C/B) P(B)P(C/B) P(B) + P(C/A) P(A)

= = 3/4. 1/4 · 3/51/4 · 3/5 + 1/8 · 2/5

En ocasiones suele ocurrir que una condición no altera la probabilidad asignadaa otro evento; es decir, P(A/B) = P(A) o bién P(B/A) = P(B). En otras palabras,la probabilidad que el evento A ocurra es la misma ya sea que B ocurra o no.En este caso se dice que A y B son independientes. Utilizando la definición deprobabilidad condicional se tiene la siguiente definición equivalente.

Definición independientes, . Los eventos A y B se dicen si y sólo si,

P(A B) = P(A)P(B)

El concepto de independencia puede extenderse a más de dos eventos. En elcaso de tres eventos A , A y A por ejemplo, ellos son mutuamente" # $

independientes si y sólo si

P(A A ) = P(A )P(A ), i j , i, j=1, 2, 3i j i j Á

y P(A A A ) = P(A )P(A )P(A )." # $ " # $ Esta última ecuación es necesaria ya que la independencia dos a dosgeneralmente no conduce a la independencia mutua.

Definición. Los eventos A ,...,A son mutuamente independientes si y sólo si," kpara cada subconjunto de m elementos A ,...,A se tienek k" m

Page 21: Libro Estadistica

21

P(A ... A )=P(A )...P(A ),k k k k" 7 " 7

donde k Z, i=1,...,m , 1 k < k <...< k n.i m− Ÿ Ÿ" #

Cuando dos eventos no pueden ocurrir en forma simultánea en un mismoexperimento, decimos que ellos son mutuamente excluyentes.

Definición. Dados dos eventos A y B, diremos que ellos son mutuamenteexcluyentes si y sólo si A B = . F

Notemos que si los eventos A y B son mutuamente excluyentes, entoncesP(A B)= 0.

Aunque los conceptos de independencia y exclusión tienden a confundirse, susignificado es diferente. De hecho, si suponemos que P(A) y P(B) sonpositivas, entonces se verifica fácilmente que

Si A y B son sucesos independientes entonces, A y B no sonmutuamente excluyentes;

Si A y B son sucesos mutuamente excluyentes entonces, A y B noson independientes.

Ejemplo. Sean A y B dos sucesos independientes, entonces A y B son-

independientes. En efecto,

P(A B ) = P(A) P(A B) -

= P(A) P(A)P(B)

= P(A)(1 P(B))

= P(A)P(B ).-

Así, de acuerdo a la definición de independencia entre eventos, A y B son-

independientes.

Es fácil ver que si A y B son independientes, entonces también lo son A y B- -

.Ejemplo. La probabilidad que un estudiante estudie para un examen final es0.20. Si estudia, la probabilidad de que apruebe el examen es 0.80 en tanto quesi no estudia, la probabilidad es de sólo 0.50. ¿Cuál es la probabilidad quedicho estudiante apruebe su examen final?. Dado que aprobó su examen, ¿cuáles la probabilidad que él haya estudiado?.

Page 22: Libro Estadistica

22

Consideremos los siguientes eventos:

A: "el estudiante estudia para el examen" B: "el estudiante aprueba el examen".

Del enunciado tenemos que P(A)=0.20, P(B/A)=0.80 y P(B/A )=0.50. Lac

primera pregunta corresponde a la probabilidad que B ocurra; esto es,

P(B) = P(B/A)P(A) + P(B/A )P(A ) = 0.56,- -

reemplazando los valores correspondientes. Notemos que los eventos A y B noson independientes.

Por otra parte, la probabilidad que el estudiante haya estudiado, dado queaprobó su examen, esta dada por:

P(A/B) = P(A B)P(B)

= P(B/A)P(A)P(B)

= = 0.286.0.8 · 0.20 20.56 7 =

Ejemplo. Se extrae una carta al azar de un juego de naipes de 52 cartas. Dadoque la carta extraída es un "mono", nos interesa determinar la probabilidad quedicha carta sea de "corazón".

Consideremos los eventos A: "la carta extraída es de corazón" y B: "la cartaextraída es un mono". En términos probabilísticos, la pregunta corresponde a laprobabilidad condicional de A dado B. Así,

P(A/B) = P(A B) /P(B) = (3/52)/(12/52) = 1/4

y P(A)=13/52=1/4,

por lo que P(A/B) = P(A) y los eventos "corazón" y "mono" sonindependientes.

Ejemplo. Se usa un interruptor para cortar un flujo cuando este alcanza uncierto nivel de profundidad en un estanque. La confiabilidad del interruptor(probabilidad que trabaje cuando debe) se supone de 0.9. Un segundo tipo deinterruptor es puesto en paralelo y su confiabilidad es 0.7. Los interruptorestrabajan en forma independiente.a) Cuál es la confiabilidad de la combinación de los interruptores?.

Page 23: Libro Estadistica

23

b) Cuál es la probabilidad, que cuando el flujo alcance el nivel de profundidadsólo trabaje el primer interruptor?.c) Cuál es la probabilidad que cuando se alcance el nivel sólo uno de losinterruptores trabaje?.

Consideremos los eventos: A : "Primer interruptor trabaja""

A : "Segundo interruptor trabaja"#

a) La confiabilidad del sistema está dada por la probabilidad del evento "almenos uno de los dos interruptores trabaja" , que corresponde a la probabilidaddel evento A A ." #

P(A A ) = P(A )+P(A ) P(A A )" # " # " #

= P(A )+P(A ) P(A )P(A ) por independencia" # " #

= 0.9 + 0.7 0.9 · 0.7 = 0.97

Para (b) debemos determinar la probabilidad de A A , que corresponde al" #-

evento que el interruptor 1 trabaje y el 2 no.

P(A A ) = P(A )P(A ) por independencia de A yA" " "# # #- - -

= P(A )(1 P(A )) = 0.9 · 0.3 = 0.27" #

Para la parte (c) definamos los eventos:

A: "Sólo trabaja el interruptor 1" = A A" #-

B: "Sólo trabaja el interruptor 2" = A A"-

#

Notemos que los eventos A y B son mutuamente excluyentes. Entonces laprobabilidad pedida es

P(A B) = P(A) + P(B) = P(A A ) +P(A A ) " ## "- -

= 0.9 · 0.3 + 0.1 · 0.7 = 0.34por la independencia de los eventos involucrados.

EJERCICIOS

1. Todos los días, un niño dispone de 30 diarios para vender en la mismaesquina. Defina un espacio muestral para el experimento, que consiste delnúmero de ventas en un día cualquiera. Defina además los eventos A: vende al menos cinco diarios

Page 24: Libro Estadistica

24

B: vende exactamente cinco diarios C: vende a lo más cinco diarios

2. Considerando el ejercicio anterior y si ahora, el experimento consiste enregistrar el número de ventas que el niño hace en dos días sucesivos. Defina unespacio muestral razonable para este experimento y describa los eventosA: vende al menos cinco diarios el primer díaB: vende al menos cinco diarios el segundo díaC: vende al menos cinco diarios ambos días

3. Considere el juego del lanzamiento de dos dados ordinarios.a) Determine el espacio muestral asociadob) ¿Cuántos eventos puede Ud. definir?c) Describa los siguientes eventos. A: la suma de los dos dados es menor o igual a 3. B: el segundo dado muestra el número 6. C: el segundo dado muestra un número par.

4. Considere el experimento aleatorio siguiente: Una moneda es lanzada hastaobtener cara por primera vez.a) Describa el espacio muestral asociado a este experimento.b) Describa los siguientes eventos. A:la primera cara ocurre en tres o menos lanzamientos. B:un número impar de lanzamientos es necesario para obtener cara por primera vez.

5. ¿Cuántos números se pueden formar al arreglar los dígitos del número4130131 (excluyendo los que comienzan por 0)?.

6. El Centro de Estudiantes de Ingeniería tiene un representante por cadaespecialidad (Civil, Eléctrica, Electrónica, Industrial, Informática, Química,Mecánica y Metalúrgica).a) ¿De cuántas maneras puede elegirse un Presidente y un Vicepresidente?.b) ¿De cuantas maneras puede elegirse un Presidente, un Vicepresidente y un Secretario?.c) Si el representante de Química se niega a ser Vicepresidente, ¿de cuántasmaneras puede elegirse Presidente y Vicepresidente?.

7. Un experimentador investiga el efecto de tres variables: presión, temperaturay el tipo de catalítico sobre el rendimiento en un proceso de refinado. Si elexperimentador intenta usar tres niveles para la temperatura, tres niveles para lapresión y dos tipos de catalíticos, ¿cuántos ensayos experimentales tendrá querealizar si quiere considerar todas las combinaciones posibles de presión,temperatura y tipos de catalíticos.

Page 25: Libro Estadistica

25

8. Un fabricante tiene nueve motores diferentes en ''stock'', dos de los cualesvienen de un abastecedor particular. Los motores deben dividirse en tres líneasde producción, con tres motores en cada línea. Si la asignación de motores alíneas es aleatoria, encuentre la probabilidad de que ambos motores delabastecedor particular sean asignados a la primera línea.

9. Sean A y B eventos con P(A)=3/8, P(B)=1/2 y P(A B)=1/4. DetermineP(A B ) y P(A B).- -

10. ¿Es posible tener una asignación de probabilidades para los sucesos A y B,tal que P(A) =1/2, P(A B)=1/3 y P(B)=1/4?

11. Un vendedor de autos nuevos ha comprobado que los clientes solicitan enespecial algunos de los siguientes extras: transmisión automática (A),neumáticos pantaneros (B) y radio (C). Si el 70% de los clientes solicitan A, el75% solicitan B, el 80% solicitan C, el 80% requieren A o B, el 85% requierenA o C, el 90% requieren B o C y el 95% requieren A o B o C. Calcular laprobabilidad quea) El próximo cliente solicite a lo menos una de las tres opciones.b) El próximo cliente solicite sólo una radio.c) El próximo cliente solicite sólo una de las tres opciones.d) El próximo cliente no solicite ningún extra especial.

12. Un sistema de propulsión está formado por un motor y dos calderas. Elsistema funciona cuando está operando el motor y al menos una caldera. Laprobabilidad que el sistema funcione es 0.7, la probabilidad que funcione elmotor y la caldera 1 es 0.4, mientras que la probabilidad que funcione el motory la caldera 2 es 0.5. Determine la probabilidad que el sistema funcione con elmotor y ambas calderas.

13. Durante un sistema de inspección, tres válvulas se eligen al azar desde unacaja que contiene 15, de los cuales 5 son defectuosas. Encuentre la probabilidadque:a) Ninguna sea defectuosa.b) Exactamente una sea defectuosa.c) Al menos una sea defectuosa.

14. Una consola de autos contiene 6 sistemas electrónicos complejos. Dos delos 6 son seleccionados al azar para someterlos a prueba y enseguidaclasificarlos como defectuoso o no defectuoso.a) Si dos de los 6 sistemas están generalmente defectuosos, encuentre laprobabilidad que al menos uno de los dos sistemas probados se encuentredefectuoso.b) Encuentre las probabilidades indicadas en (a) para el caso en que 4 de los 6sistemas están generalmente defectuosos.

Page 26: Libro Estadistica

26

15. Un dado tiene una cara pintada de rojo, dos de verde y el resto de negro. Selanza el dado 4 veces. ¿Cuál es la probabilidad de que:a) Las tres primeras veces se obtenga rojo y la última verde.b) Sólo las tres primeras veces se obtenga rojo.c) Las tres primeras veces se obtenga rojo.

16. Un lote de 20 artículos es aceptado o rechazado basándose en la inspecciónde 4 artículos, escogidos al azar desde el lote. Si se decide aceptar el lotecuando a lo más 1 de los artículos inspeccionados es defectuoso y de otro modose rechaza el lote, ¿cuál es la probabilidad que, siguiendo esta regla dedecisión, se rechace un lote que tiene sólo un 10% de defectuosos?.

17. Suponga que dos refrigeradores defectuosos han sido incluidos en unembarque de 6 refrigeradores. El comprador comienza a probar losrefrigeradores de uno a la vez.a) ¿Cuál es la probabilidad que el último refrigerador defectuoso se encuentreen la cuarta prueba?b) ¿Cuál es la probabilidad que no más de 4 refrigeradores sea necesario probarpara localizar los dos defectuosos?c) Si uno de los dos refrigeradores defectuosos ha sido localizado en lasprimeras dos pruebas ¿cuál es la probabilidad que el otro defectuoso seaencontrado en la tercera o cuarta prueba?

18. Una revista nueva contempla una sección para comentarios de arte (A),libros (B) y cine (C). Los hábitos de lectura de una muestra de lectores dio lossiguientes resultados:

Lectura usual A B C A B A C B C A B CProbabilidad 0.14 0.23 0.37 0.08 0.09 0.13 0.05

Calcular:a) P(A/B).b) P(A/B C).c) P(A B/C). d) P(A/lee al menos una sección).19. Dos máquinas de una planta elaboran el 10% y el 90% de la produccióntotal de cierto artículo. La probabilidad de producir un artículo defectuoso condichas máquinas es 0.01 y 0.05 respectivamente. ¿Cuál es la probabilidad queun artículo tomado al azar de la producción de un día haya sido producido conla primera máquina, sabiendo que es defectuoso?.

Page 27: Libro Estadistica

27

20. Las enfermedades I y II prevalecen entre las personas de cierta población.Se supone que el 10% de la población contraerá la enfermedad I durante suvida, un 15% contraerá la enfermedad II, y un 3% contraerá ambasenfermedades. Si se selecciona una persona al azar de dicha población.a) ¿Cuál es la probabilidad que ella contraiga al menos una enfermedad durantesu vida?.b) ¿Cuál es la probabilidad que contraiga ambas enfermedades dado que ella hacontraído al menos una enfermedad?.

21. Sean A y B dos eventos asociados a un espacio muestral , tales que:HP(A) =1/4, P(B/A) =1/2 y P(A/B)=1/4.a) ¿Son A y B eventos mutuamente excluyentes?b) ¿Es A B?.§c) ¿Son A y B eventos independientes?.d) Determine P(A /B ).- -

22. Sean A y B dos eventos cualesquiera asociados a un experimento, tales queP(A B)=0.6 y P(A)=0.2. Determine P(B) si:a) A y B son mutuamente excluyentes;b) A y B son independientes;c) A es subconjunto de B.

23. La probabilidad que un alumno de un curso determinado se titule en 5 añoses 3/5. La probabilidad que una alumna de dicho curso tenga su título en 5 añosmás es 5/8. Calcular:a) Probabilidad de que ambos se titulen en 5 años más.b) Probabilidad de que al menos uno de ellos lo haga.c) Probabilidad de que el alumno no se titule y la alumna sí.

24. Sea ={ , , , , } el espacio muestral de un experimento, dondeH = = = = =" # $ % &

P( )=1/8, P( )=P( )=P( )=3/16 y P( )=5/16. Considerando los sucesos= = = = =" # $ % &

E={ , , }, F={ , , } y G={ , , }, muestre que ellos no son= = = = = = = = =" # $ " # % " $ %

independientes dos a dos, pero que P(E F G) = P(E)P(F) P(G).

25. Considere los eventos arbitrarios A, B y C. Muestre que:a) Si A y B son independientes entonces, el complemento de A y elcomplemento de B son independientesb) Si A, B y C son independientes entonces, A, B y el complemento de C sonindependientes.

26. Sean A y B dos eventos tales que, P(A)>0 y P(B)>0. Demuestre que:a) Si A y B son independientes entonces A y B no son mutuamenteexcluyentes.b) Si A y B son mutuamente excluyentes entonces A y B no sonindependientes.

Page 28: Libro Estadistica

28

27. Pruebe que.a) Si P(E)=0, entonces P(E F)=0 E, F . a § Hb) P(A C/B) = P(A/B C) P(C/B) A, B, C a § Hc) P(E F G H)=P(E/F G H)P(F/G H)P(G/H)P(H) E, F, G, H .a § Hd) P(A/B) + P(A /B) =1 , B , donde A es el complemento de A.c ca § H

28. Una empresa recibe de los proveedores I y II, cajas con dos tipos deartículos. El proveedor I los embala en cajas que contienen 7 artículos de tipoA y 5 de tipo B, y el proveedor II en cajas que contienen 5 del tipo A y 3 tipoB.a) Un empleado de la empresa elige una caja al azar de cada proveedor y extrae un artículo de cada caja. ¿Cuál es la probabilidad que ambos artículos sean deltipo B.b) Si se sabe que los dos artículos elegidos en la parte (a) son de distinto tipo,¿cuál es la probabilidad que el artículo tipo A provenga de la caja delproveedor I?. c) Si se eligen dos artículos de la caja del proveedor I, uno a continuación delotro, ¿cuál es la probabilidad que el segundo sea de tipo A?.

29. Tres máquinas automáticas producen piezas idénticas que son retiradas deuna correa transportadora común. La producción de la primera máquina es eldoble de la producción de la segunda máquina y la producción de la terceramáquina es igual a la de la segunda máquina. La primera máquina produce enpromedio el 84% de las piezas de calidad excelente, la segunda un 60% y latercera un 70% de piezas de la calidad excelente. Una pieza es retirada al azarde la correa. Determinar la probabilidad que:a) La pieza retiradad sea de calidad excelente o haya sido producida por laprimera máquina.b) No sea de calidad excelente y que haya sido producida por la segunda máquina.c) Sea producida por la máquina tres dado que la pieza elegida es de calidad excelente.d) ¿Existe independencia entre la calidad excelente de una pieza y el hecho deser fabricada por la primera máquina?.

30. Un circuito eléctrico opera con 4 interruptores en serie. Si la operación delos 4 interruptores es independiente, y la probabilidad de falla de cadainterruptor es 0.02. ¿Cuál es la probabilidad de falla del circuito?

31. Considere los puntos (1,0,0), (1,1,0), (1,1,1), (0,1,1), (0,0,1) y (0,0,0) en ‘$

y suponga que las probabilidades de estos puntos son 1/8, 1/4, 1/8, 1/4, 1/8 y1/8, respectivamente. Defina los sucesos A como: ''Un 1 ocurre en la i-ésimaicoordenada'', i=1,2,3. Calcular:

Page 29: Libro Estadistica

29

a) P(A ), P(A ), P(A ), P(A A A )" # $ " # $ b) Pruebe que P(A A A ) = P(A ) P(A )P(A )" # $ " # $ c) ¿Son A , A y A eventos independientes?." # $

32. Considere un sistema de componentes conectados como se indica en lafigura:

--------(1)---------------- --------

--------(2)--------

------(3)---------------------(4)------

Los componentes 1 y 2 están conectados en paralelo, de modo que elsubsistema funciona si el componente 1 ó 2 funcionan. Los componentes 3 y 4están conectados en serie, el subsistema funciona, si 3 y 4 funcionan a la vez.Si cada componente trabaja independientemente de los otros y la probabilidadque un componente trabaje es 0.9. Calcular la probabilidad que el sistemafuncione.

Page 30: Libro Estadistica

30

CAPITULO II VARIABLES ALEATORIAS

2.1. El Concepto de Variable Aleatoria

Prácticamente todas las áreas de la ciencia moderna están relacionadas conmediciones numéricas cuyos valores están afectados, en algún sentido, pormecanismos aleatorios. De hecho, el método de experimentación científicaculmina en la observación de los resultados de un experimento y generalmentedescribe o cuantifica dichos resultados con números. Así, cada resultado de unexperimento puede ser asociado con un número que es especificado por unaregla de asociación; por ejemplo, el número de componentes electrónicas quefallan antes de 100 horas en una muestra de 10 de ellas, el peso del equipaje de25 pasajeros de un avión. Tal regla de asociación se llama variable aleatoria.Las variables aleatorias asocian un valor numérico a un conjunto de resultadosdel espacio muestral . Estos resultados son aleatorios, de aquí el nombre deHvariables aleatorias.

Definición. Una variable aleatoria X es una función real valuada de loselementos del espacio muestral .H

Utilizaremos las letras mayúsculas (X,Y,Z,...etc) para representar las variablesaleatorias, la letra griega para representar un elemento genérico del espacio=muestral y X( ) será la representación funcional de la variable aleatoria X.=Además, usaremos las letras minúsculas (x,y,z,...etc) para denotar valoresparticulares en el recorrido de la variable. De esta manera tenemos

X: , tal que X( ) = x.H ‘ = =qp qp

Dependiendo del recorrido de una variable aleatoria, clasificaremos a estacomo o , aunque también existen variables aleatorias que nodiscreta continuason discretas ni continuas.

Ejemplo. Un experimento consiste en observar los artículos fabricados en unacadena de producción, hasta detectar uno defectuoso. Los artículos producidospueden clasificarse como defectuosos o no-defectuosos, dependiendo de sicumplen con las especificaciones correspondientes. El espacio muestralasociado a este experimento es ={d, sd, ssd, sssd,...}, donde d=defectuoso yHs=sano o no-defectuoso. Si X es el número de inspecciones necesarias,entonces X(d) = 1, X(sd)= 2,... Claramente el recorrido de esta variablealeatoria es el conjunto infinito R = {1,2,3,...}, luego ella es discreta.X

Ejemplo. Si tenemos un conjunto de 25 personas adultas y elegimos una alazar para medir su altura entonces, enumerando a las personas desde el 1 hasta

Page 31: Libro Estadistica

31

el 25, tenemos = { : = 1,2,...,25} y podemos definir la variable aleatoriaH = =X( )= altura de la persona , . Teóricamente, no más de 25 alturas= = = Ha −diferentes pueden registrarse. Además, parece razonable suponer que ningunapersona adulta (normal) puede medir menos de 50 cm. ni más de 250 cm. En talcaso el recorrido de la variable aleatoria X lo podemos considerar como {x:50 x 250} y X sería continua.Ÿ Ÿ

Como ya hemos visto, para una variable aleatoria X definida sobre el espaciomuestral , R denota su recorrido y será considerado como otro espacioH Xmuestral. Así, si A R hablamos también del evento A. Por lo tanto, si§ XA R y B = { : X( ) A}, decimos que A y B son eventos§ − −X = H =equivalentes y P(A) = P(B).

2.2. Variables Aleatorias Discretas

Definición. Una variable aleatoria X es discreta si su recorrido forma unconjunto de números reales discretos (finito o infinito numerable).

Ejemplo. Consideremos el lanzamiento de tres monedas. Sea X la variablealeatoria que indica el número de caras que ocurren. En este caso loHpodemos escribir como:

= { : = ( , , ); = c,s, i=1,2,3}H = = = = = =" # $ 3

Entonces,

X( ) =

0 si = (s,s,s)1 si = (s,s,c), (c,s,s),(s,c,s)2 si = (c,c,s), (c,s,c),(s,c,c)3 si = (c,c,c)

=

====

ÚÝÝÛÝÝÜEl recorrido de X es el conjunto {0,1,2,3}, por tanto X es una variable aleatoriadiscreta.

Es evidente que el recorrido variará de acuerdo a la definición de la variablealeatoria, aunque se trate de un mismo experimento. Por ejemplo, siconsideramos el mismo experimento del ejemplo anterior y definimos Y( )=como la diferencia entre el número de caras y el número de sellos, entonces elrecorrido de la variable aleatoria Y es R = {-3,-1,1,3}, que también es discreto.]

Dada una variable aleatoria discreta X, podríamos intentar calcular lasprobabilidades de que X asuma valores particulares en su recorrido. A todavariable aleatoria discreta le podemos asociar una función de probabilidades.

Page 32: Libro Estadistica

32

Definición. Función de Probabilidades La para una variable aleatoria discretaX se define y denota por

p (x) = P(X( )=x) x .X = ‘a −

y debe satisfacer las condiciones:

i) p (x) 0 x X   a − ‘

ii) p (x) = 1! X

La fórmula anterior podemos expresarla de manera más explícita escribiendo

p (x) = P({ : X( ) = x}) = P(X( ) = x), x .X = = = ‘a −

Para simplificar la notación escribiremos simplemente P(X=x) en lugar deP(X( )=x). De esta manera, si A es un suceso relacionado con la variable X;=esto es, A R , entonces§ X

P(A) = p (x).!x A

X−

Ejemplo. Dos ampolletas son seleccionadas al azar desde una caja quecontiene 5 azules (a) y 3 rojas (r). Sea X la variable aleatoria que indica elnúmero de ampolletas azules seleccionadas. Entonces los elementos de y suHrespectivas probabilidades están dados en la tabla a continuación.

Elementos de aa ar ra rr

Probabilidad x 2 1 1 0

H5 15 15 3

14 56 56 28

La última columna indica los valores que asume la variable aleatoria X. Luego,R = {0,1,2}, P(X=0)=3/28, P(X=1)=15/56+15/56=15/28 y P(X=2)=5/14. EstaXinformación usualmente se dispone en una tabla como la siguiente:

x 0 1 2P(X=x) 3/28 15/28 10/28

Ejemplo. Consideremos el lanzamiento de una moneda balanceada en cuatroocasiones. Determinemos la función de probabilidades de la variable aleatoriaX que indica el número de caras observadas.

Page 33: Libro Estadistica

33

El espacio muestral lo podemos escribir como

={(c,c,c,c),(c,c,c,s),...,(s,s,s,s)}H

el que consta de 16 elementos, cada uno de los cuales tiene probabilidad 1/16,por ser la moneda balanceada. El recorrido de la variable aleatoria X es R =X{0,1,2,3,4} por lo que es una variable aleatoria discreta, y

p (0) = P(X=0) = P({ : X( )=0}) = P({(s,s,s,s)}) = 1/16.X =%H =

p (1) = P(X=1) = P({ : X( )=1})X =%H =

= P({(s,s,s,c),(s,s,c,s),(s,c,s,s),(c,s,s,s)}) = 4/16.

Análogamente se tiene p (2) = 6/16, p (3) = 4/16 y p (4) = 1/16.X X X

Luego la función de probabilidades es

x 0 1 2 3 4P(X=x) 1/16 4/16 6/16 4/16 1/16

Si definimos, en este ejemplo, el evento A={x: x es par}, tenemos que laprobabilidad de A está dada por:

P(A) = p (0)+p (2)+p (4) = 8/16.X X X

Esta función de probabilidades la podemos representar gráficamente como unhistograma o gráfico de barras, donde cada barra tiene ancho 1 y altura laprobabilidad p (x) correspondiente, como se muestra en la Figura 2.1.X

La función de probabilidades para X, ''número de caras observadas'', lapodemos resumir en la expresión siguiente:

p (x) = ; x=0,1,2,3,4.X4x 16

ˆ ‰ "

Page 34: Libro Estadistica

34

X

P(X=

x)0 1 2 3 4

1/16

4/16

6/16

Figura 2.1 Distribución de probabilidades para el número de caras

Ejemplo. Para decidir quién va a usar primero un terminal de un computador,Juan y Pedro muestran uno o dos dedos al contar tres. Juan lo usará primero siel número total de dedos es un número par. Supongamos que cada uno muestra,independientemente, 1 ó 2 dedos con igual probabilidad. Los cuatro posiblesresultados son:

={(1,1),(1,2),(2,1),(2,2)}.H

donde la primera componente representa el número de dedos mostrados porJuan y la segunda los mostrados por Pedro.

Sea X el número total de dedos mostrados por Juan y Pedro. Entonces elrecorrido de X es R = {2,3,4} y las respectivas probabilidades son: 1/4, 1/2 yX1/4.

2.3. Variables Aleatorias Continuas

Definición. Diremos que una variable aleatoria X es continua si su recorrido esun intervalo de la recta real.

Supongamos que estamos interesados en estudiar el crecimiento de los árbolesde pino radiata en un sector forestal determinado. Se realizan mediciones de lasalturas de estos pinos al azar en distintos lugares del predio. Si X representa lasalturas de estos pinos, los cuales a una edad determinada no superan una alturamáxima M, entonces X es una variable aleatoria continua con valores en elintervalo 0,M]. Si discretizamos X midiendo la altura al metro más cercano,entonces los valores posibles son los enteros menores o iguales que M. Ladistribución discreta resultante puede ser graficada usando un histograma debarras, construyendo sobre cada entero k, 0 k<M, un rectángulo de ancho 1 yŸde altura igual a la proporción de todos los árboles de altura k mts., como se

Page 35: Libro Estadistica

35

muestra en la Figura 2.2, donde la suma de las áreas de los rectángulos es 1.También aparece en la Figura 2.2 el polígono de frecuencias correspondientes.

Figura 2.2. Histograma de las alturas redondeadas al metro

Si ahora la altura es medida aproximándose al centímetro más cercano,tenemos el histograma de barras de la Figura 2.3, cuyos rectángulos son másangostos aunque el área total sigue sumando 1, y el polígono de frecuencias esun poco más suave,

Figura 2.3. Histograma de las alturas redondeadas al centímetro

Si continuamos de esta forma midiendo la altura de los árboles con unidad demedición más pequeña, obtendremos una secuencia de histogramas que puedenser aproximados por una curva suave, f(x), donde el área bajo la curva es 1. Laprobabilidad que la altura de un árbol elegido al azar esté entre los números a yb es justamente el área bajo la curva f(x) entre los puntos a y b, como semuestra en la Figura 2.4.

Page 36: Libro Estadistica

36

a b Figura 2.4. Función de densidad para la altura de los árboles

La función f(x), cuyo gráfico es la aproximación al polígono de frecuencias delos histogramas, obtenidos por la discretización más fina de las medicionesinvolucradas, corresponderá a la llamada función de densidad de probabilidad.

Definición. Sea X una variable aleatoria continua. A toda variable continua Xle podemos asociar una función f (x), de variable real, llamada X Función deDensidad de Probabilidad, que debe satisfacer las siguientes condiciones:

i) f (x) 0 , x.X   a

ii) f (x) dx = 1.( _

_-X

Además, para cualquier par de números reales a y b con a < b, se tiene

P(a X b) = f (x)dx.Ÿ Ÿ ( b

aX

Ejemplo. Un estudiante toma un bus para ir a su universidad y sabe que cada 5minutos pasa el bus por el paradero. El estudiante no siempre llega a la mismahora al paradero, de manera que el tiempo de espera, X, para tomar el próximobus es una variable aleatoria continua. El recorrido de X es el intervalo [0,5] yse encontró que la siguiente función de densidad de probabilidad es apropiadapara X.

f (x) = 1/5 0 x 50 en otro caso.X œ Ÿ Ÿ

Page 37: Libro Estadistica

37

Claramente

f (x) 0, x y 1/5 dx = 1.X   a ( &

!

La probabilidad que este estudiante tenga que esperar entre 1 y 3 minutos es

P(1 X 3) = 1/5 dx = 2/5.Ÿ Ÿ ( $

"

Similarmente, la probabilidad que tenga que esperar más de 4 minutos es

P(X > 4) = 1/5 dx = 1/5.( &

%

Ejemplo. La concentración diaria de cierto contaminante en un arroyo tienefunción de densidad f (x) = c e , x>0. Se sabe que ocurrirá un problema deX

-x/2

contaminación si la concentración excede los 6 mg/10 lt. ¿Cuál es la$

probabilidad que ocurra un problema de polución de este contaminante en undía cualquiera?.

Sea X la concentración diaria del contaminante por cada 10 litros.$

Utilizando el hecho que ce dx = 1, se obtiene que c=1/2. Por lo tanto,( _

!

-x/2

f (x)= e , x>0X-x"

#Î#

y la probabilidad que ocurra el problema de polución es

P(X > 6) = (1/2) e dx = e = e = 0.05.( _

'

Î# "Î# ' $-x -( ) -

2.4. Función de Distribución

Toda variable aleatoria tiene siempre asociada otra función, llamada función dedistribución o función de distribución acumulada. Esta función puede utilizarsepara evaluar probabilidades asociadas con la variable aleatoria en cuestión ypresenta la ventaja de que es apropiada tanto para variables aleatorias discretascomo para variables continuas.

Page 38: Libro Estadistica

38

Definición. Función de Distribución Sea X una variable aleatoria. La de X,denotada por F (t), es una función de una variable real t tal que el dominio deXF es toda la recta real yX

F (t) = P(X t), t .X Ÿ a − ‘

Dado que la función de distribución nos proporciona el valor de la probabilidadque X t, donde t es un número real y como las probabilidades debenŸsatisfacer los axiomas vistos en la Sección 1.3, existen reglas para que unafunción H(t), de una variable real, sea una función de distribución para algunavariable aleatoria. Estas son

1) 0 H(t) 1, t .Ÿ Ÿ a − ‘

2) lim H(t) = 0; lim H(t) = 1. t - tÄ _ Ä _

3) H(a) H(b), a<b (H es monótona no decreciente).Ÿ a

4) lim H(b+h) = H(b) b (continuidad a derecha). h 0Ä

a

Ejemplo. Sea H(x) definida como sigue

H(x) =

0 si x < 0x /2 si 0 x <13/4 si 1 x < 2(x 1)/4 si 2 x < 31 si x 3.

ÚÝÝÝÝÛÝÝÝÝÜ

2 ŸŸ

Ÿ 

Notemos que H(x) presenta un punto de discontinuidad en x =1. Esta funciónestá definida para todo número real y satisface las propiedades de una funciónde distribución, su gráfico se muestra en la Figura 2.5.

Page 39: Libro Estadistica

39

x

H(x)

0

0.25

0.5

0.75

1

0 0.5 1 1.3 1.8 2.3 2.8 3.7

x / 22

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Figura 2.5. Función de Distribución de una variable mixta.

Ejemplo. Sea H(x) una función definida por

H(x) = 0 x 01 e x > 0œ Ÿ

q -x /22

Su gráfico es

0

0.2

0.4

0.6

0.8

1

0 2 4 6 8 10x

H(x)

Figura 2.6. Función de Distribución H(x) = 1-e-x /22

Claramente H(x) satisface las condiciones (1)-(4), por lo tanto H corresponde ala función de distribución acumulada de alguna variable aleatoria X.

Si conocemos la función de probabilidades para una variable aleatoria discreta,podemos determinar fácilmente su función de distribución mediante laexpresión

Page 40: Libro Estadistica

40

F (t) = p (x), t .X Xx t!Ÿ

a − ‘

Análogamente, si X es una variable aleatoria continua con función de densidadf (x), entonces determinamos su función de distribución comoX

F (t) = f (x)dx, t .X X-

( >

_

a − ‘

Ejemplo. Consideremos la función de probabilidades dada en la tabla siguente:

x 2 3 4P(X=x) 1/4 1/2 1/4

Para determinar la función de distribución de X, notemos que

F (2) = P(X 2) = p (2) = 1/4X XŸ

F (3) = P(X 3) = p (2) + p (3) = 3/4X X XŸ

F (4) = P(X 4) = p (2) + p (3) + p (4) = 1.X X X XŸ

Así, tenemos definida la función de distribución para los números 2, 3 y 4.¿Cuál es el valor de F (x) para x 2, 3, 4?.X Á

Recordemos que F (x) está definida para todo número real, de manera queXdebemos calcular F (x) para valores positivos y negativos de x. Es claro que enXeste ejemplo, el valor más pequeño que puede ocurrir para X, es 2. Así, paracualquier x<2, el evento {X x} es vacío. Por lo tanto, F (x) = 0 para x<2.Ÿ X

El evento {X 2} ocurrirá cuando el valor observado de X sea 2 yŸentonces F (2) = p (2) = 1/4.X X

Ahora, si consideramos cualquier 2<x<3, el evento {X x} ocurre siŸobservamos x=2; esto es, F (x) = 1/4, x (2,3) y así, la función deX a −distribución es constante en este intervalo.

El evento {X 3} ocurre si ocurre 2 ó 3, entoncesŸ

F (3) = P(X 3) = p (2) + p (3) = 3/4.X X XŸ

Dado que no hay valores observados para X en el intervalo (3,4), F (x) debeXpermanecer constante en este intervalo y F (x) =3/4, x (3,4).X a −

El evento {X 4} ocurre si ocurre 2 ó 3 ó 4, de tal manera queŸ

Page 41: Libro Estadistica

41

F (x) = p (2)+ p (3) +p (4) = 1.X X X X

En verdad el evento {X x}, donde x es cualquier número mayor que 4,Ÿocurre si X=2 ó X=3 ó X=4. Por lo tanto, F (x) =1 x>4.X a

Resumiendo, tenemos que la función de distribución de X, cuyo gráfico semuestra en la Figura 2.8 , está dada por

F (x) =

0 x < 21/4 2 x < 33/4 3 x < 41 x 4.

X

ÚÝÝÛÝÝÜŸŸ 

x

F(x)

0

0.25

0.5

0.75

1

1.4 2 2.4 3 3.4 4 4.4

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Figura 2.7. Función de Distribución Escalonada

El gráfico de la función de distribución de una variable aleatoria discreta tienesiempre la forma escalonada y presenta saltos en los puntos donde la variableasume valores. En este último ejemplo, los saltos ocurren en los puntos x=2, 3y 4, que corresponden exactamente a los valores que toma la variable. Además,como veremos luego, las magnitudes de los saltos en los puntos x=2, 3 y 4,representan las respectivas probabilidades de asumir estos valores.

Ejemplo. Consideremos la variable aleatoria continua X, con función dedensidad

f (t) = .2t, 0 t 10 e.o.c.X œ Ÿ Ÿ

La función de distribución de X la determinamos como sigue:

Page 42: Libro Estadistica

42

Para t<0; F (t) = 0X

Para 0 t<1;Ÿ

F (t)= f (x)dx = 0dx + 2xdx = tX X- -

( ( (> ! >

_ _ !

#

Para t 1; 

F (t) = f (x)dx = 0dx + 2xdx + 0dx =1.X X- -

1( ( ( (> ! >

_ _ ! "

Así,

F (t) =

0 t < 0t 0 t < 11 t 1

X2

ÚÛÜ Ÿ

 

y su gráfico es una función continua de t, como se muestra en la Figura 2.8.

t

F(t)

0

0.2

0.4

0.6

0.8

1

0

0.4

0.8

1.5

2.5

.Figura 2.8. Función de Distribución Acumulada

Utilizando esta función de distribución tenemos de inmediato que, por ejemplo,P(X 1/2) = F (1/2) = (1/2) .Ÿ X

#

2.5. Probabilidades de Intervalos

La función de probabilidad en el caso discreto y la función de densidad en elcaso continuo, nos permite calcular probabilidades de cualquier tipo acerca deuna variable aleatoria X. Enseguida veremos que, mediante la función dedistribución de X, también podemos calcular probabilidades relacionadas conX, especialmente probabilidades de intervalos. En efecto, consideremos loseventos:

Page 43: Libro Estadistica

43

A = {X a} , B = {a < X b}Ÿ Ÿ

donde a y b son números reales, tales que a<b.

Entonces, como A B = y A B = {X b}, por Ax.3 tenemos: ŸF

P(A B) = P(A) + P(B);es decir

P(X b) = P(X a) + P(a<X b)Ÿ Ÿ Ÿo bién

P(a<X b) = P(X b) P(X a) = F (b) F (a).Ÿ Ÿ Ÿ X X

Para determinar la probabilidad en un punto, por ejemplo x=a, consideremos elintervalo a h < x a, h > 0, x . Cuando h tiende a cero, este intervalo Ÿ − ‘tiende al punto x=a; esto es, el límite de cualquier intervalo de esta formatiende al punto x=a a medida que h tiende a cero. Entonces podríamos esperarque

lim P(a h<X a) = P(X=a)h Ä !

Ÿ

lim P(a h<X a) = lim [F (a) F (a h)]h hÄ ! Ä !

Ÿ X X

= F (a) lim F (a h)hX X Ä !

= F (a) F (a ),X X

donde F (a ) = lim F (a h).

hX X

Ä !

Luego P(X=a) = F (a) F (a )X X

-

Así, si X=a es un punto de discontinuidad de F , la probabilidad que X=a esXigual a la magnitud del salto de F en el punto x=a. Si F es continua en X=a,X Xno hay salto en dicho punto y luego P(X=a) = 0.

Resumiendo, podemos calcular probabilidades relacionadas con una variablealeatoria X si sólo conocemos su función de distribución acumulada, en lasiguiente forma:

P(a<X b) = F (b) F (a)Ÿ X X

Page 44: Libro Estadistica

44

P(X=a) = F (a) F (a )X X-

P(a X b) = F (b) F (a ) + P(X=a)Ÿ Ÿ X X

P(a X<b) = F (b) F (a)+P(X=a) P(X=b)Ÿ X X

P(a<X<b) = F (b ) F (a) P(X=b)X X

Por supuesto, si X es una variable aleatoria continua, la probabilidad para losdistintos intervalos es siempre la misma, independiente de que se incluyan o nolos extremos de los intervalos. Además, conocida la función de distribuciónpara una variable aleatoria discreta X, podemos determinar su función deprobabilidad como

p (x) = P(X=x) = F (x) F (x ), x .X X X a − ‘Por otra parte, si F (x) es una función continua de x, entonces X es unaXvariable continua con función de densidad que se obtiene derivando la funciónde distribución, esto es

f (x) = F (x) , x .X Xd

dx a − ‘

Ejemplo. Consideremos la variable aleatoria X cuya función de distribuciónestá dada por:

F (x) =

0 si x < 0x /2 si 0 x <13/4 si 1 x < 2(x 1)/4 si 2 x < 31 si x 3

X

2

ÚÝÝÝÝÛÝÝÝÝÜŸŸ

Ÿ 

Esta función de distribución presenta una discontinuidad en el punto x=1 y porlo tanto no podemos pensar que estamos en presencia de una variable aleatoriacontinua. Tampoco estamos en presencia de una variable discreta ya que elgráfico de F no es completamente escalonado (ver Figura 2.6). Sin embargo,Xaún en estas condiciones podemos utilizarla para determinar probabilidadesrespecto de la variable aleatoria. Por ejemplo

P(X=1) = F (1) F (1 ) = 3/4 1/2 = 1/4.X X

P(X=1/2) = 0, pues F es continua en X=1/2.

P(1/2 X 3/2) = F (3/2) F (1/2) + P(X=1/2)Ÿ Ÿ X X

Page 45: Libro Estadistica

45

= 3/4 1/8+0=5/8.y P(1 X<5/2) = F (5/2) F (1)+P(X=1) P(X=3/2)Ÿ X X

=5/8 3/4+1/4-0=1/8.

A partir de la función de distribución podemos determinar ciertos valores de lavariable que dividen la distribución en partes iguales, llamados . Así,cuantilespor ejemplo, si la distribucion es dividida en cuatro partes iguales, tenemos tres´valores de la variable que se definen como el primer, segundo y tercer ,cuartilque denotaremos por Q , Q y Q , respectivamente. Si la distribución es" # $

dividida en 100 partes iguales, los valores de la variable correspondientes acada una de éstas reciben el nombre de de la distribución. De estapercentilesmanera, el percentil-p, , de la distribución de la variable aleatoria X se definetppor F (t ) = P(X t ) = p, 0<p<1.X p pŸ

Notemos que, de acuerdo a la definición de percentil, tenemos que el percentil-25, t corresponde al primer cuartil Q . El percentil-50, t , corresponde a0.25 " !Þ&!

la de la distribución, que es aquel valor de la variable que deja a sumediana izquierda el 50% de las observaciones y a su derecha el resto, y corresponde aQ .#

Ejemplo. Considerando el ejemplo anterior, para el primer cuartil debemosresolver la ecuación F (t) = 0.25, que en nuestro caso corresponde a resolver laXecuación t /2 = 0.25, de donde Q = t = 0.707. Análogamente obtenemos la#

" 0.25mediana como el percentil-50, t = Q = 1.0. El tercer cuartil está dado por Q =0.5 # $

t = 2.0.0.75

Finalizaremos esta sección dando un ejemplo de una variable aleatoria cuyafunción de distribución es muy utilizada en las aplicaciones, en especial en lageneración de números aleatorios.

Ejemplo. (Distribución Uniforme) Suponga que X es la variable aleatoria querepresenta el valor de un punto elegido al azar en el intervalo (a,b). ClaramenteX es una variable continua con recorrido R = (a,b). La función de densidad deXX, representada en la Figura 2.10, está dada por

f (t) = si a< t< bX1

b-a

y su función de distribución por

Page 46: Libro Estadistica

46

F (t) = 0 si t < a

si a x b1 si t > b

X

ÚÛÜ

t-ab-a Ÿ Ÿ

El gráfico de F (t) se muestra en las Figura 2.10.X

Figura 2.9. Figura 2.10.Esta variable aleatoria X se dice que tiene distribución uniforme sobre elintervalo (a,b) y se caracteriza por tener una densidad constante. Notemos queel gráfico de F (t) corresponde al de una función continua para todo real t.X

2.6. Esperanza y Momentos

Recordemos que la función de densidad de una variable aleatoria continua o lafunción de probabilidades de una discreta, describe completamente elcomportamiento de la variable. Sin embargo, asociado a cualquier variablealeatoria hay ciertas constantes que también la caracterizan. El conocimiento delos valores numéricos de estas constantes proporciona información rápidaacerca de la naturaleza de las variables.

El término valor esperado o esperanza de una variable aleatoria es utilizadocomo una medida de centro o como una medida de localización de unadistribución de probabilidades. En Física corresponde a la idea del centro degravedad de una distribución de masa. En el caso de una variable aleatoriadiscreta, con valores igualmente probables, el valor esperado de X correspondea la media aritmética usual y en esta situación tiene sentido hablar de promediode la variable para referirnos a su valor esperado o esperanza.

Definición.- Sea X una variable aleatoria. La media de X, valor esperado osimplemente esperanza de X se define y denota como

(i) E[X] = xp (x); si X es discreta!x

X

(ii) E[X] = xf (x)dx ; si X es continua( X

Page 47: Libro Estadistica

47

En (i), E[X] está definida como la serie indicada siempre que dicha serie seaabsolutamente convergente; de otra forma, diremos que la media no existe.Análogamente, en (ii) E[X] está definida o existe, si la integral existe.

Si observamos (i) vemos que E[X] es un promedio de los valores que asume lavariable aleatoria, donde cada valor es ponderado por la probabilidad que lavariable sea igual a dicho valor. Los valores más probables tienen mayorponderación.La esperanza de X, como ya lo hemos mencionado, corresponde al centro de ladistribución de probabilidades, y se le llama también promedio o media y sueledenotarse como o simplemente cuando esta última notación no genera. .Xconfusión respecto de que variable se esté considerando.

Ejemplo. Consideremos una variable aleatoria X con distribución uniforme enel intervalo (a,b) y calculemos la esperanza de X. Dado que X es una variablealeatoria continua, tenemos que

E[X] = xf (x)dx = dx = .x a+b

b-a 2( (X

b

a

Notemos que en este caso particular, la esperanza de X coincide con el puntomedio del intervalo considerado, que por supuesto no podría ser de otra maneraya que la función de densidad es constante en el intervalo (a,b). Vemosclaramente que E(X) corresponde al punto de equilibrio de la distribución deprobabilidades de X, ver Figura 2.10.

Ejemplo. Sea X una variable aleatoria con función de densidad de probabilidaddada por: f (x) = x ; x 1.X

2  

Entonces,

E[X] = x x dx = lim ln b = ,b

( _

"

#-

Ä __

y decimos que E[X] no existe. También podríamos decir que la media de X esinfinita puesto que la integral que la define es infinita.

Ejemplo. Consideremos nuevamente el ejemplo del lanzamiento de unamoneda al aire en 4 ocasiones, donde la variable de interés es el número decaras observadas. Como vimos

p (x) = ; x=0, 1, 2, 3, 4.X4x 16

ˆ ‰ "

Dado que X es una variable aleatoria discreta, la esperanza de X la calculamoscomo

Page 48: Libro Estadistica

48

E[X] = x ! ˆ ‰4x

4x 16œ!

"

=0· +1· +2· +3· +4·1 4 6 4 116 16 16 16 16

= 32/16 = 2.

En 4 lanzamientos de esta moneda podemos algunas veces observar 0 cara,algunas veces 1 cara , 2, 3 ó 4 caras pero, a la larga esperamos observar enpromedio 2 caras al realizar este experimento.

La idea de esperanza de una variable aleatoria arbitraria X podemosgeneralizarla para una función, H(X), de ella. Esta función es también unavariable aleatoria. H(X) será discreta si X es discreta y supondremos que H(X)es una variable aleatoria continua si X es continua.

Definición. Sea X una variable aleatoria y H(X) una función de X.i) Si X es una variable aleatoria discreta con función de probabilidades p (x),Xentonces el valor esperado de H(X) se define, siempre que la serie seaabsolutamente convergente, por

E[H(X)] = H(x)p (x)!x

X

ii) Si X es una variable aleatoria continua con densidad f (x), el valor esperadoXde H(X) es

E[H(X)] = H(x)f (x)dx( _

_-X

siempre que la integral sea absolutamente convergente.

La esperanza es un operador lineal como se muestra en el siguiente teorema,cuya demostración se deja como ejercicio.

Teorema 2.1. Sea X una variable aleatoria (discreta o continua). Consideremosdos funciones de X, H(X) y G(X), y sea k una constante. Entonces:

(a) E[k] = k(b) E[kH(X)] = kE[H(X)](c) E[H(X) + G(X)] = E[H(X)] + E[G(X)]

siempre que dichas esperanzas existan.

También es importante en la descripción de una variable aleatoria, consideraruna cantidad que nos cuantifique el grado de alejamiento de los valores entorno a algún punto; en particular , respecto del centro de su distribución ..Una medida que refleja este hecho es la varianza.

Page 49: Libro Estadistica

49

Definición Varianza o Dispersión . La de una variable aleatoria X, quedenotaremos por , V(X) o Var(X), se define por5#

x

= E[(X ) ],5 .2x x #

y a su raíz cuadrada positiva, , se le llama de5x desviación típica o estándarX.

Desarrollando el cuadrado y utilizando las propiedades del operador esperanzatenemos que la varianza podemos escribirla como

= E[X ] = E[X ] (E[X]) .5 .2 2 2 2 2x x

Algunas propiedades de la varianza están dadas en el siguiente teorema

Teorema 2.2. Sea X una variable aleatoria con media y varianza .. 5#

Entonces,(a) Var(k) = 0; k constante(b) Var(X+k) = Var(X) = 52

(c) Var(kX) = k Var(X) = k .# # #5

Demostración. Desarrollaremos solamente el caso (c), las restantes se dejancomo ejercicio. Sea k una constante arbitraria. Por definición

Var(kX) = E(k X ) (E(kX))# # #

= k E(X ) (kE(X))# # #

= k {E(X ) }# # # .

= k Var(X).#

La varianza es por definición una cantidad no negativa y proporciona lavariabilidad de las mediciones en torno a la media. En el caso discretocorresponde a una suma ponderada de las distancias desde los valores asumidospor la variable al centro de la distribución, representado por la esperanza de lavariable en cuestión. Así, tanto la varianza como la desviación estandár sonmedidas de dispersión de una variable. Como tales no son únicas, existiendootras medidas de dispersión que pueden ser útiles en situaciones determinadas.Por ejemplo, la desviación media D = E(|X |) y el recorrido intercuartílico .Q = t t .!Þ(& !Þ#&

Conocida la media y la varianza de una variable aleatoria X podemosaproximar probabilidades respecto de ella sin conocer explícitamente su

Page 50: Libro Estadistica

50

distribución. De hecho, lo que se obtiene es una cota para dichasprobabilidades.

Para establecer la cota, consideremos previamente el siguiente teorema general

Teorema 2.3. Sea X una variable aleatoria y g(X) una función no negativa deX con dominio en . Entonces‘

P(g(X) k) , k>0  Ÿ aE[g(X)]

k

Demostración. Haremos la demostración para el caso continuo en el entendidoque la demostración para variables discretas es análoga. Sea entonces X unavariable aleatoria continua con función de densidad f (x), por definiciónX

E[g(X)] = g(x) f (x)dx( _

_-X

= g(x)f (x)dx + g(x)f (x)dx( ({ = }

X X

{ <BÀ1ÐBÑ  5 BÀ1ÐBÑ 5™y como g(x) es no negativa tenemos

E[g(X)] g(x) f (x) dx  ({ }

X

BÀ1ÐBÑ 5

kf (x)dx = kP(g(X) k).   ({ }

X

BÀ1ÐBÑ 5

y por lo tanto el resultado del teorema.

Teorema 2.4. (Desigualdad de Chebyshev). Sea X una variable aleatoria conmedia y desviación estandár . Entonces,. 5x x

P(|X- | r ) , r>0.. 5x x  Ÿ 1r#

Demostración. Por sucesos equivalentes tenemos que

P(|X- | r ) = P (X- ) r .. 5 . 5x x x x    ‘# # #

Enseguida, tomando g(X)=(X ) y k=r en el teorema anterior, se tiene . 5x x# # #

de inmediato el resultado.

Notemos que la desigualdad de Chebyshev la podemos escribir en formaalternativa como

Page 51: Libro Estadistica

51

P(|X | < r ) 1   . 5B B1r#

o lo que es lo mismo

P( r <X< +r ) 1 .. 5 . 5x x x x   1r#

La desigualdad de Chebyshev, como ya lo hemos mencionado, es muy útil paraaproximar probabilidades acerca de una variable aleatoria cuya función deprobabilidad y/o densidad no es conocida. Se puede verificar, conocida ladistribución de probabilidades, que la cota de Chebyshev es razonablementebuena si r es un número grande.

Ejemplo. Consideremos la variable aleatoria X con función de densidad deprobabilidad f(x) = 2exp( 2x), x>0. Comparemos el valor que nosproporciona la cota de Chebyshev con la probabilidad exacta que X tome unvalor dentro de dos desviaciones estándar de la media.

Utilizando la función de densidad encontramos

= 1/2, = 1/4 y F (t) = 1 e ; t 0. 5x Xx# #>  

Entonces, la probabilidad exacta corresponde a

P( 2 <X< +2 ) = P(1/2 1<X<1/2+1). 5 . 5

= P( 1/2<X<3/2)

= F (3/2) F ( 1/2)X X

= 1 e 0 3.0

= 1 0.0497 = 0.9503.

Ahora, utilizando la desigualdad de Chebyshev obtenemos

P( 2 <X< +2 ) = P(|X |<2 ) 1 1/4 = 0.7500. 5 . 5 . 5  

La desigualdad de Chebyshev en este caso, está descartando todos los valoresmenores a 0.750 como probabilidad de ocurrencia del evento.

2.7. Funciones Generadoras

Recordemos que al tratar la esperanza en forma general vimos que

Page 52: Libro Estadistica

52

E[H(X)] = H(x)p (x) si X es una variable discreta

H(X)f (x)dx si X es una variable continua

ÚÛÜ

!(

X

X

Cuando H(X)=X , k , tenemos E[X ] y esta esperanza recibe el nombre dek k− k-ésimo momento de la variable aleatoria X.

Definición k-ésimo momento. Dada la variable aleatoria X, el de X se define ydenota por

m = E[X ] , k .kk −

Para k=1, tenemos m =E[X] y para k=2, m =E[X ], luego la varianza de X en" ##

función de los dos primeros momentos es

= E[X ] (E[X]) = m (m ) .5# # # ## "X

Definición. función generadora de Dada una variable aleatoria X, la momentos de X se define como

M (t) = E[e ],XX>

siempre que dicha integral exista.

Definamos M (t) = M (t), entonces suponiendo que podemos intercambiar(k)X

ddt X

kk

las operaciones de diferenciación y esperanza, tenemos

M (t) = E[ ] = E[Xe ]Ð"ÑX

dedt

tXtX

M (t) = E[ e ] = E[X e ]Ð#Ñ #X

ddt

tX tX#

#

· · · M (t) = E[ e ] = E[X e ].Ð Ñk

Xddt

tX k tXkk

Enseguida, evaluando M (t) en t=0, tenemosX

M (0) = E[X] = mÐ"Ñ"X

M (0) = E[X ] = m Ð#Ñ ##X

·

Page 53: Libro Estadistica

53

· M (0) = E[X ] = m .Ð Ñk

Xk

k

Así, las derivaciones sucesivas de M (t) evaluadas en cero generan losXmomentos de la variable aleatoria X.

Algunas propiedades de las funciones generadoras de momentos están dadas enel siguiente teorema, cuya demostración dejamos como ejercicio.

Teorema 2.5. Sea X una variable aleatoria y sean a y b constantes. Entonces,

i) M (t) = e M (t)a+X Xat

ii) M (t)= M (bt)bX Xiii) M (t) = e M (bt).a+bX X

at

Ejemplo. Supongamos que el número de horas de operación satisfactoria (sinreparaciones) que tiene cierto canal de TV es una variable aleatoria X confunción de densidad

f (x) = 500e , x>0X-&!!B

La función generadora de momentos de X está dada por

M (t) = E[e ] = e 500 e dxXtX tX - x( _

!

&!!

= 500 e dx( _

!

Ð&!! Ñ-x -t

= si t<500.500500-t

De aquí tenemos que

M (0) = m = = Ð"Ñ"X X

1500.

M (0) = m = 2/(500) ,Ð#Ñ#

#X

de donde

= m m = 1/(500) y = 1/500.5 5# # ## "X X

Ejemplo. Consideremos nuevamente el lanzamiento de una moneda.Supongamos que la lanzamos en tres ocasiones y definamos la variable

Page 54: Libro Estadistica

54

aleatoria X como el número de caras que ocurren. La función de probabilidadesde X está dada por

p (x) = , x = 0,1,2,3.X3x 8

ˆ ‰ "

La función generadora de momentos de X está dada por

M (t) = E[e ] = eXtX tx

x3x 8

! ˆ ‰$œ!

"

= (1+3e +3e + e )18

t t t# $

= (1+e ) .18

t $

Derivando la función generadora y evaluando en cero, tenemosM (0) = y M (0) = 3, de donde la varianza de X es igual a 3/4.Ð"Ñ Ð#Ñ

X X32

También podemos definir los momentos en torno a la media para una variablealeatoria X.

Definición. k-ésimo momento en torno a la media El de una variablealeatoria X se define y denota por:

n = E[(X ) ], k=1,2,...k Xk .

También suele hablarse de para referirse a los momentosmomentos centralesen torno a la media. La función generadora de momentos centrales ladefinimos, en forma análoga a la función generadora de momentos común,como

M (t) = E[e ]X-t X

..

XXÐ Ñ

= E[e e ]tX >.X

= e E[e ]t tX.X

= e M (t).tX

.X

Así, la función generadora de momentos centrales de la variable aleatoria X lapodemos expresar en términos de su función generadora.

2.8 Funciones de una Variable Aleatoria

Page 55: Libro Estadistica

55

Aunque ya hemos considerado algunas funciones de una variable aleatoria enlas secciones anteriores, formalizaremos aquí algunos casos simples ya que, enmuchas situaciones prácticas se presenta el problema de calcular la distribuciónde alguna función de una variable aleatoria. En estos casos, como veremos, unasimple transformación permite resolver el problema. El problema general; estoes, para funciones de más de una variable, será tratado en el capítulo 4.

Cuando X es una variable aleatoria discreta y estamos interesados en la funciónde probabilidades de Y=H(X), el problema es simple ya que bastará consustituir en forma adecuada cuando Y es una función uno a uno. Esto quedaconsignado en el siguiente teorema.

Teorema 2.6. Sea X una variable aleatoria discreta con recorrido R y funciónXprobabilidades p (x). Sea Y=H(X) una transformación uno a uno sobre X, conXinversa X=H (Y) en el recorrido de Y, R . Entonces la función de-

Y"

probabilidades de Y, p (y), está dada porY

p (H (y)), y R .X Y-" a −

Demostración. En efecto, sea y un valor particular de la variable aleatoriaY=H(X), la función de probabilidad de Y es por definición

p (y)= P(Y=y)=P(H(X)=y)=P(X=H (y))=p (H (y)), y R .Y-1 -1

X Ya −

Ejemplo. Un kiosco de revista ordena 4 ejemplares de una nueva revista. Sea Xla variable aleatoria que denota la demanda semanal, por parte de los clientesde este kiosco, de esta revista. Se encontró que la distribución deprobabilidades para X es

x 1 2 3 4 5 6p(x) 6 5 4 3 2 1

21 21 21 21 21 21

que podemos escribir como: p (x) = ; x=1,..,6X7 x21

Suponga que el ingreso de este kiosco está relacionado al número de demandaspor la nueva revista por la función Y = 200X+300000. La distribución deprobabilidades para el ingreso sale inmediátamente de aplicar el Teorema 2.6,pues Y es una función uno a uno de X.

El espacio de valores de Y es el conjunto:

R = 300200, 300400, 300600, 300800, 301000, 301200Y ˜ ™Luego, p (y) = p ( )Y X

y 300000200

Page 56: Libro Estadistica

56

= 7 ( )21

y 300000200

= , para y R .301400 y4200 Y

o bien, y (x100) 3002 3004 3006 3008 3001 3012p(y) 6 5 4 3 2 1

21 21 21 21 21 21

Notemos que las probabilidades permanecen inalteradas, sólo varían los valoresasociados a la variable aleatoria. De aquí el nombre de cambio de variable. Siestamos aún en el caso discreto; es decir, donde X es una variable aleatoriadiscreta, pero la función Y=H(X) no es uno a uno, podemos proceder como enel siguiente ejemplo.

Ejemplo. Consideremos la misma variable aleatoria X, demanda semanal porla nueva revista, del ejemplo anterior y determinemos la distribución deprobabilidades para el número de copias no vendidas al final de la semana.

Sea Z la variable aleatoria definida como número de copias no vendidas a lasemana. Ahora nos interesa determinar la función de probabilidades deZ=H(X)=Máximo 4 X, 0 . Notemos que Z no es una función uno a uno, R˜ ™ ^

= {0,1,2,3}. Sin embargo, podemos determinar la función de probabilidades deZ en forma puntual, usando eventos equivalentes. En efecto,

p (0) = P(X=4 ó X=5 ó X=6)^

= p (4)+p (5)+p (6)X X X = 6/21

p (1) = P(X=3)^

= p (3)X = 8/16,

p (2) = p (2)^ X = 5/21

p (3) = p (1)^ X = 6/21Así, la función de probabilidades de Z está dada por

z 0 1 2p (z) 6/16 8/16 2/16Z

Ahora, para variables aleatorias continuas, veremos un teorema que resuelve elproblema de encontrar la distribución de Y=H(X), cuando H es una función

Page 57: Libro Estadistica

57

monótona creciente o decreciente. Además presentamos una serie de ejemplosde tranformaciones más comunes.

Teorema 2.7 . Sea X una variable aleatoria continua con función de densidadf (x) y sea H(X) una función monótona, continua y diferenciable.X

Si Y=H(X), entonces su función de distriibución está dada por:

F (t) = F (H (t)) si H(X) es creciente1-F (H (t)) si H(X) es decreciente]

"

"œ X-

X-

y la función de densidad de Y es

f (y) = f (H (y)) | |, y R .]"

X Y- dH (y)

dy-"

a −

Demostración. Sea X una variable aleatoria continua y sea la variable aleatoriaY=H(X), donde H es una función monótona creciente de x, x R , entoncesa − X

F (t) = P(Y t) = P(H(X) t)] Ÿ Ÿ

= P(X H (t)) = F (H (t)).Ÿ - -X

" "

Si ahora H es monótona decreciente,

F (t) = P(Y t) = P(H(X) t)= P(X > H (t))]"Ÿ Ÿ -

= 1 P(X H (t)) = 1 F (H (t)). Ÿ - -X

" "

Así, derivando la función de distribución tenemos que, si H(X) es creciente, lafunción de densidad es

f (t) = f (H (t)) H (t),]" "

X- -d

dty si H(X) es decreciente

f (t) = (1 F (H (t))]"d

dt X-

= f (H (t)) X-" dH (t)

dt-"

= f (H (t))| |.X-" dH (t)

dt-"

Por lo tanto, si Y=H(X) es monótona, ya sea creciente o decreciente, entoncesla función de densidad de Y está dada por

Page 58: Libro Estadistica

58

f (t) = f (H (t)) | |.]"

X- dH (t)

dt-"

Ejemplo. Sea X es una variable aleatoria con función de distribución F (t) yXfunción de densidad f (t). Sea Y = a+bX , b>0, entonces como Y es unaXfunción monótona creciente de la variable X tenemos, de acuerdo al teoremaanterior, que la función de distribución acumulada y la función de densidad deY son respectivamente:

F (t) = F ( ) y f (t) = f ( ).Y X Y Xt a t-a

b b b "

En este caso se tiene de inmediato que la media y la varianza de Y están dadaspor

E(Y) = a+bE(X) y = b , respectivamente.5 5# # #] X

Ejemplo. (Forma estándar). Consideremos la variable aleatoria X, cuyafunción de distribución está dada por

F (t) = 1 e si t >0X #>

La forma estándar de X se define por la transformación Z = (X )/ . De . 5acuerdo al Ejemplo anterior, la función de distribución de Z está dada por

F (t) = F ( ); donde a = / y b = 1/ .^ Xt a

b . 5 5

Así,

F (t) = 1 e , si >0.Z-2( )

t+ /1/. 55

t+ /1/. 55

Realizando los cálculos, tenemos que = 1/2 y = 1/2, entonces. 5

F (t) = 1 e si t >-1^Ð> "Ñ +

Finalmente, como Z = / + X/ , entonces . 5 5

E(Z) = / + / = 0 y Var(Z) = (1/ ) = 1. . 5 . 5 5 5# #

Así, la forma estándar de una variable aleatoria siempre tendrá media cero yvarianza unitaria.

Page 59: Libro Estadistica

59

Ejemplo. Sea X una variable aleatoria continua con función de distribuciónF (·), tal que F (t) = 0, para todo t 0 . Si Y = X , entoncesX X Ÿ "Î#

F (t) = F (t ) si t >0]#

Xy f (t) = 2t f (t ), si t >0,]

#X

Notemos que, aparte de ser X una variable aleatoria continua, ella debe ser positiva, tal que su raíz cuadrada sea real; de lo contrario el resultado no esválido.

Ejemplo. Consideremos la variable aleatoria X que tiene función de densidadf (x) = 2(1-x), 0<x<1, y determinemos la función de densidad de Y = e .X

X

H(x) = e es una función monótona de x, cuya función inversa es x=lny=H (y).x -"

Entonces una aplicación directa del Teorema 2.7 nos conduce a la función dedensidad de Y

f (y) = 2(1-lny) /y, 1< y<e.]

Observación. Si H(X) no es una función monótona no se dispone de unresultado general para determinar la distribución de probabilidades y habría queresolver cada caso separado. Veamos algunos ejemplos

Ejemplo. Sea X es una variable aleatoria continua con función de densidad

f(x) = 1/2 , -1<x<1.

Determinemos la distribución de la nueva variableY = X .#

Primero notemos que R =(-1,1), entonces R = 0,1). Así, inmediatamenteX Y sabemos que

F (y)= 0 si y<01 si y>1Y œ

Ahora, para valores 0 y 1 podemos razonar como sigue: El eventoŸ Ÿ˜ ™ ˜ ™Y y es equivalente al evento X y el cual es equivalente aŸ Ÿ2

˜¸ ¸ ™ ˜ ™È È ÈX y y a - y Y yŸ Ÿ Ÿ

Por lo tanto para 0 y 1Ÿ Ÿ

Page 60: Libro Estadistica

60

F (y) = P( - y Y y ) = F ( y) F (- y)Y X X˜ ™È È È ÈŸ Ÿ

entonces derivando la función de distribución anterior obtenemos la función dedensidad de Y como

f (y) = 0 si y <0f ( y) y -f (- y)(- y ) si 0 y 10 si y > 1

]" "# #

ÚÛÜ È ÈX X

-1/2 -1/2 Ÿ Ÿ

Esto es

f (y) = y si 0 y 10 en otros casosY

-1/2œ "# Ÿ Ÿ

En este ejemplo, notemos que la transformación de la variable original X essimétrica (corresponde a una parábola centrada en cero). El procedimientoanterior desgraciadamente no es válido para funciones no simétricas , como loveremos en el siguente ejemplo.

Ejemplo. Sea X una variable con densidad f (x)=1/3 para -1 x 2 yX Ÿ Ÿfunción de distribución

F (x)=0 si x <-1

si -1 x 21 si x >2

Xx+1

3

ÚÛÜ Ÿ Ÿ

Determinemos la distribución de Y = X .2

Claramente, R = 0,4 por lo que F (y)=0 para y < 0 y F (y)=1 para y > 4.Y Y Y ‘Ahora para y 0,4 ,analicemos los intervalos 0,1) y 1,4 por separado− ‘ ‘ ‘Si 0 y < 1:Ÿ

F (y) = P(X y)Y2 Ÿ

=P(- y Y y)È ÈŸ Ÿ

= F ( y)-F (- y)X XÈ È =

È Èy+1 - y+13 3

=2 y

Þ

Page 61: Libro Estadistica

61

Para 1 y 4:Ÿ Ÿ

F (y) = P(Y 1) + P(1<Y y)Y Ÿ Ÿ

= + P(1<X y)23

2 Ÿ

= +P(!<X y)23 Ÿ È

= +F ( y)- F (1)23 X XÈ

= + - .2 23 3 3

y+1È

Derivando la función de distribución, obtenemos la densidad de Y

f (y) = si 0<y 1

si 1<y 40 e.o.c.

Y

13 y

16 y

ÚÝÛÝÜÈÈ

Ÿ

Ÿ

EJERCICIOS

1. Considere una caja que contiene 4 fichas marcadas con los números 1, 2, 3 y4, respectivamente.a) Si se extrae una ficha al azar de la caja e Y es la variable aleatoria quedenota el número que ocurre. ¿Cuál es la función de probabilidad paraY?b) Si dos fichas se extraen de la caja sin reemplazo y si Z es la variablealeatoria que denota la suma de los números que ocurren, determine la funciónde probabilidad de Z.c) Defina Z igual que en (b) y determine su función de probabilidades cuandolas fichas se extraen con reemplazo.d) Si dos fichas se extraen con reemplazo y si X es la suma de los cuadrados delos números que ocurren, determine la función de probabilidad de X.

2. Una clase de estadística tiene 10 alumnos, 3 de los cuales tienen 19 años, 4tienen 20 años, 1 tiene 24, 1 tiene 21 y 1 tiene 26. Dos estudiantes sonseleccionados al azar sin reemplazo. Sea X la edad promedio de los dosestudiantes seleccionados. Determine la función de probabilidad de la variablealeatoria X.

3. Un hombre tiene 4 llaves en su bolsillo y como está oscuro, no puede vercuál es la llave de su puerta. El probará cada llave hasta encontrar la correcta.Sea X la variable aleatoria que indica el número de llaves probadas (incluyendola correcta) para abrir la puerta. ¿Cuál es la función de probabilidad de X?

Page 62: Libro Estadistica

62

4. Suponga que dos dados son lanzados uno a la vez. Sea M la variablealeatoria que indica el máximo de los dos números que ocurren y sea W lavariable aleatoria que representa el mínimo de los dos números que ocurre.Encuentre la función de probabilidad para M y la función de probabilidad paraW.

5. a) Sea p(x) = c(x-2), donde x=1,2,...,6. ¿Es posible encontrar una constante cde modo que p(x) sea una función de probabilidad?b) Encuentre c tal que p(x)=c/x!; x=0,1...sea una función de probabilidad.Calcule P(X< 2) y P(X 2)Ÿ6. Usted va a participar en el siguiente juego: se lanzan 3 dados y se le permiteapostar 1 dólar en la ocurrencia de uno de los enteros 1,2,3,4,5,6. Suponga queusted apuesta por la ocurrencia del 5. Entonces si un 5 aparece en uno de lostres dados usted gana 1 dólar. Si dos 5 aparecen, gana dos dólares y si aparecentres 5 usted gana 3 dólares. Si ningún 5 aparece usted pierde 1 dólar.Sea X la cantidad neta que usted gana en una tirada de este juego. Determine ladistribución de probabilidad para X. ¿Le conviene participar en este juego?.Justifique.

7. El juego del ''Keeno'' consiste en seleccionar pelotas de ping-pong al azar deuna urna grande. La urna contiene 100 pelotas numeradas desde el 00 al 99.Veinte de estas pelotas van a ser seleccionadas al azar del recipiente. Antes quesean seleccionadas, se le permite a usted elegir a su gusto tres númeroscualesquiera del 00 al 99.Sea Y el número de coincidencias entre los números elegidos por usted y los 20que son extraídos al azar de la urna. Determine la función de probabilidad parala variable aleatoria Y.

8. Sea la variable aleatoria U cuya función de probabilidad está dada por:

P (u) =1/2 si u= 31/6 si u= 01/3 si u= 4

U

ÚÛÜ

¿Cuál es la función de distribución de U?. Calcule P(-2 U 1).Ÿ Ÿ

9. Sea X una variable aleatoria con función de densidad

f (x) =X ˜ 1 99< x< 100 e.o.c.

Determine F (x), la función de distribución de X.X10. Sea Y una variable aleatoria continua con

Page 63: Libro Estadistica

63

f (y) =Y ˜ 2(1-y) 0< y< 1.0 e.o.c.

Determine la función de distribución de Y.

11. En cada una de las funciones dadas determine la constante c de manera quecada una de ellas posea todas las propiedades de una función de distribución.Determine en cada caso, la función de densidad si existe y grafique todas lasfunciones.

a) F(x) = b) F(x) = 0 x<51/3 1/3 x<7c x 7

ÚÛÜ Ÿ

 

˜ 1 - e x>00 x 0

--B

Ÿ

c) F(x) =0 x<0x 0 x 11 x>1

ÚÛÜ

c Ÿ Ÿ

12. Calcule P(X 6) y P(1/2< X 7) , para cada parte del ejercicio 11.Ÿ Ÿ

13. Sea X una variable aleatoria con función de densidad de probabilidad.

f (x) = , - < x< .X1

(1+x )1 # _ _

Determine la función de distribución de X.

14.Se lanzan dos dados juntos hasta obtener una suma de 7. Determine ladistribución de probabilidades para X, el número de lanzamientos necesariospara lograr este objetivo.

15. Sea X la duración de un tubo electrónico y suponga que X se puederepresentar como una variable aleatoria continua con función de densidad f(x)= be , x>0, b> 0. Demuestre que p =P(j X< j+1) es de la forma (1-a)a y-bx

44Ÿ

determine el valor de a.

16.El tiempo de operación sin falla de cierta componente es una variablealeatoria X (en días), con función de densidad de probabilidad dada por: f (x) = e , x>0X

1120

- x120

a) ¿Qué proporción de estas componentes duran a lo más 100 días?b) Si cierta componente dura más de 100 días, ¿cuál es la probabilidad que dureotros 100 días más?

Page 64: Libro Estadistica

64

17. Se extraen al azar tres fichas juntas desde una caja que contiene 5 fichasnumeradas del 1 al 5. Sean Y el menor número de las tres fichas extraídas y Rel mayor menos el número menor.a) Determine la distribución de probabilidad para Y y para R.b) Calcule la P(Y 2) y P(R>2).Ÿ

18. Sea X una variable aleatoria discreta con función de probabilidad dada porp(x) = 1/4, x=2, 4, 8, 16. Calcule:a) E(X) d) E(2 )\ #/

b) E(X) e) Var(X)#

c) E(1/X) f) Var (1/X). 19. Sea X una variable aleatoria continua con función de densidad

f(x) = 2(1-x) o<x<10 e.o.c.œ

Calcule:a) E(X) b) E(X ) c) E(X+10)# #

d) E(1/(1-X)) e) y 5 52X X

20. Sea X una variable aleatoria y c una constante arbitraria. Muestre que E[X-c) ] es minimizada cuando c= .#

\.

21. Determine el número de defectuosos de una selección aleatoria de 4artículos desde un lote que contiene 10, de los cuales dos son defectuosos.

22. Determinar el valor esperado del número más pequeño de tres fichasextraídas al azar desde una caja que contiene 5 fichas numeradas del 1 al 5.

23. Calcular el valor esperado de una variable aleatoria X con función dedistribución

F (x) = 0 x<0x 0 x 11 x>1

X

ÚÛÜ Ÿ Ÿ

24. Calcular el valor de la variable aleatoria Z cuya función esperada está dadapor:

f (z) = ^ ˜ 1-|z| si |z|<10 e.o.c

25. Una rifa tiene como premio un auto de 3000 dólares. Se venden 10000números a 1 dólar cada uno. Si usted compra un número, ¿cuál es su ganancia

Page 65: Libro Estadistica

65

esperada?. ¿Cuál es su ganancia esperada si usted compra 100 números?.Calcule la varianza de su ganancia en estos dos casos.

26. Una firma de refrigeradores ofrece modelos de 14, 16 y 19 pies cúbicos decapacidad. Sea X la capacidad solicitada por el próximo cliente que adquiereun refrigerador. Considere para X la siguiente distribución de probabilidades.

x 14 16 19

p(x) 0.2 0.5 0.3

a) Calcular E(X) y Var (X).b) Si el precio de un refrigerador de capacidad X está dado por 25X-8.5. ¿Cuálserá el precio esperado que cancelará el próximo cliente?.c) ¿Cuál es la varianza correspondiente a 25X-8.5?

27. La duración en miles de horas de cierto tipo de motor eléctrico es unavariable aleatoria con función de densidad dada por:

f (x) = X ˜ 6x(1-x), 0<x<10 e.o.c

Suponga que el costo de reparación R por cada unidad que falla está dado por:$5.000 si el motor dura menos de 300 horas; $10.000 si el motor dura entre 300y 550 horas; y $15.000 si el motor dura más de 550 horas.a) ¿Cuál es el costo esperado de reparación?b) Si se eligen al azar cuatro motores que han fallado, calcular la probabilidadque al menos tres de ellos tengan un costo de reparación de $15000.

28. Considere una variable aleatoria X cuya función de densidad está dada por:

f (x) = œ a e x> 00 e.o.c.

-BÎ#

Determine:a) El valor de a.b) La media y la varianza de X.c) La media y varianza de la variable Y=X/2-1.

29. El tiempo de entrenamiento de un ingeniero en una planta acerera es unavariable aleatoria con función de densidad

Page 66: Libro Estadistica

66

f (x) = (x en meses)0 si x<1ax si 1 x 60 si x> 6

ÚÛÜ 2 Ÿ Ÿ

a) Determine el valor de a.b) ¿Qué probabilidad existe que el entrenamiento de un ingeniero demoremenos del tiempo de entrenamiento promedio para dicha planta?c) ¿Qué probabilidad existe que un ingeniero necesite a lo menos - días de. 5entrenamiento?

30. La media y varianza de la variable aleatoria X están dadas por y ,. 5#

respectivamente. ¿Para qué valores de a y b, la variable aleatoria Y=aX+b tienemedia 0 y varianza unitaria?

31. Un dado es lanzado una vez. Sea X la variable aleatoria que denota laocurrencia del número 6. Calcule la función generadora de momentos de X,M (t), y úsela para determinar los tres primeros momentos de X.\

32. El número de horas de operación satisfactorias de cierta marca detelevisores es una variable aleatoria Z con función de densidad

f (z) = ^ š 0.0001e si z>00 si z 0

-!Þ!!!"

Ÿ

Determine M (t) y utilícela para calcular y .^ ^#^. 5

33. Considere la variable aleatoria X con función de densidad f (x) = 1/2,X0 x 2. Determine una cota inferior para P(|X-1| 0.75), usando laŸ Ÿ Ÿdesigualdad de Chevychev y compárela con el valor exacto de estaprobabilidad.

34. Sea X una variable aleatoria con función de densidad de probabilidad.

f (x) = X ˜ 1/3 si 2 x 50 c.o.c.

Ÿ Ÿ

a) Determine P(|X-3.5| 1.25) y compárela con la cota dada por laŸdesigualdad de Chevychev.b) Utilice la desigualdad de Chevychev para determinar un valor aproximadode P(X 4.5). 

35. La función característica de una variable aleatoria X con función dedensidad f (x) se define por:X

(t) = E(e ), donde i= -19XitX È

Page 67: Libro Estadistica

67

Pruebe que E(X ) = (1/i ) (t) |5 5>œ! d

dt5

5 9X

36. Determine la Función Característica de la variable aleatoria X con densidad

f (x) = š a/2 , |x| a0 , e.o.c

Ÿ

y calcule la media de X.

37. Sea X una variable aleatoria con función de densidad f (x) y función\

generadora de momentos M (t). Sea Y=a+bX, b<0.\

a) Determine la función de densidad de la variable aleatoria Y.b) Exprese la función generadora de momentos de Y en términos de M (t) y\

utilícela para determinar la media y la varianza de Y, cuando a=2, b=1,E(X )=3/4.#

38. Considere una variable aleatoria X tal que E(X )= (k+1)!2 ,5 5

k=1,2,3...Determine la función generadora de momentos de X.

39. Sea X una variable aleatoria con función de densidad (o de probabilidad)f (x). La función Generadora de Momentos Factoriales se define y denotaXcomo:

(t) = E(t ).<XX

siempre que dicha esperanza exista.a) Exprese (t) en términos de M (t).<X X

b) Muestre que (t)| =E(X(X-1)...(X-k+1)).ddt5

5 <X >œ"

40. Sea X una variable aleatoria con recorrido R ={0,1,2,...}. Utilizando la\

<X(t) muestre que la función de probabilidades de X se puede determinarcomo:

P(X=k) = p (k) = k! (t)| , k=0,1,2,...X Xddt5

5 < >œ!

Por esta razón se acostumbra a hablar de ''función generadora de probabilidad''.

41. Determine la función generadora de momentos factoriales de la variablealeatoria X con función de probabilidad:a) p (x) = q p , 0<p<1, x=1,2,3,...\

B "-

b) p (x) = e /x! , >0, x=1,2,3...\B.. .

42. Se sabe que X es una variable aleatoria tal que:

(t) = <X0.1t

1-0.9t

Page 68: Libro Estadistica

68

Determine:

a) P(X E(X/10) + var(X/ 10))  É Èb) Función generadora de momentos de Y=2X-1.

43. En una industria química, la venta mensual de cierto producto, en miles delibras, está representado por una variable aleatoria X con función de densidad

f (x) = x/4 0 x<2(4-x)/4 2 x 40 e.o.c.

X

ÚÛÜ

ŸŸ Ÿ

a) Determine la función de distribución de X y calcule P(X=2).b) Encuentre la función generadora de momentos de X.c) Si se sabe que la venta en un mes dado no alcanza a 3000 libras, ¿cuál es laprobabilidad que se haya tenido una venta de a lo menos 1500 libras?d) Sea Y=2X-3. Determine P(Y>2) y la media de Y.

44. Una variable aleatoria X tienen función de densidad

f (x) = 1+x -1<x 01-x 0<x 10 e.o.c

X

ÚÛÜ

ŸŸ

a) Determine la función de distribución acumulada y calcule P(|X|>1/2).b) Determine la función generadora de momentos de X y calcule su varianza.c) Usando la desigualdad de Chevychev, determine una cota para P(|X|>1/2).d) Sea Y=X , determine la función de densidad de probabilidad de la variable#

aleatoria Y.

45. Considere la variable aleatoria X, cuya función de densidad está dada por

f (x) = X œ 2xe , x>00 , e.o.c.

-x#

a) Encuentre la función de distribución de Y=X .#b) La densidad de Y.

46. Sea X una variable aleatoria con función de densidad f (x) = X š x/2, 0<x<2

0 e.o.c.

Encuentre la densidad de Y=X .$

Page 69: Libro Estadistica

69

47 . Si la densidad de X está dada por

f (x) =X œ para -1<x<10 e.o.c.$ #

#x

Encuentre:a) La densidad de probabilidades de Y = |X|.b) La densidad de Z = X .#

48. Sea Y una variable aleatoria con densidad de probabilidad dada por

f (y) = ] š 2(1-y) 0 y 10 e.o.c.

Ÿ Ÿ

a) Encuentre la función de densidad de X =2Y-1."

b) Encuentre la función de densidad de X =Y .##

Page 70: Libro Estadistica

70

CAPITULO III DISTRIBUCIONES ESPECIALES

En este capítulo veremos algunas distribuciones de probabilidades especiales,discretas y continuas, asociadas con experimentos caracterizados en forma muyprecisa. Como veremos, estas distribuciones de probabilidades se puedenexpresar en una fórmula que involucra ciertas constantes, llamadas parámetrosde la distribución. Las definiciones de las variables aleatorias y susdistribuciones de probabilidades surgen en forma directa, al considerar lascaracterísticas de estos experimentos. Estas distribuciones especiales, son muyconocidas por su amplia aplicación en la resolución de problemas prácticos endistintas áreas del conocimiento.

3.1. Distribución Bernoulli

Uno de los experimentos más simple que podemos realizar es aquél donde losresultados posibles son sólo dos; por ejemplo, lanzamiento de una monedaequilibrada (cara, sello), el sexo de un niño por nacer (hombre, mujer), laclasificación de un artículo que se está inspeccionando (defectuoso, nodefectuoso). Este tipo de experimento con sólo dos resultados posibles sedenomina y sus eventos elementales, comunmente llamadosEnsayo Bernoulliéxito fracaso y , los denotaremos por E y F, respectivamente.

El espacio muestral asociado a un ensayo Bernoulli es = {E,F}, y asignamosHprobabilidad p al suceso E y q=1 p al suceso F, donde 0<p<1. Así, P(E)=p esla probabilidad de éxito y P(F)=q es la probabilidad de fracaso. En realidad,cualquier experimento puede ser usado para definir un ensayo Bernoullisimplemente denotando algún evento de interés, A, como éxito y sucomplemento, A , como fracaso.-

Definición. Sea el espacio muestral de un experimento. Sea AH H§cualquier evento con p=P(A), 0<p<1. Definimos la variable aleatoriaBernoulli con parámetro p, como

X( ) = 1 si A0 si A.=

==œ −

Â

La notación más usual para indicar que X tiene distribución Bernoulli deparámetro p es X Bernoulli(p). Si el experimento es realmente un ensayoµBernoulli, tomamos simplemente A={E}.

Dado que el recorrido de la variable aleatoria X es R = {0,1}, ella es discreta yXsu función de probabilidades se obtiene directamente de la probabilidad

Page 71: Libro Estadistica

71

asignada al suceso A de . En efecto, como X=1 si y sólo si A ocurre, entoncesHP(X=1) = P(A) = p, y como X=0 si y sólo si A ocurre, entonces P(X=0) =-

P(A ) = 1 p = q. Por lo tanto, si X es una variable aleatoria Bernoulli de- parámetro p, entonces su función de probabilidad está dada por

p (x) = p si x = 1q si x = 0X œ

que también podemos escribir como

p (x) = p q , x = 0,1; donde p+q=1.Xx x"

Utilizando la función de probabilidades de la variable Bernoulli, obtenemosque el valor esperado de X es

E(X) = 0·q+1·p = p

y como

E(X ) = p , k=1,2,3,...k a

entonces la varianza de X está dada por

Var(X) = p p = p(1 p) = pq.#

La función generadora de momentos de X es

M (t) = E(e ) = qe +pe = q+pe .XtX t t t! "

Observación. Notemos que al definir la distribución Bernoulli, en realidadhemos dicotomizado el elemento que estamos observando. Por ejemplo, siestamos analizando los artículos producidos por una máquina, estos podemosclasificarlos como buenos o defectuosos para efectos de un control de calidad yasí tenemos una sucesión de ensayos Bernoulli. Esto podríamos realizarloindependientemente de los diferentes tipos de artículos que podría estarproduciendo la máquina en cuestión y de la cantidad producida en un períododeterminado. Como veremos, la distribución Bernoulli juega un papelimportante en la construcción de otras distribuciones de probabilidadesdiscretas.

3.2. Distribución Binomial

Page 72: Libro Estadistica

72

Un experimento que consiste de n ensayos Bernoulli independientes, cada unocon probabilidad de éxito p, se llama un experimento Binomial con n ensayosy parámetro p.

La frase ''ensayos independientes'' significa que los ensayos son eventosindependientes; esto es, lo que ocurra en un ensayo no tiene efecto en elresultado observado para cualquier otro ensayo.

El espacio muestral natural para un experimento binomial es el productocartesiano de los espacios muestrales de cada ensayo Bernoulli, por lo que elespacio muestral asociado a un experimento Binomial lo podemos escribircomo

= x x......x donde = {E,F}, i=1,2,...,n.H H H H H" # n i

Cada evento elemental de es una n-upla ( , ,..., ), donde cada es unH = = = =" # n iéxito o un fracaso en el i-ésimo ensayo, con probabilidades p y q,respectivamente. Como los ensayos son independientes, la probabilidad deocurrencia de un elemento de se obtiene multiplicando las probabilidades deHocurrencia de los resultados de cada ensayo. Así , por ejemplo, para el sucesoA = {E,E,....,E} tenemos P(A) = P(E)P(E).....P(E) = p . De la misma forma sen

tiene P(F,F,...,F) = q . Enseguida, el evento que representa éxito en el primern

ensayo y fracaso en los restantes ensayos es (E,F,F,...,F) y su probabilidad esP(E,F,....,F) = pq ,..., etc. En la práctica interesa contar el número de éxitosn-"

en n ensayos Bernoulli independientes.

Definición . Sea X el número total de éxitos observados en un experimentoBinomial con n ensayos y parámetro p. Entonces X se llama variable aleatoriaBinomial con parámetros n y p. (X b(n,p)).µ

Dado que la variable X cuenta el número de total de éxitos observados en unexperimento binomial con n ensayos, ella es discreta y su recorrido es R =X{0,1,...,n}. Hay sólo un elemento de para el cual X=0; esto es, ningún éxitoHen los n ensayos, así P(X=0)=q . También hay sólo un elemento para el cualn

X=n, y P(X=n)=p . Elementos de con k éxitos y n k fracasos, X=k, tienenn H probabilidad p q y de éstos hay , que corresponden al número de n-uplask n-k n

kˆ ‰

que contienen exactamente k éxitos y n-k fracasos. Por lo tanto, la función deprobabilidad de X es

P(X=k) = p (k) = p q , k=0,1,2,....n,Xnk

k n-kˆ ‰que recibe el nombre de de parámetros n y p. Esto distribución Binomialdebido a que su fórmula corresponde al término general en el desarrollo delteorema del binomio.

Page 73: Libro Estadistica

73

Usando el teorema del binomio podemos verificar fácilmente que p (x)Xsatisface las condiciones que le hemos impuesto a una función de probabilidad.

Si X es una variable aleatoria Binomial con parámetros n y p, se pruebafácilmente que su función generadora de momentos está dada por

M (t) = e p q = (q+pe ) ,Xnx

tx x n x t n!ˆ ‰

de donde

M (0) = np y M (0) = np + n(n-1)p .(1) ( )X X

# #

Así, la media y la varianza de X están dadas por = np y = npq,. 5X X#

respectivamente.

Observación. Es también útil determinar la variable aleatoria binomial (n,p)como la suma de n variables aleatorias Bernoulli independientes.

Supongamos que se realizan n ensayos Bernoulli independientes , cada uno conprobabilidad de éxito p. Si definimos

Y = ; i= 1,2,...,n1 si se observa éxito en el ensayo i0 en otros casosi œ

Entonces, X= Y es el número total de éxitos en los n ensayos que, como!ni

"

veremos en el Capítulo IV, corresponde a una variable aleatoria Binomial conparámetros n y p.

Ejemplo. Supongamos que un estudiante rinde un test de 10 preguntas deverdadero y falso y por no estar preparado, debe adivinar la respuesta a cadapregunta. Si X es el número de respuestas contestadas correctamente por esteestudiante, determinemos la distribución de probabilidades para X.

Cada pregunta del test es un ensayo Bernoulli donde el evento éxito en estecaso es E: "contestar correctamente", y la probabilidad de éxito para cadapregunta es p=P(E)=0.5. Si X es el número total de respuestas correctas en las10 preguntas, entonces X b(n=10, p=0.5) y luego, la función deµprobabilidades de X es

p (x) = 0.5 0.5 = 0.5 , x=0,1,...10.X x xx xˆ ‰ ˆ ‰"! "!"! "!

Page 74: Libro Estadistica

74

Utilizando esta función de probabilidades podemos calcular, por ejemplo, laprobabilidad que el estudiante conteste correctamente todas las preguntas, quees

p (10) = 0.5 = 0.000098X"!

La probabilidad que exactamente 5 preguntas sean contestadas correctamentees

p (5) = 0.5 = 0.24609X 5ˆ ‰"! "!

Supongamos que el estudiante aprueba el certamen contestando 7 ó máspreguntas en forma correcta. Entonces, la probabilidad de aprobar es

P(X 7) = 0.5 = 0.17188.  ! ˆ ‰"!œ(

"! "!x x

Además, el número medio de preguntas contestadas correctamente esE(X)=10(0.5)=5 preguntas.

3.3. Distribución Geométrica

Definición. Supongamos que realizamos ensayos Bernoulli independientes,con probabilidad de éxito p en cada ensayo. Si X es el número de ensayosnecesarios para obtener el primer éxito, entonces X se llama variable aleatoriaGeométrica de parámetro p. (X G(p)).µ

Para determinar la función de probabilidades de X, notemos que ella es discretapues su recorrido está dado por R = {1,2,...}. La probabilidad de obtener éxitoxen el primer ensayo está dada por P(X=1)=p=q p. Tendremos que X=2 si y!

sólo si, tenemos un fracaso en el primer ensayo y luego éxito en el segundo, demanera que P(X=2) = qp = q p . Similarmente, para cualquier k 3" "  observamos X=k si y sólo si tenemos fracasos en los k-1 primeros ensayos,seguidos por un éxito en el ensayo k, de manera que P(X=k) = q p.k-"

Por lo tanto, si X es una variable aleatoria geométrica, entonces su función deprobabilidades está dada por

p (x) = q p , x=1,2,...Xx-"

Es fácil verificar que p (x) es efectivamente una función de probabilidad yXrecibe el nombre de ya que sus términos forman unadistribución geométricaprogresión geométrica.

Page 75: Libro Estadistica

75

La esperanza de una variable aleatoria geométrica es

E(X) = xpq = p xq! !_ _Bœ" Bœ"

B " B "- -

= p (q+q +q +........)ddq

# $

= p ( ) = p/(1 q) = 1/p.ddq 1 q

q

#

Se puede probar que Var(X) = q/p y que la función generadora de momentos#

de X está dada por

M (t) = pe /(1 qe ), si qe <1.Xt t t

Para determinar la Función de Distribución de la variable aleatoria Geométrica,notemos que

P(X>x) = pq!_5œ "

5 "x

-

= p(q +q +q +...)x x+ x+" #

= p q (1+q+q +...)x #

= pq = q .x x11 q

Por lo tanto,

F (x) = 1 P(X>x) = 1 q , x = 0,1,...Xx

La distribución Geométrica tiene la propiedad de ser "desmemoriada",propiedad que no es compartida por ninguna otra distribución discreta. Estosignifica que P(X>a+b/X>a) = P(X>b), con a y b enteros positivos; esto es, laprobabilidad de observar más de b ensayos adicionales para obtener el primeréxito, cuando se sabe que se llevan ya más de a ensayos observados,corresponde a la probabilidad incondicional de observar más de b ensayoshasta el primer éxito. Para ver esto, sean los eventos A={X>a} y B={X>a+b},entonces

P(B/A) = P(B)/P(A)

=P(X>a+b)/P(X>a)

= q /q+, +

= q,

Page 76: Libro Estadistica

76

=P(X>b).

Ejemplo. Se lanza una moneda equilibrada hasta obtener una cara por primeravez. Deseamos determinar la probabilidad que sean necesarios menos de 3lanzamientos y el número esperado de lanzamientos hasta obtener cara porprimera vez.

Sea X la variable aleatoria que indica el número de lanzamientos hasta obtenercara. Tenemos que la probabilidad de obtener cara en cualquier lanzamiento esp=1/2. Entonces X G(p=1/2) yµ

P(X< 3) = P(X=1)+P(X=2) = 1/2 (1/2) +1/2(1/2)!

= 3/4.

La segunda pregunta corresponde a la esperanza de X; esto es, E(X)=1/p=2.

3.4. Distribucion Binomial Negativa

La distribución Binomial Negativa corresponde a la distribución del número deensayos Bernoulli independientes necesarios para observar el r-ésimo éxito,r=2,3,...

Definición. Consideremos ensayos Bernoulli independientes, con probabilidadde éxito p en cada ensayo. Si X es el número de ensayos necesarios paraobservar el r-ésimo éxito (r=2,3,...), entonces X se llama variable aleatoriabinomial negativa con parámetros r y p.

Claramente el recorrido de X es R = {r,r+1,...}, ya que al menos r ensayosXdeben realizarse para observar r éxitos. Observaremos X=r si y sólo si, un éxitoocurre en cada uno de los primeros r ensayos, y esto ocurre con probabilidadp . De manera que P(X=r) = p . Para observar X=r+1, el r-ésimo éxito debe< r

ocurrir en el ensayo r+1 y debe haber exactamente r-1 éxitos en los primeros rensayos. Así,

P(X= +1) = p q p = p q< ˆ ‰ ˆ ‰< << " < "- -

< <"-

Similarmente, para cualquier entero x>r observamos X=x si y sólo si, el r-ésimo éxito ocurre en el ensayo x y ocurren exactamente r-1 éxitos en losprimeros x-1 ensayos, luego la función de probabilidades de X está dada por

P(X= ) = p q , = r,r+1,...B BŠ ‹B "< "

--

< B <-

Page 77: Libro Estadistica

77

Los parámetros r y p caracterizan a la distribución Binomial Negativa yutilizamos la notación X bn(r,p). Usando la relaciónµ

(1+x) = 1 + nx + n(n+1)x /2! + n(n+1)(n+2)x /3! + ...-n # $

podemos mostrar que p q = 1.! Š ‹_Bœ<

< B <B "< "

--

-

En efecto,

p q = p q! !Š ‹ Š ‹_ _Bœ< Bœ<

< B < < B <

- -B " B "< " < "

- -- -

= p (1 + rq + r(r+1)q /2! +...)< <

= p (1-q)< <-

= p p = 1.< <-

La función generadora de momentos de X está dada por

M (t) = e p qX-! Š ‹_

Bœ<>B < B <B "

< "--

= (pe ) (qe ) (1-qe )/(1-qe )> < > B < > > <! Š ‹B "< "

--

-

= pe /(1-qe ) , qe <1. ‘> > ><

De aquí se obtiene

E(X) = M (0) = r/p"

y Var(X) = M (0) [M (0)] = rq/p .# " # #

Ejemplo. Un basquebolista efectúa repetidos lanzamientos desde la línea detiros libres. Supongamos que sus lanzamientos son ensayos Bernoulliindependientes con p=0.7. ¿Cuál es la probabilidad que le tome menos de 5lanzamientos para lograr su primer acierto?. ¿Cuál es la probabilidad que letome menos de 5 lanzamientos para lograr su segundo acierto?. ¿Cuál es elnúmero esperado de lanzamientos para lograr su cuarto acierto?.

Sea X la variable aleatoria que indica el número de lanzamientos hasta elprimer acierto. Entonces X G(p=0.7) y luego, la probabilidad que requieraµmenos de 5 lanzamientos para encestar por primera vez, es

Page 78: Libro Estadistica

78

P(X<5) = P(X 4) = 1 0.3 = 0.9919.Ÿ %

Definamos ahora Y como el número de lanzamientos hasta el segundo acierto.Entonces Y bn(r=2 y p=0.7) y la probabilidad que realice menos de 5µlanzamientos hasta su segundo acierto es

P(Y 4) = 0.7 0.3 = 0.9163.Ÿ !ˆ ‰y=2

4y- y-""

# #

Finalmente, para contestar la última pregunta, definamos Z como la variableque indica el número de lanzamientos hasta efectuar el cuarto acierto. EntoncesZ bn(r=4, p=0.7) y el número esperado de lanzamientos hasta el cuartoµacierto es E(Z)=4/0.7.

3.5. Distribución Hipergeométrica

Para estudiar la distribución Hipergeométrica nos referiremos a la selección alazar de fichas desde una caja que contiene N fichas.

Definición. Consideremos una muestra de n fichas seleccionadas al azar, sinremplazo, desde una caja que contiene N fichas, de las cuales M son blancas ylas restantes N-M son azules. Si X es el número de fichas blancas en lamuestra, entonces X se llama variable aleatoria conHipergeométricaparámetros M, N y n.

Suponiendo que M n y N M n, R = {0,1,2,...,n}. El número total de    Xmuestras diferentes que pueden ser seleccionadas de la caja es , que es elˆ ‰R

nnúmero de subconjuntos de tamaño n que pueden ser construidos de unconjunto de N elementos. Ya que la muestra es seleccionada al azar de la caja,cada uno de estos subconjuntos tiene la misma probabilidad 1/ de serˆ ‰R

nseleccionado.

El número de estos subconjuntos que contienen exactamente x fichas blancas (yasí n-x fichas azules) es por principio de multiplicación. Por loˆ ‰ˆ ‰Q R Q

x n-x-

tanto, la función de probabilidad para X, el número de fichas blancas en lamuestra, es

p (x) = , x = 0,1,2,...,nXˆ ‰ ˆ ‰ˆ ‰Q R Q

Rx n-x

-

n

lo que denotamos por X H(M,N,n).µ

Page 79: Libro Estadistica

79

Observación. Para ver que efectivamente p (x) es una función deXprobabilidades, basta con probar que

= .! ˆ ‰ˆ ‰ ˆ ‰nx x n-x n

-œ!

Q R Q R

En efecto, consideremos la ecuación (1+y) (1+y) = (1+y) ( 3.1)Q R Q R-

Desarrollando (1+y) por el teorema del binomio, encontramos que elR

coeficiente de y es .nn

ˆ ‰R

Ahora, en el lado izquierdo de la ecuación (3.1), el término en y ocurretomando y del desarrollo de (1+y) e y del desarrollo (1+y) parax n-x -Q R Q

x=0,...,n (pues y y =y ), y como los coeficientes del mismo término a ambosx n-x n

lados deben ser iguales, tenemos

.!x=0

n ˆ ‰ ˆ ‰ ˆ ‰Q R Q Rx n-x n

- =

El valor esperado de una variable aleatoria hipergeométrica es

E(X) = x!x=0

n ˆ ‰ ˆ ‰ ˆ ‰Q R Q Rn n-x n

- /

= .M (M-1)!(x-1)! (M-x)! n-x

-ˆ ‰Nn

!x=1

n ˆ ‰R Q

Si hacemos y = x-1 tenemos

= nM/N.M

y=1

n-1

ˆ ‰ ˆ ‰Nn

Nn

! = Š ‹ Š ‹ ˆ ‰Q " R Q R "" "

- - -y n- -y n-

M

En forma similar podemos probar que

E(X(X-1)) = = n(N-1) M(M-1)n(n-1)-n- N(N-1)ˆ ‰N

n ˆ ‰Q "

#

y luego,

Var(X) = n M N-M N-nN N N-1Š ‹ Š ‹

Ejemplo. Entre 16 postulantes para un trabajo, 10 tenían un título universitario.Si 3 de los postulantes son elegidos al azar para una entrevista, ¿cuál es la

Page 80: Libro Estadistica

80

probabilidad que 2 tengan un título universitario?, ¿cuál es el número esperadode postulantes entrevistados con título universitario?.

Para responder a estas preguntas, definamos X como el número de postulantesentrevistados con título universitario. Entonces X es hipergeométrica ( M=10,N=16, n=3) y la probabilidad que dos postulantes tengan un título universitarioes

P(X=2) = / = 27/56.ˆ ‰ ˆ ‰ ˆ ‰"! ' "!# " $

Finalmente el número medio de postulantes entrevistados con títulouniversitario está dado por E(X) = 3 .10

16

Observaciones

(1) La distribución binomial es una buena aproximación de la distribuciónhipergeométrica cuando M y N-M son grandes comparados con el tamano de la~muestra n. Recordemos que una de las características de la distribuciónhipergeométrica es que las extracciones son realizadas sin sustitución; pero, sitanto M como N-M son suficientemente grandes, el hecho que el muestreo searealizado con o sin sustitución no influye notoriamente en las probabilidades.Por ejemplo, si N=1000, M=400 (artículos defectuosos), N-M=600 y n=5, y siX es el número de artículos defectuosos en la muestra, entonces la P(X=5) es

P(X=5) = / = 0.01009ˆ ‰ ˆ ‰ ˆ ‰%!! '!! "!!!& ! &

Ahora, usando la distribución binomial con p=M/N = 400/1000 = 0.4

P(X=5) = (0.4) (0.6) = 0.01024.ˆ ‰&&

& &

En general, si n min{0.2 M; 0.2(N-M)}, la distribución binomialŸproporciona una buena aproximación de los valores exactos obtenidos por ladistribución hipergeométrica.

(2) Siguiendo la similitud con la distribución Binomial, la distribución delnúmero de fichas blancas en la muestra es hipergeométrica o binomialdependiendo de si el muestreo es sin remplazo o con remplazo,respectivamente. Si M/N = p, entonces la media de la hipergeométrica coincidecon la media de la distribución binomial, y la varianza de la hipergeométrica es(N-n)/(N-1) veces la varianza de la binomial. Al factor (N-n)/(N-1) se le llamausualmente . factor de corrección por finitud

Page 81: Libro Estadistica

81

La distribución hipergeométrica tiene una aplicación directa en lo queestadística se conoce como muestreo de aceptación. Estos procedimientos demuestreo son usados frecuentemente por organizaciones y grupos que compranmateriales en lotes grandes. En tales situaciones, el comprador y el proveedorconvienen en algun nivel aceptable de calidad, lo que generalmente se traduceen algun plan de inspección. Si el lote es grande, puede ser muy demoroso omuy caro inspeccionar cada artículo del lote, de manera que sólo una muestraaleatoria de artículos serán realmente inspeccionados. El lote completo esaceptado como bueno o es rechazado por ser inaceptable, de acuerdo a losresultados en la inspección de la muestra. Consideremos como ilustración elejemplo siguiente:

Ejemplo. Supongamos que 2 artículos para inspeción son seleccionados alazar, sin remplazo, desde un lote de 100 artículos producidos por una máquinaen un período determinado. Si ambos artículos son buenos, el lote es aceptado.Si por lo menos 1 de los artículos es defectuoso el lote es rechazado. Sea Y elnúmero de artículos defectuosos en la muestra de dos artículos. Entonces Y esuna variable aleatoria Hipergeométrica, puesto que las extracciones son sinremplazo. El lote es aceptado si Y = 0. La probabilidad que Y=0 dependecrucialmente en los valores de M, el número de defectuosos en el lote. Si M = 0no hay defectuosos en el lote y

P(lote sea aceptado) = P(Y = 0) = / = 1.ˆ ‰ ˆ ‰ ˆ ‰! "!! "!!! # #

Análogamente, si M = 5, P(Y=0) = 0.902

si M = 10, P(Y=0) = 0.809

si M = 20, P(Y=0) = 0.638.

De esta manera, mientras más grande sea el número de defectuosos en el lote(M), es menos factible que el lote sea aceptado. Además, haciendo variar n,tenemos una amplia gama de planes de inspección.

3.6. Distribución Poisson

Existen muchas aplicaciones donde interesa asignar probabilidades al númerode ocurrencias de un evento en un período de tiempo fijo o en una regióndeterminada; por ejemplo, el número de averías de una cierta máquina en unajornada de trabajo, el número de partículas emitidas por un átomo radiactivoen t segundos, el número de errores tipográficos en una revista, las llamadastelefónicas que llegan a una central durante un período determinado, etc.. Laforma como ocurren estos eventos, está caracterizada por los siguientessupuestos que definen a un .proceso de Poisson de parámetro -

Page 82: Libro Estadistica

82

(i) En intervalos de longitud suficientemente cortos, por ejemplo de longitud?t, ocurre el evento sólo una vez o ninguna vez (dos o más ocurrencias sonimposibles).

(ii) La probabilidad que el evento ocurra exactamente una vez en este intervalode longitud t ( t pequeno) es proporcional a la longitud del intervalo (es~? ?aproximadamente igual a t con >0 ).-? -

(iii) La ocurrencia del evento en un intervalo de longitud t no tiene efecto en?la ocurrencia o no ocurrencia en cualquier otro intervalo de igual longitud.(independencia estocástica).

Aún cuando hablamos siempre del tiempo en los supuestos anteriores, debeentenderse que no necesariamente nos estamos refiriendo al tiempocronológico.Definición. En un proceso de Poisson de parámetro , si X es el número de-ocurrencias de un evento en un intervalo de longitud t, entonces X se llamavariable aleatoria de parámetro t.Poisson -

Evidentemente X es una variable aleatoria discreta, ya que su recorrido es R =X{0,1,...} que es un conjunto infinito numerable. Para determinar la función deprobabilidades de X consideraremos los supuestos de un proceso de Poisson.El instante en que empezamos a observar el proceso lo designaremos por 0 yserá el origen de nuestra escala de tiempo. Suponemos que vamos a observar elproceso durante un periodo fijo de tiempo t, t>0.

Dividamos el intervalo (0,t) en n=t/ t subintervalos disjuntos de longitud t? ?( t pequeño), de tal manera que en cada uno de estos pequenos intervalos~?ocurrirá 0 ó 1 evento y la probabilidad que ocurra exactamente un evento es-?t. Así, cada uno de estos intervalos es un ensayo Bernoulli con probabilidadde éxito p = t y el intervalo (0,t) es un conjunto de n ensayos Bernoulli-?independientes. Por lo tanto, si X es la variable aleatoria que indica el númerode eventos en el intervalo de longitud t, entonces X es una variable aleatoriabinomial de parámetros n y p = t = t/n, luego-? -

p (x) = ( t) (1 t)Xnx

x n-xˆ ‰ -? -?

= ( t/n) (1 t/n) , x=0,1,...,nˆ ‰nx

x n x- -

Tomando el límite de p (x) cuando t tiende a 0 y así n tiende a , llegamosX ? _a la distribución Poisson, que corresponde a la probabilidad de x ocurrencias enun intervalo de longitud t. Para esto, desarrollando el lado derecho de p (x)Xobtenemos

Page 83: Libro Estadistica

83

p (x) = ( t/n) (1 t/n)Xn!

x!(n-x)!x n-x - -

= (1 t/n) (1 t/n) ,( t) (n-x+1)(n-x+2). . .(n-2)(n-1)nx! n

-x- x

x - -n

y tomando límite cuando n tiende a infinito, se tiene

lim p (x) = , x = 0, 1, 2. . .n Ä _ X( t) e

x!- x - t-

pues lim (1/ t/n) = e , lim (1- t\n) = 1n nÄ _ Ä _

- -n - t -x-

y lim = 1n Ä _

(n-x+1) (n-x+2). . .(n-2)(n-1)nnx

Usualmente se acostumbra a denotar t= y así la función de probabilidad de- .X la podemos escribir como:

p (x) = x= 0,1,....X.x -e

x!.

,

Notemos que e /x! = e /x! = e e = 1, lo que muestra que! !_ !œ! œ!x x

x - - x - -. .. . . .

p (x) es efectivamente una función de probabilidad. Notemos también que laXdistribución Poisson puede obtenerse directamente del cálculo, usando la serie

= 1 + + +. . . + +...!_œ!x x! 2! x!

. . .x x.

#

la cual converge para todos los valores de a la función e .. .

Si X es una variable aleatoria con distribución Poisson de parámetro , lo que.denotaremos por X P( ), entonces su función generadora de momentos estáµ .dada por

M (t) = E(e ) = XtX

x!_

œ!e e

xt x -. ..

x

= e ( e ) / !=e e-. !_Bœ!

> B. B - e. . t

= e ..(e -1)t

De donde podemos obtener que E(X) = y Var(X) = .. ..

Page 84: Libro Estadistica

84

Ejemplo. Supongamos que clientes llegan a una cola de espera a una tasa de 4por minuto. Suponiendo que este proceso de llegada ocurre de acuerdo a unproceso de Poisson, determinemos la probabilidad que al menos una personallegue a la cola en un intervalo de 1/2 minuto.

Sea X es el número de personas que llegan a la cola en 1/2 minuto. Si tomamos1 minuto como unidad de tiempo tenemos = 4 y luego el número medio de.llegadas en 1/2 minuto es 2. Por lo tanto, X se distribuye Poisson( =2) y.

p (x) = 2 e /x!, x=0,1,2,....Xx -2

de donde la probabilidad que llegue al menos una persona durante un períodode 1/2 minuto es

P(X 1) = 1 P(X<1) 

= 1 P(X=0)

= 1 e -#

= 0.865.

Observación. Haciendo np= , la distribución Poisson puede ser usada como.una aproximación de la distribución binomial con parámetros n y p, cuandon 20 y p 0.05. Esta aproximación es muy buena cuando n 100 y  Ÿ  np 10.Ÿ

Ejemplo. En un sistema de control de calidad de producto terminado, unexperto, basado en su experiencia, estima que hay una probabilidad de 0.001 deencontrar un artículo defectuoso durante un período de 5 min., en una estaciónde la cadena de producción continua. Si X es el número de artículosdefectuosos observados en 100 períodos al azar de 5 min., entonces X es unavariable Binomial con parámetros n=100 y p=0.001 y la probabilidad exacta deno encontrar defectuosos es

P(X = 0) = 0.999 = 0.9048"!!

y la probabilidad encontrar un defectuoso en una sola ocasión es

P(X = 1) = 100(0.999) (0.01) = 0.0906.**

Notemos que en este ejemplo n es bastante grande y p es más bien pequeño.

Usando la distribución Poisson( = np = 0.1) estas probabilidades son.

Page 85: Libro Estadistica

85

P(X = 0) = 0.1 e = 0.9048! ! "- .

y P(X = 1) = 0.1 e /1! = 0.0905." ! "- .

3.7. Distribución Uniforme

La distribución uniforme es una de las densidades más simple y, aunque ya lahemos tratado en un ejemplo del capítulo II, daremos aquí una definiciónformal.

Definición. Sea X una variable aleatoria continua con valores en el intervalo(a,b), con - <a<b< . Diremos que X tiene distribución en el_ _ uniformeintervalo (a,b), si la función de densidad de X es constante para todo x (a,b);−esto es,

f (x) = k si a < x < b0 en otros casos.X œ

Obviamente, k debe ser mayor que cero y utilizando el hecho que f es unafunción de densidad tenemos que k = 1/(b-a). Por lo tanto, la función dedensidad de la distribución uniforme en (a,b) es

f (x) = si x (a,b)0 si x (a,b)X

1b-aœ −

Â

La función de distribución de X la obtenemos integrando la función dedensidad y es

F (x) = 0 si t < a

si a t < b 1 t b

Xt-ab-a

ÚÛÜ Ÿ

 

Los gráficos de la función de densidad y de la función de distribución semuestran en el capítulo II, en las Figuras 2.9 y 2.10 respectivamente. Si X se distribuye uniforme en (a,b), entonces podemos determinar fácilmentesu media, varianza y función generadora de momentos, obteniendo

E(X) = , Var(X) = y M(t) = ,a+b b-a) e -et(b-a)2 12

( 2 tb at

respectivamente.

Page 86: Libro Estadistica

86

Notemos nuevamente que la variable aleatoria uniforme se caracteriza por teneruna función de densidad constante en el intervalo considerado. Aparte dedefinir una variable aleatoria uniforme dentro de cualquier intervalo real,también podemos definirla para un conjunto finito dado. Bajo este contexto,tiene sentido hablar también de distribución uniforme en el caso discreto,cuando la función de probabilidades asigna un mismo valor a todos los valoresque asume la variable en su recorrido.

Ejemplo. Supongamos que X es una variable aleatoria con distribucionuniforme sobre el intervalo (0,9), entonces

P(X<3) = dx = 1 19 3( $

!

P(1<X<6) = dx = 1 59 9( '

"

P(X>4) = dx = .1 59 9( 9

4

3.8. Distribución Exponencial

Recordemos que en un proceso de Poisson de parámetro , los eventos-(llamadas telefónicas por ejemplo) ocurren al azar independientemente y a unatasa constante por unidad de tiempo. La variable aleatoria de Poisson se-define como número de ocurrencias de un evento en el intervalo (0,t]. Ahoravamos a definir otra variable aleatoria relacionada con el proceso de Poisson,que es una variable aleatoria continua y es la llamada variable aleatoriaexponencial.Definición. Consideremos un proceso de Poisson de parámetro y designemos-por cero (t=0) el instante en que empezamos a observar el proceso. Si T es eltiempo que transcurre hasta que el primer evento ocurre, entonces T se llamavariable aleatoria con parámetro .exponencial -

Dado que el tiempo es continuo, es claro que T es una variale aleatoriacontinua y su recorrido es {t: t>0}. Sea entonces t>0, luego el evento {T>t}ocurre si y sólo si, no ocurren eventos en el intervalo (0,t] y la probabilidad deque no ocurra un evento en un intervalo de longitud t es e . Por lo tanto,-->

P(T>t) = e ; t>0- t-

de donde

Page 87: Libro Estadistica

87

F (t) = P(T t) = 1 - e ; t>0X Ÿ - t-

y es 0 para t 0.Ÿ

Derivando esta función respecto de t obtenemos la de densidad de T

f (t) = e t > 00 t 0X œ- - t-

Ÿ

El parámetro que caracteriza a la distribución exponencial es >0. El gráfico de-la función de densidad exponencial para distintos valores del parámetro semuestran en la Figura 3.1.

Si X es una variable aleatoria exponencial de parámetro , podemos determinar-fácilmente la media, varianza y función generadora de momentos de X como

E(X) = 1/ , Var(X) = 1/- -#

y M (t) = /( -t) , siempre que t< ,X - - -

t

f(t)

0

0.5

1

1.5

2

0

0.4

0.8

1.2

λ=2

λ=0.5

λ=1

Figura 3.1. Función de densidad exponencial para = 0.5, 1, 2-

Ejemplo. Supongamos que en una industria los accidentes ocurren a una tasade =1/2 por semana (5 días de trabajo). Si comenzamos a observar la-ocurrencia de estos accidentes al iniciar el trabajo el día Lunes de una semanadada y si definimos X como el número de días hasta que el primer accidenteocurre, entonces X es una variable aleatoria exponencial de parámetro =-1/10.

La probabilidad que la primera semana esté libre de accidentes es

Page 88: Libro Estadistica

88

P(X>5) = e = 0.607.-&Î"!

La probabilidad que el primer accidente ocurra un Viernes de la primerasemana corresponde a

P(4<X 5) = F (5) F (4)Ÿ X X

= (1 e ) (1 e ) - -&Î"! %Î"!

= 0.0604.

La probabilidad que ocurra el Miércoles de la próxima semana es

P(7<X 8) = (1 e ) (1 e ) = 0.047.Ÿ - -)Î"! (Î"!

Finalmente, el número esperado de días hasta el primer accidente es

E(X) = 1/ = 10 días,-con desviación estándar

= 10 días.5Observación. La distribución exponencial, al igual que la distribucióngeométrica, tiene la propiedad de ser "desmemoriada"; esto es, si X es unavariable aleatoria exponencial de parámetro , y a, b son constantes positivas,-entonces

P(X>a+b/X>a) = P( )P( )X>a+b

X>a

= ee

- a b- a

-

-

Ð Ñ

= e = P(X>b).- b-

Así, si en el ejemplo anterior hemos observado que han pasado 4 días sinningun accidente, la probabilidad que pasen al menos dos días más hasta elprimer accidente, no cambia del valor original de esta probabilidad cuandoempezamos a observar el proceso. La distribución exponencial es la únicadistribución continua con esta propiedad.

3.9. Distribución Erlang

La distribución Erlang es una generalización natural de la distribuciónexponencial. Ahora queremos determinar la distribución del tiempo hasta queun evento ocurra un número determinado de veces.

Page 89: Libro Estadistica

89

Definición. Supongamos que observamos un proceso de Poisson de parámetro- desde el tiempo cero. Si T es el tiempo hasta el r-ésimo evento (r 1),r  entonces T se llama variable aleatoria de parámetros r y .r Erlang -

Para determinar la función de densidad de T , sea t>0, cualquier número fijo yrconsideremos el suceso {T >t} que indica que el tiempo del r-ésimo evento searmayor que t. Entonces {T >t} es equivalente al evento {X r-1}, donde X esr Ÿel número de eventos que ocurren en (0,t], ya que el tiempo del r-ésimo eventopuede exceder a t sólo si hay r-1 o menos eventos en (0,t]. Como X es unavariable Poisson( t), tenemos que-

P(T >t) = P(X r-1) = rx=0

r-1Ÿ ! ( t) e

x!- x -->

la función de distribución de T esr

F (t) = P(T t) = 1 - t 0Xr rx=0

r-1Ÿ a  ! ,( t) e

x!- x -->

La función de densidad de T esr

f (t) = [1-e - te -( t) e /2! -...- ( t) e /(r-1)!]X> # > < " >

<

ddt

- t - - -- - - -- - -

= t e /(r-1)! ; t>0-< < "- - t-

Así, si T es una variable aleatoria con distribución Erlang con parámetros r y ,-su función de densidad es

f (t) = , t>0.X<

- ->

< < " < < " t e t e(r) (r-1)!- - t - t-- - =

Ejemplo. Los accidentes de automóviles ocurren en Santiago, durante un fin desemana largo (72 horas), según un proceso de Poisson a una tasa de 10 porhora. Estamos interesados en determinar la probabilidad que el segundoaccidente ocurra después de una hora.

Sea T el tiempo hasta que el segundo accidente ocurre (a partir del comienzo#

del período de vacaciones). Entonces T tiene una distribución Erlang con#

parámetros r=2 y =10 y la probabilidad pedida corresponde a-

P(T >1) = 10 te dt = 10e + e#

_

"

# "!> "! "!( - - -

Page 90: Libro Estadistica

90

Otra forma de enfrentar este problema, como lo hemos mencionado antes,consiste en utilizar la distribución de Poisson; es decir,

P(T >1) = P(X 2-1)# Ÿ

= !"œ!x

e 10x!

- x"!

= e +10e ,- -"! "!

donde X corresponde al número de accidentes en una hora.

3.10. Distribución Gamma

Recordemos del Cálculo que la integral y e dy existe para >0 y su( _

!

"!- -y !

valor es un número positivo. Esta integral se conoce con el nombre de funciónGamma de ! y se denota por

( ) = y e dy.> ! ( _

!

"!- -y

Si =1, se tiene de inmediato que (1)=1 y si >1, integrando por partes se! > !tiene que

( ) =( -1) y e dy = ( -1) ( -1).> ! ! ! > !( _

!

# C!- -

Por lo tanto, si es un entero mayor que 1 tenemos!

( ) = ( -1)( -2).......·3· 2· 1· (1) = ( -1)!> ! ! ! > !

De aquí, 0! = 1 pues (1) = 1. Otro valor importante es (1/2) = .> > 1ÈPara determinar la función de densidad Gamma, introduzcamos una nuevavariable x escribiendo y=x/ con >0. Luego la función Gamma toma la forma" "

( ) = (x/ ) e 1/ dx = dxx e

> ! " ""

( (_ _

!

+ " BÎ" BÎ

- -

0

- -"

! "

!

de donde

dx = 1 , ya que >0, >0, ( )>0.x e

( )( _

!

" BÎ! "

!

- -

" > !! " > !

Page 91: Libro Estadistica

91

Entonces f (x) = , 0<x<X

x e( )

! "

!

- -x/"

" > ! _

es una función de densidad de una variable aleatoria continua.

Definición. Gamma Diremos que una variable aleatoria X tiene distribución con parámetros >0 y >0, (X G( , )), si su función de densidad es de la! " ! "µforma

f (x) = , 0<x<Xx e

( )! "

!

- -x/"

" > ! _

El gráfico, para valores distintos de los parámetros se muestran en la Figura3.2.

f(x)

0

0.2

0.4

0.6

0.8

1

1.2

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2

α=2, β=1/3

α=1, β=1

α=2, β=2

α=2, β=1

x

Figura 3.2. Funciones de densidades Gamma

Para la función generadora de momentos de X G( , ) tenemos.µ ! "

M (t) = e dxx e

( )Xx

- -x( _

!

>+ " Î"

!" > !

= dx.x e

( )( _

!

+ "- -x(1- t)/" "

!" > !

Si hacemos y = x(1- t)/ obtenemos" "

M (t) = [ y/(1- t)] /(1- t) dye

( )X

--( _

!

C"

" > !" " " "

!!

Page 92: Libro Estadistica

92

= dye e

(1- t) ( )( _

!

" C!

!

- -

" > !

= 1/(1- t) dyy e

( )"

> !!

!( _

!

" C- -

= 1/(1- t) , t<1/ ." "!

Así,

E(X) = M (0) = Ð"ÑX !"

y Var(X) = M (0) [M (0)]Ð#Ñ Ð"Ñ #

X X

= ( +1) = .!" ! ! " !"# # # #

Observemos que si =1 y =1/ , >0, obtenemos la distribución exponencial! " - -de parámetro . Si =r con r y =1/ , obtenemos la distribución- ! " -−Erlang(r, ). Por otra parte, si hacemos =n/2, n y =2, obtenemos una- ! "−nueva distribución, llamada distribución Chi-Cuadrado, cuya función dedensidad está dada por

f (x) = x>0.Xx e

(n/2)2n/ - -x/

n

# " #

Î#>,

El parámetro que caracteriza a la distribución Chi-cuadrado es n y recibe elnombre de (X (n)).grados de libertad µ ;#

La función generadora de momentos de una variable aleatoria (n) es;#

M (t) = (1 2t) , t<1/2X-n Î#

de donde E(X) = n y Var(X) = 2n.

La función de distribución (n) se encuentra tabulada para distintos grados de;#

libertad (n) y la trataremos en forma especial más adelante. Las principalesaplicaciones de la distribución (n) se encuentran en el campo de la inferencia;#

estadística.

3.11. Distribución Normal

Definición. Una variable aleatoria continua X que toma todos los valoresreales, - <x< , tiene una distribución normal si su función de densidad de_ _probabilidad es de la forma

Page 93: Libro Estadistica

93

f (x) = exp{ }, - <x<X 12

(x- )25 1

.5È #

# _ _

donde - < < y >0._ _. 5

La distribución normal está caracterizada por los parámetros y y se utiliza. 5#

la notación X N( , ). El gráfico de la función de densidad tiene forma deµ . 5#

campana, es simétrico respecto de la recta X= y en este punto alcanza su.máximo. Los puntos + y - son puntos de inflexión del gráfico. Si es. 5 . 5 5relativamente grande, el gráfico tiende a ser achatado, mientras que si es5pequeño, el gráfico de f tiende a ser aguzado.X

Figura 3.3.

Se puede verificar fácilmente que y corresponden a E(X) y Var(X),. 5#

respectivamente, y que

exp { } dx = 11 ( x- )2 2( È

_

_

#

#- 5 1

.

5

Definición. Si Z es una variable normal con =0 y =1 , entonces Z se llama. 5#

variable aleatoria , su función de densidad esnormal estándar

f (z) = (z)= e , - <z<^ : 12

-z /È 15# 2

_ _

y su función de distribución, que se encuentra tabulada, está dada por

F (z) = (z) = e dt.12

^_

>F1

( Èz

-

- /#

Teorema 3.7. Sea X una variable aleatoria normal con media y varianza .. 5#

Si Y=aX+b, a 0, entonces Y es una variable aleatoria normal con mediaÁa +b y varianza a .. 5# #

Page 94: Libro Estadistica

94

Demostración. Por teorema del cambio de variable, Teorema 2.7, la densidadde Y está dada por

f (y) = f ( ) | |Y Xy b

a dydx

= |1/a| exp{ ( ) /2 }12

y ba5 1È # #. 5

= exp -12 a

2È 1 52˜ ‘ ™"

#

y-(a +b)a.5

densidad que corresponde a una N(a +b, a ).. 5# #

Teorema 3.8. Si X es una variable aleatoria normal con media y varianza ,. 5#

entonces

F (x) = P(X x) = ( )X Ÿ Fx-.5

donde es la función de distribución de la variable aleatoria N(0,1).F

Demostración. Sea Z= X = , entonces por el Teorema 3.7 tenemos1 X5 5 5

. .

que Z es una variable aleatoria con distribución N(0,1).

Luego, X=Z + y la función de distribución de X por definición es5 .

F (x) = P(X x) = P(Z + x)X Ÿ Ÿ5 .

= P(Z ) = ( ).Ÿx- x-. .5 5F

La importancia de este teorema es que nos permite calcular probabilidades deuna variable aleatoria N( , ) cualquiera, a partir de una variable aleatoria. 5#

normal estándar para la que, como sabemos, su función de distribución, , seFencuentra tabulada. Así, por ejemplo, si X es N(200,400) entonces

P(180 X 210) = P((180 200)/20 Z (210 200)/20)Ÿ Ÿ Ÿ Ÿ

= (0.5) ( 1)F F

= 0.6915 0.1587

= 0.5328.

.

Page 95: Libro Estadistica

95

Figura 3.4.

Teorema 3.9. Si Z es una variable aleatoria normal estándar, entonces lafunción generadora de momentos de Z es

M (t) = e^t /2#

Demostración. La función generadora de momentos de Z es, por definición

M (t) = E(e ) = e e dz12

^

_

_

tz

-

tz -z /2( È 1

#

= e dz12

( È_

_

"Î# #>

-

- (z - z)

1

#

= e dz12

( È_

_

" #Ð #> > Ñ

-

- / z z +t /2

1

# # 2

= e e dz12

> Î#_

_

"Î#ÐD ># ( È-

- - )

1

2

= e ,> Î##

ya que la función involucrada en la integral corresponde a la densidad de unaN(t,1).

Teorema 3.10. Si X es una variable aleatoria con distribución N( , ),. 5#

entonces

Page 96: Libro Estadistica

96

M (t) = exp( t + t / ).X . 5# # #

Demostración. Si Z= , entonces Z tiene distribución N(0,1) y por TeoremaX.5

3.9,

M (t) = e .^> Î##

Además, como X = Z + su función generadora es5 .

M (t) = M (t)X ^ 5 .

= e M (t ).>^ 5

= e e .. 5> # t /22

Conocida la función generadora de momentos de una variable aleatoria normal,podemos utilizar el resultado del Teorema 3.10 para probar que

E(X) = M (0) = y Var(X) = M (0) [M (0)] = .Ð"Ñ Ð#Ñ Ð"Ñ # #X X X. 5

En efecto,

M (t) = ( +t ) eÐ"Ñ #X . 5 . 5>+ t /22 2

M (t) = [ +( +t ) ] e .Ð#Ñ # # #X 5 . 5 . 5>+ t /22 2

luego = M (0) = y = M (0) = . . 5 . 5X X XX

Ð"Ñ Ð#Ñ# # #

Ejemplo. En una empresa siderúrgica, las placas de acero producidas por unamáquina deben tener cierto espesor. Dichas placas diferirán unas de otrasdebido a los materiales, al comportamiento de las máquinas y las herramientasutilizadas, lo que originará ligeras variaciones aleatorias provocadas porpequeñas perturbaciones. Por lo tanto, el espesor X (mm) de las placas se puedeconsiderar como una variable aleatoria continua. Si suponemos además quepara cierto ajuste de la máquina, X tiene distribución N(10,0.0004), nosinteresa determinar el porcentaje de placas defectuosas que se esperan,suponiendo que las placas defectuosas son aquellas:

i) más delgadas que 9.97 mm.

Page 97: Libro Estadistica

97

ii) más gruesas que 10.05 mm.

iii) cuyo espesor se desvía en más de 0.03 mm de la media.

Sea X la variable aleatoria que indica el espesor (en milímetros) de las placas.Dado que X se distribuye normal, para (i) tenemos que

P(X<9.97) = P(Z< ) = (-1.5) = 0.0668.9.97-100.02 F

Por lo tanto, podemos concluir que, aproximadamente, el 6.7 % de las placasson defectuosas.

Para ii) tenemos

P(X>10.05) = P(Z> )10.05 100.02

= 1 (2.5) F

= 1 0.9938 = 0.0062 0.62%. ¸

Finalmente, para iii) tenemos

P(|X 10|>0.03) = P(|Z|> ) 0.030.02

= P(Z>1.5) + P(Z< 1.5)

= 1 - (1.5)+ (-1.5)F F

= 1 0.9332+0.0668 = 0.1336,

y entonces, aproximadamente, el 13% de las placas son defectuosas en estecaso.

3.12 Distribución Beta

La familia de distribuciones Beta se puede deducir directamente a partir de laconocida función Beta del cálculo, que se define por

B( , ) = = x (1-x) dx, >0 y >0.! " ! "> ! > "> ! "( ) ( )( + ) ( "

!

" "! "- -

De aquí se obtiene la función de densidad de una distribución Beta deparámetros ( , ), dada por! "

Page 98: Libro Estadistica

98

f (x) = x (1-x) , 0<x<1.X- -> ! "

> ! > "( + )

( ) ( )! "" "

Las densidades tipo Beta son positivas sobre el intervalo (0,1) y, de acuerdo alos distintos valores de los parámetros, ella toma una gran variedad de formas,que se pueden utilizar para modelar muchos experimentos. Si = =1, la! "distribución Beta se reduce a la distribución uniforme sobre el intervalo (0,1).La Figura 3.5 muestra las funciones de densidades Beta, para distintascombinaciones de valores de los parámetros.

x

f(x)

0

1

2

3

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

α=2, β=0.5

α=5, β=2 α=β=0.5

Figura 3.5. Densidades Beta, = =0.5, =5, =2, =2, =0.5! " ! " ! "

La función generadora de momentos de una distribución Beta( , ) es difícil de! "obtener, sin embargo, los momentos podemos determinarlos fácilmenteutilizando su definición. Así, si X se distribuye como una Beta, entonces

E(X ) = x (1 x) dx5"

!

5 " "1B( , )! " ( ! "

= = B(k+ , ) (k+ ) ( ) ( + )B( , ) (k+ + ) ( ) ( )

! " > ! > " > ! "! " > ! " > ! > "

= > ! > ! "> ! > ! "(k+ ) ( + )( ) (k+ } )

De aquí,

E(X)= = ,> ! > ! "> ! > ! " ! "

!(1+ ) ( + )( ) (1+ + ) +

E(X )= ,# ( +1)( + +1)( + )

! !! " ! "

Page 99: Libro Estadistica

99

y la varianza de X es

Var(X) = E(X ) [E(X)]# #

= .!"! " ! "( + +1)( + )#

3.13. Distribución de Weibull

La distribución de Weibull ha sido ampliamente utilizada en muchosfenómenos aleatorios, especialmente en aquellos relacionados con laconfiabilidad de los componentes de un sistema, cuando están sujetos a falla.Aunque también en estos casos las distribuciones exponencial y gammatambién son utilizadas, en los últimos años se ha expandido el uso de ladistribución de Weibull a problemas como los mencionados. Una ventaja quepresenta esta distribución es que puede utilizarse como aproximación a la leyde probabilidades de muchas variables aleatorias.

En general, una variable aleatoria continua X se dice que tiene una distribuciónWeibull con parámetros , y , si su función de densidad está dada por# $ "

f (x) = exp ; x (3.2)X"$ $ $

# #" "( ) -( )x x-1 š ›   #

El parámetro , , es un parámetro de localización, >0 un parámetro de# # ‘ $−escala, y >0 es un parámetro de forma."

La media y la varianza de Weibull se pueden obtener directamente de lasdefiniciones y están dadas por

E(X) = + (1+ )# $> 1"

y

Var(X) = (1+ ) (1+ ) .$ > >2 2 12š ’ “ ›" "

La función de distribución tiene la forma

F (x) = 1 exp ; xX   Þš ›( )x-#$

" #

La forma más utilizada de la distribución de Weibull es aquella en que elparámetro de localización es cero ( =0). Si además hacemos = , entonces la# $ !"

densidad de Weibull la podemos escribir como

Page 100: Libro Estadistica

100

f (x) = x exp ; x 0; , > 0. (3.3)X-1"

!" š ›  x"

! ! "

Notemos que cuando =0 y =1, la densidad de Weibull se reduce a la# "densidad de una variable aleatoria exponencial con parámetro = 1/ si- $consideramos (3.2) o con parámetro = 1/ si consideramos (3.3).- !

La Figura 3.6. muestra distintas densidades de Weibull para =0, =1, y =1,# $ "3.

x

f(x)

0

1

2

0 0.4 0.8 1.2 1.6 2 2.4 2.8

β=3

β=1

Figura 3.6. Densidades Weibull para =0, =1, y =1, 3.# $ "

EJERCICIOS

1. Un tirador tiene probabilidad p>0 de dar en el blanco. Se le ofrecen dosalternativas: i) Realizar un sólo disparo. ii) Realizar tres disparos con la condición de dar por lo menos dos veces en elblanco.¿Cuál es la alternativa más favorable al tirador?.

2. Un test de selección múltiple consiste de ocho preguntas con tres respuestasen cada pregunta (una de las cuales es la correcta). Si un estudiante respondecada pregunta lanzando un dado, marcando la primera alternativa si obtiene un1 ó 2, marcando la segunda si obtiene un 3 ó 4 y, finalmente, marca la terceraalternativa si obtiene un 5 ó un 6. Determine la probabilidad que él obtengaexactamente 4 respuestas correctas. ¿Cuál es el número esperado de respuestascorrectas?

Page 101: Libro Estadistica

101

3. Supongamos que el 10% de los vasos producidos por cierta máquina sondefectuosos. Si seleccionamos al azar 10 vasos producidos por esta máquina:a)¿Cuál es la probabilidad que ninguno de ellos sea defectuos?b) ¿Cuál es el número esperado de defectuosos?.

4. Una industria utiliza 20 tanques para almacenar combustible, cada uno de loscuales requiere de una válvula especial. Periódicamente se hace una revisiónpreventiva de las válvulas. La experiencia ha permitido comprobar que, enpromedio es necesario reemplazar en cada revisión el 30% de las válvulas.Determine la probabilidad que en una revisión preventiva:a) Ninguna válvula necesite ser reemplazada.b) Sea necesario reemplazar al menos dos válvulas.

5. Supongamos que la variable X representa el número de neumáticosestropeados por cada automóvil particular de la ciudad. La función dedistribución de X está dada por:

F (x) =

0 si x<0 1/4 si x<11/2 si 1 x<22/3 si 2 x<4 1 si x 4

X

ÚÝÝÝÝÛÝÝÝÝÜŸŸŸ 

Determinar:a) Número esperado de neumáticos estropeados por automóvil.b) Probabilidad que un automóvil elegido al azar tenga a lo más dos neumáticosrotos.c) Si se eligen al azar cinco automóviles, ¿cuál es la probabilidad que al menostres tengan a lo más dos neumáticos rotos?d) La función generadora de momentos de la variable X.

6. Una multinacional produce determinado artículo electrónico que se empleaen el área médica, y las especificaciones dicen que sólo un 2% de los artículosproducidos presentan fallas. Dos ingenieros, expertos en control de calidad,realizan su propio plan de inspección: el ingeniero A comienza a inspeccionarlos artículos de uno a la vez hasta detectar el primer defectuoso y acepta lasespecificaciones si realiza más de dos extracciones; el ingeniero B toma unamuestra de tamaño 5 y acepta las especificaciones del fabricante si noencuentra defectuosos. ¿Cuál de los dos ingenieros tiene mayor probabilidad derechazar las especificaciones dadas por el fabricante?

7. Considere el ejercicio 28 Capítulo I . Si se eligen 3 artículos de la caja delproveedor I, sin sustitución, ¿cuál es la probabilidad que por lo menos dos seande tipo B?. Si ahora se extraen artículos de la caja del proveedor I, conreemplazo, hasta ubicar el tercer artículo tipo B, ¿cuál es la probabilidad que serequiera a lo sumo 5 extracciones?.

Page 102: Libro Estadistica

102

8. Considere un jugador de Basketball que hace repetidos lanzamientos libres.Suponiendo que sus lanzamientos son independientes con probabilidad de éxitop=0.7.a) ¿Cuál es la probabilidad que necesite menos de cinco lanzamientos para suprimer acierto?b) ¿Cuál es la probabilidad que necesite menos de cinco lanzamientos parahacer su segundo acierto.?c) ¿Cuál es la probabilidad que necesite un número impar de lanzamientos parahacer su primer acierto.?

9. Considere la variable aleatoria X cuya función de probabilidad es

p (x) = (1-a) a , x=0,1...\x

a) ¿Para qué valores de a tiene sentido el modelo anterior?b) Muestre que para dos enteros positivos c y d se tienen que P(X>c+d/X>d) =P(X>c).

10. Suponga que se realizan repetidos ensayos Bernoulli independientes, cadauno con probabilidad de éxito 0.6. Sea X la variable aleatoria que indica elnúmero de ensayos necesarios para obtener el primer éxito. DetermineP(X E(X) + var (X)).  È

11. Ciertos itemes son producidos por una máquina, cada item es clasificadocomo defectuoso o no defectuoso; los itemes defectuosos ocurrenindependientemente con probabilidad 0.05. Sea X el número de itemesinspeccionados hasta que el quinto item defectuoso es encontrado.a) Determine la función de probabilidades de la variable aleatoria X.b) ¿Cuál es el número esperado de itemes que se deben inspeccionar pradetectar el quinto defectuoso?

12. La empresa manufacturera VANAMUVI produce microprocesadores paracomputadores mediante un proceso completamente automatizado. La calidadde la maquinaria garantiza que sólo el 5% de los microprocesadores producidoses defectuoso y que éstos se producen en forma independiente a causa de fallasen la materia prima empleada.a) Un representante del proveedor de materia prima desea examinar 4microprocesadores defectuosos recién producidos. Si se le lleva a la planta yexamina los chips a medida que se producen, ¿cuál es el número esperado demicroprocesadores que deben examinar antes de encontrar el cuartodefectuoso?b) ¿Cuál es la probabilidad que este representante encuentre el primer chipsdefectuoso en un número impar de microprocesadores examinados?.

Page 103: Libro Estadistica

103

c) Un computador marca SHANG lleva tres microprocesadores fabricados porVANAMUVI, ¿cuál es la probabilidad que ninguno sea defectuoso?.d) Los envíos a la empresa SHANG se hacen en cajas de 100 chips. Uninspector de SHANG elige una caja al azar y revisa tres chips. Si ningún chipses defectuoso acepta la caja. ¿Cuál es la probabilidad que rechace una caja conun 5% de defectuosos?.

13. Se sabe que el 60% de estudiantes de la Universidad son fumadores. En unamuestra aleatoria de 4 alumnos.a) ¿Cuál es la probabilidad que haya exactamente dos fumadores?.b) ¿Cuál es la probabilidad que sean fumadores sólo los dos primeros alumnosentrevistados?.c) ¿Cuál es el número esperado de fumadores?d) ¿Cuántos alumnos habrá que entrevistar para que la probabilidad que elprimer fumador aparezca sea de 0.96?.

14. Una cinta magnética presenta, en promedio, un error de grabación por cada1000 pies. Suponiendo distribución de Poisson para el número de errores enuna cinta dada, calcular la probabilidad que:a) Una cinta magnética de 2000 pies no contenga errores.b) Una cinta magnética de 3000 pies tenga exactamente dos errores.c) En una caja que contienen 4 cintas grabadas de 2000 pies cada una ¿cuál esla probabilidad que exactamente tres de ellas no tengan errores de grabación?

15. Si se supone que el comienzo de las guerras está distribuído aleatoriamenteen el tiempo, con una frecuencia media de ocurrencia de una cada 10 años.¿Cuál es la probabilidad que por lo menos una guerra comience en lospróximos 10 años?

16. En una determinada industria los accidentes ocurren a una tasa de 1 cada 2meses. Considerando que los accidentes ocurren en forma independiente:a) Determine el número esperado de accidentes por año.b) ¿Cuál es la probabilidad que ocurran accidentes en un mes dado?c) ¿Cuál es la probabilidad que ocurra al menos un accidente en un período de6 meses?

17. En relación al ejercicio 6 , un estudiante en práctica considera que las fallasocurren según un proceso de Poisson, donde el número esperado de artículosdefectuosos en 1000 unidades producidas es 18, y decide aceptar lasespecificaciones del fabricante. ¿porqué?

18. Se sabe que el número de artículos buenos producidos por una máquina esuna variable aleatoria con distribución binomial con una media de 12 artículosbuenos y una varianza de 3.

Page 104: Libro Estadistica

104

a) Determine la probabilidad que un día la máquina produzca a lo menos dosartículos buenos.b) Si se inspeccionan 40 artículos producidos por esta máquina, ¿cuál es laprobabilidad de detectar a lo sumo 5 artículos defectuosos. (use algunaaproximación).c) ¿Cuántos artículos habría que inspeccionar en promedio, hasta detectar eltercer artículo defectuoso?d) Si de una caja que contiene 20 artículos se eligen 5 al azar, ¿cuál es laprobabilidad que se detecten 3 artículos buenos?.

19. Suponga que los montículos, de diámetro no inferior a 1 metro, estándistribuídos al azar en la superficie de la luna, a una tasa de 1000 por kilómetrocuadrado (satisfaciendo los supuestos de un proceo de Poisson).a) ¿Cuál es la probabilidad de que no se encuentren estos montículos en unmetro cuadrado de la superficie lunar?b) Si se marca una porción de 25 m para el alunizaje de una nave, ¿cuál es la#

probabilidad de que en esta área particular no haya montículos?c) ¿Cuál es la menor área, que usted esperaría, que contiene un montículo?.

20. Se estudió el tráfico, en un sólo sentido, del camino que conduce hasta unpeaje. Se encontró que el volumen del tráfico es de 120 vehículos por hora, enpromedio, de los cuales 2/3 corresponden a autos y 1/3 a camiones. El peaje esde U$0.5 por auto y U$2.0 por camión. Suponga que las llegadas de losvehículos constituyen un proceso de Poisson.a) Calcular la probabilidad que en un período de un minuto lleguen más de 3vehículos al peaje? b) ¿Cuál es la cantidad de dinero promedio que recibe el peaje en un período detres horas?c) Se sabe que el 80% de los vehículos que pasan por este peaje tienen susdocumentos al día. Durante un período de 5 minutos la policía revisa losdocumentos a dos vehículos. Determine la probabilidad que ambos tengan susdocumentos en regla.

21. Si X es una variable aleatoria con función generadora de momentos dadapor M (t) =exp{3(e -1)}, determine la función de probabilidad de X y calcule\

>

P(X E(X)). 

22. La concentración diaria de cierto contaminante en un arroyo tiene funciónde densidad dada por

f (x) = ce , x>0, c constante.X- x-

a) Si la concentración media diaria del contaminante es 2mg/10 litros,$

determine la constante c en la distribución.

Page 105: Libro Estadistica

105

b) Suponga que tendrá un problema de contaminación si la concentración delcontaminante excede los 6 mg/10m litros. ¿Cuál es la probabilidad que ocurra$

un problema de contaminación en un sólo día?.c) ¿Cuál es la probabilidad que este contaminante cause a lo sumo un problemaen los próximos 3 días?

23. Las fallas en determinado tipo de grúa que se emplea en la construcción deedificios ocurren según un proceso Poisson a una tasa de 1 cada 24 horas deoperación. El sistema de mantenimiento contempla una inspección cada 8horas.a) Determine la probabilidad que en 48 horas de operación ocurran por lomenos dos fallas.b) ¿Cuál es la probabilidad que transcurran más de 5 días hasta la segundafalla?.

24. El tiempo de operación de un equipo de construcción hasta que sufre unaavería sigue una distribución exponencial con media de 24 meses. Existe unprograma de inspección cada 5 meses.a) ¿Cuál es la probabilidad que un equipo necesite reparación en la primerainspección?.b) Si un equipo no ha fallado en la primera inspección, ¿cuál es la probabilidadque siga en operación en la próxima inspección?.c) La compañía posee 5 piezas de un cierto tipo de equipo. Suponiendo que lasvidas de servicio de los equipos son estadísticamente independientes, determinela probabilidad que a lo sumo 1 pieza del equipo necesite reparación en la fechade inspección.d) Si se desea limitar la probabilidad de reparar en cada fecha de inspección ano más que el 10%, cuál debería ser el intervalo de inspección?. Lascondiciones de la parte c siguen siendo válidas.

25. Los accidentes laborales en cierta industria ocurren según un proceso dePoisson de parámetro . Defina la variable aleatoria T como el tiempo hasta-que el segundo accidente ocurre. Determine el tiempo esperado hasta que elsegundo accidente ocurre, si =10 accidentes por año.-

26. Las moléculas de cierto gas se distribuyen según Poisson a una tasapromedio de tres moléculas por pie . Si se desea analizar una cantidad de aire$

suficientemente grande (digamos t pie ), tal que la probabilidad de encontrar al$

menos una molécula de este gas en la muestra sea de al menos 0.99, ¿cuál debeser el tamaño de t?.

27. Según los antecedentes que maneja el Departamento del Tránsito, elnúmero de accidentes en un determinado tramo de la carretera Norte-Sur,ocurren de acuerdo a un proceso Poisson a una tasa de 2 por semana.a) Determine la probabilidad que en un mes dado ocurra al menos un accidente.

Page 106: Libro Estadistica

106

b) ¿Cuál es la probabilidad que transcurran más de dos semanas libres deaccidentes?c) Si se empieza a observar el fenómeno el día Lunes, ¿cuál es la probabilidadque el primer accidente ocurra el día Martes de la próxima semana?

28. Sea X una variable aleatoria cuya función generadora de momentos estádada por M (t) = (1-2t) .\

%-

a) Indique la función de densidad de X.b) Determine P(X E(X-1) + var(X)).  È29. Considere la variable aleatoria Y con función generadora de momentosM (t) = (1- t) . Calcule la esperanza y la varianza de Z=3Y + 7.] " -!

30. Suponga que X, la resistencia a la ruptura de una cuerda (en libras), sigueuna distribcuión Normal con media 100 varianza 16. Cada 100 pies de cuerdaproduce una utilidad de $25 si X>95. Si en cambio X 95, la cuerda puedeŸutilizarse con un objetivo diferente y se obtiene una utilidad de $10 por cuerda.Encuentre la utilidad esperada por cuerda (de 100 pies de largo).

31. El tiempo de vida útil de cierta marca de baterías para automóviles sedistribuye aproximadamente normal con media =38 meses y =2 meses. Si la. 5compañía no desea reemplazar más del 5% de las baterías vendidas, ¿quétiempo de garantía debe dar?. ¿Cuál es la probabilidad que una batería duremás de 40 meses?.

32. Considere la variable aleatoria X cuya función generadora de momentosestá dada por M (t) = exp{2t }. Calcule:X

#

a) P(-1< X 2).Ÿb) La función de densidad de Y =2X-3.c) k tal que P(Y<k) = 0.95.

33. Un Bar ha instalado una máquina automática para la venta de cerveza. Lamáquina puede regularse de modo que la cantidad media de cerveza por vasosea la que desee; sin embargo, en cualquier caso esta cantidad tendrá unadistribución normal con una desviación estándar de 5.9 ml?.a) Si el nivel se ajuste a 304.6 ml. ¿Qué porcentaje de los vasos contendránmenos de 295. ml.?b) ¿A qué nivel medio debe ajustarse la máquina para que sólo el 2.28% de losvasos contengan menos de 295.7ml.?c) ¿A qué nivel medio debe ajustarse la máquina para que el 84.13% de losvasos contenga menos de 313.46 ml.?

34. En el Ejercicio 23, si consideramos 56 grúas del mismo tipo que funcionanen diferentes construcciones, determine la probabilidad aproximada que no másde 20 de ellas necesiten reparación en la primera inspección.

Page 107: Libro Estadistica

107

35. Las alturas de los naranjos están distribuídos en forma normal. Se sabe queun 2.28% miden más de 14 pies y un 84.13% miden menos de 12 pies.Determine la altura media de los naranjos y la desviación estándar de lasalturas.

36. Una parte de una red de actividades se muestra en la figura a continuación.Un nodo indica el comienzo y término de una actividad. la actividad C puedecomenzar sólo después de completar las actividades A y B, mientras que laactividad D puede comenzar sólo después de completar C. Las actividades A,B, C y D son estadísticamente independientes. Las fechas de inicio son lassiguientes: Actividad A y B : Mayo 1 Actividad C : Junio 1 Actividad D : Agosto 1.

() actividad A actividad C actividad D ()............................()..........................() () actividad B

Una actividad no puede comenzar antes de su fecha de inicio (suponga quetodos los meses tienen 30 días). Los tiempos (en días) requeridos paracompletar cada actividad son variables aleatorias normales definidas comosigue: A N(25, 25), B N(26, 16), C N(48, 144) y D N(40, 64).µ µ µ µSuponga que, tanto la actividad A como la B comienzan el día 1 de Mayo.a) Determine la probabilidad que la actividad C no comience el 1 de Juliob) La disponibilidad de mano de obra es tal que, a menos que C comience el 1de Junio, la fuerza de trabajo será desviada a otro proyecto y no estarádisponible para esta actividad por al menos 90 días. ¿Cuál es la probabilidadque D comience el 1 de Agosto?.

37. Una firma comercializa sus productos sólo por correo a una lista de 100.000clientes potenciales. Para decidir acerca de la comercialización de un nuevoartículo, la firma acuerda seleccionar una muestra aleatoria de 100 personas desu lista y ofrecerles el artículo. Si 30 ó más de estos clientes están dispuestos aadquirirlo, procederá a su comercialización en caso contrario, no lo hará.a) ¿Cuál es la probabilidad que comercialice el artículo si en realidad sólo el20% de todos los clientes lo comprarían?.b) ¿Cuál es la probabilidad que no comercialice el artículo si en realidad el36% de todos los clientes lo comprarían. (Utilice aproximación normal).

38. El número de árboles en una región forestal se distribuye de acuerdo a unproceso de Poisson con un número medio de 80 árboles por hectárea:

Page 108: Libro Estadistica

108

a) ¿Cuál es la probabilidad que en cierta superficie de 1/4 de hectárea se tengaa lo sumo 26 árboles. (Use aproximación normal).b) Suponga que se selecciona un punto interior a la plantación y se traza uncírculo de radio igual a 1 km. Sea X el número de árboles dentro de dicharegión, ¿cuál es la función de probabilidad de X?.c) Si la plantación cubre 85 hectáreas, ¿Cuál es el número esperado de árboles?

Page 109: Libro Estadistica

109

CAPITULO IV VARIABLES MULTIDIMENSIONALES

Y TEOREMAS LIMITES

Hasta aquí hemos tratado con experimentos que involucran variables aleatoriasunidimensionales, ya sean discretas o continuas. Sin embargo, en unexperimento determinado, existen muchas mediciones de interés que se puedenrealizar en los resultados de un experimento; por ejemplo, al examinar unproducto terminado en un proceso productivo, podemos interesarnos en eltiempo de fabricación, la cantidad de materiales empleados, la calidad delmismo, etc. De esta forma surgen distintas variables aleatorias asociadas a unmismo resultado de un experimento. Así, podemos estar interesados no sólo enel estudio de una variable aleatoria individual sino también en la relación entredos o más variables aleatorias.

Inicialmente trabajaremos con variables bidimensionales, para luegogeneralizar introduciendo la ley de probabilidad para una variable aleatoria n-dimensional. Enseguida veremos algunos teoremas de límites que son de vitalimportancia en el desarrollo de la teoría de probabilidades y de la inferenciaestadística.

4.1. Variables Bidimensionales

Definición. Dado un experimento, el par (X ,X ) se llama variable aleatoria" #

bidimensional (o vector aleatorio bidimensional) si cada X , i=1,2 es unaivariable aleatoria. Diremos que el par (X ,X ) es conjuntamente continuo si" #

cada X , i=1,2 es una variable aleatoria continua. Análogamente, diremos quei(X ,X ) es conjuntamente discreto si cada una de las X , i=1,2 es una variable" # ialeatoria discreta.

Así, (X ,X ) es un par de funciones real valuadas definidas sobre el espacio" #

muestral . Denotaremos por R su recorrido, que es un subconjunto de H ‘x x1 2#

También puede considerarse el caso en que una variable es discreta y la otra escontinua y diremos entonces que (X ,X ) es un vector aleatorio mixto. Aunque" #

éstas suelen estar presentes en algunas aplicaciones, no las trataremos aquí.

Si el par (X ,X ) es discreto, entonces le podemos asociar una función de" #

probabilidades de la forma

p (x ,x ) = P(X =x ,X =x ), (x ,x ) X X1 2

" # " " # # " ##a − ‘

Esta función debe satisfacer las condiciones siguientes:

Page 110: Libro Estadistica

110

i) p (x ,x ) 0 (x ,x ) X X1 2

" # " ##  a − ‘

ii) p (x ,x ) = 1.!(x ,x )1 2

X X1 2" #

Además, si A R entonces determinamos la probabilidad del evento A© x x1 2

como:

P(A) = p (x ,x ).!(x ,x ) A1 2

X X1 2−" #

En particular, si A= (x ,x ) : x =x , entonces˜ ™1 2 101

P(A) = P(X = x ) = p (x ,x )1

0 01 1

x!

2X X1 2

#

Esto es, sumamos la probabilidad conjunta p (x ,x ) para todos los valoresX X1 2

0" #

que asume x2.

Luego, a partir de p (x ,x ) podemos determinar p (x ) y p (x ),X X1 2 X X1 2

" # " #

cualquiera sean los valores de x y x respectivamente. Las funciones de1 2probabilidades individuales de las variables X y X se llaman " # probabilidadesmarginales de X y X , respectivamente. Estas se obtienen de la siguiente" #

manera:

p (x ) = P(X = x ) = P(X =x ,X =x )X1 2" " " " " # #!

x

= p (x , x )!x# X X1 2

" #

que es la distribución marginal de X , y"

p (x ) = P(X =x ) = P(X =x ,X =x )X2

# # # " " # #!x"

= p (x ,x )!x" X X1 2

" #

que es la distribución marginal de X .#

Esto se puede visualizar fácilmente razonando como sigue: si el suceso Aindica que X toma un valor fijo x , este suceso ocurre en todos los puntos1

01

(x ,x ), cuya primera componente es x . Así,1 201

A = {X =x } = U{X =x ,X =x }." " # #40 01 14

y

Page 111: Libro Estadistica

111

P{X =x } = P(U{X =x ,X =x })j" " # #4

0 01 1

= P(X =x ,X =x )!4 " # #4

01

= p (X =x ,X =x ).!4 " # #4

X X1 2

01

Si ahora el par (X ,X ) es continuo, los recorridos de X y X son ambos" # " #

conjuntos no numerables. Entonces a (x ,x ) le asociaremos una función de" #

densidad de probabilidad (o función de densidad conjunta), f (x ,x ), queX X1 2

" #

debe satisfacer las condiciones.

i) f (x ,x ) 0, (x ,x ) X X1 2

" # " ##  a − ‘

ii) f (x ,x ) dx dx = 1.( (_ _

_ _" #

- -1 2X X1 2

Así, cualquier par de variables reales continuas que satisface estas doscondiciones es una función de densidad de probabilidad para alguna variablealeatoria bidimensional.

La función f (x ,x ) es no nula en alguna región R del plano y siX X1 2

1 2" # x x

A = (x ,x ): a <x <b , a <x <b , entonces˜ ™1 2 " " " # # #

P(A)= P(a <X <b , a <X <b ) = f (x ,x ) dx dx" " " # # # " # # "

, ,

+ +( (" #

" #X X1 2

para todo a , a , b , b ." # " #

Al igual que en el caso discreto, si conocemos f (x ,x ) podemosX X1 2

" #

determinar las para X y X . Obtenemos la densidaddensidades marginales " #

marginal de X integrando la densidad conjunta sobre la variación de X ; es" #

decir,

f (x ) = f (x ,x ) dx .X-

" " " # #

_

_( X X1 2

Análogamente, la densidad marginal de X es#

f (x ) = f (x ,x ) dx .X-

# # " # "

_

_( X X1 2

Page 112: Libro Estadistica

112

En ocasiones suele obviarse la notación con las variables como subíndices y lafunción de densidad conjunta y las marginales se denotan entonces comof(x ,x ), f(x ) y f(x ), respectivamente. Análogamente para el caso discreto." # " #

Cualquiera de las dos notaciones es válida siempre que no cause confusiones.

La función de distribución, F(t ,t ), para una variable aleatoria bidimensional" #

(X ,X ) está dada por:" 2

F(t ,t ) = P(X t ,X t ), (t ,t ) " # " " # # " ##Ÿ Ÿ a − ‘

Si la función de distribución es continua y la segunda derivada parcial mixta deF(x ,x ) existe, esta segunda derivada es la función de densidad bivariante de" #

(X , X )" #

f(x ,x ) = F(x ,x )" # " #`

` `

#

" #x x

y a partir de ella podemos recuperar la función de distribución como sigue,

F(x ,x ) = f(t ,t )dt dt ." # " # # "_ _

( (x x

- -

" #

La función de distribución F(x , x ) tiene las siguientes propiedades:" #

i) F(x , ) y F( , x ) son funciones de distribución en , como" #"_ _ ‘

funciones de x y x , respectivamente." #

ii) F(- , x ) = F(x , - ) = 0._ _# "

iii) F = F(x +h,x +k) F(x +h,x ) F(x ,x +k)+F(x ,x ) 0™  #" # " # " # " #

Cualquier función de dos variables que satisface estas tres condiciones puedeusarse como una función de distribución de alguna variable aleatoriabidimensional. Notemos que F(x , ) corresponde a la función de distribución" _marginal de la variable aleatoria X . Análogamente, F( ,x ) es la función de" #_distribución marginal de X .#

Ejemplo. Consideremos las variables aleatorias X e Y con función deprobabilidad conjunta dada por

X Y -3 2 41 0.1 0.2 0.23 0.3 0.1 0.1

Ï

Page 113: Libro Estadistica

113

La probabilidad conjunta de que Y no supere a 2 y X supere a 1 es

P(X>1,Y 2) = P(X=3,Y=2) + P(X=3,Y= -3)Ÿ

= p(3,2) + p(3,-3)

= 0.4

y la probabilidad que Y no supere a X es

P(X Y) = P(X Y 0)   

= p(1,-3) + p(3,-3) + p(3,2)

= 0.5.

Las distribuciones marginales de X e Y son

x 1 3 y -3 2 4p(x) 0.5 0.5 p(y) 0.4 0.3 0.3

respectivamente.

A partir de las marginales, podemos determinar la media y la varianza decada una de las variables involucradas. En efecto,

= E(X) = 2; = E(Y) = 0.6; E(X ) = 5; E(Y ) = 9.6;. .X Y# #

= E(X ) = 1 y = E(Y ) = 9.24.5 . 5 .# # # # # #] ]X X

Ejemplo. Supongamos que la función de densidad conjunta de X e Y está dadapor

f(x,y) = 2e e , x>0, y>0 -x - y#

Entonces las marginales son

f(x) = 2e e dy = e , x > 0( _

!

# x y x

y

f(y) = 2e e dx = 2e , y > 0( _

!

# #x y y

Page 114: Libro Estadistica

114

que corresponden a distribuciones exponenciales con parámetros =1 y =2,- -respectivamente.

Utilizando las marginales podemos calcular probabilidades relacionadas con lasvariables en forma individual; por ejemplo,

P(X<a) = f(x)dx = e dx = 1 e( (+ +

! !

x a

Notemos que esta probabilidad también la podemos calcular directamenteutilizando la función de densidad conjunta de (X,Y); en efecto,

P(X<a) = f(x,y) dy dx( (+ _

! !

= 2e e dy dx( (+ _

! !

#x y

= 1 e a

Calculemos ahora la probabilidad conjunta que X sea mayor que 1 e Y seamenor que 1. Esta probabilidad corresponde a

P(X>1,Y<1) = 2e e dx dy( (" _

!

#x y

= e 2e dy""

#(!

y

= e (1 e )." #

Finalmente,

P(X<Y) = f(x,y) dy dx( ( {(x,y):x<y}

= 2e e dx dy( (_ C

! !

#x y

= 2e (1 e ) dy( _

!

# y y

Page 115: Libro Estadistica

115

= 2e dy 2e dy( (_ _

! !

# $y y

= 1 2/3 = 1/3.

Ejemplo. Consideremos las variables aleatorias X e Y, con función dedensidad conjunta

f(x,y) = ˜ x+y 0<x<1, 0<y<1 0 en otro caso

y determinemos la función de distribución de (X,Y).

Evidentemente, si x<0 ó y<0, entonces F(x,y) = 0

Para 0<x<1, 0<y<1

F(x,y) = (s+t)dsdt = xy(x+y)12( (y x

! !

Para x>1, 0<y<1

F(x,y) = (s+t)dsdt = y(y+1)12( (C "

! !

Para 0<x<1, y>1

F(x,y) = (s+t)dsdt = x(x+1)12( (" B

! !

Para x>1, y>1

F(x,y) = (s+t)dsdt = 1( (" "

! !

Así, la función de distribución conjunta de las variables aleatorias X e Y, lapodemos escribir como:

Page 116: Libro Estadistica

116

F(x,y) =

0 x 0 ó y 0xy(x+y)/2 0<x<1, 0<y<1y(y+1)/2 x 1, 0<y<1x(x+1)/2 0<x<1, y 11 x 1, y 1

ÚÝÝÝÝÛÝÝÝÝÜ

Ÿ Ÿ

  

   

4.2. Esperanza y Momentos

Sabemos que los valores esperados y los momentos de una variable aleatoriaunidimensional podemos utilizarlos para describir algunos aspectos de interésde una distribución de probabilidades. Estos mismos conceptos son también degran utilidad cuando tratamos con vectores de variables aleatorias.

Definición. Sea g(X,Y) una función real valuada de las variables aleatorias X eY. Entonces la Esperanza de g(X,Y), que denotaremos por E[g(X,Y)], se definecomo sigue:

E[g(X,Y)] = g(x,y) p(x,y) si (X,Y) es discreto!!y

E[g(X,Y)] = g(x,y) f(x,y)dxdy si (X,Y) es continuo,( (_ _

_ _

siempre que las sumas o integrales existan.

Cuando g(X,Y) = X Y , j, k 0, tenemos E[X Y ] llamado momento conjuntoj k j k (j,k) de la variable aleatoria bidimensional (X,Y), que se acostumbra a denotarpor

m = E[X Y ] ; j, k 0.jkj k  

En forma análoga al caso unidimensional podemos definir los momentosconjuntos centrales de X e Y, como

n = E[(X- ) (Y- ) ],jk Xj k. .]

que se obtienen tomando g(X,Y) = (X ) (Y ) en la definición . .Xj k

]

anterior.

Algunos casos particulares de momentos son:

m = E[X], m = E[X ], m = E[Y], m = E[Y ],"! #! !" !## #

n = E[(X ) ] = m m = ,#! #!# # #

#! . 5X X

Page 117: Libro Estadistica

117

n = E[(Y ) ] = m m = .!# ] !## # #

!" ] . 5Definición. Covarianza Llamaremos entre las variables aleatorias X e Y, a laexpresión

Cov(X,Y) = = E[(X )(Y )]5 . .XY X Y

Notemos que:

= E[XY]5 . .X X Y]

= m m m"" "! !"

La Covarianza entre dos variables aleatorias es una medida de variaciónconjunta, su magnitud depende de las varianzas de X e Y, y puede tomarcualquier valor real.

Es fácil verificar que si definimos las variables U=aX+b, V=cY+d, donde a, b,c y d son constantes, entonces Cov(U,V) = acCov(X,Y). Así, si la covarianzaentre X e Y no es cero, podemos elegir a y c para hacer que Cov(U,V) seaigual a cualquier número real positivo o negativo. Por lo tanto la covarianza esuna medida no acotada de como dos variables varían juntas. Una medida queno presenta este defecto es el coeficiente de correlación que damos en lasiguiente definición.

Definicion. Correlación Coeficiente de Correlación La o entre las variablesaleatorias X e Y, se define por

= .3X]55 5

XX X

]

De la definición tenemos que =0 si y sólo si la covarianza es cero, y como35 5 3X>0 y >0, el signo de depende del signo de la covarianza.]

Se puede probar que es invariante por traslaciones de ejes; esto es,3X]

3 3 3Ð+ ,ß-] .Ñ ] ]X X X = . Además, se tiene que | | 1.Ÿ

Ejemplo (Continuado). Consideremos nuevamente la tabla del ejemplo enpágina 127 y determinemos la covarianza y correlación entre X e Y. Como yahemos calculado las varianzas correspondientes, debemos calcular la esperanzadel producto de las dos variables. Así,

E(XY) = xy·p(x,y)!! = (1)( 3)(0.1)+(1)(2)(0.2)+(1)(4)(0.2)+(3)( 3)(0.3)+

+(3)(2)(0.1)+(3)(4)(0.1)

Page 118: Libro Estadistica

118

= 0.

Entonces, agregando la información del ejemplo anterior, relacionado con lasmedias y las varianzas, tenemos que la covarianza entre X e Y es

Cov(X,Y) = E(XY) = 1.2 . .X ]

y la correlación es

= 3X]Cov(X,Y)5 5X ]

= = 0.394. 1.2(1)(3.04)

4.3. Independencia y Condicionalidad

Definición. Dada una variable aleatoria bidimensional (X ,X ) con función de" #

distribución F(x ,x ) y marginales F (x ) y F (x ), diremos que X y X son" # " # " #X X" #

independientes si

F(x , x ) = F (x ) F (x ) ; (x , x ) ." # " # " ##

X X" #a − ‘

En este caso,

P(a <X b , a <X b ) = P(a <X b ) P(a <X b )." " " # # # " " " # # #Ÿ Ÿ Ÿ Ÿ

Para el caso de variables continuas, derivando parcialmente la función dedistribución conjunta obtenemos

= f(x ,x ).`` `

#" #

" #

F(x ,x )x x " #

Ahora,

= por independencia` `` ` ` `

# #" # " #

" # " #

F(x ,x ) {F(x )F(x )}x x x x

= F (x )F (x )X X" #

Ð"Ñ Ð#Ñ" #

= f (x ) f (x )X X" #" #

donde F (x ) = y F (x ) = .X X" #

Ð"Ñ Ð#Ñ" #

` `` `F(x ) F(x )

x x" #

" #

Page 119: Libro Estadistica

119

Entonces la condición

f(x ,x ) = f (x )f (x )" # " #X X" #

es necesaria y suficiente para la independencia entre X y X , pues" #

F(x ,x ) = f(t ,t )dt dt =" # " # # "

B B

_ _( (" #

- -

= f(t )f(t )dt dt( (B B

_ _" # # "

" #

- -

= f(t )dt f(t )dt( (B B

_ _" " # #

" #

- -

= F (x ) F (x ).X X" #" #

Enseguida veremos algunos resultados importantes relacionados con laindependencia entre variables aleatorias.

Teorema 4.1. Sean X y X variables aleatorias independientes. Si Y =G(X ) e" # "1Y =H(X ) son funciones monótonas de X y X , respectivamente, entonces Y2 1# " #

e Y son variables aleatorias independientes.2

Demostración. Consideremos la función de distribución acumulada conjuntade Y e Y , F (y ,y ). Por definición de función de distribución tenemos1 2 1 2Y Y1 2

F (y , y ) = P(Y y , Y y )Y Y1 2 1 2 1 1 2 2Ÿ Ÿ

= P(G(X ) y , H(X ) y )1 1 2 2Ÿ Ÿ = P(X G (y ), X H (y ))1 1 2 2

-1 -1Ÿ Ÿ

= P(X G (y )) P( X H (y )),1 1 2 2-1 -1Ÿ Ÿ

por ser X y X independientes.1 2

Luego, aplicando las funciones G y H nuevamente tenemos

F (y , y ) = P(G(X ) y ) P( H(X ) y )Y Y1 2 1 2 1 1 2 2Ÿ Ÿ

= P(Y y ) P( Y y ).1 1 2 2Ÿ Ÿ

= F (y )F (y ),Y 1 Y 21 2

Page 120: Libro Estadistica

120

y por lo tanto el resultado.

Teorema 4.2. Sean X y X variables aleatorias independientes. Si G(X ) y" # "

H(X ) son sólo funciones de X y X , respectivamente, entonces# " #

E[G(X )H(X )] = E[G(X )] E[H(X )]" # " #†

Demostración. Desarrollaremos la demostración para el caso continuo, en elentendido que el caso discreto es análogo. Supongamos entonces que X y X" #

son variables aleatorias continuas con función de densidad conjunta f(x ,x ) y" #

sean G(X ) y H(X ) funciones de una variable real, entonces" #

E[G(X )H(X )] = G(X )H(X )f(x ,x )dx dx" # " # " # # "

_ _

_ _( (

- -

= G(X )H(X )f (x )f (x )dx dx( (_ _

_ _" # " # # "

- -X X" #

= G(X )f (x )dx H(X )f (x )dx( (_ _

_ _" " " # # #

- -X X" #

= E[G(X )] E[H(X )]." #†

Teorema 4.3. Si X y X son variables aleatorias independientes, entonces" #

5 3X X X X" # " #= = 0

Demostración. Inmediata aplicando la definición de covarianza y correlaciónentre X y X y el Teorema 4.2." #

Es importante hacer notar que el recíproco del Teorema 4.3 no es válido; estoes, si el coeficiente de correlación entre dos variables es cero, nonecesariamente las variables involucradas son independientes en el sentido dela definición. El siguiente es un contraejemplo de esto.

Ejemplo. Consideremos la variable aleatoria discreta X con función de"

probabilidad p (x ) =X" " ˜ 1/4 si x = 2, 1, 1, 2

0 en otro caso

y definamos X =X . Entonces tenemos que la función de probabilidad conjunta##"

de X y X es" #

Page 121: Libro Estadistica

121

p(x ,x ) = " # ˜ 1/4 si (x , x ) = ( 2,4),( 1,1),(1,1),(2,4) 0 en otro caso

" #

De aquí tenemos que

E(X X ) = = 0" # 8 1 1 84 4 4 4 + +

y como E(X ) = 0, entonces Cov(X ,X ) = 0 y luego = 0. Sin embargo," " # 3X X" #

las variables X y X son claramente dependientes." #

Ejemplo. Consideremos dos lanzamientos de una moneda con un cero en unlado y un uno en el otro. Sea X la variable aleatoria que indica el número que"

ocurre en el primer lanzamiento y X aquella que indica el número que ocurre#

en el segundo. Evidentemente (X ,X ) es una variable bidimensional discreta y" #

su función de probabilidad conjunta esta dada por:

p(x ,x ) = " # ˜ 1/4 si (x ,x ) = (0,0),(0,1),(1,0),(1,1)0 en otro caso

" #

de donde

E(X X ) = x x p(x ,x )" # " # " #B B

! !" #

= 1/4

Las marginales correspondientes, para i=1,2, son

p (x ) = 1/2 si x = 0,1; i=1,2X i ii

Utilizando las marginales tenemos

= 1/2, = 1/4, i=1,2. 5X Xi i

Así, Cov(X ,X ) = E(X X )" # " # . .X X" #

= 1/4 (1/2)(1/2) = 0y 3X X = 0." #

Notemos que en este caso las variables aleatorias X y X sí son" #

independientes.

Page 122: Libro Estadistica

122

Un aspecto importante en el trabajo con variables bidimensionales es ladeterminación de la distribución de probabilidades de una de ellas, cuando setiene información sobre un valor particular de la otra. Este tipo dedistribuciones son las llamadas .distribuciones condicionales

Definición. Sea (X ,X ) una variable aleatoria bidimensional. Entonces:" #

(a) Si (X ,X ) es conjuntamente discreta, definimos la función de probabilidad" #

condicional de X dada X =x por# " "

p (x /x ) = p(x /x ) = ; si p (x ) > 0X /X2 1

X1# " # " " p(x ,x )p (x )

" #

"X1y como cero en otro caso.

(b) Si (X ,X ) es una variable continua, definimos la función de densidad" #

condicional de X dada X =x mediante:# " "

f (x /x ) = f(x /x ) = ; si f (x ) > 0 XX /X2 1 # " # " " f(x ,x )f (x )

" #

"X1"

y es cero en otro caso.

Análogamente, se pueden definir las distribuciones condicionales de X dada"

X =x .# #

Obviamente, tanto la función de probabilidad condicional como la función dedensidad condicional recién definidas, satisfacen las condiciones de unafunción de probabilidad o de densidad, respectivamente. De aquí tiene sentidodeterminar también su media y varianza, que en este caso reciben el nombre demedia varianza condicional y , para enfatizar que se está trabajando condistribuciones condicionales.

Utilizando las definiciones anteriores podemos calcular esperanzas y varianzascondicionales. Para esto, supongamos que (X ,X ) es una variable" #

bidimensional continua, entonces

E[X /X =x ] = x f(x /x )dx-

# " " # # " #

_(_

= x dxf(x ,x )

f(x )( _

_# #

" #

"-

= x f(x ,x )dx1f (x )X" "

( _

_# " # #

-

y análogamente

Page 123: Libro Estadistica

123

E[X /X =x ] = x f(x ,x )dx .## " " " # #

_

_

## 1

f (x )X" "(

-

Luego la varianza condicional de X dado X =x es# " "

Var(X /X =x ) = E (X E[X /X =x ])/X =x# " " # # " " " "˜ ™2

= E(X /X =x ) (E[X /X =x ]) .# ## " " # " "

Notemos que, la esperanza condicional es una función de la variablecondición; esto es, E[X /X =x ] = g(x ). A esta forma de esperanza se le llama# " " "

usualmente regresión de X sobre X . Un caso especial de mucho interés# "

práctico, que trataremos más adelante, es aquel donde g(x ) es una función"

lineal.

En general, si X es una variable aleatoria y H(X) una función de X, entoncesE(H(X)/X=x) = H(x), ya que cuando X asume un valor específico H(x) sepuede considerar como una constante. Además, si X y X son variables" #

aleatorias independientes, E(X /X =x )=E(X ), cuando la esperanza de X" # # " "

existe.

Se puede verificar fácilmente que para variables aleatorias X , X y X se tiene" # $

que

E( X + X /X =x ) = E(X /X =x )+ E(X /X =x ),! " ! "" # $ $ " $ $ # $ $

donde y son constantes arbitrarias.! "

Como E[X /X =x ] = g(x ), para todo valor x , se justifica considerar a# " " " "

g(X )=E[X /X ] como una variable aleatoria y de aquí se puede probar" # "

fácilmente que la media de la media condicional es la media incondicional; estoes,

E(E(X /X )) = E(X ).2 1 2

Enseguida veremos dos ejemplos, uno continuo y otro discreto, que ilustran loscálculos relativos a distribuciones condicionales donde, en ocasiones, lanotación utilizada suele confundir, especialmente en el caso continuo.

Ejemplo. Sea (X,Y) una variable aleatoria bidimensional con función dedensidad conjunta

f(x,y) = ˜ 2 si x+y 1, x 0, y 0 0 en otro caso

Ÿ    

Page 124: Libro Estadistica

124

Nos interesa determinar:

a) La densidad condicional de Y dado X=x.b) La esperanza de Y dado X=0.5.c) E(E(Y/X))d) La varianza condicional de X dado Y=0.5.e) La probabilidad condicional que X>0.5 dado que Y=0.25.f) La probabilidad que X>0.5 dado que Y>0.25.

De la densidad conjunta tenemos que las marginales son:

f (x) = f(x,y)dy = 2(1 x) , 0 x 1X

x( "

!

Ÿ Ÿ

f (y) = f(x,y)dx = 2(1 y) , 0 y 1.Y

y( "

!

Ÿ Ÿ

Para la parte (a) tenemos que la densidad condicional de Y dado X es

f(y/x) = f(x,y)f(x)

= ; 0<y<1 x.11 x

Por otra parte,

E[Y/X=x] = y f(y/x)dy( "

!

x

= y dy1

1 x( "

!

x

= (1 x)/2.

y para X = 0.5, tenemos que E[Y/X = 0.5] = 1/4, luego (b).

Para la parte (c), de (b) tenemos que E[Y/X=x] = (1 x)/2, para todo x en(0,1), por lo que la variable aleatoria E[Y/X] = (1 X)/2. Ahora, la media deesta media condicional es

E(E[Y/X]) = E((1 X)/2) = (1 E(X))/2.

Utilizando las densidades marginales de X e Y, respectivamente, obtenemosE(X) = E(Y) = 1/3. Por lo tanto

Page 125: Libro Estadistica

125

E(E[Y/X]) = (1 1/3)/2 = 1/3 = E(Y).

Ahora, la densidad condicional de X dado Y=y es

f(x/y) = f(x,y)f(y)

= , 0<x<1 y.11 y

De aquí,

E[X/Y=y] = x f(x/y)dx( "

!

y

= x dx1

1 y( "

!

y

= (1 y)/2.y

E[X /Y=y] = x f(x/y)dx#"C

!

#( = x dx

11 y( "C

!

#

= (1 y) /3 #

Luego la varianza condicional es

Var (X/Y=0.5) = E(X /Y=0.5) (E[X/Y=0.5])# #

= (1 0.5) /3 ((1 0.5)/2) # #

= 1/48,o bién

Var(X/Y=0.5) = E[(X E[X/Y=0.5])/Y=0.5] 2

= 2 (x 1/4) dx = 1/48,( "Î#

!

#

que responde a la parte (d).Para determinar la probabilidad condicional que X>0.5 dado Y=0.25; esto es,P(X>0.5/Y=0.25), debemos utilizar la densidad condicional

Page 126: Libro Estadistica

126

f(x/y=0.25) = , 0<x<1 0.25.1 41 0.25 3 =

Así,

P(X>0.5/Y=0.25) = dx = .4 13 3( $Î%

"Î#

Finalmente, para la parte (f) tenemos que

P(X>0.5/Y>0.25) = ; P(X>0.5, Y>0.25)P(Y>0.25)

pero,

P(X>0.5, Y>0.25) = 2dxdy = 1/16( ("Î# "C

"Î% "Î#

y

P(Y>0.25) = 2(1 y)dy = 9/16.( "

"Î%

Por lo tanto,

P(X>0.5/Y>0.25) = .1/16 19/16 9 =

Notemos que en la resolución de la parte (f), hemos utilizado la definición deprobabilidad condicional de eventos, a diferencia del caso (e), donde estamostrabajando con una distribución condicional y queremos determinar unaprobabilidad respecto de esta distribución.

Es importante notar que, para el caso de variables continuas, no es posibleaplicar la definición de probabilidad condicional de eventos ya que laprobabilidad en un punto es cero. Así, P(X>0.5/Y=0.25) no es más que unanotación en este caso.

Ejemplo. Una caja contiene 4 pernos de repuesto de una cierta pieza devehículo, de los cuales 2 son defectuosos. Se extraen al azar 2 pernos sinreemplazo para revisión. Sea X el número de pernos defectuosos encontradosen la primera extracción e Y el número total de pernos defectuosos extraídos.

Claramente los valores que asume X son 0 y 1, y los valores que asume Y son0, 1 y 2. La distribución de probabilidades conjunta de X e Y está resumida enla tabla siguiente que se obtuvo en la forma siguiente:

P(X=0,Y=0) =Pr(los 2 pernos extraídos son no defectuosos)

Page 127: Libro Estadistica

127

=P(D ,D ) = ·c c 2 14 3

P(X=0,Y=1) =Pr(el primer extraído es no defectuoso y el segundo lo es)

= P(D ,D)= ·c 2 24 3

P(X=0,Y=2)=Pr( ) =0, etc.F

X Y 0 1 20 2/12 4/12 01 0 4/12 2/12

Ï

De la tabla tenemos que las distribuciones de probabilidades marginales para Xe Y son respectivamente:

x 0 1 y 0 1 2p (x) 1/2 1/2 p (y) 1/6 2/3 1/6X Y

La distribución condicional del número total de pernos defectuosos extraídos,sabiendo que en la primera extracción se obtuvo 1 defectuoso es

y 0 1 2p(y/x=1) 0 2/3 1/3

Por lo tanto, si se encontró un perno defectuoso en la primera extracción,entonces el número total esperado de pernos defectuosos es E(Y/X=1) = 4/3.También, utilizando la distribución condicional de Y dado X=1 obtenemos,por ejemplo, que la probabilidad que Y sea a lo más 1 es

P(Y 1/X=1) = p(y/x=1)Ÿ !"Cœ!

= p(0/x=1)+p(1/x=1)

= 2/3.Notemos que, como

0 = P(X=1, Y=0) P(X=1)P(Y=0) = = ,Á 1 1 12 6 12†

Page 128: Libro Estadistica

128

X e Y no son independientes de acuerdo a la definición. Veamos entonces cuáles la covarianza entre X e Y.

Cov(X,Y) = E(XY) E(X)E(Y)

= 1/6,

pues E(XY)=2/3, E(X)=1/2 y E(Y)=1, utilizando la función de probabilidadconjunta y las marginales correspondientes.

Finalmente, calculemos E (3Y 2X)/X=1 . Utilizando propiedades del ‘

operador esperanza para variables condicionadas tenemos

E (3Y 2X)/X=1 = 3E(Y/X=1) 2E(X/X=1) ‘

= 3(4/3) (2)(1)

= 2.

4.4. Distribución Normal Bivariante

En el capítulo anterior hemos estudiado la distribución de una variable aleatoriaX normal univariante con parámetros y . Vimos que su función de. 5#

densidad es simétrica y asume su máximo en X= . La extensión bidimensional.de esta variable aleatoria es la distribución normal bivariante.Definición. Sea (X,Y) una variable aleatoria bidimensional. Diremos que (X,Y)tiene una distribución si su función de densidad esnormal bivariante

f(x,y) = e ,(1 )2315 5

# "Î#

]XUÎ#

donde

Q = [ 2 ]11

(x ) (y ) (x )(y )

3 5 5

. . . .5 5#

# #

# #] ]

] ] + X X

X X 3

La función de densidad de la distribución normal bivariante está caracterizadaentonces por cinco parámetros: , , >0, >0 y 1< <1, donde y. . 5 5 3 .X X

2 2X] ]

. 5 5 3] ] son los valores esperados de X e Y, y son las varianzas de X e Y y 2 2X

es el coeficiente de correlación entre X e Y. Esta distribución usualmente sedenota (X,Y) NM( , , , , ).µ . . 5 5 3X Y

2 2X Y

Completando el cuadrado en la función cuadrática Q podemos escribir

Page 129: Libro Estadistica

129

Q = [x (y )] / (1 ) (y ) / . . 5 . 5X X - +3 355

X]

] ]# # # # #

] ‘

y utilizando este hecho se puede verificar que

f(x,y)dx dy = 1( (_ _

_ _- -

para comprobar que efectivamente f(x,y) es una función de densidad.

Utilizando la misma descomposición de Q se tiene de inmediato que lamarginal de Y está dada por:

f (y) = f(x,y)dx = (2 ) e]

_

_

# "Î# ](

-

2 , 15 Ð Ñy /. 5]# #

]

que corresponde a la función de densidad de una normal unidimensional conmedia y varianza . Por otra parte, revirtiendo los roles de x e y al. 5]

#]

completar el cuadrado en Q, se obtiene la densidad marginal de X como

f (x) = f(x,y)dy = (2 ) eX x/2 ( _

# "Î# Ñ

_

15 Ð x . 5X X# #

luego la densidad marginal de X es normal con media y varianza .. 5X X#

Podemos concluir entonces que, si (X,Y) es normal bivariante, las marginalesde X e Y son normales. Si =0; esto es, si X e Y son no correlacionadas,3entonces f(x,y)=f (x) f (y) (x,y) , por lo tanto X e Y sonX ]

#a − ‘independientes.

Es importante notar que este resultado es válido sólo para el caso de variablesnormales y no es cierto en general. Es posible, como lo vimos en la secciónanterior, que dos variables cualesquiera X e Y no sean independientes, aún si 3= 0.

Veamos ahora las distribuciones condicionales cuando (X,Y) es una variablealeatoria normal bivariante. La función densidad condicional de Y dado X = xes por definición

f (y/x) =] ÎX f(x,y)f (x)X

=[2 (1 )] exp [y (x )] /2 (1 )15 3 . 3 . 5 3# # "Î# # # #] ]] ’ “5

5]

X X

Page 130: Libro Estadistica

130

que corresponde a la función de densidad de una distribución normal con media. 3 . 5 3]

# #] + (x ) y varianza (1 ).5

5]

X X

Si consideramos la superficie Z = f(x,y) donde f es la densidad de la normalbivariante, entonces utilizando la descomposición ya realizada anteriormenteen Q, se puede ver que si hacemos Z = k, una constante, entonces el plano Z =k corta a la superficie en una elipse. En particular si = 0 y = , la elipse3 5 5X ]

anterior se transforma en un círculo.

La distribución normal bidimensional tiene muchas aplicaciones, tanto eninferencia estadística como en análisis de datos multivariados. Los resultadosobtenidos anteriormente lo resumiremos en el siguiente teorema.

Teorema 4.4. Sea (X,Y) una variable aleatoria bidimensional con distribuciónNM( , , , , ). Entonces. . 5 5 3X Y

2 2X Y

a) Las distribuciones marginales de X e Y son N( , ) y N( , ). 5 . 5X Y2 2X Y

respectivamenteb) = 0 sí y sólo si X e Y son variables independientes.3c) La densidad condicional de Y dado X=x es

N( + (x ), (1 )),. 3 . 5 3]# #]

55]

X X

y la densidad condicional de X dado Y=y es

N( + (y ), (1 ) ) .. 3 . 5 3X Y X55

XY

# #

Ejemplo. Suponga que la altura y el peso de ciertos animales, en pulgadas ylibras respectivamente, corresponde a un vector aleatorio (X ,X ) con1 2distribución NM(18,15,9,4,0.75). Determinemos

a) El peso promedio de uno de estos animales que es 17 pulgadas de alto yb) La probabilidad que un animal tenga una estatura menor de 17 pulgadasdado que pesa 15 libras.

La parte a) corresponde a determinar

E(X /X =17) = + (x )2 1 2 1 1. .355

21

=15+ (17 18)0.75 (2)3

= 292

Page 131: Libro Estadistica

131

Para b) tenemos que X /X =15 N( + (x , (1 ).1 2 1 2 2 12 2µ . . 5 3

355

12

Esto es, X /X =15 N(18, 63/16). Por lo tanto1 2 µ

P(X 17/X =15) = ( ) = ( 0.504)1 2Ÿ F F17 18É 6316

= 0.3085.

4.5. Transformaciones de Variables

En capítulos anteriores hemos estudiado el problema de determinar la funciónde densidad o de probabilidad de una variable aleatoria unidimensional. Elmétodo para encontrar la función de distribución y/o de densidad de unafunción de una variable aleatoria podemos extenderlo a una función de más deuna variable; en particular, para el caso de dos variables que analizaremos enesta sección.

Consideremos inicialmente una variable aleatoria bidimensional (X ,X ) con" #

densidad f (x ,x ) y seaX X1 2 " #

(Y ,Y ) =(G (X , X ), G (X , X ))" # " " # # " #

una transformación continua y biunívoca. Supongamos que G y G admiten" #

derivadas parciales continuas. Si consideramos una región A del plano x x tal" #

que el Jacobiano de la transformación es distinto de cero; esto es,

J = = 0``

` `` `` `` `

(Y ,Y )(X ,X )

Y YX XY YX X

" #

" # » »1 11 2

2 21 2

Á

entonces, en todos los puntos de A existe la transformación inversa de (Y ,Y )," #

a saber

(X ,X ) = (H (Y , Y ), H (Y ,Y ))" # " " # # " #

la cual será continua y uniforme en una región B del plano y y (es una" #

representación de A mediante la transformación considerada).

De acuerdo al teorema del cambio de variable tenemos

f (x ,x )dx dx = f (H (y ,y ), H (y ,y ))| J |dy dy( ( ( (X X X X1 2 1 2" # " # " " # # " # " " #

A B

Page 132: Libro Estadistica

132

donde

J = "``

(X ,X )(Y ,Y )

" #

" #

Luego, la función de densidad conjunta de Y e Y , g (y ,y ), es" # " #Y Y1 2

g (y ,y ) = f (H (y ,y ), H (y ,y ))|J |; para (y ,y ) B,Y Y X X1 2 1 2" # " " # # " # " " # −

y es cero en otro caso .

Esta se obtiene considerando que el resultado de la aplicación del teorema delcambio de variable es válida cualquiera sea la región A del plano x x , en" #

particular si A es el recorrido de (X ,X )." #

Notemos que los eventos {(x ,x ) A)} y {(y ,y ) B} son sucesos" # " #− −equivalentes, por lo que

P({(y ,y ) B}) = P({(x ,x ) A}) = f(x ,x )dx dx ." # " # " # " #− − ( ( AA partir de g (y ,y ) podemos determinar las densidades marginales de Y eY Y1 2 " # "

Y , g (y ) y g (y ), respectivamente.# " #Y Y21

Ejemplo. Consideremos las variables aleatorias X y X con función de" #

densidad conjunta f(x ,x ) = e , x >0, x >0." # " #Ð Ñx x" #

Determinemos la función de densidad de Y=X /(X +X ). Para esto definamos" " #

la siguiente transformación

y = x /(x +x )," " #

z = x"

que es una transformación uno a uno pues

J = = x /(x +x ) 0.``

(y,z)(x ,x )" #

" " ## Á

Entonces la transformación inversa está dada por

x = z,"

x = (z yz)/y#

y el valor absoluto del jacobiano de la inversa es |J | = |z/y |."#

Notemos que el recorrido de (Y,Z) es el conjunto {(y,z): z>0, 0<y<1}.

Page 133: Libro Estadistica

133

Así, la función de densidad conjunta de Y y Z es

g (y,z) = f (z, (z yz)/y) |z/y |] ^#

, X X" 2

= (z/y )e , z>0, 0<y<1.# Îz y

De aquí determinamos la marginal de Y, que es la densidad que nos interesa,como

g (y) = g (y,z)dz = (z/y )e dz.] ] ß^

_ _

! !

# Î( ( -z y

Haciendo el cambio de variable u = z/y se tiene que

g (y) = ue du = (2) = 1, 0<y<1]

_

!

( u >

es decir, Y tiene distribución uniforme en (0,1).

Ejemplo. Sean X y X variables aleatorias independientes, cada una con1 2distribución uniforme sobre el intervalo (0,1). Determinemos la función dedensidad de Y=X +X ." #

Como X y X son variables aleatorias independientes, entonces la densidad" #

conjunta de X y X es el producto de las marginales correspondientes; esto es," #

f(x ,x ) = f (x ) f (x ) = 1 ; si 0<x <1, 0<x <1." # " # " #X X" #

Consideremos la transformación uno a uno

y = x + x" #

z = x#

entonces la transformación inversa es

x = y z" x = z,#

y su jacobiano es J = 1 ."

Notando que el recorrido de (Y,Z) es {(y,z): 0<z<1, z<y<z+1}, tenemos que

g (y,z) = f (y z, z) |1|, 0<z<1, z<y< z+1.] ß^ X X" #

Page 134: Libro Estadistica

134

o bien,

g (y,z) = 1 si z (0,1), z<y<z+10 en otros casos] ß^ œ −

Para obtener la densidad marginal de Y integramos separadamente en: y 0;Ÿ0<y<1; 1<y<2 e y 2. Haciendo esto tenemos 

g (y) =

0 si y 0

dz = y si 0 < y < 1

dz = 2 y si 1< y < 2

0 si y 2

Y

ÚÝÝÝÝÝÝÛÝÝÝÝÝÝÜ

((

Ÿ

 

C

!"

C"

Esta función es la llamada densidad triángular que, como hemos visto, se puedeobtener como la suma de dos variables con distribución uniforme.

Ejemplo. Supongamos que X , X y X son variables aleatorias" # $

independientes, cada una con distribución exponencial de parámetro =1.-Calculemos la función de densidad de Y=(X +X +X )/3.# # $

Como las variables son independientes, la densidad conjunta está dada por

f(x ,x ,x ) = e , x >0, x >0, x >0." # $ " # $Ð x x x )" # $

Debemos utilizar dos funciones adicionales para definir una transformaciónadecuada. Consideremos entonces la siguiente transformación

y = (x +x +x )/3" " # $

y = x# #

y = x$ 3que es uno a uno ya que J=1/3 0. Entonces la transformación inversa esÁ

x = 3y y y" " # $ x = y# #

x = y$ $

y su jacobiano es J = 3."

La densidad conjunta de Y , Y e Y es" # $

f(y ,y ,y ) = 3e ; 3y y y >0, y >0, y >0" # $ " # $ # $-y"

Page 135: Libro Estadistica

135

y la densidad marginal de Y =(X +X +X )/3 es" # # $

f (y ) = e dy dy] " $ #

$ $

! !

$"

" " #

"( (y y y- y$

= y e , y >0272 #

"$" "

y

la que podemos escribir como

f (y ) = , si y > 0] " ""

$ $#

( y ) e"# $ "y

que corresponde a la densidad de una variable aleatoria Gamma (3, 3).

Consideremos ahora transformaciones en el caso discreto; esto es, aquel dondeX y X son variables aleatorias discretas con función de probabilidad conjunta" #

p (x ,x ). Sean Y =G (X ,X ) e Y =G (X ,X ) que definen unaX X" # " # " " " # # # " #

transformación uno a uno sobre el recorrido de (X ,X ), R , cuya" # X X" #

transformación inversa es X =H (Y ,Y ), X =H (Y ,Y ). Suponiendo que esta" " " # # # " #

transformación aplica el espacio de valores R en el espacio de valoresX X " #ß

R , entonces la función de probabilidades conjunta entre las variables Y e] ] "" #

Y es#

p (y ,y ) = P(Y =y , Y =y )] ] " # " " # #" #,

= P(G (X ,X ) = y , G (X ,X ) = y )" " # " # " # #

= P(X = H (y ,y ), X = H (y ,y ))" " " # # # " #

= p (H (y ,y ), H (y ,y )), (y ,y ) R .X X" # " #" " # # " # " # ] ]−

A partir de la función de probabilidad conjunta podemos obtener lasmarginales; por ejemplo, la marginal de Y está dada por"

p (y ) = p (y y )] " ] ] " #C

" " #

#

! ,

= p (H (y ,y ), H (y ,y )).!C

" " # # " ##

" #X X

Ejemplo. Sean X y X son variables aleatorias independientes, cada una con" #

distribución de Poisson con parámetro común . Queremos determinar la.

Page 136: Libro Estadistica

136

función de probabilidades de Y =X +X . Para esto definamos la siguiente" " #

transformación uno a uno:

Y = X + X" " #

Y = X# #

cuya transformación inversa es

X = Y - Y" " #

X = Y .# #

Como X y X son independientes, entonces la función de probabilidad" #

conjunta es

p(x ,x ) = p (x ) p (x ), x =0,1,...; x =0,1,..." # " # " #X X" #

= x =0,1,...; x =0,1,...e ex ! x !

- -. .. .B B"

" #

# , " #

Así, la función de probabilidad conjunta de Y e Y es" #

p (y ,y ) = p (y y , y )] ] " # " # #" # " #X X

= (y , y ) Re(y -y )!y !

- y# "

" # #

..a −" # ] ]" #

donde

R = {(y ,y ) Z x Z : 0 y y }.] ] " # # "

" #− Ÿ Ÿ

Enseguida, para determinar la función de probabilidad de Y =X +X ," " #

calculamos la marginal correspondiente sumando la conjunta p (y ,y )] ] " #" #

sobre los valores de Y .#

p (y ) = ] "C

C

"

#œ!

"! e(y -y )!y !

-# C"

" # #

..

= e y !y ! (y -y )!y !

-1

# C"

" " # #

.. !CC

"

#œ!

= 2 ey !

-# C"

"

.. C"

= , y = 0,1,....e (2 )y !

-# C"

"

. . "

Page 137: Libro Estadistica

137

Por lo tanto, Y =X +X es una variable aleatoria con distribución Poisson de" " #

parámetro 2 ..

4.6. Variables Aleatorias Multidimensionales

En el tratamiento de variables bidimensionales, es importante notar que ellas sedefinen sobre un mismo espacio muestral. Estos conceptos vistos para el casobivariante, podemos generalizarlos al caso de n variables aleatorias definidassobre un mismo espacio muestral. De esta manera, dado un experimento conespacio muestral asociado , la n-upla =(X ,...X ) es una variable aleatoria n-H X " ndimensional o vector aleatorio si cada una de las X , i=1,n es una variableialeatoria; esto es, cada una de ellas asocia un número real a cada elemento deH.

Definición. Diremos que =(X ,...,X ) es un vector aleatorio continuo si cadaX " nuna de sus componentes X , i = 1,n es una variable aleatoria continua.iAnálogamente, diremos que es discreto si cada X , i = 1,n, es una variableX ialeatoria discreta. En cada caso y según corresponda, podemos asociar a unaXfunción de probabilidades o una función de densidad de probabilidades,respectivamente.

Si es discreta, la función de probabilidad asociada esX

p (x) = P(X =x ,...,X =x ), (x ,...x ) ._X n n n_ n" " "a − ‘

La función de probabilidades para la variable n-dimensional debe satisfacer lasreglas análogas al caso unidimensional; esto es,

i) p ( ) 0, x=(x ,...x )_X n_ nx   a −" ‘

ii) p ( ) = 1,! X_ x

donde la suma se extiende sobre todo punto (x ,...x ) . De hecho esta" nn− ‘

suma corresponde a n sumas, cada una sobre el recorrido de la correspondientevariable.

Luego, cualquier función de una n-upla de variables reales que satisface (i) y(ii) es una función de probabilidad para alguna variable aleatoria n-dimensional.

Dada p ( ), podemos calcular las marginales p (x ); i=1,n. Estas funcionesX X i_ x i

se determinan sumando la función de probabilidad conjunta p ( ) sobre elX_ xrecorrido de todas las variables restantes; es decir,

Page 138: Libro Estadistica

138

p (x ) = p ( ), donde = {x : j i; j=1,n}.X i X j_i!

V ""x V Á

También podemos determinar la funcion de probabilidades conjunta de dos omás componentes, a partir de p ( ). Estas se obtienen en forma análoga a lasX_ xmarginales de X ; esto es, sumando sobre las variables restantes. Por ejemplo,ila distribución conjunta para cualquier par de variables X y X es de la formai 4

p (x ,x ) = p ( ), con = {x : k j i; k=1,n}.X X i X k_i 4 4 V! x V Á Á

Si el vector aleatorio es continuo, entonces es inmediato queX

p ( ) = P(X =x ,...,X =x ) = 0, =(x ,..., x )X n n n_ x x" " "a

y los recorridos de las variables aleatorias X ; i=1,n son todos conjuntos noinumerables. La función de densidad de probabilidad asociada a laXdenotaremos por f ( ) y debe satisfacer condiciones análogas a (i) y (ii), en elX_ xcaso continuo; estas son

f ( ) 0 = (x ,..., x )X n_ x x  a "

... f ( )dx ...dx = 1.( (_ _

_ _ "

- -X nx

La función f ( ) es no nula en alguna región de y es tal queX_nx ‘

P(a <X <b ,..., a <X <b )= ... f ( )dx ...dx ," " " "

, ,

+ +n n n n( (n

n

"

"

X x

aa , b ; i=1,n .i i

Definición. Diremos que la variables aleatorias X , i=1,n, son idénticamenteidistribuidas si cada una de ellas tiene la misma distribución de probabilidades.

Definición. Diremos que las variables aleatorias X , i=1,n son independientes siiy sólo si.

f ( ) = f (x ) , cuando es conjuntamente continuan

iX x x XC ‘œ "

a −X in

i

y p ( ) = p (x ) , cuando es conjuntamente discreta.

niX x x XC ‘œ "

a −X in

i

Page 139: Libro Estadistica

139

A continuación daremos dos resultados, cuyas demostraciones omitiremos, queson una generalización del Teorema 4.1 que utilizaremos más adelante.

Teorema 4.5. Si X ,...,X son variables aleatorias independientes y si" nY =G (X ),...,Y =G (X ), son funciones de X ,...,X , respectivamente," " " "n n n nentonces Y ,...,Y son variable aleatoria independientes." n

Teorema 4.6. Si X ,X ,...,X son variable aleatoria independientes y si" # nY =G (X ,...,X ), Y =G (X ,....,X ),..., Y =G (X ,...,X ), donde Y ," " " # # <" "r p m m k n jj=1,...,m son funciones de subconjuntos mutualente excluyentes de X ,"X ,...,X . Entonces Y ,Y ,...,Y son variables aleatorias independientes.# " #n m

4.7. Distribucion Multinomial

La distribución multinomial es una generalización de la distribución Binomialy su función de probabilidad se obtiene de la misma forma que aquella.Recordemos que, para definir una variable aleatoria Binomial, partimos delconcepto de ensayo Bernoulli. Para la distribución Multinomial extendemos enforma natural esta idea para definir un ensayo multinomial que tiene kdiferentes resultados posibles.

Supongamos entonces que al realizar un experimento se pueden presentar loseventos A ; i=1,k, que forman una partición de , es decir, P(UA ) =i iH!

i i i iP(A )=1 y definamos P(A )=p , i=1,n. Si realizamos n de estos experimentosindependientes y definimos X como el número de veces que ocurre A en los ni iensayos o experimentos, entonces =(X ,...,X ) se llama variable aleatoriaX " 5

Multinomial con parámetros n y p , i=1,k.i

Utilizaremos la notación M(n,p ,...,p ) para indicar que tieneX Xµ " 5

distribución Multinomial. Evidentemente, en este caso el espacio muestralasociado es = x...x , donde cada es el espacio muestral asociado a cadaH H H H" n iensayo individual. La función de probabilidades la obtenemos entoncescontando el número de n-uplas en que contienen exactamente x vecesH "

A ,..., x veces A , y multiplicando por p ...p . El número total de n-uplas" 5 5B B" 5" 5

con x veces A ,..., x veces A es . Entonces" " 5 5 n!n !n !...n !" # 5

p ( ) = p .p ...p ;X x n!n !n !...n !" # 5 " #

B B B5

" # 5

donde x =0,n , i =1,k y x =n.i ii!5œ"

Notemos que p ( ) 0, por definición y queX_ x x  a

Page 140: Libro Estadistica

140

p .p ...p = (p +... + p ) = 1.! n!n !n !...n !" # 5

B B B" # 5 " 5" # 5 n

De esta manera tenemos que p ( ) satisface las condiciones que le hemosX_ ximpuesto a una función cualquiera para que sea una función de probabilidades.Además, la función de probabilidad marginal para cualquier X ; i=1,k esibinomial con parámetros n y p . En efecto, si nos referimos al experimentoioriginal, podemos simplemente observar sobre cada uno de los n ensayosindependientes si el resultado i ocurre o no; así, cada ensayo es Bernoulli conéxito definido como la ocurrencia del resultado i y fracaso como la ocurrenciade cualquier otro resultado. De esta manera X es el número de éxitos en niensayos Bernoulli independientes, con probabilidad de éxito p en cada ensayo;iesto es, X es Binomial con parámetros n y p . De aquí, E(X ) = np , Var(X ) =i i i i inp (1 p ), i=1,k.i i

Enseguida veremos que la distribución condicional de X dado X , j i, es4 i Ábinomial con parámetros n x y p /(1 p ). En efecto, notemos que en cada i i4

ensayo puede ocurrir sólo j o sólo i y estamos interesados en el número deocurrencias de j cuando sabemos un valor particular del número de veces queha ocurrido i. Así, si designamos por B el suceso: "el resultado j ocurre" y porA el suceso: "el resultado i no ocurre, i j", entoncesÁ

P(B/A)=P(B A)/P(A)

=P(B)/P(A) =p /(1 p ),4 i

puesto que A B = B.

Esto nos proporciona la probabilidad de éxito (que j ocurra dado que i no haocurrido) en un ensayo. Por lo tanto, los n x ensayos en los cuales el iresultado i no ocurre, son Bernoulli independientes con probabilidad de éxito(que j ocurra) p /(1 p ). Entonces la distribución condicional de X dado X ,4 4 i ij i, es binomial con parámetros n x , p /(1 p ) y la esperanza condicionalÁ i i4

es

E[X /X =x ] = (n x )p /(1 p )4 4i i i i

Dado que en la condicional de X dado X =x , el valor x es constante, entonces4 i i idebemos entender que calculamos E[X X /X =x ] comoi i i4

E[x X /X =x ] = x E[X /X =x ]i i i i i i4 4

= x (n x )p /(1 p ),i i i 4

de donde

Page 141: Libro Estadistica

141

E[X X /X ] = X (n X )p /(1 p ).i i i i i4 4

Utilizando enseguida el resultado de doble esperanza tenemos

E[X X ] = E[E[X X ]/X ]i i i4 4

= E[X E[X /X ]i i4

= E[X (n X )p /(1 p )]i i i 4

= {E(nX ) E(X )}p1 p

4

i i i #

= p (n p np )4#

i i

= np p (n 1).i 4

Luego la covarianza entre X y X es4 i

Cov(X ,X ) = E[X X ] E[X ]E[X ]i i i4 4 4

= np p (n 1) np np .i i4 4

= np p , i=1,k , j=1,k i 4

y la correlación es

= [p p /(1 p )(1 p )] , i=1,k, j=1,k.3 i i4 4"Î#

Ejemplo. En una Empresa siderúrgica, un laminador de planchones puedepresentar tres tipos de fallas: Mécanicas (1), Eléctricas (2) y Estructurales (3).Debido a un programa de mantención preventiva, se sabe que en unainspección la probabilidad de observar una falla del tipo 1 es 0.7, una de tipo 2es 0.2 y una tipo 3 es 0.1. Si se inspeccionan 5 laminadores y definimos Xicomo el número de fallas del tipo i, i=1,2,3, que se observan, entoncesX=(X ,X ,X ) es una variable aleatoria multinomial con parámetros n=5," # $

p =0.7, p =0.2 y p =0.1; es decir," # $

p ( ) = (0.7) (0.2) (0.1) .X x 5!x !x !x !

x x x" # $

" # $

La probabilidad que todas las fallas sean del tipo 1 es

p (5,0,0) = (0.7) = 0.16807X&

La probabilidad que tres fallas sean del tipo 1 y dos del tipo 3 es

Page 142: Libro Estadistica

142

p (3,0,2) = (0.7) (0.1) = 0.0343X5!

2!3! $ #

En este caso, el número esperado de fallas de tipo mecánico es 3.5.

4.8. Distribución , t y F;#

En esta sección veremos algunas distribuciones que serán de vital importanciaen inferencia estadística y, aunque a partir de ellas se pueden extraerimportantes conclusiones relacionadas con muestras aleatorias, desde el puntode vista probabilístico funcionan como cualquier otra distribución, las tres seencuentran tabuladas y su manejo es relativamente simple.

Ya hemos mencionado en el capítulo anterior que la distribución es un caso;#

especial de la distribución Gamma. Si consideramos la variable aleatoria Z condistribución normal estándar, entonces la función de distribución de U = Z ,#para todo t 0 está dada por: 

F (t) = P(Z t)U# Ÿ

= P(- t Z t)È ÈŸ Ÿ

= 2F ( t)-1^È

=2 ( t) - 1F Èy su función de densidad es

f (t) = F (t)U Uddt

= t f ( t)-"Î#^

È = (2 t) e , t>01 - -"Î# >Î#

que corresponde a una función de densidad de una variable aleatoria con un;#

grado de libertad. Notemos que la variable U es el cuadrado de una variablenormal estándar. La función generadora de momentos de U, de acuerdo a loque vimos en capítulo anterior, está dada por M (t)=(1 2t) y de aquí seU "Î#

tiene que E(U) = 1 y Var(U) = 2. El siguiente teorema es una generalización deeste resultado

Teorema 4.7. Si Z ,...,Z son variables aleatorias normales estándar," nindependientes, entonces U = Z tiene distribución .! # #

Ð Ñi n;

Page 143: Libro Estadistica

143

Demostración. Supongamos que Z ,...,Z son variables aleatorias" n

independientes, cada una con distribución normal estándar y sea U= Z .!n

i

2i

œ"

Entonces, cada Z tiene distribución con un grado de libertad y como son# #i ;

independientes por el Teorema 4.2, la función generadora de momentosestá dada por

M (t) = E[e ] =E e E e .......E eUt Z tZ tZ tZ!

i2

1 2 n ‘ ‘ ‘# # #

= (1-2t) ,-nÎ#

que corresponde a la función generadora de momentos de una con n grados;#

de libertad.

La función de densidad de U es

f (u) = u e , u > 0.U1

(n/2)n -u

2nÎ#>Î#" Î#

Utilizando la función generadora de momentos se tiene de inmediato que lamedia y la variaza de U es n y 2n respectivamente.

Ejemplo. Supongamos que X es una variable aleatoria con función de densidad

f (x) = xe , x>0,X14

-xÎ#

entonces la función de densidad de X corresponde a la de una Chi-cuadradocon 4 grados de libertad. Para ver esto, notemos que la densidad de X lapodemos reescribir como:

f (x) = xe = ,X14

-x x e(4/2)2

Î# %Î#" Î#

%Î#

-x

>

que es la densidad de una . Entonces su media y su varianza estan dadas por:;#%

E(X)=4 y Var(X)=8, respectivamente. Otras propiedades importantes de unadistribución Chi-cuadrado están dadas en los teoremas siguientes, cuyasdemostraciones dejamos como ejercicio.

Teorema 4.8. Si X ,...,X son variables aleatorias independientes, cada una con" ndistribución con ,..., grados de libertad, respectivamente, entonces Y =; / /#

" n! !X tiene distribución Chi-cuadrado con grados de libertad.i i/

Page 144: Libro Estadistica

144

Este teorema nos indica que la distribución Chi-cuadrado es reproductiva, en elsentido que la suma de variables independientes, Chi-cuadrado, sigue teniendodistribución Chi-cuadrado.

Teorema 4.9. Sean X y X variables aleatorias independientes." #

Si X y X + X , > entonces, X se distribuye ." " # " ## # #

µ µ; ; / / ;/ / / /" "

Definición. Distribución t-Student ( ) Sea Z una variable aleatoria normalestándar, y X una variable aleatoria que se distribuye Chi-cuadrado con /grados de libertad. Si Z y X son independientes, entonces la variable aleatoriaT definida por

T = ,ZX/È /

tiene distribución t-Student con grados de libertad. La notación usual es Y/µ t ./

Para construir la función de densidad de una variable aleatoria t-Student, sepuede aplicar directamente el método de transformación de variables.

Haciendo esto, se tiene que la densidad de una t-Student con grados de/libertad esta dada por

f (t) = , - <t<X ·> //1 > / /( +1)/2)

( /2)1

[1+(t / )]È # Ð "ÑÎ#/ _ _

La distribución t-Student, la cual se encuentra tabulada para distintos grados delibertad, es simétrica respecto del origen y, en general, su aplicacióncorresponde a casos similares a aquellos en que se puede aplicar la distribuciónnormal, pero restringidos a los casos en que se desconoce el valor de .5#

Definición. (Distribución F de Snedecor). Sean X y X , variables aleatorias" #

Chi-cuadrado con y grados de libertad, respectivamente. Si X y X son/ /" # " #

independientes, la variable aleatoria

F = = X / XX / X

" " " #

# # # "

/ // /

se dice que tiene distribución de probabilidades F con grados de libertad en/"el numerador y grados de libertad en el denominador./#

La función de densidad de una variable aleatoria F con y grados de/ /" #

libertad esta dada por:

Page 145: Libro Estadistica

145

f (t) = , t > 0J

>

> >

( )( ) t( ) ( )(1+ t)

/ / /

/

/ /

/ ///

/ /

" "#

#

" # "#

Ð ÑÎ#" #

+2

1 12 2( 1)

2 2

Esto se denota usualmente como F F( , ) y se obtiene directamenteµ / /" #

aplicando el teorema del cambio de variable a la transformación uno a unocorrespondiente. La función de densidad de una F( , ) tiene entonces dos/ /" #

parámetros , que corresponden a los grados de libertad de las dos Chi-/ /" #

cuadrado que intervienen en la definición.

La distribución acumulada de la variable F se encuentra tabulada para distintosvalores de y . Por ejemplo, para calcular el percentil 95, f (5,8), vamos/ /" # !Þ*&

directamente a la tabla para = 0.95, con 5 grados de libertad en el numerador!y 8 en el denominador, entonces observamos que f (5,8) = 3.69.!Þ*&

Análogamente, f (10,10) = 2.32 y f (8,5) = 4.82.!Þ* !Þ*&

Además, se puede probar que el valor esperado de F está dado por:

E(F) = /( -2),/ /# #

y Var(F) = 2 [1+ ]/( -2( -4)/ / /#

## #

//#

"

-2

Notemos que si entonces G=1/F, el recíproco de una variable aleatoria/ /" #Ácon distribución F( , ), tiene distribución F( , ), pues/ / / /" # # "

G = 1/F = = F( , )X / XX / x

# # # "

" " " #

/ // / µ / /# "

por definición de la variable aleatoria F. Esta propiedad es muy útil paraefectos del uso de tablas. En efecto, sea f ( , ) el cuantil de F( , ); esto! / / ! / /" # " #

es, P(F( , ) f ( , )) = . Dado que los eventos/ / / / !" # " #Ÿ !

{F( , ) f ( , )} y { } son equivalentes,/ / / /" # " #Ÿ !1 1

F( , ) f ( , )/ / / /" # " # 

!

entonces

= P(F( , ) f ( , )! / / / /" # " #Ÿ !

= P( )1 1F( , ) f ( , )/ / / /" # " #

 !

= 1 P( ) 1 1F( , ) f ( , )/ / / /" # " #

Ÿ!

Pero G= 1/F( , ) F( , ). Así, = 1 - P(G( , ) )./ / / / ! / /" # # " # "µ Ÿ 1f ( , )! / /" #

De donde

Page 146: Libro Estadistica

146

P(G( , ) ) = 1 - / / !# " Ÿ 1f ( , )! / /" #

y por tanto

= f ( , ).1f!( , )/ /" #

" # "! / /

Esta relación podemos utilizarla para calcular algunos cuantiles de ladistribución F que usualmente no aparecen en las tablas. Por ejemplo, de lastablas obtenemos en forma directa que

f (10,10) = 2.32; f (5,8) = 3.69; f (8,5) =4.82.!Þ* !Þ*& !Þ*&

Así, f (8,5) = = = 0.271!Þ!&

1 1f (5,8) 3.69!Þ*&

f (5,8) = = = 0.207!Þ!& 1 1f (8,5) 4.82!Þ*&

f (10,10) = = = 0.431.!Þ"1 1

f (10,10) 2.32!Þ*

4.9. Suma de Variables Aleatorias

Dada la importancia que adquiere este tema en las aplicaciones estadísticas,veremos en esta sección algunos resultados aplicables a la suma de variablesaleatorias.

Definición. Si X ,...,X son variables aleatorias independientes e idénticamente" ndistribuidas, diremos que ellas conforman una muestra aleatoria.

El siguiente teorema será de mucha utilidad para determinar la distribución dela suma de variables aleatorias independientes e idénticamente distribuidas.

Teorema 4.10. Sean X ,...X variables aleatorias independientes e" nidénticamente distribuidas, con funciones generadoras de momentos M (t),...,X"

M (t), respectivamente. Si definimos Y = X , entonces la funciónX in

in

!œ"

generadora de momentos de Y es

M (t) = [M (t)] .] Xn

Demostración. Utilizando la definición de función generadora de momentostenemos:

Page 147: Libro Estadistica

147

M (t) = E[e ] = E[e ]]]t tDXi

= E[ e i] = E[e i] , por independencia de las Xn n

i iC Cœ " œ "

> >X Xi

= M (t) = M (t)] ,n

iCœ "

X Xn

i

puesto que si son idénticamente distribuidas, todas tienen la misma distribuciónde probabilidades y por lo tanto la misma función generadora de momentos.

Ejemplo. Supongamos que X ,..,.X son variables aleatorias Bernoulli" nindependientes, idénticamente distribuidas, cada una con parámetro p.

Entonces M (t) = q + pe , i = 1,n. Si definimos Y = X , entonces de acuerdoX in

ii

>

œ"

!al último teorema tenemos:

M (t) = [M (t)] = (q + pe )]>

Xn n

que es la función generadora de momentos de una variable aleatoria Binomialcon parámetros n y p. Así, Y se distribuye como una variable aleatoriaBinomial con parámetros n y p.

Notemos que con este resultado hemos definido la variable aleatoria Binomialcomo la suma de variables Bernoulli independientes.

Ejemplo. Supongamos que X ,...,X son variables aleatorias normales" nindependientes, con medias ,... y varianzas ,... respectivamente.. . 5 5"

# #"n n

Entonces

M (t) = exp(t + t /2).X i ii . 5# #

Si definimos Y = a X , con a constantes arbitrarias, entonces la función!n

i ii i i

œ

generadora de momentos de Y esta dada por:

M (t) = M (ta )n

i] Cœ "

X ii

= exp(ta + t a /2)n

iC . 5œ "

i i i i# # #

= exp( t a + t a /2)D . D 5i i i i# # #

Page 148: Libro Estadistica

148

que nuevamente corresponde a la función generadora de una variable normalcon media = a y varianza = a . Así, cualquier función lineal. D . 5 D 5] ]

# # #i i i i

de variables aleatorias normales independientes es a su vez normal.

Teorema 4.11. Sean X ,...X variables aleatorias con medias ,..., y" "n n. .

varianzas ,..., , respectivamente. Si definimos Y = a X , con a constantes5 5# #"

œ"n

n

ii i i!

arbitrarias, entonces

= a , = a + 2 a a Cov(X ,X ).i

. . 5 5 DD] 4 4œ" œ"

# # #]

! !n n

i ii i i ii i 4

Demostración. Para la primera parte aplicando directamente el operadoresperanza tenemos

= E[Y] = E[ a X ] = a E[X ] = a .. .]œ" œ" œ"

! ! !n n n

i i ii i i i i i

Análogamente,

= E[( a X a ) ]5 .# #]

œ" œ"

! !n n

i ii i i i

= E[( a (X )) ]!n

ii i i

œ"

# .

= E[ a (X ) + 2 a a (X )(X )]i

!n

ii i i i i i

œ"

# #4 4 4

4. DD . .

= a E[(X ) ] + 2 a a E[(X )(X )]i

!n

ii i i i i i

œ"

# #4 4 4

4. DD . .

= a + 2 a a Cov(X , X ).i

!n

ii i i i

œ"

# #4 45 DD

4

El caso particular de dos variables es de bastante utilidad en las aplicaciones. SiX y X son variables aleatorias y si definimos Y=X +X , entonces aplicando" # " #

en forma directa el Teorema 4.11 tenemos que

= +. . .] " #

y

Page 149: Libro Estadistica

149

= Var(X +X ) = + + 2Cov(X ,X ).5 5 5# # #] " # " #" #

Análogamente, si consideremos Z = X X , entonces la media de Z esta dada" #por

= . . .^ " #

y su varianza es

= + 2Cov(X ,X ).5 5 5# # #^ " # " #

De esta forma se tiene el siguiente resultado para dos variables aleatorias:

Var(X +X ) = Var(X ) + Var(X ) + 2Cov(X ,X )" # " # " #

Var(X X ) = Var(X ) + Var(X ) 2Cov(X ,X )." # " # " #

Teorema 4.12. Sean X ,...,X variables aleatorias no correlacionadas. Si" n

Y= a X , entonces = a y = a .! ! !n n n

i i ii i i i i i

œ" œ" œ"]

# # #]. . 5 5

Teorema 4.13. Sean X ,...,X variable aleatorias independientes e" nidénticamente distribuidas, cada una con media y varianza . Si. 5#

Y= X , entonces = n y = n .!n

ii

œ"]

# #]. . 5 5

Notemos que el Teorema 4.13 sigue siendo válido si las variables son sólo nocorrelacionadas. Sin embargo, lo planteamos así para resaltar un resultadosobre muestras aleatorias que luego será de mucha utilidad en inferenciaestadística. En realidad el Teorema 4.13 es un caso particular del Teorema 4.12cuando tomamos a = 1, i = 1,n. Otro caso particular de mucho interés es aqueli adonde a = 1/n, i = 1,n. Esta nueva variable se denota usualmente por X =i a

!n

ii n

œ""X /n y se llama media muestral o valor promedio de X ,..., X .

Muchos métodos estadísticos utilizan dos o más combinaciones lineales de unmismo conjunto de variables aleatorias y es importante determinar lacovarianza entre ellas. Para ver esto, consideremos n variables aleatoriasindependientes X ,...X con medias ,..., y varianzas ,..., ," "

# #"n n n. . 5 5

respectivamente, y sean a ,...,a y b ,...b constantes arbitrarias." "n n

Consideremos las funciones lineales.

Page 150: Libro Estadistica

150

U = a X , V = b X! !n n

i ii i i i

œ" œ"

Utilizando el Teorema 4.11, tenemos de inmediato

= a , = a , = b , = b. . 5 5 . . 5 5U i i V i in n n n

i i i iU Vi i i i

! ! ! !œ" œ" œ" œ"

# # # # # #

Ahora,

Cov[U,V] = E[(U )(V )] . .U V

= E[( a X a )( b X b )]D D . D D .i i i i i i i i

= E[( a (X )( b (X ))]D . D .i i i i i i

= a b E[(X ) ] + 2 a b E{X )(X )]i

D . DD . .i i i i i i i 4

#4 4 4

= a b ,D 5i i i#

debido a la independencia entre las X , i = 1,n.i

Así, si X ,...,X son variables aleatorias independientes, y si U = a X y V ="œ"

n i in

i!

!n

ii i

œ"

b X , entonces la covarianza entre U y V esta dada por:

Cov[U,V] = a b .D 5i i i#

Ejemplo. Sean X ,...X variables aleatorias no correlacionadas, cada una con" n

media y varianza . Definamos X = X y D = X X .. 5#

œ"" "

1

n

n

ii!

Veamos que X y D son no correlacionadas. En efecto, X y D las podemos " "

escribir como

X = a X , con a = 1/n, i = 1,na!n

ii i i

œ"

D = b X , donde b = , b = i = 2,n" "œ"

!n

ii i i

n 1 1n n a

Entonces

Cov[X , D ] = a b1 i i iD 5#

Page 151: Libro Estadistica

151

= ( ( )( ) ( )( ))5# + + ... + 1 n 1 1 1 1 1n n n n n n

= (( n 1)/n (n 1)/n )) = 0.5# # #

De esta manera, X y D son no correlacionadas.1

Evidentemente, mediante un procedimiento similar se puede demostrar que X

y D ,..., D son no correlacionadas, este resultado es muy útil en inferencia# nestadística. Dado que en inferencia estadística se trabaja generalmente conmuestras aleatorias; esto es, variables aleatorias independientes e idénticamentedistribuidas, es importante notar que el resultado de este ejemplo esevidentemente válido cuando las variables aleatorias involucradas sonindependientes.

4.10. Máximos y Mínimos

Sean X ,...,X , n variables aleatorias independientes e idénticamente" ndistribuidas con función de distribución F (x). Si ordenamos las variablesXaleatorias en forma ascendente de acuerdo a su magnitud, podemos definir dosfunciones de interés primordial en estadística. Ellas son el máximo y elmínimo, denotadas usualmente por X y X , respectivamente.Así, ‘ ‘n 1

X = Máximo X ,...,X ‘n n˜ ™"

X = Mínimo X ,...,X . ‘1 n˜ ™"

La distribución de estas dos funciones se obtiene fácilmente a partir de ladistribución común de las variables aleatorias involucradas. En efecto,determinemos primero la distribución de la variable aleatoria X . Para ello, ‘n

denotemos por G(t) su función de distribución. Entonces

G(t) = P(X t) ‘n Ÿ

= P(X t, ..., X t) , por definición de máximo" Ÿ Ÿn

= P(X t)...P(X t), pues X son independientes." Ÿ Ÿn i

= (F (t)) , pues las X son idénticamente distribuidas.X in

Luego la función de distribución acumulada del máximo de n variablesaleatorias independientes e indénticamente distribuídas es

G(t) = (F (t)) .Xn

Page 152: Libro Estadistica

152

Si las variables son continuas podemos obtener la función de densidad delmáximo, g(t), derivando G(t) respecto de t.

g(t) = = n(F (t)) f (t).dG(t) d(F (t))dt dt = X

n

X Xn 1

Para obtener la función de distribución de X , denotemos por H(t) su función ‘1

de distribución acumulada.

Entonces

H(t) = P(X t) ‘1 Ÿ

= 1 P(X t)   ‘1

= 1 P(X t,..., X t)    " n

= 1 P(X t)...P( X t)    " n = 1 (1 P(X t))...(1 P(X t) Ÿ Ÿ ‘" n

= 1 1 F (t) . ‘Xn

Ahora, si las variables son continuas, podemos determinar la función dedensidad del mínimo derivando H(t) respecto de t.

h(t) = =dH(t)d(t) d(t)

d 1 (1 F (t)˜ ‘ ™ Xn

= n (1 F (t)) f (t). ‘ X Xn 1

Ejemplo. Suponga que X ,...,X son n variables aleatorias independientes, cada" nuna con distribución exponencial de parámetro >0. La función de densidad-del máximo y mínimo, respectivamente son:

g(t) = n(1 e ) e , si t>0 - -t n 1 t-

y h(t) = n 1 (1 e ) e ‘ - -t tn 1

-

Page 153: Libro Estadistica

153

= n e , si t>0.- -tn

Si n=2 y =0.1 por ejemplo, tenemos que la función de densidad de-X =máx X ,X y de X =mín X ,X son respectivamente(2) 1 2 (1) 1 2˜ ™ ˜ ™ g(t) = 0.2e (1 e ) , si t>0 0.1t 0.1ty h(t) = 0.2e , si t>00.2t

Ejemplo. Sean X ,X ,X variables independientes cada una con distribución" 2 3Poisson de parámetro =1. Determinemos la probabilidad que el mínimo de las.tres sea estrictamente mayor que 2.

En efecto,

P(X >2) = 1 P(X 2) = 1 H(2)(1) (1) Ÿ

= 1 1 1 F (2) ˜ ‘ ™X3

= 1 F (2) ‘ X3

donde F (2) = = 0.9197.X !x=0

2 1 ex

x 1

x

Así, la probabilidad pedida es 0.0005.

Además de X y de X interesa determinar X el ,(n) (1) (r) estadístico de orden rvariable aleatoria que corresponde al valor r-ésimo en magnitud, r=2,...,n-1, delas n variables aleatorias ordenadas en forma ascendente.

Se puede determinar, para el caso de variables continuas, que la densidad deeste estadístico de orden r está dada por

f (t) = F (t) 1 F (t) f (t).X X X X(r)n

(r 1) (n r)r 1 n rx

x x

˜ ™ ˜ ™

El ejemplo a continuación, nos muestra como obtener una densidad Beta apartir de un estadístico de orden r.

Page 154: Libro Estadistica

154

Ejemplo. Sea X , r=1,n, el r-ésimo mayor valor de n variables aleatorias( )<independientes, cada una de las cuales tiene distribución uniforme sobre elintervalo (0,1). Mostraremos que X es una variable aleatoria Beta con( )<parámetros r y n, y función de densidad

f (t) = t (1 t) , 0<t<1.Xn

( )<>

> >(n+1)

(r) (n r+1)<" "

Para deducir esta función de densidad, consideremos las variables aleatoriasX ,...,X , cada una con distribución uniforme sobre el intervalo (0,1). Si para t" nfijo en (0,1) suponemos que los eventos A ={X t}, i=1,...,n son3 3 Ÿindependientes, entonces tenemos n ensayos Bernoulli independientes, conprobabilidad de éxito P(A ) = P(X t) = t, i=1,..,n, ya que estamos trabajando3 3 Ÿcon una distribución uniforme en (0,1).

Consideramos ahora el evento {X >t}. Entonces X excederá a t si y sólo si( ) ( )< <

r 1 o menos de las X ,...X son menores que t. Luego, " n

P(X >t) = t (1 t) , 0<t<1( )k=0

r 1n n

<

55 5! ˆ ‰

de donde la función de distribución es

F (t) = 1 t (1 t)Xn n

( )< ! ˆ ‰<"5œ! 5

5 5

= t (1 t) .! ˆ ‰n n n5œ< 5

5 5

Derivando la última sumatoria con respecto a t y teniendo presente queˆ ‰ ˆ ‰n n+ ( )5 5 " <(n k) = (k+1), tenemos que la densidad de X es

f (t) = [F (t)]X Xddt( ) ( )< <

= nr rt (1 t)Š ‹ <" " n

= t (1 t) , 0<t<1.n!( 1)! (n r)!

n<

<" <

Ejemplo. El proceso de generación de números aleatorios se realizausualmente desde una distribución uniforme sobre el intervalo (0,1).Supongamos que un computador genera 15 números al azar sobre la uniformeen (0,1). Si X es el menor valor observado, entonces la densidad de X es( ) ( )" "

Page 155: Libro Estadistica

155

f (t) = t (1 t) = 15(1 t) , 0<t<1.X15!

0!14!( )"! "% "%

y la probabilidad que el mínimo sea menor que 0.3 es

P(X < 0.3) = 15(1 t) dt( )"

!Þ$

!

"%(

= 1 (0.7) = 0.995. "&

De la misma forma, si definimos X como el mayor valor de los 15, entonces( )"&

X = máx{X ,...,X } tiene función de densidad( )"& " "&

f (t) = t (1 t) = 15t 0<t<1.X15!

14!0!( )"&"% ! "%

y la probabilidad que el mayor valor sea menor que 0.3 es

P(X < 0.3) = 15t dt = (0.3) = 1.43.10 .( )-

"&

!Þ$

!

"% "& )(Por último, el valor esperado de X está dado por( )"&

E[X ] = t 15t dt = .1516( )"&

"

!

"%(Como ya lo habíamos anunciado, la distribución del r-ésimo mayor valor entren variables aleatorias independiente y uniformes sobre el intervalo (0,1) es uncaso particular de la distribución Beta General con parámetros y .! "

4.11. Algunos Teoremas importantes

En esta sección veremos algunos conceptos de convergencia de una sucesión devariables aleatorias y algunos teoremas importantes en probabilidades yestadística.

Definición. Sean (X ) una sucesión de variables aleatorias. Diremos quen n−R(X ) a la variable X si, cada punto donde lan n−R converge en distribuciónfunción de distribución de X es continua, tenemos

lim F (t) = F (t),n Ä _ X Xn

Page 156: Libro Estadistica

156

donde F (t) es la función de distribución de X .X nn

Si (X ) es una sucesión de variables aleatorias que converge en distribuciónn n−Ra la variable aleatoria X y si a y b (a<b) son dos puntos cualquiera donde F (t)Xes continua, entonces para cualquier >0 existe un n suficientemente grande tal%que:

|P(a<X b) (F (b) F (a))| = |F (b) F (a) F (b) F (a))|< ;n X X X X X XŸ n n %

es decir, F (t) se puede utilizar para aproximar probabilidades que debieran serXcalculadas mediante F (t). Esto es útil cuando F (t) es complicada y F (t)X X Xn n

tiene una expresión simple.

Definición. Sea (X ) una sucesión de variables aleatorias. Diremos quen n−R(X ) a la variable aleatoria X, si para cada >0,n n−R converge en probabilidad % lim P(|X X| ) = 0n Ä _

 n %

Definición. Sea (X ) una sucesión de variable aleatorias. Diremos quen n−R(X ) o en a la variable aleatoria X,n n−R converge en Media Media Cuadráticasi

lim E[(X -X) ] = 0.n Ä _ n#

Definición. Sea (X ) una sucesión de variables aleatorias. Diremos quen n−R(X ) o a la variablen n−R converge con probabilidad uno casi seguramentealeatoria X, si:

P[lim X = X] = 1.n Ä _ n

Ejemplo. Consideremos la sucesión de variables aleatorias (X ) en quen n−R

F (t) = (n/2 ) e /2 dx.X-

nn ( >

_

"Î# B #1 5#

Entonces t 0 se tienea Á

lim F (t) =n Ä _ Xn ˜ 0 si t < 01 si t 0 

luego F (t) converge en distribución aXn

F (t) = X ˜ 0 si t < 01 si t 0 

Page 157: Libro Estadistica

157

Notemos que t = 0 es una discontinuidad de F y lim F (0) = 1/2 n. Así,nX XÄ _an

no hay convergencia en distribución en los puntos de discontinuidad de F .X

Ejemplo. Consideremos la siguiente sucesión de variables aleatorias, definidassobre el intervalo cerrado [0,1].

X (t) = n ˜ 0 si t 1/n1 si t > 1/n

Ÿ

donde para cualquier par de números a,b [0,1], a< b, se tiene que−P(a t b) = b a (longitud del intervalo). Entonces n N,Ÿ Ÿ a −

P({X (t) = 1}) = 1/n, P({X (t) = 0}) = 1 1/n.n n

Definamos la variable aleatoria X como: X(t) = 0 t [0,1] y sea.a −

A ( ) = |X (t) X(t)|n n% %  

Para 0< 1, t A ( ) si y solo si X (t) = 1. Así,% %Ÿ − n n

P(A ( )) = P({X (t)=1}) = 1/n y lim P(|X X| ) = 0.nn n n% %Ä _

 

Para >1, no existe t A ( ) y luego P(A ( )) = 0 n. Por lo tanto, para cada% % %− an n%>0, tenemos que la sucesión de variables aleatorias (X ) definida antesn n−Rconverge en probabilidad a la variable aleatoria X.

La sucesión (X ) también converge casi seguramente a la variable aleatorian n−RX. En efecto, t 0a Á

lim X (t) = X(t) (para algún n > N( ), > 0).n Ä _ n % %

y P[lim X (t) = X(t)] = 1n Ä _ n

Así, la sucesión (X ) verifica la definición de convergencia conn n−Rprobabilidad uno o casi seguramente.

Existen varias relaciones entre los modos de convergencia que se presentan enforma de teoremas cuyas demostraciones requieren conceptos que no hemosestablecido y que escapan al alcance de este texto.

Teorema 4.14. (De Bernoulli). Si X es una variable aleatoria Binomial,nentonces X /n, la frecuencia relativa de éxitos en los n ensayos Bernoulli,nconverge en probabilidad hacia p, la probabilidad de éxito en cada ensayo.

Page 158: Libro Estadistica

158

Demostración. Debemos probar que, dado >0,−

lím P(|X /n p| )= 0n Ä _   −n

o lo que es lo mismo

lím P(|X np| n) = 0.n Ä _   −n

La demostración es una consecuencia inmediata de la desigualdad deChebyshev. En efecto, = np y = npq, luego. 5X Xn n

#

P(|X np| n) n   − Ÿpq

n%#y cuando n crece tenemos

lím P(|X np| n) = 0.n Ä _  n %

Este teorema es el primer ejemplo de convergencia en probabilidad que sepresenta en forma natural en el cálculo de probabilidades y es el punto departida para la formulación de los teoremas de los grandes números. Enpalabras, indica que cuando el número de ensayos n tiende a infinito, lafrecuencia relativa de éxito en los n ensayos tiende a la probabilidad verdaderasp de éxito en cada ensayo, en el sentido de que cualquier diferencia no nulaentre X /n y p se hará menos probable de ser observada cuando el número denensayos aumente indefinidamente.

Un teorema mas general que el de Bernoulli es el de la Ley de los GrandesNúmeros, que se puede enunciar de la siguiente manera.

Teorema 4.15. (Ley de los Grandes Números) Sea (X ) una sucesión den n−Rvariables aleatorias independientes e idénticamente distribuidas, cada una conmedia y varianza . Si definimos la sucesión (X ) mediante. 5#

−R

n n

X = X , n = 1,2,...,n i

1n

n

i!œ"

entonces la sucesión (X ) converge en probabilidad hacia ; esto es,n n−R .

lim P(|X | ) = 0.n Ä _

 n . %

Demostración. Sabemos, por Teorema 4.12 y 4.13, que

= y = /n.. . 5 5X Xn n # #

Page 159: Libro Estadistica

159

Enseguida aplicando el Teorema de Chebyshev con k = n / se tiene% 5"Î#

que

P(|X | > ) / n Ÿn . % 5 %# #

y lim P(X | > ) = 0.n Ä _

n . %

Teorema 4.16. (Del límite Central (T.L.C.)) Sea (X ) una sucesión den n−Rvariables aleatorias independientes e idénticamente distribuidas, cada una conmedia y varianza . Si definimos la sucesión (Z ) mediante. 5#

−Rn n

Z = n (X )/ , n N_

n nÈ −. 5

con X = X , entonces:n i

1n

n

i!œ"

lim F (t) = (t), t .n Ä _a −^n F ‘

donde (t) es la función de distribución de la variable aleatoria normalFestándar.

Demostración. Supongamos que existen las funciones generadoras de lasvariables X ; i = 1,n. La función generadora de la variable aleatoria normaliestándar Z es M (t) = exp(t /2). Además para todo n^

#

E(Z ) = 0 y E(Z ) = 1,n n#

donde Z es la forma estándar de X .n n

Ahora,

M (t) = E[exp(tZ )]^n n

= E[exp(t n(X )/ ]È n . 5

= E[ exp(t n(X )/ ]n

iC . 5œ "

È i

= [M (t/ n)] ,^ È n

donde Z = (x )/ y M (t) es la función generadora de la forma estándar de . 5 ZX. Entonces, tomando logarítmo natural tenemos:

Page 160: Libro Estadistica

160

ln M (t) = n ln[M (t/ n)]Z ZnÈ

Desarrollando la función generadora de momentos de la forma estándar en seriede Mac-Laurin obtenemos

M (t/ n) = 1 + (t/ n) + ...Z È Èt2n 3!

m#$ + $

y ln M (t) = n ln[1 + R(t)].Zn

Además, se prueba en los cursos de cálculo que:

ln(1 + x) = x + ... , para |x| < 1 + x x x2 3 4# $ %

entonces

ln M (t) = [R(t) R (t) + R (t) ...], |R(t)| < 1.Z1 12 3n # $

Por otra parte,

lim nR(t) = n Ä _t2#

y lim nR (t) = 0, k = 1,2,3,...n Ä _

5

Luego lim ln M (t) = n Ä _ Zn

t2#

de donde

lim M (t) = exp (t /2)n Ä _ Zn#

que es la función generadora de momentos de la variable aleatoria normalestándar. Por lo tanto,

lím F (t) = (t), t .n Ä _a −Zn F ‘

Notemos que como lím F (t) = (t), deberíamos esperar que, para n grande,n Ä _ ^n F

F (t) = (t). Pero para cualquier n tenemos que^nµ F

Page 161: Libro Estadistica

161

F (t) = F ( n(t )/ )X ^n nÈ . 5

y así, para n grande

F (t) = ( n(t )/ );Xnµ F . 5È

es decir, la sucesión de distribución de la media aritmética converge débilmentea la función de densidad normal estándar vista antes.

El teorema central del límite esta relacionado con la justificación del supuestode normalidad para cualquier variable aleatoria cuyo valor puede ser pensadocomo la acumulación de un gran número de cantidades independientes.Usualmente es utilizado además para aproximar distribuciones exactasmediante la suma de variables aleatorias independientes. Este tipo deaproximación se basa en el siguiente razonamiento. Supongamos que S es lansuma de n variables aleatorias independientes e idénticamente distribuidas,cada una con media y varianza . Entonces el T.L.C. nos dice que. 5#

lím P(S n )/ n z) = (z),n Ä _ Ÿn . 5 FÈ

la función de distribución normal estándar en z. Si n es finito, pero grande,podríamos esperar que P(S n )/ n z) esté bien aproximada por (z).n Ÿ. 5 FÈUna afirmación equivalente es que la suma S = X es aproximadamenten i

n

i!œ"

normal con media n y varianza n , de tal manera que. 5#

F (t) = P(S t)S nn Ÿ

= P(S n )/ n (t n )/ n)n Ÿ . 5 . 5È È = ((t n )/ n).µ F . 5ÈEjemplo. (Aproximación Normal a la Uniforme). Sean X ,...X variables" naleatorias independientes, cada una con distribución uniforme sobre [0,1].Entonces

E[X ] = 1/2, Var(X ) = = 1/12, i = 1,n.i i X5#

i

Aplicando el teorema central del límite tenemos

F (t) = P(X t) = P( 12n (X 0.5) 12n ( t 0.5))X n nn

Ÿ Ÿ È È

= ( 12n ( t 0.5)).µ F È

Page 162: Libro Estadistica

162

Podemos comparar las probabilidades exactas para diferentes valores de n yvalores fijos de t. Por ejemplo, para n = 2 y t = 0, 0.1, 0.2,..., 1.0, tenemos lasiguiente tabla de comparación de la aproximación normal con la distribuciónexacta:

Distribución Exacta y Aproximación Normal.Tabla. n=2 Distribución exacta Aproximación Normal

t F(t) ( 12n ( t 0.5))0.0 0.000 0.00710.1 0.020 0.02500.2 0.080 0.07080.3 0.180 0.

F È

16360.4 0.320 0.31210.5 0.500 0.50000.6 0.680 0.68790.7 0.820 0.83640.8 0.920 0.92920.9 0.980 0.97501.0 1.000 0.9929

La función de distribución exacta para n = 2 es

F (t) =2t 0 t 1/21-2(1-t) 1/2 t 11 t>1

X

2

2#

ÚÛÜ

Ÿ Ÿ

Ÿ Ÿ

Evidentemente la aproximación será más exacta a medida que n aumenta.

Ejemplo. (Aproximación Normal a la Binomial). Si X ,...,X son variables" naleatorias Bernoulli independientes, cada una con parámetro p, entonces nX es

una variable aleatoria Binomial con parámetros n y p. Utilizando el teoremacentral del límite, la función de distribución de X tiende a la normal si n es

grande; es decir,

F (t) = ( )Xµ F

t ppq/nÈ

En la práctica, interesa la función de distribución (exacta o aproximada) de nX

= X = Y. Mediante el teorema central del límite tenemos:!n

ii

œ"

F (t) = F (t/n) = ( ).Y Xµ F

t pnpqÈ

Page 163: Libro Estadistica

163

Notemos que estamos aproximando una variable aleatoria discreta X, medianteotra, X , que es continua. Esta aproximación produce errores en el cálculo deNprobabilidades. Para lograr una mejor aproximación haremos un ajuste porcontinuidad que se basa en el hecho que, si X es discreta entonces P(X = c) =P(c 1/2 < X c + 1/2 ). Así, en lugar de calcular por ejemplo, ŸNP(a X b), calcularemos P(a 1/2 X b+1/2), a<b. Lo mismoŸ Ÿ Ÿ ŸNharemos con cualquier otro tipo de intervalo.

Como un ejemplo ilustrativo, supongamos que lanzamos una moneda 400veces. ¿Cuál es la probabilidad que el número de caras esté entre 191 y 219,inclusive?.

Si Y es el número total de caras en los 400 lanzamientos, entonces Y sedistribuye Binomial con parámetros n = 400 y p = 1/2. De aquí np = 200 ynpq = 100. Usando ajuste por continuidad, tenemos:

P(191 Y 219) = P(190.5 Y 219.5)Ÿ Ÿ Ÿ ŸN

= (1.95) ( 0.95)F F

= 0.9744 0.1711

= 0.8033.

Notemos que la probabilidad exacta es 0.8034.

La probabilidad que el número de caras no exceda de 220 es:

P(Y 220) = P(Y 220.5)Ÿ ŸN

= (2.05) = 0.9798.F

Ejemplo. (Aproximación normal a la Poisson). Si X ,...,X son variables" n

aleatorias Poisson independientes, cada una con parámetro , entonces Y = - !n

iœ"

X es una variable aleatoria de Poisson con parámetro n .i -

Utilizando el teorema central del límite, para n grande, tenemos:

F (t) = ( ).]µ F t n

n -

-ÈPor las mismas razones dadas en el ejemplo anterior, utilizaremos ajuste porcontinuidad.

Page 164: Libro Estadistica

164

Como una aplicación, supongamos que el número de accidentes endeterminado tramo de carretera es una variable aleatoria de Poisson con media2 por semana. ¿Cuál es la probabilidad aproximada que ocurran menos de 100accidentes en este tramo de carretera durante un año?.

Si Y es el número total de accidentes en un año y si consideramos que un añotiene aproximadamente 52 semanas, entonces Y es una variable aleatoriaPoisson con parámetro n = 52(2) = 104. Así,-

P(Y 100) = P(Y 99.5)Ÿ ŸN

= ( 0.44)µ F

= 0.3300.

EJERCICIOS

1. Un estudiante rinde un examen de Verdadero y Falso de 4 preguntas;suponga que él adivina la respuesta a cada pregunta. Defina X como el"

número de respuestas correctas de las dos primeras preguntas y, X como el#

número de respuestas correctas de las dos últimas respuestas.a) Determine la distribución de probabilidad para (X , X )" #

b) Repita este ejercicio suponiendo que cada pregunta del examen es deelección múltiple con 4 posibles respuestas.c) Cuáles son las distribuciones marginales para X y X ." #

2. ¿Qué valor debe tener c si

f (x,y) = š cx/y, 0< x< 1, 1<y < 20 e.o.c.

es una función de densidad?

3. Una familia tiene dos hijos jóvenes. Sea X la altura del hijo mayor e Y laaltura del hijo menor, cuando ambos sean adultos. Suponga que (X, Y) esigualmente probable de caer en el rectángulo con vértices en los puntos (66,68), (66, 72), (71, 68) y (71,72). Calcule probabilidad que el hijo mayor seamás alto que el menor cuando sean adultos.

4. Considere el lanzamiento de dos dados y defina las variables aleatorias Xcomo el número de 5 e Y como el número de 6 obtenidos. Construya una tablade probabilidades para la distribución de (X, Y), calcule P(X+Y 1) y P(X<Y).

Page 165: Libro Estadistica

165

5. Suponga que (X, Y) es una variable aleatoria bidimensional continua condensidad.

f (x,y) = 0<y<x, 0<x<10 e.o.c. 1x

Encuentre las densidades marginales para X e Y.

6. Suponga que la variable bidimensional (X,Y) tiene densidad f (x,y) = si"#

(x,y) está en el cuadro de vértices (a, a), (a, a), ( a, a), ( a, a). a) Encuentre ab) Encuentre las densidades marginales para X y para Y.

7. Suponga que (X, Y) tiene densidad f (x,y)=1/2 en el cuadrado de vértices(a,0), ( 1, 0), (0, a), (0, a) y que f (x, y) es cero en otros casos. a) Encuentre el valor de a.b) Encuentre las densidades marginales para X y para Y y compárelas con lasmarginales encontradas en el ejercicio 5.

8. Un vector aleatorio (X,Y) está distribuído uniforme sobre el cuadrado cuyosvértices son (1, 1), ( 1, 1), (1, 1), ( 1, 1). Determinar:a) P(X +Y < 1) b) P(2X Y>0)# # c) P(|X+Y|<2) d) P(|X Y|<1/2)

9. Suponga que dos personas están esperando en la misma cola en un banco ysea X el tiempo en el cual la persona 1 completa su negocio y sea X el tiempo" #

en el cual la persona 2 completa su negocio. Por supuesto que X < x ya que la" #

persona 1 terminará primero. La densidad conjunta de (X , X ) es" #

f (x , x ) = e , 0<x <x <" # " ##- - x- # _

Encuentre las densidades marginales para X y X ." #

10. Para la densidad dada en el Ejercicio 9, evalúe

a) P X < , X < b) P X < , X >ˆ ‰ ˆ ‰" # " #1 1 1 1- - - -

11. Sean X e Y variables aleatorias discretas con distribución conjunta dada por

p(x,y) = š 1/n , x=1,n : y=1, n 0 e.o.c.#

Verifique que X e Y son independientes.

Page 166: Libro Estadistica

166

12. Sean X e Y variables aleatorias continuas, con función de densidadconjunta dada por

f (x,y) = 4 0<x<1, 0<y<1/40 e.o.c.œ

Verifique que X e Y son independientes.

13. Suponga que (X, Y) tiene función de densidad conjunta

f (x,y) = 3/2 0<x<1 , (x 1) <y<(x 1)0 e.o.c.œ # #

Muestre que X e Y no son independientes.

14. Se produce en serie lapiceros plásticos. Suponga que hay chance de 1 en100 que la tinta no sean insertada apropiadamente. Estos errores ocurrenindependientemente de lapicero a lapicero. Los lapiceros son puestos en cajasque contienen 12 lapiceros, y estas cajas son luego embaladas en cajones quecontienen 100 cajas. Una muestra de 4 cajas es selccionada de un cajón y 2lapiceros son examinados de cada caja. Dado que hay 100 lapicerosdefectuosos en el cajón, ¿cuál es la distribución condicional de X , el número#

de lapiceros defectuosos en la muestra de lapiceros seleccionados?. ¿Cuál es ladistribución conjunta para X , el número de lapiceros defectuosos en el cajón y"

X ?. ¿Cuál es la probabilidad marginal para X ?.# #

15. En el Ejercicio 6, determine la probabilidad condicional P(X>Y/X>0). ¿SonX e Y independientes?.

16. Sean las variables aleatorias X e Y con densidad conjunta

f (x,y) = ; si 0<y<x<1 32 xÈ

Encuentre la densidad condicional para Y dado que X=1/2 y la densidadcondicional para X dado Y=1/2.

17. Sean X e Y variables aleatorias y suponga que la densidad condicional deY, dado X=x, x>0, está dado por

f (y/x) = e , y>0 3x + y3x + 1

-y

y la densidad marginal para X es

Page 167: Libro Estadistica

167

f(x) = e , x>03x + 14

x

Encuentre la densidad conjunta para X e Y y la densidad condicional para X,dado Y=y.

18. Suponga que el número de accidentes que ocurren por año, en una carreteradada, es una variable Poisson X, con =20. La probabilidad que haya una o.más fatalidades en cada accidente es 0.05; las ocurrencias de fatalidad sonindependientes de un accidente a otro. Si Y es el número de accidentes en estacarretera, en un año con una o más fatalidades, encuentre la función deprobabilidades para Y.(Ind.: Considere la función de probabilidad condicionalpara Y dado X=x).

19. Sea (X,Y) con función de densidad conjunta

f (x,y) = (4xy) para 0< y< x<1-"Î#

Determine E(Y/X=x) y luego verifique que E[E(Y/X)] = E(Y).

20. Calcule E(XY) cuando (X,Y) tiene densidad conjunta

f (x,y) =6(1 x y) para 0<y<1 x<1

21. Sea (X,Y) una variable aleatoria bidimensional que se distribuyeuniformemente sobre el triángulo 0< x< y< 1.a) Determine E(X/Y=y)b) Calcule E[(Y X) ] #

22. Sea (X, Y) una variable aleatoria bidimensional con densidad conjunta

f(x,y) = 2 x+y 1, x 0, y 00 e.o.cœ Ÿ     .

Determinar el coeficiente de correlación lineal de X e Y.

23. Suponga que (X,Y) está uniformemente distribuído en el círculo unitariox +y 1.# # Ÿa) Calcule E(XY)b) Muestre que E(XY) = E(X) E(Y), pero X e Y no son independientes.

24. Muestre que E(X/Y=y) = E(X) si X e Y son independientes. ¿Es elrecíproco verdadero?.

25. Sean X , X y X variables aleatorias independientes, cada una con función" # $

de densidad f(t) =e , para t>0.t

Page 168: Libro Estadistica

168

a) Determine la densidad conjunta de (X , X , X )" # $

b) Calcule E(X +X /X =x )" # $ $

c) Calcule E(X /X +X =k)$ " #

d) Calcule E[(X +X +X ) ]" # $#

e) Calcule E[X /X +X +X =1]." " # $

26. La gasolina se almacena en tanques al comienzo de cada semana yenseguida se vende a los consumidores. Sea X la proporción de la capacidaddel tanque que queda ocupada después de haber recibido el stock a inicios de lasemana. Sea Y la proporción de la capacidad del tanque que se ha vendidodurante la semana. Suponga que la densidad conjunta entre X e Y está dadapor:

f(x,y) = ˜ 3x, 0 y x 1 0 e.o.c.

Ÿ Ÿ Ÿ

a) Determine la probabilidad que menos de la mitad del tanque haya sidoalmacenado, pero más de 1/4 de tanque se venda durante una semanacualquiera.b) Encuentre la función de densidad de la cantidad (proporción) de gasolinarestante al final de la semanac) ¿Cuál es la cantidad esperada de gasolina restante al fin de la semana?

27. Considere la variable aleatoria X, cuya función de densidad es

f(x) = 2xe x>00 e.o.cœ x#

a) Encuentre la función de distribución de Y=X#

b) La densidad de Y

28. Si X es una variable alatoria con distribución exponencial de parámetro ,)encuentre la función de densidad de Y=ln X.

29. Si X tiene distribución uniforme en (0,1), encuentre la función de densidadde Y= X.È30. Suponga que la densidad conjunta de (X, Y) está dada por

f (x,y) = 4xye si x>0, y>0Ð Ñx y# #

Defina Z= X +Y . Encuentre la función de distribución y la función deÈ # #

densidad de Z.

Page 169: Libro Estadistica

169

31. Sean X y X variables aleatorias independientes con distribución" #

exponencial de parámetros y , respectivamente. Encuentre la densidad de) )" #

probabilidad de Y=X +X cuando" #

a) ) )" #Áb) = ) )" #

32. Si la función de densidad conjunta de X e Y está dada por

f (x,y) = e , x>0, y>0Ð Ñx+y

encuentre la densidad de probabilidad de Z=(X+Y)/2.

33. Si X es una variable aleatoria con distribución geométrica de parámetrop=1/3, encuentre la distribución de probabilidades de Y=4-5x.

34. Si X es una varible aleatoria hipergeométrica con M=4, N=15 y n=3,encuentre la distribución de probabilidades de Z, el número de éxitos menos elnúmero de fracasos.

35. Si X = lnY tiene distribución normal con media y varianza , encuentre la5#

densidad de probabilidad de Y(en este caso se dice que Y tiene distribuciónlog-normal).

36. Sea X una variable aleatoria con función de densidad

f(x) = š x/2, 0<x<20 e.o.c.

Encuentre la densidad de Y=X .$

37. Si X tiene distribución uniforme en (0,1), muestre que la variable aleatoriaY= 2lnX tiene una distribución gamma, ¿cuáles son los parámetros?.

38. Si la densidad de X está dada por

f(x) = para 1<x<10 e.o.c.

$ #

#x

Encuentre:a) La densidad de probabilidades de Y = |X|b) La densidad de Z = X#

39. Si X se distribuye uniforme en el intervalo ( 1, 3), encuentre:a) La densidad de Y = |X|b) La densidad de Z = X%

Page 170: Libro Estadistica

170

40. Suponga que la función de probabilidad conjunta de X y X está dada por:" #

P (x , x ) = si x =1,2,3; x =1,2,3X X" #ß " # " # x x36" #

Encuentre:a) La distribución de probabilidd de Y=X X" #

b) La distribución de probabilidad de Z =X /X" #

41. Si X e Y son variables aleatorias con función de densidad conjunta

f (x,y) = 1/2 x>0, y>0, x+y<20 e.o.cš

a) Encuentre la densidad conjunta de Y y U=X Y.b) Determine la función de densidad de U.

42. Sean X y X variables aleatorias independientes tales que" #

f(x ) = y f(x )=si 0<x <2

0 e.o.c" #˜ 2x , 0<x <10 e.o.c.

x2" " 2 ,

, 2

Encuentre la función de densidad de Y=X X ." #

43. Si el tiempo (en minutos) para balancear una rueda en una estación deservicio es una variable aleatoria exponencial con =1/5 y si X es el tiempo- 3

que se tarda en balancear la i-ésima rueda, entonces:a) ¿Cuál es la probabilidad que se tarde al menos 12 minutos en balancear dosruedas?.b) Calcular P(3<X <6/X =3) y E[X X ]2 " " #

c) Encuentre la función de densidad de Y= 1X +X" #

44. Sea Y = (X +X ), con X , X variables aleatorias independientes, cada12 " # " #

una con distribución Chi-cuadrado con 2 grados de libertad.Encuentre la función de densidad de Y.

45. Sea (X , X ) una muestra aleatoria de tamaño dos de una distribución" #

uniforme sobre el intervalo (0, 1). Determine la función de densidad deprobabilidad para Y=X +X ." #

46. Sea Y una variable aleatoria con densidad de probabilidad dada por

f(y) = ˜ 2(1 y) 0 y 10 e.o.c. Ÿ Ÿ

Page 171: Libro Estadistica

171

a) Encuentre la función de densidad de X =2Y 1" b) Encuentre la función de densidad de X =Y#

#

47. Suponga que dos componentes electrónicos del sistema de orientación paraun misil opera independientemente, cada uno tiene un tiempo de vida que sedistribuye exponencial con media 1.a) Encuentre la función de densidad de probabillidad para la longitud promediode vida de los dos componentes.b) Encuentre la media y varianza de este promedio.

48. Suponga que X e Y son variables aleatorias independientes, cada una condistribución exponencial de parámetro . Sea U=2 (X+Y). Encuentre la- -distribución de la variable aleatoria U.

49. La distribución conjunta del tiempo de vida de dos componentes diferentes,que operan en un sistema, está dada por:

f(y , y ) = " # š (1/8)y e , y >0; y >00 en otro caso

" " # #" #(y y )/

La eficiencia relativa de estos tipos de componentes se mide por U=Y /Y .# "

Encuentre la función de densidad de probabilidad de U.

50. Sean X y X variables aleatorias independientes con distribución Poisson" #

de parámetros y , respectivamente.- -" #

a) Encuentre la función de probabilidad de Y=X +X ." #

b) Determine E(X /Y)"

51. Sean X y X variables aleatorias normales independientes, cada una con" #

media 0 y varianza 2 . Defina Y =X +X y Y = X X . Pruebe que Y e5#" " # # " # "

Y son variables aleatorias normales independientes, cada una con media 0 y#

varianza 25#

.52. Sean X e Y las variables aleatorias que indican las cantidades de aguacaída, registradas en un mismo año en una estación meteorológica deConcepción, durante los meses de Junio y Julio, respectivamente. Suponga que(X,Y) tiene distribución Normal Bivariante con =6 mm, =4 mm, =1,. . 5X Y X5 3Y=0.5 y = 0.1. Determinea) La probabilidad que el agua caída registrada en Concepción, en el mes deJulio sea inferior a 5 mm.b) El promedio de agua caída en Julio, si en el mes anterior se registraron 5 mmde agua caída.c) La probabilidad que el total de agua caída en los meses sea superior a 12mm.

Page 172: Libro Estadistica

172

53. El número de accidentes que se producen en la intersección de dos calles esuna variable aleatoria Poisson a una tasa de 4 accidentes al año. Si se considerauna muestra aleatoria X , X ,....,X de esta variable aleatoria. Determine,1 2 36

P( X > 136). !i=1

36i

Page 173: Libro Estadistica

173

CAPITULO VESTADISTICA DESCRIPTIVA

Hemos visto y estudiado distintos resultados de la teoría de probabilidades,cuyas principales aplicaciones están en la inferencia estadística, tema quetrataremos en forma detallada en el capítulo siguiente. En este capítulo daremosuna breve descripción de algunos elementos básicos de estadística descriptiva.

5.1. Estadística Descriptiva

Cuando una encuesta o un experimento ha producido un conjunto de datos, elestado original de éstos generalmente no aporta mucha información acerca dela característica de interés a estudiar. Usualmente, dispondremos de una grancantidad de observaciones que obscurecerán la naturaleza de los datos.

Independientemente de que los datos representen los valores observados de unaparte o toda la población en estudio, será necesario organizar y resumir estosdatos en gráficos, tablas, o en cantidades que llamaremos estadísticos y queconstituyen una forma de resumen de la información, es el caso por ejemplo, delos promedios, totales, porcentajes, etc; es decir, se trata de instrumentosdescriptivos de la información. De aquí el nombre de "estadística descriptiva"que se utiliza para denotar un número más pequeño de descriptores(estadísticos) que en algún sentido describen ciertos aspectos de un conjuntomayor de números. Los estadísticos descriptivos que examinaremos seránaquellos que tengan interés para la inferencia estadística.

Representaremos los datos disponibles por la colección de números x , x ,. ." #

.,x . Por ejemplo, en la Tabla 5.1 de datos, se tienen 60 lecturas registradas denun espectómetro, que mide la contaminación por plomo al usar máquinas depetróleo. Cada lectura del espectómetro, en partes por millón (ppm), esobtenida al quemar una pequeña porción de petróleo; la luz emitida se analizapara medir la contaminación de plomo. Este procedimiento fue repetido 60veces, quemando cada vez una pequeña porción de petróleo sacado de unmismo recipiente.

Tabla 5.1. Contaminación de plomo (ppm)

99 100 100 103 102 106 106 100 103 102 104 104 100 101 104 107 107 109 100 110 100 102 99 103 95 102 99 99 108 102 103 100 98 96 96 99 98 96 99 97 103 97 97 108 100 97 99 102 98 98 100 100 100 100 100 100 105 101 102 102

Page 174: Libro Estadistica

174

Con la representación recién mencionada, denotaremos estos números por x ,"x ,. . .,x leídos por fila y así x =99, x =102, x =100 etc.# '! " "! &"

Los datos presentados en la forma de la Tabla 5.1 no nos entregan muchainformación, salvo que todas las mediciones no son las mismas. Mirando losnúmeros de este conjunto de datos encontramos que el valor más chico esx =95 y el valor más grande es x =110; así el #& #! rango de extensión orecorrido de estos datos es la diferencia 110-95=15, que significa que todoslos 60 números se pueden representar en un intervalo de longitud 15.

Una forma de resumir datos, como los de la Tabla 5.1, es contruir una tabla queproporcione el número de observaciones (frecuencia) contenido en distintosintervalos previamente definidos. Así la primera decisión para construir unaTabla de frecuencias es determinar el número de intervalos (también llamadosclases) a emplear. La mayoría de las tablas de frecuencias emplean al menos 5y no más de 15 intervalos. El número real a usar depende fuertemente de n, eltamaño del conjunto de datos, y del recorrido de los datos. Una reglafrecuentemente utilizada es considerar como número de intervalos al enteromás próximo a 2 . Esta regla, en nuestro caso, nos recomendaría usarÈ8

2 60=15 intervalos; sin embargo, nosotros usaremos arbitrariamente cincoÈintervalos para construir nuestra tabla de frecuencias.

La próxima decisión es definir estos intervalos exactamente, en términos defronteras o puntos extremos del intervalo. Los extremos no deben serambiguos, de manera de no tener dudas respecto de que observaciones caen enlas distintas clases. No es necesario, pero se acostumbra a usar clases de iguallongitud en la construcción de tablas de frecuencias; intervalos de iguallongitud tienen ciertas ventajas en términos de representaciones gráficas de lastablas de frecuencias.

Respecto de los datos de la Tabla 5.1, arbitrariamente empleamos 5 clases paraconstruir una tabla de frecuencias: 95 a 97, 98 a 100, 101 a 103, 104 a 106 y107 a 110. Cada una de estas clases (intervalos) tiene longitud 3 salvo laúltima que es de longitud 4. Finalmente se procede a contar y registrar elnúmero de datos que caen en las distintas clases, estos números se denominanfrecuencias. El resumen de los datos de la Tabla 5.1 se presenta en la Tabla5.1.1 .

La tabla de frecuencias facilita al lector el análisis preliminar de los datos: porejemplo, determinar cual es la clase (o intervalo) que contiene una mayorcantidad de datos; una idea aproximada acerca de cuán dispersos están losdatos (recorrido); etc.

Tabla 5.1.1. Frecuencias

Page 175: Libro Estadistica

175

Valores ppm frecuencia 95 a 97 8 98 a 100 25101 a 103 15104 a 106 6107 a 110 6

Las tablas de frecuencias usualmente se grafican en Las figurashistogramas. 5.1 y 5.2 corresponden a histogramas de la Tabla 5.1.1. Las barras usadas estáncentradas en cada clase y están dispuestas en el eje de las x con nombresrelativos a los puntos medios de las correspondientes clases.

Figura 5.1

Figura 5.2

En la Figura 5.1, la altura de cada barra es igual al número de observacionesencontradas en cada clase, mientras que en la Figura 5.2 las areas de las barrasson proporcionales al número de mediciones que caen en la clase. Así, la últimabarra en la Figura 5.2 debió ser reducida en altura (en 1/4), ya que la clase es de

Page 176: Libro Estadistica

176

longitud 4, para mantener el área proporcional a la frecuencia de esa clase;muchos creen que el segundo procedimiento (áreas proporcionales a lasfrecuencias) dan una impresión más precisa para el observador casual.

5.2 Diagramas de Tallo y Hojas

Un procedimiento semi-gráfico de presentar la información para variablescuantitativas, que es especialmente útil cuando el número total de datos espequeño (menos de 50), es el cuyosdiagrama de tallo y hojas de Tukey, principios para construirlos son los siguientes:

a- Redondear los datos a dos o tres cifras significativas, expresándolos enunidades convenientes.

b- Disponerlos en una tabla con dos columnas separadas por una línea, comosigue:

i) Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos de lasdecenas (que forman el tallo) y a la derecha las unidades, (que serán las hojas).Por ejemplo, 87 se escribe 8|7;ii) Para los datos con 3 dígitos el tallo estará formado por los dígitos de lascentenas y decenas, que se escribirán a la izquierda, separados de las unidades.Por ejemplo, 127 será 12|7.

c- Cada tallo define una clase, y se escribe sólo una vez. El número de "hojas"representa la frecuencia de dicha clase.

Ejemplo. Supongamos que disponemos de los siguientes datos recogidos encentímetros: 11.357; 12.542; 11.384; 12.431; 14.212; 15.213; 13.300; 11.300;17.206; 12.710; 13.455; 16.143; 12.162; 12.721; 13.420; 14.698.

Los datos redondeados expresados en milímetros son: 114; 125; 114; 124; 142;152; 133; 113; 172; 127; 135; 161; 122; 127; 134; 147.

El diagrama de Tallo y Hojas, para estos datos en mm, es:

Decenas Unidades 11 4 4 3 12 5 4 7 2 7 13 3 5 4 14 2 7 15 2 16 1 17 2

Page 177: Libro Estadistica

177

5.3. Estadígrafos

Además de tablas de frecuencias y gráficos, se usan frecuentementedescriptores numéricos para caracterizar los datos llamados estadísticos oestadígrafos. Nosotros ya estamos familiarizados con los conceptos de media,varianza, y desviación estándar. Recordemos que éstas dan medidas del centroy de la variabilidad de una distribución de probabilidades. Las mismas ideasson útiles para describir un conjunto de datos.

Definición. la media (o valorDado un conjunto de datos x , x ,...,x , " # n

promedio) varianza de los datos es x = x . La de los datos se define_ 1

ni=1

ni!

como

s = (x - x)_

# #1n-1

i=1

ni!

y su raíz positiva, s= s , se llama la de los datos.È 2 desviación estándar

Notando que

(x x) = (x 2x x + x )_ _ _! !

i=1 i=1

n ni ii # # #

= x 2x x + x_ _! ! !

i=1 i=1 i=1

n n n

i i# #

= x 2x (nx) + nx_ _ _!

i=1

n

i# #

= x nx_!

i=1

n

i# #

vemos que podemos calcular s en la forma#

ns = ( x - x )_

# # #1n-1

i=1

n

i!

Para los datos de la Tabla 5.1 se tiene que x = 6067 y x = 614163,! !i=1 i=1

60 60i i

#

de donde obtenemos

Page 178: Libro Estadistica

178

= 101.12; (614163-60(101.12) ) = 11.664x = s = _ 6067 1

60 59# #

y = 11.664 = 3.415.s ÈLuego, el promedio o "valor típico" de las 60 lecturas de plomo en la Tabla 5.1es x=101.2; y una idea de como los valores están dispersos en torno a x lo

_ _

proporciona =3.415, la raíz cuadrada del promedio de las distancias alscuadrado de cada x con respecto a x.

_i

Consideremos ahora la Tabla 5.2, que representa los sueldos mensuales (enmiles de dólares) de 42 personas elegidas al azar.

Tabla 5.2. Sueldos mensuales (miles de U$) 1.2 29.3 11.6 14.5 26.8 28.1

17.0 8.2 39.4 151.2 8.2 17.823.2 20.6 157.4 10.1 25.8 26.836.0 20.1 10.3 92.3 8.0 17.874.7 8.8 16.2 7.7 19.4 19.3125.2 10.7 100.2 47.6 21.2 37.219.6 26.0 37.7 29.0 150.1 13.4

La Tabla 5.2.1 muestra las frecuencias para estos datos, y el histogramacorrespondiente (con barras de áreas proporcionales a las frecuencias) estádado en la Figura 5.3.

Tabla 5. 2.1. Sueldos mensuales de 42 personas Rango (en dólares) Frecuencias

Menos de 10000 6

Más de 10000, pero menos de 20000 13

Más de 20000, pero menos de 30000 11

Más de 30000, pero menos de 50000 5

Más de 50000, pero menos de 160000 7

Page 179: Libro Estadistica

179

Figura 5.3En la Figura 5.3 observamos que el histograma no es simétrico en torno a algúnpunto; y tiene una "cola larga" hacia la derecha. El conjunto de datos queexhibe este tipo de comportamiento se dice que es positivamente asimétrico oque tiene una asimetría a la derecha.

Es importante destacar la conveniencia de dibujar histogramas con barras cuyasáreas sean proporcionales a sus frecuencias. Si en nuestro ejemplo hubiéramosdibujado el último intervalo (desde 50000 a 160000), con una barra de altoigual a su frecuencia, nos induciría a interpretar que éste estaría ocupado enforma más densa que el primer intervalo desde 1200 a 10000.

Para los datos de la Tabla 5.2 encontramos

x = 1565.7, x = 128484.93, x = 37.28, = 41.35_! !i i

# s

y vemos que x no es particularmente un valor "típico"; en verdad, 32 valores de_

los datos están por debajo de x y sólo 10 son mayores que x._ _

Debido a la asimetría, x es empujada firmemente hacia la derecha, de manera_

que el 75% de los datos quedan a la izquierda de x._

La media muestral tiene la característica que ella se ve muy influenciada porvalores extremadamente grandes o extremadamente pequeños y puede ocurrirque tome un valor que realmente no esté ubicado en el centro de los datos.Similarmente valores extremadamente grandes y extremadamente pequeñostienden a inflar el valor de la desviación estándar, lo que lleva a una difícilinterpretación y uso.

En definitiva, x y s pueden no ser muy buenos descriptores del centro y_

variabilidad de los datos, si estos son muy asimétricos ya sea a la derecha o a laizquierda. En este caso, se usan descriptores alternativos que están basados enlos valores ordenados o ranqueados de los datos x , x ,. . .,x , donde x( ) ( ) (n) ( )" # "

Ÿ Ÿ Ÿx ... x . Observando la Tabla 2 con los datos ordenados en forma( ) (n)#

ascendente vemos que x =1.2, x =157.4, x =20.6, etc. Así, podemos( ) ( ) ( )" %# #"

definir otra medida de centro de los datos, la , , que es el valor quemediana mestá al medio de los datos ordenados de acuerdo a su magnitud.

Calcularemos la mediana como:

Page 180: Libro Estadistica

180

m = x cuando n es impar( )n+1

2,

y m= (x + x )/2 cuando n es par

( )n2

n+12( ) ,

Por ejemplo, para los datos de la Tabla 5.2, tenemos

m = (x x )/2#" ##+

= (20.6+21.2)/2 = 20.9.

Este valor es más representativo del centro de la distribución de los datos quex, para este conjunto de datos asimétrico. La mediana tiene la propiedad que la_

mitad de los datos están por debajo de ella y la otra mitad por sobre ella, demanera que en este sentido la mediana se encuentra justo al "medio".

Los datos ordenados pueden también ser usados para definir una medidaalternativa de variabilidad o dispersión de un conjunto de datos. Una medidaampliamente usada en este caso es el recorrido (distancia) intercuartílico Q.Este se define como la longitud de un intervalo que incluye aproximadamenteel 50% de los datos centrado; así si x es el valor que a su izquierda deja! #&.alrededor del 25% de los datos y x es el valor que a su izquierda deja el 75%!Þ(&

de los datos (esto es, a su derecha queda el 25% de los datos), tenemos

Q = .x x0.75 0.25

Notemos que hemos utilizado el término aproximadamente, ya que no todos losenteros n son divisibles por 4. En cualquier caso particular, nosotrossimplemente hacemos que x sea el número mayor de los datos tal que el!Þ#&

número de observaciones menores o iguales a su valor no sea mayor de n/4.Similarmente, x es el número más chico de los datos tal que el número de!Þ(&

observaciones menores o iguales a su valor no sea mayor que n/4. Así, para losdatos del conjunto 2, tenemos que n/4=10.5 , x = x =11.6, x =x =!Þ#& "! !Þ(& $$( ) ( ) 37.7, y el recorrido intercuartílico Q=26.1; esto es, un intervalo de longitud26.1 se necesita para encerrar alrededor de la mitad de los datos. Los dosnúmeros x y x se denominan y representan el primer y tercer!Þ#& !Þ(& cuartiles cuartil de los datos, por razones obvias.Entre más dispersas estén las observaciones, más grande será el valor delrecorrido intercuartílico. Notemos que para datos asimétricos x y m difieren

_

considerablemente de la misma forma que y Q.s

A menudo disponemos de la información ya resumida en una tabla defrecuencias, y deseamos, a partir de este resumen, calcular ciertos estadísticosde interés como por ejemplo x y .

_ s#

Page 181: Libro Estadistica

181

Como no disponemos de los datos originales debemos conformarnos conaproximaciones de estos estadísticos, las que se obtienen estimando las sumas,( x ), que aparecen en las fórmulas de x y de , por y f , donde

_! !i j js#y representa el punto medio del intervalo de clase j y f es la frecuencia de estaj jclase. De esta manera, estamos considerando que cada valor real x que cae eniel intervalo j está representado por un valor promedio y de ese intervalo. Así,jsi el número de intervalos considerados es k, entonces

x = está aproximado por y_ ! !!x

n fy fi j j

j

_ =

y

por s = = ,#! ! !(x -x)

_

n-1 n-1 n-1(y -y) f

_ y f - ny_

i j j j j# # # #

donde n = f .! j

Para los datos de la Tabla 5.2.1, que tiene 5 intervalos, los puntos medios decada intervalo son

y =5.0·10 , y =15·10 , y =25·10 , y =40·10 , y =105·10 ," # $ % &$ $ $ $ $

respectivamente.

Multiplicando estos valores por sus respectivas frecuencias obtenemos

y f =1438.6x10! j j$

y luego x es aproximada por_

y = = 34252.381._ 14386000

42

Ahora, para tenemoss#

y f = 113791·10!j j# '

de donde =1573.5494·10 y = 39667.989.s s# '

5.4. Coeficiente de Correlación Muestral

Frecuentemente, en los estudios estadísticos se dispone de un conjunto de npares de datos obtenidos de dos variables de interés, X e Y, que supuestamenteestán relacionadas. Interesa particularmente estudiar el grado de asociaciónlineal de ellas.

Page 182: Libro Estadistica

182

Una medida de este grado de asociación, como vimos en el Capítulo IV, es elcoeficiente de correlación definido por3

3 = .55 5

XYX Y

El coeficiente de correlación muestral (coeficiente de correlación de Pearson),r, es una estimación del verdadero coeficiente , y se determina a partir del3conjunto de datos como:

r = ss s

xy

x y = ,

’ “!’ “ ’ “! !i=1

ni i

i=1 i=1

n ni i

1/2 1/2

(x x y y )

(x x (y y

ÑÐ

Ñ Ñ # #

donde

s =.xy ,!i=1

ni i(x x y y )

n 1

ÑÐ

es la covarianza muestral entre X e Y.

Cuando r se aproxima a +1 ó -1, los pares de puntos están cerca de una linearecta; en cambio, cuando r se aproxima a 0, el gráfico de los puntos (diagramade dispersión), corresponde a una nube de puntos mostrando una relación nolineal.

En la Figura 5.4 se presentan los gráficos para distintos valores de r. Notemosque en el gráfico F, r = 0, pero hay una relación no lineal fuerte entre X e Y.Los diagramas A y B representan relaciones exactas de dependencia directa einversa, respectivamente. En C y D también se observan relaciones dedependencia directa e inversa, respectivamente;pero, no exactas. El diagrama Ees una representación típica que indica ausencia de correlación en la muestra ;en cambio el diagrama F, aunque r=0, como en el diagrama E, indica que existeuna relación no lineal fuerte.

Page 183: Libro Estadistica

183

Diagramas de dispersión y valores de rFigura 5.4.

Ejemplo. Consideremos los siguientes pares de puntos en el plano:

x -1 2 0 1y 1 4 2 3

Queremos determinar el grado de relación lineal que existe entre la variablesasociadas X e Y.

Aplicando la fórmula tenemos que = 5/3; = 5/3, y por lo tanto,s s = sxy x y È r = 1, s

s sxy

x y=

indicando que existe una relación de dependencia lineal exacta entre X e Y,como se ilustra en la figura 5.5.

Figura 5.5.EJERCICIOS

1. Las vidas útiles de 60 ampolletas eléctricas de 100 watts son:

807 811 620 650 817 732 747 823 844 907660 753 1050 918 857 867 675 880 878 890881 872 869 841 847 833 829 827 822 811766 787 923 792 803 933 947 717 817 7531056 1076 958 970 776 828 831 781 1088 1082832 863 852 788 980 889 1030 897 755 891

Page 184: Libro Estadistica

184

a) Construya una distribución de frecuencias de las vidas útiles de estas 60ampolletas (use amplitudes iguales).b) Dibuje un histograma para la distribución.c) A partir de la distribución obtenida en (a), estime la vida promedio y ladesviación estándar de estas 60 ampolletas.

2. Los puntajes finales de 20 alumnos en un curso de Estadística son: 50, 55,61, 71, 73, 53, 54, 67, 67, 60,54, 77, 72, 76, 81, 83, 87, 44, 48 y 67.Determine el porcentaje de estos puntajes que caen en cada uno de losintervalosa) , b) 2 , c) 3 .. 5 . 5 . 5„ „ „

3. Cada una de las familias Pérez y González tiene 5 niños. Las edades de losniños de la familia Pérez tienen una media de 11 años, una desviación estándarde 3.16 años y una mediana de 10 años; en tanto que los niños de la familiaGonzález tienen una edad media de 9 años, una desviación estándar de 3.16años y una mediana de 10 años. Compare las edades de los niños de las dosfamilias, justificando las conclusiones.

4. Si una constante c es agregada a cada x en la muestra, obteniéndose y =x +c,i i i¿cómo la media y la mediana muestral de los y está relacionada con la media yimediana muestral de las x ?.ib) Si cada x es multiplicada por una constante c, obteniéndose y = cx ,i i iresponda la pregunta a la parte (a).

5. El siguiente conjunto de datos se refiere al tonelaje (en miles de toneladas )para una muestra de tanques de aceite

229 232 239 232 259 361 220 260 231 229 249 254 257 214 237 253 274 230 223 253 195 269 231 268 189 290 231 258 227 269 218 313 220 270 277 375 222 290 220 224

a) Construya un gráfico de tallo y hojas, donde los tallos son 18, 19, 20,....b) Use el gráfico obtenido en (a) para construir una distribución de frecuenciasde 8 intervalos de igual longitud, donde el primer intervalo sea 175 #!!Þc Dibuje el histograma correspondiente a la distribución de (b).Ñ

6. La cantidad de proteina (mg/gr) en las plantas de porotos de soya de unavariedad particular fue determinada para una muestra de 6 plantas obteniéndoselos siguientes datos: 11.7, 16.1, 14.0, 6.1, 5.1, 4.9.a) Calcule el recorrido muestralb) Calcule la varianza muestral s .2

Page 185: Libro Estadistica

185

7. Los siguientes datos corresponden a ganancia (en peso) de una mezcla de Ti-Cr debido a oxidación cuando se exponen al CO por una hora a 1000 C: 6.4,2

º

5.9, 6.1, 5.8, 6.6 y 6.0. Determinar x y s.

8. La desviación estándar y la varianza son medidas de variabilidad quedependen de las unidades de medición. El coeficiente de variación se define porcv=s/x , es adimensional, y mide la cantidad de variabilidad relativa al valorde la media. Calcule el valor del coeficiente de variación para los datos de losejercicios 6 y 7. ¿Qué conjunto de datos tiene más variación relativa?.

Page 186: Libro Estadistica

186

CAPITULO VIESTIMACION DE PARAMETROS

6.1. Propósito de la Inferencia Estadística

La estadística descriptiva tal como la hemos visto hasta aquí, no requiere de lateoría de probabilidades para describir el conjunto de datos x ,x ,...,x . Como" # nsu nombre lo indica, sólo son técnicas para describir, sin importar el orígen delos datos. En particular, no se hace ningún intento para generalizar más allá dela información que se tiene en ese momento. La inferencia estadística, sinembargo, está fundamentalmente interesada en la población, fuente u origen delos datos. Ella supone que los números x ,x ,...,x son valores observados de" # nvariables aleatorias, los que han sido recolectados como resultados de realizar,por ejemplo, un experimento que sigue un modelo probabilístico. Este modeloprobabilístico puede entonces ser utilizado para realizar inferencias acerca delfenómeno estudiado en el experimento.

Cuando hablamos de obtener conclusiones respecto de una poblaciónparticular, nos estamos refiriendo a algunas características distribucionales dela población. Específicamente, nos referimos a algunos parámetros quecaracterizan la distribución poblacional. Esto significa que la inferencia encuestión será relativa a un conjunto de De aquí queparámetros poblacionales. se habla también de inferencia paramétrica

Como un ejemplo, supongamos que una estudiante de ingeniería tiene clases deEstadística a las 8 AM los días Lunes, Miércoles y Viernes y hay unaprobabilidad (desconocida) de que ella llegue atrasada a la clase en)cualquiera de estos días. La llegada a esta clase cada día podemos pensarlacomo un ensayo Bernoulli, donde éxito corresponde al hecho de llegar atrasadaa la clase de Estadística. Si consideramos que estos ensayos sonindependientes, para una sucesión de n días de clases observamos X , X ,..., X" # nvariables aleatorias Bernoulli independientes, cada una de parámetro , donde)X = 1 si la estudiante llega atrasada en el día i y X = 0 si no. ¿Cómo estai isucesión de ceros y unos podemos utilizarla para obtener información acerca de), la probabilidad de llegar atrasada a su clase de Estadística cada día?. En este

caso x corresponde al número de días, del total de n, en que ella llega!n

ii

œ"

atrasada, por lo que parece intuitivamente claro que x = x /n sería una buena !n

ii

œ"

aproximación para .)

En este ejemplo hemos observado valores de variables aleatoriasindependientes X , X ,..., X , donde cada una de las X tiene la misma" # n i

Page 187: Libro Estadistica

187

distribución de probabilidades. En estos casos hablamos de muestra aleatoriade tamaño n, un concepto que ya habíamos adelantado en la sección 4.9.Formalmente, y a modo de recuerdo, si X , X ,..., X son variables aleatorias" # nindependientes y están idénticamente distribuídas, cada una con la mismadistribución de alguna variable aleatoria X, entonces llamamos a X ,X ,...,X" # nuna muestra aleatoria (m.a.) de la variable aleatoria X.

Si X , X ,..., X es una muestra aleatoria de una variable aleatoria X, entonces" # nse acostumbra a llamar a X o sencillamentevariable aleatoria poblacionalpoblación.

Por otra parte, si X= ( X , X ,..., X ) es una muestra aleatoria, entonces su_ " # ndistribución de probabilidades conjunta está completamente especificada porsus distribuciones marginales. Esto es.

f (x ,x ,...,x ) = f (x ).f (x ).....f (x )X n X 1 X 2 X n_ " # 1 2 n

= f (x ).f (x ).....f (x )X 1 X 2 X n

si X es una variable continua y

p (x ,x ,...,x ) = p (x ).p (x ).....p (x )X n X 1 X 2 X n_ " # 1 2 n

= p (x ).p (x ).....p (x )X 1 X 2 X n

si X es una variable discreta.

Los valores observados x , x ,..., x son llamados valores de la muestra" # naleatoria seleccionados desde la población en estudio.

La definición que estamos manejando para una muestra aleatoria no es válidapara poblaciones finitas, cuando por ejemplo n números son seleccionados alazar y sin reemplazo desde una población de tamaño N (N n); sin embargo, si una muestra de tamaño n se selecciona al azar, sin reemplazo, desde unapoblación finita y n es pequeño comparado con N, entonces X , X ,..., X ," # nsatisface, aproximadamente, la definición de muestra aleatoria.

Cuando X , X ,..., X es una muestra aleatoria de una población X, y" # nconocemos la distribución de probabilidades de X, entonces conocemostambién la distribución conjunta de X , X ,..., X y podemos evaluar" # ninmediatamente la distribución de cada X . Generalmente, por supuesto, uno oimás aspectos de la distribución de probabilidades para la población serándesconocidos para nosotros, por ejemplo él o los parámetros que caracterizan ala distribución o incluso podemos desconocer la densidad o función deprobabilidad, y por lo tanto, debemos sólo suponer que X , X ,..., X son" # n

Page 188: Libro Estadistica

188

independientes y nuestra interrogante es saber si tienen alguna distribuciónespecífica conocida, tal como una distribución normal, exponencial etc.Nuestro propósito en la inferencia, es utilizar los elementos de la muestra paradeterminar todos los aspectos desconocidos de nuestro interés, en la mejorforma posible, al considerar la distribución de probabilidades de la población.

Veremos que ciertas funciones de los elementos de una muestra aleatoria talescomo

X = (Media Muestral) !n

ii

œ"

X

n

S = (Varianza Muestral)# !n

ii

œ"

#(X X)

n 1

X = Máximo (X ,X ,...,X )Ð Ñ " #n n

X = Mínimo (X ,X ,...,X )Ð"Ñ " # n

serán muy útiles en la inferencia estadística.

Definición. Cualquier función de los elementos de una muestra aleatoria queno dependa de algún parámetro desconocido se llama .estadístico

Los estadísticos son, por lo tanto, variables aleatorias, cuyos valoresobservados pueden ser evaluados después que los valores observados paraX ,X ,...,X son conocidos. Como de costumbre, usaremos letras mayúsculas" # npara denotar a las variables aleatorias, y minúsculas para representar susvalores observados. Como los estadísticos son variables aleatorias, sus valoresvariarán de muestra en muestra y tiene sentido determinar la distribución deestas variables aleatorias. A estas distribuciones nos referiremos comodistribuciones muestrales.

6.2. Distribución de la media muestral

Teorema 6.1. Si X ,X ,...,X es una muestra aleatoria de una población X que" # ntiene media y varianza , entonces X tiene valor esperado y varianza. 5 .#

5#/n.

Demostración. El valor esperado de X es

E(X ) = E( X /n) = (1/n) E(X ) ! !n n

i ii i

œ" œ"

Page 189: Libro Estadistica

189

= (1/n) = (1/n)(n ) = !n

iœ"

. . .

y su varianza es

Var (X ) = Var ( X /n)D i

= (1/n ) Var(X ) por independencia de las X# D i i

= (1/n ) por estar las X idénticamente distribuídas# #D5 i

= n /n = /n.5 5# # #

La raíz cuadrada positiva de la varianza de X se conoce con el nombre de

error estándar de la media, = / n .5 5X ÈNotemos que decrece a medida que el tamaño de la muestra crece. Esto5X

significa que cuando n se hace grande por lo que tenemos másinformación podemos esperar valores de X más cercanos a , lo que

.

significa que el valor observado x es una buena aproximación de .. .

Teorema 6.2. Si X ,X ,...,X es una muestra aleatoria de una población normal" # nde parámetros y , entonces X tiene distribución Normal con parámetros . 5 .#

y /n.5#

Demostración. Consideremos la función generadora de momentos de lavariable aleatoria X .

M (t) = E(e )X_ tX

_

= E(e )t x /nD i

= E(e )E(e )...E(e )tX /n tX /n tX /n" # n

= M (t/n) M (t/n)...M (t/n)X X X" # n

= e’ “. 5t n t n nÎ Ð Î Ñ Î## #

= e. 5t t n Ð Î Ñ"#

# #

que corresponde a la función generadora de momentos de una variable aleatorianormal de parámetros y /n.. 5#

Por otra parte, si la muestra proviene de una población que no tienedistribución normal, entonces el siguiente teorema, , cuyadel Límite Central

Page 190: Libro Estadistica

190

demostración ya realizamos en la sección 4.11, nos garantiza que ladistribución de la sucesión de medias muestrales estandarizadas tiende a ladistribución normal estándar. Este teorema, que reproducimos aquí, es la basepara justificar muchas aproximaciones en Estadística.

Teorema 6.3. Si X ,X ,...,X es una muestra aleatoria de una población infinita" # nque tiene media y varianza , entonces la distribución límite (cuando n. 5#

tiende a ) de Z , donde_ n

= = Z ,n-nn

(X - ) nDxi .

5

.

5È È

es la distribución Normal estándar.

Ejemplo. Una maquina puede ser regulada de modo que descarge un promediode kilos por hora ( desconocido). Se ha observado que la cantidad. .descargada por la maquina se distribuye normal con =1.0 kg. Se selecciona5#

al azar una muestra de tamaño n = 9 horas de descarga, pesando el totaldescargado en cada hora seleccionada. Se desea encontrar la probabilidad quela media muestral esté entre +/- 0.3 kg. de la verdadera media ..

Si definimos la variable aleatoria Y como el peso total descargado en la hora i,ientonces Y se distribuye N( , 1), para todo i=1,...,9, por lo tanto, de acuerdo ali .Teorema 6.2, Y se distribuye N( , 1/9). La probabilidad que deseamos

.determinar es

P(|Y - | 0.3) = P[-0.3 (Y - ) 0.3] Ÿ Ÿ Ÿ. .

= P[-0.3 n/ (Y - ) n/ 0.3 n/ ]È È È5 . 5 5Ÿ Ÿ

= P[-0.3 9/1 Z 0.3 9/1]È ÈŸ Ÿ

= P[-0.9 Z 0.9]Ÿ Ÿ

utilizando las tablas de la distribución normal estándar, obtenemos

P(|Y - | 0.3) = 2·(0.3159) = 0.6318.Ÿ.

Así, la probabilidad que la media muestral esté dentro de +/- 0.3 de la mediapoblacional es 0.6318..

6.3. Distribución de la Varianza Muestral

Page 191: Libro Estadistica

191

En esta sección veremos algunos resultados importantes, relacionados con lavariamza muestral, S , que serán de referencia constante en este y en otros#

capítulos del texto.

Teorema 6.4. Si X ,X ,...,X es una muestra aleatoria de una distribución con" # n

media y varianza , entonces la varianza muestral S = tiene valor. 5# # D(X X)n 1

i

#

esperado igual a .5#

Demostración. Utilizando la definición de esperanza tenemos

E(S ) = E[ X n X ]# # # 1n 1 D i

= ( E(X ) nE(X ))1n 1 D # #

i

y usando la relación E(X ) = Var(X) + (E(X)) cualquiera sea la variable# #

aleatoria X, tenemos

E(S ) = ( ( + ) n( /n+ ))# # # # # 1n 1 D 5 . 5 .

= ((n +n ) n )1n 1 5 . 5 .# # # #

= (n 1)n 15#

= . 5#

Notemos que si observamos x ,x ,...,x como los valores de X ,X ,...,X" # " #n n

de una población, no es verdadero que s = sea igual a . Lo que el# #D(x x )n 1

i

#

5

Teorema 6.4 dice es que si tomamos repetidas muestras aleatorias del mismotamaño y calculamos s para cada una de ellas, entonces el promedio de los#

valores de s es . A causa de este resultado, el valor observado s para la# # #5variable aleatoria S , parece ser una aproximación razonable para .# #5

Un resultado muy importante que se usa frecuentemente cuando se muestrea depoblaciones normales está dado en el siguiente teorema.

Teorema 6.5. Sea X ,X ,...,X una muestra aleatoria de una población X cuya" # ndistribución es normal de media y varianza . Entonces. 5#

a) La media muestral X y la varianza muestral S son variables aleatorias #

independientes.

Page 192: Libro Estadistica

192

b) es una variable aleatoria con distribución Chi-cuadrado conD5 5

(X -X) (n-1)Si # #

# #=n-1 grados de libertad.

Demostración. Consideremos la forma estándar de X , i =1,...,ni

Z = , i = 1,...,n,iXi.5

entonces Z ,...,Z son variables normales estándar independientes. Sea" n

Z = Z /n = D i

D . 5 .5

(X )/ X n

i

= .

Entonces Z N(0,1/n) y n Z N(0,1). Por lo tanto nZ es una variable µ µÈ #

aleatoria chi-cuadrado con 1 grado de libertad.

Ahora, como Z ,...,Z son variables aleatorias normales independientes, ellas" nestán no correlacionadas (Teorema 4.3), además para cada i =1,...,n , Z y

Z Z están no correlacionadas (ver ejemplo de sección 4.9). Más aún, Z yi

Z Z son independientes ya que ellas tienen distribución normal bivariantei

para todo i=1,2,....,n. Por Teorema 4.6 Z y (Z Z ) son independientes por D i

#

lo que también lo son nZ y (Z Z ) , y finalmente aplicando el Teorema

# #D i4.5 encontramos que

nZ = X y = = S 5# #D D(Z Z) (X X)

n 1 n 1i i

# #

son independientes, con lo que concluye la demostración de parte (a).

Para la parte (b), notemos que (Z Z ) = tiene distribución Chi-D i # (n 1)S #

#5cuadrado con n-1 grados de libertad, y como

(Z Z ) = Z nZD Di i # # #

tenemos que

Z = (Z Z ) + nZ .D D# # #i i

Por otra parte, la función generadora de momentos de Z es por definición!i=1

n

i#

E[e ] = E[e ]t Z t (Z Z) + tnZ D D# # #i i

= E[e ] E[e ]t (Z Z) tnZ D i # #

Page 193: Libro Estadistica

193

por la independencia de las variables aleatorias involucradas.

Dado que Z y nZ se distribuyen Chi-cuadrado con n y n-1 grados deD # #i

libertad respectivamente, tenemos

(1 2t) = E[e ] (1 2t) . ^ ^ "Î#n t ( )Î# D i

#

Así,

E[e ] = (1 2t)t ( ) nD ^ ^ i Ð "ÑÎ##

es la función generadora que corresponde a una distribución Chi-cuadrado conn-1 grados de libertad.

Ejemplo. Consideremos nuevamente el Ejemplo anterior y supongamos queextraemos una muestra aleatoria de tamaño n=10. Si estas observaciones sonutilizadas para calcular S , podría ser útil especificar un intervalo de valores#

que incluya a S con alta probabilidad; esto es, encontrar por ejemplo los#

números b y b tales que" #

P(S < b ) = 0.05 y P(S b ) = 0.95# #" #Ÿ

para así tener

P(b S b ) = 0.9" ##Ÿ Ÿ

Notemos en este ejemplo que

P(b S b ) = P[(n-1)b / (n-1)S / (n-1)b )/ ]." # " ## # # # #Ÿ Ÿ Ÿ Ÿ5 5 5

Dado que =1 y n=10, se sigue que (n-1)S / = 9S , tiene distribución con5 5 ;# # # # #

9 grados de libertad. Usando las tablas (9) podemos encontrar los dos;#

números 9b y 9b tales que" #

P(9b 9S 9 b ) = 0.90" ##Ÿ Ÿ

Los valores correspondientes de la tabla son: 9b = 3.325 y 9b = 16.919, de" #

donde se tiene que b = 0.396 y b = 1.88." #

Luego, el intervalo (0.369, 1.88) contiene a S con probabilidad 0.90.#

De los resultados del Teorema 6.5 es fácil ver que la distribución de la variablealeatoria n(X - )/S, cuando X ,...,X es una muestra aleatoria de unaÈ

. " n

Page 194: Libro Estadistica

194

población normal, es t-student con n 1 grados de libertad. En efecto, sabemosque n(X - )/ se distribuye N(0,1) y que (n-1)S / se distribuye (n-1).È

. 5 5 ;# # #

Además, estas dos variables son independientes, por lo que, de acuerdo a ladefinición de una variable t-student con grados de libertad,/

T = = n (X - )/SZ/ (n-1)S / (n-1)

n(X- )/È ÈÈ; / 5

. 5# #

= È

.

se distribuye t- student con n-1 grados de libertad.

Este resultado corresponde a la desmostración del siguiente teorema:

Teorema 6.6. Si X ,X ,...,X es una muestra aleatoria de una población normal" # ncon media y varianza , entonces n(X - )/S tiene distribución t-student. 5 .# È

con n-1 grados de libertad.

Lo más importante de este resultado es que el parámetro se cancela al formar5el cuociente en la definición de la variable aleatoria T, y la distribución paraÈn(X - )/S es la misma no importando el valor de . Esta variable aleatoria

. 5

con distribución t-student será muy importante al efectuar inferencias acerca dela media de una población normal con varianza desconocida.. 5#

Para aclarar las frecuentes confusiones que se producen respecto del uso de ladistribución Normal (estándar) y la distribución t-student, en relación aexpresiones del tipo

T = y Z = ,(X ) (X )S . .

5

o como en el caso de la media

T = y Z = ,(X ) (X )S/ n / n

. .

5È È

observemos que si el valor de es conocido entonces Z tendrá distribución5normal estándar (utilizando el Teorema del Límite Central). Si es5desconocida, la distribución de T será la de una t-student con (n-1) grados delibertad. No obstante lo anterior, y dada la similitud de ambas distribucionescuando n es grande; esto es, por ejemplo, cuando, n > 30 (este número estambién discutible), la distribución t-student se puede aproximar por la normalestándar.

Ejemplo. La resistencia a la tracción de un cable se distribuye normalmentecon media y varianza ambas desconocidas. Se seleccionan al azar 6 trozos. 5#

de alambre y se mide la resistencia X de cada uno de ellos. Tanto la mediaicomo la varianza poblacional pueden ser estimadas mediante X y S , #

Page 195: Libro Estadistica

195

respectivamente. Encuentre la probabilidad que X esté entre +/- 2S/ n veces Èla verdadera media poblacional ...

Deseamos encontrar la probabilidad

P - (X - )’ “2 S 2 Sn nÈ ÈŸ Ÿ

.

que es equivalente a calcular

P - 2 2 = P(-2 T 2)’ “Ÿ Ÿ Ÿ ŸÈn(X- )

S

.

donde T = tiene distribución t-student con n 1=5 g l. EstaÈn(X )

S

.

Þ

probabilidad corresponde aproximadamente a

P(-2.015 T 2.015) = 0.90.Ÿ Ÿ

Por lo tanto, hay una probabilidad de 0.90 de que X esté entre +/- dos

desviaciones estándar de la verdadera media. Si hubiese sido conocida, esta5#

probabilidad se habría obtenido mediante la relación

P (X - ) = P -2 2’ “ ’ “- 2 2 n n

n(X- )5 5 .

5È È ÈŸ Ÿ Ÿ Ÿ

.

= P(-2 Z 2)Ÿ Ÿ

= 0.9544.

6.4. Métodos de Estimación

Los problemas de inferencia estadística (y sus soluciones) se dividen en dosáreas: Estimación de parámetros y Pruebas de Hipótesis. Examinaremos laprimera en esta sección. Generalmente en un problema de estimación deparámetros se dispone una muestra aleatoria de una variable poblacional X,cuya distribución de probabilidades se supone conocida, salvo por algunosparámetros que son desconocidos. El problema es entonces cómo usar lasobservaciones muestrales para estimar los valores de estos parámetros.

Denotaremos por el parámetro desconocido, y por a su estimador. No^) )haremos distinción, en la notación, entre estadístico (variable aleatoria) usadocomo estimador de y el valor observado del estadístico, en ambos casos)

usaremos , en el entendido que quedará claro, según el contexto, a cuál de los)̂dos nos estamos refiriendo.

Page 196: Libro Estadistica

196

6.5 Método por Momentos

Un procedimiento sencillo para obtener estimadores de parámetros es elmétodo de los momentos que fue propuesto por Karl Pearson (1894). Sea q( ),)una función que deseamos estimar. El método de los momentos consiste enescribir la función de , q( ), como una función continua h de los primeros r) )momentos poblacionales, esto es,

q( ) = h( ,..., )) . ." <

donde = E(X ) es el ; k=1,2,...,r,.kk k-ésimo momento poblacional

y luego considerar como estimador por momentos a

T(X ,...,X ) = q( ) = h(M ,M ,...,M )," " # <n )s

donde M = X es el ; k = 1,2,...,r.ki=1

nki

1n

! k-ésimo momento muestral

Veamos algunos ejemplos como ilustración de este método.

Ejemplo. Una muestra aleatoria de n observaciones X ,...X se selecciona" ndesde una población con distribución uniforme sobre el intervalo (0, ), en que)) es desconocido. Deseamos encontrar, mediante el método de los momentos,un estimador de .) )s

El valor de para una variable aleatoria uniforme es = E(X) = /2. Así,. . )" "

= h( ) = 2) . ." "

y

M = 1/n X = X"œ"

!n

ii

es el primer momento muestral. Por lo tanto, el estimador por momentos de )es

T(X ,X ,...,X ) = = 2M = 2X ." # "n )s

Ejemplo. Supongamos que queremos estimar, por el método de momentos, lavarianza, , de una población cualquiera X.5#

Page 197: Libro Estadistica

197

Sabemos que = E(X ) (E(X) ) = = h( , ) Luego, si5 . . . .# # # ## " #" Þ

consideramos una muestra aleatoria X ,...,X de esta población, tenemos que el" nestimador por momento de la varianza poblacional es5#

T(X ,...,X ) = h(M ,M ) = M M" " # ##"n

= X X 1 1n nD D# #

i i ÑÐ

= X X1nD

# #i

= D(X X)ni

#

Para emplear el método de momentos es necesario conocer los momentospoblacionales y no necesariamente se debe conocer la distribución deprobabilidades de la población. Aunque esta es una ventaja del método, este noproporciona estimadores únicos, debido a que el método sólo exige exhibir unafunción h que involucre algunos momentos poblacionales y no siempre estafunción es única, como lo veremos en el ejemplo siguiente.

Ejemplo. Estamos interesados en estimar el parámetro de una población X condistribución Poisson de parámetro y, para ello, considermos una muestra)aleatoria X ,....,X de X." n

Como = E(X), entonces un estimador por momentos de es M = X , pero) ) "

como también = , en una distribución Poisson, tenemos que un estimador) 5#

por momentos también sería S . Si n=5 y los valores observados de lan 1n #

muestra aleatoria son: 1, 2, 2, 3, 1,. podemos reportar como valor estimado de )a = 1.8 o = 0.56.) )s s

6.6. Método Máximo Verosímil

Este método es en general superior al método de los momentos (en aquelloscasos que resulten dos estimadores distintos por ambos métodos). Para ilustrarel método, consideremos la siguiente situación: Supongamos que disponemosde una caja que contiene tres bolas. Sabemos que algunas de ellas son rojas yotras son blancas, pero no sabemos el número exacto de cada color y nuestrointerés es estimar , el número total de bolas rojas. Se nos permite seleccionar)al azar dos bolas. Si nuestro muestreo da como resultado la extracción de dosbolas rojas, ¿Cuál sería un buen estimador para ?. Obviamente, , el total de) )bolas rojas, deberá ser dos o tres. Si el contenido real es de dos rojas y unablanca, esto es = 2, la probabilidad de obtener dos bolas rojas en la muestra es)

Page 198: Libro Estadistica

198

"Î$. En cambio, si = 3, tres bolas rojas en total, la probabilidad de obtener)dos rojas es 1.

Parece entonces razonable elegir el valor tres como estimador de el número)de bolas rojas en la caja, dado que con este valor se maximiza la probabilidadde la muestra observada. Por cierto, es probable que la caja contenga sólo dosbolas rojas, pero la evidencia de la muestra otorga mayor credibilidad overosimilitud a la existencia de tres rojas por sobre sólo dos.

Definición. Suponga que x ,...,x son los valores observados de una muestra" naleatoria de una población X con función de probabilidad (o densidad), f(x. ),)que depende de un parámetro desconocido . La función de probabilidad o)densidad conjunta de la muestra aleatoria considerada como función de )define a la función de verosimilitud.

L( ) = f(x , )·...·f(x , )) ) )" n

El método de máxima verosimilitud consiste en obtener, como estimadores,aquellos valores de los parámetros que maximizan la función de verosimilitud,L( ) = L( ; x ,...,x ), considerada como una función de .) ) )" n

El máximo de L( ) ocurre en muchos casos en aquel valor de donde =) )dL( )

d))

0. Así, en la mayoría de los casos el estimador máximo verosímil (EMV) de ,))s, se puede determinar desde

= 0dL( ;x ,....x )d =^

)) ) )" n ¸

Dado que L( ) es siempre no negativa y logra su máximo para el mismo valor)de que ln(L), generalmente resulta más simple obtener el EMV de ) )resolviendo

= 0dlnL( ;x ,...,x )d =^)) ) )" n ¸

En las siguientes observaciones damos algunas propiedades importantes de losEMV.

Observaciones.

La extensión al caso de varios parámetros es natural. Si tenemos mparámetros, la función de verosimilitud es L( ,..., ;x ,...,x ) y los EMV de ;) ) )" "m n jj = 1,...,m los obtenemos resolviendo el sistema de ecuaciones

``lnL

=^) ) )j j¸ = 0 ; j =1,2,...,m .

Page 199: Libro Estadistica

199

Se puede probar que si es el EMV de y si g( ) es una función de , uno a) ) ) )s

uno y diferenciable con respecto a , entonces el EMV de g( ) es g( ). Esta es) ) )s

la propiedad conocida como , y es muy importante en inferenciainvarianzaestadística, ya que nos permite determinar EMV de algunas funciones deparámetros (por ejemplo de funciones lineales), en condiciones muy generales.

Ejemplo. Supongamos que x ,....,x corresponden a la realización de n" nensayos Bernoulli independientes con probabilidad de éxito en cada ensayo,)donde x =1 si el i-ésimo ensayo es un éxito y x =0 si es un fracaso. Queremosi ideterminar el estimador máximo verosímil de la probabilidad de éxito .)

La función de verosimilitud de la muestra observada es:

L( ;x ,...,x ) = (1- ) ,) ) )"C C

nn-

donde y = x!n

ii.

œ"

Para encontrar el valor de que maximiza L, notemos que L es igual a cero)para =0 y 1, y es continua para valores entre 0 y 1. Luego podemos encontrar)

el punto máximo haciendo = 0 y resolviendo la ecuación resultante paradL( )d))

). Además, dado que L es una función monótona creciente, ln(L) y L seránmaximizados por el mismo valor de , determinaremos el valor que maximiza)ln(L) (denotado habitualmente como l( ;x)); esto es,-)

l( ;x) = x ln( ) + (n- x )ln(1- ),-) ) )! !i i

cuya derivada es

dl( ;x)/d = x (1/ ) + (n- x )(-1/(1- ))-) ) ) )! !i i

Luego, el valor de que maximiza l( ;x) es la solución de la ecuación:-) )

x / - (n- x )/(1- ) = 0! !i i) )

cuya solución es

= x /n = x)s ! i

que corresponde precisamente a la fracción de éxitos en los n ensayos.

Ejemplo. Supongamos que X ,...,X representan los tiempos de fallas para una" ncierta pieza de un equipo y que los tiempos de vida son exponenciales e

Page 200: Libro Estadistica

200

independientes con parámetro (desconocido). Queremos encontrar el-estimador máximo verosímil para .-

Sean x =(x ,...x los valores observados de X ,...,X . La función de - " "n) nverosimilitud es entonces

L( ;x) = e , x > 0; i = 1,n-- -ni

- x-D i

lnL( ;x) = nln - x .-- - -D i

= dlnL( ;x)-d

n-- - - xD i

Evaluando en = e igualando a cero, tenemos que = - - -s s n 1x xD i

= .

Ejemplo. En el ejemplo anterior vimos que el estimador máximo verosímilpara , el parámetro de una distribución exponencial es =1/X . La propiedad- -s

de invarianza, dice que el estimador máximo verosímil para la media de unaexponencial, = 1/ es = 1/ = X y el estimador máximo verosímil para. - . -s s

P(X > c) es exp(-c/x ) , para c>0 fijo.-

6.7. Propiedades de los Estimadores Puntuales

Hemos estudiado hasta el momento dos métodos para construir estimadores deparámetros (o funciones de parámetros). En muchos casos estos dos métodosconducen a los mismos estimadores, pero también en muchos casosimportantes esto no sucede así. Para la elección entre dos o más estimadorespara el mismo parámetro es importante desarrollar criterios para compararlos.

Consideremos la siguiente situación: Un tirador dispara a un blanco y aciertajusto en el centro de él. Se trata, sin duda, de un excelente disparo. Pregunta:¿Sujetaría Ud. el blanco sobre su cabeza para el siguiente disparo?.Obviamente no podemos establecer la precisión del tirador en base a tanpequeña evidencia muestral. Sin embargo, si éste hace un millón de disparos ytodos ellos aciertan sucesivamente en el blanco, podríamos confiar en lahabilidad del tirador como para sujetar el blanco en un próximo ensayo. La ideaes que no podemos establecer las propiedades de un estimador en base a unsola observación. En lugar de ello, deberíamos observar los resultados delprocedimiento un gran número de veces y construir distribuciones defrecuencia de los valores obtenidos para el estimador, considerando variasobservaciones. De la distribución del estimador podemos observar que tancerca del parámetro de interés se agrupan los distintos valores.

Page 201: Libro Estadistica

201

Siguiendo el razonamiento anterior, nos interesa entonces establecer algunoscriterios bajo los cuales la calidad de un estimador puede ser evaluada. Estoscriterios definen, en general, propiedades deseables de los estimadores que nossirven para compararlos.

Supongamos que deseamos especificar un estimador puntual de un parámetropoblacional . El valor estimado de se indica por el símbolo . Con el) ) )s

ejemplo anterior es obvio que una de las propiedades deseables sería que ladistribución muestral de los valores estimados estuviera centrada en el valorpoblacional, , como se muestra en la Figura 5.1. En otras palabras,)desearíamos que la media o el valor esperado del estimador sea igual al valordel parámetro; esto es, deseamos que E( ) = . Los estimadores puntuales que) )s

poseen esta propiedad se llaman estimadores insesgados.

Definición. Sea un estimador puntual de un parámetro . Se dice que es) ) )s s

insesgado si y sólo si (ssi.) E( ) = para todo . En caso contrario se dice que ) ) ) )s s

es sesgado.

En otras palabras, con esto esperamos que "en promedio" sea cercano al)s

verdadero valor del parámetro.

Definición. sesgo El B de un estimador puntual está dado por la expresión B)s

= E( ) .) )s

De acuerdo a lo que hemos visto hasta aquí, si utilizamos X y S como #

estimadores de la media poblacional y la varianza poblacional , éstos. 5#

serían insesgados. Ahora, si usamos = (X X ) como estimador de la5 Ds # #1

n i

varianza encontramos que su media es , y por tanto sería un n 1n 5 5 5# # #Á s

estimador sesgado de . Parece natural que un buen estimador no sólo debe5#

ser tal que su media esté cercana al verdadero valor del parámetro, sino quetambién debería variar poco. Por lo tanto, debemos considerar estadísticos queademás de ser insesgados tengan varianza tan pequeña como sea posible.

Figura 6.1 Figura 6.2 Figura 6.3

Page 202: Libro Estadistica

202

Las Figuras 6.2 y 6.3 muestran dos tipos de distribuciones insesgadas. Esevidente que la representada por Figura 6.3 es preferible pues una menorvarianza implica que en repetidas muestras una mayor fracción de estará)s

"cerca" de . De aquí es fácil concluir que una propiedad deseable de los)estimadores será la de tener una variación tan pequeña como sea posible.

Definición. Sea un estimador insesgado de . Decimos que es un estimador) ) )s s

insesgado de mínima varianza para ,) si para cualquier otro estimadorinsesgado de se tiene que) )‡

Var( ) Var( ), .)̂ ) )Ÿ a‡

Lo anterior nos permite formular la siguiente regla: Dados dos estimadores parael parámetro , y siendo todo el resto de las condiciones equivalentes para)ambos, se elegirá siempre aquel de menor varianza.

Ejemplo. Sabemos que la media muestral X es un estimador insesgado de la

media poblacional. Por lo tanto, X es un estimador insesgado de , parámetro.

de una distribución Normal; de la media de una distribución Poisson( ) y de. .p parámetro de una distribución Bernoulli. Nos interesa averiguar si la calidadde X mejora cuando n crece. E(X ) = que no depende de n; pero V(X ) =

.5#/n decrece cuando n aumenta. Es claro entonces que, basándose en uncriterio de mínima varianza, la calidad de X como estimador de mejora

.cuando n crece.

Una pregunta natural de formular es: basándonos en una muestra fija de tamañon, ¿Podríamos encontrar otro estimador mejor para , distinto de X , en.

términos de insesgamiento y mínima varianza, para estas distribuciones?. Larespuesta está en la desigualdad de Cramer-Rao que proporciona una cotainferior para la varianza de cualquier estimador insesgado del parámetro de unadistribución de probabilidades, bajo condiciones de regularidad que incluyen:

i) El espacio de valores de la variable aleatoria involucrada debe serindependiente del parámetro.

ii) La función de densidad (o función de probabilidad) debe ser una funcióncontinua y diferenciable del parámetro.

Teorema 6.7. (Cramer-Rao). Sea X ,...X una muestra aleatoria de tamaño n" nde una población X con función de densidad (o función de probabilidad) f(x; ),)que depende de un parámetro desconocido, y satisface las condiciones de)

regularidad. Sea = T(X ,....,X ) un estimador insesgado para . Entonces) )s" n

Var( ) )s   1nE ( )˜ ™`

`lnf(x, ))

)2

Page 203: Libro Estadistica

203

Demostración. Desarrollaremos la demostración para el caso en que X es unavariable aleatoria continua. Un resultado análogo se puede establecer cuando Xes discreta.

Dado que X= ( X ,...,X ) es una muestra aleatoria., tenemos que_ " n

f(x ,...x ; ) = f(x ; )...f(x ; )." "n n) ) )

Por otra parte, por la propiedad de insesgamiento de = T(X ,...,X ) y la)̂ 1 ndefinición de valor esperado tenemos

E(T(X ,...,X )) = ;

1 n )

esto es,

= T(x ,...,x ) f(x ; )...f(x ; )dx ...dx (6.1)) ) )(‘n

" " "n n n

Además, sabemos que para i=1,...,n

f(x ; )dx =1 (6.2)(‘

i i)

Diferenciando (6.1) con respecto a , tenemos)

1 = T(x ,...,x ) f(x ; ) f(x ; )...f(x ; )dx ...dx1

f(x ; )( "” •‘n

" " "

œ"

n j n n

n

j j ) )) ) )

`

`

= T(x ,...,x ) lnf(x ; ) f(x ; )...f(x ; )dx ...dx (6.3) ' ” •!‘ )n " " "

œ"

``n j n n

n

j) ) )

Diferenciando (6.2) respecto a tenemos)

0 = f(x ; ) dx , j = 1,n(‘

`

`))j j

que podemos escribir como

0 = lnf(x ; )f(x ; )dx , j=1,n. (6.4)(‘

`

`)) )j j j

Si hacemos Y = lnf(x ; ) obtenemos de (6.4) y (6.3) que!n

jj

œ"

``) )

E(Y) = 0 y E(TY) = 1.

Page 204: Libro Estadistica

204

Además,

Var(Y) = Var lnf(x ; ) !n

jj

œ"

``) )

= Var( lnf(x ; ))!n

jj

œ"

``) )

= E lnf(x ; ) ! ’ “n

jj

œ"

#

``) )

= nE lnf(x ; ) .’ “ ``) j )

#

Por otra parte

Cov(T,Y) = E(TY) pues E(Y) = 0

y por definición de coeficiente de correlación tenemos

3TY = E(TY)5 5T Y

donde = Var (T) y = Var (Y) y es la correlación entre T e . 5 5 3# #] ]T T ]

Entonces

E(TY) = 3 5 5TY T Yo 1= 3 5 5TY T Y

Finalmente, notando que 1, tenemos que3# Ÿ

Var ( ) = Var(T) = .)s   1 1nE( lnf(x; ))5 )

#]

``)

2

Si no es un estimador insesgado de , se puede probar que la cota de Cramer-) )s

Rao está dada por la expresión

.5#s)

 (1+B( )) (1+B( ))

nE( lnf(x; )) I( )) )

) )

s s# #

``)

2 =

Page 205: Libro Estadistica

205

La cantidad I( ) es conocida como o como Número) cantidad de informaciónde información de Fisher o simplemente información de Fisher. De aquí que laCCR también se conoce con el nombre de desigualdad de información.

En la clase de estimadores insesgados, la cota inferior en la desigualdad deinformación es 1/I( ), independientemente del estimador que estemos)considerando.

Bajo supuestos que implican la existencia de las segundas derivadas y elintercambio del orden de ciertas integrales con sus derivadas, la desigualdad deCramer-Rao se puede escribir también como

Var ( ) )s   -1nE{ ln f(X; )/ }` `# #) )

Esta expresión alternativa es más útil para efectos computacionales.

La CCR puede extenderse fácilmente para ciertas transformaciones delparámetro. Específicamente, si = g( ) es una transformación uno a uno y: )diferenciable, entonces:

CCR para Var ( ) = CCR para Var ( ),: )s sŠ ‹dg( )d))

#

donde es un estimador insesgado de .: :s

Dado un estimador insesgado de , la razón de su cota de Cramer-Rao a su) )s

varianza, se llama Notemos que según esta definición, la eficiencia de .)seficiencia de cualquier estimador insesgado es siempre menor o igual que uno.Un estimador insesgado con eficiencia uno se dice eficiente.

Así, con respecto a la pregunta, ¿Es X el mejor estimador para en términos de_

.insesgamiento y mínima varianza?, para responderla consideremos, porejemplo, la función de densidad correspondiente a una población N( , ),. 5#

donde sólo es desconocido. Entonces,.

ln f(X; ) = ln ,. Π12

(X )2È 1 5

.5 #

#

= ``

ln f(X; ) (X- ). .. 5#

y

E = E = 1/ .œ œ Š ‹ Š ‹``

ln f(X; ) X-. .. 5

## #

25

Page 206: Libro Estadistica

206

La CCR establece entonces, que la varianza de cualquier estimador insesgadode es mayor o igual a /n. Como Var(X)= /n, entonces X tiene mínima

_ _. 5 5# #

varianza entre todos los estimadores insesgados para , cuando la población es.normal y sólo es desconocido. Además, X es un estimador eficiente, pues la

_.

razón entre la CCR y la varianza de X es uno._

En algunas situaciones, es deseable obtener estimadores del parámetro deinterés, considerando como criterio la minimización tanto del sesgo, como de lavarianza del estimador. Esto se logra minimizando el promedio de la distanciaal cuadrado entre y el verdadero valor del parámetro. Esta cantidad se) )s

denomina Cuadrado Medio del Error.

Definición. Cuadrado Medio del error El (CME) de un estimador puntual )sse define por

CME( ) = E( - ) .) ) )s s #

Notemos que

CME( ) = E(( E( ) + (E( ) ))) ) ) ) )s s s s #

= E(( - E( )) + (E( )- )) ,) ) ) )s s s# #

dado que los dobles productos se hacen 0. Luego,

CME( ) = Var ( ) + B .) )s s #

Por lo tanto, si es un estimador insesgado del parámetro , entonces) )s

CME( )=Var( ).) )s s

Ejemplo. Sea X , X una muestra aleatoria de tamaño 2 de X con distribución" #

Exponencial de parámetro desconocido. Consideremos a =X y a_

- )s"

) . -s#= X X estimadores de =1/ . En términos del error cuadrático medio, ¿È 1 2

cuál de los dos es mejor?.

El CME( )=Var( )=1/(2 ), por ser X un estimador insesgado de . Ahora,_

) ) - .s s" "

#

CME( ) = Var ( X X ) + (E X X )) .s ##È È1 2 1 2

de donde

Var( X X ) = E(X X ) - E( X )E( X ).È È È1 2 1 2 1 2

Page 207: Libro Estadistica

207

.

Caculemos E( X) con X exponencial de parámetro .È -

E( X) = x e dx = = ( / ) /2(3/2)È ( _

" # " #" #

!

/ - x //- 1 -

>

--

Por lo tanto

Var( X X ) = 1/ - /(16 ) = È 1 2 - 1 -# # # 16-161-

#

#

y

B( X X ) = ((1/4) ( / ) - 1/ ) = È Š ‹1 2 1 - - ##

1--4

4

De aquí, el Error Cuadrático Medio de está dado por)s#

CME( ) = )s#4-21-# .

Como 4- < 1 tenemos EMC( ) < EMC( ) y, de acuerdo a este criterio, es1 ) ) )s s s# " #

preferido a .)s1

Otra propiedad adicional que un estimador puede tener es la propiedad deconsistencia. Esta es una propiedad asintótica o de muestras grandes, ya quedescribe una propiedad límite de la distribución de probabilidades delestimador, cuando el tamaño de la muestra n aumenta.

Supongamos que lanzamos una moneda n veces, con probabilidad p de obtenercara en cada ensayo. Si los lanzamientos son independientes, y definimos lavariable aleatoria Y como el número de caras en los n lanzamientos, entoncesY tiene distribución Binomial. Si el verdadero valor de p es desconocido, laproporción muestral p=Y/n es un estimador insesgado de p. ¿Qué pasa a esta^proporción muestral si aumenta el número n de lanzamientos?. Intuitivamentediremos que a medida que n aumenta, Y/n se acercará al verdadero valor de p.Como Y/n es una variable aleatoria, esta cercanía a p en términosprobabilísticos la cuantificamos mediante la expresión P(|Y/n-p|< ) para un%valor arbitrario >0. Esta probabilidad será cercana a 1 si nuestra intuición es%correcta.

Definición consistente. El estimador se dice para si, para cualquier >0, se) ) %sntiene que

lim (P| - | < ) = 1,n Ä _s) ) %n

o equivalentemente

Page 208: Libro Estadistica

208

lim P(| - | > ) = 0 .n Ä _s) ) %n

Notemos que, de la desigualdad de Chebyshev

P(| - |> ) = ) )s − ŸnE( - ) CME( )) ) )

% %

s sn n#

# #

de donde se sigue que si el CME( ) tiende a cero cuando n tiende a infinito;)snesto es, tanto la varianza como el sesgo de tienden a cero cuando n tiende a)sninfinito, entonces es un estimador consistente de .) )sn

Teorema 6.8 . Un estimador insesgado de es consistente si) )sn

lim Var( ) = 0.n Ä _s)n

Ejemplo. Sea X ,...,X una muestra aleatoria de una población con distribución" nde probabilidades con media y varianza < . Verifiquemos que X es un

_. 5# _

estimador consistente de ..

Sabemos que E(X)= y Var(X)= /n. Dado que X es un estimador insesgado_ _ _

. 5#

para , y como Var(X) 0, cuando n crece, el teorema anterior se aplica_

. pdirectamente.

Equivalentemente se puede decir que X converge en probabilidad a . Este_

.hecho es también conocido como la Ley de los Grandes Números.

Hasta el momento hemos utilizado la información contenida en una muestra detamaño n para calcular el valor de estadísticos de interés, como por ejemplo X

_

y S . Debemos preguntarnos, sin embargo, si este proceso de condensación de#

la información ha retenido toda la información disponible acerca de y , o. 5#

bien, si se ha perdido alguna información acerca de los parámetrospoblacionales durante el proceso de reducción de los datos.

En consideración a la pregunta anterior, debemos buscar estadísticos queresuman toda la información contenida en la muestra acerca del parámetrodesconocido de interés. Tales estadísticos se dice que tienen la propiedad desuficiencia o más simplemente son llamados estadísticos suficientes.

Un estadístico T(X ,...,X ) se dice suficiente si utiliza toda la información de" nuna muestra relevante a la estimación del parámetro poblacional ; esto es, si)todo el conocimiento que podemos obtener acerca de especificando los)valores observados de X = (X ,...,X ), también puede ser obtenido observando" nel valor del estadístico T(X)._

Page 209: Libro Estadistica

209

Definición. Sea X ,...,X una muestra aleatoria de una distribución de" nprobabilidades con parámetro desconocido . T = T(X ,...,X ) es un estadístico) " nsuficiente para , si y sólo si (ssi), la distribución condicional de (X ,...,X )) " ndado T=t, para todo valor de t, es independiente de .)

Ejemplo. Consideremos los resultados observados de n ensayos Bernoulliindependientes X ,...,X , donde X =1 con probabilidad p y es 0 con" n i

probabilidad 1 p. Sea T = X = N° de éxitos en los n ensayos. Si !i=1

ni

conocemos el valor de T, ¿Podemos ganar información adicional acerca de p,observando otras funciones de X ,...,X ?." n

Una manera de responder es observar la distribución condicional de X ,...,X" ndado T=t; esto es:

P(X =x ,...,X =x |T=t) = P(X =x ,...,X =x , T=t) P(T=t)" " " "n n n n = P(X =x ,...,X =x ) P(T=t)" " n n = p (1-p) } p (1-p)t n-t t n-tn

tˆ ‰

= 1 .ˆ ‰nt

Como esta probabilidad condicional no depende de p, podemos concluir queuna vez conocido T, ninguna otra función de X ,...,X proporciona información" nadicional sobre el posible valor de p. En este sentido, T contiene la informaciónrelativa a p y, por tanto, es un estadístico suficiente para p.

La definición anterior, no nos permite en forma directa la obtención de unestadístico suficiente para un parámetro . El siguiente teorema nos)proporciona un criterio para obtener facilmente estadísticos suficientes.

Teorema 6.9. (de Factorización de Fisher) Sea T(X), un estadístico basado en_la muestra aleatoria X=(X ,...,X ). T(X) es un estadístico suficiente para si y_ _" n )solo si, la densidad conjunta de X (la función de verosimilitud L( ,x)), puede_ )ser factorizada en dos funciones no negativas, de la forma

L( , x) = g(T(x), ) h(X),_ _) )

donde g es una función sólo de T y , y h no es función de .) )

Ejemplo. Sea X ,...,X una muestra aleatoria de una población con distribución" nexponencial con media ; esto es, X posee función de densidad- i

Page 210: Libro Estadistica

210

f( ; x ) = 1/ exp(-x / ), x > 0, i=1,n) - -3 3 3

La función de verosimilitud de la muestra es la densidad conjunta

L = f( ; x ,...,x ) = f ( ; x ) f( ; x )...f( ; x )- - - -" " #n n

= [exp(-x / )] ... [exp(-x / )]" - - - - n

= [exp(- x / ] ! n n3œ" 3 - -

= [exp (-nx/ )] ._- - n

Como L es una función que depende sólo de y x, aplicando el teorema de_

-factorización con g( , x) = [exp(-nx/ )] y h(x) = 1, podemos concluir que

_ _ _- - - n

X es un estimador suficiente para . Notemos también que X es otro_

- ! 4

estadístico suficiente para .-

Ejemplo. Sea X ,...,X es una muestra aleatoria de una distribución uniforme" nen (0, ) y determinemos un estadístico suficiente para .) )

La función de verosimilitud de la muestra aleatoria es

L( , x) = (1/ ) , x (0, ) para todo i=1,...,n_) ) )n3 −

lo que es equivalente a escribir

L( , x) = (1/ ) , para x < ; donde x = máx (x , x ,...,x )._) ) )nn n nÐ Ñ Ð Ñ " #

Así, tenemos la factorización

L( , x) = (1/ ) I (x ) = g( , X ),_) ) )nn nÐ!ß Ñ Ð Ñ Ð Ñ)

donde

I (x) =A š 1 si x A0 si x A

−Â

es la función indicadora de un conjunto A. Por lo tanto, aplicando el teorema defactorización con h(x)=1, un estadístico suficiente para es T(X ,...,X ) = X .) " Ð Ñn n

6.8. Estimación por Intervalos

Hasta aquí, hemos revisado las propiedades de estimadores puntuales de losparámetros de una distribución poblacional de probabilidades. Proporcionar un

Page 211: Libro Estadistica

211

buen estimador, T(X), del parámetro o función del parámetro, , no es)suficiente, ya que debemos de alguna manera dar cierta idea de laincertidumbre de la estimación, la que puede ser producto, por ejemplo, de laselección de la muestra. Para esto incorporamos el concepto de precisión o deerror del estimador.

Usualmente los investigadores proporcionan como estimación de un parámetrodesconocido a T(X) + , donde generalmente es el error cuadrático medio_) % %de T o una estimación de él. Sin embargo, también hay dificultades al reportar,por ejemplo que =2+0.01, ya que a pesar que T(X) sea un estimador insesgado_)y sea exactamente la desviación estándar de T(X), no tenemos seguridad que%las cotas T+ y T incluyan a . En realidad, en la mayoría de los problemas,% % )se tiene una probabilidad positiva que [T(X) , T(X)+ ] no incluya a , para % % )cualquier dado. Ilustremos esta idea en el ejemplo siguiente%

Ejemplo. Sea X ,...,X una muestra aleatoria de una población N( , ) con "# #

n ) 5 5conocida. Nuestro interés es estimar , la media de la población normal. Como)el estimador natural a usar es X y su desviación estándar es / n los

_5 È

investigadores establecerán que = X+ / n._

_) 5 ÈPodemos calcular la probabilidad que estas cotas, X+ , no incluyan a como

__% )

sigue

P(|X |> ) = P | | > = P(|Z|> )_ ) % Œ Èn (X- )

_)

5

% %

5 5

È Èn n

= P(Z> ) + P(Z < )% %

5 5

È Èn n

= (- ) + (1- ( ))F F% %

5 5

È Èn n

= 2 (- ) > 0F%

5

Èn

cualquiera sea y n, donde indica la función de distribución de la normal% Festándar.

Si elegimos o n suficientemente grande, esta probabilidad puede hacerse más%pequeña que cualquier número positivo. Si hacemos = / n, por ejemplo,% 5 Ètenemos de las tablas normales que P(|X- |> / n) = 0.32, un número no muy

_) 5 È

pequeño para ser desechado.

Esta ilustración nos sugiere que en lugar de elegir igual a la desviación%estándar de nuestro estimador, debemos elegir un número , y después!preocuparnos de elegir (o y n) suficientemente grande, de manera de tener% %

Page 212: Libro Estadistica

212

P(|X- |> ) = 2 ( ) = _) % F !

%

5

Èn

y, finalmente, afirmar que está entre X y X+ . Equivalentemente,_ _

) % %podemos escribir,

P(X X+ ) = 1 P(|X- |> ) = 1_ _ _ Ÿ Ÿ % ) % ) % !

y afirmar con una confianza del (1- ) 100% que el intervalo aleatorio [X ,_

! %X ] incluye al verdadero valor del parámetro ._ % )

Lo anterior nos lleva, en la situación general, a buscar un par de estadísticos,T (X) y T (X), tal queI S

P(T (X) T (X)) = 1-I SŸ Ÿ) !

para un preasignado.!

En algunas ocasiones, particularmente cuando se trabaja con distribucionesdiscretas, no podemos encontrar intervalos (T ,T ) razonables tales queI SP(T (X) T (X)) sea exactamente igual a 1 , para un fijo.I SŸ Ÿ ) ! !

Definición. El intervalo aleatorio de extremos (T ,T ) formado por losI Sestadísticos T y T , con T Y , es un intervalo del (1- ) 100% de confianzaI S I SŸ !para , si para todo ) )

P(T (X) T (X)) 1 (6.5)I SŸ Ÿ   ) !

Los extremos T y T se llaman límite de confianza inferior y superior,I Srespectivamente. 1- se llama nivel de confianza.!

Es posible también, obtener cotas de confianza (1- ) 100% para , tales que! )

P(T ) 1 o bién P( T ) 1 ,I SŸ   Ÿ   ) ! ) !

donde T y T son estadísticos que conforman una cota superior e inferior paraS I), respectivamente.

Dado que la amplitud L=T T es una variable aleatoria, podemos pensar enS Ielegir intervalos de longitud esperada mínima como un buen criterio de calidad.Desafortunadamente, pueden no existir estadísticos T y T que generen unI Sintervalo de longitud esperada para todos los posibles valores de . Se puede)probar que si un intervalo de amplitud mínima existe, él puede obtenerseutilizando funciones de estadísticos suficientes como límites de confianza.

Page 213: Libro Estadistica

213

Ejemplo. Claramente, el intervalo (X-z / n ; X + z / n ) es un_ _

" "- -! !" #5 5È È

intervalo de confianza a nivel 1 ( + ), para la media de una población ! !" #

normal con varianza , ya que satisface (6.5) con = + . Mostremos que el5 ! ! !2" #

intervalo más estrecho a nivel 1- de la forma!

(X z / n ; X+z / n)_ _ " "- -! !" #

5 5È Èse obtiene considerando = = /2. En efecto, la longitud (esperada) del! ! !" #

intervalo es

L= (z + z )5Èn " "- -! !" #

que, bajo la condición = + , pasa a ser! ! !" #

L= (z + z ).5Èn " "-( - ) -! ! !# #

Así, debemos encontrar de manera de minimizar L, lo que es equivalente a!#

minimizar

f( ) = z + z!# 1- + 1-! ! !2 2

= (1- + )+ (1- ),F ! ! F !- -" "# #

con (t ) = P(Z t ) = , ( ) = t y Z es la normal estándar.F ! F !! ! !Ÿ -"

Derivando la función f respecto de tenemos!2

f ( ) =w#! ,1 1

( (1 - + )) ( (1- ))_

: F ! ! : F !- -" "# #

donde es la función de densidad normal estándar.:

Igualando a cero la derivada obtenemos

( (1- + )) = ( (1- ));: F ! ! : F !-1 -12 2

o bien, (x) = (y),: :

donde x = (1- + ) e y = (1- )F ! ! F ! -1 -12 2

cuya solución es x = y, ya que es una función par. Luego tenemos que:F ! ! F ! ! ! ! -1 -1

2 2 2 2(1- + ) = (1- ) que es equivalente a 1- + =1- , de donde setiene que = /2 y luego = = /2.Por lo tanto, el intervalo de confianza! ! ! ! !2 1 2más estrecho a nivel 1- para la media de una población normal es!

Page 214: Libro Estadistica

214

(X z / n ; X+z / n) (6.6)_ _ " "- -! !/2 /25 5È È

Un método muy útil para encontrar intervalos de confianza es el Método delPivote, Pivote, que consiste en determinar una cantidad, llamada que posee lassiguientes dos características: es una función de las medidas muestrales y delparámetro ; y tiene una distribución de probabilidades conocida ( tabulada))que no depende del parámetro .)

A continuación veremos ejemplos de uso de un pivote para construir intervalosde confianza a nivel (1- ) para distintos parámetros de interés.!

6.9. Intervalos de Confianza para la media en poblaciones N( ,, ). 5#

con conocida5#

Consideremos una muestra aleatoria X ,...,X de una población X, con" ndistribución normal. Como ya probamos en el Teorema 6.2, X se distribuye

_

N( , /n). Si definimos. 5#

P(Z< z ) = 1- /2" #- /! !y P(-z < Z < z ) = 1- ." # " #- / - /! ! !

De aquí obtenemos

P(-z < n (X - )/ < z ) = 1- ,_

" # " #- / - /! !È . 5 !

lo que es equivalente a

P(X-z < < X+z ) = 1- ._ _

" # " #- / - /n n! !5 5È È. !

Así, los límites de confianza para son.

X + z _

_ " #- / n!5È

que coinciden con el obtenido en (6.6).

Este resultado podemos emplearlo también en el caso no normal, para estimarmedias, si el tamaño muestral es suficientemente grande como para justificar laaplicación del Teorema del Límite Central.

Page 215: Libro Estadistica

215

Notemos también que el intervalo de confianza es una función de X; por lo que_

variará con la muestra. Por otra parte, la amplitud del intervalo es sólo funcióndel tamaño muestral n, siendo inversamente proporcional a n.ÈUn problema que surge de inmediato es ¿Cuál es el tamaño mínimo de lamuestra para lograr un determinado grado de precisión en la estimación de ?..Esta pregunta la respondemos en la sección que sigue.

6.10. Determinación del tamaño de muestra

Hasta aquí hemos calculado los intervalos de confianza basándonos en elsupuesto de que se conoce el tamaño muestral n. Sin embargo, en muchassituaciones prácticas el tamaño muestral óptimo es desconocido. En tales casoses posible calcular dicho tamaño óptimo, siempre que podamos responder a laspreguntas: ¿Qué nivel de confianza deseamos?, y ¿Cuál es la diferenciamáxima, , que podemos aceptar entre la estimación puntual del parámetro%poblacional y el verdadero valor de dicho parámetro?.

Así, si representa el máximo error que podemos tolerar al estimar el%

parámetro poblacional mediante , la magnitud del máximo error permisible) )s

al estimar mediante la definimos como) )s

| - | = | - | .) ) ) ) %s s Ÿ

Entonces, el grado de precisión depende tanto de como de 1- , el grado de% !confianza de que el error no exceda al máximo error permisible.

En general el tamaño de la muestra se obtiene de la expresión:

z ,5 %)s " #- /! Ÿ

donde z queda determinado por el grado de confianza 1- ." #- /! !

Para nuestro último ejemplo tenemos:

= z Var (X) = z % " # " #- / - / n! !È 5Ède donde el tamaño muestral debe ser al menos z / , cuando la varianza1- /2!

# # #5 %es conocida; esto es,

n z / .  1- /2!# # #5 %

Page 216: Libro Estadistica

216

Si en particular deseamos el promedio diario de rendimiento de un proceso.de producción de un producto químico y deseamos además que con unaprobabilidad .95, el error de estimación no sea mayor que 5 toneladas.Entonces, dado que si repetimos las muestras un gran número de veces,aproximadamente el 95% de las medias muestrales estará entre 2 de , lo5 .X

_

que estamos pidiendo es que 2 sea igual a 5 tons., lo que significa que5X _

2 / n = 5. Despejando n obtenemos5 È n 4 /25.  5#

Esto siginfica que para obtener un valor numérico para n, necesitamos conocerel valor poblacional del parámetro . Cuando no se dispone del verdadero5#

valor de , debemos utilizar la mejor aproximación disponible, como por5#

ejemplo su estimador S , obtenido de experiencias previas.#

6.11. Intervalo de Confianza para la media en poblaciones N( , ) con . 5 5# #

desconocida

Sea X ,...,X una muestra aleatoria de una población N( , ). Sabemos que T"#

n . 5= n(X )/S se distribuye t-student con =n-1 grados de libertad, entonces

_È . /

podemos determinar t tal que" #!/

P(-t T t ) = 1- ." # " #- / - /! !Ÿ Ÿ !

De aquí, reemplazando y despejando nos queda.

P(X t S n X + t S n) = 1 - ._ _ Ÿ Ÿ" # " #- / - /! ! È È. !

Así, los límites de confianza son

X + t S n_

_ " #- /! Èy (x-t s/ n ; x + t s/ n)

_ _" # " #- / - /! !È È

es un intervalo del 100(1- )% para , si x y s son los valores observados de X_ _

! .y S, respectivamente.

6.12. Intervalos de Confianza para 5#

Recordemos aquí que es un número que cuantifica la cantidad de5#

variabilidad de la población. Este valor es generalmente estimado a partir de laexpresión

Page 217: Libro Estadistica

217

S = (X -X) /(n-1)_

# #3œ" 3!n

que es un estimador insesgado de . Además de necesitar información acerca5#

de , para calcular intervalos de confianza para la media , podríamos estar5 .#

interesados en obtener intervalos de confianza para propiamente tal; esto es,5#

por ejemplo, la estimación de la cantidad de variación en un proceso deproducción de ciertas unidades.

Como ya hemos mencionado, debemos empezar por definir un pivote.Supongamos una vez más, que disponemos de una muestra aleatoria X ,...,X" nde una distribución normal con media y varianza , ambas desconocidas.. 5#

Recordemos también que

[(X -X) ] = [(n-1) S ] ,_! n

3œ" 3# # # #5 5

tiene distribución con (n-1) grados de libertad. Podemos ahora, usando el;#

método del pivote, proceder a encontrar dos cantidades y , tales que; ;# ## " #! !/ - /

P[ (n-1)S / )] = 1 - .; 5 ; !# # # ## " #! !/ - /Ÿ Ÿ

para un nivel de confianza 1 - .!

Debido a la asimetría de la distribución, nos preocupamos de encontrar lospuntos que definen igual área en las colas.

Si reordenamos los extremos de la desigualdad en la expresión probabilísticaanterior, se tiene,

P[(n-1)S / (n-1)S / ] = 1 - .# # # # ## #; 5 ; !1- / /! !Ÿ Ÿ

Luego, [(n-1) s / ; (n-1) s / ] es un intervalo de confianza del# # # ## #; ;1- / /! !

100(1 )% para la varianza de una población normal con media desconocida. !

Ejemplo. Un investigador desea verificar la variabilidad de un equipo diseñadopara medir el volumen de una fuente de ruido. Utilizando este equipo, seobtienen tres mediciones independientes del mismo sonido, ellas son: 4.1, 5.2 y10.2. Se pide estimar con un nivel de confianza de .90.5#

Asumiendo normalidad, tenemos que s =10.57. Considerando /2=0.05 y (n-# !1)=2 grados de libertad, se obtienen los valores de tabla = 0.103 y;#

Þ!&

;#Þ*&=5.991. Por lo tanto, el intervalo de confianza para la varianza poblacional

5# es (3.53; 205.24).

Page 218: Libro Estadistica

218

Nótese que este intervalo es muy amplio, la razón de esta amplitud es elpequeño tamaño de n.

6.13. Intervalo de Confianza para una Proporción

Supongamos que deseamos construir un intervalo de confianza para elparámetro p, la probabilidad de éxito, de una distribución Bernoulli. Sidisponemos de una muestra aleatoria, X ,...,X , sabemos que X es un estimador

_" n

insesgado de p, y si n es grande

X N(p, ),_

µpqn

de donde

Z = N(0, 1) cuando n es grande.X - _

np

pq/È µ

Entonces existe Z tal que" #- /!

P(-Z < Z< Z ) = 1 - ," # " #- / - /! ! !

esto es, P(-Z < < Z ) = 1 - " # " #- / - /

X - _

! !p

pq/nÈ !

Notemos que para determinar los límites de confianza para p, necesitamosresolver para p la ecuación

Z ,|X - |_

- / p

p(1-p)/nÈ Ÿ " #!

lo que es equivalente a:

(X- p) Z _

# #" #Ÿ - /!

p(1-p)n

o bien p (1+ ) - p(2X + ) + X 0,

_ _# #Z

n nZ#

" # " #- / - /! ! Ÿ

que es una parábola, cuyas raíces definen el intervalo dentro del cual laparábola es negativa. Resolviendo la ecuación cuadrática tenemos

(X + ) + X(1-X) +

_ _ __

2X + Z /n_

Z Z- / - / - /

2n 4nZ

n

# #" # " # " #! ! !È – —

1/2

- /#" #!

que para n grande y para (1- ) razonable, podemos aproximarlo por!

Page 219: Libro Estadistica

219

X + Z X(1-X)/n ._ _ _

_ " #- / !È

Así, un intervalo de confianza aproximado al 100(1- )% para p está dado por!

x - Z x(1-x)/n ; x + Z x(1-x)/n_ _ _ _ _ _ ‘È È" # " #- / - / ! !

donde x es el valor observado de X._ _

Ejemplo. Supongamos que en una muestra aleatoria de 500 personas en laciudad de Concepción se encontró que 375 no están de acuerdo con losmétodos de eliminación de desechos industriales. Un intervalo de confianza del95% para p, la proporción real de la población penquista que no está deacuerdo con dichos métodos, lo obtenemos como sigue

De la información tenemos que n=500 y x =372/500=0.74 y, para =0.05_

!tenemos de las tablas normales que Z = 1.96. Así, el intervalo del 95% de" #- /!confianza para p, está dado por

(0.74-0.04 , 0.74+0.04) = (0.70 , 0.78).

6.14. Tamaño de Muestra para Proporciones

Notemos que la magnitud del error cometido, cuando utilizamos X como una_

estimación de p, está dada por X.- p . Empleando nuevamente la distribución_¸ ¸

normal, podemos asegurar con probabilidad 1- que la desigualdad!

X.- p z p(1-p)/n_¸ ¸ ÈŸ 1- /2!

se cumplirá; es decir, que el error será a lo sumo z p(1-p)/n.1- /2! ÈReemplazando X por p tenemos que el error máximo de estimación es

_

= z X(1-X)/n._ _

% 1- /2!È

Esta fórmula podemos utilizarla para determinar el tamaño muestral necesariopara alcanzar un grado deseado de precisión. Así, obtenemos

n = p(1-p) ;( )z1- /2!

%2

sin embargo, esta fórmula no podemos utilizarla en forma directa ya que, amenos que tengamos información acerca del posible valor de p. Si no sedispone de esta información se puede utilizar un criterio de varianza máxima ya

Page 220: Libro Estadistica

220

que p(1-p) corresponde a la varianza de la poblacion Bernoulli considerada.Así, considerando el hecho que p(1-p) es a lo sumo 1/4, lo cual ocurre cuandop=1/2, tenemos que con el tamaño de muestra mínimo

n = 14

2( )z1- /2!

%

podemos asegurar con una probabilidad de al menos 1- que el error al estimar!p por X no excede a ; una vez obtenidos los datos, podremos asegurar con una

_%

confianza de al menos un 100(1- )% que el error no sobrepasa .! %

Ejemplo. Supongamos que deseamos estimar la proporción real de unidadesdefectuosas en un cargamento grande de ladrillos y que se se requiere unaconfianza del 95% de que el error en la estimación sea a lo sumo de 0.04. ¿Dequé tamaño debe ser la muestra si: a) no se tiene idea acerca de la proporciónmuestral; b) se sabe que la proporción real no excede a 0.12?.

Si no se tiene idea acerca de cómo podría ser la proporción muestral entoncesusamos la segunda fórmula para el tamaño muestral y obtenemos

n = ( ) = 600.251 1.964 0.04

2

lo que indica que el tamaño mínimo debería ser n= 601.

Si sabemos que la proporción real no excede a 0.12, entonces tomamos p=0.12,y aplicando la primera fórmula para el tamaño de muestra obtenemos

n = (0.12)(0.88) 253.55( ) = 1.960.04

2

o n=254, redondeando al entero más cercano.

Este ejemplo ilustra la importancia de disponer de alguna información auxiliaracerca de la magnitud posible de p, ya que ello reduce en gran medida eltamaño de la muestra requerida.

6.15. Intervalos de Confianza basados en dos muestras

En todo lo visto anteriormente en este capítulo de estimación, hemosconsiderado una muestra aleatoria de tamaño n de una sola población y hemosestado interesados en hacer inferencias sobre los parámetros, desconocidos,involucrados en su distribución de probabilidades. En muchos casos interesarealizar comparaciones de los parámetros de dos o más poblaciones. Así, porejemplo, si tenemos dos tipos de autos de precios similares A y B y queremoscomparar sus rendimientos (km/lt), entonces si X es la variable. asociada al

Page 221: Libro Estadistica

221

rendimiento de los autos tipo A, con X N( , )) e Y es la variable asociadaµ . 5"#"

al rendimiento del auto tipo B, con Y N( , ), podríamos estar interesadosµ . 5"##

en estimar , la diferencia entre los rendimientos medios de los dos tipos. ." #de autos. Podríamos, además, comparar las varianzas de sus rendimientos apartir del cuociente / .5 5# #

" #

Consideraremos ahora por lo tanto, problemas que involucren dos muestrasaleatorias, independientes, que provienen de dos poblaciones distintas.

Sea X = (X ,...,X ) una muestra aleatoria de una población X con distribución_ " n"

de probabilidad que depende de un parámetro desconocido y sea Y =_)"(Y ,...,Y ) una muestra aleatoria, independiente de la anterior, de una" n#

población Y, cuya distribución de probabilidades depende de un parámetrodesconocido . La independencia de las dos muestras implica que la función)#de verosimilitud para las n +n , la muestra conjunta, es" #

L ( , ) = L ( ) L ( )X Y X Y_ _ _ _ß " # " #) ) ) )

Luego los valores de y que maximicen la función de verosimilitud) )" #

conjunta L ( , ) son los mismos valores que maximizan a las funcionesX Y_ _ß " #) )

de verosimilitud L ( ) y L ( ). Así, si maximiza a L ( ) y X Y X_ _ _) ) ) ) )" # " " #s s

maximiza a L ( ) entonces L ( , ) es el valor máximo de la función deY X Y_ _ _) ) )# ß " #s s

verosimilitud conjunta. Por lo tanto, los estimadores máximo verosímil parauna función g( , ) de los parámetros de las dos distribuciones de) )" #

probabilidades es g( , ). Así, por ejemplo, el estimador máximo verosímil) )s s" #

de es X Y._ _

. ." #

6.16. Intervalos de Confianza para Diferencia de Medias

Consideremos dos muestras aleatorias independientes X e Y de tamaños n y_ 1n respectivamente, provenientes de dos poblaciones normales con medias ,2 1.. 5 52 y varianzas , , respectivamente, donde las varianzas son conocidas. El# #

" #

estadístico natural para estimar la diferencia de medias en las poblaciones esX Y y, como sabemos, la distribución de este estadístico es_ _

X Y N[ , ( /n + /n )]_ _ µ . . 5 5" # " #

# #" #

y Z= N(0,1)X Y - ( - )

_ _

/n + /n . .

5 5

1 2É # #" " ##

µ

es el pivote que debemos considerar. De aquí, el intervalo de confianza del100(1- )% para está dado por! . ." #

Page 222: Libro Estadistica

222

(X Y) + Z ( /n + /n ) ._ _

_ " # " ## # " #" #- /

/! 5 5

Cuando y son desconocidas, pero los tamaños de muestra n y n son5 5# #" # " #

suficientemente grandes, reemplazamos dichas varianzas por suscorrespondientes estimadores S y S . Enseguida se procede como en el caso# #

" #

en que las varianzas son conocidas.

Ahora bien, cuando y son desconocidas, pero los tamaños de muestra n5 5# #" # "

y n son pequeños, la obtención de la distribución del pivote no es directa, a#

menos que las varianza de las dos poblaciones normales sean iguales. En estecaso, si = = , entonces5 5 5# # #

" #

Z = N(0, 1)X - Y -_ _

( - ) 1/n + 1/n

. .

5" #

" #È µ

Podemos verificar fácilmente que, un estimador máximo verosímil para lavarianza común de ambas poblaciones es5#

= 5s#! !n n1

i2

3œ" 3œ"3# #

" #

(X - X) + (Y -Y)_ -

n + n

y que

S = #:

! !n n3œ" 3 3

# ##3œ"

" #

(X -X) + (Y -Y)_ _

n + n - 2

= (n -1) S + (n -1) Sn +n -2

" ## #" #

" #

es un estimador insesgado de . Además,5#

U = ,"#Ð "

(n -1)S"#"

#5 µ ; n - )"

y

U = ,##Ð "

(n -1)S###

#5µ ; n - )#

de donde por Teorema 4.8.

U = U + U = ." ##Ð #

(n -1)S (n -1)S"#" #

# ##

#

5 5 + µ ; n +n - )" #

Se puede probar que Z y U son variables aleatorias independientes, por lo que

Page 223: Libro Estadistica

223

T = = tZ)

X - Y -_ _

n n -2 .È ÈU/(n +n -2 ( - )

S 1/n + 1/n" #

" #

: " #

. .µ Ð Ñ" #

que el pivote que utilizamos en la construcción del intervalo. Por lo tanto, elintervalo de confianza del 100(1- )% viene dado por!

(X-Y) + t S (1/n +1/n ) ._ _

_ " # : " #"Î#

- /!

Ejemplo. Se realiza un estudio para comparar los contenidos de nicotina de dosmarcas de cigarrillo. 10 cigarrillos de la marca A dieron un contenido promedioen nicotina de 3.1 mlgr., con una desviación estándar de 0.5 mlgr., mientras que8 cigarrillos de la marca B dieron un contenido promedio de nicotina de 2.7mlgr., con una desviación estándar de 0.7.

Suponiendo que estos dos conjuntos de datos son muestras aleatoriasprovenientes de dos poblaciones normales con varianzas iguales, estamosinteresados en construir un intervalo del 95% para la verdadera diferencia en elcontenido medio de nicotina de las dos marcas.

Para = 0.05 encontramos en la tabla correspondiente a la distribución t-!student, con n +n -2 = 16 gl que t = 2.12. Por otra parte, el valor de S está" # !Þ*& :

dado por

S = ((9x0.25 + 7x10.49)/16) = .596,:" #/

Por lo tanto un intervalo del 95% de confianza es: (-0.20, 1.00).

Ahora, como la diferencia real podría así ser cero, no podemos concluir en basea este análisis que existe una diferencia real en los contenidos de nicotina en lasdos marcas.

6.17. Intervalos de confianza para la razón de varianzas de dos poblaciones Normales

El ejemplo anterior fue resuelto bajo el supuesto que / = 1. Sin este5 5# #" #

supuesto no habríamos tenido un procedimiento sencillo para determinar loslímites de confianza de un intervalo para - .. ." #

Una forma de chequear la igualdad de varianza es a través de la construcciónde intervalos de confianza del 100(1- )% para / . Para ello consideremos! 5 5# #

" #

dos muestras aleatorias independientes X ,...,X y Y ,...,Y provenientes de" "n n , " #

dos poblaciones normales con medias y varianzas desconocidas.

Page 224: Libro Estadistica

224

Sabemos que U = (n -1)S / y U = (n -1)S / son variables aleatorias" " # ## # # #" " # #5 5

independientes con distribución chi cuadrado con n -1 y n -2 grados de" #

libertad, respectivamente. Luego el cuociente

U /(n -1)U /(n -1)

S S

" "

# #

# #" ## ## "

= 5

5

se distribuye F con (n -1) gados de libertad en el numerador y (n -1) grados" #

de libertad en el denominador. Entonces, utilizando este pivote, si f y f! !/ - /# " #

son los correspondientes percentiles de esta distribución tenemos que

P f f = 1-Œ ! !Î# " Î#Ÿ Ÿ S S

# #" ## ## "

5

5 - !

de donde

P f f = 1-ΠS SS S

# # ## # ## # #" " "

! !Î# " Î#Ÿ Ÿ5

5 - !

Por lo tanto f ; f es un intervalo del 100(1- )% deΠS SS S

# ## ## #" "

! !/ - /# " # !

confianza para / .5 5# ## "

Ejemplo. Considerando nuevamente el ejemplo anterior, tenemos que n =10,"

n =8, s =0.5, s =0.7. Para 1- =0.95, de las tablas de la distribución F con 9 y# " # !7 g.l. obtenemos:

f = /f (7,9) = 1/4.2 = 0.238!Þ!#& !Þ*(&"y f (9,7) = 4.82,!Þ*(&

de donde (0.33; 6.7) es un intervalo del 95% para / .5 5# #

# "

6.18. Intervalos de Confianza para Diferencia de Proporciones

Supongamos que X ,...,X es una muestra aleatoria de una población Bernoulli" n"

con parámetro p , y Y ,...,Y una muestra aleatoria independiente, de otra" " n#

población Bernoulli de parámetro p . Como vimos, los estimadores máximos#

verosímiles para p y p son X y Y respectivamente, y para n y n_ _

" # " #

suficientemente grandes sabemos que X e Y tienen distribución_ _

aproximadamente normal. Así, la diferencia X Y se distribuye_ _

Page 225: Libro Estadistica

225

aproximadamente normal con media p p y varianza p q /n + p q /n . La" # " " " # # #varianza de p p la podemos estimar por X(1 X)/n + Y(1 y)/n . De

_ _ _ _" # " #

manera que

Z = N(0,1)X-Y- (p -p )_ _

+ " # ‘X(1-X) Y(1-Y)

_ _ _ _

n n1/2

" #

µ

en forma aproximada y es un pivote adecuado para determinar un intervalo deconfianza del 100(1- )% para la diferencia de proporciones p -p . Por lo tanto! " #

P(-z z ) = 1-" # " #- / - /! !Ÿ ŸX-Y- (p -p )_ _

+ " # ‘X(1-X) Y(1-Y)

_ _ _ _

n n1/2

" #

!

nos conduce al intervalo aproximado del 100(1- )% para la p p . Este está! " #dado por

(X Y) + z X(1 X)/n + Y(1 Y)/n ._ _ _ _ _ _

_ " # " #" #

- //

! ‘

Ejemplo. Supongamos que un fabricante necesita cierta pieza que puede serproporcionada por dos abastecedores A y B, a un mismo precio. Las piezas deA son defectuosas con probabilidad p y las de B con probabilidad p ." #

Supongamos además que de n =100 piezas del proveedor A se encontraron 10"

piezas defectuosas, mientras que de n =150 del proveedor B se encontró 11#

defectuosas. Interesa determinar un intervalo del 90% de confianza para ladiferencia de proporciones de piezas defectuosas de estos dos abastecedores.

De los datos tenemos

p = x = = 0.10, p = y = = 0.06_ _

s s" #10 9

100 150

z = z = 1.64 de la tabla normal estándar" # !Þ*&- /!

Así, 0.10 0.06 + 1.64 ( ) ,_ + (0.10)(0.90) (0.06)(0.94)

100 150" #/

o bien (-0.0186; 0.986),

es un intervalo del 90% de confianza para p -p . Igual que en el penúltimo" #

ejemplo, como este intervalo contiene al cero, no podemos establecer cual es elproveedor con menor proporción de piezas defectuosas.

Page 226: Libro Estadistica

226

EJERCICIOS

1. Sea X y X una muestra aleatoria de tamaño 2 proveniente de una población" #

X con media y varianza .. 5#

a) Si disponemos de dos estimadores para : =X=(X +X )/2 y. .s" " #

=(X +2X )/3. ¿Cuál de los dos es mejor?..s# " #

b) Para un estimador de la forma = aX +(1-a)X , con 0 a 1..s Ÿ Ÿ" #

Determine el valor de a que conduce al mejor estimador en esta forma.

2. Considere una muestra aleatoria X ,...,X extraida desde una población X" 8

con distribución geométrica de la forma f(x,p)=p (1-p), con 0<p<1 y x=0,1,...B

Muestre que la media muestral es un estadístico suficiente para p.

3. Sea X , X , X una muestra aleatoria de una población X con distribución" # $

normal de media y desviación estándar . ¿Cuál es la eficiencia relativa del. 5estimador =(X +X +X )/4 con respecto a X?.-

.s " # $

4. Si X , X , X es una muestra de una población Bernoulli con parámetro ," # $ )muestre que Y=X +2X +X es un estimador suficiente para ." # $ )

5. La función de densidad de probabilidad de una población está dada por:

f(x; ) = 2x/ 0 x0 e.o.c.)

) )œ 2 Ÿ Ÿ

Basándose en una muestra aleatoria de tamaño n:Determine el estimador por momento (EM) y el estimador máximo verosímil(EMV) de . ¿Cuál de los dos es el mejor?.)

6. Dada una muestra aleatoria de tamaño n, extraida de una población condensidad de probabilidad

f(x; , ) = e x> , , >00 e.o.c.

. 5. . ‘ 5 1

5

-(x- ).5 −

Determine los estimadores máximos verosímiles para y .. 5

7. Sea X ,...,X una muestra aleatoria de una distribución Gamma" n(r, ).Encuentre el Estimador Máximo Verosímil (EMV) y el estimador por-Momentos (EM) de , suponiendo que r es conocido. Determine, además, el-EMV para =(2 -1) .) - #

8. Suponga que el crecimiento anual de cierta variedad de pino sigue unadistribución normal con media y varianza desconocida. Para una muestra de 5

Page 227: Libro Estadistica

227

pinos, los siguientes valores (en pies) fueron registrados: 3, 5, 2, 1.5, y 3.5.Determine los estimadores, por el método de los momentos, de y .. 5#

9. Sea X una variable aleatoria Binomial con parámetros n y p, con n conocido.Dada una muestra aleatoria de m observaciones de X, determine el estimadorde p mediante el método de los momentos y por el método de máximaverosimilitud.

10. El tiempo de vida de una componente se supone exponencial con parámetro-. Diez de estas componentes fueron sometidas a prueba en formaindependiente y el único dato registrado fue el número de componentes quehabían fallado antes de 100 horas de operación. Se encontró que 3 habíanfallado antes de las 100 horas. ¿Cuál es el estimador máximo verosímil para ?-

11. Sea X ,...X una muestra aleatoria de una población X con densidad" n

f(x; ) = x ; 0 x 1, >0) ) ))-" Ÿ Ÿ

Determine el Estimador Máximo verosímil de .)

12. Una máquina puede averiarse por dos razones A y B. Se desea estimar laprobabilidad de avería diaria de cada tipo sabiendo que: i) La probabilidad de avería tipo A es el doble que la de B. ii) No existen otros tipos de averías posibles. iii) Se han observado 30 días con los resultados siguientes: 2 averías tipo A, 3 tipo B; 25 días sin averías.

13. Sea X , X una muestra de tamaño dos de una distribución uniforme con" #

densidad

f(x) = 1/ si 0 x0 e.o.c.œ ) )Ÿ Ÿ

Determine la constante c 1 de manera que P(0 < < c(X +X )) = 1- , con  ) !" #

0< < 1 dado.!

14. El consumo de gasolina de cierto tipo de vehículo es aproximadamentenormal con desviación estándar de 6 millas por galón. Si una muestra de 64vehículos tiene un consumo promedio de 16 millas por galón:a) Determine un intervalo de confianza del 95% para el consumo medio de gasolina de todos los vehículos de este tipo.b) Con un 95% de confianza, cuál es el posible error si se considera que el consumo medio es de 16 millas por galón?c) ¿Qué tan grande debe ser la muestra si queremos tener un 95% de seguridad que la media muestral no difiera en más de 0.5 millas por

Page 228: Libro Estadistica

228

galón de la verdadera media?.

15. Supongamos que la variable aleatoria X tiene una distribución Poisson conparámetro . Consideremos además una muestra alatoria de tamaño n.-a) Determine el estimador máximo verosimil de .-b) Determine un intervalo de confianza aproximado, del 95% para .-

16. El tiempo de vida de ciertas válvulas producidas por una industria sigue uandistribución normal. En una muestra aleatoria de 15 válvulas se tienen x=1100

_

hrs. y s=50 hrs.a) Determine un intervalo de confianza del 95% para el tiempo medio de vida de este tipo de válvulas.b) Determine intervalos del 95% unilaterales y bilaterales para su varianza.

17. En determinada empresa manufacturera, durante un proceso de control decalidad, se encontró que 12 de 100 items manufacturados presentaban defectos.a) Encuentre un intervalo de confianza del 99% para la proporción de items defectuosos en el proceso de manufacturación.b) Con un 99% de confianza, ¿cuál es el posible error si la proporción es estimada por 0.12?.

18. La forestal Machitun se dedica a la explotación de la especie Globulus deEucaliptus. Una de sus preocupaciones es estimar la altura promedio de dichosárboles a una edad determinada E , donde se sabe que la desviación estándar de!

las alturas de los árboles en E es 2.5 mts. Para este efecto, se consideró una!

muestra aleatoria de 100 árboles, para los cuales la altura media es 8.0 mts. y ladesviación estándar resultó ser 2.0 mts.a) ¿Cuál es la probabilidad que la media poblacional y la media muestral difieran en una cantidad que no exceda de 0.5 mts?b) Determine un intervalo de confianza del 95% para la verdadera altura media de los árboles?c) Los técnicos desean que la diferencia entre la media muestral y poblacional no exceda de 0.4 mts. con un 95% de seguridad. ¿Fué suficiente la muestra considerada inicialmente?.d) Los técnicos en realidad no están muy seguros acerca del valor exacto de la desviación estándar poblacional. ¿Qué haría usted para sacarlos de esta duda?.

19. Una compañía tiene dos departamentos que produicen idénticos productos.Se sospecha que las producciones por hora son diferentes en los dosdepartamentos. Para averiguar esto se consideran muestras aleatorias de horasde producción que proporcionan la siguiente información:

Depto. 1 n =64 x =100_

Depto. 2 n =49 x =90_1 "

# #

Page 229: Libro Estadistica

229

Se sabe que las varianza de las producciones por hora están dadas por =2565#"

y =196, respectivamente. Hallar los límites de confianza del 95% para5##

D= - , la diferencia verdadera entre las producciones medias de los. ." #

departamentos.

20. Se desea estimar la diferencia entre los salarios semanales de maquinistas ycarpinteros. Se toman dos muestras independientes, cada una de tamaño 100, yse obtiene la siguiente información:

Maquinistas n =100 x =345 s =196_

Carpinteros n =100 x =340 s =204_1 1

2

#"

###

Determinar los límites de confianza del 95% para D= - , si la población se. ." #

distribuye normalmente.

21. Un telar se observa a intervalos de tiempo variable para estimar laproporción de tiempo que se encuentra en estado productivo. Se desea estimaresta proporción dentro de + 0.03 con una confianza del 98%._a) ¿Qué tamaño de muestra mínimo se requiere para asegurar una buena precisión?.b) Si p=0.8, ¿cuál es el tamaño requerido para la muestra?.c) Si p=0.8, ¿cuál es el tamaño de muestra mínimo para estimar la proporción de la población dentro de +/- 0.02 con un 98% de confianza?.

22. Suponga que dispone de dos métodos para medir el contenido de humedaden el proceso de cocción de la carne. El primer método es aplicado en 41ocasiones y se obtienen los datos x =88.6 y s =109.63. El segundo método es

_"

#"

aplicado a una muestra de tamaño 31 obteniéndose x =85.1 y s =65.99._#

##

Determine un intervalo del 99% de confianza para - , cuando se supone. ." #

distribuciones normales con = = .5 5 5# # #" #

23. Supongamos que la longitud de los clavos producidos por una máquinaconstituye una variable aleatoria con distribución normal. Una muestra de 5clavos proporciona la siguiente información en cuanto a longitud (en pulgadas):1.14; 1.14; 1.15; 1.12; 1.10.a) Construir un intervalo de confianza del 99% para la longitud media de los clavos producidos por esta máquina.b) Construir un intervalo de confianza del 90% para la varianza poblacional.

24. La probabilidad que una plancha de Zinc fabricada por una máquina seadeclarada de "segunda clase", a causa de algún defecto, es p (desconocido).a) Determine el estimador máximo verosimil de p, basado en los valores

Page 230: Libro Estadistica

230

observados de una muestra de 1000 planchas fabricadas por esta máquina.b) Si en 1000 planchas seleccionadas al azar en un día de producción se encuentra que 30 son de segunda, determine un intervalo de confianza del 95% para p.c) Determine el número de plancha requerida para asegurar con una confianza de 0.95 que el error en la estimación de la proporción de planchas de segunda clase, no sobrepase de 0.02.

25. En relación al problema anterior, suponga que en la fábrica se seleccionauna muestra de 1000 planchas para inspección cada día de trabajo. Así, paracada día, se puede determinar un intervalo de confianza del 95% para p yentonces, en 260 días de un año de trabajo han sido calculados 260 intervalosde confianza. ¿Cuál es el número esperado de estos intervalos que cubren alverdadero valor de p?. ¿Cuál es la probabilidad (aproximada) que al menos 240de estos intervalos incluyan al verdadero valor de p?.

26. El banco A seleccionó una muestra al azar de 250 personas de entre sus10.000 clientes con cuenta corriente. Al mismo tiempo y en formaindependiente, el banco B seleccionó al azar 200 personas de entre sus 5000clientes con cuenta corriente. El banco A encontró que 89 personas en estamuestra utilizaban regularmente otros servicios del banco, mientras que elbanco B encontró que 52 personas de la muestra utilizaban otros servicios delbanco. Estime la diferencia en la proporción de clientes con cuentas corrientesque regularmente usan otros servicios del banco, en los bancos A y B. Use!=0.02.

Page 231: Libro Estadistica

231

CAPITULO VIIPRUEBAS DE HIPOTESIS

En el capítulo anterior hemos considerado el problema de estimación. En estecapítulo estudiaremos todo lo relacionado con pruebas de hipótesis. Nuestroobjetivo es verificar (o mas bién rechazar) ciertas afirmaciones acerca de unapoblación; por ejemplo, respecto de valores de los parámetros que lacaracterizanal. Para esto utilizaremos la información contenida en una muestraelegida al azar.

En muchos aspectos, el procedimiento para probar hipótesis es similar almétodo científico: Un científico observa la naturaleza de un fenómeno, formulauna teoría y a continuación, confronta esta teoría con la evidencia observada. Silo observado no está de acuerdo con la teoría, se rechaza la hipótesis. En casocontrario, se pueden obtener dos conclusiones: la teoría es verdadera o bién lamuestra no detectó diferencias importantes o significativas entre los valoresreales y los postulados en la hipótesis planteada, lo que podría considerarsecomo un rechazo de la teoría.

Por ejemplo, un ingeniero podría formular la hipótesis que cierto tratamientopuede eliminar las fallas de un determinado material. Para probar su hipótesis,selecciona aleatoriamente cierto número de elementos defectuososdividiéndolos al azar en dos grupos. El tratamiento nuevo es aplicado al primergrupo y otro tratamiento es aplicado al segundo. A continuación, basándose enel número de unidades recuperadas, deberá decidir si el nuevo tratamiento esmejor que el anterior.

Hay una serie de interrogantes que trataremos de responder en este capítulo.Algunas de estas son: ¿Qué puede hacer la estadística en lo que se refiere apruebas de hipótesis?; es decir, ¿Como decidimos si la información contenidaen una muestra dada está en desacuerdo con la teoría?. ¿El tamaño de muestraes adecuado?, ¿En que circunstancias deberíamos rechazar la hipotesis?,¿Cuándo deberíamos aceptarla? o ¿Cuándo no deberíamos emitir unaconclusión?.

7.1 Elementos de una Prueba de Hipótesis

Una es una afirmación o conjetura acerca de loshipótesis estadísticaparámetros de la distribución de probabilidades de una población. Si lahipótesis estadística específica completamente la distribución, entonces ella sellama de otra manera se llama .Hipótesis Simple, Hipótesis Compuesta

Page 232: Libro Estadistica

232

Consideradas desde el punto de vista tradicional, todas las pruebas de hipótesistrabajan en base a ciertos principios que se pueden resumir en los siguienteselementos, todos ellos indispensables en la construcción del test o prueba: una hipótesis nula H ; una hipótesis alternativa H ; el estadístico de prueba ; la! "

zona de rechazo y una Regla de decisión.

La , que denotaremos por H , es la hipótesis que va a serHipótesis nula !

probada. A la hipótesis nula contraponemos una segunda hipótesis quellamaremos y que denotamos por H .Hipótesis alternativa "

Una es una regla o procedimiento queprueba de una hipótesis estadísticapermite decidir el rechazo de la hipótesis H . Existen varias formas de obtener!

estos procedimientos, por lo que nuestro interés se centrará en obtener el mejorde ellos para una hipótesis dada.

El estadístico de prueba, T(X), (lo mismo que un estimador) es una funciónde la muestra. Interesa que contenga el máximo de información sobre lahipótesis nula planteada ya que, en base a la información contenida en estafunción, se tomará la decisión respecto de la aceptación o rechazo de lahipótesis, H , planteada.!

La zona de rechazo, también llamada región crítica (RC), define los valoresdel estadístico de prueba para los cuales la información muestral contradice lahipótesis nula. Estos valores nos permitirán adoptar una regla de decisiónconsistente.

Una es una regla o procedimiento queprueba de una hipótesis estadísticapermite decidir el rechazo de la hipótesis H . De esta manera, como una regla!

de decisión, si para una muestra particular el estadístico de prueba (valorcalculado) cae dentro de la región crítica, rechazaremos la hipótesis nula H en!

favor de la hipótesis alternativa H . En cambio, si el valor calculado no cae"

dentro de la RC, no podremos rechazar la hipótesis nula.

Ejemplo. Consideremos una muestra aleatoria X ,..,X de una población X," ncuya distribución es N( , 36). El único aspecto desconocido de esta)distribución es el valor de la media poblacional. Así, si consideramos lahipótesis nula H : 17, H es una hipótesis compuesta ya que no específica! !) Ÿcompletamente la distribución, puesto que puede tomar cualquier valor menor)o igual a 17. Una hipótesis alternativa es H : >17 que también es compuesta." )En cambio, si postulamos H : = 17, H es simple pues con un valor! ) 0específico del parámetro se caracteriza completamente la distribución comoN(17, 36). Una hipótesis alternativa, en este último caso, podría ser H : 17," ) Áque es compuesta.

Page 233: Libro Estadistica

233

Si consideramos H : 17 versus H : > 17, una regla de decisión arbitraria! ") )Ÿsería "Rechazar H si y sólo si X > 17+12/ n ". El estadístico de prueba es

_! È

T(X) = X y la región crítica o zona de rechazo está dada por:_

RC={(X ,...,X ): X > 17+12/ n}._

" n ÈLa constante, en este ejemplo 17+12/ n, que define la región de rechazo deÈH , se denomina de la prueba o test. Por lo tanto, si observamos! punto críticox como un valor del estadístico de prueba, rechazamos que 17 si x > 17_ _

) Ÿ+12/ n.È

7.2. Probabilidades de Errores y Potencia

La calidad de un test o regla de decisión (equivalentemente la RC ) esrazonablemente medida por la frecuencia con la cual cometemos errores dejuicio cuando la utilizamos. Hay dos tipos de errores que podemos cometer (noen forma simultanea): podemos rechazar H cuando deberíamos haberla!

aceptado o podemos aceptar H , cuando deberíamos haberla rechazado. El!

primero de estos se denomina Error de y el segundo Error de Así,tipo I tipo II. rechazar H cuando ella es verdadera corresponde al Error Tipo I, y aceptarla!

cuando ella es falsa se llama Error Tipo II. La probabilidad de cometer ErrorTipo I es denotada generalmente por , y recibe el nombre de ! nivel designificación del test tamaño del testo . La probabilidad de cometer ErrorTipo II se denota por ."

Definición. La potencia de una prueba de hipótesis se define como laprobabilidad de rechazar la hipótesis nula cuando esta no es verdadera ycorresponde a 1- ."

Si H es una hipótesis simple, entonces la potencia es una constante; pero, si es"

compuesta, la potencia es una función de en H . Si H es también) " !

compuesta, entonces la probabilidad de error tipo I es también una función de). La potencia y la probabildad de error tipo I estan contenidas en la funciónpotencia, ( ), que es la probabilidad de que H sea rechazada cuando la1 ) !

población está parametrizada por ; esto es,)

( ) = P(Rechazar H / ) para todo .1 ) ) )!

Notemos que:

Si H , entonces ( ) = Probabilidad de error tipo I) 1 )− !

Si H , entonces ( ) = 1 - Probabilidad de error tipo II) 1 )− "

Page 234: Libro Estadistica

234

La función potencia juega el mismo papel que el error cuadrático medio en laestimación de parámetros. Será nuestro patrón para juzgar la bondad de un testo para comparar dos tests. Una función potencia ideal es

( ) = 0 si H ,1 si H1 )

))œ −

−!

1

puesto que la idea es no rechazar H si ella es correcta y rechazarla cuando ella!

es falsa.

7.3. Elección de un Test

Parece obvio que para tener un buen test deberíamos minimizar lasprobabilidades de los errores de tipo I y II, en forma simultánea. Sin embargo,esto no es posible ya que en la medida que uno disminuye el otro aumenta, porejemplo, si un test tiene probabilidad de error tipo I cero, es de la forma"siempre acepte H " y por lo tanto, hay probabilidad 1 de cometer error tipo II.!

Luego, para evaluar la capacidad de un test, centraremos nuestra atenciónexclusivamente en su potencia. Nuestra idea será entonces, encontrar aquél testo regla que tenga máxima potencia dentro de la clase de todos los tests quetienen una probabilidad fija de error tipo I. Tales tests se dicen que tienen un!nivel de significación , y hablamos de rechazar H al nivel . En la práctica,! !!

los valores de =0.01 y =0.05 son comunmente utilizados.! !

Al proceder en esta forma, estamos considerando que el error tipo I es el másclaro e importante, pues queremos tener control sobre él al fijar el valor de .!Por lo tanto, al plantear una prueba de hipótesis estadística, se recomiendaconsiderar como hipótesis nula aquella afirmación que deseamos rechazar (oaquella que refleje que el error tipo I es el más importante para nosotros), yaque tendremos una medición respecto de la equivocación al rechazarla.

Veamos a continuación algunos ejemplos que nos permitirán practicar lastécnicas de evaluación de los distintos tipos de error.

Ejemplo. Se desea someter a prueba la aceptación de cierto producto por partedel público. Se postula que el producto cuenta con mas del 50% de aceptaciónentre el público consumidor; esto es, se desea probar la hipótesis nula H :!p 0.5 versus la hipótesis alternativa H : p < 0.5. Para este efecto se realiza  "

una encuesta a n = 15 personas. Aquí, cada persona entrevistada puede serconsiderada un ensayo Bernoulli, donde X = 1 si la i-ésima persona consume3

el producto y 0 si no. El estadístico de prueba es T(X) = X = Número de! 3

encuestados que prefieren el producto. Se desea calcular el nivel designificación, dado que se ha seleccionado como región crítica al conjunto RC= {(x ,...,x ): x 2}." n i! Ÿ

Page 235: Libro Estadistica

235

Por definición se tiene que:

= P(Error tipo I)!

= P(Rechazar H | H es verdadera)! !

= P( X 2|p = 0.5).! 3 Ÿ

Dado que X tiene una distribución binomial con n = 15 y p = 0.5, si H es! 3 !

verdadero, se tiene

= (0.5)! ! Š ‹#Cœ!

"&C

"&

= (0.5) + (0.5) + (0.5)ˆ ‰ ˆ ‰ ˆ ‰"& "& "&! " #

"& "& "&

= 0.004.

Este resultado significa que si decidimos utilizar esta región crítica, estamosasumiendo muy poco riesgo (sólo = 0.004), de no considerar al producto!como favorito del publico.

Si ahora seleccionamos como región crítica RC = {X: X 6}, entonces! 3 Ÿtenemos que:

= P( X 6|p=0.5) = (0.5) = 0.338! ! ! Š ‹3'Cœ!

"&C

"&Ÿ

La diferencia entre los valores calculados en ambos casos, se debe únicamentea que en el primero se seleccionó un valor artificialmente muy bajo como puntocrítico, esto hace que sea prácticamente imposible rechazar la hipótesisplanteada. Esta probabilidad aparece mucho más razonable en el segundo caso.

Ejemplo. (continuado) Con los mismos datos del problema anterior, ¿Esnuestro test (región crítica) igualmente bueno en cuanto a protegernos del ErrorTipo II?.

Supongamos que en realidad solo el 30% de la población favorece el producto,(p=0.30). ¿Cuál es la probabilidad que la muestra nos conduzca, erróneamente,a concluír que H es verdadera y, por lo tanto, concluír que el producto es el!

favorito del publico?

Por definición,

= P(error tipo II) = P(aceptar H | H es verdadera)" ! "

Page 236: Libro Estadistica

236

= P( X > 2|p =0.3);! 3

pero, bajo H , X se distribuye binomial con n=15 y p =0.3, luego" 3! = (0.30) (0.70)" ! Š ‹"&

œ$"& "&

y yy y

= 0.873."

Si ahora selecionamos la región crítica alternativa, tenemos que la probabilidadde Error Tipo II corresponde a

= P( X > 6|p=0.3)" ! 3

= (0.30) (0.70)! Š ‹"&œ(

"& "&y y

y y

= 0.1311

En palabras, si usamos la región crítica definida inicialmente como { x 2},! i Ÿconcluiremos prácticamente siempre que el producto será escogido comofavorito por los consumidores (pues = 0.873), aún cuando p sea tan baja"como 0.30. Sin embargo, si modificamos la región crítica a valores másrazonables, la probabilidad de cometer Error Tipo II es menos de un tercio delanterior.

Notemos que la probabilidad de cometer un error tipo II, , depende del"verdadero valor de p. A mayor diferencia entre un valor de p y el propuesto porla hipótesis nula (p = 0.50), mas probable es que rechacemos la hipótesis nula.Esta situación y los ejemplos analizados deben servir para prevenirnos sobre eluso de regiones críticas arbitrariamente grandes o pequeñas.

Ejemplo. El gerente de una corporación asegura que sus vendedores no hacen,en promedio, mas de 15 ventas por semana. Para verificar su reclamo, 36vendedores son seleccionados al azar y se registra el número X de ventascorrespondientes a una semana seleccionada también al azar. Se sabe que elnúmero de ventas semanales tiene distribución normal con media y varianza.5#, ambos parámetros desconocidos. La muestra revela que x = 17 ventas con

_

una varianza de 9. ¿La evidencia contenida en la muestra, contradice laaseveración del gerente?.

Estamos interesados en probar una hipótesis acerca del promedio de ventassemanales . Específicamente, queremos realizar la prueba H : 15, vs. H. .! "Ÿ: > 15..

Page 237: Libro Estadistica

237

Sabemos que la media X es un estimador insesgado de mínima varianza de ,_

.por lo que parece razonable usar un test o regla que recomiende aceptar orechazar H , basado en el valor observado de X. Específicamente, si H es

_! !

verdadero esperamos que el valor observado de X este más cercano de los_

valores que involucra H que de los que involucra H . Así, podemos0 "

considerar como regla de decisión: "aceptar H si el valor observado x es_

!

pequeño", esto es x c o "rechazar H si x es grande", es decir si x > c, donde _ _ _Ÿ !

c es una constante a elegir (punto crítico).

Si es la máxima probabilidad de cometer error tipo I, entonces podemos!determinar el punto crítico c de la forma siguiente. Si H es verdadero,!

sabemos que X tiene distribución N( , /6), donde es un número menor o_

. 5 .#

igual a 15. Dado que es desconocida la estimamos con el valor observado de5#

S , y seguimos empleando la distribución normal por tener un tamaño de#

muestra suficientemente grande (36).

Ahora la probabilidad de error tipo I esta dada por definición

P(Error I) = P(Rechazar H /H es verdadero)! !

= P(X > c | 15) = 1 - P(X c | 15)_ _

. .Ÿ Ÿ Ÿ

= 1 - ( ) = 1- ( ) (7.1)F Fc- c-

3/ 36 1/2. .È

que como H es compuesta, (7.1) resulta ser una función de , para valores de! .. F .especificados por H . Además, vemos que 1- ( ), como función de , es!

c1/2.

creciente y por lo tanto alcanza su máximo valor en el máximo valor de , que.en este caso es 15. Por lo tanto, si especificamos como la máxima!probabilidad de error tipo I tenemos

= Sup {1 ( )} = 1 ( )15

! F F. Ÿ

c-1/2 1/2

c 15.

de donde tenemos que

( ) = 1 ,F !c 151/2

lo que implica que

= zc 151/2

"!

y finalmente el punto crítico es

c = z ,"& 12 "!

Page 238: Libro Estadistica

238

donde z es el percentil (1 ) de la distribución normal estándar"! Þ!

Si elegimos = 0.05 por ejemplo, entonces c = (1.645)1/2 = 15.82! "& y la región crítica de tamaño 0.05 está dada por

RC = { x : x > 15.82} (7.2)_ _

Ahora como el valor observado en la muestra es x = 17 que cae en la región_

crítica dada por (7.2), nuestra decisión es rechazar H , lo que nos indicaría que!

la afirmación del gerente de la empresa es incorrecta y el número promedio deventas excede a 15. Una región crítica equivalente a la dada en (7.2) es

RC = {Z : Z > 1.645} (7.3)

donde Z = . En nuestro caso z = = 4 mayor que z =1.645X _

/ n17 15

1/2 .

5 È ß Þ"!

Ejemplo. (Continuado) Supongamos ahora que el gerente desea tener laposibilidad de detectar una diferencia de solo una unidad en el número mediode ventas semanales de sus vendedores; esto es, está interesado en probar lahipótesis H : = 15 vs. H : = 16. Para este efecto, 36 vendedores son! ". .seleccionados al azar registrandose el número de ventas X durante unaß ßsemana dada. Encontremos el valor de para esta prueba."

Recordemos que n = 36, x = 17 y s = 9. Siguiendo un razonamiento similar al_

#

del ejemplo anterior, la zona de rechazo es: z > 1.645, que es equivalente a x_

>15.82. Esta zona de rechazo se muestra en la Figura 7.1.

k=15.82

Aceptar H Rechazar H0 o

Figura 7.1.

Por definición, = P(X 15.8225 | = 16) que corresponde a la zona bajo la_

" .curva segmentada, a la izquierda de k = 15.82. Luego, para = 16, se tiene:."

Page 239: Libro Estadistica

239

= P( )"X_

/ 115.8225 16

3/ 36 .

5"È È <

= P( Z< .36) = 0.3594 !

Este valor de , relativamente grande, nos indica que muestras de tamaño 36,"frecuentemente no detectarán diferencias de una unidad respecto del valorpoblacional. Podemos reducir el valor de aumentando el valor n."

7.4. Valor-p o Probabilidad de Significación

Personas distintas, enfrentadas al mismo problema de prueba de hipótesis,pueden tener distintos criterios para fijar el tamaño del test. Un experimentadorpuede conformarse con rechazar H usando un test de tamaño = 0.05,! !mientras que otro experimentador quiere usar = 0.01. Es posible que el!primero rechace H , mientras que el segundo la acepte, bajo la base del mismo!

resultado (x , x ,...,x ) del experimento. Esta diferencia puede ser resueltax = " # nsi estos experimentadores, usando el mismo estadístico de prueba T, reportan elresultado del experimento en términos del tamaño observado, valor-p oprobabilidad de significación del test.

El valor-p (v-p) proporciona la probabilidad que el estadístico de prueba T(X),tome valores tanto o más alejados que su valor observado T(x), en la direcciónde la hipótesis alternativa H , dado que la hipótesis nula es verdadera. De esta"

manera, para contrastar H : vs H : < , determinamos el valor-p! ! " !) ) ) ) como

valor-p = P( T(X) T(x) | = ) (7.4)Ÿ ) )!

En otras palabras, el valor-p se define como el menor nivel de significaciónpara el cual un experimentador, utilizando el estadístico T, rechazaría H sobre!

la base del resultado observado esto es, si el punto crítico para elx;investigador corresponde a un test de tamaño menor que el valor-p, H no es!

rechazada; de otra forma se rechaza H . En términos más simples, si el!

experimentedor elige mayor que el valor-p, deberá rechazar H , mientras que! 0si elige menor no puede rechazarla.!

Para ilustrar este procedimiento consideremos una población con distribuciónN( , 36), donde, para una muestra aleatoria de tamaño n= 25, se encontró que x

_.

= 14. Supongamos que queremos contrastar las hipótesis

H : 17 vs H : < 17,! ". . 

Page 240: Libro Estadistica

240

Como se trata de una prueba de hipótesis respecto de una media, el estadísticode prueba es T(X) = X y se rechaza H para valores pequeños de este (en la

_!

dirección de H : < 17). Luego, el valor-p en este caso es1 .

Valor-p = P(X x) = P(X 14), cuando = 17._ __Ÿ Ÿ .

Utilizando la tabla normal tenemos que:

P(X 14) = P(Z ) = P(Z 2.5) = 0.0062._Ÿ Ÿ Ÿ 14 17

6/5

Así, el valor-p, la probabilidad que X sea menor o igual a x = 14, es 0.0062,_ _

que nos estaría indicando que es altamente improbable que, al considerar unamuestra de tamaño 25, encontremos un promedio muestral de 14 o menos,cuando = 17 ( H es verdadero); esto es, si = 17, en sólo 62 de 10000. .!

muestras de tamaño 25, el valor del estadístico de prueba X será igual o menor_

que 14. Por lo tanto, tenemos una fuerte evidencia para rechazar H : 17! .  

Ahora, si consideramos un nivel de significación , mayor que 0.0062!deberíamos rechazar la hipótesis nula puesto que, en este caso, el áreacorrespondiente a la región crítica es mayor que 0.0062 y el resultado muestralx = 14 cae en la región crítica. Por el contrario, un valor de menor que_

!0.0062 induce a aceptar la hipótesis nula pues el área correspondiente a laregión crítica es menor que 0.0062 y x = 14 queda fuera de la región de

_

aceptación.

Resumiendo, una forma de tomar decisiones, considerando a la vez la evidenciade la muestra en contra de la hipótesis nula (valor-p) y el nivel de significación! ! es el siguiente: Si es mayor que el valor-p: se rechaza H ; Si el valor-p es!

mayor que : se acepta H .! !

Cuando la hipótesis alternativa es bilateral, hay que duplicar la probabilidadobtenida en (7.4). Si por ejemplo, H : = 17 vs H : 17, el valor-p lo! ". . Áobtenemos duplicando P(Z 2.5). Entonces:Ÿ

valor-p = 2P(Z -2.5) = 2(0.0062) = 0.0124Ÿ

Así, bajo H , el valor del estadístico de prueba estará tan alejado de su valor!

observado o más, en un 1.24% de las veces. Si este valor-p se considera muypequeño, nosotros podemos pensar que =17 es falso y por ende debemos.rechazar la hipótesis nula. En general, si no queremos involucrar el nivel designificación en nuestra decisión, debemos rechazar H para valores! !

pequeños del valor-p y en caso contrario no podemos rechazar H .!

Una vez calculado el valor-p, se puede utilizar una escala empírica querelaciona estos valores con la cantidad de evidencia en contra de H que está!

Page 241: Libro Estadistica

241

contenida en la muestra, lo que en ningún caso debe considerarse como unaregla, ya que los niveles de tolerancia en cuanto a los errores están muyrelacionados con el problema particular de interés y el área científica donde secentra el estudio. La escala es: si 0.10 < v-p, diremos que la muestra nocontiene evidencia en contra de H ; si 0.05 < v-p < 0.10, diremos que la!

evidencia en contra de H es débil; si 0.01 < v-p < 0.05, diremos que existe!

evidencia fuerte en contra de H ; si v-p < 0.01, diremos que existe evidencia!

muy fuerte en contra de H .!

La Tabla 7.1 nos proporciona la forma de determinar el valor-p para pruebas dehipótesis que involucran a un parámetro de una distribución cualquiera,)donde T(X) es el estadístico de prueba (variable aleatoria) y T(x) es su valorobservado a partir de los datos de la muestra.

Tabla 7.1. Valor-p para distintas pruebas de hipótesis.

Hipótesis Nula y Alternativa Probabilidad de significación

H : vs. H : > valor-p= P(T(X) T(x))

H :

! ! " !

! !

) ) ) )

) )

Ÿ  

  vs. H : < valor-p= P(T(X) T(x)

H : = vs. H : valor-p = 2 P(T(X) T(x)) si T(x)>

valor-p = 2 P(T(X) T(x))

" !

! ! " ! !

) )

) ) ) ) )

Ÿ

Á  

Ÿ si T(x)<)!

Ejemplo. Se sabe que el 10% de los huevos de una especie de pescado nomadurarán. Se obtiene una muestra de 20 de tales huevos, de los cuales 5efectivamente no maduraron. ¿Cuál es la evidencia en contra de la hipótesisplanteada?

En este caso las hipótesis son H : p = 0.1 y H : p 0.1, y p = x = 0.25._

! " Á s

Notemos que x > p = 0.1 por lo que el valor-p es 2P{X 0.25}._ _

 

Utilizando aproximación normal tenemos que, bajo H ,0

X N(0.1; _µ

(0.1)(0.9)20 )

y P(X 0.25) = P(Z )

_    0.25 0.1

0.067

= 1 P(Z< 2.24)

= 1 0.9874 = 0.0126 Þ

Page 242: Libro Estadistica

242

Esto significa que si p = 0.1, las posibilidades de obtener al menos 5 huevos noviables de un total de 20, es de un 1% aproximadamente. Ahora, el valor -p esß2(0.0126) = 0.0252.

7.5. Lema de Neyman Pearson

En los primeros ejemplos de la sección anterior hemos determinado tests, oequivalentemente regiones críticas, en forma mas bien intuitiva. La validéz deestas regiones de rechazo se justificará con la determinación de los tests derazón de verosimilitud. En esta sección daremos un resultado fundamental parauna prueba de hipótesis, conocido como Lema de Neyman Pearson, aunque esun resultado puramente teórico pues es válido para contrastar hipótesis simplesversus simple, nos sirve de apoyo para generar tests o regiones críticas

Hemos dicho anteriormente que el criterio de selección del test más adecuadose basará en la potencia de la prueba. Veremos a continuación un criterio quenos permitirá, en base a esta consideración, seleccionar el mejor test paraalgunas hipótesis específicas. Recordemos previamente algunos de losconceptos relativos a la potencia de una prueba.

Definimos la , como la probabilidad de rechazar H , dado quepotencia del test !

la hipótesis alternativa H es verdadera."

Sea X ,...,X una muestra aleatoria de una población X cuya función de" ndensidad, f(x; ), depende de un parámetro desconocido . Esta función de) )densidad siempre ha sido considerada como una función de x para unparámetro fijo . Ahora en cambio será considerada como una función del)parámetro desconocido , de modo que, aún cuando la función es idéntica a la)anterior, nuestro interés se centra ahora en el parámetro . Esta función f(x; ),) )como ya vimos, se llama función de verosimilitud y la denotaremos por L( , x).)

Supongamos ahora que T(X) es un estadístico de prueba y W es una regióncrítica para una prueba de hipótesis relativa al parámetro . La potencia de la)prueba, bajo este contexto, es 1 = P(T(x) W | H ). −" "

Deseamos ahora probar una hipótesis donde tanto la hipótesis nula como laalternativa son simples; esto es, cada una de ellas involucra sólo a un valor delparámetro que caracteriza a la distribución de la población. Este caso no esmuy útil en las aplicaciones, pero nos sirve para introducirnos en la teoría depruebas de hipótesis. Supongamos entonces, que tenemos una muestra queproviene de una de dos distribuciones especificadas en forma completa.Nuestro objetivo es averiguar a cual de las distribuciones pertenece la muestra.Sea X ,...,X una muestra aleatoria de la población con densidad f(x; ) o f(x;" !n )) ) )" ! 3 ! " 3 "), queremos contrastar H : X f(.; ) vs. H : X f(.; ). Intuitivamenteµ µ

Page 243: Libro Estadistica

243

podríamos decidir en favor de H si f(x; ) es mucho mas grande que f (x; ),! ! ") )esto es, f(x; ) >> f(x; ) o en favor de H si f(x; ) >> f (x; ). Así,) ) ) )0 1 " " !

deberíamos rechazar H si f(x; ) > k f(x; ).! " !) )

Esta idea es la que utilizaremos para construir una familia de test que, comoveremos, proporcionará algunos test "buenos" en el sentido de minimizar laprobabilidad de cometer error tipo II o equivalentemente maximizar lapotencia.

Definición Razón de Verosimilitud Simple. Llamaremos a la expresión:

= L ( ; x)/L ( ; x) = f (x; )/f (x; )- ) ) ) )" ! " !

en que L( ; x) es la función de verosimilitud correspondiente a la variable)aleatoria X.

Definición. Sea X ,...,X una muestra aleatoria de X, ya sea con f(.; ) o f(.;" !n )) ) )" ! 3 ! " 3 3). Un test de H : X f(.; ) vs. H : X f (.; ) se llama test de razónµ µde verosimilitud simple si su región crítica está definida por

W = {x: = f(x; )/f(x; ) > k; k > 0}- ) )" !

y la regla de decisión está dada por:

Rechazar H si > k; Aceptar H si k.! !- - Ÿ

La razón de verosimilitud simple también podemos definirla en formaalternativa como = f(x; )/f(x; ); en tal caso la regla de decisión será:- ) )! "

Rechazar H si < k; Aceptar H si k.! !- -  

Teorema 7.1 (Lema de Neyman Pearson). Sea X ,...,X una muestra aleatoria" nde una población X con densidad f(x; ). Supongamos que deseamos probar la)hipótesis H : = vs. H : . Si consideremos el test de razón de! ! " ") ) ) )Áverosimilitud simple con región crítica de tamaño dada por W = {x: f(x,!) ) !" !

‡)/f(x, ) > k}, y si W es cualquier otra región crítica de tamaño a lo más ( ), entonces el test con región crítica W es más potente que cualquier otroŸ !test asociado con la región crítica W .‡

Demostración. Del planteamiento del problema se pueden deducir facilmentelos siguientes resultados:

1. La probabilidad de error tipo I del test asociado con la región crítica W es‡

menor o igual a y la probabilidad de error tipo I del test asociado a W es!igual a . Esto es!

Page 244: Libro Estadistica

244

P(Rech. H con W |H ) = P (W )! ! !‡ ‡ Ÿ !

= P(Rech. H con W|H )! !

= P (W)!

2. f (x; ) > kf (x; ) si x W y f (x, ) < kf(x, ) si x W.) ) ) )" ! " !− Â

La potencia del estadístico de prueba asociado a la región crítica W , está dada‡

por

P (W ) = f(x, )dx" "‡

[

(‡

)

Notemos que si el espacio de valores de X es R , podemos escribirXR = W W y W = (W W ) (W W ), entoncesX

c * * c *

P (W ) = f(x; )dx + f(x; )dx" " "‡

[ [ [ [

( (‡ ‡ -

) )

< f(x; )dx + k f(x; )dx, por el resultado (2)( ([ [ [ [

" !

‡ ‡ -

) )

= f(x; )dx + k f(x; )dx k f(x; ) dx( ( ([ [ [ [ [

" ! !

‡ ‡ ‡

) ) )

= f(x; )dx k f(x; )dx + k f(x; ) dx( ( ([ [ [ [ [

" ! !

‡ ‡ ‡

) ) )

< f(x; )dx k f(x; )dx + k f(x; ) dx, por (1)( ( ([ [ [ [ [

" ! !

‡ ‡

) ) )

< f(x; )dx - k f(x; )dx + k f(x; ) dx,( ( ([ [ [

" ! !) ) )

pues W W W .‡ §

Page 245: Libro Estadistica

245

< f(x; )dx = P (W)([

" ") Þ

Por lo tanto P (W) > P (W ) y el test asociado a la región crítca W es más" "‡

potente que cualquier otro test de región crítica W , de tamaño menor o igual a‡

!.

Ejemplo. Supongamos que X representa una simple observación de unapoblación cuya función de densidad está dada por

f(x, ) = x , si 0<x<10, en otro caso))œ )-"

y estamos interesados en determinar el test más potente y la región críticacorrespondiente para probar la hipótesis H : = 1 vs. H : = 2, con un nivel de! ") )significación de = 0.05.!

Dado que ambas hipótesis son simples, podemos recurrir directamente al Lemade Neyman-Pearson, obteniendo en primer lugar la razón de verosimilitud; estoes,

L ( ; x) / L ( ; x) = 2x," !) )

lo que indica que la región crítica para el test más potente tiene la forma

W = {x: 2x > k} <=> {x: x > k|2 = c }.

Para determinar el valor exacto de c, debemos considerar que este está ligado alnivel de significación del test; esto es, a = 0.05, lo que significa que!

= 0.05 = P(X W | = 1)! )−

= P(X > c | = 1))

= 1dx = 1 c,( "

-

de donde c = 1 0.05 = 0.95 Þ

Por lo tanto, de acuerdo con el Lema de Neyman-Pearson, la región críticacorrespondiente está dada por W = {x: x > 0.95} y el test asociado con ella esel de mayor potencia para este tamaño.

Page 246: Libro Estadistica

246

7.6 Tests Uniformemente más Potentes

Supongamos que obtenemos muestras de una población cuya distribución estátotalmente especificada excepto por un parámetro . Si deseamos probar las)hipótesis compuestas unilateral (o de una cola).

H : vs. H : > ,! ! " !) ) ) )Ÿ

no disponemos de un teorema general que nos permita obtener un test demáxima potencia. Sin embargo, si identificamos esta prueba con la prueba dehipótesis siguiente

H : = vs. H : = , con > ! ! " " " !) ) ) ) ) )

el lema de Neyman-Pearson, puede ser aplicado para obtener tests de máximapotencia para cada uno de los valores de > .) )" !

En muchos casos la forma de la región de rechazo o crítica no depende de laelección de . En tales casos la RC es independiente de los valores específicos)"de , por lo que será válida para todo > . Los tests que poseen esta) ) )" " !

característica máximizan la potencia para todos los valores de mayores que)")! y los llamaremos tests para verificar laUniformemente más Potentes hipótesis H : vs. H : > .! ! ! " !) ) ) )Ÿ

Ejemplo. Supongamos que X ,...,X es una muestra aleatoria de una" ndistribución normal con media desconocida y varianza conocida .. 5#

Queremos encontrar un test uniformemente más potente para probar lahipótesis H : vs. H : > .! ! " !. . . .Ÿ

Empecemos por examinar el test más potente de tamaño , para probar la!hipótesis H : = vs. H : = , para algún > . Dado que se ha! ! " " " !. . . . . .supuesto normalidad, se tiene que

L( , x) = f(x , ). ... .f(x , )-. . ." n

= (1/2 ) exp[ (x ) /2 ]15 . 5# Î# # #3œ" 3

n n Þ!Por otra parte, sabemos que la región crítica asociada con este estadístico estádada por

W = {L ( ; x)/L ( ; x) > k}.- -" !. .

lo que en este caso significa que tenemos

Page 247: Libro Estadistica

247

= k.-(1/2 ) exp [ (x ) /2 ](1/2 ) exp [ (x ) /2 ]

15 . 5

15 . 5

# Î# # #"œ" 3 "

# Î# # #3œ" 3 !

n n

n n

!! >

Esta desigualdad puede ser reescrita en la forma

exp{ (x ) /2 ] [ (x ) /2 ]}>k! !n n3œ" 3œ"3 ! 3 "

# # # # . 5 . 5

[ (x ) /2 ] [ (x ) /2 ] >lnk! !n n3œ" 3œ"3 ! 3 "

# # # # . 5 . 5

[ (x ) (x ) ] > 2 lnk! !n n3œ" 3œ"3 ! 3 "

# # # . . 5

x 2nx + n x + 2nx n > 2 lnk_ _! !n n

3œ" 3œ"# # # # #3 3! "! . . . . 5

de donde se obtiene que

x( ) > (2 lnk n + n )/2n_. . 5 . ." !

# # #! "

y como > 0. ." !

x > (2 lnk n + n ) 2n ( ) = c._

5 . . . .# # #! " " !

Así, se sigue que T(X)= X es el estadístico de prueba que proporciona la_

máxima potencia, ya que no depende de que valor positivo asuma .. ." !

El valor exacto de c se puede determinar para un valor fijo de , notando que!P(X W|H : = ) = , con W = {x: x > c} = {z: z > z }

_− Þ! ! ". . ! !

Podemos observar además que la forma de la región crítica no depende de unvalor particular de . Esto es, cualquier valor de mayor que conducirá. . ." !

exactamente a la misma región crítica. Luego podemos concluir que el testuniformemente más potente para probar la hipótesis H : vs. H : > ,! ! " !. . . .Ÿes el test Z, que rechaza H si y sólo si, su valor calculado!

= z es mayor que z .x_

/n.5

!"!

Ahora, si deseamos probar la hipótesis H : vs. H : < , tenemos que! ! " !. . . . la región crítica de tamaño se invierte; esto es, rechazamos H si y sólo si z! !

< z = z . "-! !

Ejemplo. Supongamos que X ,...,X representan los tiempos de operación sin" nfalla de n máquinas idénticas y que constituyen una muestra aleatoria de una

Page 248: Libro Estadistica

248

población exponencial de parámetro . Se desea encontrar el test uniformente-más potente, si existe, para probar la hipótesis H : vs. H : > ,! ! " !- - - -Ÿdonde es una constante positiva.-!

Nuevamente, aplicando el lema de Neyman Pearson (ya que hay sólo unparámetro desconocido) a H : = vs. H : = , > , obtenemos la! ! " " " !- - - - - -región crítica

W = {x: L ( , x) > kL ( , x)}" !- -

= { x: 3 e > k e }- -n n xx" !

- -1 0! !3 3

= {x: n ln x > lnk+ nln x }- - - -" " 3 ! ! 3 ! ! = {x: ( ) x > lnk + nln nln }- - - -! " 3 ! " ß!y como - es menor que cero tenemos- -! "

W = {x: x < (lnk + nln nln )/( ) = c }! 3 ! " ! "- - - - ß

que es equivalente a W = {x: x < c}._

Dado que esta región crítica no cambia, cualquiera sea el valor de > ,- -" !

tenemos que el test asociado a ella es uniformemente mas potente. Así, paracualquier valor fijo tenemos!

= P(X < c| H ) = P(2n X < 2n c) = P( < 2n c)_ _

! - - ; -! ! ! !#

pues como vimos antes 2 X es una variable aleatoria Chi-cuadrado con 2n-! 3

grados de libertad cuando H es verdadera, de manera que 2n c =! !#- ;!

(percentil de la distribución con 2n grados de libertad).! ;#

Entonces c= . Por lo tanto, si consideramos = 0.01, = 0.1 y tomamos ;

-!#

2n 0- !!

una muestra aleatoria de tamaño 8, encontramos para 2n = 16, = 9.31, c =;#

58.19 y rechazaremos H si encontramos que x < 58.19.-!

El razonamiento previamente empleado también podemos aplicarlo paraobtener tests uniformemente más potentes en los siguientes casos: pruebasunilaterales acerca de p, parámetro de una distribución Bernoulli; pruebasunilaterales acerca de , el parámetro de una distribución Poisson; pruebas.unilaterales acerca de , la media de una distribución Normal con varianza.5 5# #conocida; pruebas unilaterales acerca de , la varianza de una distribuciónNormal con media conocida..

Page 249: Libro Estadistica

249

7.7. Test de Razón de Verosimilitud Generalizada

Necesitamos una metodología más general para probar hipótesis bilaterales deltipo H : = vs. H : y para pruebas cuando hay más de un! ! " !) ) ) )Áparámetro desconocido en la distribución de la población en estudio.

El conjunto de todos los valores posibles para se denomina espacio)paramétrico y lo denotaremos por . Así, si X es una variable aleatoria@exponencial de parámetro , entonces = { : >0}; si X es una variable- @ - -aleatoria Bernoulli de parámetro p entonces = {p: 0<p<1}. Ambos casos@corresponden a un espacio paramétrico unidimensional, en cambio si X es unavariable aleatoria N( , ), entonces el espacio paramétrico está dado por =. 5 @#

{( , ): < < > 0} que es bidimensional si tanto como son. 5 . 5 . 5# #_ _ß 2

desconocidos.

Supongamos que queremos probar la hipótesis H que especifica valores para!

uno o más parámetros de la distribución de una población, versus la hipótesisalternativa H , que simplemente establece que H es falsa. Esto lo podemos" !

escribir como:

H : vs. H : ,! "-!) @ ) @− −0

Notemos que el espacio paramétrico, queda particionado en los conjuntos y@!

@-! ! " de acuerdo a las especificaciones de H y H . Cuando ambas hipótesis son

simples, y tienen sólo un elemento, y podemos usar el test de razón de@ @!-!

verosimilitud simple para realizar la prueba.

En el caso general, donde al menos una hipótesis es compuesta, comparamosen su lugar las dos cantidades Sup L y Sup L , donde Sup L es el valor0máximo de la función de verosimilitud L( , x) para todos los valores y) ) @−Sup L es el valor máximo de la función de verosimilitud para todos los valores!

) @− ! . En otras palabras, si tomamos una muestra aleatoria de tamaño n deuna población con densidad f(x, ), es el estimador máximo verosimil de ) ) )s0sujeto a la restricción que debe ser un elemento de y es el estimador@ )0 s

máximo verosimil de para todos los valores, entonces)

Sup L = f(x , ) , Sup L = f(x , )C ) C )n n03œ" 3œ"3 ! 3

s s

y = -

Sup LSup L!

se llama valor del estadístico de razón de verosimilitud.

Como Sup L y Sup L son ambos valores de una función de verosimilitud y!

por lo tanto nunca negativas, se sigue que 0. También como , se- @ @  §!

Page 250: Libro Estadistica

250

sigue que 1. Cuando H es verdadera, esperamos que Sup L este cercano-   ! !

a Sup L en cuyo caso estaría cercano a 1. Por otro lado, cuando H es falsa!

esperamos que Sup L sea pequeño en comparación con Sup L en cuyos casos0- tendería a infinito. Una prueba de razón de verosimilitud establece por lotanto, que H es rechazada si y sólo si el estadístico es grande; es decir si ! - -> k , donde k es elegido para hacer que el tamaño de la región crítica sea iguala ; esto es,!

P( > k|H ) = g( )d = ,- - - !!

_(k

donde g( ) es la densidad de la variable aleatoria , bajo H .- - !

Ejemplo. Determinemos el test de razón de verosimilitud para probar lahipótesis H : = vs. H : , sobre la base de una muestra aleatoria de! ! " !. . . .Átamaño n, de una población normal con varianza conocida.5#

Como contiene sólo un punto, , se sigue que el estimador máximo@ .! !

verosimil de restringido a es = y como = { : - < < }, el. @ . . @ . .! !!s _ _estimador maximo verosimil es = x. Así,

_.s

Sup L = (1/ 2 ) exp( )!# Î#5 1 n

!(x )23 !

#

#.5

y Sup L = (1/ 2 ) exp( )5 1# Î#n ß

!(x x)_

23

#

#5

de donde el test de razón de verosimilitud es

exp ( ) /exp ( ) = exp ( ) ! !(x x) (x )

_

2 2 2n (x )

_3 3 !

# #

# # #!

# 5 5 5

. .

De aquí, la región crítica del test de razón de verosimilitud es

exp ( ) > k n(x )_

2.5

##

#

lo que es equivalente a

( x ) > = c (ctte)_ .!

# 2 ln kn

5#

o bien,

| x |>c,_ .!

donde c es determinado de manera que el tamaño de la región crítica sea .!

Page 251: Libro Estadistica

251

Ahora como X se distribuye N( , /n) si H es verdadero, tenemos_

. 5! !#

= P(| x | > c/ H )_

! . ! !

= P(| Z| > c n/ )È 5

= 1 P(|Z| c n/ ) Ÿ ÞÈ 5

Por lo tanto

P(|Z| c n/ ) = 1 y c z nŸ ÞÈ È5 ! 5 = /" #!/

La región crítica de razón de verosimilitud está dada por

RC = {z: z < -z o z > z }, " # " #- / /! !

donde n. z = (x )_.5

! ÈEjemplo. Obtengamos ahora el test de razón de verosimilitud para probar lahipótesis H : = vs. H : , sobre la base de una muestra aleatoria de! ! " !. . . .Áuna población N( , ), donde ambos parámetros son desconocidos.. 5#

El espacio paramétrico completo es = {( , ): - < < , > 0} y el@ . 5 . 5# #_ _espacio restringido especificado por H es = {( , ): > 0}. La función! ! !

# #@ . 5 5de verosimilitud de la muestra es

L( , , x) = . 5# exp ( (x ) /2 )(2 )

! 3# #

# Î#

. 515 n .

Para determinar Sup L , debemos suponer H verdadero y encontrar el! !

Supremo de L = L( , , x) con respecto a . Este supremo se obtiene! !# #. 5 5

usando el estimador máximo verosimil de que es = y así5 5# #!s

!(x )n3 !

#.

Sup L = e! Î#n ( )n

2 (x )n

1 .! 3 !#

Î#Þ

Para obtener el SupL determinamos los estimadores máximo verosimiles de .y que fueron obtenidos anteriormente como:5#ß

= x y = -. 5s s# !(x x)_

n3

#

de donde

Page 252: Libro Estadistica

252

Sup L= e Î#n ( )n2 (x x)

_ n1! 3

#Î#

y la razón de verosimilitud es-

= - ( )!!(x )(x x)

_ n3 !#

3#

Î#.

Ahora notando que

(x ) = ((x x) + (x ))_ _! !3 ! 3 !

# # # . .

= (x x) + n(x )_ _! 3 !

# # .tenemos = (1 + )- n(x )

_

(x x)_

.!

#

3#! nÎ#

que es equivalente a

= 1 +-#Î+ .n(x )_

(x x)_

.!

#

3#!

Luego rechazamos H si es grande, lo que sucede si es grande;! -n(x )

_

(x x)_

.!

#

3! 2

esto es, si

> d > d n(x )_

(x x)_ n |x |

_

((n 1)s )

. .!

#

3#

!# "Î#! È

Í È > d(n-1) =c.Í

È È(n 1) n |x |_

((n 1)s )

.!# "Î#

ÈEl lado izquierdo de la última desigualdad corresponde al valor observado, envalor absoluto, de una variable aleatoria t-student con n-1 grados de libertad.Por lo tanto, para dado, el test de razón de verosimilitud rechaza H si y sólo! !

si t t| | > ." Î#-!

El siguiente teorema resume éste y otros tests de razón de verosimilitud enrelación a los parámetros de una distribución normal.

Teorema 7.2. Sea X ,...,X una muestra aleatoria de una población normal con" nmedia y varianza , ambos parámetros desconocidos. Entonces las regiones. 5#

críticas, dadas por el criterio de razón de verosimilitud, para una prueba detamaño , de H y H especificados como sigue, son:! ! "

Tabla 7.2. Test para con varianza desconocida..

Page 253: Libro Estadistica

253

Test para H H RC

1 > t>t

2 < t<t = -t

3 = |t|>t

.

. . . .

. . . .

. . . .

0 1

0 -

-

-

Ÿ

 

Á

! "

! ! "

! ! " Î#

!

! !

!

donde t = es el valor observado de una variable t-student con (x ) n_

s.! È

n-1 grados de libertad.

Para el caso de la varianza tenemos la Tabla 7.3.

.Tabla 7.3. Test para la Varianza

Test para H H Región Crítica

1 > >

2 < <

3 =

5

5 5 5 5 ; ;

5 5 5 5 ; ;

5 5

#!

# # # # # #! "

# # # # # #! !

# #!

1

 

!

< o >5 5 ; ; ; ;# # # # # #! Î# " Î#Á ! !-

donde = es el valor observado de una variable Chi-cuadrado con;# (n 1)s #

#!5

n 1 grados de libertad.

Ejemplo. Un fabricante sostiene que el modelo de auto A, tiene un rendimientopromedio de 13 kilómetros por litro de gasolina. Se selecciona una muestra de9 de éstos vehículos, y cada uno es conducido con un litro de gasolina en lasmismas condiciones. La muestra proporciona una media de 12.34 km/lt, conuna desviación estándar de 1.26 km/lt. Nos interesa lo siguiente:

a) Para = 0.05, verificar la afirmación del fabricante.!

b) Determinar la probabilidad de cometer error tipo II, si el verdadero valor de. es de 11 km/lt. De acuerdo a esto, ¿que se puede decir acerca de la decisióntomada en (a)?.

c) Si el fabricante sostiene que la desviación estándar poblacional es de 1.20km/lt, realizar la prueba correspondiente.

Page 254: Libro Estadistica

254

d) Suponiendo que =1.20 km/lt y la prueba en (a). Si =10 en la hipótesis5 .alternativa. ¿Que tamaño de muestra se requiere para lograr que lasprobabilidades de errores tipo I y tipo II sean ambas iguales a 0.01?.

Supongamos que el rendimiento por litro de gasolina del auto tipo A es unavariable con distribución normal.

En (a) la idea es rechazar la afirmación del fabricante, por lo que en H!

postulamos que el rendimiento promedio es igual (o superior) a 13 km/lt. En lahipótesis alternativa postulamos lo que creemos que es cierto, en este caso, quees inferior a 13. Así, planteamos H : 13 vs. H : < 13.! ". . 

La región crítica de tamaño = 0.05 que proporciona el test de razón de!verosimilitud es t < t = 1.86, y el valor observado del estadístico es !Þ*&

t = = 1.57$ (12.34 13)1.26

que no cae en la región crítica y por lo tanto no podemos rechazar H .!

Notemos que el valor-p = P(T -1.57), de acuerdo a la tabla t-student con 8Ÿgrados de libertad, se encuentra entre 0.05 y 0.1, lo que indicaría una evidenciamuy débil para rechazar H .!

Para la parte (b), si = 11, entonces H es falsa y la probabilidad de cometer. !

un error de tipo II es

= P(Aceptar H | = 11) = P(T 1.86| = 11)" . .!  

= P 1.86| =11) = P(X 12.22| =11)_

Ð    $ (X 13)_

1.26 . .

= P(T ) = P(T 2.9)   $ (12.22 11)1.26

=1 0.99 = 0.01

Dado que la probabilidad de cometer error tipo II es relativamente baja, para unrendimiento promedio real de 11 km/lt, la decisión de aceptar H en (a) es!

adecuada.

En (c) podemos realizar una prueba bilateral para la varianza; esto es,

H : = (1.20) vs. H : (1.20)! "# # # #5 5 Á

Si = 0.05, de la tabla chi-cuadrado con 8 g.l., = 2.18 y = 17.5 y! ; ;# #!Þ!#& !Þ*(&

el valor observado del estadístico de razón de verosimilitud es

Page 255: Libro Estadistica

255

= = = 8.82,;# (n-1)s 8(1.26)(1.20)

# #

#!

#5

valor que está fuera de la región de rechazo de H .!

Finalmente, para la parte (d), notamos que en parte (a) planteamos las hipótesisH : 13 vs. H : < 13, por lo que! ". . 

= 0.01 = P(X< c| = 13) = ( )_

! . F c 13) n1.20

Èy

= 0.01 = P(X c| = 10) = 1 ( )._

" . F  c 13) n1.20

È

Así, tenemos

z = 2.33 y z = 2.33 = = (c 13) n (c 10) n1.20 1.20

È È!Þ!" !Þ** Þ

Resolviendo este sistema para c y n encontramos: c = 11.5 y n = 3.47. Por lotanto, necesitamos por lo menos 4 observaciones para satisfacer lo pedidoÞ

7.8. Tests Basados en Dos Muestras Independientes

En esta sección veremos métodos para construir test de hipótesis relacionadoscon dos poblaciones para comparar medias, varianzas, o proporciones, segúnsea el caso de interés.

7.9. Comparación de Medias

Supongamos que x ,...,x son los valores observados de una muestra de una" n1

población X con distribución N( , ) e y ,...,y son los valores observados. 5" "#

n2

de una muestra, independiente de la anterior, de una población Y condistribución N( , ). Notemos que estamos suponiendo que las dos. 5#

#

poblaciones tienen la misma varianza. Deseamos probar la hipótesis H : =! ".. . .# " " # vs. H : , para lo cual emplearemos el criterio de razón deÁverosimilitud con el objeto de obtener el estadístico de prueba y la regióncrítica correspondiente.

Para la muestra combinada de n +n valores, = ( , , ) es el vector de" # " ##) . . 5

paramétros, y el espacio paramétrico es

= {( , , ): < < ; < < , >0}@ . . 5 . . 5" # " ## #_ _ _ _

Page 256: Libro Estadistica

256

Bajo H , = = y el espacio paramétrico restringido es! . . .1 2

= {( , , ):- < < , >0}@ . . 5 . 5# #_ _

La función de verosimilitud, considerando , es@

L( , , ) = L( , , x) L( , , y). . 5 . 5 . 5" # " ## # #

= (1/2 ) exp { }15# Ð ÑÎ#n n" #! !(x - ) + (y - )

23 " 3 #

# #

#. .

5

y los estimadores máximos verosimiles son:

= x, = y y = ,_ _

. . 5s s s" ## ! !(x -x) + (y -y)

_ _

n +n3 3

# #

" #

por lo que el Sup L es

Sup L = exp {- }.[ ]n + n n +n2 ( (x -x) + (y -y) ) 2

_ _ n n" # " #

3 3# #

" #1 ! ! Ð ÑÎ#

Ahora, bajo H , la función de verosimilitud pasa a ser0

L ( , ) = (1/2 ) exp { }!# #. 5 15 Ð ÑÎ#n n (x - ) + (y - )

2" # 3 3

# #

#! !. .

5

que corresponde a la función de verosimilitud de una muestra aleatoria detamaño n=n +n de una población normal con media y varianza . Así los" #

#. 5 ßvalores que la maximizan son:

= = = . 5s s! ! ! !x + y

n +n n +n n +nn x n y

_ _(x - ) + (y - )3 4

" # " # " #

" # 3 3# # s s; ,# . .

y

= [ ] { }Sup L exp -!n +n n +n

2 ( (x - ) + (y - ) 2n n" # " #

3 3# #

" #1 . .! !s s

Ð ÑÎ#

de donde la razón de verosimilitud entonces es

= - [ ] .! !! !(x - ) + (y - )(x -x) + (y -y)

_ _ n n /23 4# #

3 4# #

" #. .s s Ð Ñ

Usando el hecho que

(x - ) + (y - ) = (x -x) + (y -y )+ ,_ _! ! ! !3 4 3 4

# # # #. .s sn n (x-y)

_ _

n +n" #

#

" #

.

Page 257: Libro Estadistica

257

- lo podemos escribir como

= 1- [ + ]n n (x-y)_ _

(n +n ) ( (x -x) + (y -y) )_ _ n +n )" #

#

" # 3 4# #

" #.! ! Ð Î#

= [ + ]1 tn +n -2

n +n#

" #

" #Ð ÑÎ#

donde t es el valor observado de una variable t-student con n +n -2 grados de" #

libertad si H : = = es verdadero. Luego la región crítica de acuerdo al! " #. . .criterio de razón de verosimilitud es

> d, que es equivalente a que |t| >c.-

Así, para una probabilidad de error tipo I igual a , rechazamos H si! !

|t|>t , donde t = (x-y)_ _

" Î#-! ( ) [ ] sn nn +n" #

" #

"Î# :

El siguente teorema resume este resultado y proporciona las regiones críticaspara todas las posibles comparaciones de medias.

Teorema 7.3. Sea X ,...,X una muestra aleatoria de X que se distribuye" n1

N( , ) e Y ,..,Y una muestra aleatoria, independiente de la anterior, de Y. 5" "#

n2

que se distribuye N( , ). Si definimos. 5##

S = y T = 2:

! !(X X) + (Y Y)_ _

n +n -2 S n +n(X Y)_ _

n n3 3# #

" # : " #

" # "Î#( ) ß

entonces el test de razón de verosimilitud genera las siguentes regiones críticasde tamaño , para las hipótesis H y H indicadas.! ! "

Tabla 7.4. Test para diferencia de medias. Muestras Independientes

Test H H RC

1 > t>t

2 < t<t = -t

3 =

0 1

1 2 1 2 -

1 2 1 2 -

1 2 1 2

. . . .

. . . .

. . . .

Ÿ

 

Á

"

"

!

! !

|t|>t" Î#-!

Page 258: Libro Estadistica

258

donde t es el valor observado de la variable aleatoria T, que tiene distribución t-student con n +n 2 grados de libertad." #

Ejemplo. Los tiempos de operación sin falla de n = 8 baterias de la marca A"

fueron: 686; 784; 769; 848; 728; 739; 757 y 743 horas de servicio,respectivamente. La duración de n =10 baterias de la marca B fueron: 762;#

783; 763; 749; 806; 783; 831; 784; 790 y 750 horas de servicio,respectivamente. Suponiendo que estas observaciones corresponden a dosmuestras aleatorias independientes de variables normales con la mismavarianza, deseamos probar la hipótesis H : = vs. H : , con =! F " FE E. . . . !Á0.05

De los datos obtenemos:

x =756.75 ; y =780.1; (x -x) = 15555.5; (y -y) = 5884.9 y_ _ _ _! !3 3

# #

= 1340.025,s = #:

15555.5 + 5884.916

luego el valor observado del estadístico es

t = 80/18= 1.345756.75 780.11340.025

È È Þ

De las tablas t-student con 16 grados de libertad obtenemos t =2.12 y!Þ*(&

como |t| = 1.345<2.12, no podemos rechazar la hipótesis de igualdad demedias.

Si tanto n como n son suficientemente grandes y deseamos probar la hipótesis" #

nula mas general H : = d, entonces podemos usar el estadístico! " #. .

Z = X - Y - d_ _

+ Ë S S1 2n n

# #

# #

que tiene distribución aproximada N(0, 1).

Ejemplo. Se desea comparar el contenido de nicotina de dos marcas decigarrillos. Si un experimento de 50 cigarrillos de la primera marca dió unpromedio de nicotina de x =2.61 milígramos con una desviación estándar s =

_" "

0.12 milígramos, mientras que 40 cigarrillos de la segunda marca dió uncontenido medio en nicotina de x =2.38 milígramos con una desviacion

_ 2

estándar s = 0.14 milígramos, usando un nivel de significación =0.05,# !queremos probar la hipótesis H : - = 0.2 vs. H : - = 0.2.! " # " " #. . . .

Page 259: Libro Estadistica

259

La región crítica está dada por:

RC = |z|>z = 1.96!Þ*(&

y el valor observado del estadístico Z es

z = = 1.08.2.61-2.38-0.2(0.12 /50 + 0.40 /40)# # "Î#

Como |z| = 1.08 < z =1.96, no podemos rechazar H . Podemos ya bien!Þ*(& !

aceptar H o decir que la diferencia entre 0.23 (2.61-2.38) y 0.2 no es lo!

suficientemente grande como para rechazar H .!

7.10. Comparación de Varianzas

Aplicando también la prueba de razón de verosimilitud, podemos encontrar lasregiones críticas para pruebas relacionadas con las varianzas poblacionales.Esto está resumido en el siguiente teorema cuya demostración queda comoejercicio.

Teorema 7.4. Sea X ,..,X una muestra aleatoria de X que se distribuye" n1

N( , ) e Y ,..,Y una muestra aleatoria, independiente de la anterior, de Y. 5" "#" n2

que se distribuye N( , ). Definiendo S = ; S = , el. 5## # ## " #

! !(X -X) (Y -Y)_ _

n -1 n -13 3

# #

" #

criterio de razón de verosimilitud proporciona las siguientes regiones críticasde tamaño !

Tabla 7.5. Comparación de Varianzas

Test H H RC

1 > S /S > f

2 < S /S < f

3

0 1

-5 5 5 5

5 5 5 5

5

# # # # # #" # " # " # "

# # # # # #" # # ! " #

#

Ÿ

 

!

!

" " # " # " ## # # # # # #

Î# " Î# = S /S <f o S /S >f5 5 5Á ! !-

donde f corresponde al percentil-p de la distribución F con n grados de: "

libertad en el numerador y n grados de libertad en el denominador.2

Ejemplo. En el ejemplo de la duración de la pilas supusimos que = . Si5 5# #A B

este supuesto merece dudas, debemos primero usar los datos para realizar una

Page 260: Libro Estadistica

260

prueba de igualdad de varianzas y si aceptamos H : = , estamos en!# #5 5A B

condiciones para realizar una prueba de igualdad de medias.

Realicemos entonces la prueba de igualdad de varianzas:

H : = vs. H : ; con =0.02! "# # # #5 5 5 5 !A AB BÁ

De los datos tenemos que s = 2222.21 , s = 653.88 y s /s = 3.40. De la# # # #A AB B

tabla F con 7 y 9 grados de libertad encontramos f = 1/6.710 = 0.149 y f =!Þ!" !Þ**

5.62, por lo que no hay evidencia para rechazar H .!

En las pruebas de hipótesis basadas en el criterio de razón de verosimilitud,hemos obtenido estadísticos de prueba con distribución de probabilidadesconocidas y, más aún, la distribución de los estadísticos se encuentrantabuladas. Sin embargo, en ocasiones el estadístico resultante no posee unadistribución conocida.

Cuando el tamaño de la muestra es suficientemente grande, podemos obteneruna aproximación a la distribución de la razón de verosimilitud. Enb efecto,bajo ciertas condiciones de regularidad, asociadas con la función de densidadde probabilidad de la población en estudio, el estadístico -2ln se distribuye-aproximadamente como una Chicuadrado, con un número de grados de libertadigual al número de parámetros a los que se les ha asignado valores especifícosbajo H .!

7.11. Diferencia de Proporciones

Frecuentemente queremos efectuar comparaciones entre proporciones oporcentajes respecto de una característica común de dos poblaciones; esto es,estamos interesados en la diferencia entre dos parámetros Bernoulli. Enseguidaveremos una forma de enfrentar este problema que es válida sólo para muestrasgrandes.

Sea X ,...,X una muestra aleatoria de una población X con distribución" n1

Bernoulli(p ) y Y ,...,Y una muestra aleatoria, independiente, de una" " n#

población cuya distribución es Bernoulli(p ). Consideremos la prueba de#

hipótesis H : p = p vs. H : p p , para un valor específico de ..! " # " " #Á !

Sabemos que un estimador suficiente para el parámetro de una distribuciónBernoulli, es la media muestral. Por lo tanto, X y Y son los estimadores

_ _

suficientes para p y p , respectivamente. Además, por el teorema del límite" #

central, estos estimadores se distribuyen aproximadamente normal con mediasp , p y varianzas p (1-p )/n y p (1-p )/n , respectivamente. Además," # " " " # # 2

Page 261: Libro Estadistica

261

X Y N(p -p , p (1-p )/n + p (1-p )/n ). µ " # " " " # # #

en forma aproximada cuando n y n son grandes.1 2

Si H es verdadera, esto es, p = p = p , entonces la media de X-Y es cero y su_ _

! " #

varianza es , donde p es el valor común para p y p .p(1-p) p(1-p)n n" #

+ " #

Ahora, bajo H , el estimador máximo verosímil de p para la muestra conjunta!

es

p = = s! !x + y

n +n n +nn x+n y

_ _3 4

" # " #

" #

y

Z= X - Y_ _

p (1-p) (1/n + 1/n )Ès s " #

es una variable aleatoria con distribución (aproximada) normal estándar.

Así, para dado, rechazamos H : p =p cuando |z | >z .! ! " # " Î#-!

Es importante notar aquí que este test no es equivalente al intervalo deconfianza para p p (aunque es muy cercano) y tampoco es equivalente al" #test de razon de verosimilitud. Este test es equivalente a las pruebas de tablasde contingencias que veremos mas adelante.

7.12. Test Basados en dos Muestras Dependientes

En muchas aplicaciones es necesario considerar muestras dependientes de dosvariables aleatorias para efectuar comparaciones de interés. Por ejemplo,supongamos que queremos investigar el efecto del consumo de alcohol en eltiempo de reacción para frenar ante un imprevisto, en los conductores devehículos. Una forma de investigar tal efecto es considerar dos grupos deconductores distintos registrando los tiempos de reacción sin alcohol para elprimer grupo y luego independientemente registrar el tiempo de reacciónß ßpara el segundo grupo de conductores, a quienes se les ha dado a beber unacierta cantidad igual de alcohol. Una investigación mas clara del efecto delalcohol en el tiempo de reacción, podría efectuarse si seleccionamos solo ungrupo de n personas y medimos su tiempo de reacción antes y despues deconsumir alcohol. Así, obtendríamos n pares de mediciones (dos mediciones auna misma persona, antes y después de ingerir alcohol).

Podemos definir entonces X como el tiempo de reacción del conductor i antes3

de ingerir alcohol, y Y como el tiempo de reacción del conductor i después de3

Page 262: Libro Estadistica

262

ingerir alcohol, y en este caso es razonable pensar que X y Y son variables3 3

aleatorias correlacionadas, ya que corresponden a mediciones para un mismoindividuo. Si suponemos que las X son variables normales con media y las3 ".Y también son variables normales con media , no podemos usar el Teorema3 .26.7 para probar por ejemplo H : , si las dos muestras estan! " #. . correlacionadas.

Como tenemos n pares (X ,Y ), i=1,...,n, podemos suponer que ellos conforman3 3

una muestra aleatoria de una distribución normal bivariante de parámetros ,.#

. 5 5 3## #" #, , , .

Recordemos que cualquier función lineal de variables normales es nuevamentenormal, en particular si definimos D = X Y , i=1,..,n, las D son variables3 3 3 3aleatorias independientes normales con media = - y varianza = . . . 5 5H " #

# #H "

+ 2 . Bajo estas consideraciones =0 si y sólo si = y5 35 5 . . .## " # H " #

podemos usar el Teorema 6.6 para probar hipótesis acerca de = .. . .H " #Este test se llama test t-pareado y lo presentamos en el siguiente teorema.

Teorema 7.5. (Test t-pareado) Supongamos que (X ,Y ), i=1,..,n es una3 3

muestra aleatoria de un vector normal bivariante (X,Y) con parámetros , ,. ." #

5 5 3# #" #, y . Definamos

D = X Y , i=1,...,n; = ;3 3 3 H " # . . .

D = y S = _ ! !D (D -D)

_3 3

#

n n-1#H Þ

Entonces T= se distribuye t-student con n-1 grados de libertad.(D ) n_

S.H

H

È

Esta distribución puede usarse para probar hipótesis como las indicadas en laTabla 7.6, para un tamaño de error de tipo I igual a .!

Tabla 7.6. Comparación de medias. Muestras Dependientes

Test H H RC

1 > > t

2 <

0 1

-. . . .

. . . .

" # " # "

! !

Ÿ

 

d n_

s

d n_

s

È

ÈH

H

!

< t = -t

3 = > t

! !

!

"

! ! " Î#

-

-. . . .Á | | d n_

sÈH

Page 263: Libro Estadistica

263

Ejemplo. Los datos que aparecen en la Tabla 7.7 corresponden a las lecturas decontenidos de mercurio en un cierto volumen de agua, medido con dosinstrumentos diferentes. Estamos interesados en averiguar si ambosinstrumentos proporcionan medidas similares sobre el contenido de mercurio.

Tabla 7.7. Mediciones de Mercurio Instr.1 Instr.2 diferencia Instr.1 Instr.2 diferencia

28.2 28.7 0.05 57.9 57.88 -0.0233.95 33.99 0.04 51.52 51.52 0.0038.25 38.20 -0.05 49.52 49.52 0.0042.52 42.42 -.10 53.99 52.19 -0.0137.62 37.64 0.02 54.04 53.99 -0.0536.84 36.85 0.02 56.00 56.04 0.0436.12 36.21 0.09 57.62 57.65 0.0335.11 35.20 0.09 34.30 34.39 0.0934.45 34.40 -0.05 41.73 41.78 0.0552.83 53.86 0.03 44.44 44.44 0.0046.48 46.47 -0.01

Si X e Y representan el contenido de mercurio en el agua medido por elinstrumento 1 y 2, respectivamente, y si suponemos los datos presentados en laTabla 7.7 corresponden a una muestra aleatoria de un vector normal bivariante(X,Y) con parámetros , , , y , de acuerdo con el planteamiento,. . 5 5 3" #

# #" #

deseamos probar una hipótesis del tipo

H : = , Vs. H : .! " # " #. . . .1 Á

El estadístico de prueba, para este caso, tiene la forma

T = tD n_

S n-ÈH

µ Ð "Ñ

De la tabla encontramos que d = 0.0086 y s = 0.00289, luego el valor_

#d

observado del estadístico de prueba es t = 0.0086 21 / .00289 = 0.7809. SiÈ Ètomamos = 0.1, encontramos de la tabla t-student con 20 grados de libertad!t =1.725 y como 0.7809 no cae en la región crítica no podemos rechazar H .!Þ!& !

El valor observado del estadístico T nos proporciona un valor-p > 0.20, por loque concluímos que la muestra considerada no contiene evidencia en contra dela hipótesis de que ambos instrumentos tienen igual precisión.

EJERCICIOS

Page 264: Libro Estadistica

264

1.- Considere el problema de probar la hipótesis H : = 8 vs H : =14,! ". .basándose en una muestra aleatoria de una población normal con varianzaunitaria.a) Encuentre la región crítica cuando =0.0.1 y n=24.!b) Dibuje la función de potenciac) ¿Qué tamaño de muestra sería necesario considerar si deseamos tener =0.05 y =0.1?.! "

2. Como parte de un proyecto de investigación, un psicólogo seleccionó unamuestra aleatoria de 12 niñas y 9 niños. Luego le pidió a cada individuo quedibujara una figura masculina. El tiempo promedio que ocuparon las mujeresfue de 8 minutos, con una varianza de 18. Para los hombres el tiempo promediofue de 13 minutos, con una varianza de 22.5. ¿Indican estos datos que loshombres, en promedio gastan más tiempo dibujando una figura masculina quelas mujeres?. Suponga que las poblaciones respectivas tienen distribuciónnormal.

3. Suponga que se estudia la posibilidad de comprar una máquina nueva parafabricar ciertos tornillos. Se comprará la máquina si la proporción de tornillosque muestran alguna falla en el proceso de control es menor o igual que un10%. Se examina una muestra de 25 tornillos fabricados por dicha máquina, delos cuales 4 fueron defectuosos. ¿Se puede inferir que la máquina satisface lascondiciones exigidas?.

4. Un proveedor vende fibras naturales a una fábrica, afirmando que tiene unaresistencia media de 33 lb.. Una muestra aleatoria de 9 fibras proporciona unaresistencia media de 30 lb. y una varianza de 64. Con esta información, ¿sepuede descartar la pretensión del vendedor a un nivel de significación de un5%?. Si se fija el punto crítico en 31 lbs. ¿Cuál es la probabilidad de error tipoI?.

5. En un día dado se cambia el aceite lubricante en una máquina de avión; elnuevo aceite contenía 30 ppm de plomo. Después de 25 hrs. de vuelo, sesacaron 11 muestras pequeñas de aceite y se quemaron en un espectrómetropara determinar el nivel de contaminación de plomo presente. Las lecturasobservadas en el espectrómetro fueron: 34.9, 37.4, 40.1, 39.2, 34.4, 25.1, 40.7,34.5, 30.6, 33.2 Y 34.0. Suponiendo normalidad, ¿deberìamos aceptar laafirmación que el contenido medio de plomo es 30 ppm?.

6. Bajo los mismos supuestos y datos del problema anterior, pruebe la hipótesisque la desviación estándar es a lo más 4ppm.

7. Una compañía envasadora de pescado congelado va a ser investigada por elServicio Nacional del Consumidor (SERNAC). Cada paquete de pescado lleva

Page 265: Libro Estadistica

265

una etiqueta que marca 12 kg. Un consumidor afirma que esto no es verdadero.El SERNAC revisa 100 paquetes envasados por esta compañía encontrando:! !x =1150 kg., x =13249.75 kg . ¿Aceptará o rechazará el SERNAC las3

# #3

especificaciones de la envasadora?.

8. Una empresa compra lingotes de acero a una siderúrgica, exigiendo en lasespecificaciones que el peso medio sea de 100 kg. con una desviación estándarde 4 kg. Al recibir una partida grande de lingotes, se toma una muestra al azarde 25 lingotes y se aceptará la partida si el peso medio observado es superior oigual a 98 kg. Determinara) El nivel de significación que implica el criterio utilizado.b) La probabilidad de un error tipo II, , si la verdadera media fuera 97 kg."c) La región crítica, si se considera un nivel de significación = 0.04, una! muestra de tamaño 16 y la hipótesis alternativa <100..

9. Considere la prueba de hipótesis H : =1 vs H : 1. Basándose en una! ". . Ámuestra de tamaño 25 de una población normal con varianza unitaria y un nivelde significación 0.05. Determinar:a) El valor de k si se considera la región crítica: | x-1|>k.

_

b) Los puntos críticos a y b tales que la región crítica es {x/x>b ó x<a}._ _ _

10. La fábrica de calzados ABC tiene una cadena de tiendas de ventas al detalleen diversas ciudades de Chile. La política de ABC es no establecer una tiendade venta en aquellas ciudades que no le reporten, con un 99% de certeza, unaventa total anual de al menos $5.000.000. La fábrica está considerando laposibilidad de instalar una tienda de venta en Chillán, que es una ciudad de20.000 familias, para lo cual selecciona una muestra de 49 familias que tienenun gasto medio familiar de $30.000 en calzado durante un año, con unadesviación estándar de $10.000. Basada en esta información, debe la fábricaABC abrir una tienda en Chillán?.

11. Se realiza una investigación para determinar la acumulación de DDT en lascélulas cerebrales de una variedad de aves. Muestras de tamaño n =10 de la"

categoría juveniles y n =13 de adultos, proporcionan los siguientes resultados:#

Juveniles Adultos n =10 n =13" #

y =0.041 ppm y =0.026 ppm_ _" #

s =0.017 s =0.006" #

Algunos investigadores opinan que los juveniles deberían tener una mayorconcentración media de DDT que los adultos. Determine la veracidad de estaopinión estableciendo las hipótesis adecuadas y desarrollando las pruebaspertinentes. ¿Existe suficiente evidencia como para concluir que laconcentración en las células cerebrales de los juveniles excede de la de losadultos en más de 0.01 ppm?.

Page 266: Libro Estadistica

266

12. En un estudio sobre contaminación ambiental se tomaron muestras de aireen dos localidades A y B, en un mismo día y a la misma hora. El análisis deestas muestras dieron los siguientes resultados, para el número de partículas demateria presente en el aire, en mgr/m .$

Localidad A 81 96 67 74 77 Localidad B 51 70 42 37 55

a) Con los resultados obtenidos, ¿se puede concluir que la contaminación es significativamente diferente en ambas localidades?b) Si la cantidad promedio de partículas en el aire sobrepasa los 75 mgr/m$

en la localidad A, se considera crítico para la población. Con la información proporcionada por la muestra, y si la varianza poblacional es (100mgr/m ) , ¿deben las autoridades tomar alguna medida para reducir$ #

la contaminación?.c) Con la decisión tomada en (b) y si la verdadera cantidad promedio de materia en ese día era 80 mgr/m , ¿cuál es la probabilidad de cometer$

error de tipo II?.

13. Estamos interesados en comparar la resistencia a la tensión de dos tipos deacero producidos por una empresa siderúrgica. Para este efecto, consideremosmuestras de tamaño 40 y 32, para los tipos 1 y 2, cuyas medias fueron 18.12 y16.87 kg/cm , respectivamente.#

a) Si =1.6 y =1.4. ¿podemos concluir que hay diferencias en la5 5" #

resistencia media para estos tipos de acero?. Use =0.01.!b) Determinar la probabilidad de cometer un error de tipo II si - =1.. ." #

c) Queremos emplear un nivel de significación de 0.05 y un =0.1 cuando" - =1. Si n =40, ¿Qué valor se requiere para n ?.. ." # " #

d) ¿Cómo modificaría su respuesta a la parte (a) si sólo se dispone de información muestral tal que s =1.6 y s =1.4?." #

14. En una encuesta de opinión, entre 300 conductores residentes enConcepción, 63 de ellos son partidarios de aumentar el límite de velocidad enlas zonas rurales de 80 a 90 km/hr. De 180 conductores residentes fuera de laciudad, 75 son partidarios de esta medida. ¿Coinciden las opiniones de losresidentes en la ciudad con la de los residentes fuera de ella?. Use =0.05.!

15. Dos tipos de soluciones químicas A y B fueron ensayados para determinarel pH. Una muestra de tamaño 6 para solucionar tipo A proporcionó una mediade 7.52; y una muestra de tamaño 5 con la tipo B proporcionó una media de7.49. Si las desviaciones estándar poblacionales son 0.024 y 0.032,respectivamente, ¿podría concluirse que no hay diferencias significativas entrelas soluciones para determinar la cantidad de pH?.

Page 267: Libro Estadistica

267

16. Para eliminar la humedad de un producto de madera, se realizaron dos tiposde secado, se registraron los pesos anteriores al secado y los posteriores almismo, y los porcentajes de pérdida de peso servían para medir la eficacia deambos tipos de condiciones de secado. Las condiciones del secado tipo Aprodujeron en una muestra 20 unidades, una varianza muestral de 10 y unamuestra de 25 unidades de las condiciones de secado del tipo B produjo unavarianza de 30. Comprobar la hipótesis que las condiciones de tipo A sonmejores que las de tipo B, empleando un nivel de significación de 0.05.

17. Un fabricante de transistores asegura que la duración de los transistores,sometidos a uso continuado, presentan una varianza menor igual a 25 horas.Con el objeto de verificar esta información, se somete a prueba cierto númerode transistores.a) Determine la región crítica para una muestra aleatoria de tamaño 25 y un nivel de significación de 0.05.b) Si la muestra de tamaño 25 arrojó una varianza de 36, calcular la probabilidad de cometer un error tipo II, considerando la alternativa =30.7.5#

18. Un distribuidor de gasolina asegura que, para cierto tipo de gasolina, lavarianza en el rendimiento es 50, cuando es utilizada en automóviles. Con elobjeto de verificar la exactitud de la información dada por el distribuidor, unautomovilista efectúa una prueba estadística. Si el automovilista considera unamuestra de tamaño 21 y una hipótesis alternativa que la varianza es igual a 60,determinar la potencia del test utilizando como región {s /s >80}.# #

19. Después de varios años de trabajo, una máquina que produce cierto tipo devaso, genera un promedio de 10% de unidades defectuosas. El ingeniero decontrol de calidad sospecha que últimamente la calidad de los vasos se hadeteriorado. Para verificarlo, selecciona una muestra aleatoria de 100 vasosproducidos por esta máquina, de los cuales 14 resultaron defectuosos. ¿Puedeconcluir el ingeniero que la calidad de los vasos se ha deteriorado?. Use! œ 0.05.

20. La cantidad de nicotina contenida en cigarrillos marca A se distribuyenormal. Se seleccionan al azar 6 de estos cigarrillos, midiéndoles el contenidode nicotina en mgr., registrándose los siguientes valores: 20.2, 19.8, 18.0,17.2, 18.3, y 18.8.a) Si un señor que fuma dichos cigarrillos está dispuesto a dejar de fumar si la cantidad promedio de nicotina es mayor que 18 mgr. De acuerdo a los resultados de la muestra, ¿qué decisión toma este señor?.b) Si en la pregunta (a) el señor decide dejar de fumar si el valor crítico es de 18.5 mgr. ¿cuál sería la probabilidad de cometer un error de tipo I?. ¿Cuál sería la probabilidad de cometer un error de tipo II, si la verdadera media es 18.3 mgr.?.

Page 268: Libro Estadistica

268

CAPITULO VIIIAJUSTE DE DISTRIBUCIONES Y TABLAS DE CONTINGENCIA

Los procedimientos desarrollados para la estimación de parámetros presuponeuna distribución hipotética para la población. Si tal distribución no es lacorrecta, el modelo probabilístico resultante, independientemente del métodode estimación utilizado, puede resultar irreal y dar una pobre representación delfenómeno físico o natural en estudio.

En esta sección desarrollaremos algunos métodos básicos para contrastar overificar una distribución de probabilidades de una población basándose en unamuestra extraída desde la población. El problema de verificación dedistribuciones basados en la información muestral cae dentro del esquema depruebas de hipótesis que ya hemos desarrollado.

Una forma sencilla y rápida de abordar el problema es, por medio dehistogramas y diagramas de frecuencias, comparando graficamente ladistribución hipotética y la de los datos observados.

Si n ensayos multinomiales se realizan, cada uno con las mismasprobabilidades p ,...., p y si definimos Y = nº de veces que se observa el1 k iresultado i, i=1,...,k. Entonces (Y ,...,Y ) es un vector multinomial de1 kparámetros (n,p ,.....,p ), y su función de probabilidad es1 k

p(y ,y ,.....,y ) = p p ..... p .1 2 k 1 2y yy

kn!

y !y !.....y !1 2 k 1 2 k

Donde y = 0,1,2,....,n ; y =n ; p =1i i ii=1 i=1

k k! !De la sección 4.7, sabemos que si (Y ,...,Y ) se distribuye Multinomial1 k(n,p ,..,p ), entonces cada Y se distribuye Binomial (n,p ).1 k i i

8.1. Test de Bondad de Ajuste;#

Como ya hemos mencionado, el problema consiste en contrastar una hipótesisH que especifica la distribución de probabilidad para una población X vs. la!

alternativa que la distribución de probabilidad no es del tipo establecido,basándose en una muestra de tamaño n de la población X. Uno de los test másversátiles y populares para este propósito es el test de bondad de ajuste Chi-cuadrado ( ) introducido por K. Pearson (1900).;#

Page 269: Libro Estadistica

269

En la aplicación de este test debemos distinguir dos casos: cuando ladistribución hipotética está completamente especificada con todos losparámetros conocidos; y cuando la distribución no está completamenteidentificada y debemos estimar los parámetros desde los datos.

Veamos primero el caso de parámetros conocidos. Supongamos que ladistribución supuesta está completamente identificada con todos sus parámetrosconocidos. En el test , el estadístico de prueba surge de comparar las;#

frecuencias observadas y las frecuencias esperadas, de pertenecer a undeterminado subconjunto del espacio de valores de la variable en ladistribución específicada por la hipótesis nula.

Supongamos que disponemos de n observaciones de una variable aleatoria X.Dividamos el rango de X en k intervalos mutuamente excluyentes: A ,...,A , y" ksea N el número de observaciones x que caen en A , i=1,k. El valor observadoi ide la variable aleatoria N corresponde a la frecuencia observada que aludíamosianteriormente y N =n.!k

i iœ"

(N , N ,...,N ) es un vector multinomial de parámetros (n, p , p ,...,p ), donde" # 5 " # kp =P(X A ) = P(A ) bajo la hipótesis nula. Cada N tiene distribucióni i i i −binomial de parámetros (n, p ), y por lo tanto media np (frecuencia esperada).i i

De las consideraciones anteriores veremos que el estadístico de pruebaapropiado es

D = ,!53œ" (N np )

npi i

i

#

por el razonamiento siguiente:

Una vez observado (N ,...,N ), podemos calcular el valor observado de D bajo" kH , y si encontramos que este valor es muy grande (mayor que alguna!

constante por especificar), indicaría que hay grandes diferencias entre lasfrecuencias observadas y esperadas, por lo que rechazamos H . La razón de0proceder de esta manera es que si H es verdadera, debería tenerse que E(N )=! inp para todo i=1,..,k. lo que conduciría a un valor observado de D pequeño.i

Podemos encontrar la distribución de D utilizando el siguiente teorema.

Teorema 8.1. Si (N ,...,N ) se distribuye multinomial de parámetros (n, p ," "kp ,...,p ), entonces la distribución de la variable# k

D = !53œ"

(N np )np

3 3#

3

se puede aproximar por una distribución con k 1 grados de libertad,;# cuando n tiende a infinito.

Page 270: Libro Estadistica

270

Considerando que n es grande verifiquemos el teorema para k=2 .

Si k=2

D = (N np ) (N np )np np

" " # ## #

" #

+

Como N +N =n y p +p = 1, podemos escribir" # " #

D = (N np ) (n N n(1 p ))np np

" " " "# #

" #

+

+ = (N np ) " "# Š ‹1 1

np np" #

= (N np )np (1 p )

" "#

"

1

Ahora, N corresponde al número de éxitos en n ensayos Bernoulli con"

probabilidad de éxito p . Así, N es una variable aleatoria Binomial con" "

parámetros n y p . Entonces E(N ) = np y Var (N ) = np (1 p ), si H es" " " " " " !verdadera.

Si n aumenta, N tiende a una distribución normal por el teorema central del"

límite. De aquí, la distribución de la variable aleatoria U definida por

U= , tiende a la N(0,1) cuando n . N npnp (1 p )

"

" "

1È p _

Por lo tanto, D=U tiende a la distribución con 1 grado de libertad, y la# #;demostración está completa para k=2. Para el caso general se procede en formasimilar.

En general, la distribución chi-cuadrado es una muy buena aproximación de ladistribución de D si np 5 para todo i = 1,k , lo que implica que n 5k. Sii    k 5, es posible permitir que una de las frecuencias esperadas, np , sea tan 3

pequeña como 1 (exigiendo que las otras frecuencias esperadas sean 5 o más) ytodavía la distribución de la variable D estará bien aproximada por ladistribución con k-1 grados de libertad.;#

Utilizando el Teorema 8.1 podemos construir un test para probar la hipótesisH , asignando una probabilidad de error de tipo I igual a . Entonces el test! !sugiere rechazar H si!

D = > c - !53œ"

(n -np )np3 3

#

3;#" !

Page 271: Libro Estadistica

271

donde D es el valor muestral basado en los datos x ,...,x y es el percentilc n -"#"; !

1- de la distribución Chi-cuadrado con k-1 grados de libertad.!

A continuación damos un procedimiento paso a paso para efectuar un test;#cuando la distribución de la población X está completamente especificada.

1) Dividir el rango de X en k intervalos, A , i=1,k mutuamentei excluyentes. Determinar, el número de valores muestrales n (frecuenciai observada) en cada A .i2) Calcular las probabilidades p =P(A ), i=1,k utilizando la distribucióni i supuesta bajo H . Como regla, si np (frecuencia esperada) en A es! i i menor que 5, combinar el intervalo A con A o A .i i- i" "

3) Calcular D = c !53œ"

(n -np )np3 3

:

3 .

4) Fijar y buscar en tablas el valor de con k-1 grados.! ;#"-!

5) Rechazar la hipótesis H si D > . Aceptar H en otro caso.! !#"c -; !

Ejemplo. Se prueban 300 ampolletas para analizar sus tiempos de vida t (enhoras), y los resultados aparecen en la Tabla 8.1. Supongamos que para eltiempo de vida t se postula que su distribución es exponencial con un tiempomedio de vida de 200 hrs.; esto es = 0.005 y-

f (t) = 0.005 e , t >0T- . t! !!&

Queremos probar esta hipótesis, utilizando el test al 5% de nivel de;#

significación.

Tabla 8.1 Tiempos de vida de ampolletas

Tiempo de vida t Nº de Ampolletas (n )

A : t < 100 121

A : 100 t <200 78

A : 200 t<300

i

1

2

3

Ÿ

Ÿ 43

A : 300 t 584 Ÿ

La Tabla 8.1 ya proporciona el paso 1, esto es, tenemos k=4 intervalosmutuamente excluyentes con sus respectivas frecuencias n .i

Los pasos 2 y 3 se muestran en la Tabla 8.2 y por ejemplo

Page 272: Libro Estadistica

272

p =P(A ) = 0.005 e dt = 1-e = 0.39" "

"!!

!

! !!&> ! &( - . - .

p = P(A ) = 0.005 e dt = 1 - e - 0.39 = 0.24# #

#!!

"!!

! !!&> "( - . -

Tabla 8.2. Cálculos de Dc

A n p np

t<100 121 0.39 117 0.1367

100 t<200 78 0.24 72 0.5000

200 t<300 43 0.15 45 0.0889

300 t 58 0.22 66 0.9697

Total 300 1.00 300 1

i i i i(n -np )

npi i

2

i

Ÿ

Ÿ

Ÿ

.6953=Dc

Por conveniencia, el número teórico de ocurrencia predicho por el modelo(frecuencia esperada bajo H ) aparece en la cuarta columna de la Tabla 8.2, el0cual es comparado con los valores dados en la segunda columna.

D = = 1.6953c !53œ"

(n -np )np3 3

#

3

Ahora k=4 y utilizando las tablas de la distribución chi-cuadrado con tresgrados de libertad, encontramos = 7.815. Dado que D < ,; ;# #

!Þ*& !Þ*&cdeberíamos aceptar la hipótesis que los datos observados representan unamuestra de una distribución exponencial con =0.005, al 5% de nivel de-significación.

Consideremos ahora una situación más común, aquella en que los parámetrosde la distribución supuesta también necesitan ser estimados desde los datos. Elprocedimiento natural para un test de bondad de ajuste es, primero, estimar losparámetros por alguno de los procedimientos ya estudiados para luego procedercomo un test para parámetros conocidos. Sin embargo, una complicación;#

surge por el hecho que las probabilidades teóricas p son funciones de la3

muestra; aparte de ser función de los parámetros de la distribución. Elestadístico D toma ahora la forma

D = !53œ"

(N - np )np3 3

#

3

ss

Page 273: Libro Estadistica

273

donde p es un estimador de p . Ahora D es una función de la muestra X ,...,Xs3 3 " nmucho más complicada. La pregunta importante que surge de inmediato es:¿Cuál es la nueva distribución de D?. El teorema siguiente nos proporciona larespuesta.

Teorema 8.2. Sea X ,...,X una muestra de una variable X, cuya distribucióm" ncontiene s parámetros desconocidos y cuyo espacio de valores es R . SeaXA ,..., A una partición de R y (N ,...,N ) el vector multinomial" "k X kcorrespondiente, con parámetros (n, p ,...,p ), donde p es P(X A ). Si" 4k j −p ,...,p son los estimadores máximo verosímiles de p ,...,p (determinados as s" "k kpartir de (N , N ,...,N )), entonces la distribución de" # k

D = !53œ"

(N -np )np3 3

#

3

ss

tiende a una distribución chi-cuadrado con k-s-1 grados de libertad, cuando ntiende a infinito.

El procedimiento paso a paso, para el caso en que s parámetros en ladistribución van a ser estimados desde los datos, es como sigue:

1.- Dividir el rango de X en k intervalos, A , i=1,k mutuamentei excluyentes. Determinar n para cada Ai i2.- Estimar los s parámetros por el método máximo verosímil, desde los datos.3.- Calcular las probabilidades P(A ) = p , i=1, k, con los valores estimadosi i de los parámetros.4.- Determinar D =. c !5

3œ"(n -np )

np3 3

#

3

ss

5.- Buscar en tablas el valor con k-s-1 grados de libertad, para fijo.; !#"-!

6.- Rechazar la hipótesis H si D > . Aceptar H en otro caso.! !#

"c 1- , k-s-; !

Ejemplo. Supongamos que los vehículos que llegan a ciertos puntos de laciudad de Concepción son registrados a intervalos de un minuto, durante 106ocasiones. Los resultados del estudio aparecen en la Tabla 8.3. La distribuciónhipotética es p (x) = , x=0, 1, 2,...X

ex!

.X -.

donde el parámetro necesita estimarse desde los datos. Así, s=1..

Tabla 8.3 Llegadas de vehículos por minuto Intervalos 1 2 3 4 5 6 7 8 9 10N 0 3 3 5 7 13 12 8 9 13i

Page 274: Libro Estadistica

274

Intervalos 11 12 13 14 15 16 17 18N 10 5 6 4 5 4 0 1i

Para proseguir, debemos determinar intervalos apropiados A tales que np 53 3s  ai; esto se muestra en la primera columna de la Tabla 8.4. De esta formaconstruimos k=11 intervalos.

El estimador máximo verosímil para está dado por:.

= x = x_

.s 1n!8

4œ" 4

= (0 0+1 0+2 1+...+17 0+18 1)/106† † † † †

= 9.09Con este valor, estimamos las probabilidades teóricas p . Por ejemplo,i

p = P(0 X<5) = P(X=j) = = 0.052s Ÿ"% %4œ! 4œ!

! ! e 9.0.j!

-*Þ!* 4

p = P(5 X<6) = 0.058.s Ÿ#

Estas probabilidades aparecen en la tercera columna de la Tabla 8.4.

Tabla 8.4 Tabla de cálculos de Dc

A n p np0 x<5 9 0.052 5.51 2.21055 x<6 7 0.058 6.15 0.11756 x<7 13 0.088 9.33 1.44367 x<8 12 0.115 12.19 0.00298 x<9 8 0.131 13.89 2.4

i i i i(n -np )

npi i

2

i

ŸŸŸŸŸ 976

9 x<10 9 0.132 13.99 1.779810 x<11 13 0.120 12.72 0.000611 x<12 10 0.099 10.49 0.022912 x<13 5 0.075 7.95 1.094613 x<14 6 0.054 5.72 0.013714 x 14

ŸŸŸŸŸŸ 0.076 8.06 4.3776

Total 106 1.000 106 13.5749

de la columna 5 de la Tabla 8.4 obtenemos

D = 13.5749,c

Page 275: Libro Estadistica

275

por otra parte, con k-s-1 =11-1-1 = 9 grados de libertad = 16.92 y como;#!Þ*&

D < , aceptamos la hipótesis que los datos provienen de una distribuciónc ;#!Þ*&

Poisson con =9.09, con un 5% de nivel de significación..

Es importante tener presente que el estadístico D en el test se distribuye;#

Chi-cuadrado sólo en forma asintótica; esto es, cuando n tiende a infinito. Así,él es un test para muestras grandes. En general, n>50 se considera satisfactoriopara completar los requerimientos de muestras grandes.

8.2. Test de Kolmogorov - Smirnov

El test de bondad de ajuste de Kolmogorov-Smirnov que denotaremos comotest K-S en lo que sigue, está basado en un estadístico que mide la desviaciónde la frecuencia acumulada observada, F, en relación a la función des

distribución (acumulada) F , supuesta en H .!!

Recordemos que, si tenemos un conjunto de valores muestrales x ,...,x de una" npoblación continua X, podemos construir un gráfico de frecuenciasacumuladas en la forma siguiente:

a) Ordenando los valores muestrales en orden creciente de magnitud; esto es,como x , x ,...,x .Ð"Ñ Ð#Ñ Ð Ñn

b) Determinando la función de distribución observada, F, de x ; i=1,n, comosÐ Ñi

F( ) =s x Ð Ñiin

c) Uniendo los valores de F(x ) mediante lineas rectas.sÐ Ñi

El test estadístico que utilizaremos en este caso es

K = max ( F(x )- F (x )| )± s Ð Ñ Ð Ñ!

i i

= max ( | F (x )| )in - !

Ð Ñi

donde x es el i-ésimo estadístico ordenado de la muestra.Ð Ñi

Notemos que el estadístico K mide la máxima diferencia, en valor absoluto,entre la función de distribución observada y la función de distribución teórica(postulada en la hipótesis nula), evaluada desde los valores muestrales. Sialgunos parámetros de la distribución son desconocidos, deben estimarse yluego se obtienen los valores de F (x ) utilizando los valores estimados de los!

Ð Ñiparámetros. Por otra parte, se puede probar que la distribución de

Page 276: Libro Estadistica

276

probabilidades de K es independiente de la distribución supuesta bajo lahipótesis nula, y es sólo función del tamaño muestral n.

El desarrollo del test K-S sigue ahora como el test Chi-cuadrado. Debemosespecificar , y la regla de decisión es: rechazar H si k > ; aceptar en otro! ! cn,!caso. Aquí, k es el valor muestral de K y es tal quecnß!

P(K> ) = .cnß! !

Los valores de para =0.001, 0.005, 0.10 aparecen en la Tabla 8.5, comocn,! !funciones de n.

Este test, a diferencia del test Chi-cuadrado que es para muestras grandes, esválido para todo n. Además, el test K-S utiliza valores muestrales en su formainalterada y desagregada, mientras que el agrupamiento de los datos esnecesario en la ejecución del test Chi-cuadrado. Como un aspecto negativo deltest K-S, tenemos que éste es válido sólo para distribuciones continuas.

También es importante decir que los valores de , dados en la Tabla 8.5,cn,!están obtenidos cuando la distribución hipotética está completamenteespecificada. Cuando los valores de los parámetros deben especificarse, noexiste un método riguroso de ajuste. En estos casos sólo se puede establecerque los valores de deberían reducirse algo. cn,!

El procedimiento paso a paso para realizar un test K-S es como sigue:

1. Ordenar los valores muestrales x ,...,x en orden creciente de magnitud" n y denotarlos por x ,...,x .Ð"Ñ Ð Ñn

2. Determinar la función de distribución observada F en cada x comosÐ Ñi

F( ) = .s x Ð Ñiin

3. Determinar la función de distribución teórica F en cada x utilizando la!Ð Ñi

función de distribución supuesta en H , estimando los parámetros desde!

los datos, si estos son desconocidos.

4. Formar las diferencias |F (x ) - F (x )|, i=1,n.sÐ Ñ Ð Ñ

!i i

5. Calcular k = max (|F (x )-F (x )|).sÐ Ñi

0(i)

6. Elegir un valor de , buscar en Tabla 8.5 el valor y rechazar la! cn,! hipótesis H si k > . Aceptar H en otro caso.! ! cn,!

Page 277: Libro Estadistica

277

La determinación del valor máximo en (5) requiere la enumeración de ncantidades. Se puede lograr una simplificación graficando F y F como unas !

función de x y observar la localización del máximo mediante una simpleÐ Ñiinspección.

Ejemplo. Se realizan 10 mediciones de la resistencia a la tensión de un tipo degasa biológica, obteniéndose las siguientes mediciones 30.1, 30.5, 28.7, 31.6,32.5, 29.0, 29.1, 27.4, 33.5, y 31.0. Basándonos en este conjunto de datos,queremos probar la hipótesis que la resistencia a la tensión sigue unadistribución normal, al 5% de nivel de significación.

Reordenando los datos tenemos x = 27.4, x = 28.7,..., x = 33.5. De aquíÐ"Ñ Ð#Ñ Ð"!Ñ

determinamos la distribución empírica F(x ). Por ejemplo,sÐ Ñi

F(27.4) = = 0.1, F(28.7) = 0.2, ..., F(33.5) = 1.s s s"10

Utilizando la función de distribución teórica; esto es, la especificada por lahipótesis nula, estimamos la media y la varianza mediante

= x = x = 30.3_

.s 1n!"!

4œ" 4

= ( )s = (x -30.3) = 3.14.5s# # #"!4œ" 4

n-1 1n 10

!

Los valores de F (x ) los determinamos ahora utilizando el hecho que X se!Ð Ñi

distribuye N(30.3, 3,14). Por ejemplo utilizando las tabla de la distribuciónnormal estándar tenemos:

F (27.4) = ( ) = (-1.64)!^ ^F F27.4-30.3

3.14È = 1- (1.64) = 1-0.9495 = 0.0505.F^

F (28.7) = ( ) = (-0.90)0 28.7-30.33.14

F F^ ^È =1- (0.90) = 1-0.8159 = 0.1841,F^

y así sucesivamente.

Page 278: Libro Estadistica

278

Para determinar k, es constructivo graficar F y F como funciones de x comos !Ð Ñi

en la Figura 8.1.

Figura 8.1.

Se ve claramente en la figura que la máxima diferencia entre F(x) y F (x)s !

ocurre en x = x = 29.1. LuegoÐ%Ñ

k=|F(29.1) - F (29.1)| = 0.4-0.2483 = 0.1517.s !

Como = 0.05 y n =10, de la Tabla 8.5 tenemos que = 0.41.! c"!ß!Þ!&

Como k< , no hay razón para rechazar la hipótesis que la muestrac"!ß!Þ!&

proviene de una distribución N(30.3, 3.14) al 5% de nivel.

Notemos que como los parámetros fueron estimados desde los datos, es másadecuado comparar k con un valor algo más pequeño que 0.41. Sin embargo, ennuestro caso k es bastante menor que 0.41, por lo que podemos estar seguros dela conclusión extraída.

Tabla 8.5 Valores de c , con P(K> ) = n, n,! !c !

Page 279: Libro Estadistica

279

n 0.10 0.05 0.015 0.51 0.56 0.6710 0.37 0.41 0.4915 0.30 0.34 0.4020 0.26 0.29 0.3525 0.24 0.26 0.3230 0.22 0.24 0.2940 0.19 0.

!

21 0.25n grande 1.22/ n 1.36/ n 1.63/ nÈ È È

8.3. Pruebas para verificar Normalidad

Uno de los supuestos más habituales que se hace en el análisis estadístico, es elde la normalidad de las observaciones. Existen, en este sentido, diversosenfoques que nos permiten con menor o mayor precisión, verificar la veracidadde la hipótesis de normalidad. Las pruebas más simples son aquellas que sóloconsideran un análisis gráfico, y están basados en histogramas y en el estudiode la función de distribución acumulada.

Histograma.La primera verificación de la normalidad de una distribución se realizaestudiando la forma del histograma de frecuencia correspondiente. Esta debeser simétrica y tener la forma (aproximadamente) de la figura 8.2.

Figura 8.2.

Si bien habitualmente los histogramas no presentan la perfecta simetría de lafigura anterior, es posible aceptar pequeñas desviaciones respecto de ella, sinque ello signifique que debamos sospechar falta de normalidad.

Función de Distribución.

Page 280: Libro Estadistica

280

La función de distribución acumulada (x) = P(X<x) de una distribuciónFnormal tiene la forma dada en la Figura 8.3.

Figura 8.3.

Si (x) se grafica en la escala de probabilidad normal, y la distribución de laFvariable aleatoria es normal. La curva de la función de distribución acumuladadebe corresponder aproximadamente a una línea recta, como se muestra en laFigura 8.4.

Figura 8.4.

Nuevamente, pequeñas desviaciones respecto de la línea recta, nonecesariamente significa falta de normalidad. Debemos poner especialatención, sin embargo, a desviaciones en los extremos de la recta, pues ello esuna indicación de asimetría de la distribución.

Método de la Asimetría.Este método utiliza directamente la definición de asimetría para generar unestadístico de prueba. En efecto, recordemos que el coeficiente de asimetríamuestral es

SK = , donde S = (X -X) /n ._!(X - X) /

_ 2

ii

$ nS$

! #

Page 281: Libro Estadistica

281

Dado que la distribución muestral del estadístico SK, tiene media igual a cero,cuando se muestrea desde una población con distribución normal, se puedeutilizar este hecho directamente para verificar la normalidad de la muestra.

Para muestras grandes, n 50, la distribución de SK es aproximadamente normal con media cero y varianza aproximada de 6/n. Luego rechazamosnormalidad si el valor observado de SK es significativamente distinto de 0; estoes, si el valor-p es muy pequeño.

CurtosisEl grado de apuntamiento, concentración de probabilidad cerca de la moda, semide por el coeficiente de curtosis.

K= .!(X -X) /_

i% n

S%

El coeficiente de curtosis es un número cuya magnitud nos indica si los datosse distribuyen simétricamente de forma normal, más empinados que la curvanormal o más aplanados que la curva normal.

Este coeficiente toma el valor 3 para una distribución normal. Para muestrasgrandes, n 200, K se distribuye aproximadamente normal con media 3 (valor teórico del coeficiente de curtosis en una distribución normal) y varianza iguala 24/n

Por lo tanto, rechazaremos normalidad si el valor observado de K es muydiferente de 3. De hecho, un valor de k >3 implica una distribución máspuntiaguda (empinada) que la distribución normal. En cambio, si k<3 implicauna distribución más plana que la distribución normal.

La caractrística esencial de estas pruebas de hipótesis es que sólo sirven paramedir la no-normalidad.

Prueba de Shapiro y WilksLos tests Chi cuadrados y de Komogorov-Smirnov son apropiados sólo paramuestras suficientemente grande. Si sólo se dispone de una muestra pequeña eltest de Shapiro- Wilks es recomendable. Este test nos proporciona una medida de ajuste entre la linealidad de la rectagenerada al graficar la función de distribución acumulada sobre papel deprobabilidades. Se rechaza normalidad cuando el ajuste es bajo, quecorresponde a valores pequeños del estadístico de prueba:

W = ( a ( x - x )) /ns!j=1

h j,n (n-j+1) (j)

2 2

Page 282: Libro Estadistica

282

donde ns = (x -x) ; h es n/2 si n es par y (n-1)/2 si n es impar; los-2 2i !

coeficientes a están tabulados en la Tabla V. La distribución de W sej,nencuentra en la Tabla VI y se rechaza la normalidad cuando el valor calculadoes menor que el valor crítico dado en las tablas.

.8.4. Tablas de Contingencia

En muchos casos los resultados de ensayos multinomiales pueden serclasificados de acuerdo a dos (o más) criterios, por ejemplo, un votante en unaelección presidencial puede ser clasificado considerando su candidato favoritoo de acuerdo a su partido de afiliación. Un consumidor de un producto dadopuede ser clasificado de acuerdo a su edad o de acuerdo a la marca de supreferencia.

Cuando los ensayos multinomiales pueden ser clasificados de acuerdo a doscriterios, es de interés averiguar si los dos criterios son independientes (y sepuede usar directamente el teorema 8.2). Supongamos entonces que tenemosensayos multinomiales independientes en que cada ensayo resulta en uno de k(=rc) resultados distintos. Sea N el n°de ensayos cuyos resultados caen en el34

nivel i del primer criterio y en el nivel j del segundo criterio , i=1,2,..,r ;j=1,2,,..,c y sea p la probabilidad de ocurrencia de estos niveles. Estos34

resultados se acostumbran a representar en una tabla de doble entrada, llamadaTabla de Contingencia, como en la Tabla 8.6. Las filas representan los nivelesdel primer factor y las columnas los niveles del segundo factor.

Tabla 8.6 Tabla de Contingencia de rcÞ

1 2 1 ... j ... c total 1 N ... N ... N N ... ... ... ... ... i N ... N ... N N ... ... ... ... ... r N ... N ... N

er do

11 1j 1c 1

i1 ij ic i

r1 rj r

Ï

.

.

c r

1 j c

Ntotal N ... N ... N n

.

. . .

Sean p = p p = p las probabilidades de ocurrencia de los niveles3 34 4 34

-

4œ" 3. .! !C

i, j del primer y segundo factor, respectivamente.

Si los dos criterios de clasificación son independientes, entonces debe tenerseque

Page 283: Libro Estadistica

283

p = p p (i, j)34 3 4. . a Þ

Por lo tanto para probar independencia de los dos criterios en una tabla deßcontingencia, tenemos que probar

H : p = p p (i, j) v.s H : H es falso.! 34 3 4 " !. . a

Como ya dijimos, podemos usar el Teorema 8.2 para efectuar esta prueba deindependencia.

Sea N , i=1, r ; j=1, c los componentes del vector multinomial con parámetro n34

y p . Luego si H es verdadero, los estimadores máximos verosímiles de p y34 ! 3. p son.j

p = = y p = ,s s3 4. .Nn n n

NN3

-

4œ"34

4. .

!respectivamente, de manera que el estimador maximo verosímil de p cuando34

H es verdadero eso

p = p p = = s s s†34 3 4. .Nn n n

N N N3 4 3 4#

. . . .

y así , el estimador máximo verosímil de la frecuencia esperada, np , es34

np = np p = n = s s s34 3 4. .N N N N

n n3 4 3 4#

. . . .

Usando el Teorema 8.2 tenemos

U = !!3 4

#5 "

(N - N N / n )( ) - -s

34 3 4#

3 4

. .. .N Nn

µÞ ;

Aquí k = rc, s = [(r-1)+(c-1)] y por tanto

k-1-s = rc-1-(r-1+c-1) = (r 1)(c 1).

Notemos que el valor de s es (r-1)+(c-1) ya que solamente necesitamos estimarp , p ,..., p ya que p = 1 y p ...p ya que p =1." # < 3 " - " 4-1 -! !. . . .

Nuevamente, rechazamos H si encontramos que U .! -#" Ð<"ÑÐ-"Ñ  ; - ,!

Ejemplo. Se realizó una encuesta a 100 pa ientes en un gran hospital para-determinar si hay o no conección entre el hábito de fumar y el cáncer alpulmón. Cada paciente es clasificado como fumador o no fumador y si tienecáncer al pulmón o no. Deseamos contrastar

Page 284: Libro Estadistica

284

H : Existe independencia entre hábito de fumar y cáncer al pulmónoversus H : No hay independencia1

Se resumió la información (frecuencias observadas) en la siguente tabla decontingencia

Fumador Cáncer Si No TotalSi 15 25 40No 5 55 60Total 20 80 100

Ï

Las frecuencias esperadas (estimadas) por celdas son:

np = =8; np = =32;s s11 1220 .40 80.40100 100

np = =12; np = =48s s21 2220.60 60.80100 100

y el estadístico de prueba es

U = + + + = 12.76-(15-8) (25-32) (5-12) (55-48)

8 32 12 48# # # #

Si =0.05 obtenemos = 3.84 y como U =12.76 > 3.84 rechazamos H y! ;#!Þ*&ß" - !

concluímos que, en la población de la cual provienen los datos, hay evidenciaestadística de dependencia entre las dos categorías de la tabla de contingencia;esto es, entre el cáncer al pulmón y el hábito de fumar. Por otra parte, v-p =P( 12.76) < 0.001, lo que concuerda con la decisión de rechazar H .;#

" ! 

8.5. Test de Homogeneidad de Poblaciones

Las tablas de contingencia estadística también pueden utilizarse para probarque poblaciones diferentes tienen todas las misma ley de probabilidades. Estetest usualmente se llama .test de homogeneidad de poblaciones

Supongamos que tenemos muestras aleatorias independientes de m poblacionesde tamaño n ,...,n , respectivamente. Sea X , i=1,...,m j=1,...,n los valores" m ij imuestrales y A ,...,A una partición de R , el recorrido común de todas las" k Xpoblaciones. Definamos

N = frecuencia observada de la muestra i, (de la población i), queir pertenecen a la clase r.

Page 285: Libro Estadistica

285

Así, por ejemplo, N = frecuencia de la muestra 1 que pertenece a D , N ="" "$1frecuencia de la muestra 1 que pertenece a D$

Así, las frecuencias para la muestra i, (N ,...,N ), define un vector multinomiali1 ikcon parámetros n y p ,...,p para i=1,...,m. Como las muestras originales soni i1 ikindependientes estos vectores multinomiales son independientes.

Ahora, si todas las muestras provienen de poblaciones con la misma ley deprobabilidad (hipótesis H ) se sigue que!

p = p = p = ...= p = P(pertenecer a A )"" #" " " "3 m

p = p = p =...= p = P(pertenecer a A )"# ## $# # # m ã p = p = p =... = p = P(pertenecer.en A );" # $ 5k k k mk

esto es, la probabilildad que un valor muestral pertenezca a A , por ejemplo, es<

la misma (digamos p ) sin importar de que población fue seleccionada. Se<

puede probar que los estimadores máximo verosímiles para p , p ,...,p están" # 5

dados por

p = = N ; r =1,2,..., ks<œ"

3<N r 1

n n

m

i

.!mj

jœ"

!

que representa la proporción de todas las observaciones que pertenecen a A .<El estimador máximo verosímil para la frecuencia esperada de la muestra i quepertenecen a A ; esto es, el estimador de E(N ), es n si H es verdadero.< !ir i

Nnir

Nuevamente, con N dispuestos en una matriz mxk, la frecuencia esperada esirsimplemente el producto de los totales de la fila i y columna r dividido por eltamaño de muestra total n = n .! i

Para cualquier i fijo

U = i !5<œ"

(N -np )np

ir irir

#

se distribuye aproximadamente con k-1 grados de libertad., y por laÞ;#

independencia de las muestras

U = U = ! !!7

3œ"3

3 <

(N - np )np

ir irir

#

se distribuye aproximadamente con m(k-1) grados de libertad.Þ ;#

Page 286: Libro Estadistica

286

Notemos que para calcular los estimadores de las frecuencias esperadas,debemos estimar p ,p ,...,p de manera que perdemos s = k-1 grados de libertad1 2 k , ya que p +p +...+p =1, y por Teorema 8.2 1 2 k

U = ! !m

i

n

œ" <œ"

i (N - np )np

ir ir

ir

ss

#

se distribuye aproximadamente con m(k-1) - (k-1) = (m-1)(k-1).Þ ;#

Así, rechazaremos H , si U , (m-1) (k-1)!#"  ; -!

Ejemplo Los fabricantes A, B y C producen ampolletas de 60 watts y todosafirman que éstas tienen la misma duración promedio. Para probar estaafirmación se consideró una muestra aleatoria. de n = 50 ampolletas de A , n" #

= 60 de B y n = 50 de C y se sometieron a prueba. Los tiempos observados$

para las 160 ampolletas probadas están resumidos en la siguente tabla decontingencia, donde aparecen las frecuencias esperadas entre paréntesis :

Duración de las ampolletas

Fabricante A :x 700 A :700< x 750 A : 750 < x 800 A :x> 800 Total

A 2 (3.4375) 20 (16.5625) 25 (21.2500

1 2 3 4Ÿ Ÿ Ÿ

) 3 (8.7500) 50

B 7 (4.1250) 18 (19.8750) 22 (25.5000 ) 13 (10.5000) 60

C 2 (3.4375) 15 (16.5625) 21 (21.2500) 12 (8.7500) 50

Total 11 53 68 28 160

El contraste de hipótesis en este caso es

H : p = p = p = P(X 700) = p! " " " "A B C Ÿ p = p = p = P(700<X 750) = pA B C# # # #Ÿ p = p = p = P(750<X 800) = pA3 B3 C3 3Ÿ p = p = p = P(X>800) = pA4 B4 C4 4 versus H H es falsa, esto es, la duración depende del tipo de fabricante.1: o

El estadístico de prueba toma el valor U =10.97 y para un nivel dec

significación de = 0.05 obtenemos de la tabla con 6 grados de libertad! ;2

; !20.95 o=12.6, por lo que deberíamos aceptar H , en cambio si = 0.01,

;20.90 o=10.6 y estaríamos rechando H . El valor -p en este caso es tal que

0.05 <P(U>10.97)<0.10.

Page 287: Libro Estadistica

287

EJERCICIOS

1. Use el test Chi-cuadrado con 6 intervalos equiprobables bajo H , para probar0que los siguientes 45 datos provienen de una población normal con media. 5=0.5 y =0.002.

.4974 .4976 .4991 .5014 .5008 .4993 .4994 .5010 .4997 .4993 .5013 .5000 .5017 .4984 .4967 .5028 .4975 .5013 .4972 .5047 .5069 .4977 .4961 .4987 .4990 .4974 .5008 .5000 .4967 .4977 .4992 .5007 .4975 .4998 .5000 .5008 .5021 .4959 .5015 .5012 .5056 .4991 .5006 .4987 .4968.

2. Un generador de números aleatorios fue usado para generar 1000 números enel intervalo (0,1). Los números generados son como sigue:

Intervalo (0, 0.1 (0.1, 0.2 (0.2, 0.3 (0.3, 0.4 (0.4, 0.5nºs generados 114 100 99 98 111

‘ ‘ ‘ ‘ ‘

Intervalo (0.5, 0.6 (0.6, 0.7 (0.7, 0.8 (0.8, 0.9 (0.9, 1.0nºs generados 104 106 95 92 81

‘ ‘ ‘ ‘ ‘Basado en esta muestra. ¿Aceptaría la hipótesis que este generador estátrabajando como debe?; esto es, ¿los números observados provienen realmentede una uniforme en (0, 1)?.

3. Utilizando el test de Kolmogorov-Smirnov, averigue si la muestra siguiente,correspondiente a tiempos de vida, proviene de una distribución exponencial.

16, 8, 12, 6, 10, 20, 7, 2, 24. 4. En una investigación de opinión pública, a 1000 habitantes de la ciudad deConcepción se les hizo la siguiente pregunta: ¿Cómo calificaría Usted eldesempeño del señor A, Alcalde de la ciudad: bueno, regular, malo?. Lasrespuestas clasificadas de acuerdo al nivel educacional de los encuestadosfueron:

Distribución de respuestas según nivel educacional

Page 288: Libro Estadistica

288

Básico Medio Universitario Total

Bueno 82 427 191 700

Regular 10 110 60 180

Malo 8 63 49 120

Total 100 600 300 1000

Utilizando un nivel de significación de 0.05, ¿Se puede concluir que lacalificación es independiente del nivel educacional de los encuestados?.

5. La siguiente es una distribución, en porcentajes, de una muestra aleatoria de400 familias en una ciudad determinada:

Ingreso anual < $50.000 $50.000-100.000 > $100.000

Propietarios 5% 35% 10%

Arrendatarios 15% 25% 10%

Pruebe la hipótesis de que en esa ciudad el hecho de ser propietario esindependiente del ingreso familiar. Use un nivel de significación de 0.01.

Page 289: Libro Estadistica

289

CAPITULO IXMETODOS NO PARAMETRICOS

Hasta aquí hemos visto que los métodos de prueba de hipótesis dependenfundamentalmente de la distribución de la población en estudio. En la mayoriade ellos hemos trabajado con la distribución normal y hemos visto que estosmétodos son confiables aun cuando tenemos ligeras desviaciones de lanormalidad, particularmente cuando los tamaños de muestra considerados songrandes. Sin embargo, existen circunstancias en las cuales los supuestosrelativos a la distribución de la población, o de otro tipo como por ejemplo,relativos a las varianzas poblacionales o al tipo de escala de medición, no sepueden sostener y debemos utilizar métodos que sean poco sensibles adesviaciones respecto de tales supuestos. Este es el caso, por ejemplo, decomparaciones de medias poblacionales en base a muestras provenientes depoblaciones con distribuciones de probabilidad desconocidas o de grupos depoblaciones cuyas varianzas no son homogéneas, aun después de aplicartransformaciones de escala. Tales procedimientos se llaman usualmentemétodos noparamétricos métodos de distribución libre. o

Los procedimientos noparamétricos aparecen con bastante frecuencia en elanálisis de datos. De hecho, en muchas aplicaciones en Ciencias e Ingeniería,donde los datos no se registran en una escala continua sino más bien en unaescala ordinal, es natural asignar rangos a los datos.

Si bien es cierto, muchos analistas utilizan los métodos noparamétricos debidoa que los cálculos involucrados son simples, también debe considerarse que hayun número de desventajas asociadas con las pruebas no-paramétricas. Enprimer lugar, éstas no utilizan toda la información contenida en la muestra, porlo que una prueba no paramétrica será menos potente que la correspondienteprueba paramétrica, cuando ambos métodos son aplicables.

Uno de los aspectos básicos en la aplicación de los métodos no-paramétricos esla escala de mediciones utilizada en el registro de los datos. Los valores de unavariable aleatoria pueden haber sido registrados por una de las siguientesescalas de mediciones: nominal, ordinal, por intervalo o razón.

Escala Nominal. Esta escala usa números sólo para dar nombre a categorías alas cuales pertenecen las observaciones. Por ejemplo, la variable cualitativasexo. (0=hombre, 1=mujer), pero está claro que el número asignado esarbitrario.

Escala Ordinal. Esta escala utiliza números como mediciones, donde el ordende los números es relevante. Por ejemplo, podemos diseñar una encuesta a

personas fumadoras y pedir indicar una preferencia entre 3 marcas de

Page 290: Libro Estadistica

290

cigarrillos, donde 1 indica más preferido y 3 indica menos preferido. El ordende los tres números (1, 2, 3) es ahora relevante, pero su magnitud no lo es; dehecho, podríamos usar otros tres números como por ejemplo 1, 50 y 100.

Escala por Intervalos. En esta escala se toma en cuenta tanto las diferenciasentre mediciones como también su orden. Una escala por intervalos requierefijar un punto 0 arbitrario y una unidad de distancia para medir la diferenciaentre observaciones. Por ejemplo, la escala de temperatura Fahrenheit yCelsius.

Escala por Razón. Esta se aplica cuando el orden y la distancia entremediciones son importantes, al igual que en la escala por intervalos, pero estaescala además requiere que la razón entre dos mediciones sea importante.

Los métodos Estadísticos se denominan noparamétrico si tenemos al menos auna de las condiciones siguientes: los datos están medidos a escala nominal; losdatos son medidos a escala por intervalos o a escala de razón, pero ladistribución de la población de la cual los datos han sido extraídos no estáespecificada.

En lo que sigue veremos algunos métodos noparamétricos de uso más común.

9.1. Test de los Signos

Este es probablemente el test más simple de aplicar y se utiliza preferentementepara muestras pareadas, es también el test de menor potencia entre los testsnoparamétricos.

Consideremos entonces una muestra pareada de tamaño n'; esto es, (X ,Y );i ii=1,...,n'. La comparación se realiza a nivel de cada par, asignado al par i-ésimoel signo " " si X <Y ; el signo " " si X >Y y el 0 si X =Y . Esto indica que i i i i i ilas variables a considerar necesitan ser al menos ordinales. Por otra parte, bajola hipótesis nula de igualdad de efectos, esperamos que el número de signos" " sea aproximadamente igual al números de signos " ". En términos probabilísticos, esto es equivalente a decir que P(X <Y ) = P(X >Y ), i=1,...,n'.i i i iAsí, la hipótesis nula a probar en estos casos es la de igualdad de tratamientos,esto es; si se tienen los tratamientos A y B, se postula que el número deresultados que favorecen a A es igual a los que favorecen a B.Este test es también utilizado cuando el investigador duda acerca de lanormalidad de las diferencias entre los elementos de los pares y por lo tantotiene dudas sobre las aplicabilidad del test-t para muestras pareadas. Elestadístico de prueba a utilizar es

T = número de signos " ".

Page 291: Libro Estadistica

291

y, bajo H , el estadístico T tiene distribución binomial de parámetros n y!

p =1/2=P(X <Y ) , donde n (n n') es el número total de signos + y o i i Ÿ excluyendo los empates. De esta manera, para realizar la prueba, bilateral porejemplo, utilizamos las tablas de la distribución binomial (acumulada) yrechazamos H para valores observados muy grandes o muy chicos de T.!

Para n'<20 el procedimiento es como sigue: Considere un valor cercano a /2 y!con este valor determine de la tabla binomial el correspondiente percentil t,P(T t)= /2. Luego rechace H a un nivel , si T t o T n t. CuandoŸ Ÿ   ! !0n es suficientemente grande, el estadístico de prueba T tiene distribuciónaproximadamente normal y utilizando corrección por continuidad tenemos que:

Z = N(0,1) T n/2 0.5n/4

È µÞ

y bajo la hipótesis nula tenemos p =1/2, por lo que!

Z = T n/2 0.5 2T n 1.0

n/4 n È È =

Ejemplo. Una empresa que fabrica cierto tipo de fusibles, está interesada encomparar dos lineas de producción. Para este efecto se registró, diariamente ydurante un período de 10 días, el número de fusibles eléctricos defectuosos quesalieron de cada una de las líneas de producción A y B. Los resultados semuestran en la Tabla 9.1. Nos interesa averiguar si existe evidencia suficientepara indicar que una línea produce más defectuosos que la otra, a un nivel designificación de un 5%

Tabla 9.1 Número de fusibles defectuosos por linea de producciónDía 1 2 3 4 5 6 7 8 9 10

A 172 165 206 184 174 142 190 169 161 200

B 201 179 159 192 177 170 182 179 169 210

Signo + + + + + + + +

Page 292: Libro Estadistica

292

Como el número de observaciones es menor que 20, emplearemos ladistribución binonial. Evidentemente, el test que debemos plantear es un testbilateral con =0.05. El estadístico de prueba toma el valor T=8, y para!!/2=0.025 , obtenemos P(T 1) aproximadamente igual a 0.025 (=0.0107),Ÿluego t=1 y n t = 10 1 = 9. Por lo tanto, rechazaremos H si T<1 o T>9 al !

nivel de significación 2(0.0107) = 0.034 y como T=8 entonces no podemosrechazar H . Esto quiere decir que los datos no presentan evidencia suficiente!

para indicar que una línea produce más defectuosos que la otra.

El test de los signos también se puede aplicar para probar hipótesis de unamediana poblacional en el caso de una población X. Así, si m es la mediana dela población X, entonces P(X>m) = P(X<m) = 0.5.

Es evidente que si la distribución es simétrica, la media y la medianapoblacional coinciden. Para probar la hipótesis H : m = m contra una! !

alternativa apropiada, basándose en una muestra aleatoria de tamaño n, sereemplaza cada valor muestral que excede a m con un signo " " y cada valor0 menor que m con un signo " ". Cuando se observan valores muestrales0 iguales a m , estos se excluyen del análisis y, por consiguiente, la muestra se0reduce. Si la hipótesis nula es verdadera y la población es simétrica, la sumade los signos " " debe ser aproximadamente igual a la suma de los signos" ". El procedimiento que sigue es idéntico al presentado antes.

9.2. Test de Wilcoxon de Rangos signados

Este test, debido a Wilcoxon (1945), considera los valores absolutos de lasdiferencias entre los valores correspondientes en muestras pareadas. Se suponeque se está muestreando poblaciones simétricas, continuas y que lo que interesaes probar la hipótesis que no hay diferencias en las medias poblacionales.

Consideremos n' observaciones pareadas (x , y ), i=1,...,n' sobre la respectivai ivariable aleatoria bivariante (X, Y). Si F y G son las funciones de distribuciónde X e Y, respectivamente, estamos interesados en probar la hipótesis H : Lasodistribuciones poblacionales para las X y las Y son idénticas, contra laalternativa H : Las distribuciones poblacionales de X e Y difieren en ubicación."

Esto lo podemos plantear como

H : F=G vs. H : F G,! " Á

El procedimiento consiste en obtener el valor absoluto de las diferenciasd =x y , de los valores observados de las variables D = X Y , omitiendoi i i i i i todos los pares con d =0 y, por lo tanto, se consideran sólo n (n n') pares. Sei Ÿsupone que: cada D es una variable aleatoria continua; los D son mutuamentei i

Page 293: Libro Estadistica

293

independientes, tienen la misma media y su distribución es simétrica; la escalade medición para los D es a lo menos por intervalo.i

Enseguida se ordenan los valores absolutos |d | asignándole el rango 1 al másipequeño, el rango 2 al siguiente, etc. hasta asignarle el rango n al valormáximo. Si dos o más valores absolutos de las diferencias empatan para unmismo rango, entonces asignamos a cada miembro del conjunto empatado elpromedio de los rangos que habríamos asignado a estas diferencias. Luego deobtenidos los rangos correspondientes, se asigna a éstos el signocorrespondiente a la diferencia original y se calculan la suma de los rangos paralas diferencias negativas (R ) y las positivas (R ).

Para un test bilateral como el planteado se utiliza el estadístico de prueba

R = min{R , R }

y la regla de decisión es: rechazar H si R R , donde R es el valor crítico deo o oŸtabla (los valores de aparecen con el símbolo P en las tablas de Wilcoxon).!

Si estamos interesados en un test unilateral, donde la alternativa es por ejemplode la forma H : la distribución de las X está desfasada a la derecha de la"

distribución de las Y, se rechaza H si R R . Alternativamente, si lao o Ÿ

hipótesis alternativa es de la forma H : la distribución de X está desfasada a la"

izquierda de la Y, se rechaza H si R R , donde R se obtiene de las tablas! ! Ÿ o

respectivas.

Si el número de observaciones pareadas no empatadas es grande, digamosmayor que 16, bajo la hipótesis nula H , R (alternativamente R ) tendrá una0

distribución aproximadamente normal, esto es, R N( , ) conµÞ . 5#

= E(R) = y = Var (R) = . 5 n(n+1) n(n+1)(2n+1)4 24

#

Entonces: el estadístico de prueba es:

Z = N(0,1).R E(R) R n(n+1)/4Var(R) n(n+1)(2n+1)/24 È È = µÞ

En efecto, sea R el rango correspondiente a la i-ésima diferencia. DefinamosiR = i (rango asignado) si D es positivo y R =0 si D es negativo. Además,i i i i

definamos R = R , la suma de rangos de las diferencias positivas.

œ"

!n

ii

Cada rango R tiene la misma posibilidad de tener una diferencia positiva oinegativa, así:

Page 294: Libro Estadistica

294

E(R ) = i + 0 = i , E(R ) = i + 0 = ii1 1 1 1 1 12 2 2 2 2 2i

# # # #

y Var (R ) = i

i4# .

Luego,

E(R ) = E[ R ] = E(R ) =

œ"

! !i=1 i

n ni i

n(n+1)4

y

Var (R ) = var( R ) = Var (R )

œ" œ"

! !n n

i ii i

= .!n

iœ"

= i4 24

n(n+1)(2n+1)#

La regla de decisión es: rechazar H si Z Z o Z Z! " # " #  Ÿ - / - /! !

Ejemplo. Se aplica un test sicológico a 12 pares de mellizos idénticos paradeterminar si el que nació primero tiende a ser más agresivo que el segundo.Los puntajes, correspondientes a nivel de agresividad, son los que se indican enla Tabla 9.2, donde X representa el puntaje del primer mellizo en nacer e Y eli ipuntaje del segundo mellizo en nacer.

Tabla 9.2 Nivel de agresividad en mellizos i 1 2 3 4 5 6 7 8 9 10 11 12

X 86 71 77 68 91 72 77 91 70 71 88 87

Y 88 77 76 64 96 72 65 90 65 80 81 72

D -2 -6 1 4 -5 0 12 1 5 -9 7 15

D 2 6 1 4 5 0 12 1 5 9 7 15

R 3 7 1.5 4 5.5 - 10 1.5 5.5 9 8

i

i

i

i

i

¸ ¸11

n =12, n=11, R =41.5, R = 24.5.w

La hipótesis nula es H : la agresividad en ambos mellizos es la misma, y laoalternativa es H : el primero en nacer tiende a ser más agresivo que el"

segundo.

El estadístico de prueba en este caso es R y Rechazaremos H si R R al ! !Ÿ

nivel de significación de =0.05.!

Page 295: Libro Estadistica

295

Utilizando las tablas de Wilcoxon con n = 11 y = 0.05, se tiene R =14 y! !

como R = 41.5 > R =14, no podemos rechazar H al nivel de significación! !

considerado.

Si utilizamos aproximación normal tenemos E(R ) = 33, Var(R ) = 126.5 y es

estadístico de prueba Z está dado por:

Z= = (41.5 33 - 0.5)/11.247 = 0.711.R E(R )Var(R )

È

Considerado = 0.05, el valor de la tabla normal es z =1.64. Por lo tanto, no!podemos rechazar H al 5% de nivel (valor-p es 0.7611).!

9.3 Test de Suma de Rangos de Wilcoxon y Mann-Whitney

Esta es la prueba de mayor uso cuando se tienen muestras independientes y esel equivalente noparamétrico del test-t paramétrico, para comparar mediaspoblacionales. Sean X ,...,X una muestra aleatoria de tamaño n de la" "n"

población X y Y ,...,Y una muestra aleatoria, independiente de la anterior, de" ntamaño n de la población Y. Suponiendo, además, que las variables en estudio#

son continuas, y que la escala de medida es por los menos ordinal elprocedimiento es como sigue.

Se combinan las n +n =n observaciones ordenándolas de menor a mayor (de" #

acuerdo a su magnitud). Enseguida, se asigna rango a cada una de lasobservaciones ordenadas del conjunto, pero de modo tal que éstas no pierdan laidentificación de la muestra de la cual provienen. Si varios valores muestralesson exactamente iguales a otros (empates), se asigna a cada uno el promedio delos rangos que se habrían asignados a ellos al ser considerados distintos.

La hipótesis que se plantea es H : Las dos poblaciones X e Y tienen la misma!

distribución, frente a la alternativa H : Las distribuciones de las poblaciones X"

e Y difieren en ubicación. Para un test bilateral, esto lo planteamos como H :!F(X)=G(Y) versus H : F(X) G(Y), donde F(X) y G(Y) son las funciones de" Ádistribución correspondiente a las poblaciones X e Y, respectivamente.

El estadístico de Prueba para n pequeño (n 10, n 10) se obtiene" #Ÿ Ÿconsiderando

T = n n + RX " # " n (n +1)2

" "

y T = n n + R] " # #

n (n +1)2

# #

Page 296: Libro Estadistica

296

donde R y R son la suma de los rangos para la muestra en X e Y," #

respectivamente. T y T corresponden a la suma de los rangos del número deX ]

observaciones de Y y X, respectivamente.

El estadístico de prueba para un test bilateral es

T= mín{T , T }X ]

y la regla de decisión es: rechazar H si T T , con P(T T ) = /2, donde! ! !Ÿ Ÿ !T se obtiene de las tablas de Wilcoxon para muestras independientes.!

Para el caso de un test unilateral de la forma H : F(X) = G(Y) contra la!

alternativa H : F(X) está desfasada a la derecha de G(Y), el estadístico de"

prueba es: T = T , y la regla de decisión es rechazar H si: T T , dondeX X! !ŸP(T T ) = .X Ÿ ! !

Analogamente, si la alternativa es H : F(X) está desfasada a la izquierda de"

G(Y), el estadístico de prueba es T = T y la regla de decisión es rechazar H si] !

T T , donde P(T T ) = .] ! ] !Ÿ Ÿ !

Si n es grande (n > 10, n >10), bajo H , el estadístico T (ya sea que T=T o" # ! ]

bien T=T ) se aproxima a la distribución normal con media y varianza dadasXpor

E(T) = y Var(T) = n n2 12

n n (n +n +1)" # " # " #

Luego el estadístico de prueba bajo la hipótesis nula es:

Z= N(0,1)T (n n /2)n n (n +n +1)/12

] " #

" # " #

È µÞ

y, para un test bilateral, se rechaza H si Z > Z ó Z< Z .! " # " #- / - /! !

La justificación del test de Wilcoxon y Mann-Whitney es como sigue: primerose ordenan las n +n observaciones de menor a mayor. Luego para cada" #

observación Y contamos el número de observaciones X que la preceden. Elestadístico T es la suma de estos números. Es decir para cada par de]

observaciones X e Y definimos:i j

= con i=1,...,n j=1,...,n^ ß ß Þij š 1 , si X <Y0 , si X >Y

i ji j

" #

Así, la suma de estos Z es el estadístico T]

Page 297: Libro Estadistica

297

T = ZY ijn n

i j-! !" #

œ" "

Analogamente para definir T , se intercambia el 1 por el 0. T es el númeroX Xtotal de observaciones Y que preceden las observaciones de X.

Como tenemos n n términos en la suma de los Z e intercambiando 0 y 1 en" # ijT produce T . Así, es claro que T +T = n n .Y XX ] " #

Bajo la hipótesis nula de igualdad de efectos, P(X>Y) = P(X<Y) = 1/2, y tantola media como la varianza de T puede ser calculada. De hecho,]

E(T ) = E[ Z ] = E(Z ) = n n /2] " #œ" œ" œ" œ"

! ! ! !n n n n

i j i jij ij

" # " #

pues E(Z ) =1/2.ij

Calcular la varianza no es simple, debido a que los términos en la suma querepresenta T no son variables aleatorias independientes. La varianza de T es] Y

Var(T ) = Cov (Z , Z ).] !!!!i j h k

ij hk

Ahora,

Z Z = 1 si X <Y y X <Y0 en otros casosij hk

i j h kœasí, E(Z Z ) = P(X <Y X <Y )ij hk i j h k•

E(Z Z ) = 1/2 i=h y j=k1/4 i h y j k1 i=h y j k y i h

ij hk

3

ÚÛÜ Á Á

Á Á

de aquí

Cov(Z Z )=0 i h y j k1/4 i=h y j=k1/12 i=h y j k o j=k y i h

ij hk

ÚÛÜ

Á Á

Á Á

El cálculo completo de Var(T ), es solamente necesario al contar el número de]

términos en cada caso. Hay n n términos en los cuales i=h y j=k, y n n" # ##"

términos en los cuales j=k. Por otra parte, n n tiene también i=h, dejando" #

n n n n = n n (n 1) en los cuales j=k y i h. Similarmente, hay#" # " # " # " Á

n n (n 1) términos en los cuales i=h y j k. De esta manera," # # Á

Page 298: Libro Estadistica

298

Var(T ) = n n /4 + (n n (n 1) + n n n -1))/12] " # " # " " # # Ð

= n n (n +n +1)/12." # " #

Ejemplo. Se desea comparar la resistencia de dos tipos de papel para embalar.El primero es un papel estándar con un peso determinado y el segundo es elmismo papel estándar tratado con una sustancia química. Para este efecto,durante el proceso productivo, se seleccionan al azar diez tiras de cada tipo depapel, y se midieron las resistencias, las que se muestran en la Tabla 9.3.

Queremos averiguar si el papel tratado es más resistente. Para esto planteamosla hipótesis que no hay diferencia entre las distribuciones de las resistencias delos dos tipos de papel frente a la hipótesis alternativa de que el papel tratadotiende a ser más resistente; esto es,

H : F(X) = G(Y)!

versus H : F(X) está desfasada a la izquierda de G(Y)"

Tabla 9.3 Resistencias de dos tipos de papel de embalaje ˆ ‰Estándar

X 1.21 1.43 1.35 1.51 1.39 1.17 1.48 1.42 1.28 1.40Rango 2 12 6 17 9 1 14 11 3.5 10ˆ ‰Tratado

Y 1.49 1.37 1.67 1.50 1.31 1.28 1.52 1.37 1.44 1.53Rango 15 7.5 20 16 5 3.5 18 7.5 13 19

Dado que se pretende detectar un desfasamiento en la distribución de lasmediciones Y hacia la derecha de las distribuciones de las mediciones de X,rechazamos H si T T al nivel de significación = 0.05! ] !Ÿ !

De los datos de la tabla tenemos que: n = n +n = 20," #

R = 2+12+6+17+9+1+14+11+3.5+10 = 85.5,1

R = 15+7.5+5+20+16+5+3.5+18+7.5+13+19 = 124.5#

y T = n n +n (n +1)/2 - R = 30.5] " # # # #

Utilizando las tablas correspondientes, tenemos que la P(U U ) más cercanaŸ !

a 0.05 es 0.0526, con U =28. Como T =30.5 > U =28, no podemos Rechazar! ] !

H a un nivel de significación del 5% y concluimos que no hay evidencia!

suficiente para indicar que el papel tratado es más resistente que el estándar.

Page 299: Libro Estadistica

299

9.4 Test de Kruskal Wallis

El test de Mann-Whitney para dos muestras independientes, visto en la secciónanterior, se puede extender al problema de analizar k muestras independientes,k 2. Esta extensión se debe a Kruskal y Wallis (1952). 

Los datos consisten de k muestras aleatorias, posiblemente de tamañosdiferentes. Sea X ,...,X la i-ésima muestra aleatoria de tamaño n coni in i" i

i=1,...,k. Los datos pueden ser colocados en columnas de la manera siguiente

Muestra 1 Muestra 2 Muestra 3 ...................Muestra k x x x ............ x"" #" $" "k x x x ............ x"# ## $# #k . . . ............ . . . . ............ .

x x x ............. x1n 2n 3n kn1 2 3 k

donde n = n +n +...+n = n el número total de observaciones." #œ"

k ik

i!

Se ordenan todas las observaciones en forma creciente en orden de magnitud,enseguida se asigna rango 1 al menor, rango 2 al que sigue, ... , rango n al valormayor. Destacando con algún símbolo la muestra a la cual las observacionespertenecen.

Si r representa el rango asignado a X , entoncesij ij

R = R , con i=1,2,...,ki ijn

j!i

œ"

es la suma de los rangos asignados a la i-ésima muestra.

Los empates se manejan como antes, es decir, si dos o más observaciones estánempatadas para un mismo rango, se asigna a cada miembro del grupo empatadoel promedio de los rangos que se hubieran asignado a estas observaciones.

Para su aplicación hay que considerar los siguientes supuestos: todas lasmuestras son aleatorias de sus respectivas poblaciones; hay independenciamutua entre las muestras; las variables aleatorias X son continuas; un númeroijmoderado de empates es tolerable y la escala de medición es al menos ordinal.

Page 300: Libro Estadistica

300

La hipótesis nula que se plantea es H : Las K poblaciones tienen funciones de!

distribución idénticas, y la alternativa es H : Al menos dos de las distribuciones"

poblacionales difieren en ubicación.

Para determinar el estadístico de prueba, notemos que si R =R /n es el_

i i ipromedio de los rangos de las observaciones de la i-ésima población, y si R es

_

el promedio global de todos los rangos, entonces podemos considerar elanálogo en rango de la Suma de los Cuadrados de los Tratamientos, como unestadístico de prueba, el cual se calcula utilizando los rangos en lugar de losvalores reales de la mediciones, es decir,

V = n (R - R)_ _!k

ii i

œ"

#

Si la hipótesis nula es verdadera y las poblaciones no difieren en ubicación,esperaríamos que los R fueran aproximadamente iguales y que el valor

_i

resultante de V fuera relativamente pequeño.

Si la hipótesis alternativa es verdadera, esperamos que esto se manifestarámediante diferencias entre los valores de los R y un valor grande para V.

_i

Notemos que

R = _ Suma de los n primeros números enteros

n

= = (n+1)/2n(n+1)/2n

y por lo tanto

V= n (R - ) ._!k

ii i

n+12

œ"

#

En lugar de V, Kruskal y Wallis consideran el estadístico:

T = V12n(n+1)

= n (R (n+1)/2)_12

n(n+1)!k

ii i

2

œ"

el que después de algunas operaciones algebraicas podemos escribir tambiéncomo

Page 301: Libro Estadistica

301

T = 3(n+1)12n(n+1) n

R!k

iœ"

#ii

que es la expresión más utilizada para los cálculos.

Si k=3 y las 3 muestras son de tamaño 5 o menos (n 5, i=1,2,3), la regla dei Ÿdecisión es: rechazar H si T T , donde T es un valor crítico tal que! ! ! P(T T ) = , cuando H es verdadera. Este valor crítico se encuentra  ! " !!tabulado.

El valor crítico T del Test de Kruskal-Wallis, para tres muestras!

pequeñas(n 5, i=1,2,3) se puede ver en la Tabla 12 del libro de J.W.i ŸConover, 1971.

Para el caso de muestras grandes, Kruskal y Wallis demostraron que si los nison grandes (n >5), la distribución de T bajo la hipótesis nula se puedeiaproximar mediante una distribución chi-cuadrado con k l grados de libertad.Utilizando este hecho, la regla de decisión en este caso es: rechazar H si!

T> con k 1 grados de libertad, donde P( < ) = .; ; ; !# # #"-! !

La justificación de la aproximación para la distribución de T, para el caso demuestras grandes, está basada en el hecho que R es la suma de n variablesi ialeatorias, así,

R = R , i=1,2,3,...,ki ijn

j!i

œ"

donde E(R ) = n (n+1)/2i iy Var (R ) = n (n+1)(n n )/12i i i

Luego para n grandes y bajo la hipótesis nula, por el Teorema Central deliLímite tenemos que

N(0,1) R E(R )Var(R )

i i

i

È µ ßÞ

por lo tanto

. = (R E(R )) (R (n (n+1)/2))Var(R ) n (n+1)(n n )/12 (

i i i ii i i

#"Ñ

# #

µÞ ;

Si los r son independientesi

Page 302: Libro Estadistica

302

T = w !k

i

(R (n (n+1)/2))n (n+1)(n n )/12 k

œ"

#Ð Ñ

i ii i

#

µÞ ; Þ

Sin embargo, la suma de los R es n, así existe dependiencia entre los R .i i

Kruskal (1952) demostró que si se multiplica el i-ésimo término de T por (n-w

n )/n, i=1,...,k, entonces el estadístico T se transforma eniw

T =!k

iœ"

(R (n (n+1)/2))n (n+1)n/12

i ii

#

= 12n(n+1) n

(R n (n+1)/2)!k

iœ"

i ii

#

= 3(n+1) 12n(n+1) n

R!k

iœ"

#ii

con lo que obtenemos el resultado deseado;esto es, que T se distribuye comouna chi-cuadrado con k-1 grados de libertad, en forma asintótica.

Ejemplo. Un ingeniero del departamento de control de calidad de una empresaque fabrica componentes electrónicos, seleccionó muestras independientes dela producción de tres líneas de montajes. En cada línea se examinó laproducción de diez horas, seleccionadas al azar, y se observó el número deproductos defectuosos. Los datos y los rangos asignados, aparecen en la Tabla9.4. ¿Proporcionan los datos de la tabla evidencia suficiente de que lasdistribuciones de probabilidad del número de defectuosos por hora deproducción difieren en ubicación para por lo menos dos de las líneas deproducción?. Utilice =0.05!

Tabla 9.4 Número de defectuosos en tres lineas de montaje

Page 303: Libro Estadistica

303

Linea 1 Linea 2 Linea 3Defectos Rango Defectos Rango Defectos Rango6 5 34 25 13 9.538 27 28 19 35 263 2 42 30 19 1517 13 13 9.5 4 311 8 40 29 29 2030 21 31 22 0 115 11 9 7 7 616 12 32 23 33 2425 17 39 28 18 145 4 27 18 24 16n =10 R =20 n =10 R =210.5 n =10 R =134.51 1 2 2 3 3

n = n +n +n = 10+10+10 = 30" # $

Utilizando los datos de la tabla tenemos:

T = 3(30+1) 1230(30+1) n

R!k

iœ"

#ii

= 3(31)12930 10 10 10

( (120) (210.5) (134.5) ) + +# # #

= 6.10

Las hipótesis a considerar en este caso son:

H : Las 3 distribuciones de probabilidad del número de!

defectuosos por hora de producción son iguales.versus H : Al menos una de las distribuciones difieren en ubicación."

Dado que todos los n (i=1,2,3) son mayores o iguales a 5, podemos utilizar laiaproximación para la distribución de T y vamos a rechazar H si T> con!

#"; -!

k 1=3 1=2 grados de libertad.

Ahora, para =0.05, de la tabla chi-cuadrado tenemos que:! = = 5.99; ;# #

Ð"!Þ!&Ñß# !Þ*&ß#

Page 304: Libro Estadistica

304

Por lo tanto, como T=6.10 > = 5.99, rechazamos H a un nivel de =0.05; !#!Þ*& !

y concluimos que al menos una de las tres líneas tiende a producir un mayornúmero de defectuosos que las otras.

9.5. Test de aleatoridad ( de Rachas )

En casi todos los test, tanto paramétricos como noparamétricos, se supone quelas muestras extraídas son aleatorias. El test de rachas es uno de varios test queexisten para probar aleatoridad. En general, una racha es una secuencia máximade elementos similares, sin importar el tamaño de dicha subsecuencia.

Consideremos dos conjuntos de observaciones muestrales X ,...,X e Y ,...,Y ," "n mde tamaños n y m respectivamente. Las observaciones se combinan y seordenan, simbolizando la muestra de la cual provienen.En la aplicación del test se supone que la escala de medición debe ser continua,ya sea de intervalo o de razón. Las hipótesis que se plantean son las siguientes:H : Las poblaciones X e Y tienen la misma distribución, contra la alternativa!

H : Las distribuciones de X e Y están desfasadas en ubicación."

El estadístico de prueba es R, el número total de rachas observadas, donde Rpuede tomar cualquier valor en el conjunto {2,3,...,n+m}, y la regla de decisiónes: rechazar H si R r , para un nivel , donde r es un valor que se obtiene! ! !Ÿ !de tablas y es tal que P(r r )= .Ÿ ! !

Para muestras grandes; esto es, si n y m son mayores o iguales que 10, se puedeutilizar aproximación normal, donde

E(R) = 1+2nm/(n+m) y Var(R) = .2nm(2nm n m)(n+m) (n+m 1)

#

Ejemplo. Un grupo feminista sospecha que una gran empresa sigue unapolítica de sueldos que discrimina a las mujeres en favor de los trabajadoresvarones, en los cargos ejecutivos. Para verificar esto, se seleccionaron 12empleados de cada sexo (H=hombre, M=mujer), de entre los que tienenresponsabilidades y experiencias similares en el trabajo. Sus ingresos brutosanuales, en millones de pesos, son los siguientes:

H 21.9 21.6 22.4 24.0 24.1 23.4 21.2 23.9 20.5 24.5 22.3 23.6

M 22.5 19.8 20.6 24.7 23.2 19.2 18.7 20.9 21.6 23.5 20.7 21.6

Quremos averiguar si existe evidencia de discriminación, al 5% designificación, de acuerdo a los datos recopilados.

Page 305: Libro Estadistica

305

En general, el problema lo podemos plantear mediante la pregunta ¿Existealguna razón para creer que estas muestras aleatorias provienen de poblacionescon diferentes distribuciones?.

Ordenando en forma creciente las observaciones e indicando si es H o M,tenemos la siguiente secuencia

M M M H M M M H H M M H H H M M H M H H H H H M 1 2 3 4 5 6 7 8 9 10 11

de donde R= 11 (número de rachas), con n = m = 12.

Aproximando R por una normal tenemos que bajo H!

Z = N(0,1)R E(R)Var(R)È µÞ

con E(R) = 13 y Var(R) = 5.739. Entonces Z = 0.83, y para =0.05, el !valor de tablas es z =-1.96, y como -0.83 >-1.96, no se rechaza H ; es decir,!

existe aleatoridad y concluimos que no hay razón para pensar en que existediscriminación.

EJERCICIOS

1. Diez muestras de suelos tomados de una región particular están sujetas aanálisis químicos para determinar el pH de cada muestra. Los pH encontradosfueron: 5.93, 6.08, 5.86, 6.12, 5.90, 5.89, 5.98, 5.95, 5.91 y 5.96. Se tenía lacreencia previa que la mediana del pH del suelo de esta región era 6.0.¿Indican los datos de la muestra que la verdadera mediana del pH es diferentede 6.0?. Haga T = el número de valores pH, en la muestra, que exceden a 6.0, yuse el test de los signos al nivel 0.05 para probar la hipótesis apropiada.

2. Un laboratorio está interesado en determinar si un tratamiento químico parauna forma específica de cáncer cambia la temperatura del cuerpo. Diezpacientes con la enfermedad son seleccionados al azar de un conjunto depacientes bajo control experimental. Sus temperaturas son medidas antes ydespués de tomar el tratamiento, Los datos, dados en grados Farenheit, estánlistados a continuación.

Paciente Antes Después 1 98.4 99.6 2 98.2 100.9 3 98.0 97.6 4 99.0 99.9

Page 306: Libro Estadistica

306

5 98.6 98.2 6 97.0 98.4 7 98.4 98.4 8 100.0 102.6 9 99.8 102.2 10 98.6 98.8

Pruebe la hipótesis que las dos medias poblacionales son iguales al nivel!=0.01, usando el test de rangos signados de Wilcoxon.

3. Dos fertilizantes, A y B, son usados en dos parcelas de terreno idénticassembradas con maíz. Cada parcela es dividida en ocho secciones iguales. Alfinal del experimento, la cosecha por sección para los dos fertilizantes sonmedidos. Los datos se muestran a continuación:

Fertilizante A Fertilizante B 80.2 95.2 76.8 84.7 93.2 88.9 90.1 98.6 85,7 100.8 81.5 89.8 79.0 99.6 82.0 101.4

Usando el test de Mann-Whitney y =0.05, pruebe la hipótesis que las dos!muestras provienen de la misma población. ¿Cuál es el valor-p para este test?.

4. En un test para determinar si el suelo pre-tratado con pequeñas cantidades deBasic-H se hace más permeable al agua, las muestras de suelos fueron divididasen bloques y cada bloque recibió cada uno de los 4 tratamientos bajo estudio.Los tratamientos fueron:

A= agua con 0.001% de Basic-H diluída en el suelo control B = agua sin Basic-H en control C = agua con Bassic-H diluída en suelo pretratado con Basic-H, y D= agua sin Basic-H en suelo pretratado con Basic-H.

Bloques 1 2 3 4 5 6 7 8 9 10

A 37.1 31.8 28.0 25.9 25.5 25.3 23.7 24.4 21.7 26.2B 33.2 25.3 20.0 20.3 18.3 19.3 17.3 17.0 16.7 18.3C 58.9 54.2 49.2 47.9 38.2 48.8 47.8 40.2 44.0 46.4D 56.7 49.6 46.4 40.9 39.4 37.1 37.5 39.6 35.1 36.5

Page 307: Libro Estadistica

307

Pruebe al 1% de nivel si existe algún efecto debido a los diferentestratamientos.

5. Los tiempos, en minutos, tomados por 25 personas para completar unexamen escrito para obtener su licencia de conducir fueron:

10.72, 3.82, 4.42, 4.8, 11.91, 12.86, 8.16, 7.16, 8.38, 8.13, 12.41, 4.01, 12.7, 6.22, 7.88, 2.55, 3.55, 10.12, 8.82, 5.57, 3.58, 14.36, 2.7, 3.19, 14.03.

Aplique el test de rachas para probar aleatoriedad de las observaciones.

Page 308: Libro Estadistica

308

Valores de la Función de DistribuciónTabla I. Normal Estándar.

(z) = (1/ 2 )exp(-t /2)dt=P(Z z).F 1' È-z 2_ Ÿ

Page 309: Libro Estadistica

309

Valores de la Función de Distribución Normal Estándar. (Continuación).

Page 310: Libro Estadistica

310

Percentiles de la Distribución t-StudentTabla II.

Page 311: Libro Estadistica

311

Percentiles de la Distribución .Tabla III. ;2

Page 312: Libro Estadistica

312

Percentiles de la Distribución F. Tabla IV.

Page 313: Libro Estadistica

313

Percentiles de la Distribución F. (Continuación).

Page 314: Libro Estadistica

314

Percentiles de la Distribución F. (Continuación).

Page 315: Libro Estadistica

315

Percentiles de la Distribución F. (Continuación).

Page 316: Libro Estadistica

316

Percentiles de la Distribución F. (Continuación).

Page 317: Libro Estadistica

317

Percentiles de la Distribución F. (Continuación).

Page 318: Libro Estadistica

318

Coeficientes del Contraste de Shapiro Wilks.Tabla V. Coeficientes a para la prueba W de Shapiro Wilks, n es el tamaño muestral.in

Page 319: Libro Estadistica

319

Coeficientes del Contraste de Shapiro Wilks. (Continuación).

Page 320: Libro Estadistica

320

Percentiles del estadístico W de Shapiro Wilks.Tabla VI.

Page 321: Libro Estadistica

321

Percentiles del estadístico W de Shapiro Wilks.(Continuación).

Page 322: Libro Estadistica

322