libro estadistica para agronomia

Upload: mechuguin-mtz-villagomez

Post on 15-Oct-2015

278 views

Category:

Documents


6 download

TRANSCRIPT

  • Dagoberto Salgado Horta Pgina 1

    MTODOS CUANTITATIVOS APLICADOS FACULTAD DE AGRONOMA Universidad del Tolima

    Estadstica General

    Para las carreras de Agronoma, AgroindustrialPara las carreras de Agronoma, AgroindustrialPara las carreras de Agronoma, AgroindustrialPara las carreras de Agronoma, Agroindustrial

    Manual de clases Tericas y Manual de clases Tericas y Manual de clases Tericas y Manual de clases Tericas y PrctPrctPrctPrctiiiicas 2010cas 2010cas 2010cas 2010

  • Dagoberto Salgado Horta Pgina 2

    INTRODUCCIN A LA ESTADSTICA

    Estadstica: la ciencia de la obtencin y anlisis de datos.

    Como en cualquier otra rama de la ingeniera, en las ciencias agropecuarias nos encontramos con situaciones que se presentan como un problema a resolver, un ingeniero que debe abordar la tarea y un conjunto de herramientas de las cuales el ingeniero podr valerse para realizar su tarea. Y entre las herramientas con las cuales el ingeniero puede contar se encuentra la Estadstica con todo su bagaje terico y metodolgico.

    La teora estadstica se apoya en la Matemtica de la cual puede considerarse una rama y los mtodos estadsticos son las herramientas que el ingeniero puede usar para responder pregun-tas tales como a cuntas personas debera encuestarse antes de una eleccin como para poder hacer una prediccin vlida del resultado de la votacin? o cul de varios herbicidas es el ms recomendable con vistas al control de una determinada maleza de los cultivos de maz?

    Ahora, cundo ser necesario recurrir a los mtodos estadsticos? Los mtodos estadsti-cos sern tiles en todas aquellas situaciones en las cuales deban tomarse decisiones o hacer elecciones o emitir opiniones bajo incertidumbre. Es decir, dada una determinada cantidad y cali-dad de informacin, debe decidirse el camino a seguir y para ello, la Estadstica provee los elemen-tos necesarios para que esas decisiones puedan ser tomadas en forma racional. A su vez, el gra-do de racionalidad de las decisiones estar determinado por la calidad y cantidad de teora y de la calidad y cantidad de mtodos de extraccin y anlisis de la informacin de los que se dispon-ga. En este curso elemental e introductorio, expondremos los elementos bsicos de la teora es-tadstica y de los mtodos que se sustentan sobre ella buscando, en todo momento, enfocarlos sobre las aplicaciones prcticas ms comunes en la ingeniera agronmica.

    La situacin ms comn en la que el ingeniero suele encontrarse es aquella en cual dispo-ne de un conjunto de datos extrados de una masa de informacin mucho ms grande y, proba-blemente, desconocida y de los cuales debe obtener algn tipo de informacin especfica que res-ponda a sus intereses o interrogantes. Las dudas o interrogantes estarn referidos, la inmensa mayora de las veces, a una poblacin grande y por grande estamos entendiendo que la po-blacin est compuesta por una cantidad de unidades inabarcable por parte del analista y de la cual deber extraerse una pequea cantidad de unidades denominada muestra.

    Podemos definir a la poblacin como un conjunto de elementos fsicos o conceptuales acerca de los cuales se desea extraer informacin a travs de uno o ms procedimientos. Por ejemplo, todas las plantas de lamo en explotacin comercial en el delta del Paran.

    Por otra parte, una muestra es el conjunto de unidades experimentales realmente obser-vadas o consideradas en un procedimiento de extraccin de informacin. Ejemplo: un conjunto de 50 plantas de lamo que fueron observadas en una dada localidad del delta del Paran en un mo-mento determinado.

    Finalmente, una unidad experimental es la mnima cantidad de elementos de una pobla-cin pasibles de ser observados o considerados en un procedimiento de extraccin de informacin. Ejemplo: cada planta de lamo en explotacin comercial en el delta del Paran.

    En la poblacin est contenida la masa total de informacin que sera deseable (pero, quizs, imposible) conocer totalmente. En la muestra, est contenida la porcin de informacin que resulta posible conocer enteramente (los datos) y que servir para, mtodos estadsticos mediante, deducir o conjeturar cmo es todo el resto de la informacin de la poblacin. A veces, se conoce toda la informacin contenida en la poblacin. Se trata de poblaciones pequeas o de poblaciones que, an siendo grandes, admiten, por una u otra razn ser accedidas por el investigador y, por tanto, en esos casos, puede conocerse toda la informacin y no es necesario tomar ninguna mues-tra, sino que, directamente, se realiza un censo de toda la poblacin.

    Tanto la informacin contenida en una muestra como la contenida en la poblacin total es-tarn referidas a una o varias magnitudes o variables y pueden ser reducidas o resumidas por una o unas pocas medidas que las representen. Es decir, comnmente, no es necesario conocer todos y cada uno de los valores de las variables de inters sino que bastar con conocer solamente al-guna medida resumen de ellos. Las medidas resumen que se calculan a partir de los datos de la

  • Dagoberto Salgado Horta Pgina 3

    muestra se denominan estadsticas o estadsticos y las correspondientes medidas de dichas variables en la poblacin total, se denominan parmetros.

    La primera seccin del curso se dedicar a exponer los mtodos de organizacin, presen-tacin y descripcin de los datos. Es lo que se denomina Estadstica Descriptiva. Luego, para el caso ms general en que no se puede acceder a toda la informacin contenida en la poblacin, para tener la posibilidad hacer conjeturas o pronsticos acerca del resto de la informacin, es decir, acerca de los parmetros, ser necesario sentar las bases tericas de los mtodos estadsticos que permiten hacerlo. Por esto, la segunda seccin del curso se destinar al estudio de la teora de probabilidades, de las variables aleatorias, de los modelos de probabilidad ms comunes y del muestreo de distribuciones. Finalmente, la tercera seccin, estar abocada al empleo de los mto-dos estadsticos que nos permiten hacer conjeturas racionales acerca de los parmetros de la po-blacin y, entre ellos, veremos cmo es posible estimarlos, y decidir si, a partir de lo que se lee en la muestra, un parmetro es reconocido como perteneciente (o se asume que pertenece) a un de-terminado conjunto de nmeros, o no. Es lo que se denomina Estadstica Inferencial.

    Como se dijo antes, en general, lo que ms interesa conocer no son esos valores concre-tos de las observaciones muestrales sino los valores de la poblacin total (de todas las observa-ciones posibles) de la cual provinieron; por ejemplo, la probabilidad de obtener un 5 al arrojar un dado balanceado, o el porcentaje de nacimientos de nias en la Repblica Argentina durante el prximo ao. Una de las preguntas que la Estadstica Inferencial permite responder es si un con-junto dado de observaciones podran considerarse como debidas al azar o si, por el contrario, refle-jan el efecto de algn factor. Este modo de proceder se ha convertido en el mtodo caracterstico de la ciencia moderna. El cientfico que descubre fenmenos nuevos, relaciones de dependencia, tendencias o efectos de otro tipo, establece con ellos una hiptesis de trabajo y para constatar su validez deber garantizar de algn modo que los resultados observados no se deben nicamente al azar. Todo estudio de este tipo se basa en la consideracin de muestras aleatorias, es decir, muestras tales que todas las unidades de la poblacin tengan la misma probabilidad de ser elegi-das. Si la poblacin total constara de diversas subpoblaciones parciales bien diferenciadas entre ellas, se tomarn muestras estratificadas. As, por ejemplo, para examinar la calidad panadera de los trigos producidos en la regin triguera argentina, que comprende 5 subregiones agroecolgicas con distintos escenarios productivos (ver figura), no podra considerarse como representativa una bolsa de cereal cosechado en la Subregin IV, ni otra proveniente de la Subregin III o de la V; en todo caso, podra ser til una bolsa que incluyera cereal cosechado en las cinco subregiones. To-dava mejor sera extraer muestras de cada una de las subregiones por separado (Figura 1). En los sorteos de lotera se emplean mtodos mecnicos para obtener muestras aleatorias. En general, para obtener una muestra aleatoria se enumeran las unidades de la poblacin y a continuacin se recurre a una tabla de nmeros aleatorios o a un programa de computadora generador de nmeros aleatorios. Una vez asignado un nmero a cada unidad perteneciente a la poblacin, se elegirn aquellas cuyos nmeros coincidan con los nmeros obtenidos en el proceso generador aleatorio.

  • Dagoberto Salgado Horta Pgina 4

    Figura 1.1.

    La razn fundamental por la cual se debe garantizar un proceso aleatorio de extraccin de las muestras reside en el hecho de que podran subyacer procesos dentro de la poblacin que afecten sistemticamente a algunas unidades y a otras no, esto es, procesos que afecten a ciertas unidades especficas poseedoras de alguna caracterstica. Si el muestreo es verdaderamente al azar, las chances de ser elegidas sern iguales para todas las unidades, tanto las afectadas por el proceso sistemtico como las no afectadas. En cambio, si el muestreo se realiza siguiendo alguna preferencia o idea personal por parte del investigador, podra darse el caso de que su idea o prefe-rencia coincida con el patrn de variacin de aquel proceso sistemtico y, entonces, podran resul-tar elegidas preferentemente las unidades de la poblacin que posean tal caracterstica y los valo-res numricos calculados a partir de dicha muestra no reflejarn fielmente lo que pasa en el con-junto total de unidades de la poblacin.

    Variables Estadsticas: tipos y escalas de registro.

    Las variables en estudio pueden ser de dos tipos: Cualitativas o Cuantitativas. Las variables cualitativas o atributos clasifican o describen a las unidades experimentales.

    Los valores que pueden asumir no constituyen un espacio mtrico y, por ello, las operaciones de clculo no son significativas en ellas. Ejemplos: gnero, nacionalidad, especie, marca registrada, color, olor, etc.

    Las variables cuantitativas o numricas cuantifican a las unidades experimentales. Los valores que pueden asumir constituyen un espacio mtrico y, por lo tanto, las operaciones de clculo son significativas en ellas. Ejemplos: cantidad de hojas, nmero de hijos, kilmetros recorri-dos, tiempo de vuelo, ingreso familiar, longitud de una espiga, etc. Estas variables cuantitativas pueden a su vez ser distinguidas en discretas o continuas. Las variables cuantitativas discretas solo pueden asumir una cantidad finita de valores de manera que, entre dos valores cualesquiera, siempre hay huecos. La operacin que caracteriza a las variables cuantitativas discretas es la ope-racin de contar. Ejemplos: cantidad de materias aprobadas, cantidad de hijos, nmero de frutos sanos, nmero de animales marcados, etc. Las variables cuantitativas continuas pueden asumir cualquier valor dentro de un rango dado. La operacin que caracteriza a las variables cuantitativas continuas es la operacin de medir. Se pueden medir longitudes, tiempos, superficies, densidades, volmenes, sumas de dinero, etc. Ejemplos: peso de un animal al nacer, altura de un rbol, litros de aceite producidos, tiempo de viaje entre dos ciudades, etc.

    Para obtener informacin sobre las variables estadsticas se utilizan diferentes escalas de registro acorde con el tipo de variable. Entre estas escalas de registro se cuentan las escalas no-minal, de intervalo y continua.

  • Dagoberto Salgado Horta Pgina 5

    Escala nominal.

    En la escala nominal, las unidades experimentales slo pueden ser clasificadas en categoras sin ningn ordenamiento ni jerarqua entre ellas. Es aplicable a variables cualitativas. Ejemplos: ciudad natal, apellido, color de cabello, color de flor, etc.

    Escala de intervalo.

    En las escala de intervalo, las unidades experimentales pueden ser clasificadas en categoras las cuales pueden ser ordenadas o jerarquizadas y, adems, se pueden establecer diferencias entre categoras. Esta escala es aplicable a las variables cuantitativas discretas. Ejemplos: nmero de personas con empleo, nmero de plantas con flor, etc.

    Escala continua.

    En la escala continua, las unidades experimentales pueden ser clasificadas en categoras que pueden ser ordenadas o jerarquizadas y, adems, se pueden establecer diferencias entre categor-as y las variables pueden tomar cualquier valor real. Slo es aplicable a las variables cuantitativas continuas. Ejemplos: gramos de harina, litros de aceite, tiempo de decantacin, etc.

  • Dagoberto Salgado Horta Pgina 6

    DESCRIPCIN DE LA INFORMACIN

    Tal como lo hemos apuntado en el captulo 1, el proceso de extraccin de informacin consiste, en la mayora de los casos, en la obtencin de una muestra aleatoria de una poblacin grande y, una vez obtenida la muestra, se procede al estudio de la informacin que ella contiene. El estudio de la muestra comienza con la que se denomina descripcin de la informacin la cual consiste, a su vez, en la presentacin, organizacin y resumen de los datos de la muestra.

    Ordenamiento, clasificacin y presentacin de los datos

    La primera forma con la que usualmente el analista se encuentra, es una tabla de datos crudos, es decir, los datos dispuestos de la manera en que los tom el operador. Comnmente, los datos se registran en cuadros, tablas o planillas. Por ejemplo, el Cuadro 1 contiene 100 datos correspondientes a las mediciones de dimetros de espigas de maz en milmetros tal como fueron registrados por el tcnico en el campo experimental, es decir, en el orden en que fueron ledos. Viendo el Cuadro 2.1, se podran detectar algunas caractersticas aisladas de los nmeros tales como nmeros muy grandes o muy pequeos en comparacin con los dems o, quizs, algn vaco de valores en algn segmento del Cuadro, pero no mucho ms que eso. Para poder extraer ms informacin de los datos, stos deben estar clasificados u organizados.

    Cuadro 2.1. Cien mediciones de dimetros de espigas de maz, en milmetros

    56.0 51.8 54.4 53.0 54.3 41.0 51.0 51.8 54.4 52.5 53.1 46.1 44.9 49.0 53.8 46.0 45.6 58.0 55.4 53.7 40.2 45.2 52.3 55.4 54.6 53.8 51.1 49.0 65.2 59.6 47.7 48.3 51.0 63.8 60.0 51.6 47.6 53.3 59.1 55.3 44.4 51.2 60.7 52.6 39.7 52.7 50.1 54.7 61.0 43.0 44.6 46.4 56.5 53.0 42.0 51.5 40.0 52.7 51.4 39.7 47.2 55.1 55.5 61.0 44.6 47.5 52.5 52.3 57.2 42.6 44.0 51.1 50.0 55.3 43.0 50.0 51.7 49.5 56.3 39.0 48.4 54.3 52.0 58.7 46.9 54.0 50.6 53.5 51.4 41.6 46.0 46.7 55.0 64.6 43.3 51.3 47.7 43.0 54.2 46.7

    Total: 5093.1

    Cuadro 2.2. Datos del Cuadro 2.1., clasificados en orden ascendente.

    39.0 46.0 50.6 52.7 55.3 39.7 46.0 51.0 52.7 55.3 39.7 46.1 51.0 53.0 55.4 40.0 46.4 51.1 53.0 55.4 40.2 46.7 51.1 53.1 55.5 41.0 46.7 51.2 53.3 56.0 41.6 46.9 51.3 53.5 56.3 42.0 47.2 51.4 53.7 56.5 42.6 47.5 51.4 53.8 57.2 43.0 47.6 51.5 53.8 58.0 43.0 47.7 51.6 54.0 58.7 43.0 47.7 51.7 54.2 59.1 43.3 48.3 51.8 54.3 59.6 44.0 48.4 51.8 54.3 60.0 44.4 49.0 52.0 54.4 60.7 44.6 49.0 52.3 54.4 61.0 44.6 49.5 52.3 54.6 61.0 44.9 50.0 52.5 54.7 63.8 45.2 50.0 52.5 55.0 64.6 45.6 50.1 52.6 55.1 65.2

  • Dagoberto Salgado Horta Pgina 7

    Una forma muy simple de organizar la informacin contenida en los datos consiste en disponerlos en orden a su magnitud, es decir, clasificarlos en orden ascendente o descendente. En el Cuadro 2.2 se han dispuesto las 100 mediciones del Cuadro 2.1 en orden ascendente.

    Con los datos clasificados como en el Cuadro 2.2 se pueden hacer algunas cosas ms que con los datos crudos como, por ejemplo, detectar cules son los valores mximo y mnimo del conjunto o ver si hay alguna discontinuidad en la secuencia de los nmeros, o ver si los nmeros tienen alguna tendencia a agruparse en alguna zona determinada. Pero, an con las ventajas que presenta, en la mayora de los casos la clasificacin no le basta al investigador o al ingeniero para alcanzar sus objetivos. Un paso ms decisivo en ese sentido lo representa la condensacin de los datos en una tabla o distribucin de frecuencias. En el Cuadro 2.3 se presenta la tabla de frecuencia correspondiente a los datos de los Cuadros 2.1 y 2.2.

    Cuadro 2.3. Tabla de frecuencias correspondiente a los datos de los cuadros 2.1 y 2.2.

    Clase Punto medio

    (mi) Frecuencia de

    clase (fi) (35 40] 37.5 4 (40 45] 42.5 14 (45 50] 47.5 21 (50 55] 52.5 40 (55 60] 57.5 15 (60 65] 62.5 5 (65 70) 67.5 1

    Total 100

    La tabla de frecuencias consiste en el agrupamiento de la masa de datos clasificados en un nmero reducido de grupos o clases delimitados por valores preestablecidos (intervalos de clase). Ya no existen ms los valores individuales de los datos. Esta reduccin implica, ciertamente, un cierto grado de prdida de informacin porque, por ejemplo, del dato correspondiente al dimetro de 46.9 slo sabemos ahora que est en algn lugar dentro de la tercera clase de la tabla de frecuencias. En este curso solo veremos distribuciones de frecuencia con intervalos de clase uniformes, es decir que las tablas de frecuencia tendrn todos los intervalos con el mismo ancho. En la distribucin del Cuadro 2.3, todos los intervalos tienen un ancho igual a 5 milmetros. Los valores extremos de cada intervalo de clase son los lmites inferior y superior del intervalo. Por ejemplo, el lmite inferior de la cuarta clase de la tabla es 50 mm y el lmite superior de la misma es 55 mm. Debemos notar que el valor del lmite superior de una clase puede coincidir con el del lmite inferior de la siguiente pero el dato correspondiente a ese valor debe pertenecer a una y solo una de las clases. Para eludir esta ambigedad se utiliza el smbolo ] para indicar la inclusin y el smbolo ( para indicar la exclusin de ese valor. Por ejemplo, el dato 50 pertenece a la 3 clase y no a la 4. En la tercera columna de la tabla se escriben las frecuencias absolutas correspondientes a cada clase. Las frecuencias absolutas no son otra cosa que la cantidad de datos que hay en cada clase. Por ejemplo, hay 40 datos dentro de la 4 clase y 15 datos dentro de la 5. La suma de las frecuencias de clase (fi) debe ser, obviamente, igual al total de datos en la muestra (usaremos el smbolo n para denotar el nmero de datos cuando se trate de una muestra y el smbolo N, cuando se trate de una poblacin). Otro punto importante de cada clase es la marca de clase que no es otra cosa que el punto medio entre ambos lmites. Por ejemplo, la marca de la 6 clase es 62.5. En cuanto al nmero de clases a emplear para construir la tabla de frecuencias, eso depende de varias consideraciones pero, a modo de regla emprica, digamos que el nmero de clases debera estar entre 5 y 15. En nuestro ejemplo hay 100 datos y la amplitud total (es decir, la diferencia entre el mximo y el mnimo) es de 65.2 39.0 = 26.2. Para estos datos se eligi un ancho para los intervalos de clases de 5 mm y, por tanto, un total de 7 clases.

    La tabla de frecuencias, a pesar de la reduccin en la informacin que implica, presenta una serie de ventajas. Por ejemplo, utilizando tablas de frecuencias es ms fcil comparar dos conjuntos de datos. Adems, es ms fcil obtener las medidas que permiten resumir la informacin

  • Dagoberto Salgado Horta Pgina 8

    en unos pocos nmeros. Finalmente, la tabla de frecuencias hace mucho ms fcil la obtencin de grficos representativos de la distribucin de los datos en la muestra o en la poblacin.

    Representaciones grficas

    Existen muchas maneras de representar grficamente una distribucin de frecuencias. En este curso veremos tres de las ms importantes: el histograma, el polgono de frecuencias y el diagrama de caja y bigotes. Un histograma es una representacin en la cual se inscriben en el eje de abscisas los valores de la variable en estudio y en el eje de ordenadas los valores de las frecuencias. El histograma correspondiente a los datos del Cuadro 2.3 se presenta en la figura siguiente:

    Figura 2.1. Histograma correspondiente a los datos del cuadro 1.3.

    El polgono de frecuencias se obtiene, simplemente, uniendo mediante una lnea poligonal los puntos medios en la cima de la barras del histograma de la distribucin. En la siguiente figura se representan conjuntamente el polgono de frecuencia y el histograma correspondientes a los datos del cuadro 2.3:

    Figura 2.2. Polgono de frecuencia e histograma correspondientes a las datos del cuadro 2.3.

    El histograma es una representacin muy completa de la distribucin de frecuencias y superior al polgono pero, con todo, el polgono tiene utilidad en muchas instancias. Por ejemplo, el polgono es especialmente til cuando se desean comparar dos distribuciones puesto que la superposicin de los histogramas dara un grfico confuso y difcil de interpretar mientras que la superposicin de los polgonos deja espacio para una lectura cmoda y rpida. Otra ventaja del polgono de frecuencias es que puede, en ocasiones, ayudar a descubrir si hay alguna funcin matemtica que pueda describir eficazmente la distribucin real subyacente a la totalidad de los datos de la poblacin.

  • Dagoberto Salgado Horta Pgina 9

    De los polgonos de frecuencias a las curvas poblacionales

    Si tomsemos una muestra muy grande podramos acercarnos a la verdadera distribucin de frecuencias de la poblacin y cuanto ms grande sea la muestra ms cerca de aquella estaremos. Pero raras veces se puede tomar una muestra tan grande que pueda absorber las irregularidades causadas por el tamao de las muestras pequeas. En cambio, una muestra pequea eficientemente tomada puede ser muy til en sugerir la verdadera curva de la poblacin (curva poblacional) mediante una funcin matemtica derivada de los datos. Los tipos de curva poblacional ms comunes se presentan en la siguiente figura:

    (a) (b)

    (c) (d)

    Figura 3.3. Ejemplos ms frecuentes de curvas poblacionales:

    (a) Distribucin normal. (b) Distribucin bimodal. (c) Curva asimtrica positiva. (d) Curva de J invertida

    Poder contar con una descripcin matemtica ajustada de la distribucin de una variable en la poblacin puede ser muy til en el momento de tomar decisiones a partir de datos muestrales. Algunas clases ms adelante haremos suposiciones acerca de las distribuciones de las variables en las poblaciones basndonos en distribuciones aproximadas desde las muestras. Los tipos de curva poblacional ms comunes se representan en la figura con las letras (a), (b), (c) y (d). La curva (a) representa una distribucin de frecuencias muy comn de hallar en la naturaleza y en los problemas de ingeniera y que describiremos en un captulo posterior: la distribucin normal. La curva (b) es una distribucin bimodal, es decir, una distribucin que presenta dos puntos de mxima frecuencia denominados modas. Definiremos a la moda algunas pginas ms adelante. Las curvas bimodales suelen observarse en poblaciones que esconden dos distribuciones internas. La curva del tipo (c) es una curva asimtrica positiva, es decir, una curva asimtrica con su cola ms larga hacia la derecha de los valores del eje x. Finalmente, la curva (d) es una curva en forma de J invertida

    El tercer tipo de representacin que veremos es el diagrama de caja y bigotes. Este tipo de grfico presenta los valores de la variable en el eje de ordenadas, contrariamente al histograma y al polgono que presentan los valores de la variable sobre el eje de abscisas. Consiste en una caja que representa el 50% central de la distribucin de los datos ordenados, es decir, desde el dato que deja por detrs suyo (en orden ascendente) al 25% de los datos, hasta el dato que deja por detrs suyo (en orden ascendente) al 75% de los datos. Mediante los bigotes pueden representarse diferentes medidas aunque lo ms comn es que se represente a los valores mximo y mnimo de la distribucin. Finalmente, mediante un smbolo especial (una estrella, un segmento, un cuadrado, etc.) se representa la mediana de la distribucin, es decir, el valor que

  • Dagoberto Salgado Horta Pgina 10

    tiene por debajo suyo al menos el 50% de los datos y por encima al menos el otro 50%. Definiremos ms delante a la mediana. En la siguiente figura se presenta el diagrama de caja y bigotes de la distribucin de frecuencias del Cuadro 2.3.

    Figura 2.4. Diagrama de caja y bigotes de la distribucin de frecuencias del cuadro 2.3.

    Frecuencias relativas

    Las frecuencias relativas se obtienen a partir de las frecuencias absolutas de una manera muy simple: se divide cada frecuencia absoluta por el nmero total de datos de la muestra (o de la poblacin), es decir, fi/n fi/N y se las denota como fri. En el siguiente cuadro se presenta la distribucin de frecuencias relativas correspondiente a los datos de dimetro.

    Una de las grandes utilidades de la distribucin de frecuencias relativas es que permite comparar distribuciones de frecuencias correspondientes a datos de diferente magnitud. Veremos un ejemplo de su utilidad. Supongamos que queremos comparar nuestra distribucin de frecuencias de dimetros de espigas de maz con otra distribucin tambin de dimetros de espigas de maz pero correspondiente a una muestra ms grande de n = 200.

    Los datos correspondientes a la primera muestra (n = 100) se presentan en el cuadro 2.4. Los datos correspondientes a la segunda muestra (n = 200) con la cual se desea comparar la primera, se presentan en Cuadro 2.5.

    Cuadro 2.4. Frecuencias relativas correspondientes a los datos de dimetro de espigas de maz. (Muestra 1)

    Clase Frecuencia

    (fi) Frecuencia relativa (fri)

    (35 40] 4 0.040 (40 45] 14 0.140 (45 50] 21 0.210 (50 55] 40 0.400 (55 60] 15 0.150 (60 65] 5 0.050 (65 70] 1 0.010

    Total 100 1.000

  • Dagoberto Salgado Horta Pgina 11

    Los polgonos de frecuencias de

    ambas distribuciones

    permitirn observar cul es la utilidad del clculo de

    las frecuencias

    relativas. En la figura 2.5. se presentan

    las frecuencias absolutas de ambas distribuciones y, como puede verse claramente, ambos polgonos no se pueden comparar, simplemente, porque la segunda muestra es ms grande que la primera y, por esta razn, el polgono de frecuencias absolutas refleja este hecho.

    En cambio, si graficamos los polgonos de frecuencias relativas de ambas muestras la comparacin resulta vlida y pueden verse las diferencias entre ambas muestras sobre una base homognea. En la figura 2.6. pueden verse los polgonos de las frecuencias relativas de ambas muestras y se nota claramente como, por ejemplo, en la muestra 2 las espigas con dimetros superiores son un poco ms frecuentes, en trminos relativos, que en la muestra 1 mientras que las espigas con dimetros bajos son menos frecuentes, en general, en la muestra 1 que en la muestra 2.

    Figura 2.5. Polgonos de frecuencias absolutas de la muestra 1 y la muestra 2.

    Figura 2.6. Polgonos de frecuencias relativas de las muestras 1 y 2.

    Frecuencias acumuladas

    Cuadro 2.5. Frecuencias relativas correspondientes a los datos de dimetro de espigas de maz. (Muestra 1)

    Clase Frecuencia

    (fi) Frecuencia relativa (fi)

    (35 40] 5 0.025 (40 45] 10 0.050 (45 50] 37 0.185 (50 55] 70 0.350 (55 60] 40 0.200 (60 65] 29 0.145 (65 70] 9 0.045

    Total 200 1.000

  • Dagoberto Salgado Horta Pgina 12

    Muchas veces, el inters del investigador no est puesto en la frecuencia absoluta o relativa de un determinado valor o intervalo de clase sino en el conjunto de valores que est por encima o por debajo de un valor especfico. Por ejemplo, el nmero o porcentaje de animales de un rodeo que pesa, por lo menos, 350 kg, o el nmero de plantas de trigo que presentan, a lo sumo, dos espigas infectadas por un hongo patgeno. Para poder contestar rpidamente este tipo de preguntas se calculan las denominadas frecuencias acumuladas, tanto absolutas como relativas.

    El clculo de las frecuencias acumuladas (Fi o Fi/n) se puede hacer en forma ascendente o descendente y es muy simple: en el primer caso, consiste en acumular los valores de las frecuencias absolutas (o relativas) hasta alcanzar el mximo valor, n (o 1); en segundo, consiste en ir restando o desacumulando las frecuencias absolutas (o relativas) desde el mximo valor, n (o 1) hasta llegar a 0. Ahora se aplicarn estos clculos al ejemplo de los dimetros de las espigas de maz con el que se viene trabajando.

    Cuadro 2.6. Clculo de frecuencias acumuladas.

    Creciente Decreciente Clase fi Fi Fi/n Fi Fi/n

    (35 40] 4 4 0.04 100 1.00 (40 45] 14 18 0.18 96 0.96 (45 50] 21 39 0.39 82 0.82 (50 55] 40 79 0.79 61 0.61 (55 60] 15 94 0.94 21 0.21 (60 65] 5 99 0.99 6 0.06 (65 70] 1 100 1.00 1 0.01

    Las frecuencias acumuladas se representan mediante el grfico como el de la figura 2.7.:

    Figura 2.7. Ojiva, representacin de frecuencias acumuladas.

    La distribucin de frecuencias acumuladas se utiliza para calcular grficamente valores tanto sobre el eje de abscisas como sobre el eje de ordenadas. En la figura anterior, sobre el eje de ordenadas de la izquierda, se representaron las frecuencias absolutas acumuladas y sobre el eje de ordenadas de la derecha, las frecuencias relativas acumuladas. Por ejemplo, como se muestra en la figura, si queremos conocer la frecuencia acumulada absoluta correspondiente a los 47.5 mm de dimetro, solo tenemos que ascender en lnea recta desde la posicin 47.5 sobre el eje de abscisas hasta llegar a la ojiva y, a partir de ella, seguir en lnea recta horizontal hasta interceptar el eje de ordenadas de la izquierda, para obtener el valor 39. Tambin podemos usar la ojiva en forma inversa. Por ejemplo, si queremos saber cul es el valor que acumula el 50% de la observaciones de dimetro, partimos del punto 0.50 sobre el eje de ordenadas de la derecha, seguimos en lnea recta horizontal hasta llegar a la ojiva y, desde all, descendemos en lnea recta vertical hasta llegar al eje de abscisas, para obtener un valor aproximado de 49 mm.

  • Dagoberto Salgado Horta Pgina 13

    Variables cualitativas

    Hasta ahora hemos visto tablas de frecuencias y representaciones grficas para variables cuantitativas pero todo esto tambin puede hacerse para variables cualitativas. La tabla de frecuencias correspondiente a una variable cualitativa muestra, simplemente, las frecuencias, tanto absolutas como relativas, tanto simples como acumuladas, para cada una de las categoras en las que est clasificada la variable. Supongamos, por ejemplo, que se recibe una encomienda de 200 unidades de un material clasificado segn su grado de pureza en 5 categoras: muy puro, puro, mediano, impuro y muy impuro. Una vez hecho el recuento se obtienen los resultados de la siguiente tabla:

    La representacin grfica que puede usarse es un diagrama de

    barras verticales u

    horizontales en el que se indican las

    categoras de la variable sobre el eje de abscisas y las frecuencias, sobre el de ordenadas. A continuacin se presenta un diagrama de barras verticales correspondiente al ejemplo de la pureza de los materiales. Cabe aclarar que los anchos de las barras son enteramente arbitrarios y no tienen significado prctico aunque deben ser iguales entre s.

    Figura 1.8. Diagrama de barras verticales.

    Medidas resumen de la informacin

    El proceso de resumen de la informacin no se detiene con la distribucin de frecuencias. An se puede resumir mucho ms sin que por eso se pierda la posibilidad de rescatar la informacin verdaderamente til y que resulta de inters. El proceso contina con la obtencin de las denominadas medidas resumen. Veremos dos clases bsicas de medidas: (a) las medidas de posicin (tambin llamadas medidas de tendencia central) y, (b) las medidas de dispersin.

    Medidas de posicin

    Las medidas de posicin o de tendencia central dan una idea de cmo es la estructura de los datos, especialmente, la regin central de la distribucin de los mismos y, por ese motivo, reciben

    Cuadro 1.7.

    Frecuencia

    Absoluta Relativa Muy puro 35 0.175

    Puro 59 0.295 Mediano 52 0.260 Impuro 42 0.210

    Muy impuro 12 0.060 Total 200 1.000

  • Dagoberto Salgado Horta Pgina 14

    la denominacin general de promedios. Aunque no siempre, algunas medidas de posicin no estn relacionadas con la regin central de la distribucin sino con otras partes de la misma. Las medidas promedio guardan cierta semejanza con el concepto de centro de gravedad de un cuerpo fsico. Hay muchas medidas de posicin pero en este curso veremos solamente tres: (i) los cuantiles y la mediana, (ii) la moda y, (iii) la media aritmtica.

    Los cuantiles

    Los cuantiles son medidas que se obtienen sobre la distribucin de los datos clasificados. Una vez ordenados los datos en orden ascendente, se buscan en los mismos, ciertas posiciones especficas de inters. Las tres clases de cuantiles ms comunes son: (i) los cuartiles, (ii) los deciles y, (iii) los percentiles. Los cuartiles son posiciones que dividen la distribucin de los datos en cuatro secciones. La primera va desde el valor mnimo hasta el valor que deja por debajo suyo, por lo menos, al 25% de los datos y por encima suyo, por lo menos, al 75% de los mismos; este valor recibe el nombre de primer cuartil y se lo simboliza q1. La segunda va desde el primer cuartil hasta el valor que deja por debajo suyo, por lo menos, al 50% de los datos y por encima suyo, por lo menos, al otro 50% de los mismos; este valor recibe el nombre de segundo cuartil o mediana de la distribucin y se lo simboliza q2, o x.5. La tercera va desde la mediana hasta el valor que deja por debajo suyo, por lo menos, al 75% de los datos y por encima suyo, por lo menos, al 25% de los mismos; ste valor recibe el nombre de tercer cuartil y se lo simboliza q3. Y la ltima que va desde q3 hasta el valor mximo.

    La moda

    La moda simbolizado xm, es, simplemente, el valor ms frecuente de la distribucin. Dada su definicin, es posible encontrarse con distribuciones cuyos valores tengan, todos, la misma frecuencia: en ese caso, la distribucin de los datos carece de moda. O podra darse el caso de una distribucin que posea ms de una moda. Por ejemplo, en la seccin sobre curvas poblacionales, vimos una curva que posea dos modas (curva bimodal).

    La media aritmtica

    La media aritmtica es, simplemente, el resultado de dividir la suma de todos los valores por n, el tamao de la muestra (o N, si se tratara de una poblacin) y se la simboliza x :

    =

    =

    +++=

    n

    ii

    n

    xn

    n

    xxxx

    1

    21

    1

    (2.1)

    Las calculadoras de bolsillos con modo estadstico (SD) permiten calcular la media aritmtica (aparecen con el smbolo x ). Aplicando la frmula a los datos de muestra del cuadro 2.1, obtenemos:

    ( )mm

    xn

    xn

    ii

    931.50

    1.5093100

    1

    1

    1

    =

    =

    = =

    La media aritmtica tiene las siguientes dos propiedades de gran inters para el anlisis de datos:

  • Dagoberto Salgado Horta Pgina 15

    I. que la suma de los desvos de todos los valores de la muestra con respecto a la media aritmtica es igual a 0:

    ( ) 0=i

    i xx

    II. que la suma de las desviaciones de los datos con respecto a la media elevadas al cuadrado, es menor que la suma de las desviaciones de los datos con respecto a cualquier otro valor elevadas al cuadrado.

    ( ) mnxxi

    i =2

    .

    La ltima propiedad cobrar relevancia cuando se definan las medidas de dispersin.

    Cuando la muestra presenta valores repetidos muchas veces, conviene utilizar la media aritmtica ponderada que se calcula con la frmula general que se dio ms arriba salvo que se indica mediante factores (ponderaciones) la cantidad de veces que se repite cada valor. Por ejemplo, supongamos la siguiente muestra: 1, 1, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 5, 5, 6, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 9 ,9, 9, 9, 9, 9, 9, 13, 15, 15, 15, 15, 15, 18, 23, 23, 24, 24, 24, 24, 24, 25, 25. Son 50 datos, algunos de los cuales se repite varias veces. Entonces, en lugar de calcular la media con la frmula anterior, sumando los valores uno por uno, se multiplica cada valor por su ponderacin y se divide el total por n (en este ejemplo, n = 50):

    64.1050

    53225317152

    225524371675145321==

    ++++++++

    +++++++++=

    x

    Una frmula general para este clculo es:

    =

    i iii

    iw wx

    wx

    1 (2.2)

    donde wx es la media aritmtica ponderada, xi son los valores de las observaciones individuales y wi son las ponderaciones

    Medidas de dispersin

    Las medidas de posicin, especialmente los promedios (media, mediana y moda), como se dijo antes, dan una idea de cul es el centro de gravedad de la masa de datos pero nada dicen de cmo estn distribuidos los datos alrededor de esos puntos centrales. Por ejemplo, la distribucin formada por los nmeros 1, 4, 8, 13, 18, 22 y 25 y la distribucin formada por los nmeros 10, 11, 12, 13, 14, 15 y 16 tienen, ambas, la misma media aritmtica, x = 13 pero no cabe ninguna duda de que la primera de las distribuciones tiene los datos ms dispersos alrededor del punto central, que la segunda. Entonces, para completar la caracterizacin de una distribucin de frecuencias, se necesita contar con alguna medida de esa dispersin. En este curso veremos tres principales, la amplitud, la amplitud intercuartil y la variancia y otras dos que derivan de la variancia: el desvo standard y el coeficiente de variacin.

    Amplitud

    La amplitud es la medida de dispersin ms simple. Esta medida tambin se la conoce con el nombre de rango, aunque es ms apropiado el trmino amplitud. En un conjunto de n observaciones x1, x2, x3, ...xn la amplitud se define como la diferencia entre el mximo (xmax) y el mnimo (xmin). A pesar de la facilidad de clculo y la simpleza de esta medida, la amplitud puede resultar insensible a la variacin de los datos, sobretodo en conjuntos grandes de datos.

  • Dagoberto Salgado Horta Pgina 16

    Amplitud intercuartil

    La amplitud intercuartil, como su nombre lo indica claramente, es la diferencia, en valor absoluto, entre q1 y q3 e incluye, por esta misma razn, el 50% central de la distribucin de frecuencias. Es la que determina la longitud de la caja en el diagrama de caja y bigotes que vimos pginas atrs.

    Variancia y desvo standard

    La variancia indica la dispersin existente en los datos alrededor de la media aritmtica y se define como el promedio de los cuadrados de las diferencias entre los datos y su media.

    ( )=

    =

    n

    ii xx

    nXVariancia

    1

    21)( o (2.3)

    El los captulos siguientes estimaremos la variancia de una poblacin a partir de los datos de una muestra, utilizando la frmula, ligeramente diferente de la presentada en 2.3., que indicamos a continuacin.

    ( )=

    =

    n

    iin xx

    ns

    1

    221 1

    1 (2.4)

    Como la variancia es un promedio de desvos elevados al cuadrado, sus son las unidades originales elevadas al cuadrado. Para eliminar esta inconveniencia, se suele medir la dispersin de los datos por medio del desvo standard que no es otra cosa que la raz cuadrada de la variancia. Las calculadoras de bolsillos con modo estadstico (SD) permiten calcular tanto sn como sn-1 (aparecen con los smbolos xn y xn-1).

    Ilustraremos el clculo de la variancia con un ejemplo. En el siguiente cuadro se presentan los registros de los rendimientos en grano de un hbrido de girasol (en Kg/parcela) en 10 ensayos experimentales:

    125 120 118 133 127 119 130 124 131 121

    Para aplicar la frmula, primeramente debemos calcular la media aritmtica la cual resulta

    ser 8.12410

    1248==x . Luego, podemos ordenar las cifras en forma de cuadro para facilitar los

    clculos (x representa el rendimiento, en Kg/parcela):

    X 120 125 118 133 127 119 130 124 131 121 1248 2)( xxi 23.04 0.04 46.24 67.24 4.84 33.64 27.04 0.64 38.44 14.44 255.6

    Luego:

    055.556.2556.2510

    6.255)(

    2)( === XnXn ss Kg/parcela;

    y:

    ( ) 329.54.284.281106.255

    )1(2

    )1( =

    = XnXn ss Kg/parcela.

  • Dagoberto Salgado Horta Pgina 17

    La muestra ha sido pequea y, por esta razn, hay una diferencia ms o menos notoria entre ambas frmulas de variancia pero, con muestras ms o menos grandes (digamos, n > 30), la diferencia se hace insignificante.

    Coeficiente de Variacin

    Cuando se necesita comparar el grado de variabilidad en la informacin entre dos muestras correspondientes a poblaciones diferentes en la magnitud de los datos, el solo uso del desvo standard no es suficiente porque surgirn diferencias que se deben a la naturaleza de los datos y no a las variaciones de las muestras en s. En ese caso, se recurre a una medida relativa de la variabilidad denominada coeficiente de variacin (cv) que es, simplemente, el cociente entre el desvo standard y la media aritmtica, multiplicado por 100. Para sn-1 tenemos:

    1001 = x

    scv n

    (2.5)

    Ejemplo. Se cuenta con una muestra de pesos de cerdos y con otra muestra de pesos de gallinas, y se desea saber cul es comparativamente ms variable. Los valores de medias y desvos son los siguientes:

    Cerdos: 3241 =x Kg.; 8.381)1( =ns Kg.;

    Gallinas: 6.12 =x Kg.; 299.02)1( =ns Kg.

    Obviamente, los pesos de los cerdos tienen una variabilidad absoluta mucho mayor pero, son realmente, ms variables en relacin con su media? Calculemos los respectivos cv:

    ( )

    12

    100324

    8.381

    1)1(1

    =

    =

    =

    x

    sxcv

    n

    y

    ( )

    7.18600.1299.0

    2

    2)1(2

    =

    =

    =

    x

    sxcv

    n

    .

    Vemos que la variabilidad relativa en las gallinas es un 57% mayor que la correspondiente a los cerdos, aunque su desvo standard sea menor.

    Clculos de media y variancia partiendo de distribuciones de frecuencia (datos agrupados)

  • Dagoberto Salgado Horta Pgina 18

    La media aritmtica y la variancia suelen calcularse al mismo tiempo para datos agrupados, porque, para ambas medidas, puede usarse la misma hoja de trabajo. Advirtase que ambas medidas requieren todos los valores individuales de la muestra. Pero sabemos que esos valores se pierden en el proceso de organizar una distribucin de frecuencias. Esta dificultad se evita si usamos el punto medio (mi) de la i-sima clase para representar todos y cada uno de los valores individuales de dicha clase.

    Repitiendo este procedimiento para todas las clases se obtiene el valor total de toda la distribucin. En consecuencia, la media aritmtica para datos agrupados, con k clases, puede definirse como:

    =

    =

    +++

    +++=

    k

    iii

    k

    kk mfnfff

    mfmfmfx

    121

    2211 1

    (2.6)

    En trminos de datos agrupados, la variancia puede definirse como:

    ( )=

    =

    k

    iiin xmf

    ns

    1

    22 1 y (2.7)

    ( )=

    =

    k

    iiin xmf

    ns

    1

    221 1

    1 (2.8)

    o, ms sencillamente:

    Para los datos del Cuadro 3:

    mi 37.5 42.5 47.5 52.5 57.5 62.5 67.5 Total

    fi 4 14 21 40 15 5 1 100

    obtenemos:

    85.501005085

    11445.6715.42145.374

    ==

    +++

    +++=

    x mm.

    Para la variancia:

    mi 37.5 42.5 47.5 52.5 57.5 62.5 67.5 xmi -13.35 -8.35 -3.35 +1.65 +6.65 +11.65 +16.65

    fi 4 14 21 40 15 5 1

    ( ) ( ) ( ) 5275.36100

    75.3652100

    165.161435.8435.13 2222==

    ++++=

    ns

    y 8965.365275.361100

    10021 =

    =ns .

    Las desviaciones standard: sn = 6.044 mm y sn-1 = 6.074 mm.

  • Dagoberto Salgado Horta Pgina 19

    Ejercicios 2.1 Un fabricante de medicamentos veterinarios est interesado en la proporcin de

    animales que padecen infecciones locales cuya condicin puede ser controlada por un nuevo producto desarrollado por la empresa. Se condujo un estudio en el que participaron 5000 animales que padecen infecciones locales y se encontr que en el 80% de los animales se puede controlar la infeccin con el medicamento. Suponiendo que los 5000 animales son representativos del grupo de animales con infecciones locales, conteste las siguientes preguntas:

    a. Cul es la poblacin? b. Cul es la muestra? c. Identifique el parmetro de inters. d. Identifique la estadstica y proporcione su valor. e. Se conoce el valor del parmetro?

    2.2 En los siguientes incisos, indique cul es la variable en estudio y qu clase de variable es:

    a. Color de flores. b. Razas de bovinos. c. Punto de fusin del manganeso. d. Altura de tallo. e. Salarios por hora. f. Porcentaje de asistencia. g. Nmero de ptalos de una flor. h. Monto de las acciones vendidas.

    2.3 Cargar los datos del Cuadro 1 en una planilla Infostat y realizar las

    siguientes tareas:

    a. construir una tabla de frecuencias con las mismas especificaciones que la del Cuadro 3;

    b. construir un histograma de frecuencias absolutas como el de la pgina 7 solicitndole al programa que incluya las marcas de clase;

    c. solicitarle a Infostat que inscriba el polgono de frecuencias sobre el histograma construido en el punto (b);

    d. construir un diagrama de caja y bigote como el de la pgina 9; e. construir una tabla de frecuencias relativas con las mismas especificaciones que la de la pgina 9 para n = 100;

    f. construir una tabla de frecuencias acumuladas crecientes con las mismas especificaciones que la de la pgina 11;

    g. construir una ojiva con las frecuencias absolutas obtenidas en la tabla del punto (f);

    h. construir una ojiva con las frecuencias relativas obtenidas en la tabla del punto (f);

  • Dagoberto Salgado Horta Pgina 20

    i. utilizando las ojivas obtenidas en el punto (h) , determine aproximadamente los valores q1, q2 y q3;

    j. Utilizando la opcin Medidas Resumen de Infostat, calcule los valores q1, q2, q3, la media, la variancia y el coeficiente de variacin de los datos del Cuadro 1.

    2.4 Los siguientes datos representan el nmero de tomates rechazados por da en un mercado mayorista. Los datos corresponden a 50 das seleccionados aleatoriamente:

    29 58 80 35 30 23 88 49 35 97 12 73 54 91 45 28 61 61 45 84 83 23 71 63 47 87 36 8 94 26 95 63 86 42 22 44 88 27 20 33 28 91 87 15 67 10 45 67 26 19

    a. Construya una tabla de frecuencias con 10 clases. b. Construya un histograma y la ojiva que corresponda a la tabla anterior. c. Construya un diagrama de caja y bigotes. d. Qu valor de la variable es superado por el 50% de las observaciones? e. Cul es el valor de la variable que se presenta un mayor nmero de veces? f. Utilice todos los datos y la tabla de frecuencias para encontrar la media, el desvo standard y el coeficiente de variacin de los nmeros de tomates que se rechazan.

    2.5 El cultivo de soja en nuestro pas se encuentra en expansin. En la provincia de Buenos

    Aires, el INTA determin el rendimiento de 40 plantaciones (en toneladas/ha), obteniendo los siguientes resultados:

    a. Clasificar y definir la variable. b. Identificar la unidad experimental, la muestra y la poblacin en el estudio. c. Calcular el rendimiento promedio de soja. d. Cul es el rendimiento ms frecuente? e. Cul es el valor de la variable superado por el 50 % de las observaciones de los rendimientos?

    f. Durante el mismo perodo, en el sur de Santa Fe, se registr un rendimiento promedio de 3.3 tn/ha, con un desvo estndar de 0.62 tn/ha. Cul de las 2 producciones medias fue mayor y cul ms variable?

    g. Cul es el rendimiento superado por el 90 % de los campos muestreados? Nota: Para realizar los clculos tome como marca de la ltima clase el valor 5.5.

    Rendimiento (tn/ha) N de campos 0-1 2

    1-2 9

    2-3 10

    3-4 13

    4-5 5

    >5 1

  • Dagoberto Salgado Horta Pgina 21

    2.6 El bicho taladro (Platypus mutatus) es una de las plagas ms importantes que afecta la

    calidad de la madera para uso comercial. Se determin la presencia de esa plaga segn el nmero de orificios activos que presentaban los fustes de lamos de una plantacin comercial. Los resultados fueron los siguientes:

    N de orificios activos 0 1 2 3 4 5 6 7 8 9 N de fustes 12 38 28 16 13 11 9 7 5 1

    a. Clasificar y definir la variable. b. Identificar la unidad experimental, la muestra y la poblacin en el estudio. c. Se considera que la madera es apta para comercializarse si presenta, a lo sumo,

    2 orificios activos. i. Qu porcentaje de los rboles no podrn comercializarse?

    d. Cul es el promedio de orificios en los lamos que pueden comercializarse y cul, en los que no pueden?

    e. En qu caso el nmero de orificios activos por fuste es ms homogneo teniendo en cuenta las dos categoras definidas previamente (comercializables y no comercializables)?

    f. Cul es el nmero ms frecuente de orificios activos por fuste? g. Cuntos orificios activos por fuste poseen el 25 % de los lamos ms

    afectados? h. Entre qu valores se encuentra al 80 % de las observaciones centrales. i. Dibujar e interpretar el diagrama de caja en trminos del problema.

    2.7 En una importante empresa lctea hay 600 empleados que cobran $400, 500 que cobran

    $600, 100 que cobran $2200 y 5 socios que perciben $100.000 cada uno. Calcular la media, mediana y la moda y discutir cul de estos 3 estadsticos de tendencia central estima mejor el sueldo medio de los empleados de la empresa.

    2.8 Ambos histogramas representan la distribucin de tamaos (DAP: dimetro a la altura

    del pecho) de una poblacin de Prosopis caldenia (caldn) localizada en Luan Toro, provincia de La Pampa. (a) histograma de frecuencias relativas y (b) histograma de frecuencias relativas acumuladas. En base a los mismos responda:

  • Dagoberto Salgado Horta Pgina 22

    (a) (b)

    a. Es la distribucin unimodal? Justifique. Cul es el valor aproximado de la o las modas?

    b. Qu porcentaje de fustes comercializables existe si el criterio es que superen los 48 cm de dimetro?

    c. Qu porcentaje de individuos no superan los 16 cm de dimetro? d. Qu porcentaje aproximado de individuos se hallan dentro del rango de 30 a 50 cm de dimetro?

    2.9 Los siguientes diagramas de caja representan la distribucin de la carga parasitaria en

    campos de cra de ganado vacuno de la Depresin del Salado, provincia de Buenos Aires. En base a los mismos responda:

    Campo A Campo B Campo C0.00

    37.50

    75.00

    112.50

    150.00

    Ca

    rga

    pa

    ras

    itaria

    (p

    ar

    sito

    s/a

    nim

    al)

    a. Cules campos presentan distribuciones asimtricas? Justifique su respuesta. b. Si usted fuera el asesor de la zona, en cules campos cree que se realiza un buen manejo sanitario del rodeo? Discuta y justifique su respuesta.

    c. Cules campos presentan una mediana no superior a 66 parsitos por animal

    0 .0 0 1 6 .0 0 3 2 .0 0 4 8 .0 0 6 4 .0 0 8 0 .0 0

    D AP (c m )

    0 .0 0

    0 .2 5

    0 .5 0Fr

    ecu

    en

    cia

    s re

    lativ

    as

    D is tr ib u c i n d e ta m a o s

    0 .0 0 1 6 .00 3 2 .0 0 4 8 .0 0 6 4 .0 0 8 0 .0 0D AP (c m )

    0 .0 0

    0 .2 5

    0 .5 0

    0 .7 5

    1 .0 0

    Fre

    c. re

    l. a

    cu

    mu

    lada

    s

    D is tr ib u c in de ta m a os

  • Dagoberto Salgado Horta Pgina 23

    CLCULO DE PROBABILIDADES

    En el captulo 1 hemos presentado formas para organizar, describir y presentar los datos de una variable aleatoria registrados en una muestra. El anlisis de los datos muestrales tiene, en realidad, la finalidad la finalidad de conocer algo acerca de una poblacin de la cual la muestra fue extrada. Utilizar informacin contenida en una muestra para extraer conclusiones acerca de la informacin desconocida contenida en una poblacin implica un riesgo basado en la incertidumbre implcita en dicha decisin. La Estadstica provee una manera racional de cuantificar y acotar tal incertidumbre y para ello utiliza una medida de la incertidumbre denominada probabilidad. La utilizacin del concepto de probabilidad y de los mtodos para su clculo constituye la base sobre la que se asienta la toma de decisiones. Como hemos dicho en una seccin anterior, la toma de decisiones estar, generalmente, referida a la eleccin de un valor determinado para un parmetro desconocido o a la eleccin de algn conjunto de valores al cual se asume que dicho parmetro desconocido pertenece.

    La existencia de incertidumbre acerca de un proceso fsico implica la existencia de estados alternativos posibles para el mismo. Se cuenta con una determinada cantidad de informacin y se desea conocer una cantidad de informacin adicional, ordinariamente, la porcin restante de la informacin total. Para ello, se debe contar con una enumeracin del total de estados posibles del proceso. Adems, se debe tener una medida de la posibilidad de ocurrencia para cada uno de dichos estados. Daremos, ahora, algunas definiciones.

    Un experimento aleatorio es un proceso cuyos resultados no se conocen a priori. El conjunto de todos los resultados de un experimento aleatorio se denomina espacio muestral lo que denotaremos S. Cada uno de los resultados posibles contenidos en un espacio muestral es un evento simple. Dado que los estados posibles del proceso son alternativos, ellos no pueden ocurrir simultneamente, por lo cual se los considera mutuamente excluyentes. Adems, asumiremos que el espacio muestral contiene todos y cada uno de esos estados alternativos, por lo cual se dice que ese conjunto de eventos simples es colectivamente exhaustivo.

    Ejemplos: 1. Se arroja un dado de 6 caras, con una determinada cantidad de puntos en cada una de sus

    caras. Una cara contiene 1 punto, otra contiene 2 puntos, otra contiene 3 puntos, otra contiene 4 puntos, otra contiene 5 puntos y la ltima, 6 puntos. Por tanto, S = {1,2,3,4,5,6}.

    2. Se arroja al aire una moneda equilibrada. Entonces, S = {C,X}, donde C representa las caras y X, las cruces.

    Un subconjunto de eventos simples del espacio muestral constituye un evento compuesto y se los suele denotar con letras maysculas.

    Ejemplo: 3. Cuando se arroja un dado, un evento compuesto es el subconjunto de las caras con un

    nmero impar de puntos: A = {1,3,5}. Otro evento compuesto es el subconjunto de las caras con una cantidad de puntos superior a 3: B = {4,5,6}.

  • Dagoberto Salgado Horta Pgina 24

    Conjuntos

    Repasaremos algunas operaciones bsicas que se realizan entre conjuntos.

    Unin de dos conjuntos La unin de dos conjuntos A y B es el conjunto de elementos que pertenecen a por lo menos uno de los conjuntos A y B es decir, a A o a B o a ambos. Simbolizamos esta operacin como A B (se lee A unin B).

    Ejemplos Consideremos, por ejemplo A = {a,b,c,d,e,f} y B = {a,e,i,o,u}, los cuales son

    subconjuntos del conjunto de todas las letras del alfabeto. El conjunto cuyos elementos estn en A o en B o en ambos es el conjunto A B = {a,b,c,d,e,f,i,o,u}.

    Si A = {x: x es un entero impar positivo} y B = {x: x es un entero impar positivo menor que 100}, entonces, A B = {x: x es un entero impar positivo}.

    Interseccin La interseccin de dos conjuntos A y B es el conjunto de elementos que pertenecen a A y a B. Simbolizamos esta operacin como A B (se lee A interseccin B).

    Ejemplo. Sean A = {1,2,3,4,5} y B = {4,5,6,7,8}; entonces A B = {4,5}

    Complemento Cuando hablamos de complemento de B, lo que denotamos Bc, entendemos el conjunto de todos los elementos del universo que no estn en el conjunto B.

    Ejemplo Sea S = {1,2,3,4,5,6,7,8,9,0} y U = {1,3,5,7,9}. Luego, Uc = {2,4,6,8,0}.

    Diferencia La diferencia de dos conjuntos es el conjunto de todos los elementos del primer conjunto que no estn en el segundo. A B= A Bc

    Ejemplo Sean, otra vez, A = {1,2,3,4,5} y B = {4,5,6,7,8}.

    Entonces, A B = {1,2,3} y B A = {6,7,8}.

    Aproximaciones a la medida de probabilidad

    Supuesto de eventos simples igualmente probables

    Utilizando este supuesto, consideramos que todos los eventos incluidos en el espacio muestral tienen las misma chances de ocurrir. Por ejemplo, si arrojamos una moneda de masa homognea, esperaremos que los dos eventos posibles, tendrn las mismas chances de ocurrir y dado que su suma debe ser igual a 1 (por el primer axioma), entonces, la probabilidad de cada evento ser igual a 1/2, es decir que P(X) = P(C) = 1/2. Similarmente, si arrojamos el dado de 6 caras de masa homognea que se mencion en la pgina anterior, bajo el supuesto de eventos igualmente

  • Dagoberto Salgado Horta Pgina 25

    probables, P(1) = P(2) = = P(6) = 1/6. En general, cuando hay K resultados posibles igualmente probables, la probabilidad de cada uno de ellos ser igual a 1/K.

    Entonces, si un espacio muestral tiene K resultados posibles y si un evento, A, que forma parte de ese espacio muestral contiene k eventos, la probabilidad de dicho evento es, simplemente, el cociente entre k y K:

    KkAP =)( (3.1)

    Ejemplos:

    1. Se extrae un naipe de una baraja inglesa de 52 cartas. Sea A el evento corazn. Entonces, teniendo en cuenta que hay 13 corazones en total en la baraja:

    41

    5213)( ==AP

    2. Otra vez, se extrae un naipe de una baraja inglesa de 52 cartas. Sea B el evento nmero menor a 6. Hay 5 cartas menores a 6 en cada palo, por lo cual, recordando que hay 4 palos, hay un total de 45 = 20 cartas cuyo nmero es menor a 6. As que:

    135

    5220)( ==BP

    3. Finalmente, se extrae un naipe de la baraja inglesa de 52 cartas. Sea A el evento de que salga un corazn o un trbol. Hay 13 corazones y 13 trboles en la baraja. As que:

    21

    5226)( ==AP o

    ( ) ( ) ( )21

    5226

    5213

    5213

    ==+=+= TPCPTCP

    Frecuencia relativa de un evento

    Cuando no es posible sostener el supuesto de eventos igualmente probables, es decir, cuando no hay razones suficientes para sostenerlo o cuando, por el contrario, hay razones suficientes para no sostenerlo, es necesario recurrir a otra manera de calcular las probabilidades. Volviendo al ejemplo de la moneda, si el supuesto de masa homognea no se puede sostener, qu probabilidades habr que asignarles a los eventos C y X? Para poder responder a esa pregunta se recurre al clculo de las frecuencias relativas de cada evento mediante experimentos repetidos. Se lanza repetidamente la moneda en cuestin y se registra la cantidad de cruces que salen. Y esa cantidad, en relacin al total de veces que se lanz la moneda, se toma como la probabilidad de que salga una cruz en el futuro.

    Si se lanza la moneda, digamos, 200 veces y sale cruz 80 veces, es razonable suponer que la probabilidad de que salga cruz al lanzar esa moneda se estima a 80/200, o sea 0.40. Queda claro que cuantas ms veces se lance la moneda, ms cercano a la probabilidad verdadera ser el resultado que se obtenga. Por eso, la definicin de probabilidad utilizando este enfoque es:

    KkXP

    K = lim)( (3.2)

  • Dagoberto Salgado Horta Pgina 26

    donde K es la cantidad de veces que se repite el ensayo y k es el nmero de veces en que ocurri el evento X. Esta es la definicin estricta. Pero nunca repetiremos un ensayo infinitas veces. Por tanto, utilizaremos como medida de la probabilidad de X, ensayos donde K sea un nmero grande.

    Postulados de la teora de probabilidades

    Los tres postulados bsicos de la teora de probabilidades son los siguientes.

    I. La probabilidad de un evento A, P(A), es un valor numrico que se encuentra en el intervalo [0,1]. Es decir,

    0 P(A) 1. II. La probabilidad de la totalidad del espacio muestral es igual a 1:

    P(S) = 1. III. Dados dos eventos mutuamente excluyentes M y N, pertenecientes al espacio muestral S, la

    probabilidad de la ocurrencia de uno u otro de ellos es igual a: P(MN) = P(M) + P(N).

    IV. Si M y N son dos eventos no mutuamente excluyentes definidos en un mismo espacio muestral, entonces:

    P(MN) = P(M) + P(N) P(MN) Ejemplo Se extrae al azar una carta de una baraja de 52 naipes Cul es la probabilidad de que dicha carta sea una figura (F) o un corazn (C)? P(C) = (1/4) P(F) = (12/52) = (3/13) y P(FC) = (3/52) puesto que hay 3 figuras de corazones. Finalmente: P(FC) = P(F) +P(C) P(FC) = (3/13) + (1/4) (3/52) = (11/26).

    Este postulado puede ser aplicado a cualquier cantidad de eventos. Por ejemplo, para el caso de 3 eventos, A, B y C: P(ABC) = P(A)+P(B)+ P(C) P(AB) P(AC) P(BC) + P(ABC).

    Ejemplo Un instituto de enseanza de nivel medio ofrece cursos de 3 materias simultneamente para 240 estudiantes: Matemtica (M), Fsica (F) e Informtica (I). Un total de 50 estudiantes cursan Matemtica, 25 cursan Fsica, 18 cursan Informtica, 12 cursan Matemtica y Fsica, 10 cursan Matemtica e Informtica, 5 cursan Fsica e Informtica y 3 cursan las 3 materias. Cul ser la probabilidad de que un alumno elegido al azar curse, por lo menos, una de las tres materias?

    ( )

    2875.024069

    2403

    2405

    24010

    24012

    24018

    24025

    24050

    =

    =

    +++= CBAP

    .

  • Dagoberto Salgado Horta Pgina 27

    V. Sea XC el evento complementario del evento X, es decir que los eventos XC y X son mutuamente excluyentes y colectivamente exhaustivos Entonces,

    P(XC) = 1 P(X), Ejemplo Supongamos que se extrae una carta de una baraja inglesa. Cul es la probabilidad de que no sea un rey? Hay 4 reyes en la baraja as que la probabilidad de rey es igual a (4/52) = (1/13). Por tanto, aplicando el teorema vemos que la probabilidad de que la carta extrada no sea un rey ser igual a 1 (1/13) = (12/13)

    Combinatoria

    Repasaremos algunas operaciones bsicas de conteo. Permutaciones Una permutacin de un nmero de objetos es una disposicin de estos objetos en un orden definido. El nmero de permutaciones de un conjunto de N elementos, tomados todos juntos es igual a N! Designando este nmero por NPN, obtenemos que NPN = N! donde N! se lee N factorial y es el producto de todos los nmeros enteros desde 1 hasta N, es decir: N! = 123(N 2)(N 1)N. En particular, 1! = 1; 2! = 12! = 2, 3! = 123 = 6, 4! = 1234 = 24. Finalmente, definimos 0! = 1. El nmero total de disposiciones de N objetos tomados de a n cada vez, con n N, es:

    ( ) !!nN

    NPnN

    = .

    Ejemplo. Cuatro banderas de seales han de ser izadas, una encima de la otra, en un mstil. Cuntas seales diferentes pueden ser transmitidas izando 6 banderas diferentes de a 4 cada vez?:

    ( ) 360!26543!2

    !46!6

    46 =

    =

    =P .

    Combinaciones Una combinacin es una seleccin de objetos considerados sin relacin con su orden. El nmero total de combinaciones de un conjunto de N elementos tomados de a n cada vez, es:

    NCn o

    n

    Ny es igual a: ( ) !!

    !nNn

    Nn

    NCnN

    =

    = .

    Por ejemplo, de cuntas maneras distintas se pueden elegir 3 letras tomndolas de a 2 cada vez?:

    ( )( ) 3!23!2

    !3!2

    !23!3

    !223 23

    23 =

    =

    ==

    =

    PC

    Es importante recordar que en una permutacin el orden cuenta mientras que

  • Dagoberto Salgado Horta Pgina 28

    en una combinacin, el orden no cuenta.

    Ejemplo. Un equipo de bsquet que est de viaje tiene 10 jugadores. El entrenador debe escoger un equipo inicial para el prximo juego. Cuntos equipos diferentes de 5 jugadores pueden ser designados para este objetivo? Aqu no nos interesan las posiciones de cada uno de los 5 jugadores en cada equipo. Por tanto, es un problema de combinaciones, y:

    ( ) 252!510!5!10

    510 =

    =C

    Si al escoger un equipo, el entrenador tambin designa las posiciones, entonces el orden cuenta y el problema es de permutaciones:

    ( ) 30240!510!10

    510 =

    =P

    Probabilidades condicionales

    Cuando se rene informacin adicional a la que se dispona inicialmente, el espacio muestral puede resultar redimensionado. Es decir, cuando hay una reduccin de la incertidumbre (ya sea por aumento en la informacin disponible o por el empleo de supuestos por parte del ingeniero), puede que haya puntos muestrales que desaparezcan del espacio muestral resultando ste, reducido. Por ejemplo, frente al experimento aleatorio de lanzar un dado homogneo, decimos que la probabilidad de que salga un 5 es igual a 1/6. Ahora, si se ha lanzado el dado pero solamente se puede saber que ha salido un nmero impar, pero no qu nmero ha salido, sigue habiendo una grado de incertidumbre, pero no cabe duda de que dicha incertidumbre es menor puesto que ya se sabe que sali un nmero impar: el nuevo espacio muestral es, ahora, S = {1,3,5}. Ahora, la probabilidad de que el dado haya salido 5 ya no es 1/6 sino 1/3. Las probabilidades calculadas en espacios muestrales reducidos por informacin o supuestos adicionales se denominan probabilidades condicionales. Veamos un ejemplo.

    Supongamos que se toma una muestra de 100 estudiantes y a cada uno de ellos se le hacen dos preguntas: (1) si ha aprobado el curso de Estadstica y, (2) si le gustan las carreras de autos. Los resultados de la encuesta son los siguientes:

    Cuadro 3.1.

    Le gustan las carreras de autos

    No le gustan las carreras de autos

    Total

    Aprob Estadstica 28 52 80 No aprob Estadstica 12 8 20

    Total 40 60 100

    Se elige un estudiante al azar en dicha muestra y se definen dos eventos: X (el estudiante aprob Estadstica) e Y (al estudiante le gustan las carreras de autos). Entonces:

    80.010080)( ==XP y 40.0

    10040)( ==YP .

    Ahora, supongamos que la eleccin es realizada entre los estudiantes que han aprobado Estadstica. Entonces, cul es la probabilidad de el estudiante elegido sea afecto a las carreras de autos? Hay una informacin adicional que cambia el espacio muestral: se est dando por cierto que el estudiante aprob Estadstica y la nica incertidumbre que queda es si le gustan las carreras de autos o no le gustan. Por tanto, el nuevo espacio muestral est restringido a la

  • Dagoberto Salgado Horta Pgina 29

    segunda fila del cuadro: S = {le gustan las carreras, no le gustan las carreras} con un tamao igual a 80 (el total de estudiantes que aprobaron Estadstica). Entonces, la probabilidad buscada es:

    35.08028)/( ==XYP .

    De la misma manera se pueden calcular otras probabilidades condicionales como, por ejemplo, la probabilidad de que haya aprobado Estadstica dado que le gustan las carreras de autos. En ese caso:

    70.04028)/( ==YXP .

    Tambin se podra haber transformado todo el cuadro en probabilidades, dividiendo por el total:

    Cuadro 3.2.

    Le gustan las careras de autos

    No le gustan las careras de autos

    Total

    Aprob Estadstica

    (28/100) = 0.28 (52/100) = 0.52 (80/100) = 0.80

    No aprob Estadstica

    (12/100) = 0.12 (8/100) = 0.08 (20/100) = 0.20

    Total (40/100) = 0.40 (60/100) = 0.60 (100/100) = 1.00

    y calcular las probabilidades condicionales de la siguiente manera:

    35.080.028.0)/( ==XYP y

    70.040.028.0)/( ==YXP .

    Las probabilidades que estn en los mrgenes del cuadro (0.80, 0.20, 0.40 y 0.60) se denominan probabilidades marginales y las probabilidades que estn en el cuerpo del cuadro (0.28, 0.52, 0.12 y 0.08) se denominan probabilidades conjuntas.

    En general, se presentan tres tipos de problemas:

    (i) se conoce la probabilidad conjunta de dos eventos y una de las probabilidades marginales y se desea conocer una probabilidad condicional; es el caso del ejemplo de ms arriba, donde se conocen las probabilidades conjuntas y las marginales y, con eso, se pueden calcular probabilidades condicionales;

    (ii) se conoce una probabilidad condicional y una probabilidad marginal y se desea calcular una probabilidad conjunta;

    (iii) se conoce una probabilidad condicional y una probabilidad conjunta y se desea calcular una probabilidad marginal.

    La ecuacin correspondiente al caso (i) es:

  • Dagoberto Salgado Horta Pgina 30

    )()()/(

    XPYXPXYP =

    )()()/(

    YPYXPYXP = (3.3)

    Para el caso (ii):

    P(XY) = P(Y/X)P(X)

    P(XY) = P(X/Y)P(Y) (3.4)

    Y para el caso (iii):

    )/()()(

    XYPYXPXP = y )/(

    )()(YXPYXPYP = (3.5)

    Eventos independientes

    Se dice que dos eventos son estadsticamente independientes cuando la ocurrencia de uno de ellos no afecta la probabilidad de ocurrencia del otro y, entonces, la probabilidad de su ocurrencia simultnea (probabilidad conjunta) es igual al producto de sus probabilidades individuales: P(XY) = P(X)P(Y). Contrariamente, si la ocurrencia de uno de los eventos afecta la probabilidad de la ocurrencia del otro, entonces se dice que esos dos eventos son estadsticamente dependientes y, entonces, su probabilidad conjunta es igual al producto de la ocurrencia de uno de ellos por la probabilidad condicional de la ocurrencia del segundo dado que ha ocurrido el primero: P(XY) = P(X)P(Y/X).

    Ejercicios

    3.1 Un turno de exmenes consta de 5 fechas diferentes. Un alumno debe rendir 3 materias. De cuntas maneras diferentes se puede anotar para rendir sus exmenes si slo puede rendir una materia por fecha?

    3.2 A continuacin se muestra una tabla probabilstica acerca del nivel de instruccin de productores de una zona y la implementacin de nuevas tcnicas de cultivo y sea A el evento nivel de instruccin bajo y B, el evento no implementa nuevas tcnicas de cultivo.

    Implementacin de nuevas tcnicas de cultivo No S Nivel de Bajo 0.40 0.20 instruccin Alto 0.10 0.30

    a. Calcular P(AB).

  • Dagoberto Salgado Horta Pgina 31

    b. Son independientes el nivel de instruccin de los productores de esa zona y la implementacin de nuevas tcnicas de cultivo?

    3.3 Cierto artculo es inspeccionado visualmente por dos inspectores. Cuando aparece un artculo defectuoso, la probabilidad de que no sea detectado por el primer inspector es igual a 0.1. De aquellos no detectados por el primer inspector, el segundo inspector slo detecta 5 de cada 10. Qu fraccin de defectuosos no son detectados por ninguno de los inspectores?

    3.4 El 34% de los rboles de un bosque tienen ms de 15 aos. El 54% son de la variedad A.

    De los de la variedad A, el 7% tiene ms de 15 aos. Si se elige un rbol al azar:

    a. Cul es la probabilidad de que tenga ms de 15 aos y sea de la variedad A? b. Cul es la probabilidad de que teniendo menos de 15 aos, sea de la variedad A?

    3.6 Se echan dos monedas equilibradas; demuestre que el hecho "cara en la primera moneda"

    y el hecho "las dos monedas quedan igual" son independientes.

    3.7 Un analista econmico est investigando ciertos indicadores de bienestar referidos a un grupo de pases que han sido clasificados como altamente desarrollados, medianamente desarrollados y subdesarrollados. El objetivo del trabajo era analizar cierta cantidad de hogares urbanos, observando si los mismos contaban o no con red cloacal. El 10% de los hogares analizados pertenecan a pases con alto nivel de desarrollo y el 50% de los hogares, a pases medianamente desarrollados. Se pudo determinar que el 60% de los hogares estudiados posean red cloacal, pero dicha proporcin era notoriamente ms alta en los hogares estudiados que provenan de pases altamente desarrollados, ya que entre ellos, el 90% posea red cloacal. El 80% de los hogares sin red cloacal provena de pases subdesarrollados. Sobre la base de esta informacin, hallar:

    a. la probabilidad de que un hogar elegido al azar pertenezca a un pas altamente desarrollado y que no tenga red cloacal;

    b. la probabilidad de que un hogar pertenezca a un pas subdesarrollado, dado que no tiene red cloacal;

    c. la probabilidad de que un hogar no pertenezca a un pas subdesarrollado o no tenga red cloacal.

  • Dagoberto Salgado Horta Pgina 32

    DISTRIBUCIONES DE PROBABILIDADES

    Variables aleatorias

    En la aplicacin de las probabilidades para el anlisis de la informacin proveniente de experimentos aleatorios, se trabaja con variables definidas a partir de los espacios muestrales. Dichas variables reciben el nombre de variables aleatorias. Las variables aleatorias, dado que provienen de un espacio muestral, son variables que pueden asumir un determinado conjunto de valores diferentes con determinadas probabilidades. Los anlisis estadsticos involucran a la distribucin de probabilidades de la variable aleatoria de inters. Estas variables aleatorias pueden ser de dos clases: variables aleatorias discretas y variables aleatorias continuas.

    Variables aleatorias discretas

    Las variables aleatorias discretas slo pueden tomar valores nominales o valores cuantitativos discretos. A cada uno de esos valores o categoras, le corresponder una probabilidad. As queda constituida la distribucin de probabilidades de la variable aleatoria discreta. La suma de las probabilidades correspondientes a todos los valores o categoras que puede tomar de una variable aleatoria discreta es igual a 1.

    Ejemplos:

    1. Sea la variable aleatoria estado sanitario de un animal con dos categoras, sano (H) y enfermo (E). Entonces, el espacio muestral es S = {H,E}.

    2. Sea la variable aleatoria nmero de puntos obtenidos al arrojar un dado equilibrado. Entonces, el espacio muestral es S = {1,2,3,4,5,6}. La distribucin de probabilidades correspondiente a esta variable es

    N de puntos 1 2 3 4 5 6 Probabilidad 1/6 1/6 1/6 1/6 1/6 1/6

    Entonces, escribimos: P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = (1/6). Si denotamos a una variable aleatoria discreta con el smbolo X, y a cada uno de los valores particulares que puede tomar xi, entonces, la probabilidad de un valor particular xi, se denotar P(xi).

    Las distribuciones de probabilidades de variables discretas se pueden representar grficamente mediante un diagrama de barras verticales en el cual se inscriben los distintos valores que la variable aleatoria puede tomar en el eje de abscisas y sus respectivas probabilidades en el eje de ordenadas.

    Ejemplo:

    3. Sea la variable aleatoria discreta nmero de cruces que se pueden obtener al lanzar tres monedas equilibradas. Si los lanzamientos de las tres monedas son eventos independientes, la distribucin de probabilidades de esta variable aleatoria es la siguiente:

  • Dagoberto Salgado Horta Pgina 33

    N de cruces en 3 monedas 0 1 2 3 Probabilidad 1/8 3/8 3/8 1/8

    La representacin grfica de esta distribucin de probabilidades se muestra en la Figura 4.1.:

    Figura 4.1. Distribucin de variable aleatoria discreta.

    Distribucin de probabilidades acumulativa

    Como se coment cuando se present el tema de las frecuencias acumuladas en la clase anterior, muchas veces se desea conocer la probabilidad, no ya de un suceso puntual particular, sino de un conjunto de sucesos y, entonces, surge la necesidad de acumular probabilidades. Aqu estamos tratando otra vez con ese concepto y por eso presentamos la distribucin de probabilidades acumulativa de una variable aleatoria discreta como la probabilidad de que la variable aleatoria asuma un valor tope o menor, es decir, interesa conocer la probabilidad P(X xi).

    Ejemplo. Utilizando otra vez el ejemplo anterior, se desea conocer la probabilidad de que al lanzar 3 monedas equilibradas, se obtengan, a lo sumo, 1 cruz. Entonces:

    P(X 1) = P(X = 0) + P(X = 1) = (1/8) + (3/8) = (4/8) = (1/2).

    En el siguiente cuadro se representan la distribucin de probabilidades y la distribucin de probabilidades acumulativa del experimento de lanzar 3 monedas:

    N de cruces en 3 monedas 0 1 2 3 Probabilidad 1/8 3/8 3/8 1/8 Probabilidad acumulada 1/8 4/8 7/8 8/8

    Y la representacin grfica de la distribucin de probabilidades acumuladas es:

  • Dagoberto Salgado Horta Pgina 34

    Figura 4.2. Distribucin de probabilidades acumuladas.

    Esperanza matemtica o media poblacional de una variable aleatoria discreta

    La esperanza matemtica de una variable aleatoria discreta es el promedio de todos los valores que tomara en una serie infinita de experimentos aleatorios. Como por definicin, la frecuencia relativa de cada valor de la variable infinita es justamente su probabilidad la esperanza matemtica puede ser calculada como:

    ( ) =i

    ii xPxXE )( (4.1)

    La esperanza matemtica de X se suele simbolizar X y es tambin llamada valor esperado de X o media poblacional de X.

    Ejemplos:

    1. Para el caso del lanzamiento de las 3 monedas:

    E(X ) = X = 0(1/8) + 1(3/8) + 2(3/8) + 3(1/8) = (3/2).

    2. Para el caso de la variable aleatoria nmero de puntos obtenidos al arrojar un dado equilibrado:

    E(X) = X = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 3.5.

    Propiedades de esperanza matemtica de una variable discreta: Sea k una constante arbitraria. Entonces, si se suma k a cada uno de los valores de una

    variable aleatoria X, resulta: E(X + k) = E(X) + k. (4.2)

    Ejemplo. Si sumamos la constante 2 a la variable aleatoria nmero de puntos obtenidos al arrojar un dado equilibrado, resulta: E(X + 2) = E(X) + 2. En efecto:

    E(X + 2) = X+2 = (1+2)(1/6) + (2+2)(1/6) + (3+2)(1/6) + (4+2)(1/6) +

  • Dagoberto Salgado Horta Pgina 35

    + (5+2)(1/6) + (6+2)(1/6) = 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) + 7(1/6) + 8(1/6) = (33/6) = 5.5 = 3.5 + 2.

    Sea k una constante arbitraria. Entonces, si multiplica por k a cada uno de los valores de una variable aleatoria X, resulta:

    E(Xk) = E(X)k. (4.3)

    Ejemplo. Si multiplicamos por la constante 2 a la variable aleatoria nmero de puntos obtenidos al arrojar un dado equilibrado, resulta: E(X2) = E(X)2. En efecto:

    E(X2) = X2 = (12)(1/6) + (22)(1/6) + (32)(1/6) + (42)(1/6) + + (52)(1/6) + (62)(1/6) = 2(1/6) + 4(1/6) + 6(1/6) + 8(1/6) + 10(1/6) + 12(1/6) = (42/6) = 7.0 = (3.5)2.

    Juntando las dos propiedades 4.2. y 4.3. en una sola, obtenemos que : E(k1X + k2) = k2 + k1E(X) (4.4)

    donde k1 y k2 son constantes arbitrarias. Se deja como ejercicio para el lector, aplicar esta ltima propiedad a la variable aleatoria nmero de puntos obtenidos al arrojar un dado equilibrado.

    La propiedad 4.1. tiene implica que si una variable aleatoria X tiene esperanza E(X) = ; entonces

    E(X - ) = 0 (4.5)

    Variancia poblacional de una variable aleatoria discreta

    Similarmente a lo apuntado en el captulo de Descripcin de la Informacin, la variancia de una variable aleatoria mide la dispersin de los valores que toma en la poblacin alrededor de su esperanza matemtica. La variancia de una variable aleatoria discreta X se define como:

    ( )( )[ ] =

    =

    iii

    X

    xxp

    XV

    2

    2

    )(

    (4.6)

    Comparando la frmula 4.2. con la 4.6. es posible visualizar que la variancia poblacional no es otra cosa que V(X) = E[(X-)2], el valor esperado de los cuadrados de los desvos de X con respecto a su media poblacional .

    Propiedades de la variancia de una variable aleatoria discreta:

  • Dagoberto Salgado Horta Pgina 36

    Si sumamos una constante a una variable aleatoria, su variancia no altera. V(X + k) =

    = E [(X + k E(X+k))2] = E [(X + k E(X) k)2] = E [(X E(X) )2] = V(X) (4.7)

    Si multiplicamos una variable aleatoria por una constante, su variancia resulta multiplicada por dicha constante elevada al cuadrado. En efecto

    V(k X) = = E [(k X E(k X))2] = E [(k X k E(X))2] = E [k 2 (X E(X))2] = k 2 E [(X E(X))2] = k 2 V(X) (4.8)

    Combinando las propiedades (i) y (ii) resulta que V(k1X + k2) = k12V(X) (4.9)

    Desvo standard poblacional y coeficiente de variacin

    El desvo standard poblacional es simplemente la raz cuadrada de la variancia poblacional y el coeficiente de variacin es el cociente del desvo standard sobre la esperanza matemtica, multiplicado por 100.

    Ejemplo. Siguiendo con la variable aleatoria discreta nmero de puntos obtenidos al arrojar un dado equilibrado, resulta:

    8.48

    1005.3

    708.1

    708.11235

    )(

    =

    =

    =

    =

    cv

    y

    XV

    . (4.10)

    Variables aleatorias continuas

    Las variables aleatorias continuas toman valores en el campo de los nmeros reales y, por lo tanto, su distribucin de probabilidades est representada por una funcin continua puesto que la variable puede tomar infinitos valores.

  • Dagoberto Salgado Horta Pgina 37

    Ahora, dada esta caracterstica de continuidad, la probabilidad de que la variable X tome un valor particular infinitesimalmente exacto, es igual a 0. Esto nos obliga a que, cuando se trata de variables aleatorias continuas, tengamos que calcular probabilidades de intervalos entre dos valores y no para un dado valor nico. Ya no escribiremos P(X = xi) sino P(X xi) o P(xi X xj). As que, ahora, la probabilidad resultar ser un rea en la representacin grfica y estar determinada por una integral bajo la curva de una funcin que se denomina funcin de densidad de probabilidad, f(x). En el siguiente grfico se esquematizan estos conceptos:

    Figura 4.3. Curva de la funcin de densidad de probabilidad.

    De manera que cuando calculamos probabilidades para variables aleatorias continuas, estamos calculando probabilidades acumuladas. Simbolizaremos las probabilidades de que la variable X sea menor o igual a un valor particular x como F(x) que es, como se dijo antes, la integral de la funcin de densidad f(x), desde - hasta x, es decir, F(x) = P(X x). F(x) se denomina funcin de distribucin de probabilidades. Asimismo, para un intervalo [x1,x2], resulta que P(x1 < X < x2) = F(x2) F(x1). Todas estas consideraciones nos llevan a la conclusin de que el rea total bajo la curva de la funcin de densidad (que representa, en este caso, la probabilidad de todo el espacio muestral) debe ser, necesariamente, igual a 1.

    Para ser funcin de densidad, una funcin debe cumplir dos requisitos fundamentales:

    (a) debe ser no negativa en todo su intervalo de definicin; (b) la integral definida de la funcin calculada sobre todo el intervalo de definicin debe ser

    igual a 1.

    Esperanza y variancia poblacionales de una variable aleatoria continua

    Sea la variable aleatoria X con funcin de densidad f(x) definida en el intervalo [a,b]. Entonces su esperanza matemtica o media se define como:

    ( )( ) dxxfx

    XEb

    a

    =

    =

    (4.11)

    y su variancia, como:

  • Dagoberto Salgado Horta Pgina 38

    ( )( ) dxxfx

    XVb

    a

    =

    =

    2

    2

    )(

    (4.12)

    Las propiedades de la esperanza (4.2., 4.3, 4.4 y 4.5) y de la variancia (4.7, 4.8 y 4.9) de una variable aleatoria discreta se aplican para variables aleatorias continuas, es decir:

    E(X + k) = E(X) + k; E(Xk) = E(X)k; E(k1X + k2) = k2 + k1E(X), donde k1 y k2 son constantes arbitrarias; Sea la variable aleatoria X con E(X) = ; entonces E(X - ) = 0.

    Variables aleatorias estandarizadas

    Como veremos ms adelante, muchas veces resulta conveniente trabajar con las variables transformadas a travs del proceso de estandarizacin, en lugar de hacerlo con las variables originales. El proceso de estandarizacin consiste, simplemente, en transformar cada uno de los valores de la variable restndole la media aritmtica (o sea, la esperanza matemtica) y dividiendo dicha resta por el desvo standard. La nueva variable se simboliza con la letra Z:

    X

    XXZ

    = . (4.13)

    La nueva variable se denomina variable aleatoria estandarizada o variable aleatoria standard y, dado que surge de restar la media y dividir por el desvo standard, tendr media igual a 0 y variancia igual a 1, pues:

    ( )( ) ( )

    0=

    =

    =

    X

    X

    X

    XEXE

    XEZE

    y

    La variancia de una variable estandarizada es siempre igual a 1 porque:

  • Dagoberto Salgado Horta Pgina 39

    ( )

    ( )( )

    1

    1

    2

    2

    =

    =

    =

    =

    X

    XX

    X

    X

    XV

    XV

    XVZV

    Algunas distribuciones de probabilidades de uso comn

    Hay una gran cantidad de fenmenos naturales y sociales que se caracterizan por compartir un patrn de comportamiento similar. Adems, se han descubierto modelos matemticos sencillos que tienen la capacidad de describir muy ajustadamente dichos comportamientos. Por estas razones es que se ha consagrado su uso como herramienta de anlisis. En este curso veremos un modelo para variables aleatorias discretas y tres modelos para variables aleatorias continuas, aunque poniendo especial nfasis en uno de ellos.

    Un modelo de variable aleatoria discreta

    El modelo binomial

    Este modelo se emplea con variables aleatorias discretas que slo pueden asumir dos valores o categoras que pueden denominarse de varias formas equivalentes: 0 y 1, xito y fracaso, defectuoso y no defectuoso, etc., dependiendo del problema de que se trate. Uno de esos dos estados tiene una probabilidad constante que designaremos con la letra pi y, por tanto, el otro estado alternativo tendr una probabilidad 1 - pi ya que es el evento complementario.

    Este tipo de variables se denominan dicotmicas y su distribucin de probabilidades se genera mediante la repeticin de n experimentos aleatorios independientes, en cada uno de los cuales se mantienen constantes las probabilidades de los dos estados posibles de la variable aleatoria.

    Ejemplos: 1. La variable aleatoria faz de una moneda es un tpico ejemplo de variable aleatoria

    dicotmica puesto que slo puede asumir dos estados, cara y cruz y, por tanto, su distribucin de probabilidades es bien descripta por la distribucin binomial. Un proceso binomial con una moneda podra consistir en lanzar la moneda 20 veces y estudiar el nmero de cruces que han salido en esos 20 lanzamientos. La funcin de distribucin de probabilidades binomial permite calcular la cantidad x de veces que se produce un dado resultado de una variable binomial, en n experimentos aleatorios independientes y se define de la siguiente manera:

    ( ) ( ) xnxx

    nnxb

    = pipipi 1,;

    (4.14)

    donde

    x

    n es un nmero combinatorio como hemos visto en la clase anterior, y pi es la

    probabilidad (constante de experimento en experimento) del resultado buscado. De modo

  • Dagoberto Salgado Horta Pgina 40

    que una distribucin de probabilidades binomial queda completamente definida conociendo los valores de n y pi.

    2. En un lote de 12 plantas, 3 tienen flores prpura. Si se extrae del lote una muestra al azar de 3 plantas, con reposicin, cul es la probabilidad de que: (a) exactamente 1 planta tenga flores prpura, y (b) a lo sumo 1 planta tenga flores prpura? El muestreo con reposicin asegura la independencia de las elecciones sucesivas, as que se puede aplicar el modelo binomial. Como pi = (3/12) = 0.25, entonces:

    1) ( )42.0

    75.025.013

    25.0,3;1 131

    =

    =

    b y

    2) ( ) ( )84.0

    75.025.013

    75.025.003

    25.0,3;125.0,3;0 2130

    =

    +

    =+ bb

    Como toda distribucin de probabilidades, la dis