modulo bioestadistica

Upload: jose-luis-altuna-vasquez

Post on 30-Oct-2015

182 views

Category:

Documents


1 download

TRANSCRIPT

  • ESTADISTICA ELEMENTAL

    Zaldumbide. W

    Santiago de Cuba 2013

    usuarioCuadro de textoIng. Jos Luis AltunaIng. Wilper Zaldumbide

    usuarioCuadro de textoBIOESTADISTICA - 2013

    usuarioResaltado

  • INTRODUCCIN

    El presente libro constituye una gua valiosa para aquellos que quieren adentrarse en el camino maravilloso de la estadstica. La Estadstica es una ciencia de tcnicas analticas para ver en unos datos lo que nuestra mirada no es capaz de ver. En Estadstica hay tres tipos de tcnicas, tres actividades bsicas, tres acciones: Descripcin, Relacin y Comparacin.

    Descripcin: Tcnicas donde no se infiere, slo se mira lo que se tiene: la muestra. Se le calculan descriptores que capten aspectos relevantes de ella. Se dibujan grficos que la resuman. La muestra es el fin, no un medio.

    Relacin: Tcnicas que buscan relaciones entre variables, entre diferentes caractersticas medidas a una serie de individuos. Se busca la existencia de relacin entre ellas y se pretende establecer relaciones matemticas entre ellas.

    Comparacin: Tcnicas que comparan poblaciones de individuos. El objetivo es poder hablar de la igualdad o de la diferencia entre esos grupos, entre esas poblaciones.

    La Relacin y la Comparacin s son tcnicas donde se infiere, son tcnicas inferenciales. La muestra ahora es un medio, no un fin. Se pretende desde la muestra sacar conclusiones poblacionales. Desde la relacin entre las variables a nivel muestral o desde la comparacin de dos o ms muestras se busca hacer afirmaciones poblacionales, afirmaciones que vayan ms all de lo que se ve, ms all de la muestra.

    En Estadstica estamos siempre describiendo, relacionando o comparando. Pero, qu hace cualquier cientfico en su actividad diaria? Tambin describir, relacionar y comparar. Por esto la Estadstica puede decirse que es, en buena parte, el lenguaje de la ciencia. Por esto se estudia en todas las facultades. Es muy importante situar desde el principio cul es el papel bsico de la Estadstica. Y ver la simplicidad que hay detrs de una aparente complejidad.

  • La Estadstica es, en realidad, un mundo caracterizado, aunque desde fuera parezca que no, por un paisaje muy homogneo. Una metfora musical: Si la Medicina, la Lingstica, la Economa, la Geografa, la Biologa, son, cada uno de ellos, una sinfona (obras, todas ellas, hechas de movimientos bien distintos), entonces la Estadstica es el Bolero de Ravel: un tema que va repitindose continuamente, machaconamente. Se van aadiendo nuevos instrumentos, pero el tema es siempre el mismo.

    Sosteniendo a la Estadstica, desde la base, existe un bsico paisaje de conceptos del mundo de la probabilidad: especialmente la nocin de variable aleatoria, la nocin de funcin de distribucin, de modelizacin matemtica. Estos conceptos se vern como complementos de lo que constituye el hilo conductor de la Estadstica: la construccin de tcnicas para describir lo que vemos en la muestra y para inferir acerca de lo que no vemos en la muestra.

    En este curso aprenderemos, pues, a Describir, Relacionar y Comparar, aprenderemos a visualizar un paisaje muy peculiar y muy til, aprenderemos Estadstica.

  • OBJETIVOS

    Desarrollar las capacidades individuales y grupales en el uso y manejo de los contenidos del mdulo.

    Valorar la importancia de la Estadstica como herramienta necesaria para la tabulacin, interpretacin y evaluacin de las investigaciones cientficas.

    Interiorizar la importancia de la Estadstica con la finalidad de

    alcanzar la optimizacin de los resultados en la produccin del conocimiento cientfico.

  • UNIDAD I

    1) HISTORIA 1.1) Origen 1.2) Orgenes en probabilidad 1.3) Estado actual

    2) METODOS ESTADISTICOS

    2.1) Estudios experimentales y observacionales 2.2) Niveles de medicin 2.3) Tcnicas de anlisis estadstico.

    3) DISCIPLINAS ESPECIALIZADAS

    4) COMPUTACION ESTADISTICA

    5) CRITICAS A LA ESTADISTICA

    6) ESTADISTICOS FAMOSOS

    7) BIBLIOGRAFIA

  • ESTADSTICA

    La Estadstica es una ciencia formal que estudia la recoleccin, anlisis e interpretacin de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algn fenmeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadstica es ms que eso, es decir, es el vehculo que permite llevar a cabo el proceso relacionado con la investigacin cientfica.

    Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en reas de negocios o instituciones gubernamentales.

    La estadstica se divide en dos grandes reas:

    La estadstica descriptiva, se dedica a la descripcin, visualizacin y resumen de datos originados a partir de los fenmenos de estudio. Los datos pueden ser resumidos numrica o grficamente. Ejemplos bsicos de parmetros estadsticos son: la media y la desviacin estndar. Algunos ejemplos grficos son: histograma, pirmide poblacional, grfico circular, entre otros.

    La estadstica inferencial, se dedica a la generacin de los modelos, inferencias y predicciones asociadas a los fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones de unas caractersticas numricas (estimacin), pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin). Otras tcnicas de modelamiento incluyen anova, series de tiempo y minera de datos.

  • Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay tambin una disciplina llamada estadstica matemtica, la que se refiere a las bases tericas de la materia. La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a un conjunto de datos, como en estadsticas econmicas, estadsticas criminales, entre otros.

    HISTORIA

    Origen

    El trmino alemn Statistik, introducido originalmente por Gottfried Achenwall en 1749, se refera al anlisis de datos del Estado, es decir, la "ciencia del Estado" (o ms bien, de la ciudad-estado). Tambin se llam aritmtica poltica de acuerdo con la traduccin literal del ingls. No fue hasta el siglo XIX cuando el trmino estadstica adquiri el significado de recolectar y clasificar datos. Este concepto fue introducido por el militar britnico Sir John Sinclair (1754-1835).

    En su origen, por tanto, la Estadstica estuvo asociada a los Estados o ciudades libres, para ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La coleccin de datos acerca de estados y localidades contina ampliamente a travs de los servicios de estadstica nacional e internacional. En particular, los censos comenzaron a suministrar informacin regular acerca de la poblacin de cada pas. As pues, los datos estadsticos se referan originalmente a los datos demogrficos de una ciudad o estado determinados. Y es por ello que en la clasificacin decimal de Melvil Dewey, empleada en las bibliotecas, todas las obras sobre estadstica se encuentran ubicadas al lado de las obras de o sobre la demografa.

    Ya se utilizaban representaciones grficas y otras medidas en pieles, rocas, palos de madera y paredes de cuevas para controlar el nmero de personas, animales o ciertas mercancas. Hacia el ao 3000 a. C. los babilonios usaban ya pequeos envases moldeados de arcilla para recopilar datos sobre la produccin agrcola y de los gneros vendidos o cambiados. Los egipcios analizaban los datos de la poblacin y la renta del pas mucho antes de

  • construir las pirmides en el siglo XI a. C. Los libros bblicos de Nmeros y Crnicas incluyen en algunas partes trabajos de estadstica. En el primero estn ubicadas al lado de las demogrficas. La estadstica tiene dos censos de la poblacin de la Tierra de Israel y el segundo describe el bienestar material de las diversas tribus judas. En China existan registros numricos similares con anterioridad al ao 2000 a. C. Los antiguos griegos realizaban censos cuya informacin se utilizaba hacia el 594 a. C. para cobrar impuestos.

    Orgenes en probabilidad

    Los mtodos estadstico-matemticos emergieron desde la teora de probabilidad, la cual data desde la correspondencia entre Pascal y Pierre de Fermat (1654). Christian Huygens (1657) da el primer tratamiento cientfico que se conoce a la materia. El Ars coniectandi (pstumo, 1713) de Jakob Bernoulli y la Doctrina de posibilidades (1718) de Abraham de Moivre estudiaron la materia como una rama de las matemticas. En la era moderna, el trabajo de Kolmogrov ha sido un pilar en la formulacin del modelo fundamental de la Teora de Probabilidades, el cual es usado a travs de la estadstica.

    La teora de errores se puede remontar a la pera miscellnea (pstuma, 1722) de Roger Cotes y al trabajo preparado por Thomas Simpson en 1755 (impreso en 1756) el cual aplica por primera vez la teora de la discusin de errores de observacin. La reimpresin (1757) de este trabajo incluye el axioma de que errores positivos y negativos son igualmente probables y que hay unos ciertos lmites asignables dentro de los cuales se encuentran todos los errores; se describen errores continuos y una curva de probabilidad.

    Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la combinacin de observaciones desde los principios de la teora de probabilidades. Laplace represent la Ley de probabilidades de errores mediante una curva y dedujo una frmula para la media de tres observaciones. Tambin, en 1871, obtiene la frmula para la ley de facilidad del error (trmino introducido por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el principio del mximo producto de las probabilidades de un sistema de errores concurrentes.

  • El mtodo de mnimos cuadrados, el cual fue usado para minimizar los errores en mediciones, fue publicado independientemente por Adrien-Marie Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809). Gauss haba usado el mtodo en su famosa prediccin de la localizacin del planeta enano Ceres en 1801. Pruebas adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W.F. Donkin (1844, 1856), John Herschel (1850) y Morgan Crofton (1870). Otros contribuidores fueron Ellis (1844), Augustus De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La frmula de Peters para , el probable error de una observacin simple es bien conocida.

    El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion y Karl Pearson. Augustus De Morgan y George Boole mejoraron la presentacin de la teora. Adolphe Quetelet (1796-1874), fue otro importante fundador de la estadstica y quien introdujo la nocin del hombre promedio (lhomme moyen) como un medio de entender los fenmenos sociales complejos tales como tasas de criminalidad, tasas de matrimonio o tasas de suicidios.

    Estado actual

    Durante el siglo XX, la creacin de instrumentos precisos para asuntos de salud pblica (epidemiologa, bioestadstica, etc.) y propsitos econmicos y sociales (tasa de desempleo, econometra, etc.) necesit de avances sustanciales en las prcticas estadsticas.

    Hoy el uso de la estadstica se ha extendido ms all de sus orgenes como un servicio al Estado o al gobierno. Personas y organizaciones usan la estadstica para entender datos y tomar decisiones en ciencias naturales y sociales, medicina, negocios y otras reas. La estadstica es entendida generalmente no como un sub-rea de las matemticas sino como una ciencia diferente aliada. Muchas universidades tienen departamentos acadmicos de matemticas y estadstica separadamente. La estadstica se ensea en departamentos tan diversos como psicologa, educacin y salud pblica.

  • Al aplicar la estadstica a un problema cientfico, industrial o social, se comienza con un proceso o poblacin a ser estudiado. Esta puede ser la poblacin de un pas, de granos cristalizados en una roca o de bienes manufacturados por una fbrica en particular durante un periodo dado. Tambin podra ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo.

    Por razones prcticas, en lugar de compilar datos de una poblacin entera, usualmente se estudia un subconjunto seleccionado de la poblacin, llamado muestra. Datos acerca de la muestra son recogidos de manera observacional o experimental. Los datos son entonces analizados estadsticamente lo cual sigue dos propsitos: descripcin e inferencia.

    El concepto de correlacin es particularmente valioso. Anlisis estadsticos de un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de la poblacin bajo consideracin) tienden a variar conjuntamente, como si hubiera una conexin entre ellas. Por ejemplo, un estudio del ingreso anual y la edad de muerte podran resultar en que personas pobres tienden a tener vidas ms cortas que personas de mayor ingreso. Las dos variables se dicen que estn correlacionadas. Sin embargo, no se puede inferir inmediatamente la existencia de una relacin de causalidad entre las dos variables. El fenmeno correlacionado podra ser la causa de una tercera, previamente no considerada, llamada variable confusora.

    Si la muestra es representativa de la poblacin, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la poblacin completa. Un problema mayor es el de determinar que tan representativa es la muestra extrada. La estadstica ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recoleccin de los datos, as como mtodos para disear experimentos robustos como primera medida, esta el diseo experimental.

    El concepto matemtico fundamental empleado para entender la aleatoriedad es el de probabilidad. La estadstica matemtica (tambin llamada teora estadstica) es la rama de las matemticas aplicadas que usa la teora de

  • probabilidades y el anlisis matemtico para examinar las bases tericas de la estadstica.

    El uso de cualquier mtodo estadstico es vlido solo cuando el sistema o poblacin bajo consideracin satisface los supuestos matemticos del mtodo. El mal uso de la estadstica puede producir serios errores en la descripcin e interpretacin, afectando las polticas sociales, la prctica mdica y la calidad de estructuras tales como puentes y plantas de reaccin nuclear.

    Incluso cuando la estadstica es correctamente aplicada, los resultados pueden ser difcilmente interpretados por un inexperto. Por ejemplo, el significado estadstico de una tendencia en los datos, que mide el grado al cual la tendencia puede ser causada por una variacin aleatoria en la muestra, puede no estar de acuerdo con el sentido intuitivo. El conjunto de habilidades estadsticas bsicas (y el escepticismo) que una persona necesita para manejar informacin en el da a da se refiere como cultura estadstica.

    Mtodos estadsticos

    Estudios experimentales y observacionales

    Un objetivo comn para un proyecto de investigacin estadstica es investigar la causalidad, y en particular extraer una conclusin en el efecto que algunos cambios en los valores de predictores o variables independientes tienen sobre una respuesta o variables dependientes. Hay dos grandes tipos de estudios estadsticos para estudiar causalidad: estudios experimentales y observacionales. En ambos tipos de estudios, el efecto de las diferencias de una variable independiente (o variables) en el comportamiento de una variable dependiente es observado. La diferencia entre los dos tipos es la forma en que el estudio es conducido. Cada uno de ellos puede ser muy efectivo.

    Niveles de medicin

    Hay cuatro tipos de mediciones o escalas de medicin en estadstica. Los cuatro tipos de niveles de medicin (nominal, ordinal, intervalo y razn)

  • tienen diferentes grados de uso en la investigacin estadstica. Las medidas de razn, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en mtodos estadsticos que pueden ser usados para analizar los datos. Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado (como las mediciones de coeficiente intelectual o temperatura en grados Celsius). Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales no tienen ningn rango interpretable entre sus valores.

    La escala de medida nominal, puede considerarse la escala de nivel ms bajo. Se trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a la propiedad de orden de los nmeros. La escala de intervalos iguales est caracterizada por una unidad de medida comn y constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningn momento ausencia de la magnitud que estamos midiendo. Esta escala, adems de poseer las caractersticas de la escala ordinal, permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. La escala de coeficientes o Razones es el nivel de medida ms elevado y se diferencia de las escalas de intervalos iguales nicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significan ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los nmeros asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio.

    Tcnicas de anlisis estadstico

    Algunos tests y procedimientos para investigacin de observaciones bien conocidos son:

    Prueba t de Student Prueba de Anlisis de varianza (ANOVA) U de Mann-Whitney Anlisis de regresin

  • Correlacin Iconografa de las correlaciones Frecuencia estadstica Anlisis de frecuencia acumulada Prueba de la diferencia menos significante de Fisher Coeficiente de correlacin de Pearson Coeficiente de correlacin de Spearman Anlisis factorial exploratorio Anlisis factorial confirmatorio Grfica estadstica

    Disciplinas especializadas

    Algunos campos de investigacin usan la estadstica tan extensamente que tienen terminologa especializada. Estas disciplinas incluyen:

    Ciencias actuariales Fsica estadstica Estadstica industrial Estadstica Espacial Matemticas Estadstica Estadstica en Medicina Estadstica en Medicina Veterinaria y Zootecnia Estadstica en Nutricin Estadstica en Agronoma Estadstica en Planificacin Estadstica en Investigacin Estadstica en Restauracin de Obras Estadstica en Literatura Estadstica en Astronoma Estadstica en la Antropologa (Antropometra) Estadstica en Historia Estadstica militar Geoestadstica Bioestadstica Estadsticas de Negocios

  • Estadstica Computacional Estadstica en las Ciencias de la Salud Investigacin de Operaciones Estadsticas de Consultora Estadstica de la educacin, la enseanza, y la formacin Estadstica en la comercializacin o mercadotecnia Cienciometra Estadstica del Medio Ambiente Estadstica en Epidemiologa Minera de datos (aplica estadstica y reconocimiento de patrones para

    el conocimiento de datos) Econometra (Estadstica econmica) Estadstica en Ingeniera Geografa y Sistemas de informacin geogrfica, ms especficamente

    en Anlisis espacial Demografa Estadstica en psicologa (Psicometra) Calidad y productividad Estadsticas sociales (para todas las ciencias sociales) Cultura estadstica Encuestas por Muestreo Anlisis de procesos y quimiometra (para anlisis de datos en qumica

    analtica e ingeniera qumica) Confiabilidad estadstica Procesamiento de imgenes Estadsticas Deportivas

    La estadstica es una herramienta bsica en negocios y produccin. Es usada para entender la variabilidad de sistemas de medicin, control de procesos (como en control estadstico de procesos o SPC (CEP)), para compilar datos y para tomar decisiones. En estas aplicaciones es una herramienta clave, y probablemente la nica herramienta disponible.

  • Computacin estadstica

    El rpido y sostenido incremento en el poder de clculo de la computacin desde la segunda mitad del siglo XX ha tenido un sustancial impacto en la prctica de la ciencia estadstica. Viejos modelos estadsticos fueron casi siempre de la clase de los modelos lineales. Ahora, complejos computadores junto con apropiados algoritmos numricos, han causado un renacer del inters en modelos no lineales (especialmente redes neuronales y rboles de decisin) y la creacin de nuevos tipos tales como modelos lineales generalizados y modelos multinivel.

    El incremento en el poder computacional tambin ha llevado al crecimiento en popularidad de mtodos intensivos computacionalmente basados en remuestreo, tales como tests de permutacin y de bootstrap, mientras tcnicas como el muestreo de Gibbs han hecho los mtodos bayesianos ms accesibles. La revolucin en computadores tiene implicaciones en el futuro de la estadstica, con un nuevo nfasis en estadsticas experimentales y empricas. Un gran nmero de paquetes estadsticos est ahora disponible para los investigadores. Los sistemas dinmicos y teora del caos, desde hace una dcada, empezaron a interesar en la comunidad hispana, pues en la anglosajona de Estados Unidos estaba ya establecida la conducta catica en sistemas dinmicos no lineales con 350 libros para 1997 y empezaban algunos trabajos en los campos de las ciencias sociales y en aplicaciones de la fsica. Tambin se estaba contemplando su uso en analtica.

    Crticas a la estadstica

    Hay una percepcin general de que el conocimiento estadstico es intencionado y frecuentemente mal usado, encontrando maneras de interpretar los datos que sean favorables al presentador. Un dicho famoso, al parecer de Benjamin Disraeli, es: Hay tres tipos de mentiras: mentiras pequeas, mentiras grandes y estadsticas. El popular libro How to lie with statistics (Cmo mentir con las estadsticas en la edicin espaola) de Darrell Huff discute muchos casos de mal uso de la estadstica, con nfasis en grficas malintencionadas. Al escoger (o rechazar o modificar) una cierta muestra, los resultados pueden ser manipulados; por ejemplo, mediante la

  • eliminacin selectiva de valores atpicos (outliers). Este puede ser el resultado de fraudes o sesgos intencionales por parte del investigador (Darrel Huff). Lawrence Lowell (decano de la Universidad de Harvard) escribi en 1909 que las estadsticas, como algunos pasteles, son buenas si se sabe quin las hizo y se est seguro de los ingredientes.

    Algunos estudios contradicen resultados obtenidos previamente, y la poblacin comienza a dudar en la veracidad de tales estudios. Se podra leer que un estudio dice (por ejemplo) que hacer X reduce la presin sangunea, seguido por un estudio que dice que hacer X no afecta la presin sangunea, seguido por otro que dice que hacer X incrementa la presin sangunea. A menudo los estudios se hacen siguiendo diferentes metodologas, o estudios en muestras pequeas que prometen resultados maravillosos que no son obtenibles en estudios de mayor tamao. Sin embargo, muchos lectores no notan tales diferencias, y los medios de comunicacin simplifican la informacin alrededor del estudio y la desconfianza del pblico comienza a crecer.

    Sin embargo, las crticas ms fuertes vienen del hecho que la aproximacin de pruebas de hiptesis, ampliamente usada en muchos casos requeridos por ley o reglamentacin, obligan una hiptesis a ser 'favorecida' (la hiptesis nula), y puede tambin exagerar la importancia de pequeas diferencias en estudios grandes. Una diferencia que es altamente significativa puede ser de ninguna significancia prctica.

    En los campos de la psicologa y la medicina, especialmente con respecto a la aprobacin de nuevos medicamentos por la Food and Drug Administration, crticas de la aproximacin de prueba de hiptesis se han incrementado en los aos recientes. Una respuesta ha sido un gran nfasis en el p-valor en vez de simplemente reportar si la hiptesis fue rechazada al nivel de significancia dado. De nuevo, sin embargo, esto resume la evidencia para un efecto pero no el tamao del efecto. Una posibilidad es reportar intervalos de confianza, puesto que estos indican el tamao del efecto y la incertidumbre. Esto ayuda a interpretar los resultados, como el intervalo de confianza para un dado indicando simultneamente la significancia estadstica y el efecto de tamao.

  • El p valor y los intervalos de confianza son basados en los mismos clculos fundamentales como aquellos para las correspondientes pruebas de hiptesis. Los resultados son presentados en un formato ms detallado, en lugar del si-o-no de las pruebas de hiptesis y con la misma metodologa estadstica.

    Otro tipo de aproximacin es el uso de mtodos bayesianos. Esta aproximacin ha sido, sin embargo, tambin criticada.

    El fuerte deseo de que los medicamentos buenos sean aprobados y que los medicamentos peligrosos o de poco uso sean rechazados crea tensiones y conflictos (errores tipo I y II en el lenguaje de pruebas de hiptesis).

  • UNIDAD II

    2.1. ESTADISTICA 2.2. TIPOS DE VARIABLES 2.3. TABLAS 2.4. DIAGRAMA DE BARRAS 2.5. DIAGRAMA DE SECTORES 2.6. HISTOGRAMA 2.7. PARAMETROS 2.8. MEDIANA 2.9. MODA 2.10. MEDIANA 2.11. MEDIA ARITMETICA 2.12. CUARTILES 2.13. DECILES 2.14. CENTILES 2.15. PERCENTILES 2.16. DESVIACION MEDIA 2.17. VARIANZA 2.18. DESVIACION TIPICA 2.19. COEFICIENTE DE VARIACION 2.20. RESUMEN 2.21. EJERCICIOS I 2.22. SOLUCION EJERCICIOS I 2.23. EJERCICIOS II 2.24. SOLUCION EJERCICIOS II

  • ESTADSTICA

    Definicin de Estadstica La Estadstica trata del recuento, ordenacin y clasificacin de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadstico consta de las siguientes fases:

    Recogida de datos.

    Organizacin y representacin de datos.

    Anlisis de datos.

    Obtencin de conclusiones.

    Conceptos de Estadstica

    Poblacin Una poblacin es el conjunto de todos los elementos a los que se somete a un estudio estadstico.

    Individuo Un individuo o unidad estadstica es cada uno de los elementos que componen la poblacin.

    Muestra Una muestra es un conjunto representativo de la poblacin de referencia, el nmero de individuos de una muestra es menor que el de la poblacin.

    Muestreo El muestreo es la reunin de datos que se desea estudiar, obtenidos de una proporcin reducida y representativa de la poblacin.

  • Valor Un valor es cada uno de los distintos resultados que se pueden obtener en un estudio estadstico. Si lanzamos una moneda al aire 5 veces obtenemos dos valores: cara y cruz.

    Dato Un dato es cada uno de los valores que se ha obtenido al realizar un estudio estadstico. Si lanzamos una moneda al aire 5 veces obtenemos 5 datos: cara, cara, cruz, cara, cruz.

    TIPOS DE VARIABLE ESTADSTICAS

    Variable cualitativa

    Las variables cualitativas se refieren a caractersticas o cualidades que no pueden ser medidas con nmeros. Podemos distinguir dos tipos:

    Variable cualitativa nominal.- Una variable cualitativa nominal presenta modalidades no numricas que no admiten un criterio de orden. Por ejemplo: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo

    Variable cualitativa ordinal o variable cuasicuantitativa.- Una variable cualitativa ordinal presenta modalidades no numricas, en las que existe un orden. Por ejemplo: La nota en un examen: suspenso, aprobado, notable, sobresaliente. Puesto conseguido en una prueba deportiva: 1, 2, 3,... Medallas de una prueba deportiva: oro, plata, bronce.

    Variable cuantitativa Una variable cuantitativa es la que se expresa mediante un nmero, por tanto se pueden realizar operaciones aritmticas con ella. Podemos distinguir dos tipos:

  • Variable discreta.- Una variable discreta es aquella que toma valores

    aislados, es decir no admite valores intermedios entre dos valores especficos. Por ejemplo: El nmero de hermanos de 5 amigos: 2, 1, 0, 1, 3.

    Variable continua.- Una variable continua es aquella que puede tomar valores comprendidos entre dos nmeros. Por ejemplo: La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.

    En la prctica medimos la altura con dos decimales, pero tambin se podra dar con tres decimales.

    TABLAS DE ESTADISTICA

    Distribucin de frecuencias La distribucin de frecuencias o tabla de frecuencias es una ordenacin en forma de tabla de los datos estadsticos, asignando a cada dato su frecuencia correspondiente.

    Tipos de frecuencias:

    Frecuencia absoluta.- La frecuencia absoluta es el nmero de veces que aparece un determinado valor en un estudio estadstico. Se representa por fi. La suma de las frecuencias absolutas es igual al nmero total de datos, que se representa por N.

    Para indicar resumidamente estas sumas se utiliza la letra griega (sigma mayscula) que se lee suma o sumatoria.

  • Frecuencia relativa.- La frecuencia relativa es el cociente entre la

    frecuencia absoluta de un determinado valor y el nmero total de

    datos. Se puede expresar en tantos por ciento y se representa por ni.

    La suma de las frecuencias relativas es igual a 1.

    Frecuencia acumulada.- La frecuencia acumulada es la suma de las

    frecuencias absolutas de todos los valores inferiores o iguales al valor

    considerado. Se representa por Fi.

    Frecuencia relativa acumulada.- La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el nmero total de datos. Se puede expresar en tantos por ciento.

    Ejemplo: Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas mximas: 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29. En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.

  • xi Recuento fi Fi ni Ni

    27 I 1 1 0.032 0.032

    28 II 2 3 0.065 0.097

    29

    6 9 0.194 0.290

    30

    7 16 0.226 0.516

    31

    8 24 0.258 0.774

    32 III 3 27 0.097 0.871

    33 III 3 30 0.097 0.968

    34 I 1 31 0.032 1

    31 1

    Este tipo de tablas de frecuencias se utiliza con variables discretas.

    Distribucin de frecuencias agrupadas La distribucin de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un nmero grande de valores o la variable es continua. Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.

  • Lmites de la clase Cada clase est delimitada por el lmite inferior de la clase y el lmite superior de la clase. Amplitud de la clase La amplitud de la clase es la diferencia entre el lmite superior e inferior de la clase. Marca de clase La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el clculo de algunos parmetros. Construccin de una tabla de datos agrupados 3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13. 1 Se localizan los valores menor y mayor de la distribucin. En este caso son 3 y 48. 2 Se restan y se busca un nmero entero un poco mayor que la diferencia y que sea divisible por el nmero de intervalos queramos establecer. Es conveniente que el nmero de intervalos oscile entre 6 y 15. En este caso, 48 - 3 = 45, incrementamos el nmero hasta 50: 5 = 10 intervalos. Se forman los intervalos teniendo presente que el lmite inferior de una clase pertenece al intervalo, pero el lmite superior no pertenece intervalo, se cuenta en el siguiente intervalo.

  • ci fi Fi ni Ni

    [0, 5) 2.5 1 1 0.025 0.025

    [5, 10) 7.5 1 2 0.025 0.050

    [10, 15) 12.5 3 5 0.075 0.125

    [15, 20) 17.5 3 8 0.075 0.200

    [20, 25) 22.5 3 11 0.075 0.275

    [25, 30) 27.5 6 17 0.150 0.425

    [30, 35) 32.5 7 24 0.175 0.600

    [35, 40) 37.5 10 34 0.250 0.850

    [40, 45) 42.5 4 38 0.100 0.950

    [45, 50) 47.5 2 40 0.050 1

    40 1

    DIAGRAMA DE BARRAS Y POLGONOS DE FRECUENCIAS

    Diagrama de barras Un diagrama de barras se utiliza para representar datos cualitativos o datos cuantitativos de tipo discreto.

  • Se representan sobre unos ejes de coordenadas, en el eje de abscisas se colocan los valores de la variable, y sobre el eje de ordenadas las frecuencias absolutas o relativas o acumuladas. Los datos se representan mediante barras de una altura proporcional a la frecuencia. Ejemplo: Un estudio hecho al conjunto de los 20 alumnos de una clase para determinar su grupo sanguneo ha dado el siguiente resultado:

    Grupo sanguneo

    fi

    A 6

    B 4

    AB 1

    0 9

    20

  • Polgonos de frecuencia Un polgono de frecuencias se forma uniendo los extremos de las barras mediante segmentos. Tambin se puede realizar trazando los puntos que representan las frecuencias y unindolos mediante segmentos. Ejemplo: Las temperaturas en un da de otoo de una ciudad han sufrido las siguientes variaciones:

    Hora Temperatura

    6 7

    9 12

    12 14

    15 11

    18 12

    21 10

    24 8

  • DIAGRAMA DE SECTORES Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se usa frecuentemente para las variables cualitativas. Los datos se representan en un crculo, de modo que el ngulo de cada sector es proporcional a la frecuencia absoluta correspondiente.

    El diagrama circular se construye con la ayuda de un transportador de ngulos. Ejemplo: En una clase de 30 alumnos, 12 juegan a baloncesto, 3 practican la natacin, 9 juegan al ftbol y el resto no practica ningn deporte.

    Alumnos ngulo

    Baloncesto 12 144

    Natacin 3 36

    Ftbol 9 108

    Sin deporte 6 72

    Total 30 360

  • HISTOGRAMA Un histograma es una representacin grfica de una variable en forma de barras. Se utilizan para variables continuas o para variables discretas, con un gran nmero de datos, y que se han agrupado en clases. En el eje abscisas se construyen unos rectngulos que tienen por base la amplitud del intervalo, y por altura, la frecuencia absoluta de cada intervalo. La superficie de cada barra es proporcional a la frecuencia de los valores representados. Polgono de frecuencia Para construir el polgono de frecuencia se toma la marca de clase que coincide con el punto medio de cada rectngulo.

    Ejemplo:

  • El peso de 65 personas adultas viene dado por la siguiente tabla:

    ci fi Fi

    [50, 60) 55 8 8

    [60, 70) 65 10 18

    [70, 80) 75 16 34

    [80, 90) 85 14 48

    [90, 100) 95 10 58

    [100, 110) 105 5 63

    [110, 120) 115 2 65

    65

  • Histograma y polgono de frecuencias acumuladas

    Si se representan las frecuencias acumuladas de una tabla de datos agrupados se

    obtiene el histograma de frecuencias acumuladas o su correspondiente polgono.

  • Histogramas con intervalos de amplitud diferente

    Para construir los histogramas con intervalo de amplitud diferente tenemos que calcular las alturas de los rectngulos del histograma.

    hi es la altura del intervalo.

    fi es la frecuencia del intervalo.

    ai es la amplitud del intervalo.

    Ejemplo

    En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y

    sobresaliente) obtenidas por un grupo de 50 alumnos.

    fi hi

    [0, 5) 15 3

    [5, 7) 20 10

    [7, 9) 12 6

    [9, 10) 3 3

    50

  • PARMETROS ESTADSTICOS Definicin de parmetro estadstico Un parmetro estadstico es un nmero que se obtiene a partir de los datos de una distribucin estadstica. Los parmetros estadsticos sirven para sintetizar la informacin dada por una tabla o por una grfica.

    Tipos de parmetros estadsticos Hay tres tipos parmetros estadsticos:

    De centralizacin.

    De posicin

    De dispersin.

  • Medidas de centralizacin Nos indican en torno a qu valor (centro) se distribuyen los datos. Las medidas de centralizacin son:

    Media aritmtica.- La media es el valor promedio de la distribucin.

    Mediana.- La mediana es la puntacin de la escala que separa la mitad superior de la distribucin y la inferior, es decir divide la serie de datos en dos partes iguales.

    Moda.- La moda es el valor que ms se repite en una distribucin.

    Medidas de posicin Las medidas de posicin dividen un conjunto de datos en grupos con el mismo nmero de individuos. Para calcular las medidas de posicin es necesario que los datos estn ordenados de menor a mayor. Las medidas de posicin son:

    Cuartiles.- Los cuartiles dividen la serie de datos en cuatro partes iguales.

    Deciles.- Los deciles dividen la serie de datos en diez partes iguales.

    Percentiles.- Los percentiles dividen la serie de datos en cien partes iguales.

    Medidas de dispersin Las medidas de dispersin nos informan sobre cuanto se alejan del centro los valores de la distribucin. Las medidas de dispersin son:

    Rango o recorrido.- El rango es la diferencia entre el mayor y el menor de los datos de una distribucin estadstica.

    Desviacin media.- La desviacin media es la media aritmtica de los valores absolutos de las desviaciones respecto a la media.

  • Varianza.- La varianza es la media aritmtica del cuadrado de las

    desviaciones respecto a la media.

    Desviacin tpica.- La desviacin tpica es la raz cuadrada de la varianza.

    MODA Definicin de moda La moda es el valor que tiene mayor frecuencia absoluta. Se representa por Mo. Se puede hallar la moda para variables cualitativas y cuantitativas. Ejemplo: Hallar la moda de la distribucin: 2, 3, 3, 4, 4, 4, 5, 5 Mo= 4 Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la mxima, la distribucin es bimodal o multimodal, es decir, tiene varias modas. 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9 Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda. 2, 2, 3, 3, 6, 6, 9, 9 Si dos puntuaciones adyacentes tienen la frecuencia mxima, la moda es el promedio de las dos puntuaciones adyacentes. 0, 1, 3, 3, 5, 5, 7, 8 Mo = 4

    Clculo de la moda para datos agrupados 1 Todos los intervalos tienen la misma amplitud.

    Li es el lmite inferior de la clase modal. fi es la frecuencia absoluta de la clase modal. fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal.

  • fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal. ai es la amplitud de la clase. Tambin se utiliza otra frmula de la moda que da un valor aproximado de sta:

    Ejemplo

    Calcular la moda de una distribucin estadstica que viene dada por la siguiente tabla:

    fi

    [60, 63) 5

    [63, 66) 18

    [66, 69) 42

    [69, 72) 27

    [72, 75) 8

    100

  • 2 Los intervalos tienen amplitudes distintas.

    En primer lugar tenemos que hallar las alturas.

    La clase modal es la que tiene mayor altura.

    La frmula de la moda aproximada cuando existen distintas amplitudes es:

    Ejemplo En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda.

  • fi hi

    [0, 5) 15 3

    [5, 7) 20 10

    [7, 9) 12 6

    [9, 10) 3 3

    50

    MEDIANA Definicin de mediana Es el valor que ocupa el lugar central de todos los datos cuando stos estn ordenados de menor a mayor. La mediana se representa por Me.

  • La mediana se puede hallar slo para variables cuantitativas.

    Clculo de la mediana

    1. Ordenamos los datos de menor a mayor.

    2. Si la serie tiene un nmero impar de medidas la mediana es la puntuacin central de la misma. 2, 3, 4, 4, 5, 5, 5, 6, 6 Me= 5

    3. Si la serie tiene un nmero par de puntuaciones la mediana es la media

    entre las dos puntuaciones centrales. 7, 8, 9, 10, 11, 12Me= 9.5

    Clculo de la mediana para datos agrupados La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas.

    Es decir tenemos que buscar el intervalo en el que se encuentre.

    Li es el lmite inferior de la clase donde se encuentra la mediana.

    es la semisuma de las frecuencias absolutas.

    Fi-1 es la frecuencia acumulada anterior a la clase mediana.

    ai es la amplitud de la clase.

  • La mediana es independiente de las amplitudes de los intervalos. Ejemplo Calcular la mediana de una distribucin estadstica que viene dada por la siguiente tabla:

    fi Fi

    [60, 63) 5 5

    [63, 66) 18 23

    [66, 69) 42 65

    [69, 72) 27 92

    [72, 75) 8 100

    100

    100/2 = 50 Clase de la mediana: [66, 69)

    MEDIA ARITMTICA Definicin de media aritmtica La media aritmtica es el valor obtenido al sumar todos los datos y dividir el resultado entre el nmero total de datos.

  • es el smbolo de la media aritmtica.

    Ejemplo Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.

    Media aritmtica para datos agrupados Si los datos vienen agrupados en una tabla de frecuencias, la expresin de la media es:

    Ejercicio de media aritmtica En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla. Calcula la puntuacin media.

  • xi fi xi fi

    [10, 20) 15 1 15

    [20, 30) 25 8 200

    [30,40) 35 10 350

    [40, 50) 45 9 405

    [50, 60 55 8 440

    [60,70) 65 4 260

    [70, 80) 75 2 150

    42 1 820

    Propiedades de la media aritmtica 1. La suma de las desviaciones de todas las puntuaciones de una distribucin respecto a la media de la misma igual a cero.

    La suma de las desviaciones de los nmeros 8, 3, 5, 12, 10 de su media aritmtica 7.6 es igual a 0: 8 7.6 + 3 7.6 + 5 7.6 + 12 7.6 + 10 7.6 = = 0. 4 4.6 2.6 + 4. 4 + 2. 4 = 0

  • 2. La suma de los cuadrados de las desviaciones de los valores de la variable con respecto a un nmero cualquiera se hace mnima cuando dicho nmero coincide con la media aritmtica.

    3. Si a todos los valores de la variable se les suma un mismo nmero, la media aritmtica queda aumentada en dicho nmero. 4. Si todos los valores de la variable se multiplican por un mismo nmero la media aritmtica queda multiplicada por dicho nmero.

    Observaciones sobre la media aritmtica 1. La media se puede hallar slo para variables cuantitativas. 2. La media es independiente de las amplitudes de los intervalos. 3. La media es muy sensible a las puntuaciones extremas. Si tenemos una distribucin con los siguientes pesos: 65 kg, 69kg, 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg. La media es igual a 74 kg, que es una medida de centralizacin poco representativa de la distribucin. 4. La media no se puede calcular si hay un intervalo con una amplitud indeterminada.

  • xi fi

    [60, 63) 61.5 5

    [63, 66) 64.5 18

    [66, 69) 67.5 42

    [69, 72) 70.5 27

    [72, ) 8

    100

    En este caso no es posible hallar la media porque no podemos calcular la marca de clase de ltimo intervalo.

    CUARTILES

    Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.

    Clculo de los cuartiles 1 Ordenamos los datos de menor a mayor. 2 Buscamos el lugar que ocupa cada cuartil mediante la expresin:

    .

  • Nmero impar de datos 2, 5, 3, 6, 7, 4, 9

    Nmero par de datos 2, 5, 3, 4, 6, 7, 1, 9

    Clculo de los cuartiles para datos agrupados

    En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

    Li es el lmite inferior de la clase donde se encuentra el cuartil. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase del cuartil. ai es la amplitud de la clase.

  • Ejercicio de cuartiles Calcular los cuartiles de la distribucin de la tabla:

    fi Fi

    [50, 60) 8 8

    [60, 70) 10 18

    [70, 80) 16 34

    [80, 90) 14 48

    [90, 100) 10 58

    [100, 110) 5 63

    [110, 120) 2 65

    65

    Clculo del primer cuartil

  • Clculo del segundo cuartil

    Clculo del tercer cuartil

    DECILES Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D5 coincide con la mediana.

    Clculo de los deciles

    En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

    Li es el lmite inferior de la clase donde se encuentra el decil. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase el decil. ai es la amplitud de la clase.

  • Ejercicio de deciles Calcular los deciles de la distribucin de la tabla:

    fi Fi

    [50, 60) 8 8

    [60, 70) 10 18

    [70, 80) 16 34

    [80, 90) 14 48

    [90, 100) 10 58

    [100, 110) 5 63

    [110, 120) 2 65

    65

    Clculo del primer decil

    Clculo del segundo decil

  • Clculo del tercer decil

    Clculo del cuarto decil

    Clculo del quinto decil

    Clculo del sexto decil

    Clculo del sptimo decil

  • Clculo del octavo decil

    Clculo del noveno decil

    PERCENTILES Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P50 coincide con la mediana.

    Clculo de los percentiles

    En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

    Li es el lmite inferior de la clase donde se encuentra el percentil. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase del percentil. ai es la amplitud de la clase.

  • Ejercicio de percentiles Calcular el percentil 35 y 60 de la distribucin de la tabla:

    fi Fi

    [50, 60) 8 8

    [60, 70) 10 18

    [70, 80) 16 34

    [80, 90) 14 48

    [90, 100) 10 58

    [100, 110) 5 63

    [110, 120) 2 65

    65

    Percentil 35

    Percentil 60

  • DESVIACIN MEDIA

    Desviacin respecto a la media La desviacin respecto a la media es la diferencia en valor absoluto entre cada valor de la variable estadstica y la media aritmtica. Di = |x - x|

    Desviacin media La desviacin media es la media aritmtica de los valores absolutos de las desviaciones respecto a la media.

    La desviacin media se representa por

    Ejemplo Calcular la desviacin media de la distribucin: 9, 3, 8, 8, 9, 8, 9, 18

  • Desviacin media para datos agrupados Si los datos vienen agrupados en una tabla de frecuencias, la expresin de la desviacin media es:

    Ejemplo Calcular la desviacin media de la distribucin:

    xi fi xi fi |x - x| |x - x| fi

    [10, 15) 12.5 3 37.5 9.286 27.858

    [15, 20) 17.5 5 87.5 4.286 21.43

    [20, 25) 22.5 7 157.5 0.714 4.998

    [25, 30) 27.5 4 110 5.714 22.856

    [30, 35) 32.5 2 65 10.714 21.428

    21 457.5 98.57

  • VARIANZA La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la media de una distribucin estadstica.

    La varianza se representa por .

    Varianza para datos agrupados

    Para simplificar el clculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

    Varianza para datos agrupados

    Ejercicios de varianza Calcular la varianza de la distribucin: 9, 3, 8, 8, 9, 8, 9, 18

  • Calcular la varianza de la distribucin de la tabla:

    xi fi xi fi xi2 fi

    [10, 20) 15 1 15 225

    [20, 30) 25 8 200 5000

    [30,40) 35 10 350 12 250

    [40, 50) 45 9 405 18 225

    [50, 60 55 8 440 24 200

    [60,70) 65 4 260 16 900

    [70, 80) 75 2 150 11 250

    42 1 820 88 050

    Propiedades de la varianza 1. La varianza ser siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales. 2. Si a todos los valores de la variable se les suma un nmero la varianza no vara.

  • 3. Si todos los valores de la variable se multiplican por un nmero la varianza queda multiplicada por el cuadrado de dicho nmero. 4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total. Si todas las muestras tienen el mismo tamao:

    Si las muestras tienen distinto tamao:

    Observaciones sobre la varianza 1. La varianza, al igual que la media, es un ndice muy sensible a las puntuaciones extremas. 2. En los casos que no se pueda hallar la media tampoco ser posible hallar la varianza. 3. La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones estn elevadas al cuadrado.

    DESVIACIN TPICA La desviacin tpica es la raz cuadrada de la varianza. Es decir, la raz cuadrada de la media de los cuadrados de las puntuaciones de desviacin. La desviacin tpica se representa por .

  • Desviacin tpica para datos agrupados

    Para simplificar el clculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

    Desviacin tpica para datos agrupados

    Ejercicios de desviacin tpica Calcular la desviacin tpica de la distribucin: 9, 3, 8, 8, 9, 8, 9, 18

  • Calcular la desviacin tpica de la distribucin de la tabla:

    xi fi xi fi xi2 fi

    [10, 20) 15 1 15 225

    [20, 30) 25 8 200 5000

    [30,40) 35 10 350 12 250

    [40, 50) 45 9 405 18 225

    [50, 60) 55 8 440 24 200

    [60,70) 65 4 260 16 900

    [70, 80) 75 2 150 11 250

    42 1 820 88 050

    Propiedades de la desviacin tpica 1. La desviacin tpica ser siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales. 2. Si a todos los valores de la variable se les suma un nmero la desviacin tpica no vara. 3. Si todos los valores de la variable se multiplican por un nmero la desviacin tpica queda multiplicada por dicho nmero.

  • 4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones tpicas se puede calcular la desviacin tpica total. Si todas las muestras tienen el mismo tamao:

    Si las muestras tienen distinto tamao:

    Observaciones sobre la desviacin tpica 1. La desviacin tpica, al igual que la media y la varianza, es un ndice muy sensible a las puntuaciones extremas. 2. En los casos que no se pueda hallar la media tampoco ser posible hallar la desviacin tpica. 3. Cuanta ms pequea sea la desviacin tpica mayor ser la concentracin de datos alrededor de la media.

    COEFICIENTE DE VARIACIN

    El coeficiente de variacin es la relacin entre la desviacin tpica de una muestra y su media.

  • El coeficiente de variacin se suele expresar en porcentajes:

    El coeficiente de variacin permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas.

    Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre s.

    La mayor dispersin corresponder al valor del coeficiente de variacin mayor.

    Ejercicio

    Una distribucin tiene x = 140 y = 28.28 y otra x = 150 y = 24. Cul de las dos presenta mayor dispersin?

    La primera distribucin presenta mayor dispersin.

    PUNTUACIONES TPICAS

    Puntuaciones diferenciales

    Las puntuaciones diferenciales resultan de restarles a las puntuaciones directas la media aritmtica.

    xi = Xi X

  • Puntuaciones tpicas

    Las puntuaciones tpicas son el resultado de dividir las puntuaciones diferenciales entre la desviacin tpica. Este proceso se llama tipificacin.

    Las puntuaciones tpicas se representan por z.

    Observaciones sobre puntuaciones tpicas

    La media aritmtica de las puntuaciones tpicas es 0.

    La desviacin tpica de las puntuaciones tpicas es 1.

    Las puntuaciones tpicas son adimensionales, es decir, son independientes de las unidades utilizadas.

    Las puntuaciones tpicas se utilizan para comparar las puntuaciones obtenidas en distintas distribuciones. Ejemplo En una clase hay 15 alumnos y 20 alumnas. El peso medio de los alumnos es 58.2 kg y el de las alumnas y 52.4 kg. Las desviaciones tpicas de los dos grupos son, respectivamente, 3.1 kg y 5.1 kg. El peso de Jos es de 70 kg y el de Ana es 65 kg. Cul de ellos puede, dentro del grupo de alumnos de su sexo, considerarse ms grueso?

    Jos es ms grueso respecto de su grupo que Ana respecto al suyo.

  • EJERCICIOS Y SOLUCIONES I

    1. Muestra que variables son cualitativas y cuales cuantitativas:

    1. Comida Favorita. 2. Profesin que te gusta. 3. Nmero de goles marcados por tu equipo favorito en la ltima

    temporada. 4. Nmero de alumnos de tu Instituto. 5. El color de los ojos de tus compaeros de clase. 6. Coeficiente intelectual de tus compaeros de clase.

    Solucin:

    1. Comida Favorita. Cualitativa. 2. Profesin que te gusta. Cualitativa. 3. Nmero de goles marcados por tu equipo favorito en la ltima

    temporada. Cuantitativa. 4. Nmero de alumnos de tu Instituto. Cuantitativa. 5. El color de los ojos de tus compaeros de clase. Cualitativa. 6. Coeficiente intelectual de tus compaeros de clase. Cuantitativa

    2. De las siguientes variables muestra cules son discretas y cuales contnuas.

    1. Nmero de acciones vendidas cada da en la Bolsa. 2. Temperaturas registradas cada hora en un observatorio. 3. Perodo de duracin de un automvil. 4. El dimetro de las ruedas de varios coches. 5. Nmero de hijos de 50 familias. 6. Censo anual de los ecuatorianos.

    Solucin:

    1. Nmero de acciones vendidas cada da en la Bolsa. Discreta 2. Temperaturas registradas cada hora en un observatorio. Continua

  • 3. Perodo de duracin de un automvil. Continua 4. El dimetro de las ruedas de varios coches. Continua 5. Nmero de hijos de 50 familias. Discreta 6. Censo anual de los ecuatorianos. Discreta

    3. Clasificar las siguientes variables en cualitativas y cuantitativas discretas o continuas.

    1. La nacionalidad de una persona. 2. Nmero de litros de agua contenidos en un depsito. 3. Nmero de libros en un estante de librera. 4. Suma de puntos tenidos en el lanzamiento de un par de dados. 5. La profesin de una persona. 6. El rea de las distintas baldosas de un edificio.

    Solucin:

    1. La nacionalidad de una persona. Cualitativa 2. Nmero de litros de agua contenidos en un depsito. Cuantitativa

    contnua. 3. Nmero de libro en un estante de librera. Cuantitativa discreta. 4. Suma de puntos tenidos en el lanzamiento de un par de dados.

    Cuantitativa discreta. La profesin de una persona. Cualitativa. 5. El rea de las distintas baldosas de un edificio. Cuantitativa contnua.

    4. Las puntuaciones obtenidas por un grupo en una prueba han sido: 15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13. Construir la tabla de distribucin de frecuencias y dibuja el polgono de frecuencias. Solucin:

  • xi Recuento fi Fi ni Ni

    13 III 3 3 0.15 0.15

    14 I 1 4 0.05 0.20

    15

    5 9 0.25 0.45

    16 IIII 4 13 0.20 0.65

    18 III 3 16 0.15 0.80

    19 I 1 17 0.05 0.85

    20 II 2 19 0.10 0.95

    22 I 1 20 0.05 1

    20

    Polgono de frecuencias

  • 5. El nmero de estrellas de los hoteles de una ciudad viene dado por la siguiente serie: 3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4, 1. Construir la tabla de distribucin de frecuencias y dibuja el diagrama de barras. Solucin:

    xi Recuento xi Fi ni Ni

    1 6 6 0.158 0.158

    2

    12 18 0.316 0.474

    3

    16 34 0.421 0.895

    4 IIII 4 38 0.105 1

    38 1

    Diagrama de barras

  • 6. Las calificaciones de 50 alumnos en Matemticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7. Construir la tabla de distribucin de frecuencias y dibuja el diagrama de barras. Solucin:

    xi fi Fi ni Ni

    0 1 1 0.02 0.02

    1 1 2 0.02 0.04

    2 2 4 0.04 0.08

    3 3 7 0.06 0.14

    4 6 13 0.12 0.26

    5 11 24 0.22 0.48

    6 12 36 0.24 0.72

    7 7 43 0.14 0.86

    8 4 47 0.08 0.94

    9 2 49 0.04 0.98

    10 1 50 0.02 1.00

    50 1.00

  • Diagrama de barras

    7. Los pesos de los 65 empleados de una fbrica vienen dados por la siguiente tabla:

    Peso [50, 60) [60, 70) [70, 80) [80,90) [90, 100) [100, 110) [110, 120)

    fi 8 10 16 14 10 5 2

    1. Construir la tabla de frecuencias. 2. Representar el histograma y el polgono de frecuencias. Solucin:

  • xi fi Fi ni Ni

    [50, 60) 55 8 8 0.12 0.12

    [60, 70) 65 10 18 0.15 0.27

    [70, 80) 75 16 34 0.24 0.51

    [80,90) 85 14 48 0.22 0.73

    [90, 100) 95 10 58 0.15 0.88

    [100, 110) 105 5 63 0.08 0.96

    [110, 120) 115 2 65 0.03 0.99

    65

    Histograma

  • 8. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Fsica. 3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13. 1. Construir la tabla de frecuencias. 2. Dibujar el histograma y el polgono de frecuencias. Solucin:

    xi fi Fi ni Ni

    [0, 5) 2.5 1 1 0.025 0.025

    [5, 10) 7.5 1 2 0.025 0.050

    [10, 15) 12.5 3 5 0.075 0.125

    [15, 20) 17.5 3 8 0.075 0.200

    [20, 25) 22.5 3 11 0.075 0.275

    [25, 30) 27.5 6 17 0.150 0.425

    [30, 35) 32.5 7 24 0.175 0.600

    [35, 40) 37.5 10 34 0.250 0.850

    [40, 45) 47.5 4 38 0.100 0.950

    [45, 50) 47.5 2 40 0.050 1.000

    40 1

  • Histograma

    9. Sea una distribucin estadstica que viene dada por la siguiente tabla:

    xi 61 64 67 70 73

    fi 5 18 42 27 8

    Calcular: 1. La moda, mediana y media. 2. El rango, desviacin media, varianza y desviacin tpica.

  • Solucin:

    xi fi Fi xi fi |x x | |x x | fi xi2

    fi

    61 5 5 305 6.45 32.25 18 605

    64 18 23 1152 3.45 62.10 73 728

    67 42 65 2814 0.45 18.90 188 538

    71 27 92 1890 2.55 68.85 132 300

    73 8 100 584 5.55 44.40 42 632

    100 6745 226.50 455 803

    Moda Mo = 67 Mediana 100/2 = 50 Me = 67 Media

    Desviacin media

    Rango r = 73 61 = 12 Varianza

  • Desviacin tpica

    10. Calcular la media, la mediana y la moda de la siguiente serie de nmeros: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4. Solucin:

    xi fi Fi xi fi

    2 2 2 4

    3 2 4 6

    4 5 9 20

    5 6 15 30

    6 2 17 12

    8 3 20 24

    20 96

    Moda Mo = 5 Mediana 20/2 = 10 Me = 5 Media

  • 11. Hallar la varianza y la desviacin tpica de la siguiente serie de datos: 12, 6, 7, 3, 15, 10, 18, 5. Solucin:

    12. Hallar la media, mediana y moda de la siguiente serie de nmeros: 3, 5, 2, 6, 5, 9, 5, 2, 8, 6. Solucin: 2, 2, 3, 5, 5, 5, 6, 6, 8, 9.

    Moda

    Mo = 5

    Mediana

    10/2 = 5

    Media

  • 13. Hallar la desviacin media, la varianza y la desviacin tpica de la series de nmeros siguientes: 2, 3, 6, 8, 11. 12, 6, 7, 3, 15, 10, 18, 5. Solucin: 2, 3, 6, 8, 11.

    Media

    Desviacin media

    Varianza

    Desviacin tpica

  • 12, 6, 7, 3, 15, 10, 18, 5. Media

    Desviacin media

    Varianza

    Desviacin tpica

  • 14. Se ha aplicado un test a los empleados de una fbrica, obtenindose la siguiente tabla:

    fi

    [38, 44) 7

    [44, 50) 8

    [50, 56) 15

    [56, 62) 25

    [62, 68) 18

    [68, 74) 9

    [74, 80) 6

    Dibujar el histograma y el polgono de frecuencias acumuladas. Solucin:

    fi Fi

    [38, 44) 7 7

    [44, 50) 8 15

    [50, 56) 15 30

    [56, 62) 25 55

    [62, 68) 18 73

    [68, 74) 9 82

    [74, 80) 6 88

  • 15. Dadas las series estadsticas: 3, 5, 2, 7, 6, 4, 9. 3, 5, 2, 7, 6, 4, 9, 1. Calcular: La moda, la mediana y la media. La desviacin media, la varianza y la desviacin tpica. Los cuartiles 1 y 3. Los deciles 2 y 7. Los percentiles 32 y 85. Solucin:

  • 3, 5, 2, 7, 6, 4, 9. Moda No existe moda porque todas las puntuaciones tienen la misma frecuencia. Mediana 2, 3, 4, 5, 6, 7, 9. Me = 5 Media

    Varianza

    Desviacin tpica

    Desviacin media

    Rango r = 9 2 = 7

  • Cuartiles

    Deciles 7 (2/10) = 1.4 D2 = 3 7 (7/10) = 4.9 D7 = 6 Percentiles 7 (32/100) = 2,2 P32 = 4 7 (85/100) = 5.9 P85 = 7 3, 5, 2, 7, 6, 4, 9, 1. Moda No existe moda porque todas las puntuaciones tienen la misma frecuencia. Mediana

    Media

  • Varianza

    Desviacin tpica

    Desviacin media

    Rango r = 9 - 1 = 8 Cuartiles

    Deciles 8 (2/10) = 1.6 D2 = 2 8 (7/10) = 5.6 D7 = 6 Percentiles 8 (32/100) = 2.56 P32 = 3 8 (85/100) = 6.8 P85 = 7

  • 16. Una distribucin estadstica viene dada por la siguiente tabla:

    [10, 15) [15, 20) [20, 25) [25, 30) [30, 35)

    fi 3 5 7 4 2

    Hallar: La moda, mediana y media. El rango, desviacin media y varianza. Los cuartiles 1 y 3. Los deciles 3 y 6. Los percentiles 30 y 70. Solucin:

    xi fi Fi xi fi |x x | fi xi2

    fi

    [10, 15) 12.5 3 3 37.5 27.857 468.75

    [15, 20) 17.5 5 8 87.5 21.429 1537.3

    [20, 25) 22.5 7 15 157.5 5 3543.8

    [25, 30) 27.5 4 19 110 22.857 3025

    [30, 35) 32.5 2 21 65 21.429 2112.5

    21 457.5 98.571 10681.25

  • Moda

    Mediana

    Media

    Desviacin media

    Varianza

    Desviacin tpica

    Cuartiles

  • Deciles

    Percentiles

    17. Dada la distribucin estadstica:

    [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, )

    fi 3 5 7 8 2 6

    Calcular: La mediana y moda. Cuartil 2 y 3. Media. Solucin:

  • xi fi Fi

    [0, 5) 2.5 3 3

    [5, 10) 7.5 5 8

    [10, 15) 12.5 7 15

    [15, 20) 17.5 8 23

    [20, 25) 22.5 2 25

    [25, ) 6 31

    31

    Moda

    Mediana

    Cuartiles

    Media No se puede calcular la media, porque no se puede hallar la marca de clase del ltimo intervalo.

  • EJERCICIOS Y SOLUCIONES II

    1. A un conjunto de 5 nmeros cuya media es 7.31 se le aaden los nmeros 4.47 y 10.15. Cul es la media del nuevo conjunto de nmeros? Solucin:

    2. Un dentista observa el nmero de caries en cada uno de los 100 nios de cierto colegio. La informacin obtenida aparece resumida en la siguiente tabla:

    N de caries fi ni

    0 25 0.25

    1 20 0.2

    2 x z

    3 15 0.15

    4 y 0.05

    1. Completar la tabla obteniendo los valores de x, y, z. 2. Hacer un diagrama de sectores. 3. Calcular el nmero medio de caries.

  • 1. Tabla La suma de las frecuencias relativas ha de ser igual a 1: 0.25 + 0.2 + z + 0.15 + 0.05 = 1 0.65 + z = 1 z = 0.35 La frecuencia relativa de un dato es igual su frecuencia absoluta dividida entre 100, que es la suma de las frecuencias absolutas.

    N de caries fi ni fi ni

    0 25 0.25 0

    1 20 0.2 20

    2 35 0.35 70

    3 15 0.15 45

    4 5 0.05 20

    155

    2. Diagrama de sectores Calculamos los grados que corresponden a cara frecuencia absoluta.

  • 25 3.6 = 90 20 3.6 = 72 35 3.6 = 126 15 3.6 = 54 5 3.6 = 18

    3. Media aritmtica

    3. Se tiene el siguiente conjunto de 26 datos: 10, 13, 4, 7, 8, 11 10, 16, 18, 12, 3, 6, 9, 9, 4, 13, 20, 7, 5, 10, 17, 10, 16, 14, 8, 18 Obtener su mediana y cuartiles. Solucin:

  • En primer lugar ordenamos los datos de menor a mayor: 3, 4, 4, 5, 6, 7, 7, 8, 8, 9, 9, 10, 10, 10, 10, 11, 12, 13, 13, 14, 16, 16, 17, 18, 18, 20 Mediana 26/2 = 13. Como el nmero de datos es par la mediana es la media de las dos puntuaciones centrales:

    Cuartiles 26/4 = 6.5 Q1 = 7 Q2 = Me = 10 (26 3)/4 = 19.5 Q3 = 14

  • 4. Un pediatra obtuvo la siguiente tabla sobre los meses de edad de 50 nios de su consulta en el momento de andar por primera vez:

    Meses Nios

    9 1

    10 4

    11 9

    12 16

    13 11

    14 8

    15 1

    1. Dibujar el polgono de frecuencias. 2. Calcular la moda, la mediana, la media y la varianza. Solucin:

    Polgono de frecuencias

  • xi fi Ni xi fi xi fi

    9 1 1 9 81

    10 4 5 40 400

    11 9 14 99 1089

    12 16 30 192 2304

    13 11 41 143 1859

    14 8 49 112 1568

    15 1 50 15 225

    50 610 7526

    Moda

    Mo = 12

    Mediana

    50/2 = 25 Me = 12

    Media aritmtica

    Varianza

  • 5. Completar los datos que faltan en la siguiente tabla estadstica:

    xi fi Fi ni

    1 4 0.08

    2 4

    3 16 0.16

    4 7 0.14

    5 5 28

    6 38

    7 7 45

    8

    Calcular la media, mediana y moda de esta distribucin. Solucin: Tabla Primera fila:

    F1 = 4 Segunda fila:

    F2 = 4 + 4 = 8

  • Tercera fila:

    Cuarta fila: N4 = 16 + 7 = 23 Quinta fila:

    Sexta fila:

    28 + n8 = 38 n8 = 10 Sptima fila:

    Octava fila:

    N8 = N = 50 n8 = 50 45 = 5

  • xi fi Fi ni xi fi

    1 4 4 0.08 4

    2 4 8 0.08 8

    3 8 16 0.16 24

    4 7 23 0.14 28

    5 5 28 0.1 25

    6 10 38 0.2 60

    7 7 45 0.14 49

    8 5 50 0.1 40

    50 238

    Media aritmtica

    Mediana 50/2 = 25 Me = 5 Moda Mo = 6

  • 6. Considrense los siguientes datos: 3, 8, 4, 10, 6, 2. Se pide: 1. Calcular su media y su varianza. 2. Si todos los datos anteriores los multiplicamos por 3, cul ser la nueva

    media y desviacin tpica. Solucin:

    xi xi2

    2 4

    3 9

    4 16

    6 36

    8 64

    10 100

    33 229

    1

    2

  • 7. El resultado de lanzar dos dados 120 veces viene dado por la tabla:

    Sumas 2 3 4 5 6 7 8 9 10 11 12

    Veces 3 8 9 11 20 19 16 13 11 6 4

    1. Calcular la media y la desviacin tpica. 2. Hallar el porcentaje de valores comprendidos en el intervalo (x , x + ). Solucin:

    xi fi xi fi xi2

    fi

    2 3 6 12

    3 8 24 72

    4 9 36 144

    5 11 55 275

    6 20 120 720

    7 19 133 931

    8 16 128 1024

    9 13 117 1053

    10 11 110 1100

    11 6 66 726

    12 4 48 576

    120 843 6633

  • 1

    2 x = 4.591 x + = 9.459 Los valores comprendidos en el intervalo (4.591, 9.459) son los correspondientes a las sumas de 5, 6, 7, 8 y 9. 11 + 20 + 19 + 16 + 13 = 79

    8. Las alturas de los jugadores de un equipo de baloncesto vienen dadas por la tabla:

    Altura [170, 175)

    [175, 180)

    [180, 185)

    [185, 190)

    [190, 195)

    [195, 2.00)

    N de jugadores

    1 3 4 8 5 2

    Calcular: 1. La media. 2. La mediana. 3. La desviacin tpica. 4. Cuntos jugadores se encuentran por encima de la media ms una desviacin tpica?

  • Solucin:

    xi fi Fi xi fi xi2

    fi

    [1.70, 1.75) 1.725 1 1 1.725 2.976

    [1.75, 1.80) 1.775 3 4 5.325 9.453

    [1.80, 1.85) 1.825 4 8 7.3 13.324

    [1.85, 1.90) 1.875 8 16 15 28.128

    [1.90, 1.95) 1.925 5 21 9.625 18.53

    [1.95, 2.00) 1.975 2 23 3.95 7.802

    23 42.925 80.213

    Media

    Mediana

    Desviacin tpica

    x + = 1.866+ 0.077 = 1.943

  • Este valor pertenece a un percentil que se encuentra en el penltimo intervalo.

    Slo hay 3 jugadores por encima de x + .

    9. Los resultados al lanzar un dado 200 veces vienen dados por la siguiente tabla:

    1 2 3 4 5 6

    fi a 32 35 33 b 35

    Determinar a y b sabiendo que la puntuacin media es 3.6. Solucin:

  • xi fi xi fi

    1 a a

    2 32 64

    3 35 125

    4 33 132

    5 b 5b

    6 35 210

    135 + a + b 511 + a + 5b

    a = 29 b = 36

    10. El histograma de la distribucin correspondiente al peso de 100 alumnos de Bachillerato es el siguiente:

  • 1. Formar la tabla de la distribucin. 2. Si Andrs pesa 72 kg, cuntos alumnos hay menos pesados que l? 3. Calcular la moda. 4. Hallar la mediana. 5. A partir de que valores se encuentran el 25% de los alumnos ms pesados? Solucin:

  • xi fi Fi

    [60,63 ) 61.5 5 5

    [63, 66) 64.5 18 23

    [66, 69) 67.5 42 65

    [69, 72) 70.5 27 92

    [72, 75) 73.5 8 100

    100

    5 + 18 + 42 + 27 = 92 alumnos ms ligeros que Andrs. Moda

    Mediana

    El valor a partir del cual se encuentra el 25% de los alumnos ms pesados es el cuartil tercero.

  • 11. De esta distribucin de frecuencias absolutas acumuladas, calcular:

    Edad Fi

    [0, 2) 4

    [2, 4) 11

    [4, 6) 24

    [6, 8) 34

    [8, 10) 40

    1. Media aritmtica y desviacin tpica. 2. Entre qu valores se encuentran las 10 edades centrales? 3. Representar el polgono de frecuencias absolutas acumuladas. Solucin:

    xi fi Fi xi fi xi2

    fi

    [0, 2) 1 4 4 4 4

    [2, 4) 3 7 11 21 63

    [4, 6) 5 13 24 65 325

    [6, 8) 7 10 34 70 490

    [8, 10) 9 6 40 54 486

    40 214 1368

  • Media y desviacin tpica

    2

    Los 10 alumnos representan el 25% central de la distribucin.

    Debemos hallar P37.5 y P62.5.

    Las 10 edades centrales estn en el intervalo: [4.61, 6.2].

  • Polgono de frecuencias

    12. Una persona A mide 1.75 m y reside en una ciudad donde la estatura media es de 1.60 m y la desviacin tpica es de 20 cm. Otra persona B mide 1.80 m y vive en una ciudad donde la estatura media es de 1.70 m y la desviacin tpica es de 15 cm. Cul de las dos ser ms alta respecto a sus conciudadanos? Cul de las dos ser ms alta respecto a sus conciudadanos? Solucin:

    La persona A es ms alta respecto a sus conciudadanos que la persona B.

  • 13. Un profesor ha realizado dos tests a un grupo de 40 alumnos, obteniendo los siguientes resultados: para el primer test la media es 6 y la desviacin tpica 1.5. Para el segundo test la media es 4 y la desviacin tpica 0.5. Un alumno obtiene un 6 en el primero y un 5 en el segundo. En relacin con el grupo, en cul de los dos tests obtuvo mejor puntuacin? Solucin:

    En el segundo test consigue mayor puntuacin.

    14 La asistencia de espectadores a las 4 salas de un cine un determinado da fue de 200, 500, 300 y 1000 personas. 1. Calcular la dispersin del nmero de asistentes. 2. Calcular el coeficiente de variacin. 3. Si el da del espectador acuden 50 personas ms a cada sala, qu efecto tendra sobre la dispersin? Desviacin tpica

    Coeficiente de variacin

  • Si todas las salas tienen un incremento de 50 personas, la media aritmtica tambin se ve incrementada en 50 personas. La desviacin tpica no vara, ya que sumamos la misma cantidad a cada dato de la serie.

    La dispersin relativa es menor en el segundo caso.

  • UNIDAD II

    EJERCICIOS Y SOLUCIONES ESTADISTICAS

    1. Problemas de contraste de hiptesis 2. Ejercicios de cuartiles 3. Ejercicios de deciles 4. Ejercicios de desviacin media 5. Ejercicios de desviacin tpica 6. Ejercicios de frecuencias 7. Problemas de inferencia estadstica 8. Ejercicios de la media aritmtica 9. Ejercicios de la mediana 10. Ejercicios de la moda 11. Ejercicios de percentiles 12. Ejercicios de tablas estadsticas 13. Ejercicios de variables estadsticas 14. Ejercicios de la varianza 15. Ejercicios de distribuciones bidimensionales

  • PROBLEMAS DE CONTRASTE DE HIPOTESIS

    Inferencia estadstica Estudia como sacar conclusiones generales para toda la poblacin a partir del estudio de una muestra, y el grado de fiabilidad o significacin de los resultados obtenidos.

    MUESTREO PROBABILSTICO Consiste en elegir una muestra de una poblacin al azar. Podemos distinguir varios tipos de muestreo: Muestreo aleatorio simple Para obtener una muestra, se numeran los elementos de la poblacin y se seleccionan al azar los (n) elementos que contiene la muestra. Muestreo aleatorio sistemtico Se elige un individuo al azar y a partir de l, a intervalos constantes, se eligen los dems hasta completar la muestra. Por ejemplo si tenemos una poblacin formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de seleccin que ser igual a 100/25 = 4. A continuacin elegimos el elemento de arranque, tomando aleatoriamente un nmero entre el 1 y el 4, y a partir de l obtenemos los restantes elementos de la muestra. 2, 6, 10, 14,..., 98

  • Muestreo aleatorio estratificado Se divide la poblacin en clases o estratos y se escoge, aleatoriamente, un nmero de individuos de cada estrato proporcional al nmero de componentes de cada estrato. En una fbrica que consta de 600 trabajadores queremos tomar una muestra de 20. Sabemos que hay 200 trabajadores en la seccin A, 150 en la B, 150 en la C y 100 en la D.

    Un muestreo puede hacerse con o sin reposicin, y la poblacin de partida puede ser infinita o finita. En todo nuestro estudio vamos a limitarnos a una poblacin de partida infinita o a muestreo con reposicin. Si consideramos todas las posibles muestras de tamao (n) en una poblacin, para cada muestra podemos calcular un estadstico (media, desviacin tpica, proporcin,...) que variar de una a otra. As obtenemos una distribucin del estadstico que se llama distribucin muestral.

  • INTERVALOS CARACTERSTICOS

    P[ - k < x < + k] = p Hallar el intervalo caracterstico de una distribucin normal N (0, 1) correspondiente a la probabilidad p = 0.9.

    El nivel de confianza (p) se designa mediante 1 - . El nivel de significacin se designa mediante . El valor crtico (k) como z /2. P (Z>z /2) = /2 P [-z /2 < z < z /2] = 1-

  • Valores crticos

    1 - /2 z /2

    0.90 0.05 1.645

    0.95 0.025 1.96

    0.99 0.005 2.575

    En una distribucin N (, ) el intervalo caracterstico correspondiente a una probabilidad p = 1 - es: ( - z /2 , + z /2 )

    1 - /2 z /2 Intervalos caractersticos

    0.90 0.05 1.645 ( - 1.645 , + 1.645 )

    0.95 0.025 1.96 ( - 1.96 , + 1.96 )

    0.99 0.005 2.575 ( - 2.575 , + 2.575 )

    TEOREMA CENTRAL DEL LMITE

    Si una poblacin tiene media y desviacin tpica , y tomamos muestras de

    tamao n (n>30, cualquier tamao si la poblacin es "normal"), las medias de estas muestras siguen aproximadamente la distribucin:

  • Consecuencias: 1. Permite averiguar la probabilidad de que la media de una muestra concreta est en un cierto intervalo. 2. Permite calcular la probabilidad de que la suma de los elementos de una muestra est, a priori, en un cierto intervalo.

    3. Inferir la media de la poblacin a partir de una muestra. Las bolsas de sal envasadas por una mquina tienen = 500 g y = 35 g. Las bolsas se empaquetaron en cajas de 100 unidades. 1. Calcular la probabilidad de que la media de los pesos de las bolsas de un paquete sea menor que 495 g.

    2. Calcular la probabilidad de que una caja 100 de bolsas pese ms de 51 kg.

  • ESTIMACIN DE PARMETROS Es el procedimiento utilizado para conocer las caractersticas de un parmetro poblacional, a partir del conocimiento de la muestra. Con una muestra aleatoria, de tamao n, podemos efectuar una estimacin de un valor de un parmetro de la poblacin; pero tambin necesitamos precisar un: Intervalo de confianza Se llama as a un intervalo en el que sabemos que est un parmetro, con un nivel de confianza especfico. Nivel de confianza Probabilidad de que el parmetro a estimar se encuentre en el intervalo de confianza. Error de estimacin admisible Que estar relacionado con el radio del intervalo de confianza.

    ESTIMACIN DE LA MEDIA DE UNA POBLACIN

    Intervalo de confianza para la media

    El intervalo de confianza, para la media de una poblacin, con un nivel de confianza de 1- , siendo x la media de una muestra de tamao n y la desviacin tpica de la poblacin, es:

  • El error mximo de estimacin es:

    Cuanto mayor sea el tamao de la muestra, n, menor es el error. Cuanto mayor sea el nivel de confianza, 1-, mayor es el error. Tamao de la muestra

    Si aumentamos el nivel de confianza, aumenta el tamao de la muestra. Si disminuimos el error, tenemos que aumentar el tamao de la muestra.

    El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes sigue una ley normal con media desconocida y desviacin tpica 0,5 minutos. Para una muestra aleatoria de 25 clientes se obtuvo un tiempo medio de 5,2 minutos. 1. Calcula el intervalo de confianza al nivel del 95% para el tiempo medio que se tarda en cobrar a los clientes.

  • 2. Evidencia el tamao muestral necesario para estimar dicho tiempo medio con un el error de 0,5 minutos y un nivel de confianza del 95%.

    ESTIMACIN DE UNA PROPORCIN

    Si en una poblacin, una determinada caracterstica se presenta en una

    proporcin p, la proporcin p', de individuos con dicha caracterstica en las

    muestras de tamao n, se distribuirn segn:

    Intervalo de confianza para una proporcin

    El error mximo de estimacin es:

    En una fbrica de componentes electrnicos, la proporcin de componentes finales defectuosos era del 20%. Tras una serie de operaciones e inversiones destinadas a mejorar el rendimiento se analiz una muestra aleatoria de 500 componentes, encontrndose que 90 de ellos eran defectuosos. Qu nivel de

  • confianza debe adoptarse para aceptar que el rendimiento no ha sufrido variaciones? p = 0.2 q = 1 - p =0.8 p'= 90/ 500 = 0.18 E = 0.2 - 0.18 = 0.02

    P (z/2 > 1.12) = 1 P (z/2 1.12) = 1 0.8686 = 0.1314 0.8686 - 0.1314 = 0.737 Nivel de confianza: 73.72%

    CONTRASTES DE HIPTESIS

    Hiptesis estadsticas Un test estadstico es un procedimiento para, a partir de una muestra aleatoria y significativa, extraer conclusiones que permitan aceptar o rechazar una hiptesis previamente emitida sobre el valor de un parmetro desconocido de una poblacin. La hiptesis emitida se designa por H0 y se llama hiptesis nula. La hiptesis contraria se designa por H1 y se llama hiptesis alternativa.

  • Contrastes de hiptesis 1. Enunciar la hiptesis nula H0 y la alternativa H1.

    Bilateral H0=k H1 k

    Unilateral H0 k H1 < k

    H0 k H1> k

    2. A partir de un nivel de confianza 1 - o el de significacin . Determinar:

    El valor z/2 (bilaterales), o bien z (unilaterales)

    La zona de aceptacin del parmetro muestral (x o p'). 3. Calcular: x o p', a partir de la muestra. 4. Si el valor del parmetro muestral est dentro de la zona de la aceptacin, se acepta la hiptesis con un nivel de significacin . Si no, se rechaza.

    CONTRASTE BILATERAL

    Se presenta cuando la hiptesis nula es del tipo H0: = k (o bien H0: p = k) y la hiptesis alternativa, por tanto, es del tipo H1: k (o bien H1: p k).

  • El nivel de significacin se concentra en dos partes (o colas) simtricas

    respecto de la media. La regin de aceptacin en este caso no es ms que el correspondiente intervalo de probabilidad para x o p', es decir:

    O bien:

    Se sabe que la desviacin tpica de las notas de cierto examen de Matemticas es 2,4. Para una muestra de 36 estudiantes se obtuvo una nota media de 5,6. Sirven estos datos para confirmar la hiptesis de que la nota media del examen fue de 6, con un nivel de confianza del 95%? 1. Enunciamos las hiptesis nula y alternativa: H0: = 6 La nota media no ha variado. H1: 6 La nota media ha variado. 2. Zona de aceptacin Para = 0.05, le corresponde un valor crtico: z/2 = 1.96. Determinamos el intervalo de confianza para la media: (6-1,96 0,4; 6+1,96 0,4) = (5,22; 6,78) 3. Verificacin. Valor obtenido de la media de la muestra: 5,6.

  • 4. Decisin Aceptamos la hiptesis nula H0, con un nivel de significacin del 5%.

    CONTRASTE UNILATERAL

    Caso 1 La hiptesis nula es del tipo H0: k (o bien H0: p k). La hiptesis alternativa, por tanto, es del tipo H1: < k (o bien H1: p < k).

    Valores crticos

    1 - z

    0.90 0.10 1.28

    0.95 0.05 1.645

    0.99 0.01 2.33

    El nivel de significacin se concentra en una parte o cola. La regin de aceptacin en este caso ser:

  • O bien:

    Un socilogo ha pronosticado, que en una determinada ciudad, el nivel de abstencin en las prximas elecciones ser del 40% como mnimo. Se elige al azar una muestra aleatoria de 200 individuos, con derecho a voto, 75 de los cuales estaran dispuestos a votar. Determinar con un nivel de significacin del 1%, si se puede admitir el pronstico. 1. Enunciamos las hiptesis nula y alternativa: H0 : p 0.40 La abstencin ser como mnimo del 40%. H1 : p < 0.40 La abstencin ser como mximo del 40%; 2. Zona de aceptacin Para = 0.01, le corresponde un valor crtico: z = 2.33. Determinamos el intervalo de confianza para la media:

    3. Verificacin.

    4. Decisin Aceptamos la hiptesis nula H0. Podemos afirmar, con un nivel de significacin del 1%, que la La abstencin ser como mnimo del 40%.

  • Caso 2 La hiptesis nula es del tipo H0: k (o bien H0: p k). La hiptesis alternativa, por tanto, es del tipo H1: > k (o bien H1: p > k).

    El nivel de significacin se concentra en la otra parte o cola. La regin de aceptacin en este caso ser:

    O bien:

    Un informe indica que el precio medio del billete de avin entre Canarias y Madrid es, como mximo, de 120 con una desviacin tpica de 40 . Se toma

    una muestra de 100 viajeros y se obtiene que la media de los precios de sus billetes es de 128 . Se puede aceptar, con un nivel de significacin igual a 0,1, la afirmacin de partida?

  • 1. Enunciamos las hiptesis nula y alternativa: H0: 120 H1: > 120 2. Zona de aceptacin Para = 0.1, le corresponde un valor crtico: z = 1.28. Determinamos el intervalo de confianza:

    3. Verificacin. Valor obtenido de la media de la muestra: 128 . 4. Decisin No aceptamos la hiptesis nula H0. Con un nivel de significacin del 10%.

    ERRORES DE TIPO I Y TIPO II Error de tipo I. Se comete cuando la hiptesis nula es verdadera y, como consecuencia del contraste, se rechaza. Error de tipo II. Se comete cuando la hiptesis nula es falsa y, como consecuencia del contraste se acepta.

  • H0 Verdadera Falsa

    Aceptar Decisin correcta Probabilidad = 1 -

    Decisin incorrecta: ERROR DE TIPO II

    Rechazar ERROR DE TIPO I Probabilidad =

    Decisin correcta

    La probabilidad de cometer Error de tipo I es el nivel de significacin . La probabilidad de cometer Error de tipo II depende del verdadero valor del parmetro. Se hace tanto menor cuanto mayor sea n.

    EJERCICIOS Y SOLUCIONES DE INFERENCIA ESTADSTICA

    1. En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de actividades de ocio que gustan ms a sus habitantes. Para ello van a ser encuestados 100 individuos elegidos al azar.

    1. Explicar qu procedimiento de seleccin sera ms adecuado utilizar: muestreo con o sin reposicin. Por qu?

    2. Como los gustos cambian con la edad y se sabe que en el barrio viven 2.500 nios, 7.000 adultos y 500 ancianos, posteriormente se decide elegir la muestra anterior utilizando un muestreo estratificado. Determinar el tamao muestral correspondiente a cada estrato.

    Solucin: 1. Todas las frmulas que hemos estudiado de teora del muestreo y de inferencia estadstica presuponen que las poblaciones son infinitas o que, si no lo son, el muestreo aleatorio se realiza con reposicin.

  • 2. Para efectuar un muestreo aleatorio estratificado, ser necesario que la muestra refleje fielmente los estratos existentes en la poblacin; deben considerarse los estratos formados por: nios, adultos y ancianos. El tamao muestral de cada estrato deber ser proporcional a la presencia del mismo en la poblacin original: Poblacin total: 2500 + 7000 + 500 = 10 000.

    2. Sea la poblacin de elementos: {22,24, 26}. 1. Escriba todas las muestras posibles de tamao dos, escogidas mediante muestreo aleatorio simple. 2. Calcule la varianza de la poblacin. 3. Calcule la varianza de las medias muestrales. Solucin: 1. M1 = {22, 24}, M1 = {22, 26}, M1 = {24, 26}

    2.

  • 3.

    3. La variable altura de las alumnas que estudian en una escuela de idiomas sigue una distribucin normal de media 1,62 m y la desviacin tpica 0,12 m. Cul es la probabilidad de que la media de una muestra aleatoria de 100 alumnas sea mayor que 1.60 m? Solucin:

    4. Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han encontrado los siguientes precios: 95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110. Suponiendo que los precios de este producto se distribuyen segn una ley normal de varianza 25 y media desconocida: 1. Cul es la distribucin de la media muestral?

  • 2. Determine el intervalo de confianza, al 95%, para la media poblacional. Solucin:

    95% z/2 =1.96

    (104 - 1.96 1. 25, 104 + 1.9 1.25) = (101.55; 106.45)

    5. La media de las estaturas de una muestra aleatoria de 400 personas de una ciudad es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es una variable aleatoria que sigue una distribucin normal con varianza 2 = 0,16 m2. 1. Construye un intervalo, de un 95% de confianza, para la media de las estaturas de la poblacin. 2. Cul sera el mnimo tamao muestral necesario para que pueda decirse que la verdadera media de las estaturas est a menos de 2 cm de la media muestral, con un nivel de confianza del 90%? Solucin:

    n=400 x =1.75 =0.4

    1- =0.95 z /2=1.96

    (1.75 1.96 0.4/20) (1.7108, 1.7892)

  • La muestra debe tener al menos 1083 personas.

    6. Las ventas mensuales de una tienda de electrodo