estadistica i - libro
Post on 10-Aug-2015
116 Views
Preview:
TRANSCRIPT
3
ESTADÍSTICA BÁSICA
PARA NEGOCIOS
Conceptos y aplicaciones
Volumen I: Estadística descriptiva y Probabilidad básica.
Marco Luiz García
4
5
Prefacio
Las generaciones anteriores a la era de las Tecnologías de la Información TI, cre-
cimos con la afirmación de que los cursos de estadística eran complejos, aburridos,
incomprensibles, tanto que eran verdaderas pruebas de resistencia, tenacidad y
frustración. Los catedráticos de la materia se concentraban más en explicar los
modelos matemáticos que en el uso y aplicación de los resultados.
El propósito de esta edición es hacer que la Estadística sea un campo interesante de
aplicación práctica en diversos aspectos de la realidad, especialmente en el área de
negocios. Acorde con el propósito, el libro pretende ser una herramienta de apren-
dizaje y práctica, utilizando los paquetes de software estadísticos que realicen los
complicados y laboriosos cálculos matemáticos. Específicamente se orientará al
uso de la hoja de cálculo de Excel y del paquete estadístico SPSS, es decir, se trata
de combinar los últimos avances de la Estadística y la Tecnología de la informa-
ción.
Se pretende que el aprendizaje de los estudiantes sea a través de diferentes proble-
mas de la vida real, eliminando los ejemplos inventados o acontecidos en otros
contextos que nada tienen que ver con nuestra realidad. En un intento de ser más
pragmáticos, se omiten algunos temas que en el área de negocios raramente se uti-
lizan y que sólo confunden y desesperan al estudiante.
Es tiempo de terminar con la anacrónica manera de enseñar estadística, que enfati-
za sobre el aprendizaje de modelos matemáticos y fórmulas de cálculo que hostigan
a los estudiantes y los distrae del verdadero propósito del uso de la Estadística:
proporcionar información para la toma de decisiones.
Uno de los principales enfoques del libro es preservar y enfatizar sobre la distin-
ción entre los parámetros de la población y los estadísticos de la muestra. La dis-
tinción es básica para el pleno entendimiento del uso de la Estadística como méto-
do para la toma de decisiones.
6
Acerca del contenido, se considera de suma importancia el aprendizaje de la Es-
tadística descriptiva porque, además de ser una técnica de representación descripti-
va de cualquier fenómeno, se considera como prerrequisito para entender y aplicar
los conceptos y procesos de la Estadística inferencial.
Más que el desarrollo de modelos y fórmulas matemáticas, se considera que la
Estadística es un lenguaje que se puede leer e interpretar, por ello se agrega en la
parte final un apartado de apéndices que contiene: un repaso a las matemáticas
básicas, un glosario de símbolos y términos generalmente aceptados y una lista de
fórmulas.
Los ejercicios al final de cada capítulo son extremadamente importantes para que el
estudiante pueda relacionar el marco teórico con la aplicación práctica, al tiempo
que el estudiante descubre la utilidad del uso del método estadístico en el campo
profesional en el que va a incursionar.
El propósito último del contenido es que el estudiante sepa seleccionar las herra-
mientas estadísticas apropiadas para la obtención y procesamiento de datos y cómo
interpretar y entender los resultados de su esfuerzo.
7
Presentación
Estadística Básica para Negocios, Conceptos y Aplicaciones, volumen I Estadísti-
ca Descriptiva y Probabilidad Básica del Mtro. Marco Luiz García ve la luz bajo
los mejores auspicios. Se trata de una obra en la que el autor aborda el estudio sis-
temático de la estadística y su aplicación práctica en los negocios en época moder-
na, como lo anuncia el título que es fruto de su larga experiencia como docente,
consultor particular y estudioso de la materia objeto de este libro.
Cuando la teoría y la praxis, además del estudio e investigación se conjugan, nece-
sariamente da el nacimiento a un producto de calidad que cumple diversos objeti-
vos, como lo señala el autor. En primer término, se logra una meta preestablecida
que implica muchas horas de trabajo, investigación, reflexión, manteniendo la
perspectiva hacia un propósito definido. De igual forma, esta obra del Mtro. Luiz
García, está diseñada para utilizarse como libro de texto en la materia de estadística
que imparte desde hace varios años en la Unidad Académica de Derecho y Cien-
cias Sociales “Lic. Francisco Hernández García” de la Universidad Autónoma de
Tamaulipas, atendiendo una necesidad inaplazable de dotar al alumno de un ins-
trumento de estudio integral, didáctico, económico, con ejemplos y sistemas mo-
dernos, que esgrimiendo la informática y el avance tecnológico de nuestros días, lo
convierte en un texto fundamental para aprender los conceptos básicos de la es-
tadística y su utilización en el diagnóstico y planeación de los negocios.
Es de advertirse, sin necesidad de ser un especialista en la materia, que el autor
utiliza un lenguaje técnico preciso, despojado de información innecesaria y que por
lo mismo se traduce en un material sustantivo para la enseñanza de la materia es-
tadística. Contiene el libro diez capítulos en los que abarca el contenido básico que
permite al estudiante entrar en contacto de una manera más clara y directa con la
enseñanza de esta disciplina, y además del basamento teórico le ofrece aplicaciones
prácticas para su debida utilización.
8
En cualquier área del conocimiento, es bienvenida una publicación como el que
hoy ofrece el Mtro. Luiz García, del que seguramente abrevarán muchas genera-
ciones de estudiantes que lo adoptarán como un referente obligado en la didáctica
de esta importante materia, para sistematizar el análisis y la toma de decisiones en
la marcha de la empresa.
Lic. Ramiro González Sosa
Abogado General de la UAT
9
Agradecimientos.
De manera muy especial quiero manifestar mi agradecimiento al Lic. Carlos Hino-
josa Cantú por darme la oportunidad de impartir las materias de Estadística Des-
criptiva y Estadística Inferencial que forman parte del pensum de la licenciatura de
Negocios Internacionales, recién creada en la UA de Derecho y Ciencias Sociales
de la Universidad Autónoma de Tamaulipas. Su encargo me motivó a diseñar
apuntes que fueran entendidos por los estudiantes que tienen formación preparato-
ria en las áreas sociales.
De igual manera y con la misma intensidad expreso mi agradecimiento al matemá-
tico y experto en estadística, Cristóbal José Rojas Montoya, actual Delegado Pro-
vincial del Instituto Nacional de Estadística y Delegado Provincial de la Oficina del
Censo Electoral en Salamanca, España, a quien conocí circunstancialmente en un
viaje que realicé a ese maravilloso país. Abusando de su amabilidad le pedí que
revisara el contenido del libro y lo hizo en una forma profesional y diligente. Por
considerar importante sus observaciones, me permito citar textualmente uno de sus
comentarios.
“Digo esto porque da la impresión que has hecho mucho hincapié en
explicar las cosas de una forma muy sencilla y simple, es decir, para
personas con poca preparación matemática. Si esto es así, me parece
estupenda la línea que has utilizado en la elaboración del texto. Si los
alumnos tienen cierta base matemática y/o estadística, el texto les va a
parecer muy simple, porque lo van a entender a la primera. Esto, que
parece algo malo, puede ser justo lo que tú persigues con la creación
de este libro. Así que puede ser estupendo según tus objetivos.”
Este comentario, viniendo de un experto, es bastante halagador para los
propósitos del libro.
10
11
Contenido Resumido
CAPÍTULO 1. El método estadístico.
CAPÍTULO 2. Elaboración de estudios estadísticos.
CAPÍTULO 3. Organización y presentación gráfica de datos.
CAPÍTULO 4. Características de la distribución de datos
numéricos.
CAPÍTULO 5. Uso de paquetes estadísticos.
CAPÍTULO 6. Presentación de datos categóricos en tablas y
diagramas.
CAPÍTULO 7. Probabilidad básica.
CAPÍTULO 8. Modelos de distribución de probabilidad para
variables aleatorias discretas.
CAPÍTULO 9. La distribución normal.
CAPÍTULO 10. Análisis de series.
12
13
Contenido detallado Prefacio
1. El método estadístico…………………………................... 17 1.1 Introducción.
1.2 Definición del término “Estadística”
1.3 División de la Estadística
1.4 Términos comúnmente usados en Estadística
1.5 Método Estadístico
1.6 La Estadística y el uso de programas de cómputo.
1.7 Resumen.
1.8 Términos clave
1.9 Problemas de repaso del capítulo.
1.10 Mapa conceptual del término Estadística.
2. Elaboración de estudios estadísticos….………….............. 37 2.1 Introducción
2.2 Tipos de estudios.
2.3 La obtención de datos.
2.4 Tipos de datos, niveles de medición y escalas de medición.
2.5 Definición operacional.
2.6 Realización de encuestas.
2.7 Tipo de muestreo
2.8 Uso de una tabla de números aleatorios.
2.9 Errores comunes en la aplicación de una encuesta
2.10 Resumen.
2.11 Términos clave.
2.12 Problemas de repaso del capítulo.
2.12 Mapa conceptual de los estudios estadísticos.
14
3. Organización y presentación gráfica de datos numéri-
cos…………………………………………………. 81 3.1 Introducción.
3.2 Tabla de datos originales sin orden y ordenados.
3.3 Diagrama de tallo y hojas.
3.4 Tabulación de datos numéricos: distribución de frecuencia.
3.5 Histograma o diagrama de distribución de frecuencias.
3.6 Polígono de frecuencias.
3.7 Tabla y polígono de porcentaje acumulado.
3.8 Diagrama de Pareto.
3.9 Resumen.
3.10 Términos clave.
3.11 Problemas de repaso del capítulo.
3.12 Mapa conceptual de organización y presentación de datos numéri-
cos.
4. Características de la distribución de datos numéricos……. 99 4.1 Introducción
4.2 Medidas de Posición de tendencia central.
4.3 Medidas de dispersión: varianza y desviación estándar.
4.4 Análisis de 5 puntos y gráfica de caja de sesgo.
4.5 Medidas de deformación.
4.6 Cálculo de mediciones descriptivas de la población.
4.7 Uso de la desviación estándar.
4.8 Resumen.
4.9 Términos clave.
4.10 Problemas de repaso del capítulo.
4.11 mapa conceptual de distribución de datos numéricos
5. Uso de paquetes estadísticos………………………………. 131 5.1 Introducción.
5.2 Edición de datos.
5.3 Captura de datos.
5.4 Obtención de resultados.
5.5 Definición de las variables de análisis.
15
5.6 Tabla de frecuencias.
6. Presentación de datos categóricos en tablas y diagramas… 143 6.1 Introducción.
6.2 Tabulación de datos categóricos.
6.3 Elección de la gráfica apropiada.
6.4 Tabla de contingencia o de datos cruzados.
7. Probabilidad básica……………………………….............. 155 7.1 Introducción. 7.2 Criterios de probabilidad: subjetivo y objetivo.
7.3 Espacio muestral y tipos de eventos.
7.4 Formas de examinar el espacio muestral.
7.5 Probabilidad simple y probabilidad conjunta.
7.6 Teorema de Bayes.
7.7 Principios fundamentales para enumerar.
7.8 Resumen.
7.9 Términos clave.
7.10 Problemas de repaso del capítulo.
7.11 Mapa conceptual de probabilidad.
8. Modelos de distribución de probabilidad para variables
aleatorias discretas…………………………….. 187 8.1 Introducción
8.2 Definición del concepto.
8.3 Valor esperado de una variable discreta.
8.4 Varianza y desviación estándar de una variable discreta.
8.5 Ejemplos:
8.6 Funciones de distribución de probabilidad discreta.
8.7 Distribución Binomial.
8.8 Características de la distribución binomial.
8.9 Distribución de Poisson.
8.10 Características de la función de la distribución de probabilidades
de Poisson.
8.11 Resumen.
16
8.12 Términos clave.
8.13 Problemas de repaso.
8.14 Mapa conceptual de modelos de distribución
9. La distribución normal……………………………………. 215 9.1 Introducción.
9.2 La función de densidad de probabilidad de una variable aleatoria
continua.
9.3 La distribución normal.
9.4 Propiedades de la distribución normal.
9.5 El modelo matemático.
9.6 Ejemplos.
9.7 Aplicaciones.
9.8 Uso de distribución normal como una aproximación a la distribu-
ción binomial o a la distribución de Poisson.
9.9 Resumen
9.10 Términos clave.
9.11 Problemas de repaso del capítulo.
9.12 Mapa conceptual de la distribución normal
10. Análisis de series…………………………………………... 237 10.1 Introducción
10.2 Construcción de números índice.
10.3 Análisis de patrones básicos
10.4 Métodos de estimación de las tendencias
10.5 Correlación
10.6 Mapa conceptual de análisis de series
Bibliografía 275
APÉNDICES 277
17
Capítulo 1
El método estadístico
*********************
Objetivo del
Capítulo
Presentar una visión general del con-
cepto de Estadística, su evolución y
aplicación, particularmente en el área
de negocios
18
19
1.1 Introducción
Si se le preguntara al hombre de la calle qué significa para él el término Estadística,
en la mayoría de los casos se obtendría respuestas como “Estadística es “hocus
pocus1 con números”. El significado anterior supone que los números manipulados
bajo ciertas normas pueden representar cualquier cosa que tengamos en mente, es
decir, es un lenguaje. O también podríamos escuchar decir que la Estadística es una
simple recolección de datos.
La palabra estadística a menudo nos trae a la mente imágenes de números apilados
en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muer-
tes, impuestos, poblaciones, ingresos, producción, control de calidad, deudas,
créditos y así, largamente podremos enumerar su aplicación en fenómenos natura-
les y en todas las actividades del hombre.
La Estadística es mucho más que números apilados y gráficas bonitas. Es una cien-
cia con tanta antigüedad como la escritura. La Estadística nos auxilia a construir
indicadores para la toma de decisiones, por lo tanto, se puede considerar como
auxiliar de todas las demás ciencias. La economía, la administración, la medicina,
1 hocus pocus: apócope de Hoc est corpus meum que los paganos, que no entendían latín, a través del tiem-po relacionaron con palabras mágicas que se decían durante la comunión y que se fue reduciendo a hocus pocus.
20
la biología, la ingeniería, la administración pública, las ciencias sociales, entre
otros, se basan fundamentalmente en la aplicación de la estadística.
En el área de negocios, la ausencia de estadísticas conlleva un caos generalizado,
deja a los administradores y ejecutivos sin información relevante que fundamente
la toma de decisiones en tiempos de incertidumbre.
Cada día de nuestra vida moderna está significado por datos estadísticos relaciona-
dos con el mercado de valores, el desempleo, la inflación, los datos deportivos, los
índices de accidentes, etc. El tema de la estadística moderna abarca la recolección,
presentación y caracterización de la información que contribuya tanto para el análi-
sis como para el proceso de toma de decisiones.
Al término del capítulo, el alumno podrá comprender:
1. El significado de la palabra “Estadística” y la aplicación del método es-
tadístico.
2. Comprender el significado de los diferentes términos estadísticos: pobla-
ción, muestra, dato, variable aleatoria, censo, encuesta, entre otros.
3. Apreciar la utilidad de los estudios enumerativos y analíticos.
4. Sabrá de la existencia de paquetes estadísticos de cómputo disponibles para
el cálculo de medición estadística, lo que facilita su uso sin profundizar el
conocimiento de los modelos matemáticos que los sustentan.
La evolución de la Estadística
La Estadística, como todas las ciencias, no surgió de improviso, sino mediante un
proceso largo de desarrollo y evolución, desde hechos de simple recolección de
datos hasta la diversidad y rigurosa interpretación que se da hoy en día. Así pues, el
origen de la Estadística se remonta a los comienzos de la historia y esto se sabe
tanto a través de crónicas, datos escritos, como de restos arqueológicos. Lo anterior
21
es explicable porque en ese tiempo se estaba recién formando la sociedad y era
algo inherente a la necesidad de saber cosas elementales como: cuántos habitantes
tiene la tribu, con cuántos bienes cuenta, cuántos esclavos, etc.
Históricamente el desarrollo de la Estadística moderna se debe a dos fenómenos
totalmente separados:
La necesidad del gobierno de conocer las características de su población
(número, edades, ingresos, producción, salud, educación, etc.) y,
el desarrollo de modelos matemáticos que representan la realidad y la pro-
babilidad del acontecer de fenómenos (sucesos).
Así, podemos señalar que en Roma, con su perfecta organización política, jurídica
y administrativa favoreció para el desarrollo de la Estadística. Una muestra es el
Censo que se realizaba cada 5 años y que tenía por objeto, no sólo saber el número
de habitantes, sino también su cantidad de bienes. Bajo el mandato de Servio Tulio,
éstos pasaron a ser base constitucional del gobierno. También en un inicio se lleva-
ba un registro de nacimientos y de fallecimientos; pero fue bajo Antoninos que la
declaración de nacimientos adquirió una verdadera institución legal que era necesa-
ria hacerla ante el "prefecto del erario" en el templo de Saturno y no después de 30
días de nacimiento. Con la caída del Imperio Romano las estadísticas se pierden en
Europa, floreciendo más, bajo la civilización árabe.
A finales del siglo XVII, en su obra Political Arithmetick escrita probablemente en
1672 y publicada en 1690, Sir William Petty expone un punto de vista completa-
mente nuevo para la investigación económica. “En lugar –dice- de usar sólo pala-
bras comparativas y superlativas, y argumentos intelectuales, he tomado el cami-
no…. de expresarme en términos de Número, Peso y Medida; de usar sólo argu-
mentos de sentido y de tomar en cuenta únicamente las causas que tengan funda-
mentos visibles en la naturaleza” (Roll, 1969: 92). Petty no sólo enseñó con su
práctica y preceptos cómo se deben de recopilar y manejar los datos, sino que puso
22
en su debido lugar la investigación de los hechos en relación con el análisis teórico,
ante esta contundente evidencia de primacía, se puede afirmar que no sólo es el
fundador de la economía política sino también del uso de la estadística como
método de investigación.
Petty es mejor conocido por sus escritos de historia económica y estadística previos
al trabajo de Adam Smith. Sus trabajos más famosos son los de tipo demográfico,
Aritmética política y títulos similares; se trata de los primeros intentos de entender
las relaciones entre la población y la economía. Fue el creador del termino pleno
empleo y formulador de la Ley de Petty, que establece que el progreso de una eco-
nomía se aprecia fundamentalmente a través del creciente volumen de la población
que se dedica a los servicios.
La formulación matemática de la teoría de la probabilidad se da en la investigación
de juegos de azar en la época del Renacimiento. Con las aportaciones del matemá-
tico francés Blaise Pascal y de Chevalier de Mere se dieron las bases para el cálcu-
lo de la probabilidad. Estos y otros matemáticos como Bernoulli, DeMoivre, y
Gauss fueron los precursores de la estadística inferencial. Sin embargo, no fue has-
ta principios del siglo XX que los estudiosos como Pearson, Fisher, Gosset, Ney-
man, Wald y Tukey sentaron las bases de desarrollo de los métodos de la estadísti-
ca inferencial que actualmente se aplica en los diversos campos de la investigación
en nuestra actualidad.
La evolución del uso de la Estadística se puede distinguir en tres etapas:
1.- Primera Fase: Los Censos.
2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Polí-
tica.
3.- Tercera Fase: Estadística y Cálculo de Probabilidades.
23
La Estadística que conocemos hoy en día debe gran parte de su realización a los
trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las proba-
bilidades, con la cual se adhirió a las ciencias formales como una ciencia aliada.
Fue Godofredo Achenwall, profesor de la Universidad de Gotinga, quien acuñó en
1760 la palabra estadística, que extrajo al parecer del término italiano statista (esta-
dista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado
más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra
parte, en el término latino status, que significa estado o situación; esta etimología
aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido
cuantitativo de las más variadas situaciones.
Los progresos más recientes en el campo de la Estadística se refieren al ulterior
desarrollo del cálculo de probabilidades, particularmente en la rama denominada
indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido
en la Física como resultado de las investigaciones atómicas y que este principio se
juzga aplicable tanto a las ciencias sociales como a las físicas.
Es por esta razón que la estadística se presenta como un poderoso auxiliar de las
distintas ciencias y técnicas; al provocar en éstas, la investigación de las leyes de
comportamiento de ciertas variables que intervienen en un fenómeno cuyo valor,
gracias a la Estadística se han puesto de manifiesto.
Uso de la Estadística en el área de negocios
Contabilidad
Seleccionar muestras de registros contables para fines de auditorías.
Para comprender las tendencias de costos en la contabilidad.
Finanzas
24
Para analizar las tendencias de las medidas financieras de la empresa, del
mercado financiero y del mercado bursátil.
Para desarrollar modelos de pronóstico de éstas medidas.
Producción
Para controlar y mejorar los estándares de calidad del producto.
Para controlar y mejorar la productividad de la planta.
Para conocer el nivel de desempeño.
Mercadotecnia
Para conocer el mercado potencial del producto y definir el mercado obje-
tivo.
Para conocer las fuerzas demográficas y económicas del entorno de la em-
presa.
Para definir estrategias de mercado: publicidad, precio, diferenciación de
producto, puntos de venta, con el propósito de incrementar las ventas y la
rentabilidad.
Para conocer los gustos, preferencias y demanda del consumidor.
Para segmentar el mercado por área geográfica, tipo de mercado, por tipo
de cliente.
La Estadística y la competitividad empresarial
En los albores del siglo XXI, el predominio de la economía global (producción,
distribución y consumo de bienes y servicios a nivel internacional) obliga a las
empresas a poner mayor énfasis en la competitividad de sus productos servicios.
25
Se entiende por competitividad a la capacidad de las empresas de producir bienes y
servicios en forma eficiente (con costos decrecientes y calidad creciente) y eficaz,
haciendo que sus productos sean útiles y atractivos, tanto dentro como fuera del
país. Para ello, es necesario lograr niveles elevados de calidad y productividad que
permitan operar con una rentabilidad meritoria.
La competitividad exige que las empresas conozcan toda la información -interna y
externa- relacionada con su negocio, como es la información sobre clientes, pro-
veedores, estándares de calidad, costos, producción, características de la materia
prima, características de los sistemas de logística, características de la competencia,
etc. Parte fundamental de la práctica gerencial que procura la competitividad es la
aplicación de ciertos métodos estadísticos y su adecuada interpretación de resulta-
dos.
La interpretación adecuada de los resultados incluye el reconocimiento de que los
datos son substancialmente variables y que su pertinencia y empleo permiten tomar
decisiones para mejorar un estado actual, sea sobre producción, innovación, mejo-
ramiento de la calidad, diferenciación del producto, mejoramiento de costos, aten-
ción a nuevos clientes, atención a nuevos mercados, mejoramiento de precios, etc.
Datos gubernamentales, publicaciones gremiales o especializadas)
Con el propósito de coordinar los Sistemas Nacionales Estadístico y de Informa-
ción Geográfica, y brindar el servicio público de información estadística y geográ-
fica sobre el territorio, la población y la economía de México, el gobierno federal
cuenta con el Instituto Nacional de Estadística, Geografía e Informática (INEGI),
órgano desconcentrado de la Secretaría de Hacienda y Crédito Público, con auto-
nomía técnica y administrativa. El antecedente más antiguo fue la Dirección Gene-
ral de Estadística (DGE) la cual fue creada en 1882. En 1895 se levantó el primer
Censo de Población.
26
INEGI genera estadísticas de cobertura nacional, regional, estatal y local de temas
como: estadísticas sociodemográficas, estadísticas económicas, estadísticas de
género, estadísticas ambientales, estadísticas de ciencia y tecnología. Además de su
requerimiento constitucional de realizar los censos de población y vivienda, agro-
pecuarios y económicos, el INEGI tiene que ver con la realización de encuestas
referidas a la población, al gasto familiar, a la vivienda, fabricación, transporte,
entre otros, y cada cierto tiempo realiza estudios sobre el índice de precios.
Además de información estadística creada por las instituciones gubernamentales,
existen varias publicaciones especializadas en datos industriales o comerciales
específicos creadas por organizaciones gremiales, empresas especializadas en el
sector, instituciones de educación o investigación, medios de comunicación.
1.2 Definición del término “Estadística”
Los estudiantes confunden comúnmente los demás términos asociados con las Es-
tadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene
dos significados:
a) En primer término se usa para referirse a la información procesada
(siete de cada diez personas prefieren comprar jabón de la marca X que
de la marca Z; el 10% de los clientes de supermercados pagan con tarje-
ta de crédito);
b) También se utiliza para referirse al conjunto de técnicas y métodos que
se utilizan para obtener, procesar, analizar y presentar la información
pertinente de un estudio. Esta última es la razón del libro.
Con tantas aplicaciones del término Estadística parece imposible obtener por con-
senso una sola definición, sin embargo, es posible hacer una distinción entre las
definiciones comúnmente aceptadas.
27
La estadística es considerada como la colección de datos numéricos los cuales son
expresados en términos de cuentas resumidas, sean éstos obtenidos a través de
observaciones directas o a través de otros datos. (Haber y Runyon, 1977: 6). Tal es
el caso de los censos económicos, demográficos, de vivienda, entre otros. También
es considerada como un método de relación con esos datos (Ibíd.). Esta definición
enfatiza la visión de que la estadística es una herramienta relacionada con la colec-
ción, organización y análisis de datos numéricos u observaciones.
La estadística, en general, es la ciencia que trata de la recopilación, organización
presentación, análisis e interpretación de datos numéricos con el fin de realizar una
apropiada toma de decisión (Muñoz, 2004: 3). Para muchos, la Estadística es la
ciencia auxiliar de todas las ciencias.
1.3 División de la Estadística
Para su mejor estudio, la Estadística se ha dividido en dos grandes ramas: la Es-
tadística Descriptiva y la Estadística Inferencial.
Estadística Descriptiva consiste sobre todo, en la presentación de datos en forma
medidas resumen, de tablas y de gráficas. Ésta comprende cualquier actividad rela-
cionada con los datos y está diseñada para resumir o describir las características –
variables- del fenómeno en estudio mediante medidas resumen; esto es, sin intentar
inferir nada que vaya más allá de los datos, como tales.
La estadística descriptiva puede definirse como aquellos métodos que in-
cluyen la recolección, presentación y caracterización de un conjunto de datos
con el fin de describir apropiadamente las diversas características que
distinguen a ese conjunto de datos (Berenson & Levin, 1996: 3).
Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca
de una parte de un conjunto numeroso de elementos y esto implica que su análisis
requiere de generalizaciones que van más allá de los datos. Como consecuencia, la
28
característica más importante del reciente crecimiento de la estadística ha sido un
cambio en el énfasis de los métodos que describen a métodos que sirven para hacer
generalizaciones. La Estadística inferencial investiga o analiza una población par-
tiendo de una muestra tomada.
La Estadística inferencial puede definirse como aquellos métodos que
hacen posible la estimación de una característica de una población o la toma
de una decisión referente a una población, basándose sólo en los resultados
de la muestra, (Ibíd.)
Para entender ambas definiciones, es necesario conocer el significado de los térmi-
nos utilizados, representados en la figura 1.1.
Fig. 1.1 Funciones del análisis estadístico
Población (total de alumnos
de la UAMFHG)
Muestra (selección
de algunos alumnos
representativos del
total de alumnos de
la UAMFHG)
Datos (observaciones)
Estadística descriptiva
Estadística inferencial
1.4 Términos comúnmente utilizados en estadística
Variable: una característica o fenómeno que puede obtener diferentes valores.
Peso, talla, sexo, ingreso, ventas, costos, temperatura, son ejemplos de variables.
Una variable es diferente a una constante, la cual nunca cambia de valor, que no
puede modificarse, al menos no dentro del contexto o situación para el cual está
previsto.
29
Variables cualitativas: son las variables que expresan distintas cualidades o carac-
terísticas. Cada modalidad que se presenta se denomina atributo o categoría y la
medición consiste en una clasificación de dichos atributos.
Variables cuantitativas: son las variables que se expresan mediante cantidades
numéricas. Las variables cuantitativas además pueden ser discretas o continuas.
Variables independientes: Es la variable que sola o en compañía de otras inciden
en el valor de otra. Los cambios en los valores de este tipo de variables determinan
cambios en los valores de otra (variable dependiente).
Variables dependientes: son las variables de respuesta que se observan en el estu-
dio y que podrían estar influenciadas por los valores de las variables independien-
tes.
Variable aleatoria: valor de la característica o fenómeno específico de una obser-
vación escogida al azar.
Dato: números o medida que se obtienen a través de obtener la dimensión de la
variable en una observación. Éstos pueden ser enumerados por unidades o acumu-
lación de puntos. Los datos pueden ser de naturaleza numérica o categórica. Por
ejemplo, 25 años de edad, 1.65 metros de altura, 65 kilogramos de peso, son los
datos de las variables de edad, estatura y peso de una persona.
Población o universo: el número total de individuos, objetos o medidas que tienen
características observables comunes, en un espacio común. Todos los mexicanos,
toda la población de Tamaulipas, todas las personas que viven en Cd. Victoria y
que tienen entre 12 y 36 años, todos los estudiantes de la UAT.
Censo: Cuando se estudia la totalidad de las unidades que componen la población
o universo. Desventaja: errores de observación, omisiones, duplicaciones, no-
ubicación (no medibles) del encuestado, enorme volumen de información, requie-
30
ren enormes recursos para su elaboración (tiempo, dinero, personas, instalaciones).
Los censos de población y vivienda que realiza el INEGI es un buen ejemplo.
Parámetros: los valores de las características observadas (variables) que represen-
tan a la población o universo. Generalmente se utiliza el alfabeto griego para repre-
sentarlas (ejemplo: µ,σ), que significan la media y la desviación estándar de la
población respectivamente.
Muestra: una porción de la población que, bajo ciertas condiciones de confianza,
representa las características de la población o universo.
Estadísticos: son las medidas resumen resultantes, bajo ciertos procedimientos
específicos, de los datos originales obtenidos en una muestra. Los estadísticos se
utilizan para estimar los parámetros de la población a través de una muestra. Para
su representación, generalmente se utilizan letras itálicas (ejemplo: X ,S), que sig-
nifican la media y la desviación estándar de la muestra.
Para relacionar estas definiciones con un ejemplo, suponga que se quiere investi-
gar, mediante una encuesta, la edad y el nivel de ingresos de los alumnos de la
UADYCS. La población o el universo en este caso serían todos los estudiantes
inscritos en el período vigente. La muestra sería sólo aquellos estudiantes que se
seleccionaron para participar en el estudio, misma que tendría que ser representati-
va de todas las licenciaturas y de todos los semestres.
El objetivo de la encuesta sería describir las características (variables: edad e ingre-
so) de toda la población (parámetros). La descripción se obtendría a través del uso
de estadísticos obtenidos de la muestra. Por lo tanto, se puede decir que la estadís-
tica inferencial es el proceso de utilizar la estadística muestral para sacar conclu-
siones acerca de los parámetros de la población.
31
El uso de estadística inferencial surge de la necesidad de muestrear, sea porque no
se tiene acceso a toda la población, sea porque la población es muy grande y en
consecuencia obtener sus características es muy tardado o muy caro.
1.5 Método estadístico
El conjunto de técnicas que se utilizan para medir las características de la informa-
ción, resumir los valores individuales, y analizar los datos a fin de extraerles el
máximo de información, es lo que se llama métodos estadísticos. Los métodos de
análisis para la información cuantitativa se pueden dividir en los siguientes seis
pasos:
1. Definición del problema.
2. Recopilación de la información existente.
3. Obtención de información original.
4. Clasificación.
5. Presentación.
6. Análisis.
Definición del problema
En el ámbito de los negocios, los problemas tienen que ver con ventas en cantidad
y valor, costos, precios, inventarios, consumo, rendimientos, número de clientes,
oferta, demanda, producción, control de calidad, satisfacción del cliente, análisis de
puntos de venta, y todas las variables del entorno que afecten directa e indirecta-
mente a la empresa, como inflación, paridad monetaria, importaciones, exportacio-
nes, índices de crecimiento, etc.
Recopilación de la información existente
Para conocer la dimensión del problema es necesario consultar la información
histórica interna o externa que esté relacionada con el problema que requiere aten-
32
ción. Por ejemplo, si hablamos de un problema de ventas, tendremos que consultar
los registros contables, los de inventarios, las ventas por productos, por zona ge-
ográfica, etc. Si el problema es de mercado, tendremos que consultar la informa-
ción existente que produce INEGI, tal como el tamaño de la población, el ingreso,
el gasto familiar, la edad de la población, el nivel de educación, etc.
Obtención de información original.
Siguiendo con el mismo problema de ventas, se requiere de conocer información
que no existe y que hay que generar, como los precios de la competencia, las prefe-
rencias del consumidor, las características de los productos, estos datos, que se
convertirán en información, se obtienen en forma directa a través de la observa-
ción, la experimentación y la encuesta.
Clasificación
La información obtenida, existente y original, se clasifica por estratos, por períodos
o por ubicación geográfica de tal manera que tenga una ponderación adecuada para
su análisis.
Presentación
La información clasificada se presenta a través de tablas y gráficas que pueda in-
terpretarse, por ejemplo, la tabla1.1 que se observa en la próxima página.
Análisis de la información
De los datos clasificados y presentados se pueden derivar una serie de análisis, por
ejemplo: las ventas de huevo disminuyó en un 10% en unidades, pero en precio
aumentó un 20% en precio por lo que resultó un aumento del 8% en el valor de lo
vendido.
33
Tabla 1.1 Precios y cantidades vendidas en 2005-2006
2005 2006
Artículo Precio Unidades Valor Precio Unidades Valor
Unit. Vendidas ventas Unit Vendidas venta
Huevo
(docena) 10.00 100 1,000.00 12.00 90 1,080.00
Leche (litro) 5.00 120 600.00 7.00 140 980.00
Carne (kilo) 35.00 10 350.00 42.00 15 630.00
1,950.00 2,690.00
1.6 La estadística y el uso de programas de cómputo
El uso de paquetes de cómputo para el cálculo estadístico es cada vez más común
en la comunidad empresarial, académica y de investigación. Bajo esa premisa, el
desarrollo del curso considera, que para realizar los análisis estadísticos de prácti-
ca, el alumno tendrá acceso a los paquetes estadísticos como el STATISTICA, el
SPSS o la hoja de cálculo de Excel. Así, se pondrá mayor atención al uso de méto-
dos estadísticos apropiados y análisis de resultados que a la teoría matemática sub-
yacente a los métodos.
1.7 Resumen
La estadística es una ciencia matemática que se refiere a la colección, estudio e
interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia va-
riedad de disciplinas, desde la física hasta las ciencias sociales, usada también en la
toma de decisiones en áreas de negocios e instituciones gubernamentales. Colo-
quialmente se puede decir que la Estadística es la ciencia auxiliar de las ciencias.
El predominio de la economía global obliga a las empresas a poner mayor énfasis
en la competitividad. Parte fundamental de la competitividad es el pleno conoci-
miento e adecuada interpretación de la información relacionada con el entorno
interno y externo de la empresa.
34
La aplicación del método estadístico en la realización de estudios estadísticos ac-
tualmente es imprescindible.
La aplicación del método estadístico se utiliza para describir y para inferir las
características del objeto de estudio, de ahí que la estadística se divide en dos áreas
de estudio, la estadística descriptiva y la estadística inferencial.
La estadística descriptiva, que se dedica a los métodos de recolección, descripción,
visualización y resumen de datos originados a partir de los fenómenos en estudio.
Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de
descriptores numéricos son la media y la desviación estándar. Resúmenes gráficos
incluyen varios tipos de figuras y gráficos.
La estadística inferencial, que se dedica a la generación de los modelos, derivacio-
nes y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo
aleatorio e incertidumbre en las observaciones. Se usa para modelar patrones en los
datos y extraer inferencias acerca de la población de estudio. Estas inferencias pue-
den tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estima-
ciones de características numéricas (estimación, pronósticos de futuras observacio-
nes, descripciones de asociación (correlación) o modelamiento de relaciones entre
variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANO-
VA, series de tiempo y tendencias de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay
también una disciplina llamada estadística matemática, la cual se refiere a las bases
teóricas de la materia. La palabra estadísticas también se refiere al resultado de
aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas
económicas, estadísticas criminales, estadísticas de salud, entre otras.
Actualmente, el uso generalizado de sistemas de cómputo ha simplificado la reali-
zación de estudios estadísticos; las hojas de cálculo y los paquetes estadísticos son
de extraordinaria ayuda; para usarlos correctamente, se requiere utilizar los cono-
35
cimientos adquiridos en este capítulo, ello ayudaría a reducir los errores de digitali-
zación, cálculo y análisis.
1.8 Términos clave:
Dato
Estadística
Estadística descriptiva
Estadística inferencial
Estadística moderna
Estadístico
Muestra
Parámetro
Población
Universo
Variable
Variable aleatoria
Variable cualitativa
Variable cuantitativa
1.9 Problemas de repaso del capítulo
En los siguientes ejercicios, describa una aplicación específica e identifique la po-
blación y los parámetros que son de interés principal del estudio.
1. Describa una aplicación de la estadística en economía o finanzas.
2. Describa una aplicación de la estadística en los deportes
3. Describa una aplicación de la estadística en la administración de empresas
4. Describa una aplicación de la estadística en el área de publicidad y mercadotec-
nia.
5. Describa una aplicación de la estadística en la investigación médica o en la ad-
ministración de la salud.
6. Describa la diferencia entre la estadística descriptiva y Estadística inferencial.
7. Describa el Método estadístico.
36
1.10 Mapa conceptual del término Estadística
• Comienzos de la historia
• Siglo XVII
• Siglo XXOrigen
• Necesidades de Gobierno
• Desarrollo de modelos de representación
• Soporte de todas las ciencias
Aplicación
• Información procesada
• Técnicas y métodos para el manejo de datosSignificado
ESTADÍSTICA
Estadística moderna
Descriptiva Inferencial
Método
estadístico:
Definición del problema
Recopilación de información
Clasificación
Presentación
Análisis
37
Capítulo 2
Elaboración de estudios
estadísticos
*********************
Objetivo del
Capítulo
Mostrar la importancia de diseñar un estu-
dio estadístico, especialmente los que se
requieren elaborar para los negocios y la
importancia de obtener buenos datos
38
2.1 Introducción
Las organizaciones modernas enfrentan gran complejidad para su buen funciona-
miento. Una de las razones por las cuales las organizaciones modernas son comple-
jas, es que en el mundo globalizado que operan cambia constantemente y presenta
nuevos desafíos y amenazas. Existe la necesidad permanente de adaptarse al cam-
bio, tanto en las entradas como en las salidas y en el proceso de transformación.
Los administradores de las organizaciones modernas tienen la responsabilidad de
conocer cómo, cuándo, dónde se deben realizar los cambios de adaptación a las
nuevas exigencias de mercado. Estos cambios no pueden ser implementados sin el
conocimiento de la información apropiada pertinente, suficiente, oportuna, veraz,
económica y de predicción. Las organizaciones modernas y competitivas, de cual-
quier tamaño o complejidad deben de medir en forma permanente el nivel de des-
empeño a través de conocer información sobre costos, cantidad, calidad, producti-
vidad, eficiencia de productos, servicios y procesos. Pero también debe conocer de
los cambios que ocurren en el medio ambiente en que se desarrolla, tales como
población, ingresos percápita, competencia, gustos, preferencias, necesidades, pre-
cios, etc.
39
Para que un estudio estadístico sea útil en el proceso de toma de decisiones, los
datos de entrada deben ser de origen fidedigno y cumplir con una serie de carac-
terísticas de codificación que faciliten su captura, agrupación, correlación y análi-
sis. Por ello el proceso de recolección es extremadamente importante en la realiza-
ción de un estudio. Si los datos están distorsionados por sesgos, ambigüedades o
malas interpretaciones, lo más probable es que se elaboren estudios de mala calidad
y por lo tanto, en base a ellos, se toman malas decisiones.
Esta sección pretende introducir al alumno a determinar qué tipo de estudios es-
tadísticos se requieren en las organizaciones, cómo se obtienen los datos, cómo se
clasifican, agrupan y presentan. Cabe señalar que actualmente el uso generalizado
de equipos de cómputo “la edad de la tecnología de la información” ha facilitado
esta tarea de obtención, procesamiento y presentación de información. Aún y cuan-
do cada organización tiene diferentes necesidades de estudios estadísticos, pedagó-
gicamente y metodológicamente se pueden hacer generalizaciones que el profesio-
nal tendrá que adaptar a sus necesidades de aplicación.
Al término del capítulo, el alumno deberá ser capaz de:
1. Conocer los tipos estudios estadísticos que se pueden realizar.
2. Conocer las diferentes fuentes de obtención de datos.
3. Conocer los diferentes tipos de datos, niveles de medición y escalas de me-
dición.
4. Conocer la importancia de diseñar un estudio estadístico, especialmente los
que requieren aplicación de una encuesta.
5. Saber diseñar un cuestionario con preguntas objetivas, plenas de significa-
do y alta relación con el objeto de estudio.
6. Utilizar una tabla de números aleatorios para la definición de los indivi-
duos de la encuesta.
40
2.2 Tipos de estudios.
Hay dos tipos de estudios “enumerativos” y “analíticos”. Los estudios enumerati-
vos son aquellos que muestran cómo son las cosas pero que no tienen la cualidad
de predecir por ellos mismos. El censo de población y vivienda es un buen ejemplo
de estudio enumerativo. Medir el rendimiento del maíz es un estudio enumerativo.
Las condiciones de producción agrícola del 2004 o 2005 o de cualquier año pasado
se han ido y no se repetirán. En ese sentido no existe un proceso subyacente. Los
estudios analíticos son utilizados para estudiar procesos y pueden predecir, bajo
ciertos cambios en el proceso original, los resultados en un futuro (TRADE, 1995:
84).
Ambos tipos de estudios utilizan el método estadístico para la toma de decisiones.
Ambos utilizan los datos como materia prima para su elaboración.
Los estudios enumerativos involucran la toma de decisiones respecto a una pobla-
ción y/o sus características (Berenson & Levin, 1996: 5). Un ejemplo de estudio
enumerativo sería aquel que se realiza en cierta área geográfica, previo a la opera-
ción comercial de una empresa. El objetivo es el de proporcionar estimaciones de
las características de la población y tomar ciertas decisiones sobre ellas.
El área geográfica definida para el estudio enumerativo se le denomina marco y
proporciona los elementos para la selección de una muestra. De ahí surgen las pre-
guntas de ¿Cuántos son hombres y cuántas mujeres? ¿Cuántos consumen el pro-
ducto? ¿Qué marca de producto prefieren? ¿Qué nivel de ingresos tienen? ¿Cuán-
tos negocios similares existen? ¿Cuál es el aforo vehicular por las principales ave-
nidas?
41
Fig. 2.1 Mapa base para estudio enumerativo de mercado
Otro ejemplo de un estudio enumerativo es la descripción del contenido de un
tazón de canicas, el tazón completo representa la población, las preguntas del estu-
dio se hacen en relación a saber ¿Qué hay en el tazón? ¿Cuántas canicas son de
color negro, o en qué proporción son negras? ¿Qué probabilidad existe aleatoria-
mente de escoger una canica negra?
Figura 2.2 Estudio enumerativo.
Muestra
Por otro lado, los estudios analíticos involucran realizar alguna actividad sobre un
proceso para mejorar el desempeño en el futuro (Ibíd.)
La técnica Estadística permite dise-ñar una muestra representativa de un área geográfica específica y de-terminar, en forma aproximada, sus características enumerativas en conjunto
42
El estudio de los resultados de un proceso de producción o de prestación de servi-
cios considerados durante cierto tiempo, es un ejemplo de estudio analítico. El
propósito de un estudio analítico es el de obtener predicciones de comportamientos
futuros y de resultados. Esto es la generación de información anticipada para la
toma de decisiones para la mejora del proceso y en consecuencia, de los resultados.
Un estudio analítico, se refiere al análisis de procesos. Los procesos, utilizando el
enfoque de sistemas, se componen de varias etapas, en forma general: entradas,
procesos de transformación, salidas y retroalimentación.
En un sistema empresarial, las entradas son principalmente materia prima, perso-
nas, maquinaria y equipo e información; los procesos de transformación se refieren
a las actividades propias de la organización, es decir a la transformación de las
entradas en salidas; las salidas son los bienes o servicios que la organización oferta
al medio ambiente (clientes reales y potenciales).
El Dr. Walter Shewhart, un pionero de estudios estadísticos en control de procesos,
dice que un proceso consiste en equipo, métodos, material y personas que son con-
juntados para producir salidas en un medio ambiente. Por ejemplo, en agricultura,
si bien es cierto que las condiciones de clima predominan en los rendimientos agrí-
colas, también influyen los métodos de cultivo, el tipo de suelo, el tipo de semilla,
los mejoradores agrícolas, las plagas, entre otros. (TRADE, 1995: 84)
El análisis de resultados del sistema organizacional se da a través de lo que se co-
noce como retroalimentación, que no es otra cosa que el análisis de la información
de respuesta del medio ambiente a las salidas de la organización, reflejadas, en más
de las veces, en ventas, devoluciones, quejas, pedidos, sugerencias, entre otras.
43
Figura 2.3 Ámbito de aplicación de estudios analíticos
Administración y Finanzas
Producción
GerenciaGeneral
Mercadotecnia
Entradas Proceso
Retroalimentación
Salidas
CompetidoresProveedoresDistribuidoresClientesEmpleadosAccionistasSociedad
AccionistasSindicatoGobiernoCámarasGrupos de interés
TierraMano de obra
Capital
Productoso
Servicios
Existen cuatro razones básicas para realizar estudios estadísticos (enumerativos o
analíticos):
a) Contar con material imprescindible en un estudio de investigación.
b) Medir el desempeño y tomar medidas correctivas
c) Apoyar la toma de decisiones en la definición de estrategias
d) Para satisfacer nuestra curiosidad.
Los estudios estadísticos más comunes en el área de negocios, tienen que ver con
control de producción, control de calidad, ventas, crédito, cobros, estudios de mer-
cado (mercado potencial, mercado objetivo, precios de mercado, etc.)
44
La calidad de los estudios estadísticos
La calidad de los estudios estadísticos depende de la calidad de los datos que los
soporten. Los investigadores han adoptado el término GIGO, del inglés garbage
in, garbage out, que se traduce como basura entra, basura sale. Lo que el trata de
significar es que si los datos obtenidos son equivocados o tienen errores, el estudio
será de mala calidad y su uso para el que fue creado, estará equivocado o tendrá
errores: se tomarán malas decisiones.
Para diseñar un estudio estadístico, el estudiante debe comprender las distintas
fuentes de datos, los tipos de datos que existen y los sistemas de medición.
2.3 La obtención de datos
Existen varios métodos de obtención de datos, depende del tipo de estudio que se
quiera realizar. Primero, se puede utilizar datos ya publicados por otras instancias,
sean gubernamentales, gremiales o individuales, a este tipo de información se le
conoce como información de fuente secundaria. La de fuente primaria se obtiene
en forma directa a través de la experimentación, la observación o el levantamiento
de encuesta.
Sin importar la fuente, se hace una distinción entre el recolector original de datos y
la organización o individuo que los compilan. El recolector de datos es la fuente
primaria; el compilador es la fuente secundaria. Los datos generados por el usuario
son de fuente primaria, los datos generados por terceros, son de fuente secundaria.
Los datos primarios se obtienen a través de:
a) diseñar un experimento,
b) realizar observaciones de comportamiento de actitudes u opiniones de los
individuos que son de interés del estudio o
c) realizar una encuesta.
45
Método de experimentación
La obtención de datos por el método de la experimentación es el más complejo y
eficaz de los métodos empíricos, por lo que a veces se utiliza erróneamente como
sinónimo de método empírico. En este método, el investigador interviene sobre el
objeto de estudio modificándolo directa o indirectamente para crear las condiciones
necesarias que permitan revelar sus características fundamentales y sus relaciones
esenciales bien sea:
-Aislando al objeto y las propiedades que estudia de la influencia de otros
factores
-Reproduciendo el objeto de estudio en condiciones controladas
-Modificando las condiciones bajo las cuales tiene lugar el proceso o fenó-
meno que se estudia.
Así, los datos son sacados de la manipulación sistemática de variables en un expe-
rimento. Una diferencia clara con el método empírico en general es que éste trata
de considerar los errores, de modo que una inferencia pueda ser hecha en cuanto a
la causalidad del cambio observado.
Por ejemplo, para medir los efectos de una bebida vigorizante, a dos grupos de
jugadores después de un partido de futbol, se le pide a uno que tome la bebida en
cierta cantidad y después se le analizan sus signos vitales (presión arterial, pulsa-
ciones, respiración, dilatación de pupila, contenido de glucosa, etc.) al otro indivi-
duo se le pide que tome sólo agua purificada y también se le miden los signos vita-
les. Una vez hecho el experimento se comparan las mediadas de los signos vitales
de ambos. Se llamará a un grupo, el de la condición, experimental y al otro grupo
de control. Pero se podría trabajar con varios grupos con distintas cantidades de
ingesta de vigorizante.
46
Método de la observación
Fue el primer método utilizado por los científicos y en la actualidad continua sien-
do su instrumento universal. Permite conocer la realidad mediante la percepción
sensorial directa de entes y procesos, para lo cual debe poseer algunas cualidades
que le dan un carácter distintivo. El método de la observación permite obtener da-
tos primarios mediante la observación de la conducta de las personas, acciones y
situaciones pertinentes. Por ejemplo, un investigador de mercados de productos
lácteos podría visitar puntos de venta y observar a los compradores desde que en-
tran a la tienda, caminan por los anaqueles, toman el producto lácteo, leen las eti-
quetas y toman la decisión de compra. O una gasolinera podría evaluar la posibili-
dad de abrir nuevas sucursales mediante la observación de los esquemas de tráfico,
las condiciones del área, la ubicación de la competencia.
La investigación por el método de observación obtiene información que la gente no
puede o no quiere proporcionar. En muchos casos, la observación es la única mane-
ra de obtener información, sin embargo, algunas cosas no pueden observarse, como
las emociones, los motivos, o la conducta privada. A causa de esas restricciones,
los investigadores suelen utilizar como complemento otros métodos de recopila-
ción de datos. En la actualidad muchas empresas utilizan el método de investiga-
ción etnográfica (ciencia que estudia, describe y clasifica las culturas o pueblos)
para observar a individuos en su hábitat natural. Las investigaciones etnográficas
proporcionan a menudo detalles íntimos que no se pueden obtener por la observa-
ción tradicional.
Método de encuesta
El método de obtención más utilizado en los estudios de mercado es la realización
de una encuesta. Una encuesta es un conjunto de preguntas dirigidas a una muestra
representativa de población o de instituciones, con el fin de conocer estados de
opinión o hechos específicos. La realización de una encuesta debe tener un diseño
muestral y un marco de aplicación. La encuesta es una investigación estadística en
47
que la información se obtiene de una porción representativa de las unidades que
componen el universo. La encuesta es preferible a los censos (o estudio de toda la
población) por las siguientes razones:
- La población es grande y, por tanto, imposible de analizar en su totalidad.
- Las características de la población varían si el estudio se prolonga dema-
siado tiempo.
- Reducción de costes: al estudiar una parte de la población, los gastos de re-
cogida y tratamiento de los datos serán menores que si los obtenemos del
total de la población.
- Rapidez: al reducir el tiempo de acopio y tratamiento de los datos, se con-
sigue mayor rapidez.
- La población es suficientemente homogénea respecto a la característica
medida, resultaría inútil gastar recursos en un análisis exhaustivo.
- El proceso de estudio es destructivo o es necesario consumir un artículo pa-
ra extraer la muestra (ejemplos: vida media de una bombilla, carga sopor-
tada por una cuerda, precisión de un proyectil, etc.).
2.4 Tipos de datos, niveles de medición y escalas de medición
Las variables generan dos tipos de datos: categóricos y numéricos. Los datos ca-
tegóricos representan categorías de la observación. Los datos numéricos represen-
tan dimensión del fenómeno, estos pueden ser discretos o continuos.
Un ejemplo de dato categórico sería la respuesta a la pregunta ¿Pertenece usted a
un club social? si o no, es una respuesta categórica; igualmente sería un dato ca-
tegórico la clasificación de los hoteles de una estrella, dos estrellas, tres estrellas,
Gran Turismo; otro ejemplo sería el grado de satisfacción de un producto o un ser-
vicio: muy satisfecho, satisfecho, no satisfecho.
48
Los datos numéricos surgen del conteo o de la medición de los fenómenos. Los
datos discretos son respuestas numéricas que surgen de un proceso de conteo, los
datos continuos son respuesta numérica de un proceso de medición. Un ejemplo
de dato numérico discreto sería el número de refrescos que compra al día: 2, 3, 4.
Por otro lado, la altura de un estudiante es el ejemplo de una variable numérica
continua, 1.72 metros, la medición acepta fracciones de la unidad.
Figura 2.14 Tipo de datos.
Tipo de datos Tipo de pregunta Respuesta
Categóricos
Numéricos
Niveles de medición
En el sentido más amplio, todos los datos ha obtener son medibles. Incluso los
datos numéricos discretos pueden considerarse como producto de una medición
mediante el conteo. Todo lo que se observa generalmente es referido como varia-
bles. Por ejemplo, si se estudiara el precio de una taza de café americano en Victo-
ria o en Matamoros, la variable principal sería el precio, seguramente el valor de la
variable será diferente en varios establecimientos, como también es variable la
cantidad servida y las condiciones ambientales del lugar. Cualquier observación en
particular se denomina “valor de la variable”. Los tres niveles de medición en esca-
la reconocidos son: nominal, ordinal y cardinal (intervalo y relación).
1. La escala nominal se utiliza para nombrar.
2. La escala ordinal se utilizan para representar un ordenamiento.
3. La escala cardinal sirven para representar una cantidad (intervalo o de rela-
ción)
49
Escala de medición
Los datos obtenidos de una variable categórica pueden ser medidos en una escala
nominal u ordinal. Las observaciones no ordenadas constituyen el nivel más bajo
de mediada y son referidas como una escala nominal. Se puede asignar un valor
numérico para representar la variedad de clases en una escala nominal pero este
número no tiene propiedades cuantitativas, sólo sirven para identificar la clase. Es
decir, si los datos observados simplemente se clasifican en diversas categorías, en
las que no implica ningún orden.
La medición de variables categóricas nominales resultan de la aplicación de una
escala de medición que permite solo determinar las relaciones = y ≠. El valor que
toma una variable categórica nominal indica la categoría a la que pertenece; por lo
tanto, permite clasificar a los individuos en grupos. Los grupos pueden ser dicotó-
micos (dos categorías) o politómicos (más de dos categorías). Por ejemplo:
Variable categórica nominal dicotómica: género (femenino / masculino). Variable
categórica nominal politómica: afiliación partidista (cuando se distinguen más de
dos partidos) como PRI, PAN, PRD.
Figura 2.5 Ejemplos de escala nominal.
Variable categórica Categoría
Seguro de automóvil
Tipo de seguro de vida que se tiene
Afiliación política
si no
Temporal Vitalicio
PRIísta PANista PRDísta
El siguiente nivel de medición, de escala ordinal se refiere cuando la medición
representa un orden en una serie. En esta escala las diferencias son expresadas en
términos de inequidades algebraicas: a es menor que b (a<b) o a es mayor que b
50
(a>b). Las relaciones entre variables serán: más grande, más veloz, más alto, etc.
Los números empleados en la escala ordinal no son cuantitativos, sólo indican una
posición pero no qué tanto es la diferencia entre las diferentes posiciones de la
escala.
Ejemplos de aplicación de la escala ordinal incluye: la designación de clase de un
estudiante en un grupo, la clasificación de las películas, la categoría de los emplea-
dos, etc.
Figura 2.6 Ejemplos de escala ordinal.
Variable categórica Categoría
Clase de estudiante en un grupo
Clasificación de películas
Clasificación hotelera
Primero Segundo Tercero
G PG PG-13 R X
Finalmente el nivel más alto de medición en la ciencia es alcanzado por el uso de
números cardinales (escala de intervalo y de relación). Los valores numéricos
asociados con esta escala son cuantitativos y por ello permite el uso de operaciones
aritméticas como la suma, resta, multiplicación y división.
La diferencia entre estos dos tipos de escala radica en que la escala de intervalo
emplea un punto arbitrario (cero) de comparación mientras que la escala de rela-
ción emplea un cero real.
La medición de temperatura en grados Celsius o Fahrenheit son ejemplos de medi-
ción en escala de intervalos. No podemos decir que 40º C es a 20º C como 20º C es
a 10º C. Lo anterior se debe a que el punto de medición 0º C es arbitrario. En esta
escala de intervalo utilizada existe lo que se conoce como cero absoluto y se supo-
ne que es equivalente a -273º C, por lo que 40º C equivale a 273º C + 40º C de
calor; 20º C representa 273º C + 20º C de calor y 10º C representa 273º C + 10º C.
51
Cabe señalar que la diferencia entre dos lecturas tiene el mismo significado en
cualquier nivel de la escala, así la diferencia entre 37º C y 39º C es de 2º grados,
igual que en las lecturas de 25º C y 27º C.
La medición de las variables categóricas ordinales resultan de la aplicación de una
escala de medición que permite determinar las cuatro relaciones =, ≠, > y <. Lo que
permite ordenar a los individuos en un orden creciente o decreciente con relación a
una característica medida.
Figura 2.7 ejemplos de escala cardinal (intervalo o relación)
Variable numérica Nivel de medición
Temperatura ( C o F)
Tiempo de calendario (hebreo o islámico)
Altura (en pulgadas o centímetros)
Peso (en libras o kilogramos)
Edad (en años o días)
o o Intervalo
Intervalo
Relación
Relación
Relación
Generalmente los datos obtenidos de una variable numérica han sido medidos en
una escala de intervalo o de relación. Estas escalas constituyen los niveles más
altos de medición, son formas más concretas de medición, que de una de escala
ordinal, porque se puede distinguir no sólo la dimensión sino también la diferencia
con otras observaciones.
En la escala de relación (o de cociente), además de que las diferencias son signifi-
cativas e iguales en cualquier punto de la escala, existe un punto cero verdadero
que pueda ser tomado en cuenta para realizar comparaciones. Una persona mide
1.80 metros, el doble de alta de una que mide .90 metros.
52
Escala tipo Likert
Frecuentemente se requieren conocer las inclinaciones, sentimientos, prejuicios o
distorsiones, nociones preconcebidas, ideas, temores, amenazas y convicciones de
cierta población acerca de cualquier asunto específico, como las preferencias.
Una manera de realizar este tipo de estudios es aplicando un cuestionario con una
serie de ítems con respuestas alternativas con una escala de medición de actitudes,
como la escala de Likert, que fue desarrollada por el sociólogo Rensis Likert en
1932. La escala Likert, conocida también como escala sumativa está en función de
una serie de ítems que reflejan una actitud positiva o negativa acerca de un estímu-
lo o referente; analiza los pensamientos y sentimientos de la persona hacia los
hechos. Para realizar un estudio de esta naturaleza, se propone seguir los siguientes
pasos:
1. Preparación de los ítems del cuestionario; se elaboran una serie de enun-
ciados afirmativos y negativos sobre el tema o actitud que se pretende me-
dir. El número de enunciados elaborados al principio debe ser mayor al
número final de enunciados incluidos en la versión final.
2. Aplicación del cuestionario en una muestra representativa de la población
cuya actitud deseamos medir. Se le solicita a los sujetos que expresen su
acuerdo o desacuerdo frente a cada ítem mediante una escala.
3. Asignación de puntajes a los ítems; se le asigna un puntaje a cada ítem a
fin de clasificarlos según reflejen actitudes positivas o negativas.
4. Asignación de puntuaciones a los sujetos; la puntuación de cada sujeto se
obtiene mediante la suma de las puntuaciones de los distintos ítems.
5. Análisis y selección de los ítems; mediante la aplicación de pruebas es-
tadísticas se seleccionan los ajustados al momento de efectuar la discrimi-
nación de la actitud en cuestión, rechazando aquellos que no cumplan con
este requisito.
53
Después de concluir la aplicación del cuestionario, cada elemento se puede analizar
por separado o, en algunos casos, las respuestas a cada elemento se suman para
obtener una puntuación total para un grupo de elementos. Por ello las escalas de
tipo Likert son un tipo de escalas sumativas. Cada ítem está estructurado con cinco
o más alternativas de respuesta. La unidad de análisis que responde a la escala
marcará su grado de aceptación o rechazo hacia la proposición expresada en el
ítem. Los ítems por lo general tienen implícita una dirección positiva o negativa.
Por ejemplo:
“Los menonitas son un grupo étnico con excelentes valores hacia el trabajo”:
( ) Totalmente de acuerdo
( ) De acuerdo
( ) Indiferente
( ) En desacuerdo
( ) Totalmente en desacuerdo
La escala de Likert es un método de escala bipolar que mide tanto el grado positivo
como negativo de cada enunciado. A veces se utilizan 4 niveles de respuesta; de
esta forma se obliga a elegir un lado de la escala, ya que no existe la posibilidad de
neutralidad.
Las respuestas a los elementos se pueden sumar, teniendo en cuenta que todos los
elementos midan el mismo concepto (p.ej., preferencias de consumo). Es recomen-
dable realizar un análisis estadístico de los ítems con el propósito de ser selectivos.
Entre las técnicas de análisis se encuentran la correlación ítem-escala por medio del
coeficiente de correlación de Pearson, el coeficiente gamma, el análisis factorial, el
análisis discriminante, entre otros.
54
2.5 Definición operacional
En un estudio estadístico generalmente participan diferentes tipos de personas, lo
que hace necesario establecer la definición operacional para obtener la respuesta o
interpretación apropiada. En otras palabras, todas las personas que tengan interés
en un estudio estadístico específico, deberán hablar el mismo lenguaje. Las perso-
nas que participan en un estudio estadístico, se pueden identificar como: responsa-
ble del estudio, colaboradores en el diseño, encuestador, encuestado, capturista,
compilador y tomador de decisiones. Una definición operacional proporciona un
significado a un concepto o variable que puede comunicarse a otros individuos. Es
algo que tiene el mismo significado ayer, hoy y mañana para todos los individuos
(Berenson & Levin, 1996: 18).
En la definición operacional se debe tener en cuenta que lo que se intenta es obte-
ner la mayor información posible de la variable seleccionada, de modo que se capte
su sentido y se adecúe al contexto, y para ello se deberá hacer una cuidadosa revi-
sión de la literatura disponible sobre el tema de investigación.
Por ejemplo, la definición operacional de la variable productividad, podría ser la
siguiente: cantidad de bienes producidos por un trabajador en una jornada laboral
de ocho horas. En el ejemplo se pretende buscar una relación entre motivación y
productividad, la definición operacional de la variable productividad se circunscri-
be al trabajo realizado por un trabajador en determinado lapso de tiempo y con
cierto tipo de incentivos, tales como salarios, premios, beneficios sociales, oportu-
nidades de progreso, estabilidad en el cargo, aumento de sueldo y prolongación de
vacaciones. Si el objeto de estudio hubiese sido otro, por ejemplo, analizar la pro-
ductividad en relación con el uso de ciertos materiales o maquinarias, entonces la
definición operacional hubiese sido otra.
El investigador, al formular la definición operacional, debe considerar las condi-
ciones contribuyentes, contingentes y alternativas al problema que trata. Una con-
dición contribuyente aumenta la posibilidad de que un fenómeno ocurra pero no lo
55
hace implícito o cierto, ya que por sí misma no causa el fenómeno sino que es uno
entre otros tantos factores que inciden en su ocurrencia. Las condiciones contingen-
tes y alternativas que inciden en la medición de una variable son más proclives a
ser analizadas en las investigaciones sociales.
La operacionalización de las variables está estrechamente vinculada al tipo de
técnica o metodología empleadas para la recolección de datos. Éstas deben ser
compatibles con los objetivos de la investigación, a la vez que responden al enfo-
que empleado, al tipo de investigación que se realiza. Estas técnicas, en líneas ge-
nerales, pueden ser cualitativas o cuantitativas.
Las técnicas cuantitativas se emplean cuando el universo de estudio es amplio y la
complejidad de las variables posibilita una aceptable desagregación en niveles sus-
ceptibles de cuantificarse y ser analizados. En los estudios de tipo social, la encues-
ta es el instrumento de recolección de datos más utilizado en las investigaciones
cuantitativas.
Por su parte, las técnicas cualitativas son más utilizadas en las investigaciones ex-
ploratorias, su flexibilidad permite la construcción de categorías en la búsqueda,
análisis e interpretación de los datos obtenidos. Con esta técnica, empleada por
ejemplo en las entrevistas en profundidad, se produce una interacción permanente
entre la observación y la reflexión, entre lo descriptivo y lo explicativo.
Cuando nos encontramos con variables complejas, donde el pasaje de la definición
conceptual a su operacionalización requiere de instancias intermedias, entonces se
puede hacer una distinción entre variables, dimensiones e indicadores. A modo de
síntesis, puede afirmarse que el pasaje de la dimensión al indicador hace un reco-
rrido de lo general a lo particular, del plano teórico al plano de lo empíricamente
contrastable.
Las dimensiones vendrían a ser subvariables o variables con un nivel más cercano
al indicador. Para el caso de definir a la variable productividad, nos encontramos
56
con diferentes subdimensiones que forman parte de la variable, como ser: cantidad
de producción, costo de mano de obra, tiempo de producción, maquinaria, materia-
les o energía consumida, desperdicios. Cada una de estas subvariables son las di-
mensiones de la variable productividad.
A su vez, estas dimensiones, para poder ser contrastadas empíricamente por el in-
vestigador, requieren operacionalizarse en indicadores, que no son otra cosa que
parámetros que contribuyen a ubicar la situación en la que se halla la problemática
a estudiar. En un sentido restringido, los indicadores son datos. Para la variable
productividad, por ejemplo, en la dimensión mano de obra, los indicadores podrían
ser cantidad de productos envasados por un trabajador en ocho horas de trabajo.
2.6 Realización de encuestas
Las encuestas es lo más directo y rápido para obtener datos pero puede tener ries-
gos y lagunas. Dada una población, se calcula la dimensión suficiente de una mues-
tra y se genera procedimiento aleatorio, preferentemente con un equipo de cómpu-
to, para determinar los individuos de la población a los que se les aplicará el cues-
tionario. La clasificación de los individuos de la población debe tener la misma
estructura numérica que el procedimiento aleatorio definido.
Hay dos pasos esenciales, para la realización de una encuesta:
a) el diseño de las preguntas y,
b) el análisis final para sacar conclusiones a un nivel de estadística descripti-
va.
El diseño de las preguntas y análisis de respuestas es el tratamiento de datos que se
espera realizar, lo más común es exponer los datos en porcentajes y medidas com-
parativas al interior y exterior de la muestra. Es muy importante definir las relacio-
nes existentes entre un grupo de variables en las que se suponen que algunas de
57
ellas (denominadas constructos)2 se miden a partir de otras variables observables
denominadas indicadores. Los modelos utilizados constan, por lo tanto, de dos
partes:
a) un modelo estructural que especifica las relaciones de dependencia existen-
te entre las constructos latentes y,
b) un modelo de medida que especifica cómo los indicadores se relacionan
con sus correspondientes constructos.
Una definición operacional de un constructo se refiere a las operaciones mediante
las cuales un investigador determina la presencia, ausencia o magnitud de un
fenómeno. Estas operaciones son mediciones o registros numéricos, por ejemplo: si
se quisiera medir la satisfacción del cliente sería difícil determinarla recabando las
respuestas de que sí está o no satisfecho con tal o cual producto. Para ser más
aproximado al concepto de satisfacción habrá que preguntar si el producto cumplió
con sus expectativas, si estuvo conforme con la atención, con el precio, con los
tiempos de entrega, con el sistema de venta, entre otros. La variable satisfacción
del cliente es una variable dependiente y el resto son variables independientes. En
forma general, se puede expresar como:
f(x)= {a, b, c, …. z}
Donde f(x) es la satisfacción del cliente y a, b, c, son las variables que la determi-
nan.
Para la realización de una encuesta (y cualquier tipo de estudio estadístico), además
de la práctica administrativa inherente, se requiere seguir los siguientes pasos:
Elección del tema de estudio: uso del tiempo libre de los estudiantes
2 Un constructo es, en términos generales, una idea. Más precisamente y según el filósofo argentino Mario Bunge, “Por constructo u objeto conceptual, entendemos una creación mental. Distinguiremos cuatro clases básicas de
constructos: conceptos, proposiciones, contextos y teorías”. En consecuencia, los conceptos, las hipótesis (que son
proposiciones), las teorías y las clasificaciones científicas son constructos.
58
Marco teórico del tema: teorías en que se fundamenta el estudio y lo que
se desea investigar, a través de formular las preguntas de investigación.
Diseñar del instrumento de recolección de datos (cuestionario): pregun-
tas numéricas o categóricas
Definir el ámbito de aplicación: local
Definición del universo: Estudiantes de la UA Derecho y Ciencias Socia-
les
Definir el tipo de muestreo: Probabilístico, no probabilístico.
Definir el método de aplicación: personal, correo tradicional, teléfono, en
línea.
Obtención y tratamiento de datos: digitalización y análisis estadístico
Elaboración de informe: se refiere a la redacción de lo que se encontró en
la investigación y comparación de los parámetros que se conocen.
Elección del tema
Los temas para realizar estudios estadísticos son prácticamente infinitos. Depen-
derá del área de interés del investigador. En el área de negocios los estudios se
diseñan para estimar los gustos y preferencias del consumidor, los precios de mer-
cado, el mercado objetivo, la disponibilidad de recursos para adquirir el producto,
las cantidades promedio de consumo, la impresión de la imagen de la empresa, la
competencia, etc.
Marco Teórico de la investigación
En todo proceso de investigación, un elemento que direcciona el camino a seguir
en todo trabajo científico es el marco teórico, ya que en base a éste se inicia, con-
tinúa o hace que ésta fracase, posteriormente al planteamiento del problema de
59
estudio (tema de estudio), es decir, que se han definido los objetivos que se preten-
den lograr y las interrogantes que se quieren despejar con su realización, el siguien-
te paso consiste en sustentar teóricamente el estudio. Este paso implica analizar y
exponer aquellas teorías, enfoques teóricos, investigaciones y antecedentes en ge-
neral que se consideran válidos para un correcto encuadre del estudio. A esta etapa
se le denomina “elaboración del marco teórico”.
El marco teórico no solamente abarca la revisión de conceptos y/o teorías que apo-
yan una investigación. Además debe tomarse en cuenta el marco de referencia y el
marco conceptual en el cual se circunscribe la investigación a realizar.
La observación, descripción y explicación de la realidad a investigarse debe ubicar
en la perspectiva de lineamientos de carácter teórico. Esto exige del investigador la
identificación de un marco de referencia sustentado en el conocimiento científico;
por ello, “cada investigación toma en cuenta el conocimiento previamente cons-
truido, por lo que al realizarla se apropia parcialmente de la estructura teórica ya
existente”. A esta etapa se le denomina “marco referencial” que no es otra cosa que
conocer, hasta donde sea posible, las investigaciones que se han efectuado sobre el
tema. De éstas, se puede obtener una visión completa de las formulaciones teóricas
sobre las cuales se ha de fundamentar el conocimiento científico propuesto en las
fases de observación, descripción y explicación.
Por ejemplo, en el estudio del uso del tiempo libre, que se ha tomado como refe-
rencia, lo primero que se tiene que hacer es definir el concepto “Tiempo libre” que,
según algunos autores, es una situación donde no existe obligación de realizar una
determinada tarea. En el tiempo libre, los individuos pueden realizar actividades
que disfrutan, tales como satisfacer necesidades personales, como el descanso, la
distracción, diversión, el desarrollo personal, la distracción.
El derecho al tiempo libre, no es solo cuestión cuantitativa o temporal, tiene más un
sentido cualitativo, puesto que en él se modifica el estilo de vida del individuo y las
60
estructuras sociales de su entorno. En el tiempo libre se adoptan los principios y
valores que se incorporan a la calidad de vida.
El marco teórico del uso de tiempo libre inicia con la distribución teórica del tiem-
po disponible. Se sabe que los médicos recomiendan alrededor de 8 horas de sueño
para que el organismo descanse y pueda recuperarse del desgaste cotidiano, esto
quiere decir, en números, que un tercio del día se debe dedicar al abandono total de
cualquier actividad necesaria para el sostenimiento de la vida y la salud, como las
económicas y las que satisfacen las necesidades fisiológicas.
El segundo bloque en cantidad de tiempo consumido durante el día, es el “Tiempo
de Trabajo” el cual en México se limita, por ley a un máximo de 8 horas durante el
horario diurno. Se entiende por trabajo a una actividad física o mental realizada por
un individuo a cambio de un jornal o de un salario. Si bien el trabajo remunerado
es la modalidad laboral más claramente identificable, no es la única, ya que existen
otras formas no remuneradas y que exigen una considerable cuota de tiempo y de
esfuerzo por parte del individuo que se dedica a ellas. Ejemplos de estas formas de
trabajo no remunerado, son los estudios (jornada escolar), así como los trabajos
realizados en el hogar para su funcionamiento y conservación (jornada doméstica).
El tercer tipo es el “tiempo social”, que se consume en actividades tales como el
transporte público o privado, en las charlas y reuniones con compañeros de trabajo
o de estudios y que exigen cierta obligatoriedad. Asimismo, la asistencia a ciertos
actos familiares, sociales, laborales, políticos o públicos que comprometen la asis-
tencia ineludible del individuo. También los actos y ceremonias de índole religiosa.
Por cierto, es en este tiempo en cuando se produce la formación de los grupos so-
ciales más permanentes, en los que surge la amistad y, en etapas más profundas y
avanzadas, las relaciones afectivas de pareja, que como en los casos anteriores,
también exigen una responsabilidad y obligación para con el grupo.
61
Por último y como consecuencia de la ocupación y la utilización de los otros tiem-
pos para la satisfacción de las necesidades económicas y sociales, queda un resi-
duo, un tiempo restante que queda liberado de toda obligación: el tiempo libre.
Diseño del cuestionario.
El cuestionario es un instrumento considerado clásico en las ciencias sociales para
la obtención y registro de datos. Su versatilidad permite utilizarlo como instrumen-
to de investigación de las características de personas, procesos y programas. Es un
instrumento de recolección de datos que puede abarcar aspectos cuantitativos y
cualitativos, es decir, considerar las variables numéricas y categóricas. Su carac-
terística singular radica en que para registrar la información solicitada a los mismos
sujetos, ésta tiene lugar de una forma menos profunda e impersonal, que el "cara a
cara" de la entrevista. Al mismo tiempo, permite consultar a una parte representati-
va de la población (muestra) de una manera rápida y económica.
Existe una relación inversa entre la amplitud de un cuestionario y la tasa de res-
puesta, en consecuencia, cada pregunta deberá de presentarse claramente, con el
menor número de palabras. Las preguntas deben estar libres de ambigüedades. Si
fuera necesario evitar confusiones debido a la complejidad de las preguntas, deberá
de acompañarse de definiciones operacionales para obtener respuestas apropiadas.
Es muy conveniente procurar que las respuestas sean en su mayoría del tipo numé-
ricas o categóricas, éstas facilitan la codificación. Las preguntas abiertas (aquellas
donde el encuestado exponga su punto de vista) deben de clasificarse u ordenarse
apropiadamente.
Los datos que se pueden obtener con un cuestionario pertenecen a cuatro cate-
gorías:
a) Hechos (datos actuales): datos personales del grupo social estudiado: por
ejemplo, edad, nivel educativo; datos del ambiente que le rodea: por ejem-
plo, vivienda, relaciones familiares, de vecindad, de trabajo, etc. y datos de
62
su comportamiento con respecto al tema de estudio (compró, vendió,
probó, fue, etc.).
b) Opiniones, a las cuales se suman los niveles de información, de expecta-
ción, todo lo que se podría llamar datos subjetivos.
c) Actitudes y motivaciones, todo lo que empuja a la acción, al comporta-
miento, y ésta a la base de las opiniones.
d) Cogniciones, es decir índices de nivel de conocimiento de los diversos te-
mas estudiados en el cuestionario. Revela el grado de confianza a conceder
a las opiniones sobre juicios subjetivos.
Las preguntas del cuestionario, según el modo de formularse, pueden ser cerradas
y abiertas.
Las cuestiones cerradas ofrecen al usuario que va a ser evaluado todas las alternati-
vas posibles, o al menos todas aquellas que mejor responden a la situación. El suje-
to no tiene sino elegir alguna o algunas, poniendo una señal convenida: una cruz,
rodear con un círculo, subrayar.... Suelen ser preguntas con la opción afirmativa y
negativa, y, a veces, no sé/sin opinión. Ejemplo:
¿Tiene en su domicilio acceso a Internet? Sí ( ) No ( )
En otras ocasiones las preguntas están categorizadas. Al usuario se le da a elegir
entre un abanico de opciones. Ejemplo:
¿Cuántos habitantes tiene la ciudad donde vive?
Menos de 2.000. ( ) De 2.001 a 5.000 ( ) De 5.001 a 10.000 ( )
De 10.001 a 20.000 ( ) De 20.001 a 50.000 ( ) De 50.001 a 100.000 ( )
Las respuestas o categorías que se ofrezcan a este tipo de preguntas han de reunir
dos condiciones esenciales: que sean exhaustivas y excluyentes. Las categorías o
respuestas serán exhaustivas si abarcan todos los casos que pueden darse. En ese
caso, ningún encuestado puede dejar de responder por no encontrar su categoría. Y
63
serán excluyentes, cuando ningún sujeto al contestar al cuestionario, pueda elegir
válidamente dos respuestas distintas de la misma pregunta.
Algunas preguntas se presentan bajo una escala cuantitativa, correspondiente al
número de veces que se repite una acción determinada. En este caso es conveniente
elegir un número par de opciones, cuatro o seis, con objeto de evitar que el encues-
tado pueda responder a la opción central, sin esforzarse en reflexionar. Así ocurre
por ejemplo:
En las clases teóricas del curso de formación que está haciendo, ¿Toma apuntes o
notas de lo que dice el expositor?
Nunca ( ) Pocas veces ( ) Con frecuencia ( ) Siempre ( )
Por otro lado, las preguntas abiertas no ofrecen ninguna categoría para elegir. Sólo
contienen la pregunta y no ofrecen ningún tipo de respuesta, dejando ésta a la con-
sideración del sujeto que completa el cuestionario.
Posibilidades y limitaciones de las cuestiones abiertas y cerradas.
Las preguntas abiertas son más fáciles de formular, puesto que no hay que prever
ningún tipo de respuesta ni investigar acerca de la exhaustividad y exclusión de las
categorías propuestas. Sin embargo, la dificultad aparece a la hora de tratar la in-
formación recogida. Es muy difícil reducir contestaciones dispares a unas categor-
ías significativas que permitan recoger la información más relevante, con objeto de
poderla cuantificar después.
Siguiendo con la idea de realizar un estudio sobre uso de tiempo libre, a continua-
ción se señalan algunos cuestionamientos, así como sus posibles respuestas.
Actividades de tiempo libre que le gustan y que practica habitualmente: ir de co-
pas; ir a discotecas, bailar; salir a reunirse con amigos; hacer deporte; asistir a
competencias deportivas; ir de excursión; ir al cine; ir al teatro; ir a conciertos;
escuchar música; ir a museos, exposiciones; no hacer nada. Al final del capítulo, a
64
manera de ejemplo se presenta el cuestionario para investigar el uso de tiempo libre
de los estudiantes de la UADYCS.
Ámbito de aplicación.
El ámbito de aplicación de la encuesta se refiere al espacio comprendido dentro de
límites geográficos determinados. Éste puede ser internacional, nacional, regional,
local, institucional.
Universo.
El universo del estudio es el número total de individuos u objetos que tienen carac-
terísticas observables comunes, en el ámbito de aplicación definido. Todos los
mexicanos, si el ámbito es la República mexicana; Todos los tamaulipecos, si el
ámbito es el estado de Tamaulipas; todas las personas que viven en la colonia
Obrera y que tienen entre 12 y 36 años, si el estudio fuera de esa área geográfica.
2.7 Tipo de muestreo
Un vez conocido el marco de estudio o listas actualizadas del universo y calculado
el tamaño apropiado de la muestra, se procede a definir los candidatos a proporcio-
nar los datos. Existen básicamente dos tipos de muestra: Probabilística y no pro-
babilística.
Muestreo probabilístico
Una muestra probabilística es aquella en que los sujetos de la muestra se eligen
sobre la base de probabilidades. Hay cuatro tipos de muestras de probabilidad más
comunes: aleatoria simple, la muestra sistemática, la muestra estratificada y, la
muestra de agrupación.
65
a) El muestreo aleatorio simple puede ser de dos tipos:
1. Sin reposición de los elementos: cada elemento extraído se descarta para
la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una
"población" de bombillas para estimar la vida media de las bombillas que
la integran, no será posible medir más que una vez la bombilla selecciona-
da. Al descartar el elemento extraído, aumenta la probabilidad de extrac-
ción de los subsiguientes.
2. Con reposición de los elementos: las observaciones se realizan con reem-
plazo de los individuos, de forma que la población es idéntica en todas las
extracciones. En poblaciones muy grandes, la probabilidad de repetir una
extracción es tan pequeña que el muestreo puede considerarse sin reposi-
ción aunque, realmente, no lo sea.
Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la
extracción de números aleatorios mediante equipo de cómputo, calculadoras o ta-
blas construidas para ese propósito.
b) Muestra sistemática
Se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo.
Primero hay que identificar las unidades y relacionarlas con el calendario (cuando
proceda). Luego hay que calcular una constante, que se denomina coeficiente de
elevación, k= N/n; donde N es el tamaño del universo y n el tamaño de la muestra.
Determinar en qué fecha se producirá la primera extracción, para ello hay que ele-
gir al azar un número entre 1 y k; de ahí en adelante tomar uno de cada k intervalos
regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del
fenómeno.
Elegir aleatoriamente un número m, entre 1 y k; tomar como muestra los elementos
de la lista: {em, em+k, em+2k, em+3k….em+(n-1)k}
66
Esto es lo que se denomina muestreo sistemático. Cuando el criterio de ordenación
de los elementos en la lista es tal que los elementos más parecidos tienden a estar
más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio sim-
ple, ya que recorre la población de un modo más uniforme. Por otro lado, es a me-
nudo menos probable de cometer errores con un muestreo sistemático que con el
aleatorio simple.
c) Muestra estratificada.
Consiste en la división previa de la población de estudio en grupos o clases que se
suponen homogéneos respecto a la característica a estudiar. A cada uno de estos
estratos se le asignaría una cuota que determinaría el número de miembros del
mismo que compondrán la muestra. Dentro de cada estrato el muestreo se realizaría
mediante el método de muestra aleatoria simple. Según la cantidad de elementos de
la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de
muestreo estratificado:
1. Asignación proporcional: El tamaño de cada estrato en la muestra es pro-
porcional a su tamaño en la población.
2. Asignación óptima: la muestra recogerá más individuos de aquellos estra-
tos que tengan más variabilidad. Para ello es necesario un conocimiento
previo de la población.
Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por
separado las opiniones de hombres y mujeres pues se estima que, dentro de cada
uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está
compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra
que contenga también esa misma proporción.
d) Muestra de agrupación o conglomerado
Cuando la población se encuentra dividida, de manera natural, en grupos que se
suponen que contienen toda la variabilidad de la población, es decir, la representan
67
fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de
estos grupos o conglomerados para la realización del estudio.
Dentro de los grupos seleccionados se ubicarán las unidades elementales, por
ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a
todas las unidades, es decir, los miembros del grupo, o sólo a algunos de ellos,
seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de
información muestral cuando, dentro de cada conglomerado, se extraen los indivi-
duos por el método aleatorio simple, el muestreo se llama bietápico.
Las ideas de estratificación y conglomerados son opuestas. El primero funciona
mejor cuanto más homogénea es la población respecto del estrato, aunque más
diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados
deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.
Muestreo no probabilístico
El muestreo no probabilístico se realiza cuando la extracción de la muestra y su
tamaño para ser representativa se valoran de forma subjetiva. Se basa en una buena
estrategia y el buen juicio del investigador. Para muchos estudios sólo se dispone
de una muestra no probabilística como una muestra de juicio, de cuota o de parte
grande.
Figura 2.8 Tipos de muestra
No
ProbabilísticaProbabilística
Tipo de
muestra
De juicio
De cuota
De parte grande
Aleatoria simple
Sistemática
Estratificada
Agrupación
68
Tamaño de la muestra
Para que la encuesta pueda ser aplicada con alto grado de confiabilidad, la muestra,
del universo debe de cumplir dos requisitos fundamentales: que sea representativa
y que sea adecuada.
Para que la muestra sea representativa, se requiere especificar una serie de carac-
terísticas que determinan la pertenencia de sus miembros y al universo a que perte-
necen. Mientras más específicas sean sus características, más fácil será su estudio.
Si se quisiera hacer un estudio de la vivienda en Cd. Victoria, para un estudio de
mercado de muebles del hogar, se requiere ser más específico del tipo de vivienda
(residencial, de interés social, autoconstrucción, ubicación geográfica, entre otras),
las variables a obtener podrían ser, según el interés del estudio: número de cuartos,
mediada de los mismos, usos, necesidades de muebles, nivel de ingreso de los habi-
tantes, entre otras. La especificación del universo o marco de estudio, reduce los
esfuerzos y recursos requeridos para su realización.
Además de que la muestra debe cumplir el requisito de representatividad, también
se requiere que sea adecuada, y lo es, cuando tiene la magnitud suficiente para que
las características objeto del estudio (variables) sean confiables para inferir las
características del universo.
Para determinar la magnitud de la muestra existen dos formas, la primera es a
través de conocer el error estándar de la población o por lo menos un error estima-
do. El error estándar mide la dispersión en torno a la media de una distribución
hipotética. Los valores que forman esta distribución hipotética son las medidas de
todas las posibles muestras de un universo. Así pues, la media de esta distribución
es la media de las medias de todas las posibles muestras y se puede considerar co-
mo la media verdadera del universo (Goode y Hatt, 1975: 281). La fórmula para
calcular el tamaño de la muestra se deriva de la fórmula de estandarización:
69
Z = X-µx
σx
n
La diferencia entre la media de la muestra y la media de la población se conoce
como error de muestreo y se denota como Es. Por lo que la ecuación queda como:
Es = Z σ/n½; despejando nos resulta que n = Z
2(σ /Es)
2
Donde Es representa al error estándar, Z es el valor crítico determinado, que co-
rresponde a (1- α)/2 del centro de una distribución normal estandarizada., σ la des-
viación estándar y n el tamaño de la muestra. Lo que significa que si se conoce la
desviación estándar de la población y el error estándar se puede conocer el tamaño
de la muestra.
La otra forma de estimar el tamaño de la muestra es cuando la distribución bino-
mial puede ser aproximada a la distribución normal, esto es cuando np y n(1-p)
adquieren un valor de cuanto menos 5.
Z =
p - p
p(1-p)n
s
La diferencia entre la porción de la muestra y la porción de la población ps - p se
conoce como error de muestreo y se denota como e. Por lo que la ecuación queda
como:
Z p(1-p)
n = e, despejando n se tiene que: n = Z
2 p(1-p)
e2
Por ahora es suficiente saber que existe la manera de calcular el tamaño de la
muestra, la aplicación práctica se realizará en temas posteriores.
Método de aplicación del cuestionario
Existen básicamente cuatro modos mediante el cual se realiza el trabajo de la apli-
cación del cuestionario de una encuesta: la entrevista personal, la entrevista tele-
fónica, la de correo tradicional y últimamente a través de Internet (correo electróni-
co o de página Web). Cada modo tiene ventajas y desventajas de aplicación.
70
Tabla2.1 Características de los métodos de aplicación del cuestionario
Tratamiento de datos
Una vez que se aplican los cuestionarios, se procede a digitalizarlos, considerando
cada cuestionario como un registro. Un registro es un conjunto de campos que con-
tienen los datos que pertenecen a una misma repetición de entidad. La estructura
implícita de un registro y el significado de los valores de sus campos exige que
dicho registro sea entendido como una sucesión de datos, uno en cada columna de
la tabla.
Elaboración de informe de resultados
El informe es un documento, en el cual quedan plasmados una serie de procedi-
mientos de obtención de datos, cálculos, resultados, gráficas, análisis y conclusio-
nes, que permiten a otras personas conocer y entender sobre lo que se investigó y a
las conclusiones a que se han llegado. Todo informe tiene un carácter muy particu-
lar. Estará definido según sus autores, el tipo de trabajo que se reporta y el tema
estudiado. Sin embargo, existe un mínimo de apartados que debe contener:
Carátula o portada de identificación
Índice de contenido
Fuente: Shiffman & Kanuk: Consumer Behavior, 2002
71
Introducción o resumen
Objetivos que se persiguen
Marco Teórico en que se fundamenta la investigación
Tratamiento estadístico de datos obtenidos (medidas resumen)
Resultados obtenidos (comparación con la teoría)
Conclusiones y recomendaciones
2.8 Uso de una tabla de números aleatorios
Una tabla de números aleatorios consiste en generar una serie de dígitos aleatorios
y ordenarlo en el orden que se generaron en filas y columnas. La tabla de dígitos se
utiliza en lugar de utilizar un ánfora con códigos de identificación de cada uno de
los miembros de la población. Para usarla es necesario primero asignar un número
de código a cada elemento de la población; el elemento escogido como parte de la
muestra será aquel que coincida con los datos encontrados en la tabla. Para encon-
trar el primer dígito de la tabla, se escoge al azar una casilla y se comienza a agre-
gar un número de dígitos igual a los que se utilizaron para definir los elementos de
la población.
Tabla 2.2 500 números generados aleatoriamente
07100 90373 24960 26488 33661 13259 23749 25534 24894 15189
83910 56611 78253 72888 97998 10168 10017 21426 71997 07445
21710 61976 99909 65107 35231 64810 29109 48093 21129 12329
24202 52068 18888 40414 52187 35963 53734 31101 57979 85458
91421 85578 76917 29831 40572 63702 39652 57484 11609 14730
64858 79534 71939 43688 06496 76212 99004 58751 24902 27438
25927 27277 84748 76738 98954 31559 47986 06848 21507 60155
26152 15619 46603 96551 83952 72504 97556 74224 44859 08726
46286 55571 39459 48329 59223 61955 58590 22680 32722 33059
25868 27581 83049 25989 87956 80005 30420 78024 35990 10565
07100 90373 24960 26488 33661 13259 23749 25534 24894 15189
83910 56611 78253 72888 97998 10168 10017 21426 71997 07445
21710 61976 99909 65107 35231 64810 29109 48093 21129 12329
24202 52068 18888 40414 52187 35963 53734 31101 57979 85458
91421 85578 76917 29831 40572 63702 39652 57484 11609 14730
64858 79534 71939 43688 06496 76212 99004 58751 24902 27438
25927 27277 84748 76738 98954 31559 47986 06848 21507 60155
26152 15619 46603 96551 83952 72504 97556 74224 44859 08726
46286 55571 39459 48329 59223 61955 58590 22680 32722 33059
25868 27581 83049 25989 87956 80005 30420 78024 35990 10565
72
Por ejemplo, si la población es de 1,000 elementos, cada uno de ellos se identifica
con un número de tres dígitos. Suponiendo que se escogió al azar la casilla de la
columna 5 de la segunda fila, el primer número formado por cuatro dígitos será
979, y los subsiguientes serán: 981, 016, 810, 017, 214, 267, 199, 707, 445,
……….., los números de identificación de los 1,000 elementos estarían entre el
000 y el 999. Al terminarse la tabla, se continúa con el inicio de ésta, Si se llegara a
repetir un número, este se descarta y se continúa formando los necesarios.
2.9 Errores comunes en la aplicación de una encuesta
Al momento de recopilar los datos que serán procesados es susceptible de cometer
errores, así como durante el cómputo de los mismos. Aún y cuando la definición
de la muestra utilice el muestreo probabilístico, ésta está expuesta a errores de apli-
cación. Existen cuatro tipos de errores más comunes: de cobertura o sesgo, de no
respuesta, de muestreo y de medición.
Error de cobertura consiste en la exclusión de ciertos grupos de la población.
Para evitar este tipo de error es necesario contar con un marco apropiado de la po-
blación o una lista actualizada de todos los sujetos de donde se extraerá la muestra.
Error de no-respuesta o sesgo de no-respuesta resulta del fracaso de recolectar
datos sobre el total de los sujetos de la muestra.
Error de Muestreo refleja la variedad o las diferencias de oportunidad de muestra
a muestra basándose en la probabilidad de los sujetos que están siendo selecciona-
dos en las muestras particulares. El error de muestreo puede reducirse tomando
tamaños de muestra mayores, aunque esto incrementará el costo de aplicación.
Error de Medición se refiere a inexactitudes en las respuestas registradas que
ocurren debido a una mala formulación de las preguntas, al influjo del encuestador
sobre el encuestado o a las exageraciones o minimizaciones que hace el encuesta-
do.
73
Si la muestra se selecciona correctamente, tendrá básicamente las mismas propie-
dades que la población de la cual fue extraída; pero si el muestreo se realiza inco-
rrectamente, entonces puede suceder que los resultados no signifiquen nada. Re-
cuerde el acrónimo GIGO. Existen dos maneras de resolver los problemas deriva-
dos de los errores de aplicación: (1) analizando cuidadosamente los datos y tratar
de recolectar los datos más confiables de aquellos individuos cuyas respuestas son
inusuales y (2) realizar una nueva muestra aleatoria que sustituya las que se descar-
taron.
Existen otros errores que no tienen nada que ver con la digitalización y que no son
tan fácilmente identificables. Algunos de estos errores son:
Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas
antes de comenzar a estudiar un problema, y existen muchas maneras en que una
perspectiva o estado mental pueda influir en la recopilación y en el análisis de la
información. En estos casos se dice que hay un sesgo cuando el individuo da mayor
peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso
extremo de sesgo sería la situación donde primero se toma una decisión y después
se utiliza el análisis estadístico para justificar la decisión ya tomada.
Datos no comparables: el establecer comparaciones es una de las partes más im-
portantes del análisis estadístico, pero es extremadamente importante que tales
comparaciones se hagan entre datos que sean comparables.
Proyección descuidada de tendencias: la proyección simplista de tendencias pa-
sadas hacia el futuro es uno de los errores que más ha desacreditado el uso del aná-
lisis estadístico.
74
2.10 Resumen.
En forma general, existen dos tipos de estudios estadísticos: estudios enumerativos
y estudios analíticos. Ambos sirven para la toma de decisiones, los primeros sobre
las características de una población y los segundos sobre las características de un
proceso.
El capítulo trató también sobre la recolección y presentación de datos para un estu-
dio estadístico. Lo primero que se definió fue que existen dos tipos de variable:
categórica y numérica, a su vez, las variables categóricas se pueden medir en una
escala nominal u ordinal, mientras que las variables numéricas se miden en una
escala cardinal (de intervalo o de relación). La medición cardinal o escalar son de
tipo discreto o continuo.
Una vez que se define el tipo de variables (datos) que se requieren para realizar el
estudio estadístico, es necesario identificar la fuente que los proporcione. Existen
cuatro fuentes para obtener los datos: uso de datos publicados, diseño de experi-
mento, por observación y realización de encuesta.
En la realización de estudios socio-demográficos, la forma más directa y rápida de
obtener los datos es a través de la realización de una encuesta, entendiendo a esta
como un conjunto de preguntas normalizadas dirigidas a una muestra representati-
va de población o instituciones, con el fin de conocer estados de opinión o hechos
específicos. Para la realización de la encuesta se requiere definir o conocer el
ámbito de estudio, el universo de estudio y definición de la muestra. Para definir
la muestra se utiliza el método no probabilístico y probabilístico, sea cualquiera
de los dos métodos, la definición de la muestra tiene riesgo de errores, los más
comunes son: error de cobertura o sesgo de selección, error de no respuesta o
sesgo de no respuesta, error de muestreo y error de medición.
75
2.11 Términos clave
Datos
Datos continuos
Datos discretos
Definición operacional
Encuesta
Error de cobertura
Error de medición
Error de muestreo
Error de no respuesta
Est. de Experimentación
Estudio analítico
Estudio de Observación
Estudio enumerativo
Fuente primaria
Fuente secundaria
GIGO
Medición cardinal
Medición de intervalo
Medición de relación
Medición nominal
Medición ordinal
Muestra adecuada
Muestra de agrupación
Muestra estratificada
Muestra sistemática
Muestreo con reemplazo
Muestreo no probabilístico
Muestreo probabilístico
Muestreo sin reemplazo
Números aleatorios
Variable categórica
Variable numérica
2.12 Problemas de repaso del capítulo.
1. Para cada inciso siguiente, indique si el estudio es enumerativo o analítico, ar-
gumente la elección.
a) La universidad requiere conocer el número de estudiantes inscritos en cla-
ses con horario anterior a las 9:00 hs.
b) Una empresa desea reducir el número de errores en el cálculo de pago de
horas extras.
c) La Universidad desea determinar si la asistencia total de alumnos inscritos
en clases que comienzan antes de las 9:00 horas aumenta o disminuye con
relación al tipo de materia impartida a esas horas.
76
d) La UADYCFHG desea determinar las razones de los estudiantes por las
cuales ha aumentado la cantidad de inscritos en la carrera de Negocios In-
ternacionales.
e) Una empresa desea realizar un estudio sobre cómo reducir el número de
errores en la facturación.
f) Una empresa desea saber el nivel de ingresos de sus clientes
g) Una empresa desea saber si el sistema de producción ha reducido el núme-
ro de piezas defectuosa con las mejoras de proceso instrumentadas.
h) Una empresa desea conocer el nivel de precios de mercado de los produc-
tos que comercializa.
i) Una empresa desea saber las características de preferencia de marca en
pasta dental.
j) La UAT desea conocer las intenciones de ingreso a la Universidad de los
estudiantes de preparatoria.
2. ¿Cuál es la diferencia entre una un estudio estadístico enumerativo y un estudio
estadístico analítico?
3. ¿Cuál es la diferencia entre una variable aleatoria numérica y una categórica?
4. ¿Cuál es la diferencia entre un dato discreto y dato continuo?
5. ¿Cuáles son los niveles de medición?
6. ¿Qué significa una definición operacional?
7. ¿Cuál es la diferencia entre una muestra probabilística y una no probabilística?
8. ¿Cuántos tipos de muestreo probabilístico existen?
9. ¿Cuál es la diferencia entre un muestreo simple con reemplazo y un muestreo
simple sin reemplazo?
10. ¿Qué tipo de errores más comunes se presentan en la definición de la muestra?
77
11. ¿Qué se requiere realizar para editar los datos en una hoja de cálculo electróni-
ca o en un paquete estadístico?
12. Determine en cada uno de los incisos si la variable es categórica o numérica. Si
es numérica determine si es discreta o continua.
a) Número de credencial de estudiante
b) Tipo de automóvil de la VW.
c) Cargo mensual, en pesos y centavos, del recibo de consumo de energía
eléctrica.
d) Lugar en que llegaron los corredores en la carrera universitaria.
e) Nivel de categoría de la planta docente.
f) Especialidad académica de los catedráticos.
g) Disponibilidad de efectivo para actividades de recreación.
h) Ingresos mensuales de los catedráticos.
13. Suponga que requiere editar la siguiente información estadística de los estu-
diantes de la UADYCFHG después de la segunda semana de clases, señale el
tipo de variable y el nivel y la escala de medición que le corresponde.
a. Matrícula
b. Edad
c. Género
d. Estado civil
e. Lugar de origen antes de ingresar a la Universidad
f. Situación laboral (empleado, desempleado, autoempleo)
g. Dependencia económica familiar (autónomo, paternal, otro)
h. Número de miembros de la familia
i. Ingresos familiares
j. Período de estudio (semestre que impera)
78
k. Carrera que estudia
l. Turno académico
m. Número de materias que cursa en el período actual
n. ¿Consideras importante contar con libros de texto?
o. Cantidad de dinero gastada en adquirir libros
p. Número de libros de textos con que cuenta (uno por materia)
q. Dispone de computadora personal
r. Número de horas de uso diario de computadora
s. Número de horas de uso diario de Internet
t. Gasto mensual en uso de Internet (conexión o uso de chat)
14. Elabore un cuestionario de aplicación en la UADYCS sobre un tema que sea de
su interés, como ausentismo, tabaquismo, alcoholismo, deportivismo, aprove-
chamiento escolar, métodos de enseñanza, etc.
79
2.13 Mapa conceptual de los estudios estadísticos.
Enumerativos Analíticos
Método estadístico
•nominal•ordinalCategóricos
•Cardinal (de intervalo –de relación): discretos -continuos
Numéricos
•Gobierno•Industria
•Instancias especializadas
Secundaria
•Experimentación•Observación
•EncuestaPrimaria
Fuente de datosElección del tema
Diseño de cuestionario
Ámbito de aplicación
Definición del universo
Definición de tipo de muestreo
Método de aplicaaciónPreparación de datos
80
81
Capítulo 3
Organización y presentación
gráfica de datos numéricos
**********************
Objetivo del
Capítulo
Mostrar como organizar y presentar en
tablas y diagramas los datos numéricos
82
83
3.1 Introducción
En los apartados anteriores se ha visto la importancia de aplicación del método
estadístico y la importancia de contar con datos de origen, confiables y suficientes,
a través del muestreo. Puesto que el muestreo ahorra tiempo, dinero y esfuerzo, se
reitera la conveniencia de utilizar la muestra de datos para la realización de estu-
dios estadísticos, sean enumerativos o analíticos (de proceso). Sin importar si los
datos corresponden a una muestra o a una población, cuando estos son en una can-
tidad mayor de 10, la mejor manera de interpretar sus valores es por medio de un
resumen y una representación gráfica.
Este apartado se trata sobre la presentación de datos. En particular se mostrará
cómo grandes series de datos numéricos pueden presentarse de una manera que
facilite su análisis. Las observaciones independientes pueden registrarse en una
forma ordenada o diagrama de tallo de hojas y luego presentarse en forma tabular,
como la distribución de frecuencias o en forma gráfica como histograma, polígono
de frecuencias o diagrama de Pareto.
Al término del capítulo, el alumno podrá comprender:
1. La digitalización de datos
2. Presentar los datos en forma resumida, ordenada e interpretativa.
3. La ventaja de construir el diagrama de Tallo y hojas.
84
4. La utilidad de agrupar los datos en clases.
5. Construir los diferentes tablas y diagramas de datos: histograma, polígono
de frecuencias o diagrama de Pareto.
3.2 Tabla de datos originales sin orden y ordenados
Cuando se recolecta una serie de datos, habitualmente se hace sin ningún orden, es
decir se capturan tal y como le llegan al capturista. Posterior a la captura, el analis-
ta arreglará los datos de acuerdo a sus necesidades. Generalmente la captura de
datos de una encuesta corresponde a un conjunto de registro que contienen, cada
uno de ellos, los datos que pertenecen a una misma entidad. Se le asigna automáti-
camente un número consecutivo (número de registro) que en ocasiones es usado
como índice, aunque lo normal y práctico es asignarle a cada registro un campo
clave nominal para su búsqueda.
En estadística, y concretamente en el contexto de una base de datos, un registro
representa un ítem único de datos implícitamente estructurados en una tabla (carac-
terísticas de los objetos o sujetos en estudio). En términos simples, una tabla de una
base de datos puede imaginarse formada de filas y columnas o campos. Cada fila
de una tabla representa un conjunto de datos relacionados, y todas las filas de la
misma tabla tienen la misma estructura. La estructura implícita de un registro y el
significado de los valores de sus campos exige que dicho registro sea entendido
como una sucesión de datos, uno en cada columna de la tabla. La fila se interpreta
entonces como una variable relacional compuesta por un conjunto de secuencias
ordenadas, cada una de las cuales consta de dos ítems: el nombre de la columna
relevante (dato) y el valor que esta fila provee para dicha columna.
Supongamos que una empresa está interesada en estudiar las características del
parque vehicular que circuló en los Estados Unidos en el año de 1970. Para ello
recopiló las características de los 30 automóviles más vendidos en ese año. Las
variables a estudiar son: rendimiento de millas por galón (mpg); centímetros cúbi-
85
cos del motor (engine); caballos de fuerza (horse); peso en libras (weight), tiempo
de aceleración de 0 a 60 millas/hora (accel), año de fabricación (year); origen de
fabricación (origin) y número de cilindros del motor (cylinder). Los datos obteni-
dos sin ordenar se presentan en la tabla 3.1
Tabla 3.1 Hoja de captura de registros sin ordenar
En este ejemplo lo que se trata de mostrar es que en un solo registro existen diver-
sas variables relacionadas y que es difícil realizar cualquier análisis en el orden con
86
que se capturaron los datos. Un primer análisis estadístico se podría realizar al or-
denar los datos en forma ascendente o descendente, es decir de menor a mayor o de
mayor a menor. En la tabla 3.2 se puede observar el cambio de posición de los
registros tomando en consideración el orden de los valores ascendentes de la varia-
ble mpg.
Tabla 3.2 Hoja de registros ordenada por una variable de interés
En este primer intento de análisis estadístico podemos observar los valores míni-
mos y máximos de la variable mpg. También se puede observar la relación directa
87
o inversa que existe entre las variables. Por ejemplo, se puede observar que a ma-
yor rendimiento, menor tamaño del motor, menor fuerza en caballos y menor peso
en libras.
Es importante señalar que cuando el número de registros es más grande y sobrepa-
sa más de una hoja de cálculo, este procedimiento es poco útil. Mientras mayor sea
el número de observaciones registradas más difícil es sacar provecho a la clasifica-
ción ordenada. En tales situaciones es útil agrupar los datos en un diagrama de tallo
y hojas, con el fin de estudiar las características de los datos.
3.3 Diagrama de tallo y hojas
Un diagrama de tallo y hojas separa el valor de los datos en un dígito guía y un
dígito gregario, los dos asociados representan el valor del dato. El diagrama de
tallo y hojas se puede construir desde la tabla de datos sin ordenar o desde la tabla
de datos ordenada. Dependiendo del grado de exactitud que requiere el estudio
estadístico, las cifras de los valores, siguiendo la metodología tradicional, es con-
veniente trabajar con dos o tres dígitos. Por ejemplo 2,356 libras se puede represen-
tar por 2.4 miles de libras; 50.726 toneladas por 51 toneladas.
Usando los datos sin ordenar de la tabla 3.1 se construye fácilmente el diagrama de
tallo y hojas. Observe que el primer registro tiene el dato de 18, el segundo de 15,
el tercero de 18…… Registrando todos los valores de la variable mpg sería:
Tallo & hojas
1 85867544454687545548
2 1421765453
El valor del tallo es:10
Cada hoja: 1 caso(s)
Número de casos: 30
Figura 3.1 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles sin ordenar (mpg). Fuente: tabla 3.1
88
Colocando los dígitos en forma ascendente de acuerdo a la tabla 3.2, el diagrama
arreglado quedaría de la siguiente forma:
Tallo & hojas
1 44444455555566778888
2 1124455667
El valor del tallo es:10
Cada hoja: 1 caso(s)
Número de casos: 30
Tal vez el valor de los datos está muy concentrado y sea conveniente incrementar
el número de tallos. Aquí lo que procede es dividir cada valor de tallo en valores
bajos (0 a 4) y valores altos (5 a 9)
3.4 Tabulación de datos numéricos: distribución de frecuencia
Utilizando los datos originales es posible construir tablas y diagramas que faciliten
el análisis estadístico, así, una tabla de mucha utilidad es la tabla de distribución de
frecuencias, en ella se disponen los datos en forma agrupada por categorías, orde-
nadas en forma ascendente o descendente. Para construir una tabla de frecuencias
debe ponerse atención a 3 conceptos fundamentales:
Figura 3.2 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada Fuente: tabla 3.2
Figura 3.3 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada y ampliando en número de tallos. Fuente: tabla 3.2
89
1. Seleccionar el número de agrupamientos, o clases.
2. Obtener un intervalo de clase de cada agrupamiento y
3. Establecer los límites de cada intervalo de clase
En forma general, dependiendo el número de observaciones, el número de clases de
intervalo no debe de ser menor de 5 y mayor de 15, ambos extremos dificultan la
interpretación. Cada clase o intervalo tendrá una amplitud igual.
Una manera para determinar la amplitud de cada agrupamiento o intervalo de clase,
es aplicando la relación del rango y el número de intervalos deseado. Considerando
los datos de la tabla 3.2, se observa que el rango de la variable mpg es 27-14 = 13.
Si se quisiera 6 tipos de clase, los valores de cada clase serían de 13/6= 2.16. Para
conveniencia y facilidad de lectura, el intervalo de clase seleccionado se redondea
a 2 mpg. Los límites de los diversos agrupamientos deben de establecerse de mane-
ra que incluyan todas las observaciones. Así, el primer intervalo de clase se esta-
blece desde mayor de 12 hasta menor o igual que 14, el segundo desde mayor de
14 hasta menor o igual que 16 etc. Estableciendo los límites de cada clase, de esta
manera las 30 observaciones se han registrado en 8 clases, como se puede observar
en la tabla 3.3 de distribución de frecuencia y porcentaje de la muestra.
Tabla 3.3 Distribución de frecuencias y porcentaje de la muestra
Clase Frecuencia porcentaje
12<x<=14 6 20.00
14<x<=16 8 26.66
16<x<=18 6 20.00
18<x<=20 0 0.00
20<x<=22 3 10.00
22<x<=24 2 6.66
24<x<=26 4 13.33
26<x<=28 1 3.33
90
La principal ventaja de utilizar la tabla de distribución de frecuencias es que vi-
sualmente se pueden detectar algunas características de la muestra, tales como el
alcance aproximado de las observaciones, que va desde 12 hasta 28 mpg, tendiendo
a agruparse en los valores de 12 a 18 mpg.
El hecho de agrupar los valores observados en clase, implica transformar una va-
riable de cardinal (de cociente o de intervalo) en una variable categórica ordinal de
orden débil que no se identifica los valores individuales dentro de un intervalo.
Para atenuar un poco esta desventaja, se acostumbra a utilizar el punto medio. El
punto medio de una clase (o marca de clase) es punto de la mitad de los límites de
cada clase y es representativo del valor de la clase. La tabla de distribución de fre-
cuencias sirve para dibujar tres importantes diagramas: el histograma o diagrama
de distribución de frecuencias, el polígono de frecuencias y el diagrama de Pareto.
3.5 Histograma o diagrama de distribución de frecuencias
El histograma es una gráfica de barras que permite describir el comportamiento de
un conjunto de datos en cuanto a su tendencia central, forma y dispersión. El histo-
grama permite que de un vistazo se pueda tener una idea objetiva sobre la calidad
de un producto, el desempeño de un proceso o el impacto de una acción de mejora.
La correcta utilización del histograma permite tomar decisiones no solo con base
en la concentración de valores, sino también con base en la dispersión y formas
especiales de comportamiento de los datos. El histograma se construye a partir de
la tabla de distribución de frecuencias.
Para evitar posibles anormalidades en la construcción del histograma se procede
seguir las siguientes instrucciones:
a. Determinar el rango de datos. La diferencia entre el dato máximo y el dato
mínimo.
91
b. Obtener el número de clases o barras y la longitud de clase. Se puede utilizar
los definidos en la tabla de frecuencias.
c. Construir los intervalos de clase con relación al paso anterior.
d. Obtener la frecuencia de cada clase. Se cuentan los datos que caen en cada
intervalo de clase.
e. Graficar el histograma: se grafican en barras, en las que su base es el interva-
lo de clase y la altura sean las frecuencias de las clases.
La grafica de frecuencias del ejemplo del rendimiento de los automóviles (mpg),
se observa en la figura 3.4
Figura 3.4 Histograma o gráfica de distribución de frecuencias
1412 16 18 20 22 24 26 28
0
2
4
6
8
Millas por galón
20% 20%
10%
6.66%
13.33%
3.33%
0%
26.66%
Fre
cuencia
Fuente: Tabla 3.3
Polígono de frecuencias
Otro gráfico utilizado para el análisis de datos es el polígono de frecuencias, el cual
se forma con la unión lineal de los puntos medios de cada clase. Dado que la unión
de los puntos medios es a través de rectas, el polígono se muestra a veces en forma
dentada. Sin embargo mientras mayor sea el número de observaciones y los inter-
valos de clase reducidos, este efecto tiende a suavizarse.
92
Figura 3.5 Polígono de frecuencias
1412 16 18 20 22 24 26 28
0
2
4
6
8
20% 20%
10%
6.66%
13.33%
3.33%
26.66%
Millas por galón
Fre
cue
ncia
Fuente: Tabla 3.3
Tabla y polígono de porcentaje acumulado
Estas herramientas de análisis de datos son de considerable importancia, porque
nos señalan cómo se concentran los valores de las observaciones. En el caso del
ejemplo, se puede observar que las primeras tres clases concentran 20 observacio-
nes, que en conjunto representan el 66.66%. Para construir la tabla de frecuencia y
porcentaje acumulado se parte de la tabla 3.3 de distribución de frecuencias y por-
centajes y se realiza el agregado de cada clase hasta la última, que terminará con el
número total de observaciones y el 100% acumulado.
Tabla 3.4 Distribución de frecuencias y porcentaje acumulado
Frecuencia Porcentaje
Clase Frecuencia acumulada porcentaje acumulado
12<x<=14 6 6 20.00 20.00
14<x<=16 8 14 26.66 46.66
16<x<=18 6 20 20.00 66.66
18<x<=20 0 20 0.00 66.66
20<x<=22 3 23 10.00 76.66
22<x<=24 2 25 6.66 83.33
24<x<=26 4 29 13.33 96.67
26<x<=28 1 30 3.33 100.00
93
El polígono de porcentajes acumulados, figura 3.6, se construye a partir de los
cálculos de la tabla 3.4, donde en el eje horizontal se registran los puntos medios
del intervalo de clase y en el eje vertical se registran las frecuencias o porcentajes
acumulados partiendo de cero.
Figura 3.6 Polígono de frecuencias y porcentajes acumulados
1412 16 18 20 22 24 26 28
0
20%
40%
60%
80%
100%
20%
66.66%
76.66%
83.33%
96.67%100%
46.66%
Millas por galón
Fre
cuen
cia
Fuente: tabla 3.4
3.8 Diagrama de Pareto
El diagrama de Pareto u 80-20, se construye ordenando en una tabla de frecuencias
desde la clase que mayor número de observaciones tenga hasta la de menor. El
diagrama permite llevar a cabo el principio de Pareto (pocos vitales, muchos trivia-
les) es decir, que hay muchos problemas sin importancia frente a unos pocos gra-
ves. Hay que tener en cuenta que tanto la distribución de los efectos como sus po-
sibles causas no son de carácter lineal sino que el 20% de las causas totales hace
que sean originadas el 80% de lo efectos.
94
Tabla 3.5 Distribución de frecuencias y porcentaje acumulado de mayor a
menor frecuencia.
Siguiendo con el mismo ejemplo, y derivado de la tabla 3.5 se puede elaborar el
muy útil diagrama de Pareto.
Figura 3.7 diagrama de Pareto
14-16 12-14 16-18 24-26 20-22 22-24 26-28 18-20
0
20%
40%
60%
80%
100%
26.66%
66.66%
79.99%
89.99%
96.65%
100%
100%
46.66%
Millas por galón
Fre
cuencia
porcentaje
Clase Frecuencia porcentaje acumulado
14<x<=16 8 26.66 26.66
12<x<=14 6 20.00 46.66
16<x<=18 6 20.00 66.66
24<x<=26 4 13.33 79.99
20<x<=22 3 10.00 89.99
22<x<=24 2 6.66 96.65
26<x<=28 1 3.33 99.99
18<x<=20 0 0.00 99.99
95
3.9 Resumen
El capítulo trató sobre el resumen de datos y representación gráfica de los mismos.
Al aplicar estadística a un problema científico, industrial o social, se comienza con
un proceso o una población a ser estudiada. Esta puede ser una población de perso-
nas en un país, de granos cristalizados en una roca o de bienes manufacturados por
una fábrica en particular durante un periodo dado. También podría ser un proceso
observado en varios instantes y los datos recogidos de esta manera constituyen una
serie de tiempo.
Por razones prácticas, en lugar de compilar datos de una población entera, usual-
mente se estudia un subconjunto seleccionado de la población, llamado muestra.
Los datos acerca de la muestra son recogidos por observación o por experimento,
como se pudo observar en el capítulo anterior. Los datos obtenidos ahora son agru-
pados por categorías. Los datos numéricos, dentro de un rango creado por la dife-
rencia longitudinal de los valores mínimo y máximo de la muestra, se agrupan por
clases de intervalo iguales. Con el fin de que no se traslapen los intervalos de clase,
se definen límites inferiores y superiores en cada intervalo de clase. Una vez deci-
dido, en base al rango de la muestra, en número de clases y el tamaño de intervalo,
se procede a realizar las tablas y diagramas de frecuencias simples o acumuladas.
3.10 Términos clave
Datos sin ordenar
Clasificación ordenada
Diagrama de tallo y hojas
Rango
Clase, límite de clase
Intervalo de clase
Tabla de distribución de frecuencias
Diagramas de distribución de fre-
cuencias: histograma, Polígono de
frecuencias, Diagrama de Pareto.
96
3.11 Problemas de repaso del capítulo
1. Explique la diferencia entre la tabla datos sin ordenar y ordenados
2. ¿Cuándo es más útil utilizar el diagrama de tallo y hojas que una tabla de
datos ordenada?
3. Explique la diferencia entre histograma de frecuencia, polígono de fre-
cuencia y polígono de frecuencia acumulado.
4. ¿Cuál es ventaja principal de uso del diagrama de Pareto.
5. Los datos de la siguiente tabla son los sueldos de una muestra aleatoria de
100 empleados con licenciatura en Negocios Internacionales egresados en-
tre el año 2000 y 2005.
24,300 82,500 22,500 23,550 57,000 30,300 38,850 36,150 35,550 20,100
24,750 54,000 48,000 35,100 40,200 28,350 21,750 110,625 45,150 24,000
22,950 26,400 55,000 23,250 21,450 27,750 24,000 42,000 73,750 25,950
25,050 33,900 53,125 29,250 21,900 35,100 16,950 92,000 25,050 24,600
25,950 24,150 21,900 30,750 45,000 27,300 21,150 81,250 27,000 28,500
31,650 29,250 78,125 22,350 32,100 40,800 31,050 31,350 26,850 30,750
24,150 27,600 46,000 30,000 36,000 46,000 60,375 29,100 33,900 40,200
72,500 22,950 45,250 30,750 21,900 103,750 32,550 31,350 26,400 30,000
68,750 34,800 56,550 34,800 27,900 42,300 135,000 36,000 28,050 22,050
16,200 51,000 41,100 60,000 24,000 26,250 31,200 19,200 30,900 78,250
a) Reduzca los datos a 2 dígitos y elabore un diagrama de tallo y hojas sin or-
denar y ordenado.
b) Forme una tabla de distribución de frecuencias (simple y acumulada) y de
porcentaje (simple y acumulada)
c) Elabore el histograma, el polígono de frecuencias y el diagrama de Pareto.
97
3.12 Mapa conceptual de organización y presentación de datos numéricos.
Digitalización de datos
(captura)
Orden ascendente
o descendente
Diagrama Tallo y hojas
Tabulación de datos
Histograma
Polígono de frecuencias
Diagrama de Pareto
98
99
Capítulo 4
Características de distribución
de datos numéricos
********************** Objetivo del
Capítulo
Comprender las características de los
datos numéricos representativas de la
población o de la muestra: tendencia
central, variación, forma) y sus medi-
ciones descriptivas de resumen
100
4.1 Introducción
Como se ha visto en los temas anteriores, la fase previa a cualquier estudio estadís-
tico es la recolección, organización y presentación de los datos. Los instrumentos
auxiliares para realizar esta tarea son básicamente las tablas de la base de datos, el
diagrama tallo y hojas, las tablas y diagramas de distribución de frecuencias relati-
vas y acumuladas. De aquí en adelante los temas a desarrollar estarán enfocados a
la elaboración de un resumen, descripción de las características de la distribución y
la interpretación de datos.
La concentración de datos numéricos de una variable de una población o muestra
aleatoria da lugar a tres principales clases de medidas del fenómeno en estudio:
medidas de posición, medidas de dispersión y medidas de deformación. Es necesa-
rio recordar que las características numéricas de la muestra se les denomina “es-
tadísticos” y las características de la población “parámetros”
Al término del capítulo, el alumno deberá ser capaz de:
1. Comprender el significado de la concentración de los datos numéricos a
través de las medidas de posición, medidas de dispersión y medidas de de-
formación.
2. Apreciar el valor de las técnicas de análisis de datos: los cinco puntos, la
gráfica de caja y sesgo.
101
4.2 Medidas de Posición de tendencia central
Las medidas de posición son unos estadísticos que nos sintetizan la información
sobre los datos que analizamos, facilitando su manejo. En lugar de trabajar con
toda la tabla de frecuencias, las medidas de posición resumen los valores significa-
tivos del conjunto de datos.
El término “promedio” se utiliza comúnmente para describir el valor de la parte
central de una distribución. Sin embargo, existen cinco diferentes medidas de ten-
dencia central que pueden tener diferente valor unas de otras, dependerá del grado
de concentración de los datos la que tenga mayor peso. Las cinco medidas de posi-
ción de tendencia central son: la media, la mediana, la moda, el rango medio y el
eje medio.
La media aritmética
La media aritmética, conocida también como media, es el promedio o medición
de tendencia central más utilizada. Se calcula sumando todos los valores de las
observaciones divididas entre el número de observaciones.
Por lo tanto, una muestra que contiene n observaciones X1, X2, X3, …….Xn, la
media aritmética x se puede calcular sumando todos los valores de X y dividiendo
entre el total de observaciones: x = ( X1 + X2 + X3 + …….Xn )/n, también se pue-
de expresar mediante la fórmula: x
=
Xii = 1
n
n
En donde:
n = tamaño de la muestra o número de observaciones.
Xi = diferentes valores que toma la variable aleatoria de la muestra.
x = media o valor promedio de la variable de interés de la muestra.
Si la distribución de valores en grandes y pequeños de la muestra fueran equivalen-
tes, la media aritmética es un valor representativo de la muestra; pero si hubiera
102
muchos valores pequeños y pocos grandes, viceversa, el valor de la media aritmé-
tica no sería muy representativo. Cuando existen valores extremos significativos la
media aritmética trasmite una representación distorsionada de los datos; así pues, la
media no sería el mejor promedio para describir las características de la muestra.
Para entender esta posible distorsión, a continuación se presentan dos pequeñas
muestras con la misma media pero características completamente distintas.
Suponga que, dentro de la misma base de datos se tomaron aleatoriamente dos
pequeñas muestras de 6 observaciones cada una, la media en ambas es igual, sin
embargo tienen diferentes características.
Tabla 4.1 Distribución de frecuencias de los valores de la variable mpg de dos
muestras aleatorias de 6 elementos c/u
∑
Xi de A Xi de B
16 14
17 15
18 17
18 18
21 22
22 26
112 112
Considerando la fórmula para calcular la media, la suma del valor de las observa-
ciones entre el número de observaciones, es decir, x = 112/6 = 18.66 para ambas,
sin embargo la diferencia de características se observa en los siguientes gráficos,
denominados Escala de puntos.
Fig. 4.2 Distribución de los valores de la muestra “A”
14 16 18 20 22 24 26
103
Fig. 4.3 Distribución de los valores de la muestra “B”
14 16 18 20 22 24 26
De hecho los datos de la muestra “A” son bastante parecidos y se agrupan alrede-
dor de la media de la muestra, en este caso, la media es la medida descriptiva pro-
medio apropiada. Por otro lado, los datos de la muestra “B” están muy dispersos y
alejados de la media, por lo que ésta no es representativa de las características de la
muestra. El significado de dispersión se estudiará más adelante.
La mediana
La mediana es el valor que corresponde a la observación que se encuentra en la
mitad del +
forma ascendente o descendente; en seguida, se localiza el punto de posición me-
dio y el valor de ese punto corresponde al valor de la mediana. Si el número de
observaciones es impar, la localización del punto medio se determina utilizando la
fórmula: (n + 1)/2.
Si el número de observaciones es par, el punto de posición se encuentra entre las
dos observaciones medias de la clasificación ordenada. El valor de la mediana co-
rresponde al valor promedio de estas dos observaciones.
Muestra de tamaño impar. Suponga que en la muestra “A” del ejemplo anterior,
en lugar de seis observaciones se realizaron cinco, con los siguientes valores:
16 17 18 21 22
1 2 3 4 5
Aplicando la fórmula (n + 1)/2 = 3; lo que significa que la mediana se localiza en
la observación número 3 y tiene un valor de 18.
104
Muestra de tamaño par. Para el ejemplo de la muestra “B”, aplicando la fórmula
(n + 1)/2, la mediana se localiza en (6 + 1 )/2 = 3.5, es decir entre las observaciones
3 y 4. El valor de la mediana es igual al promedio de las dos observaciones, (17 +
18)/2 = 17.5
14 15 17 . 18 22 26
1 2 3 . 4 5 6
La moda
La moda es el valor de las observaciones que aparecen con más frecuencia. Se
obtiene fácilmente de una clasificación ordenada. La moda no se ve afectada por la
ocurrencia de valores extremos, sin embargo sólo se utiliza para propósitos descrip-
tivos dado que es el valor más variable de una serie de muestras, que otras medi-
ciones de tendencia central. En el caso de la muestra “A” la moda es 18, es el único
valor que se repite. En el caso de la muestra “B” no hay moda ya que ningún valor
se repite.
El rango medio
El rango medio es una medida de posición de tendencia central que se obtiene al
promediar los valores extremos de las observaciones, es decir la de menor y la de
mayor valor. Rango medio = (Xmenor+Xmayor)/2
Para el caso de la muestra “A”
16 17 18 21 22
1 2 3 4 5
Rango medio “A” (16 + 22)/2 = 19
Para el caso de la muestra “B”
14 15 17 18 22 26
1 2 3 4 5 6
105
Rango medio “B” (14 + 26)/2= 20
En el ejercicio anterior, el rango medio de la muestra “A” es igual a (16 + 22)/2 =
19, dado que los valores de la muestra “A” son muy homogéneos y cercanos al
valor de la media, el valor del rango medio está muy próximo al valor de la media.
En el caso de la muestra “B” el rango medio es igual a (14 + 26)/2 = 20. El rango
medio se ve afectado significativamente por la existencia de valores muy extremos
dado que sólo se consideran éstos.
Eje medio
Una medida de tendencia central que no se ve afectada por los valores extremos es
el eje medio. Para conocer el valor del eje medio, primero es necesario localizar las
posiciones de los valores del 1er cuartil y 3er cuartil, éstos se localizan al término
de contar el 25% y el 75% del número de observaciones, respectivamente. El eje
medio se obtiene de promediar esos dos valores. Para identificar los valores de los
cuartiles se utilizan las siguientes fórmulas:
Cuartil 1 = Q1 = valor correspondiente a la posición 1/4(n + 1) de las observa-
ciones ordenadas.
Cuartil 3 = Q2 = valor correspondiente a la posición 3/4(n + 1) de las observa-
ciones ordenadas.
Para estimar el valor de las observaciones del 1er y 3er cuartil, se toma el valor
más próximo a la posición calculada, si ésta se encuentra en el punto medio de dos
observaciones, se toma el valor promedio. Las siguientes gráficas, tomando los
datos de la muestra “B” tratarán de facilitar el entendimiento del cálculo del valor
del eje medio.
Q1 = valor correspondiente a la posición 1/4(6 + 1) de las observaciones orde-
nadas, igual a 1.75, el valor más próximo a la posición 1.75 es 15.
106
Q3 = valor correspondiente a la posición 3/4(6 + 1) de las observaciones orde-
nadas, igual a 5.25, el valor más próximo a la posición 5.25 es 22.
14 15 17 18 22 26
1 . 2 3 4 5 . 6
Número de observaciones = 6
Eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5
Como se puede observar, los valores extremos (14) y (26) no afectan al cálculo del
valor del eje medio.
4.3 Medidas de dispersión: varianza y desviación estándar.
Otra de las características de la distribución de las observaciones es que tanto se
acercan o se alejan del valor de la media, como se observó en los ejemplos de las
medidas de posición de las muestras “A” y “B”, pueden tener la misma tendencia
central pero diferir en términos de variación. Los valores de la muestra “A” son
mucho menos variables que los de la muestra “B”. Existen cinco mediciones de
variación: el rango, el rango intercuartil, la varianza, la desviación estándar y
el coeficiente de variación.
El rango (alcance)
El rango es la medida de variación más fácil de calcular de un conjunto de datos
ordenados. El rango es recorrido que existe entre la observación de mayor valor y
la de menor valor.
Rango = Xmayor – Xmenor
Usando los datos de la muestra “B”
14 15 17 18 22 26
107
El rango es 26 -14 = 12 mpg
El rango mide la variación total de las observaciones, se sabe que cualquier valor
de la muestra tendrá un valor dentro de ese rango. Aunque es una medición simple
y fácil cálculo, el rango no consigue describir realmente el grado de variación entre
el valor menor y el mayor.
El rango intercuartil
El rango intercuartil es una medida de variación entre los valores de las observa-
ciones que se encuentran al final del 25% y 75% del número de las observaciones.
Es decir la diferencia de valor entre el 3er cuartil y el 1er cuartil. Siguiendo con la
misma muestra de datos “B”. La manera de calcularlo es igual a:
Rango intercuartil = Q3-Q1
14 15 17 18 22 26
1 . 2 3 4 5 . 6
Número de observaciones = 6
Q1 = valor correspondiente a la posición (6 + 1)/4 de las observaciones ordenadas,
igual a 1.75, el valor más próximo a la posición 1.75 es 15.
Q3 = valor correspondiente a la posición 3(6 + 1)/4 de las observaciones ordenadas,
igual a 5.25, el valor más próximo a la posición 5.25 es 22.
El rango intercuartil es 22-15 = 7
Esta medición considera la dispersión entre los valores extremos que se encuentran
en la parte media de la muestra, por lo tanto, no se ve influenciada por los valores
extremos. El rango intercuartil abarca el 50% de las observaciones más cercanas a
la media.
108
La varianza y la desviación estándar
Las mediciones de rango y rango intercuartil, aunque son muy fáciles de calcular y
entender su significado no son suficientemente descriptivos ya que no consideran
la mayor parte de las observaciones, sólo consideran dos valores en cada caso. La
varianza y la desviación estándar son medidas que sí consideran al total de los va-
lores de las observaciones.
La varianza de la muestra o varianza muestral es muy aproximada al promedio de
las diferencias de las observaciones con respecto a la media al cuadrado. Así, para
la muestra que tiene n observaciones, X1, X2, X3,…………. Xn, la varianza muestral, S2,
puede calcularse como:
S2 = [(X1 - x
)
2
+ (X2 - x )
2
+ (X3 - x )2…….+ (Xn - x )2
]/n-1
Utilizando la notación matemática de sumatoria de las diferencias de las observa-
ciones con respecto a la media, se puede expresar de la siguiente forma:
S2 =
Donde x = a la media aritmética;
n = el tamaño de la muestra
Xi = valores iterativos de la variable X
El cálculo de la varianza se hace del promedio de las diferencias al cuadrado ya
que, en una distribución de tendencia central, la sumatoria de las diferencias linea-
les se hacen cero o un mínimo, mientras que las diferencias al cuadrado son agre-
gativas. Para ver la diferencia, nuevamente se tomará el conjunto de datos de la
muestra “B” que se ha venido utilizando.
14 15 17 18 22 26
1 . 2 3 4 5 . 6
109
Utilizando el cuasi promedio de diferencias lineales de la muestra “B” con una
media x = 18.66 mpg
[(14 - x ) + (15 - x ) + (17 - x ) + (18 - x ) + (22 - x ) + (26 - x )]/ n-1 =
[(14–18.66) + (15-18.66) + (17– 8.66) + (18–18.66) + (22 – 18.66)+(26–18.66)]/ 5
= [-10.64 + 10.68] = 0.04/5 = 0.008…casi cero
Mientras que utilizando el casi promedio de las diferencias al cuadrado se obtiene:
S2 = [(14 - x )2
+(15 - x ) 2 + (17 - x )2
+(18 - x ) 2 +(22 - x )2
+(26 - x )2]/ n-1
S2=[(14–18.66)
2+(15-18.66)
2+(17–8.66)
2+(18–18.66)
2+(22-18.66)
2+(26–18.66)
2]/ 5
S2 =
[(-4.66)
2 + (-3.66)
2 + (-1.66)
2 + (-0.66)
2 + (3.34)
2 + 7.34)
2 ]/ 5 =
S2 = [21.72+13.40+2.76+0.44+11.16+53.88]/5 = 103.3/5 = 20.66
Otra manera de apreciar la diferencia de cálculo es a través de la siguiente tabla:
Tabla 4.2 suma de diferencias del valor de las observaciones con respecto a la
media. (simples y elevadas al cuadrado)
14 -18.66 -4.66 21.72
15 -18.66 -3.66 13.40
17 -18.66 -1.66 2.76
18 -18.66 -0.66 0.44
22 -18.66 3.34 11.16
26 -18.66 7.34 53.88
0 103.33
Xi (Xi-X) (Xi-X)2
X
∑
110
La desviación estándar de la muestra simplemente se calcula sacando la raíz cua-
drada de la varianza, cuyo símbolo es s. Puesto que los cálculos de la varianza se
realizaron elevando al cuadrado las diferencias, ésta no podrá ser nunca negativa.
Mientras que la varianza es casi el promedio de las diferencias cuadradas del valor
de las observaciones con respecto a la media, la desviación estándar es casi el
promedio de los valores absolutos de las diferencias de las observaciones con res-
pecto a la media.
La varianza y la desviación estándar miden la dispersión promedio que existe entre
el valor de la media y el valor de las observaciones. La varianza es útil para ciertos
procesamientos de datos, sin embargo, su cálculo da como resultado unidades cua-
dradas: metros cuadrados, kilogramos cuadrados, pesos cuadrados, etc. unidades
poco prácticas en el análisis de datos. La desviación estándar, dado que su cálculo
arroja unidades lineales, es la medida de dispersión de mayor utilidad,: metros,
kilos, pesos, que son las unidades de medida originales de las observaciones.
S =
En la muestra “B”, con una varianza de 20.66 mpg2, tiene una raíz cuadrada de
5.54 mpg, que es igual a la desviación estándar, lo que significa que el total de las
observaciones distan en promedio ±5.54 mpg del valor de la media. Esto nos dice
que el valor promedio de las observaciones menores se sitúan a -5.54 unidades del
valor de la media y que el valor promedio de los valores mayores se sitúa a +5.54
unidades. Si la media tiene un valor de 18.66 mpg; el promedio de los valores me-
nores se sitúa en (18.66 – 5.54) =13.12 mpg y el valor promedio de los valores
mayores en (18.66 + 5.54) = 24.2 mpg.
111
Coeficiente de variación
El coeficiente de variación, a diferencia de las anteriores medidas de dispersión, es
una medida relativa y describe la relación del valor del promedio de las desviacio-
nes con respecto a la media, es decir la desviación estándar entre la media:
Coeficiente de variación = CV = S/ x Regresando a los datos de la muestra “B” tenemos que:
Coeficiente de variación = CV = (5 .5 4 )
1 8 .6 6 = .2968
Lo que significa que los valores mayores o menores de la media se desvían
aproximadamente un 30% del valor de la media.
Interpretación de las medidas de dispersión
Las medidas de dispersión: el rango, el rango intercuartil, la varianza y la desvia-
ción estándar miden el grado de esparcimiento de las observaciones entre ellas y
con relación a un valor central, la media. Mientras más propagados o dispersos
estén los valores, mayor será el valor de las medidas de dispersión. Mientras más
homogéneos sean los valores, menor serán estas mediadas. Si todos los valores de
las observaciones fueran iguales, todas las medidas de dispersión serían iguales a
cero.
4.4 Análisis de 5 puntos y gráfica de caja de sesgo
Después de conocer las principales propiedades de distribución de un conjunto de
datos numéricos: tendencia central, forma y medidas de variación, es posible,
para darnos una idea rápida de la forma de distribución, realizar un resumen de
estas características a través de una gráfica que considere a dos medidas de tenden-
cia central (la mediana y el rango medio) y dos medidas de variación (el rango y el
rango intercuartil)
Xmenor Q1 mediana Q3 Xmayor
112
Para los datos de la muestra “B”
14 15 17 18 22 26
Xmenor = 14; Xmayor = 26
Q1 = al valor de la posición de (n+1)/4= (6+1)/2 = 1.75 casi 2; el valor que corres-
ponde a casi 2 es 15, por lo tanto Q1= 15
Q3 = al valor de la posición de 3(n+1)/4= 3(6+1)/4 = 5.25 casi 5; el valor que
corresponde a casi 5 es 22, por lo tanto Q3= 22
Mediana = al valor que se localiza a la mitad de las observaciones = (n+1)/2 =
(6+1)/2 = 3.5, por lo tanto, el valor que le corresponde es 17.5, es decir el
promedio del valor de las observaciones con valor 17 y 18
14 16 18 20 22 24 26
Se puede observar el sesgo hacia la derecha, es decir, la media es mayor que la
mediana, lo que significa que el mayor peso de las observaciones se encuentra a la
derecha.
Figura 4.4 distribuciones examinadas a través de la gráfica de caja y sesgo
Mmediana Mmediana = media
Distribución equilibrada Distribución sesgada a la derecha Distribución sesgada a la izquierda
mediaMmedia Mediana
113
Cuando los valores de las observaciones están claramente sesgadas a la derecha o a
la izquierda, como se observa en la figura anterior, las longitudes de los sesgos
pueden variar significativamente y no es posible que la mediana se localice al cen-
tro de la caja.
En la distribución equilibrada, el número y peso de los valores menores y mayores
son iguales. En la distribución sesgada a la derecha, lo que significa es que el ma-
yor número de observaciones se encuentran agrupadas en el extremo inferior; el
75% de las observaciones se encuentran entre el extremo menor y el final de la caja
(3er cuartil). En la distribución sesgada a la izquierda, lo que significa es que el
mayor número de observaciones se encuentran agrupadas en el extremo superior; el
75% de las observaciones se encuentran entre el inicio de la caja (1er cuartil) y el
extremo superior.
4.5 Medidas de deformación
Una vez iniciado el análisis estadístico de resumen de la información, para lo cual
hemos estudiado las medidas de posición y dispersión de la distribución de una
variable, necesitamos conocer más sobre el comportamiento de la distribución de la
misma. No podemos basar nuestras conclusiones únicamente en expresiones que
vengan dadas en términos de medidas de posición y dispersión. Si bien intentamos
generalizar el comportamiento del colectivo que sea objeto de nuestro estudio, para
lo cual las medidas de posición son nuestro mejor instrumento, no debemos proce-
der a una interpretación que implique un comportamiento colectivo uniforme,
constante e igual a la medida de posición en cuestión con un error dado por la co-
rrespondiente medida de dispersión.
Cualquier conjunto de datos tienden a distribuirse de una forma simétrica o asimé-
trica con respecto a la media. Cuando las observaciones se distribuyen en forma
simétrica, significa que el número de observaciones menores es igual al número de
114
observaciones mayores y la suma de las diferencias de los valores con respecto a la
media es igual a cero, (Xi- x ) = 0
Otra característica es que la media y la mediana son iguales.
La simetría perfecta es una condición teórica difícil de observar en la realidad. Lo
común es que estas observaciones tiendan a acumularse más a un lado del centro de
recorrido, sea a la izquierda o a la derecha. Para describir la simetría de distribu-
ción de los valores de las observaciones, sólo basta comparar la media y la media-
na. Si son iguales, prácticamente se considera una distribución simétrica o normal;
si la media excede a la mediana, los datos pueden describirse como de sesgo posi-
tivo o sesgada a la derecha; cuando la media es excedida por la mediana, los datos
están generalmente sesgados a la izquierda o sesgo negativo. Esto es:
Media = Mediana: simetría o de sesgo cero
Media > mediana: sesgo positivo o derecho
Media < mediana: sesgo negativo o izquierdo
Figura 4.3 Formas de distribución
Mmediana Mmediana = media MmediaMmedia Mediana
La asimetría es más ostensible al analizar la representación gráfica de la distribu-
ción, sin embargo, las medidas de forma de una distribución se basan en su repre-
sentación gráfica, sin llegar a realizar la misma.
Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis
o apuntamiento.
115
Medidas de asimetría más comunes.
Las medidas de asimetría tienen como finalidad el elaborar un indicador que permi-
ta establecer el grado de simetría (o asimetría) que presenta una distribución, sin
necesidad de llevar a cabo su representación gráfica.
Coeficiente de asimetría de Fisher: ahora se intenta buscar una medida que recoja
la simetría o asimetría de una distribución. Si la distribución es simétrica, el eje de
simetría de su representación grafica será una recta paralela al eje de ordenadas,
que pasa por el punto cuya abscisa es la media aritmética. Por ello, cuando la dis-
tribución es asimétrica, referiremos los valores de la distribución a este promedio.
Si una distribución es simétrica, existe el mismo número de valores a la derecha
que a la izquierda de la media x , y por tanto el mismo número de desviaciones
con signo positivo que con signo negativo, siendo la suma de desviaciones positi-
vas igual a la suma de las negativas. Podemos partir, de las desviaciones (Xi - x ) elevadas a una potencia impar para no perder los signos de las desviaciones.
Lo más sencillo sería tomar como medida de asimetría el promedio de estas des-
viaciones, elevadas a la potencia impar más simple (que es tres), es decir, tomaría-
mos como medida de asimetría el momento de orden tres centrado en la media.
Pero, de hacer esto, esta medida vendría expresada en las mismas unidades que las
de la variable elevadas al cubo, por lo que no es invariante ante un cambio de esca-
la. Para conseguir un indicador adimensional, debemos dividir la expresión anterior
por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el
cubo de la desviación estándar, obteniéndose así el coeficiente de asimetría de R.
A. Fisher, cuya expresión es:
116
Si g1 =0 la distribución es simétrica,
Si g1 >0 la distribución es asimétrica positiva (a derecha), y
Si g1 < 0 la distribución es asimétrica negativa (a izquierda).
Tabla 4.3 Momentos m1, m2 y m3: (Xi- x ), (Xi- x )2, (Xi- x )3
Xi ni x Xi- x (Xi- x )2 (Xi- x )3 (Xi- x )2*ni (Xi- x )3*ni
De la fórmula: (1/30 * 1690.66)/(1/30 * 567.37)2/3
= 56.35/82.25 = 0.6851
La distribución es asimétrica a la derecha, es decir, existe mayor número de datos a
la izquierda.
Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones
campaniformes, unimodales y moderadamente asimétricas el coeficiente definido
como Ap = ( x - Mo) /σ, donde Mo es la moda.
117
Como en una distribución campaniforme simétrica x = Mo = Me, si la distribución
es asimétrica positiva o a derechas, x se desplaza a la derecha de la moda, y por
tanto, x - Mo > 0. En el caso de distribución asimétrica negativa la media se sitúa
por debajo de Mo, por lo que el valor x - Mo < 0.
La desviación estándar que aparece en el denominador no modifica el signo de la
diferencia x - Mo y sirve para eliminar las unidades de medida de dicha diferencia.
Así tendremos que si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución
es asimétrica positiva y si Ap < 0 la distribución es asimétrica negativa.
Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y
la mediana, y viene dado por la expresión Ab = (Q3 + Q1 - 2Me)/(Q3 + Q1). Se
cumple que si Ab = 0 la distribución es simétrica, si Ab > 0 la distribución es
asimétrica positiva y si Ab < 0 la distribución es asimétrica negativa. Q3 y Q1 son
los cuartiles tres y uno respetivamente.
Coeficiente Curtosis o de apuntamiento
El coeficiente curtosis define la distribución de frecuencias en la zona central de la
misma. La mayor o menor concentración de frecuencias alrededor de la media y en
la zona central de la distribución dará lugar a una distribución más o menos apun-
tada. Por esta razón a las medidas de curtosis se les llama también de apuntamiento
o concentración central.
En la distribución normal se verifica que m4 = 3σ4 siendo m el momento de orden 4
respecto a la media y σ la desviación estándar. Si consideramos la expresión g2=
(m4/σ4) - 3, su valor será cero para la distribución normal. Por ello, como coefi-
ciente de apuntamiento o curtosis se utiliza la expresión:
118
Del ejemplo anterior:
Tabla 4.4 Momentos m1, m2 y m4: (Xi- x ), (Xi- x )2, (Xi- x )4
Xi ni x Xi- x (Xi- x )2 (Xi- x )4 (Xi- x )2*ni (Xi- x )4*ni
De la fórmula:
[(1/30 * 21,082.58)/ (1/30 * 567.37)2]-3 = -1.03
Tomando la normal como referencia, diremos que una distribución puede ser más
apuntada que la normal (es decir, leptocúrtica) o menos apuntada (es decir, pla-
ticúrtica). A la distribución normal, desde el punto de vista de la curtosis, se le
llama mesocúrtica.
119
Una distribución es:
mesocúrtica (apuntamiento igual al de la normal) cuando g2 = 0,
leptocúrtica (apuntamiento mayor que el de la normal) si g2 > 0,
platicúrtica (apuntamiento menor que el de la normal) si g2 < 0.
4.6 Cálculo de mediciones descriptivas de la población
Para explicar el cálculo e interpretación de las medidas descriptivas de posición de
tendencia central, forma y dispersión, se han calculado los estadísticos de los datos
de una muestra: “A” y “B”. Si se quisiera hacer un estudio descriptivo con mayor
exactitud, sería a través del cálculo de los parámetros de la población.
La media de la población, con símbolo µ, se calcula con la fórmula:
µ =
Donde
N = tamaño de la población
Xi = diferentes valores que toma la variable aleatoria de la población.
f = frecuencia o repetición de valores de cada Xi.
La moda, el rango medio y el eje medio de la población se calculan igual
como se explicó en los apartados anteriores.
La varianza y la desviación estándar de la población se simboliza con la le-
tra griega σ2 y σ respectivamente. Se calcula mediante la fórmula:
120
∑ ∑n n
( (X i X iσ
2 = σ =
µ µ
N N- -) )
2 2
i= 1 i= 1
y
El coeficiente de variación, señala el grado de dispersión relativa entre la
desviación estándar y el valor de la media Cv = (σ/μ)
Con los datos de la tabla 3.2, sin agrupar, se obtiene la siguiente tabla de distribu-
ción de frecuencias de la población de 30 vehículos más vendidos en 1970:
Tabla 4.5 Distribución de frecuencias de los valores de la variable mpg
Aplicando las fórmulas tenemos los siguientes resultados:
Media: µ = , µ= 553/30 = 18.43 mpg.
Mediana: punto de posición = (N +1)/2 = (30 +1)/2 = 15.5 El valor de la mediana,
se toma del valor promedio de las posiciones 15 y 16 de la tabla 4.3, que corres-
ponde a los valores de 17 y 17. El promedio de los dos valores es igual a 17.
121
Moda: el valor que más aparece en las observaciones es el 15 mpg.
Rango medio: rango medio = (Xmenor + Xmayor)/2 = (14 + 27)/2 = 20.5
Q1: punto de posición 1/4(N +1) = 1/4(30 +1)/4 = 7.75, es decir, la posición 8,
cuyo valor es igual a 15 mpg.
Q3: punto de posición 3/4(N +1) = 3/4(30 +1) = 23.25, es decir, la posición 23
cuyo valor es igual a 22 mpg.
Eje medio: eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5
Rango (alcance): rango = Xmayor – Xmenor = 27 – 14 = 13
Alcance intercuartil; Q3-Q1 = 22 -15 = 7
Varianza:
∑n
(X iσ
2 =
µ
N- )
2
i= 1 = [(14 – 18.43)
2 + (15 – 18.43)
2 + (16 – 18.43)
2 + ...(27 –
18.43)2 ]/30 = 19.56
Desviación estándar:
∑n
(X iσ =
µ
N- )
2
i= 1
= 4.42
Coeficiente de variación: σ/µ = 4.42/18.43 = 23.98
Resumen de cinco puntos y caja y sesgo:
Xmenor Q1 mediana Q3 Xmayor
14 15 17 22 27
14 16 18 20 22 24 26 27
Entre los valores de rendimiento mpg de los 30 automóviles más vendidos en el
año 1970, dado que la media excede a la mediana, 18.43 vs 17, se puede considerar
122
como sesgada a la derecha. Conclusión similar se obtiene de observar la gráfica de
caja y sesgo.
Tabla 4.4 Comparación de medidas de la muestra “B” y de la población.
Medición muestral población
(n= 6) (N= 30)
Media 18.66 18.43
Mediana 17.5 17
Moda no 14 y 15
Xmenor 14 14
Xmayor 26 27
Rango medio 20 20.5
Eje medio 18.5 18.5
Rango (alcance) 12 13
Rango intercuartil 7 7
Varianza 20.66 19.56
Desviación estándar 5.54 4.42
Coef. de variación 29.68 23.98
Forma sesgo der. sesgo der.
Se observa que los valores de medición descriptivos de la muestra y de la pobla-
ción son bastante similares aún y cuando la muestra es muy pequeña. En la prácti-
ca, es raro realizar estudios con muestras tan pequeñas, aquí lo que se trató es de
hacer un ejercicio que facilitara el entendimiento de la Estadística descriptiva.
Cálculo de mediciones descriptivas de datos agrupados.
Cuando en la realización del estudio estadístico se utiliza fuente secundaria de da-
tos, es decir revistas, censos, periódico o publicaciones especializadas, generalmen-
te no se dispone de datos originales. La mayoría de las veces lo que se obtiene de
las fuentes secundarias son las características de agrupados o estratificados. En esta
123
situación, donde los datos originales no están disponibles, las medidas descriptivas
pueden estimarse de una manera aproximada.
Aunque existen diversas fórmulas para calcular las diferentes medidas de tendencia
central y de variación cuando se dispone de datos agrupados, dado que son aproxi-
maciones, es más fácil para su estimación utilizar los diagramas de frecuencias
relativas y acumuladas para su cálculo. A manera de ejercicio, se supone que sólo
se cuenta con los datos agrupados de la tabla 3.4.
Tabla 4.5 distribución de frecuencia de datos agrupados
Frecuencia Porcentaje
Clase Frecuencia acumulada porcentaje acumulado
12<x<=14 6 6 20.00 20.00
14<x<=16 8 14 26.66 46.66
16<x<=18 6 20 20.00 66.66
18<x<=20 0 20 0.00 66.66
20<x<=22 3 23 10.00 76.66
22<x<=24 2 25 6.66 83.33
24<x<=26 4 29 13.33 96.67
26<x<=28 1 30 3.33 100.00
Figura 4.5 Polígono de porcentajes
1412 16 18 20 22 24 26 28
0
5
10
15
20
25
30
20%20%
10%
6.66%
13.33%
3.33%
26.66%
Porc
enta
je
124
Fig. 4.6 Polígono de porcentajes acumulado
14Me
Q1
Q2
12X
menorX
mayor
16 18 20 22 24 26 28
0
20%
30%
40%
50%
60%
70%
90%
80%
100%
20%
66.66%
76.66%
83.33%
96.67%100%
46.66%
Millas por galón
Porc
enta
je
Utilizando visualmente la figura 4.6, diagrama de porcentaje acumulado, fácilmen-
te se puede estimar el valor de la mediana, ésta se localiza aproximadamente tra-
zando una línea horizontal del 50% del eje vertical (porcentaje) hasta que cruce la
curva de porcentaje acumulado, de ahí se traza una línea vertical hasta el eje hori-
zontal de los valores de la variable “millas por galón”. Aproximadamente el valor
de la mediana es 15.5 mpg. De la misma forma se puede aproximar el valor del
primer cuartil y del tercer cuartil; Q1 = 13.2 y Q3 = 20.5 de éstos valores se calcula
el rango intercuartil aproximado a 5.5. El rango se calcula con los valores prome-
dio de la primera clase y de la última, es decir 13 y 27 mpg, utilizando la fórmula
rango = Xmayor – Xmenor resulta 27 – 13 = 14
Desafortunadamente la media, la varianza, la desviación estándar y el coeficiente
de variación no pueden calcularse una vez que los datos se han agrupado, sin em-
bargo en algunas situaciones pueden realizarse aproximaciones útiles. Si los datos
fueran perfectamente simétricos, la media es igual a la mediana, al rango medio y
al eje medio; si fueran aproximadamente simétricos, la mejor aproximación sería
un promedio de las tres. La desviación estándar podría aproximarse como el pro-
medio entre un sexto del rango y tres cuartos del rango intercuartil. Siguiendo con
125
el mismo ejemplo, se tiene que la mediana es igual a 15.5; el rango medio es igual
a (Xmenor + Xmayor )/2 = (27 +13)/2 = 20; y el eje medio es igual a (Q1 + Q3) = (13.2
+ 20.5)/2 = 16.85; el promedio de estas tres medidas centrales es de (15.5 + 20 +
16.85)/3 = 17.45
La desviación estándar aproximada sería de (rango/6 + 3 rango intercuartil/4)/2 =
(14/6 + 3*7/4) = 3.79; varianza (3.79)2 = 14.36
La tabla 4.6 presenta una comparación entre el resumen de las medidas descripti-
vas reales obtenidas de los datos sin procesar, aplicando las fórmulas explicadas en
los capítulos 3 y 4 y las medidas aproximadas de los datos agrupados obtenidas a
través de distribución de frecuencias y distribución de frecuencias acumulada.
Tabla 4.6 Comparación de medidas descriptivas de la variable mpg de la po-
blación (cálculo exacto) y datos agrupados.
Medición datos datos
población agrupados
Media 18.43 17.45
Mediana 17 15.5
Moda 15 no
Xmenor 14 13
Xmayor 27 27
Rango medio 20.5 20
Eje medio 18.5 16.85
Rango (alcance) 13 14
Rango intercuartil 7 7
Varianza 19.56 14.36
Desviación estándar 4.42 3.79
Coef. de variación 23.98 21.71
Forma sesgo der. sesgo der.
126
4.7 Uso de la desviación estándar.
Existen muchas variables asociadas a fenómenos naturales que se distribuyen en
forma equilibrada, con respecto a la media. En forma general, basados en los mo-
delos matemáticos de Gauss y Bienaymé & Chebyshev, se estima que dos de cada
tres observaciones se encuentran a una distancia de 1 desviación estándar de la
media (es decir el 67% del total de las observaciones y aproximadamente el 95%
de las observaciones están contenidas en una distancia de 2 desviaciones estándar
alrededor de la media.
A mediados del siglo XIX, en forma separada, los matemáticos Bienaymé y Che-
byshev encontraron, que sin importar cómo se distribuye una serie de datos de una
variable aleatoria, la probabilidad de que las observaciones estén distanciadas de su
media en más de k veces la desviación típica, es menor o igual que 1/k2, por lo que,
la agrupación alrededor de la media está dado por la ecuación (1 - 1/k2), para datos
de cualquier distribución, se tiene que;
• Al menos [1 – (1/22)] *100% = 75.0% de las observaciones están conteni-
das dentro de una distancia ±2 desviaciones estándar alrededor de la media.
• Al menos [1 – (1/32)] *100% = 88.89% de las observaciones están conteni-
das dentro de una distancia ±3 desviaciones estándar alrededor de la media.
• Al menos [1 – (1/42)] *100% = 93.75% de las observaciones están conteni-
das dentro de una distancia ±4 desviaciones estándar alrededor de la media.
Aunque el cálculo Bienaymé-Chebyshev se aplica a cualquier tipo de distribución
de datos, más adelante se estudiará, en teoría de probabilidades, que si los datos
forman la distribución normal, en forma de campana, o campana de Gauss, el
68.26% de todas las observaciones se encuentran alrededor de ± 1 desviación
estándar, mientras que el 95.44%, 99.73% y 99.99% estarán en ±2, ±3 y ±4 desvia-
ciones estándar.
127
Mientras que en el cálculo de Bienaymé-Chebyshev nos indica, para cualquier tipo
de distribución, al menos qué tan posible es que una observación se encuentre alre-
dedor de la media, la aplicación del modelo de Gauss, para distribuciones norma-
les, nos dice exactamente qué tan probable es que cualquier observación esté lejos
o cerca de la media.
4.8 Resumen
El cálculo de las medidas estadísticas sintetiza la información sobre los datos que
se han recopilado, facilitando su manejo e interpretación. En lugar de trabajar con
toda la tabla de frecuencias, se calcula tres tipos de medidas estadísticas: de posi-
ción, de forma y de dispersión.
Las medidas de posición, como la media, la mediana, la moda, el rango medio y el
eje medio, indican el nivel general del fenómeno, o sea el punto de escala numérica
alrededor del cual se agrupa la mayoría de las observaciones obtenidas al captar el
fenómeno que interesa; las medidas de forma, con sólo comparar el valor de la
media con el de la mediana, muestran el grado en que las observaciones tienden a
acumularse por arriba o por debajo de los valores centrales y tienen por objeto de-
terminar el grado de asimetría de una distribución de frecuencias; y las medidas de
dispersión, como el rango, el rango intercuartil, la varianza, la desviación estándar
y el coeficiente de variación indican el mayor o menor grado en que las observa-
ciones se alejan del valor central dado por las medidas de posición. En conjunto,
las medidas estadísticas resumen los valores significativos del conjunto de datos.
4.9 Términos clave
Análisis de datos
Medidas de posición: media, media-
na, moda, rango medio, eje medio.
Medidas de forma: equilibrada, sesgo
a la derecha, sesgo a la izquierda.
Medidas de dispersión: rango, rango
intercuartil, varianza, desviación
estándar, coeficiente de variación.
Escala de puntos.
128
4.10 Problemas de repaso del capítulo
1.- Un grupo de estudiantes de la Universidad han decidido llevar a cabo un fo-
notón para recabar fondos para la construcción de un Centro de Artes. Los datos
siguientes representan las cantidades prometidas (en miles de pesos) por todos los
ex alumnos que fueron llamados durante los primeros nueve días: 16, 18, 11, 17,
13, 10, 22, 16
a) Calcule la media, mediana, el rango medio y el rango intercuartil
b) Calcule la varianza y la desviación estándar
c) Describa la forma de esta serie de datos
d) Describa la cantidad ofrecida por los ex-alumnos
e) Escriba un reporte donde estime la cantidad en recaudar si el fonotón dura
30 días
2.- Los siguientes datos representan el precio al menudeo de camisetas de una
muestra de 20 tiendas más frecuentadas de la ciudad.
Precio de camisetas al menudeo
137.4 139.2 141.1 138
140 141.8 139.7 140.9
138.8 137.3 136.7 140.6
139.1 133.5 136.3 136.7
144.4 138.2 135.6 134.1
a) Forme el diagrama de tallo y hojas; elabore las tablas y diagramas de fre-
cuencias absolutas, relativas y acumuladas; elabore el diagrama de Pareto.
b) Calcule la media, mediana, eje medio, rango, rango intercuartil, desviación
estándar y coeficiente de variación; elabore el análisis de 5 puntos y la caja
de sesgo.
129
3.- Los siguientes datos corresponden al costo por onza en pesos de muestras alea-
torias de 31 champuses etiquetados para cabello normal y 29 para cabello delgado.
Cabello normal Cabello fino
7.9 6.3 1.9 0.9 3.7 6.9 0.9 2.3 2.2 0.8
4.9 2.0 1.6 5.5 6.9 1.2 3.2 1.2 1.8 7.8
2.3 1.4 9.0 8.7 4.4 1.9 6.3 4.9 3.7 5.5
1.3 1.6 2.3 2.0 6.4 8.5 4.4 8.7 1.7 1.1
2.8 1.8 3.2 8.1 8.5 2.3 5.0 6.5 5.1 3.5
4.7 5.0 0.8 1.3 2.1 1.4 2.0 2.8 0.8
9.0
Para cada conjunto de datos (cabello normal y cabello fino) calcule
a) Forme el diagrama de tallo y hojas; elabore las tablas y diagramas de fre-
cuencias absolutas, relativas y acumuladas; elabore el diagrama de Pareto.
b) Calcule la media, mediana, eje medio, rango, rango intercuartil, desviación
estándar y coeficiente de variación; elabore el análisis de 5 puntos y la caja
de sesgo.
130
4.11 Mapa conceptual de distribución de datos numéricos.
Media
Mediana
Moda
Rango medio
Eje medio
El rango
El rango intercuartil
Varianza
Desviación estándar
• Coeficiente Fisher
• Coeficiente Pearson• Coeficiente Bowley
Medidas de
asimetría
• Coeficiente CurtosisMedida Curtosis
Medidas de posición
Medidas de dispersión
Medidas de deformación
131
Capítulo 5
Uso de paquetes Estadísticos
*********************
Objetivo del
Capítulo
Mostrar cómo el uso de la computadora
ayuda al análisis estadístico, evitando así
los laboriosos cálculos matemáticos y
dedicar más atención a la interpretación
para la toma de decisiones.
132
133
5.1 Introducción
Hasta ahora lo que se ha tratado de explicar es la técnica del manejo de datos para
facilitar su análisis e interpretación. Cuando son cantidades pequeñas de datos, se
pueden realizar manualmente, pero cuando la muestra rebasa las 100 observacio-
nes, el trabajo de ordenar y agrupar y calcular las medidas resumen de los datos se
complica. Afortunadamente, como se ha dicho desde el inicio, existen paquetes
estadísticos que realizan todo este pesado trabajo. Lo que si es cierto, es que en la
mayoría de los estudios estadísticos es inevitable la digitalización manual de datos,
como materia prima del estudio.
Al término del capítulo, el alumno deberá ser capaz de:
1. Obtener las medidas resumen de una muestra a través del uso del paquete
estadístico SPSS.
2. Obtener los diagramas apropiados para el análisis gráfico de la distribución
de datos.
Si el conjunto de registros, denominado “la base de datos” está bien computado, el
paquete estadístico se encarga de realizar todos los cálculos estadísticos. Al analista
sólo le resta saber interpretar los resultados. El programa SPSS (Statistical Package
for Social Sciences) permite, mediante su aplicación, realizar un análisis descripti-
134
vo de una o varias variables, utilizando gráficos que expliquen su distribución o
calculando sus medidas características. Entre sus muchas prestaciones, también
figuran el cálculo de intervalos de confianza, contrastes de hipótesis, análisis de
regresión o análisis multivariantes.
5.2 Edición de datos
Una vez que se ha accedido al programa (haciendo clic el icono correspondiente) la
interfaz con el usuario se compone de dos ventanas principales:
1. El editor de datos: de aspecto y funcionalidad semejantes a las de cualquier
hoja de cálculo
2. El visor de resultados, donde irán apareciendo los resultados de los aná-
lisis realizados.
Desde ambas ventanas se puede acceder a la barra de menús (desde donde se selec-
ciona el análisis que se quiere realizar) y a la barra de botones rápidos (desde la que
se puede acceder a las opciones de menú más comúnmente solicitadas).
Al ejecutar el programa estadístico SPSS, para capturar los datos es necesario defi-
nir las características de cada variable. En la parte inferior de la página principal
hay una pestaña “vista de variables” que hay que abrir:
Figura 5.1 Página principal del paquete SPSS
135
Figura 5.2 Página principal de Resultados de SPSS.
Antes de definir las características de las variables, es necesario considerar las si-
guientes indicaciones.
1. Enlistar todas las variables que se van a analizar, en orden que facilite la
captura.
2. Definir el nombre con el que se identifica la variable.
3. Defina si es numérica o categórica, también se puede definir si es de fecha,
si la separación de miles se hace coma, si requiere punto, si representa di-
nero y el número de decimales que se requiere.
4. Se requiere establecer un código de equivalencias para los diferentes valo-
res de las variables. Por ejemplo: 1 = femenino y 2 = masculino
5. Se requiere señalar el significado literal de la variable: género, nivel de
educación, fecha de nacimiento, categoría de empleo, etc.
6. Se requiere establecer la escala de medición: nominal, ordinal o cardinal
(escalar)
A manera de ejemplo, utilizando la misma estructura de datos del estudio estadísti-
co de automóviles que se ha venido utilizando en los ejercicios de los apartados
136
anteriores, se genera una base de datos de 406 registros. La magnitud de lo datos
dificulta el cálculo manual de las mediciones descriptivas, por lo que se utiliza los
paquetes estadísticos SPSS.
En la siguiente figura se puede observar la forma en que se definen las característi-
cas de las variables en el paquete estadístico SPSS.
Figura 5.3 Características de las variables de estudio
5.3 Captura de datos.
Una vez que se ha diseñado la edición de la presentación de los datos recabados, se
procede a su captura. En la figura 5.4 se puede observar el resultado de estas acti-
vidades. Los datos están listos para su análisis estadístico. La tabla de datos puede
salvarse como archivo de datos con extensión .sav, listo para utilizarse por el pa-
quete estadístico SPSS.
137
Figura 5.4 Presentación de datos digitados en SPSS
5.4 Obtención de resultados
Habiendo capturado todos los datos de la muestra o de la población, según sea el
caso, a través del comando analizar/estadísticas descriptivas, se obtendrá un
menú de análisis.
Figura 5.4 Análisis de datos
138
5.5 Definición de variable de análisis
Al escoger el sub-menú aparece un recuadro de definición de variables a analizar y
de estadísticos a visualizar; en el caso del ejemplo se escogerá la variable Miles per
Galon (mpg):
Figura 5.5 Definición de variable a analizar
Figura 5.6 Definición de características de los estadísticos
139
Figura 5.7 Definición de características de los gráficos
Figura 5.8 Estadísticos obtenidos
140
Figura 5.9 Gráficos obtenidos: Tallo y hojas y caja y sesgo
5.6 Tabla de frecuencias.
Si desea conocer la tabla de frecuencias, en el sub-menú de estadísticas descripti-
vas, se obtendría lo siguiente:
Figura 5.10 Frecuencias.
141
Figuera 5.11 Tabla de frecuencias no agrupada obtenida
Miles per Gallon
6 20,0 20,0 20,0
6 20,0 20,0 40,0
2 6,7 6,7 46,7
2 6,7 6,7 53,3
4 13,3 13,3 66,7
2 6,7 6,7 73,3
1 3,3 3,3 76,7
2 6,7 6,7 83,3
2 6,7 6,7 90,0
2 6,7 6,7 96,7
1 3,3 3,3 100,0
30 100,0 100,0
14
15
16
17
18
21
22
24
25
26
27
Total
Válidos
Frecuenc ia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Figuera 5.12 Histograma y distribución de frecuencias
142
5.7 Problemas de repaso del capítulo
1. Utilizando el paquete SPSS, obtenga las medidas de posición, dispersión y dis-
torsión y los diagramas de distribución de frecuencias y de Pareto de los datos de la
siguiente tabla, que son los sueldos de una muestra aleatoria de 100 empleados con
licenciatura en Negocios Internacionales egresados entre el año 2000 y 2005.
24,300 82,500 22,500 23,550 57,000 30,300 38,850 36,150 35,550 20,100
24,750 54,000 48,000 35,100 40,200 28,350 21,750 110,625 45,150 24,000
22,950 26,400 55,000 23,250 21,450 27,750 24,000 42,000 73,750 25,950
25,050 33,900 53,125 29,250 21,900 35,100 16,950 92,000 25,050 24,600
25,950 24,150 21,900 30,750 45,000 27,300 21,150 81,250 27,000 28,500
31,650 29,250 78,125 22,350 32,100 40,800 31,050 31,350 26,850 30,750
24,150 27,600 46,000 30,000 36,000 46,000 60,375 29,100 33,900 40,200
72,500 22,950 45,250 30,750 21,900 103,750 32,550 31,350 26,400 30,000
68,750 34,800 56,550 34,800 27,900 42,300 135,000 36,000 28,050 22,050
16,200 51,000 41,100 60,000 24,000 26,250 31,200 19,200 30,900 78,250
143
Capítulo 6
Presentación de datos
categóricos en tablas y
diagramas.
*********************
Objetivo del
Capítulo
Mostrar cómo organizar y presentar en
tablas y diagramas los datos categóri-
cos
144
145
6.1 Introducción
Este capítulo trata sobre la presentación de datos categóricos, estos se pueden pre-
sentar, con el fin de facilitar el análisis y la toma de decisiones, en forma de tablas
y diagramas. Si el interés de análisis es una variable, se realizarán tablas resumen y
diversos diagramas, como el diagrama de pastel, de barras y de puntos. Si el propó-
sito es relacionar dos o más variables categóricas, se realizará una tabla de resulta-
dos cruzados.
Al terminar el capítulo, el alumno podrá:
1. Construir tablas y diagramas que representen un resumen de datos categó-
ricos.
2. Realizar tablas cruzadas o matriciales que relacionen a dos o más variables
categóricas.
3. Utilizar los paquetes estadísticos para presentar resúmenes de datos categó-
ricos.
6.2 Tabulación de datos categóricos
Siguiendo con la misma base de datos de los autos más vendidos en el año 1970, se
quiere saber el porcentaje del origen: americano, europeo o japonés. Para saberlo,
se tendrá que construir una tabla resumen que agrupe los autos por origen.
146
Tabla 6.1 Resumen de frecuencias y porcentajes por origen 1970
22 73.3 73.3 73.3
6 20.0 20.0 93.3
2 6.7 6.7 100.0
30 100.0 100.0
Americano
Europeo
Japonés
Total
Frecuenc ia Porciento
Porciento
validado
Porciento
acumulado
Figura 6.1 Diagrama de barras en porciento.
Americano
Europeo
Japonés
País
de o
rig
en
0 20 40 60 80
Porcentaje
Figura 6.2 Diagrama de pastel en porciento.
Japonés
Europeo
Americano
73.3%
6.0%
20.0%
147
Figura 6.3 Diagrama Pareto en cantidades y en porcentaje
País de origen
JaponésEuropeoAmericano
Ca
ntid
ad
40
30
20
10
0
100
50
02
6
22
Porce
nta
j e
Figura 6.4 Gráfica de puntos de cantidades
Pa
ísd
eo
rige
n
Americano
Europeo
Japonés
Cantidad
3020100
6.3 Elección de la gráfica apropiada
La representación gráfica de datos es una técnica muy útil para la presentación de
informes ejecutivos. Sin muchas explicaciones, objetivamente se pueden interpretar
el significado de los datos. Algunas personas confunden el propósito de uso de
gráficas, muchos creen que los adornos y colores será la manera de ser efectivos,
otros prefieren utilizar la sobriedad gráfica en razón de destacar el contenido de las
gráficas. Es importante señalar que, según ciertas investigaciones sobre la percep-
148
ción humana, las escalas de longitud son más fácil de interpretar que las de área.
De ser así, la gráfica de puntos de cantidades o porcentaje sería más fácil de inter-
pretar que la gráfica de pastel o de barras. Aunque, hay que destacar que la gráfica
de pastel es estéticamente agradable y muestra la proporción y suma total de las
categorías.
La elección del tipo de gráfica para la presentación de datos categóricos sigue sien-
do altamente subjetiva y a menudo depende de las preferencias del analista o del
receptor.
6.4 Tabla de contingencia o tabla de datos cruzados
Muchas de las veces, en los estudios estadísticos, es necesario mostrar la relación
que existe entre dos o más variables de estudio, la tabla de datos cruzados o de
contingencias es una manera de presentar esta situación. Siguiendo con el estudio
de las características de los autos más vendidos en el año 1970, se puede relacionar
dos variables categóricas, por ejemplo, el origen de fabricación y el número de
cilindros.
Tabla 6.2 Datos cruzados: país de origen/número de cilindros
3 Cilindros 4 Cilindros 5 Cilindros 6 Cilindros 8 Cilindros
Recuento Recuento Recuento Recuento Recuento
Americano 0 0 0 3 19
Europeo 0 6 0 0 0
Japonés 0 2 0 0 0
Numero de cilindros
País de origen
6.5 Uso de paquetes estadísticos en la presentación de datos categóricos
Al igual que la tabulación, diagramación y tratamiento de datos numéricos, cuando
el número de observaciones es grande, podemos utilizar la computadora para reali-
zar esta ardua tarea. Existen diversos paquetes de análisis de datos, incluso la hoja
de cálculo de Excel.
149
En el caso del paquete estadístico SPSS, para el diseño de gráficas existe un co-
mando que se llama Gráficos y se opera de la siguiente manera: se escoge el tipo de
gráfico que se desea, en este caso, el de barras.
Figura 6.5 Menú generador de gráficos
Un gráfico de barras presenta estadísticos de resumen de una o más variables, la
mayor parte de las veces respecto a los grupos definidos por una o dos variables
categóricas. La longitud de las barras representa habitualmente la frecuencia de
casos de cada categoría, un porcentaje del número total de casos o una función de
otra variable (por ejemplo, el valor medio para cada categoría). La función se pue-
de cambiar en la parte inferior del cuadro de diálogo. También se puede mostrar
una clave para identificar la función.
Figura 6.6 Menú para definición de variable
150
Barras agrupadas y apiladas. Si se asigna una variable categórica a Color o Esti-
lo, las barras de las categorías se podrán agrupar unas junto a otras o apilarse. En
las barras apiladas, las categorías de la variable de la leyenda se apilan unas sobre
otras. La parte superior de un segmento conforma la base del siguiente. Este tipo de
gráficos destaca la suma de las categorías; por tanto, sólo se deberán seleccionar
funciones adecuadas para la apilación en las barras que representan.
Si se ha seleccionado una leyenda de apilado de color o de estilo, podrá cambiar el
eje dependiente para que represente el 100%. En ese caso, los segmentos represen-
tarán el porcentaje con el que cada categoría contribuye al total.
En otras palabras, existe tres opciones: barra simple, donde sólo se grafica la escala
de valores de cada categoría; barra conglomerada, se agrupan por categorías defi-
nidas y barra estratificada, al interior de cada barra se puede estratificar por cate-
gorías existentes. Para que sea más objetivo el resultado, se ilustrará con un ejem-
plo de cada una de ellas.
Figura 6.7 Gráfica de barras de presentación de datos categóricos: simple,
aglomerada y estratificada
Pa
ísde
ori
ge
n
Cantidad
151
6.6 Generación de tablas
En la pestaña “Tabla” del generador de tablas, se seleccionan las variables y las
medidas de resumen que aparecerán en la tabla.
Lista de variables. En el panel superior izquierdo de la ventana se muestran las
variables del archivo de datos. Tablas personalizadas distingue entre dos niveles de
medida diferentes para las variables y trata de manera distinta las variables en fun-
ción de su nivel de medida:
Categóricas. Datos con un número limitado de valores o categorías distintas (por
ejemplo, sexo o religión). Las variables categóricas pueden ser variables de cadena
(alfanuméricas) o variables numéricas que utilizan códigos numéricos para repre-
sentar a categorías (por ejemplo, 0 = hombre y 1 = mujer). También se hace refe-
rencia a estos datos como datos cualitativos. Las variables categóricas pueden ser
nominales u ordinales:
nominal. Una variable puede ser tratada como nominal cuando sus valores
representan categorías que no obedecen a una ordenación intrínseca. Por
ejemplo, el departamento de la compañía en el que trabaja un empleado.
Son ejemplos de variables nominales: la región, el código postal o la con-
fesión religiosa.
ordinal. Una variable puede ser tratada como ordinal cuando sus valores
representan categorías con alguna ordenación intrínseca. Por ejemplo los
niveles de satisfacción con un servicio, que vayan desde muy insatisfecho
hasta muy satisfecho.
Las variables categóricas definen categorías (filas, columnas y capas) en la tabla y
el estadístico de resumen por defecto es el recuento (número de casos en cada cate-
goría). Por ejemplo, una tabla por defecto de la variable categórica sexo sólo mos-
trará el número de hombres y el número de mujeres.
152
Las variables de escala se resumen normalmente dentro de las categorías de las
variables categóricas y el estadístico de resumen por defecto es la media. Por ejem-
plo, una tabla por defecto de los ingresos dentro de las categorías de sexo mostrará
los ingresos medios de los hombres y los ingresos medios de las mujeres.
También puede resumir las variables de escala por sí mismas, sin utilizar una va-
riable categórica para definir grupos. Esto resulta especialmente útil para apilar
resúmenes de varias variables de escala.
Figura 6.7 Menú generador de tablas
Figura 6.8 Menú para definir las variables
En la página principal de SPSS se escoge el comando Ta-blas/Tablas personali-zadas
Aparece en pantalla un área de trabajo para definir las variables que se desea colocar en las filas o en las columnas. En el ejemplo, se escogió para las filas la va-riable “origen” y para las columnas la variable “número de cilindros”.
153
Figura 6.8 Proyecto de presentación
Tabla 6.3 Datos cruzados de las variables “País de origen” y “número de ci-
lindros”
3 Cylinders 4 Cylinders 5 Cylinders 6 Cylinders 8 Cylinders
Recuento Recuento Recuento Recuento Recuento
American 0 0 0 3 19
European 0 6 0 0 0
Japanese 0 2 0 0 0
Total 0 8 0 3 19
Number of Cylinders
Country of Origin
Aparece en pantalla el proyecto de presentación. Al darle click al botón de aceptar, e inmediata-mente aparece la tabla de datos cruzados.
154
155
Capítulo 7
Probabilidad básica
*********************
Objetivo del
Capítulo
Comprender los conceptos básicos de probabilidad como base necesaria para el estudio de distribución de probabili-dad e inferencia estadística
156
157
7.1 Introducción
El concepto o idea que generalmente se tiene del término probabilidad es adquirido
de forma intuitiva, siendo suficiente para manejarlo en la vida cotidiana. Una defi-
nición rápida del término probabilidad sería “la posibilidad de que suceda un even-
to en particular”.
Cuando un suceso aleatorio se repite un gran número de veces, los posibles resulta-
dos tienden a presentarse un número muy parecido de veces, lo cual indica que la
frecuencia de aparición de cada resultado tiende a estabilizarse, lo que determina la
probabilidad de ocurrencia de cada caso en particular.
La teoría de la probabilidad se usa extensamente en la ciencia y la filosofía para
sacar conclusiones sobre la ocurrencia de sucesos potenciales y la mecánica subya-
cente de sistemas complejos, como los sistemas de producción, distribución y con-
sumo de bienes y servicios.
Al terminar el capítulo el alumno debe de ser capaz de:
1. Utilizar el criterio de probabilidad
2. Utilizar una tabla de contingencia o un diagrama de Venn para determinar
las probabilidades de eventos conjuntos.
158
3. Comprender las reglas para encontrar las probabilidades simples, conjuntas
y condicionadas de un conjunto de posibles eventos, y aplicar la regla de
adición.
4. Distinguir entre eventos mutuamente excluyentes y colectivamente exhaus-
tivos e independientes.
5. Utilizar el Teorema de Bayes para calcular probabilidades a la luz de nueva
información.
6. Utilizar las diversas reglas de contar el número total de eventos.
7.2 Criterios de probabilidad: subjetivo y objetivo.
Para determinar la posibilidad de ocurrencia de un evento existen dos criterios de
apreciación: la probabilidad subjetiva y la probabilidad objetiva.
La probabilidad subjetiva de un evento es la que se realiza en base al conoci-
miento tácito de una persona. Precisamente por su carácter de subjetividad no se
considera con validez científica, aunque en la vida diaria es de las que más se utili-
zan al no apoyarse más que en el sentido común y los conocimientos previos de la
persona, y no en resultados matemáticos o estadísticos. ¿Cuál es la probabilidad de
que llueva? ¿Cuál es la probabilidad de que tenga éxito un producto nuevo? La
asignación de probabilidad subjetiva se base en una combinación de experiencia
del individuo, estado de ánimo y el análisis de condiciones particulares.
La probabilidad objetiva, aceptada con validez científica, es la que se obtiene por
el conocimiento previo de un proceso o por la observación de resultados. Cuando la
probabilidad objetiva se basa en el conocimiento anticipado del proceso, probabili-
dad a priori. En el caso más simple, cuando cada resultado es igualmente posible,
esta posibilidad de ocurrencia puede definirse como: p(A) = X/T, donde X es igual
al número de resultados en los que ocurre el evento y T es igual al número de resul-
tados posibles.
159
Un ejemplo clásico es el mazo de barajas o el juego de dados. Si se quiere encon-
trar la probabilidad de sacar del mazo de barajas, sin comodín, una carta negra, la
respuesta correcta sería 26/52 ó ½ ó .50 ó el 50%, puesto que hay 26 cartas negras
de un total de 52. Si se vuelve a incorporar cada carta que se extrae, se mezcla, y se
saca nuevamente al azar, la probabilidad de éxito o de fracaso, sigue siendo la
misma. Inmediatamente no se puede asegurar que salga o no una carta negra, pero
podemos afirmar que a largo plazo, si se repite continuamente este proceso, la pro-
porción de cartas negras extraídas será muy cercana a .50
Existe otro enfoque de probabilidad objetiva, se conoce como probabilidad empíri-
ca o a posteriori, aunque se sigue definiendo como la proporción entre el número
de resultados favorables y el número total de resultados, estos resultados se basan
en datos observados, no del conocimiento anterior a un proceso.
De total de visitantes de domingo a un museo, la probabilidad de que compren
artículos de recuerdo se puede encontrarse seleccionando una muestra aleatoria de
la población, de 400 entrevistados 125 aceptaron haber comprado un recuerdo. Por
consiguiente, la probabilidad de que un visitante de domingo, seleccionado aleato-
riamente, compre un recuerdo es 125/400 = .3125
7.3 Espacio muestral y tipos de eventos
Cuando se realiza un experimento, que es cualquier proceso que produce un resul-
tado o una observación, se van a obtener un conjunto de valores. A este conjunto
de valores que puede tomar una variable se le denomina espacio muestral.
Por ejemplo: Si se tiene un dado cualquiera, el espacio muestral (EM) es
EM={1,2,3,4,5,6}.
En el caso de la baraja, el espacio muestral consiste en las 52 cartas, completado
por varios eventos, dependiendo de la clasificación. Si los eventos se clasifican por
160
palo, hay cuatro eventos: picas, corazones, tréboles y diamantes; si la clasificación
es por valor de la carta, existen trece eventos: As, Rey, Reyna…….2.
La manera en que se subdivide el espacio muestral será el tipo de probabilidad que
se estime. Tomando esto en cuenta se pueden distinguir tres tipos de evento: evento
simple, evento complemento y evento conjunto.
Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se
denomina un evento, y si éste consta de un solo elemento entonces es un evento
simple. Como el de extraer un As del mazo de la baraja; o una espada, o una carta
de color negro. Al evento se le denomina evento A.
Los eventos que no forman parte de A se les denomina evento complemento y está
representado por A’. El evento complemento As son todas las cartas que no sean
As; el evento complemento de carta negra, son todas las cartas rojas.
Si existen más de una variable en el suceso, el espacio muestral está formado por
las combinaciones de valores de cada una de las variables, entonces es un evento
conjunto.
Existen eventos que siempre, no importa el número de experimentos o su situación,
ocurren, y en cambio existen otros que nunca ocurren. Cuando se tiene toda la cer-
teza de que el evento ocurrirá, el evento cierto, tiene una probabilidad de uno;
cuando un evento no tiene posibilidad de ocurrir, tiene una probabilidad de cero, es
decir, el evento nulo.
161
Figura 7.1 Espacio muestral de un mazo de cartas
En el ejemplo de la muestra de 400 visitantes del domingo al museo, también se les
preguntó si quedaron satisfechos con el material histórico exhibido, 315 visitantes
contestaron que si estaban satisfecho pero 225 de ellos no habían comprado recuer-
dos, lo que significa que de los 315 que contestaron estar satisfechos 90 también
compraron un recuerdo.
7.4 Formas de examinar el espacio muestral
Existen varias formas de examinar el espacio muestral específico, lo más usados
son la tabla de datos cruzados y el diagrama de Venn. La tabla de datos cruzados
o de contingencia, consiste en construir una matriz de relación de las variables de
interés. Siguiendo con los ejemplos de las barajas y de los visitantes al museo, se
construyen las siguientes tablas de datos cruzados.
Posibles eventos en el espacio muestral del mazo de cartas: Evento simple: As Evento simple: Roja Evento complemento: No As = As’ Evento complemento: No roja = Roja’ Evento conjunto: As roja Evento conjunto: No As roja = As roja’
162
Tabla 7.1 Datos cruzados para analizar el evento As roja
Roja Negra Totales
As 2 2 4
No As 24 24 48
Totales 26 26 52
El valor de las celdas de la tabla 7.1 de datos cruzados se obtuvo de distribuir el
mazo de 52 cartas en cuatro subconjuntos Ases roja y Ases negra, no Ases roja y
no Ases negra. La tabla de contingencia para los 400 visitantes del domingo al
museo se representa en la tabla 7.2
La tabla de datos cruzados o de contingencia, cuando el espacio muestral es gran-
de, se puede construir con ayuda de un paquete estadístico, como el SPSS.
Tabla 7.2 Datos cruzados para analizar compra y satisfacción
Satisfechos
Compraron si No Totales
si 90 35 125
no 225 50 275
Totales 315 85 400
Otra forma de presentar el espacio muestral es utilizando el diagrama de Venn.
Este diagrama muestra gráficamente los diversos eventos como uniones o intersec-
ciones de círculos. La figura 7.2 representa un diagrama de Venn típico para una
situación de dos variables, en donde cada variable sólo presenta dos eventos: A, A’
y B, B’.
En el espacio muestral AB, pueden suceder uniones como AUB, A’UB’, AUB’ y
A’UB; intersecciones como A B, A’ B’, A B’ y A’ B. Tomando los datos de la
tabla 2, A = 4 y B = 26, se construye el siguiente diagrama de Venn.
163
Figura 7.2 Diagrama de Venn para los eventos A y B
B 24A 2 2
AUB AUB= 28
= 24A’ B’
U
A B
U
A’ B’
U
A B
U
= 2
Espacio muestral de 52 cartas
A = Ases = 4
B = cartas negras = 26
A B = Ases negros = 2
A B = Ases o cartas negras = 28
A’ B’ = Ases y no cartas negras = 24
Figura 7.2(a) Diagrama de Venn para los eventos A y B
B 225A 35 90
AUB AUB= 350
= 50
= 90
A’ B’
U
A’ B’
U
A B
U
A B
U
164
Espacio muestral de 400 visitantes
A = Compraron = 125
B = satisfechos = 315
A B = Compraron-satisfechos = 90
A Compraron o satisfechos = 350
A’ ’ No compraron- no satisfechos =50
7.5 Probabilidad simple y probabilidad conjunta.
Hasta aquí se ha tratado de explicar el concepto de probabilidad, el espacio mues-
tral y los tipos de eventos. Ahora se verá la forma en que se calculan las probabili-
dades, de acuerdo al tipo de evento que se presente.
Lo que debe quedar claro y se considera como la regla más evidente de la teoría de
probabilidad es que en todos los casos la probabilidad siempre tiene una proporción
cuyo valor varía entre 0 a 1. Un evento imposible de ocurrir, evento nulo, tiene la
probabilidad de cero, y un evento cierto, tiene la probabilidad de 1.
Probabilidad simple
La probabilidad simple se refiere a la probabilidad de ocurrencia de un evento sim-
ple, P(A), como:
La probabilidad de sacar un As de un mazo de barajas
La probabilidad de sacar una carta negra
La probabilidad de compra de los visitantes del domingo al museo
La probabilidad de satisfacción de los visitantes del domingo al museo
Utilizando la fórmula para encontrar la probabilidad de ocurrencia = X/T, se
tiene que:
165
La probabilidad de sacar un As de un mazo de barajas = 4/52
La probabilidad de sacar una carta negra = 26/52
La probabilidad de compra de los visitantes del domingo al museo =
125/400
La probabilidad de satisfacción de los visitantes del domingo al museo
=315/400
Los datos anteriores, para el cálculo de probabilidad se pueden extraer de la tabla
de datos cruzados o del diagrama de Venn elaborados en el apartado anterior. Aquí
se puede apreciar que la probabilidad simple de un evento se puede calcular a
través de la suma de las probabilidades relativas del espacio muestral:
P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn)
En la tabla 7.1 se puede observar que la probabilidad de A es igual a:
P(A) = P(As negro) + P(As rojo) = 2/52 + 2/52 = 4/52
Probabilidad conjunta
Cuando se habla de varios eventos dentro del mismo experimento, probabilidad
conjunta, se pueden dar varios casos, como la carta As roja o Rey negro de un
mazo de barajas, o que un visitante del domingo al museo que haya comprado un
recuerdo y esté satisfecho con el material histórico exhibido. Para que se dé una
probabilidad conjunta significa que ambos eventos A y B deben ocurrir simultá-
neamente.
Observando las tablas de datos cruzados de la tabla 7.1, las cartas que son As y
negras son las que se encuentran en la celda de la fila As y de la columna Negra,
que son 2, por lo que la probabilidad de escoger un As negro es igual a:
166
P(As negro) = Número de Ases negros/total de cartas = 2/52
Este resultado también puede observarse en el diagrama de Venn de la figura 7.2,
el evento conjunto A y B (As negro) y corresponde a la intersección A B.
La probabilidad de escoger aleatoriamente un visitante del domingo al museo y que
haya comprado y esté satisfecho con el material histórico exhibido, se obtendrá de
la tabla 7.2 y de la figura 7.2 de la manera siguiente
P(comprar y satisfecho) = 90/400
Ahora que se ha analizado la noción de probabilidad conjunta, debe de recordarse
que la probabilidad simple es igual a la suma de las probabilidades relativas o de
conjunto de un espacio muestral, es decir: P(A) = P(A y B1) + P(A y B2) + P(A y
B3)……+ P(A y Bn), donde cada evento conjunto no pueden ocurrir simultáneamen-
te, por lo que se les denomina, eventos mutuamente excluyentes, pero tienen que
ocurrir, es decir son colectivamente exhaustivos si uno de los eventos debe ocu-
rrir.
Los eventos B1, B2, B3……. Bn son eventos mutuamente excluyentes y colectivamente
exhaustivos.
Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes y colec-
tivamente exhaustivos. Nadie es ambos (mutuamente excluyente) y todos son uno u
otro (colectivamente exhaustivos).
Regresando al ejemplo de la baraja, la probabilidad de sacar un As se puede expre-
sar de dos maneras:
P(As) = 4/52 ó
P(A) = P(As rojo) + P(As negro) = (2/52) + (2/52) = 4/52 = 1/13 = .0769
167
Por otro lado, en ocasiones un evento o más eventos dependen de otro evento pre-
vio, es decir, un evento A ocurre dado que ocurrió un evento B. Si existe este tipo
de relación entre eventos se dice que son eventos dependientes o condicionados
(el evento A depende del evento B, o el resultado del evento A está condicionado al
resultado del evento B). Por otro lado, si no existe tal relación entre eventos se dice
que son eventos independientes. Los criterios de dependencia o de independencia
se definirán más adelante, en términos de probabilidad condicional.
De lo anterior se puede afirmar que las probabilidades de los eventos de un espacio
muestral tienen las siguientes propiedades:
Las probabilidades relativas son mayores o iguales que cero.
La probabilidad relativa del espacio muestral es igual a la unidad.
Si dos eventos son mutuamente excluyentes, es decir que no ocurren
simultáneamente, entonces la probabilidad relativa de su unión es la
suma de las probabilidades relativas de cada uno.
Cálculo de probabilidad conjunta
Cuando se tienen eventos simples no existe mucho problema en el sentido del
cálculo de las probabilidades, pues basta con una relación o el uso directo del
cálculo combinatorio. Pero en el caso de eventos conjuntos, que son los compues-
tos por más de un evento simple, el proceder de manera análoga resulta muy com-
plejo y las operaciones pueden sobrepasar la capacidad de cálculo existente. Sin
embargo, utilizando las propiedades de la probabilidad, y las siguientes reglas, se
podrán expresar las probabilidades de estos eventos en términos de los eventos
simples que lo componen, siempre y cuando se conozcan las probabilidades de
éstos.
La probabilidad de una unión de eventos, se puede calcular de la siguiente manera:
168
Regla 1. (Regla de la adición general). Si A y B son dos eventos, la probabilidad
de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y
de B, menos la probabilidad de que ocurran A y B simultáneamente. Es decir,
P(A ) = P(A) + P(B) - P(A B)
La probabilidad de la adición (unión) considera la ocurrencia del evento A o del
evento B o la de ambos A y B. La regla de la adición consiste en tomar la probabi-
lidad de A y sumarla a la probabilidad B; La intersección A y B se resta del total
porque ya ha sido incluida en las probabilidades relativas de A y B. Para los ejem-
plos que se han venido presentando, de las tablas 7.1 y 7.2, los cálculos de la adi-
ción A y B son los siguientes:
De la tabla 7.1, la probabilidad de que sea un As o una carta roja es igual a (4/52
+ 26/52) – 2/52 = 28/52
De la tabla 7.2, la probabilidad de que compren un recuerdo o estén satisfechos
es igual a (125/400 + 315/400) – 90/400 = 350/400
Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene:
Regla 2. (Regla de exclusión). Si dos eventos, A y B, son mutuamente excluyentes
entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilida-
des de ocurrencia de A y de B dado que la intersección A B (A y B) no existe y
tiene un valor igual a cero. Es decir
P(A ) = P(A) + P(B)
En los ejemplos anteriores, los eventos no son excluyentes porque existe la inter-
sección A y B, pero, por ejemplo, si se desea saber la probabilidad de escoger una
carta de picas o una carta de corazones si se escogiera sólo una carta del mazo de
52. Utilizando la regla de adición se obtendría:
169
P(picas o corazón) = P(espada) + P(corazón) – P(corazón y espada)
13/52 +13/52 -0/52 = 26/52
Para los eventos colectivamente exhaustivos también se aplica la ecuación anterior,
por ejemplo, la probabilidad de escoger una carta roja o una carta negra, como son
eventos mutuamente excluyentes, pero alguno tiene que suceder, la probabilidad se
calcula de la siguiente manera:
P(roja o negra) = P(roja) + P(negra)
26/52 + 26/52 = 52/52 = 1
Retomando los conceptos de eventos dependientes o condicionales, se va a definir
la probabilidad condicional como sigue:
Regla 3. (Regla condicional). La probabilidad de que ocurra un evento A dado
que ocurrió el evento B (el evento A depende del evento B), y se denota P(A|B), es:
P(A y B)=
Donde P(A y B) es igual a la probabilidad conjunta de A y B, y P(B) es la probabi-
lidad relativa de B.
Regresando a los ejemplos de la tabla 7.1 y 7.2, la probabilidad de que ocurra A
dado que ocurrió B.
De la tabla 7.1, ¿cuál es la probabilidad de sacar un as negro, dado que las cartas
son negras?:
P(As|negro) = P(As y negro)/P(negro) = (2/52)/(26/52) = 2/26
De la tabla 7.2, ¿Cuál es la probabilidad de que los que hayan comprado estén
satisfechos?:
170
P(compra satisfechos) = P(compra y satisfechos)/P(satisfechos) =
(90/400)/(315/400) = 90/315
Hay que notar que esta propiedad no es conmutativa, situación que sí ocurre con la
probabilidad de unión o la intersección de eventos, por lo que no hay que confundir
P(A|B) y P(B|A).
Regla 4 (Regla de independencia). Dos eventos A y B son independientes si y
sólo si
P(A|B) = P(A) y P(B|A) = P(B)
En la primera igualdad se observa que la probabilidad de elegir una carta que sea
As, dado que se sabe que es negra es 2/26. Ahora recordemos que la probabilidad
de sacar un As es 4/52, lo que se reduce a 2/26. Por lo que se cumple la regla. El
“color de la carta” y “ser un As” son eventos estadísticamente independientes. Lo
mismo sucede con la segunda igualdad, la probabilidad de que sea una carta negra
dado que es un As es igual a 2/4 y la probabilidad de que sea una carta negra es
26/52, lo que se reduce a 2/4.
Regla 5. (Regla de multiplicación).
P(A|B) = P(A y B)/P(B)
Despejando la probabilidad conjunta de P(A y B), tenemos la regla general de la
multiplicación:
P(A y B) = P(A|B) P(B)
Para mostrar el uso de la regla de la multiplicación, considerando el mazo de 52
cartas, ¿cuál es la probabilidad de que dos cartas consecutivas sean rojas.
P(A y B) = P(A|B) P(B)
171
La probabilidad de que la primera carta sea roja es 26/52, puesto que 26 de las 52
cartas son rojas. La probabilidad de que la segunda carta sea también roja depende
de la primera selección. Si la primera carta no se regresa al mazo (muestreo sin
reemplazo), entonces el número de cartas será 51, Si la primera carta fue roja, la
probabilidad de que la segunda también sea roja es 25/51, puesto que 25 cartas
rojas siguen en el mazo de 51, por lo tanto, al utilizar la ecuación de probabilidad
condicional, tenemos lo siguiente:
P(A y B) = (26/52) (25/51) = 650/2652 = 0.2450
Qué sucede si la primera carta extraída se regresa al mazo (muestreo con reempla-
zo), entonces la probabilidad de elegir una segunda carta roja es igual a la probabi-
lidad de la primera, es decir:
P(A y B) = (26/52) (26/52) = 676/2705 = 0.2499
El ejemplo de muestreo con reemplazo muestra que la segunda selección es inde-
pendiente de la primera, puesto que no tuvo ninguna influencia en su acontecer.
Así pues, la regla de multiplicación para eventos independientes se expresa de la
siguiente manera:
P(A y B) = P(A) P(B)
Si esta condición se cumple para dos eventos, A y B, entonces estadísticamente son
independientes. Por lo que:
1. Los eventos A y B son estadísticamente independientes si sólo si P(A|B)
= P(A)
2. Los eventos A y B son estadísticamente independientes si sólo si P(A y
B) = P(A) P(B).
172
Conociendo la regla de multiplicación, retomando la ecuación para calcular la pro-
babilidad simple de A, de la siguiente manera:
P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn)
Y utilizando la regla de multiplicación, se obtiene:
P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn)
Donde B1, B2, B3……. Bn son eventos mutuamente excluyentes y colectivamente ex-
haustivos.
Para ilustrar esa fórmula, utilizando los datos de la tabla 7.1, la probabilidad de
escoger un As se aplica de la siguiente manera:
P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)
P(As) = (2/26)(26/52) + (2/26) + (26/52)
2/52 + 2/52 = 4/52
Otra propiedad que se deriva de todas las anteriores es cuando se busca la probabi-
lidad del complemento de un evento E, que denotaremos como ~E:
Regla 6. (Regla de complemento) Si E es un evento y ~E su complemento, enton-
ces:
P(E) + P(~E) = 1; otra manera de expresar esta regla es P(~E) = 1 - P(E)
7.6 Teorema de Bayes.
El teorema de Bayes, enunciado por Thomas Bayes, en la teoría de la probabilidad,
es el resultado que da la distribución de probabilidad condicional de una variable
aleatoria A dada B en términos de la distribución de probabilidad condicional de la
variable B dada A y la distribución de probabilidad marginal de sólo A. Este con-
cepto puede ampliarse para revisar probabilidades basadas en nueva información y
173
así determinar la probabilidad de un efecto particular se deba a una causa específi-
ca.
El teorema de Bayes se desarrolla a partir de las definiciones de la probabilidad
condicional y probabilidad simple, de la siguiente manera:
P(A y B) = P(A|B) P(B)
P(A y B) = P(B|A) P(A)
Si se sustituye la igualdad, queda:
P(B|A) P(A) = P(A|B) P(B)
Dividiendo entre P(A), se obtiene:
P(B|A) = P(A|B) P(B)
P(A)
Pero como P(A) es igual a P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn),
entonces,
P(A|B = P(B |A)i
P(A|B )P(B )i i
1) P(B 1) + P(A|B 2)P(B 2)……+ P(A|Bn) P(Bn)
donde Bi es cualquier valor que puede tomar, desde B1 hasta Bn.
Para comprender mejor la aplicación del teorema de Bayes, se aplica en el siguien-
te ejemplo:
En una etapa de la producción de un artículo se aplica soldadura y para eso se usan
tres diferentes robots. La probabilidad de que la soldadura sea defectuosa varía
para cada uno de los tres, así como la proporción de artículos que cada uno proce-
sa, de acuerdo a la siguiente tabla.
174
Tabla 7.3 Producción y defectos por robot empleado
Robot Defectuosos
Porcentaje de
Producción
A 0.002 18%
B 0.005 42%
C 0.001 40%
Ahora surgen un par de preguntas:
•Cuál es la proporción global de defectos producida por las tres máquinas.
•Si se toma un artículo al azar y resulta con defectos en la soldadura, cuál es la
probabilidad de que haya sido soldado por el robot C.
a) La primera pregunta conduce a lo que se conoce con el nombre de fórmula de la
probabilidad total.
Primero es necesario conocer la proporción global de defectos de los tres ro-
bots. Después de reflexionar un momento se ve que si todas las soldaduras las
pusiera el robot C, habría pocos defectos, serían 0.001 o 0.1%. En cambio, si
todas las pone el B, ¡sería un desastre!, tendríamos cinco veces más: 0.005 o
0.5%. De modo que en nuestra respuesta debemos tener en cuenta las diferen-
tes proporciones de lo maquinado en cada robot.
La idea es empezar por descomponer el evento “defectuoso”en “viene del ro-
bot A y es defectuoso'” o “viene del robot B y es defectuoso” o “viene del ro-
bot C y es defectuoso”. En símbolos tendremos:
P(d) = P(A y d) + P(B y d) + P(C y d)
ó
P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)
175
Antes de ponerle números y resolver nuestro problema fijémonos en la fórmu-
la obtenida.
Hay tres eventos A, B y C que son ajenos y cubren todo el espacio muestral.
Se conoce las probabilidades de cada uno de ellos. Además, se conoce las
probabilidades condicionales de otro evento dado cada uno de ellos.
La fórmula de arriba se llama fórmula de la probabilidad total. Sustituyendo
con los números, se tiene que
P(d) = (0.18)(0.002) + (0.42)(0.005) + (0.40)(0.001) = 0.00286, casi 3 piezas
por cada mil.
Es bueno comparar este resultado con los porcentajes de soldaduras defectuo-
sas de cada robot por separado. Se puede ver que el resultado se encuentra en-
tre todas ellas y se encuentra relativamente cerca de los porcentajes de los ro-
bots más utilizados (el B y el C). Esto es muy razonable.
b) La segunda pregunta es, a la vez más simple y más complicada, conduce a la
aplicación de lo que se conoce con el nombre de teorema de Bayes.
La probabilidad que se busca es un condicional pero al revés de las que se tie-
nen. Se busca P(C|d), para calcularla se utiliza la definición de probabilidad
condicional:
P(C | d) = [P(C y d)] / [P( d )]
El numerador (lo de arriba) se calcula con
P(C y d) = P(C) P(d|C)
y el denominador se calcula con la fórmula de probabilidad total
P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)
176
juntando las dos se tiene la fórmula de Bayes:
P( C|d) = [P(C) P(d|C)] / [P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)]
Aplicándola al ejemplo se tiene:
P(C|d) = [(0.40)(0.001)]/[(0.18)(0.002) + (0.42)(0.005) + (0.40)(0.001)]
o sea: P(C|d) = [0.0004]/[0.00286] = 0.1399; casi 14%.
O sea que si se toma una pieza al azar, la probabilidad de que haya sido soldada por
el robot C es alta, 40%. Pero, como ese robot produce sólo 1 de cada mil soldadu-
ras defectuosas, al saber que la pieza seleccionada es defectuosa, la probabilidad de
que provenga del robot C disminuye a solamente 14%. Esto quiere decir que, en
este caso el saber que la soldadura es defectuosa, nos provee con una gran cantidad
de información.
Utilizando de nuevo la fórmula de Bayes las probabilidades de los robots A y B, se
tendría: P(B|d) = 0.7343 y P(A|d) = 0.1259
Comparadas con las probabilidades de cada máquina sin saber que la pieza es de-
fectuosa se observa un gran incremento en la probabilidad de B.
Si, por el contrario la pieza no hubiese tenido defectos de soldadura, el mismo teo-
rema de Bayes daría: P(A|no d) = 0.1802, P(B|no d) = 0.4191 y P(C|no d) = 0.4007
Lo anterior se obtiene del siguiente procedimiento:
Como la probabilidad de defectuosos P(|d) = .00286, por lo tanto, su probabilidad
complemento o P(|no d) = .99714, lo mismo para cada robot, la probabilidad de
que sea no defectuoso es igual a la probabilidad complemento de la probabilidad de
defectuosos.
177
Tabla 7.4 Producción y defectos por robot empleado
Robot
No
Defectuosos
Porcentaje de
Producción
A 0,998 18%
B 0,995 42%
C 0,999 40%
P(A|No d) = P(A y No d)/P (No d)= (.18)(.998)/ .99714 = 0.1802
P(B|no d) = P(B y No d)/P (No d) = (.42)(0.995)/.99714 = 0.4191
P(C|no d) = P(C y No d)/P (No d) = (.42)(0.995)/.99714 = 0.4007
Las probabilidades no son idénticas a las probabilidades no condicionales, pero la
diferencia es muy pequeña.
Para apreciar mejor el cambio, Se ponen en una sola tabla las probabilidades inicia-
les y las condicionales obtenidas bajo el conocimiento de la soldadura de la pieza.
Tabla 7.5 Producción y probabilidad condicional de defectos y no defectos
Robot P( ) P( |d) P( |no d)
A 0,18 0,1259 0,1802
B 0,42 0,7343 0,4191
C 0,40 0,1399 0,4007
Total 1,00 1,00 1,00
Es tan grande el éxito de los tres robots en el soldado correcto que el saber que la
pieza no tiene defectos, prácticamente no altera las probabilidades de producción
en uno u otro.
Por el contrario, el robot C es tan bueno, comparado con el B que, al saber que la
pieza es defectuosa, las probabilidades cambian dramáticamente.
178
En este ejemplo el cálculo de probabilidades condicionales nos cuantifica algo que
el sentido común nos dice de otra forma. La fórmula de Bayes sirvió para pasar de
las probabilidades no condicionales a las condicionales.
Otra aplicación interesante del Teorema de Bayes se relaciona con el área de dia-
gnóstico médico. Si se considera que la probabilidad que una persona tenga cierta
enfermedad es del .03. Se dispone de pruebas de diagnóstico para comprobar si la
persona realmente tiene la enfermedad, la probabilidad de que la prueba dé positivo
si la enfermedad está presente es del .90; la probabilidad de que dé positivo si la
enfermedad no está presente es de .02; dada la información, se desea saber:
a. Si la prueba de diagnóstico médico ha dado resultado positivo, ¿Cuál es la
probabilidad que la enfermedad esté presente?
b. ¿Qué proporción de todas las pruebas de diagnóstico médico indican resul-
tados positivos
c. Si la prueba de diagnóstico médico ha dado resultado negativo, ¿Cuál es la
probabilidad de que la enfermedad no esté presente?
Probabilidad de enfermedad, P(E) = .03
Probabilidad prueba positivo dada la enfermedad, P(P|E) = .90
Probabilidad de No enfermedad, P(E’) = .97
Probabilidad prueba positivo dada la No enfermedad, P(P|E’) = .02
179
Figura 7.3 Árbol de decisión para la aplicación del teorema de Bayes
P(E)=.03
P(E’)=.97
P(E y P)=P(P E)P(E)I
P(E’ y P)=P(P E’)P(E’)I
P(E y P’)=P(P’ E)P(E)I
P(E’ y P’)=P(P’ E’)P(E’)I
=(.90)(.03)= .0270
=(.02)(.97)= .0194
=(.10)(.03)= .0030
=(.98)(.97)= .9506
Tabla 7.6 Probabilidad de enfermedad y prob. condicionada.
Probabilidad
de
enfermedad
Probabilidad
condicional
Probabilidad
conjunta
Probabilidad
revisada
Evento Ei P(Ei) P(P|Ei) P(P|Ei)P(Ei) P(Ei|P)
E = tienen una enfermedad 0.03 0.90 0.0270 .0270/.0464 = .582
E' = No tienen enfermedad 0.97 0.02 0.0194 .0194/.0464 = .418
0.0464 1.0000
Respuesta a la primera pregunta. Si la prueba de diagnóstico médico ha dado
resultado positivo, ¿Cuál es la probabilidad que la enfermedad esté presente?:
P(E|P) = [P(P|E) P(E)]/P(P|E)P(E) + P(P|E’)P(E’) = [.03 * .90]/ [(.90) (.03) +
(.02 ) (.97)]= .0270/.0464 = .582
Respuesta a la segunda pregunta. ¿Qué proporción de todas las pruebas de dia-
gnóstico médico indican resultados positivos?
180
Se refiere a la probabilidad simple del evento P, es decir al numerador de la opera-
ción anterior: P(P|E)P(E) + P(P|E’)P(E’), o sea .0464.
Respuesta a la tercera pregunta. Si la prueba de diagnóstico médico ha dado
resultado negativo, ¿Cuál es la probabilidad de que la enfermedad no esté presente?
P(P’|E) = 1 – P(P|E) = 1 - .90 = .10
P(P’|E’) = 1 – P(P|E’) = 1 - .02 = .98
Utilizando la ecuación del teorema de Bayes se tiene:
P(E’|P’) = [P(P’|E’) P(E’)]/P(P’|E)P(E) + P(P’|E’)P(E’) = [.98 * .97]/ [(.10)
(.03) + (.98 ) (.97)]= .9506/.9536 = .997
7.7 Principios fundamentales para enumerar
En ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situa-
ción dada se convierte en algo difícil de lograr o simplemente tedioso. El análisis
combinatorio, o cálculo combinatorio, permite enumerar tales casos o sucesos y así
obtener la probabilidad de eventos más complejos.
En el caso de que exista más de un suceso a observar, habría que contar el número
de veces que pueden ocurrir todos los sucesos que se desean observar, para ello se
utiliza el principio fundamental de conteo, aquí se señalan cinco diferentes princi-
pios para enumerar.
Principio 1: Si cualquiera de k eventos mutuamente excluyentes y colectivamente
exhaustivos puede ocurrir en cada uno de n intentos, el número de resultados posi-
ble es igual a kn
Si una moneda se arroja 10 veces, el número de resultados posibles es 210
= 1,024;
Si un dado se lanza dos veces, el número de resultados posibles es 62 = 36.
181
Principio 2: Si hay k1 eventos del primer intento, k2 eventos del segundo intento y
kn eventos del enésimo intento, entonces el número de resultados posible es:
(k1)(k2)….(kn)
Si el código de una placa de automóvil consistiera en tres letras seguidas de tres
dígitos, el número total de placas posible sería (27) (27) (27) (10) (10) (10) = 19,
683, 000.
Principio 3: El número de formas en que n objetos pueden ordenarse es igual a
n(n-1)(n-2)…(1); conocido en forma abreviada cono n!, o n factorial. 0! = 1.
El número de formas en que siete libros pueden ordenarse es igual a 7! )
7*6*5*4*3*2*1= 5040.
Principio 4: El número de formas de ordenar X objetos seleccionados de n objetos
es = n!/(n-X)!, a esta manera de ordenar los X objetos se le denomina permutacio-
nes.
Si se tienen 6 libros, pero sólo hay espacio para acomodar 4, cuantas maneras dife-
rentes se pueden acomodar los 4 libros: 6!/(6-4)! = 6!/2! = 360
Principio 5: Muchas de las veces no interesa el orden de los resultados, sino, sólo
en el número de formas en que X objetos pueden seleccionarse de n objetos, la
manera de calcular es n!/X!(n-X)!, a este cálculo se le denomina combinaciones y
su expresión matemática es Cxn ó (
n )X .
7.8 Resumen
La probabilidad es la posibilidad u oportunidad de que suceda un evento particular.
La probabilidad involucrada es una porción o fracción cuyo valor varía entre cero y
uno exclusivamente. Observamos un evento que no tiene posibilidad de ocurrir (es
182
decir, el evento nulo), tiene una probabilidad de cero, mientras que un evento que
seguramente ocurrirá (es decir, el evento cierto), tiene una probabilidad de uno.
Se han definido tres planteamientos de probabilidad.
El primero a menudo se denomina como el planteamiento de la probabilidad clási-
ca a priori. Aquí la probabilidad de éxito se basa en el conocimiento anterior del
proceso involucrado. En el caso más simple, cuando cada resultado es igualmente
posible.
En el segundo ejemplo; llamado probabilidad clásica empírica, aunque la probabi-
lidad se sigue definiendo como la proporción entre el número de resultados favora-
bles y el número total de resultados, estos resultados se basan en datos observados,
no en el conocimiento anterior a un proceso.
El tercer planteamiento de probabilidad se denomina el enfoque de probabilidad
subjetiva.
Los elementos básicos de la teoría de probabilidades son los resultados del proceso
o fenómeno bajo estudio. Cada tipo posible de ocurrencia se denomina un evento.
Un evento simple puede describirse mediante una característica sencilla. La compi-
lación de todos los eventos posibles se llama el espacio muestral.
La manera en que se subdivide el espacio muestral depende de los tipos de probabi-
lidades que se han de determinar. Tomando esto en cuenta, resulta de interés defi-
nir tanto el complemento de un evento como un evento conjunto y su condición de
exclusión y ocurrencia. Definiendo la diversidad de los eventos posibles en un
espacio muestral, se puede determinar la probabilidad simple, probabilidad conjun-
ta, probabilidad condicionada y probabilidad independiente.
183
7.9 Términos clave:
Criterio de probabilidad
Diagrama de Venn
Espacio muestral
Evento cierto
Evento conjunto
Evento nulo
Eventos colectivamente exhaustivos
Eventos complemento
Eventos dependientes o condiciona-
dos
Eventos independientes
Eventos mutuamente excluyentes
Eventos simples
Principios para enumerar.
Probabilidad a priori
Probabilidad conjunta
Probabilidad empírica o a posteriori
Probabilidad objetiva
Probabilidad simple
Probabilidad subjetiva
Regla condicional
Regla de adición
Regla de complemento
Regla de exclusión
Regla de independencia
Regla de multiplicación
Tabla de datos cruzados
Teorema de Bayes
7.10 Problemas de repaso
1. Para cada uno de los siguientes eventos, indique si el tipo de probabilidad es a
priori, empírica o subjetiva:
a) Que al siguiente lanzamiento de una moneda caiga en águila o en figura
b) Que el equipo del Guadalajara le gane al equipo del América
c) Que el último número de la Lotería Nacional sea un 9
d) Que la suma de dos dados lanzados sea 7
e) Que en el siguiente lote de producción existan 3 piezas defectuosas
2. Dé tres ejemplos de cada uno de los tipos de probabilidad: a priori, empírica o a
posteriori y subjetiva
184
3. En una gran área metropolitana se seleccionó una muestra de 1000 encuestados
para determinar información diversa respecto al comportamiento de los consumi-
dores. Entre las preguntas estaba ¿Disfruta comprar ropa?, de 480 hombres 272
respondieron que sí. De las 520 mujeres 488 respondieron que sí.
a) Construya una tabla de 2x2 y el diagrama de Venn
b) Dé un ejemplo de un evento simple
c) Dé un ejemplo de evento conjunto
d) ¿Cuál es el complemento de “disfruta de comprar ropa”?
e) ¿Cuál es la probabilidad de que el encuestado sea
a. sea hombre
b. disfrute comprar ropa
c. sea mujer
d. no disfrute comprar ropa
e. sea mujer y disfrute de comprar ropa
f. sea hombre y no disfrute comprar ropa
g. sea un hombre y disfrute comprar ropa
h. sea una mujer o disfrute comprar ropa
i. sea un hombre o no disfrute comprar ropa
j. sea un hombre o una mujer
f. Suponga que el encuestado es mujer. ¿Cuál es entonces la probabilidad que
no disfrute comprar ropa?
g. Suponga que el encuestado elegido disfruta de comprar ropa. ¿Cuál es en-
tonces la probabilidad que sea un hombre?
185
h. ¿Disfruta de comprar ropa y el género de los encuestados son estadística-
mente independientes? Explique.
4. La cerradura de la bóveda de un banco consiste en tres discos, cada uno con 30
posiciones. Para que la bóveda se abra, cada uno de los tres discos deberá estar en
la posición correcta.
a) ¿Cuántas combinaciones de discos diferentes existen para la cerradura?
b) Cuál es la probabilidad de que si se eligió aleatoriamente una combinación
(una posición de cada disco), sea capaz de abrir la bóveda del banco?
c) Explique por qué las combinaciones de discos no son combinaciones ma-
temáticas expresadas por la ecuación n!/X!(n-X)!
5. Un estudiante tiene 9 libros que desearía acomodar en un portafolios. Sin em-
bargo sólo 4 libros caben en el portafolios. Sin importar el arreglo ¿Cuántas for-
mas hay de colocar 4 libros en un portafolios?
186
7.11 Mapa conceptual de probabilidad
Probabilidad
Objetiva
Apriori Empirica
Subjetiva
Representación
Diagrama de Venn
Árbol de decisión
Tabla de contingencia
Tipos de probabilidad
Simple Conjunta Condicional
Regla de adición
Regla de multiplicación
Independencia estadística
Teorema de Bayes
187
Capítulo 8
Modelos de distribución de
probabilidad para variables
aleatorias discretas
*********************
Objetivo del
Capítulo
Propiciar la compresión del concepto de espe-
ranza matemática y su aplicación en la toma de
decisiones, así como los diferentes modelos de
distribución de probabilidad de variables discre-
tas
188
189
8.1 Introducción
Utilizando el conocimiento sobre las medidas estadísticas, la teoría de la probabili-
dad y los métodos de conteo, en este capítulo se estudiará el concepto de esperanza
matemática y los modelos de distribución de probabilidad que representen eventos
discretos. Se iniciará definiendo la distribución de probabilidad y se define las dos
características básicas de cualquier distribución de probabilidad: su media o valor
esperado E(X) y su varianza, σ2. Después se explicará dos modelos importantes de
distribución de probabilidad discreta: la distribución binomial y la distribución de
Poisson.
Al terminar el capítulo, el alumno debe ser capaz de:
1. Calcular el valor esperado y la varianza de una distribución de probabili-
dad discreta.
2. Comprender la aplicación de los modelos de probabilidad binomial y de
Poisson
3. Encontrar cualquier probabilidad binomial o de Poisson
4. Saber cuándo y cómo se puede utilizar la distribución de Poisson para
aproximar la distribución de binomial.
190
8.2 Concepto de distribución de probabilidad discreta
Para definir el concepto de distribución de probabilidad discreta, es necesario re-
cordar que una variable aleatoria es cierto fenómeno de interés cuyo resultado pue-
de expresarse numéricamente. La variable aleatoria puede ser discreta (conteo) o
continua (medición). En este capítulo se tratará ciertos modelos de distribución
discreta, la que se define como: un listado mutuamente excluyente de todos los
resultados posibles para una variable aleatoria, tal que una probabilidad de
ocurrencia está asociada con cada resultado.
La distribución de probabilidad para los resultados de una sola vuelta de rodar un
dado se describe en la tabla 8.1. La tabla incluye todos los resultados posibles y
como son eventos colectivamente exhaustivos, la suma de probabilidades debe de
ser igual a 1. La tabla sirve para calcular diferentes posibilidades de ocurrencia.
Tabla 8.1 Distribución de probabilidades teóricas de los resultados de arrojar
un dado
1/6
1/6
1/6
1/6
1/6
1/6
Resultado
Resultado 1.0
Probabilidad
La probabilidad de que sea cualquier número, pero sólo uno de ellos (1, 2, 3, 4, 5 ó
6) = 1/6:
P(4) = 1/6
191
Utilizando la regla de adición para eventos mutuamente excluyentes, la probabili-
dad de que sea un par (2, 4 o 6) es igual a:
P(par) = P(2) + P(4) + P(6) = 1/6 +1/6 +1/6 =3/6 = ½,
es decir el 50% de probabilidad de que sea un par.
La probabilidad de que sea igual o menor de 2:
P(≤2) = P(1) + P(2) = 1/6 + 1/6 = 2/6 = 1/3
8.3 Valor esperado de una variable discreta
El valor esperado E(X) de una serie de eventos aleatorios mutuamente excluyentes
y colectivamente exhaustivos es la media (µ). El valor esperado de una variable
aleatoria discreta es la suma de todos los resultados ponderados posibles. La pon-
deración es la probabilidad asociada a cada uno de los resultados.
El E(X) se obtiene de la suma de los productos de cada resultado posible Xi por la
probabilidad de ocurrencia P(Xi), el cual se expresa matemáticamente de la si-
guiente manera:
µx = E(X) = ∑
n
(X i X iP )i= 1
Para la distribución teórica de los resultados de arrojar un dado, el valor esperado
es igual a:
µx = E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 21/6 = 3.5
Debe considerarse que al arrojar un dado, nunca se podrá obtener una cara con
valor de 3.5, la interpretación que debe darse es de que a la larga, después de mu-
chos tiros, se habrá obtenido el mismo número de unos, doses….seises, y el valor
promedio es 3.5.
192
Suponiendo que un casino le paga a un jugador en pesos el número que saque por
cada que arroje un dado y le cobra cuatro pesos por cada vez que lo arroja, la pre-
gunta es, a la larga quién sale ganando. Si se considera el valor de cada elemento
de la distribución de probabilidad en pesos, a la larga el jugador obtendría un pro-
medio de 3.5 pesos por jugada, lo que le haría perder 50 centavos por jugada.
8.4 Varianza y desviación estándar de una variable discreta
La varianza de una serie de eventos aleatorios mutuamente excluyentes y colecti-
vamente exhaustivos es el promedio pesado de las diferencias cuadradas entre cada
resultado posible y su media, siendo los pesos las probabilidades de cada uno de
los resultados respectivos. (σ2). La varianza de una variable aleatoria discreta es la
suma de las diferencias entre cada resultado posible y su media al cuadrado ponde-
radas. La ponderación es la probabilidad asociada a cada uno de los resultados.
Esta medición puede obtenerse a través de la suma de los productos de las diferen-
cias entre los resultados posibles y la media al cuadrado (Xi - µx )2 por la probabili-
dad correspondiente P(Xi), el cual se expresa matemáticamente de la siguiente
manera:
∑n
(X -i µ x )2
X iσ2 = P )
i= 1
(((((
Además, como ya se ha visto anteriormente, la desviación estándar es igual a la
raíz cuadrada de la varianza, es decir:
∑n
(X -i µ x ) 2X iσ =
P )i= 1
(((((
Para la distribución de probabilidad teórica de los resultados de arrojar un dado, la
varianza y la desviación estándar se calculan de la siguiente manera:
σ2= (1-3.5)
2 (1/6) + (2-3.5)
2 (1/6) + (3-3.5)
2 (1/6) + (4-3.5)
2 (1/6) + (5-3.5)
2 (1/6) +
(6-3.5)2 (1/6) = 2.9166,
193
Por lo que la desviación estándar es igual a la raíz cuadrada de 2.9166 = 1.71
8.5 Ejemplos:
1. Dadas las siguientes distribuciones de probabilidad
Distribucción A Distribución B
X P(X) X P(X)
0 0.50 0 0.05
1 0.20 1 0.10
2 0.15 2 0.15
3 0.10 3 0.20
4 0.05 4 0.50
a) Calcule las medias para cada distribución
b) Calcule la desviación estándar para cada distribución
c) Señale la diferencia de cada distribución
La media para la distribución A es igual a 1; para la B es 3
La desviación estándar es igual para ambas distribuciones
La distribución A está sesgada a la derecha; la B a la izquierda
2. En el juego de dados, la variable aleatoria de interés (X) toma los valores del
total de los dos números. La distribución de probabilidad está dada por la si-
guiente tabla:
194
Número
posible
No de veces
que puede
salir
Probabilidad
de cada
evento
2 1 1/36
3 2 2/36
4 3 3/36
5 4 4/36
6 5 5/36
7 6 6/36
8 5 5/36
9 4 4/36
10 3 3/36
11 2 2/36
12 1 1/36
36 36/36
a) Determine la media o valor esperado al arrojar un par de dados
b) Calcule la varianza y la desviación estándar
Una manera de apostar es que el jugador que apuesta un $1.00 puede perder un
$1.00 si la suma de los números de los dados es 5,6,7 u 8; puede ganar un $1.00 si
la suma es 3, 4, 9, 10 u 11; o puede ganar $2.00 si la suma es 2 o 12.
c) Forme la función de distribución de probabilidades que represente los dife-
rentes resultados en la apuesta
d) Determine la media de esta distribución.
e) A la larga, ¿Cuál es la ganancia o pérdida del jugador y de la casa?
195
Tabla 8.2 Distribución de probabilidad de valor de arrojar dos dados
La media de la distribución de arrojar dos dados es igual a 7
La varianza es igual a 5.83
La desviación estándar es 2.41
La función de distribución de probabilidad con apuesta está dado por la co-
lumna V*P
La suma para esa función de distribución de probabilidad es igual a -.055
A la larga, el jugador pierde 5.6 centavos por cada peso apostado
A la larga, la casa gana 5.6 centavos por peso apostado
8.6 Funciones de distribución de probabilidad discreta
La distribución de probabilidad de una variable discreta puede especificarse a
través de:
196
1. Un listado teórico de resultados y probabilidades consecuencia de la apli-
cación de un modelo matemático representativo.
2. Un listado empírico de resultados y sus frecuencias relativas observadas
3. Un listado subjetivo de resultados asociados con sus probabilidades subje-
tivas que representan el grado de convicción del modelador.
Se han desarrollado diferentes modelos matemáticos para representar la distribu-
ción de probabilidad de diversos fenómenos discretos que ocurren en las ciencias
sociales y naturales, a esta expresión matemática se le conoce como función de
distribución de probabilidad. Las más útiles, incluso para los negocios, han sido
la distribución binomial y la distribución de Poisson.
8.7 Distribución Binomial.
Frecuentemente nos enfrentamos con el caso de muchos experimentos que pueden
dar como resultado sólo dos valores posibles éxito o fracaso. Denotamos entonces
p y 1 –p como las probabilidades para cada resultado, que satisfacen la condición
de normalización (p) + (1- p) = 1.
Al cabo de un número n de experimentos, tendremos respectivamente (x) y (n-x).
Si estamos interesados en tener experimentos con el primer resultado en un orden
determinado, la correspondiente probabilidad será (p)x (1- p)
n-x. Si en cambio no
nos interesa el orden, la probabilidad de tener cualquier combinación está dada por
la llamada distribución binomial:
P(X = x|n, p) = (número de posibles secuencias) x (probabilidad de una secuencia
en particular): n! p p
x n-x(1- )
x!(n-x)!
Al utilizar este modelo matemático, los cálculos pueden ser bastante laboriosos,
especialmente al crecer n, sin embargo las probabilidades se consiguen directamen-
197
te de tablas previamente elaboradas, de un software estadístico o de la hoja de
cálculo de Excel, evitando complicaciones de cálculo.
Un ejemplo sencillo de la aplicación del modelo matemático o función de la distri-
bución de probabilidad binomial es el siguiente: ¿Qué probabilidad existe de que
sean dos cincos en tres tiros de un dado?
P( X = 2|n = 3, p = 1/6) =
3! (1/6) (1-1/6)2 3-2
2!(3-2)!
3! 1/36 (5/6)= 3(5)/216 = 15/216 2!1!
La distribución binomial posee cuatro propiedades esenciales:
Las observaciones posibles pueden obtenerse mediante dos métodos de
muestreo distintos. Cada observación puede considerarse como selecciona-
da de una población infinita sin reemplazo o de una población finita con
reemplazo.
Cada observación puede clasificarse en una de dos categorías mutuamente
excluyentes y colectivamente exhaustivas, usualmente denominadas éxito y
fracaso.
La probabilidad de que una observación se clasifique como éxito, p, es
constante de observación a observación. Por tanto, la probabilidad de que
una observación se clasifique como fracaso, 1 – p, es constante para todas
las observaciones.
El resultado de cualquier observación, es decir el éxito o el fracaso, es in-
dependiente del resultado de cualquier observación.
Aplicaciones de la distribución binomial.
En juegos de azar: en la ruleta americana, ¿Cuál es la probabilidad de que el rojo
salga 15 o más veces en 19 intentos?
198
En producción: ¿Cuál es la probabilidad de que en una muestra de 20 piezas ningu-
na salga defectuosa si el 8% de tales piezas son defectuosas?
En educación: ¿Cuál es la probabilidad de que un estudiante apruebe un examen de
10 preguntas de respuesta múltiple (cuatro opciones) si escoge aleatoriamente las
respuestas? Aprobar es contestar correctamente 6 o más preguntas.
En cada uno de los ejemplos anteriores se cumplen las cuatro propiedades de la
distribución de probabilidad binomial.
En el juego de azar, la probabilidad de que salga rojo (éxito) es igual a 18/38 y la
probabilidad de que sea negro o verde (fracaso) es igual a 20/38. Como la ruleta no
tiene memoria, cada vez que se gire, el resultado es independiente de los resultados
anteriores o posteriores.
Figura 8.1 juego de ruleta americana
Aplicando el modelo matemático
n! 19!p px n-x(1- ) = (18/38) (1-18/38)
15 19-15
x!(n-x)! 15!(19-15)!
93,024 (6.7*10 /4.9*10 )(1.6*10 /2*10 )18 23 5 6
4!
(4.1*10 /9.8*10 ) =(0.0041)27 29
199
Un agente de seguros vende pólizas a cinco personas de la misma edad y que dis-
frutan de buena salud. Según las tablas actuales, la probabilidad de que una persona
en estas condiciones viva 30 años o más es 2/3. Hállese la probabilidad de que,
transcurridos 30 años, vivan:
1. Las cinco personas.
2. Al menos tres personas.
3. Exactamente dos personas.
Si en lugar de utilizar el modelo matemático, se consulta directamente la hoja de
cálculo de Excel, utilizando el comando F(x)/Estadísticas/DISTR.BINOM
Figura 8.2 menú de consulta de distribución binomial en Excel
200
En producción, la probabilidad de que salgan defectuosos es .08; la probabilidad de
fracaso, es decir que no salga ningún defectuoso, utilizando la hoja de cálculo de
Excel: DISTR.BINOM (0,20,0.08,FALSO), la probabilidad es igual a 0.188.
En educación, la probabilidad de éxito es .25, utilizando la hoja de cálculo de Ex-
cel: =DISTR.BINOM(6,40,0.25,FALSO), la probabilidad de pasar con 6 el examen
es de .05
Si quiere utilizar el programa estadístico SPSS, se deberá seguir el siguiente proce-
dimiento.
1. Se abre el programa con un variable disponible y se le da un valor cual-
quiera, por ejemplo 1
2. Se teclea el comando Transformar/calcular variable, como se observa en la
figura 8.3
Figura 8.3 menú Transformar en SPSS
Al teclear Transformar/calcular variable, aparece la siguiente pantalla:
201
Figura 8.4 menú calcular variables en SPSS
En esta pantalla se tiene que realizar el siguiente procedimiento:
1. En el grupo de funciones (menú superior del lado derecho) se escoge el
comando FDP y FDP centrada, éste corresponde a la función de distribu-
ción de probabilidad no acumulada.
2. Posteriormente se escoge el menú inferior Pdf.Binom, que corresponde a la
función de distribución de probabilidad binomial, se hace doble click y au-
tomáticamente aparece la leyenda explicativa y, en la parte superior, apare-
cen los espacios para colocar los valores de cálculo. En el caso del ejem-
plo, se teclearía 15, 19 y 18/38, que corresponden a la probabilidad de que
15 veces aparezca el rojo en 19 intentos con una probabilidad binomial de
18/38.
3. Para que aparezca el comando aceptar, se deberá de definir la variable des-
tino, esto es poner el nombre de la variable en la que va aparecer el valor
calculado, como se aprecia en la figura 8.5
202
Figura 8.5 resultados del cálculo de variable en SPSS
Cuando se trata de calcular la probabilidad acumulada, se sigue el mismo procedi-
miento, pero en lugar de escoger el comando FDP y FDP centrada, se escoge FDA
y FDA centrada, que corresponde a función de distribución de probabilidad acumu-
lada. Siguiendo con el mismo ejemplo, cuál es la probabilidad de que en el juego
de la ruleta americana en 19 lanzamientos caiga entre cero y 15 veces.
Figura 8.6 cálculo de probabilidad acumulada en SPSS
El resultado que se obtiene es de 0.99904, como se puede observar en la figura 8.7
203
Figura 8.7 resultados de cálculo de probabilidad binomial acumulada en SPSS
8.8 Características de la distribución binomial
La distribución de probabilidad binomial puede ser simétrica o sesgada; es simétri-
ca, sin importar el tamaño de n, cuando p = 0.5; es sesgada cuando p es ≠ 0.5
Mientras más cercano sea el valor de p a 0.5 y mayor sea el número de observacio-
nes, menos sesgada será la observación.
La media de la distribución binomial puede obtenerse fácilmente con la multipli-
cación de los valores de n y de p.
µx = E(X) = n* p
Por ejemplo, si se gira 19 veces la ruleta americana, ¿Cuál es el valor esperado del
valor de X?, dicho de otra manera, ¿Con qué frecuencia se espera que salga el color
rojo? En promedio, a la larga, teóricamente se espera: E(X) = 19 (18/38) = 9
Se espera 9 ocurrencias en 19 giros.
La desviación estándar de la distribución binomial se calcula utilizando la ecua-
ción:
σ = n (1 - )p p
204
En el ejemplo de la ruleta:
σ =
1 9 (1 8 /3 8 ) (2 0 /3 8 )
= 2.18
8.9 Distribución de Poisson
La distribución de Poisson es otra función de distribución que se utiliza mucho, no
sólo representa numerosos fenómenos discretos, sino que también se usa para pro-
porcionar aproximaciones a la distribución binomial.
La distribución de Poisson parte de la distribución binomial: cuando en una distri-
bución binomial se realiza el experimento un número "n" muy elevado de veces y
la probabilidad de éxito "p" en cada ensayo es reducida, entonces se aplica el mo-
delo de distribución de Poisson.
La distribución de Poisson se aplica en eventos discretos que ocurren en un área de
oportunidad de intervalo continuo: tiempo, longitud, área, de tal manera que:
1. La probabilidad de observar exactamente un éxito en el intervalo es inva-
riable.
2. La probabilidad de observar exactamente más de un éxito en el intervalo es
cero.
3. La ocurrencia de un éxito en cualquier intervalo es estadísticamente inde-
pendiente de otra ocurrencia en cualquier otro intervalo.
Algunos ejemplos de aplicación de la distribución de Poisson:
Número de llamadas por hora que se reciben en una estación de bomberos
Número de automóviles que cruzan un puente internacional al día
Número de manchas en un metro cuadrado de tela
205
Número de chispas de chocolate por galleta
Número de defectos por lote en un proceso de producción
En cada uno de los ejemplos anteriores, la variable aleatoria discreta, número de
“éxitos” por unidad, se ajustan a la aplicación de la función de distribución de
Poisson.
El modelo matemático de la distribución de Poisson para obtener X éxitos, dado
que se esperan λ éxitos es:
e-λ xλP(X = x =|λ) x!
P(X = x|λ) = la probabilidad de que X = x dado que se conoce λ.
e = constante matemática aproximada a 2.71828
λ = número esperado de éxitos E(X) = µx.
X = número de éxitos por unidad.
Para comprender mejor la función de distribución de Poisson, se analiza el número
de clientes que llegan a un banco entre las 12:00 a.m y 1:00 p.m. Cualquier llegada
de cliente es un evento discreto sobre un punto en particular sobre el intervalo con-
tinuo de una hora. Si durante ese intervalo llegaron en promedio 180 clientes,
¿Cuál es la probabilidad que en un minuto lleguen dos clientes?
Primero habrá que hacer la conversión de clientes/hora a clientes/minuto, el pro-
medio de llegadas por minuto es de 180/60 = 3
P(X = x|λ) = PX = 2| λ= 3) = e-3.0
(3.0)2/2! = 9/2.71828
3.0*2 = .2240
El cálculo del modelo matemático de la función de distribución de Poisson es bas-
tante tedioso, Si en lugar de utilizar el modelo matemático y se dispone del uso de
la hoja de cálculo de Excel, se utiliza el comando F(x)/Estadísticas/POISSON para
obtener la probabilidad de éxito.
206
Figura 8.8 menú de consulta de distribución Poisson en Excel
Otra aplicación
El gerente de control de calidad de Galleta María está inspeccionando un lote de
galletas de chispas de chocolate que se acaban de hornear. Si el proceso de produc-
ción está bajo control, el número promedio de chispas por galleta es 6, utilizando la
tabla de distribución de Poisson, ¿cuál es la probabilidad de que cualquier galleta
inspeccionada
a) se encuentren menos de 5 chispas
b) se encuentre exactamente 5 chispas
c) se encuentre 5 o más chispas
d) se encuentre 4 ó 5 chispas
Utilizando la hoja de cálculo de Excel se calcula de la siguiente manera:
Cuando se dice “menos de 5 chispas”, quiere decir 0, 1, 2, 3, ó 4, chispas,
por lo que se considera una probabilidad acumulada: POIS-
SON(4,6,VERDADERO) = 0.2851
Exactamente 5 chispas: POISSON(5,6,FALSO) = 0.1606
Cuando se dice 5 o más quiere decir 1-P(0, 1, 2, 3 y 4) = 0.7149
207
Cuando se dice entre 4 ó 5 se refiere a P(4)+P(5)= 0.2945
Si quiere utilizar el programa estadístico SPSS, se deberá seguir el siguiente proce-
dimiento.
3. Se abre el programa con un variable disponible y se le da un valor cual-
quiera, por ejemplo 1
4. Se teclea el comando Transformar/calcular variable, como se observa en la
figura 8.9
Figura 8.9 menú Transformar en SPSS
Al teclear Transformar/calcular variable, aparece la siguiente pantalla:
Figura 8.10 menú calcular variables en SPSS
208
En esta pantalla se tiene que realizar el siguiente procedimiento:
4. En el grupo de funciones (menú superior del lado derecho) se escoge el
comando FDP y FDP centrada, éste corresponde a la función de distribu-
ción de probabilidad no acumulada.
5. Posteriormente se escoge el menú inferior Pdf.Poisson, que corresponde a
la función de distribución de probabilidad de Poisson, se hace doble click y
automáticamente aparece la leyenda explicativa y, en la parte superior,
aparecen los espacios para colocar los valores de cálculo. En el caso del
ejemplo, se teclearía 2 y 3 que corresponden a la probabilidad de que 2
aparezcan en un minuto dado que λ = 3.
6. Para que aparezca el comando aceptar, se deberá de definir la variable des-
tino, esto es poner el nombre de la variable en la que va aparecer el valor
calculado, como se aprecia en la figura 8.11
Figura 8.11 resultados del cálculo de variable en SPSS
Cuando se trata de calcular la probabilidad acumulada, se sigue el mismo procedi-
miento, pero en lugar de escoger el comando FDP y FDP centrada, se escoge FDA
y FDA centrada, que corresponde a función de distribución de probabilidad acumu-
lada. Siguiendo con el mismo ejemplo, cuál es la probabilidad de que al menos dos
clientes lleguen en un minuto. Cuando se considera al menos dos se refiere a la
probabilidad acumulada de que lleguen 2 y 3.
209
Figura 8.12 cálculo de probabilidad acumulada en SPSS
El resultado que se obtiene es de 0.99904, como se puede observar en la figura
8.13
Figura 8.13 resultados de cálculo de probabilidad binomial acumulada en
SPSS
8.10 Características de la función de la distribución de probabilidades de Poisson.
Forma. Cada vez que se especifica el parámetro λ, puede generarse una distribu-
ción de probabilidad de Poisson específica. Una distribución de Poisson estará
sesgada a la derecha cuando λ es pequeña, y se aproximará a la simetría al crecer.
210
Una propiedad de esta distribución es que la media y la varianza son iguales al
parámetro λ, por lo que la desviación estándar es igual a √λ (raíz cuadrada de λ)
Para aquellas situaciones en las que n es grande (mayor o igual a 20) y p es muy
pequeña (menor a 0.05), la distribución de Poisson puede usarse para aproximar la
distribución binomial.
La variable aleatoria de la función de distribución de Poisson puede variar teórica-
mente de 0 a ∞. Sin embargo, cuando se usa como una aproximación a la distribu-
ción binomial, la variable aleatoria de Poisson, el número de éxitos de n observa-
ciones, claramente no puede exceder el tamaño de la muestra n.
8.11 Resumen
Se denomina distribución de variable discreta a aquella cuya función de probabili-
dad sólo toma valores positivos en un conjunto de valores de X finito o numerable.
Existen tres formas de definir una distribución de probabilidad discreta: un listado
teórico, un listado empírico y un listado subjetivo.
El desarrollo del contenido del capítulo se basó en los de primer tipo, es decir en la
obtención de un listado teórico obtenido de un modelo matemático que represente
algunos fenómenos de interés. Como una introducción al conocimiento de la distri-
bución de probabilidad se puso como ejemplo la distribución de probabilidad uni-
forme, como es la de lanzar un dado de 6 caras, donde la distribución de probabili-
dad es de 1/6 para cada cara, la suma de las probabilidades es igual a 1; la media o
valor esperado es igual a la suma de los productos de Xi por la probabilidad de Xi,
donde Xi toma los valores de 1 hasta n: µx = E(X) = ∑
n
(X i X iP )i= 1 ; la varianza de una
variable aleatoria discreta es la suma de las diferencias entre cada resultado posible
y su media al cuadrado ponderadas. La ponderación es la probabilidad asociada a
cada uno de los resultados: ∑
n
(X -i µ x )2
X iσ2 = P )
i= 1
(((((; por lo que la desviación estándar
simplemente es su raíz cuadrada.
211
Dos modelos matemáticos o función de distribución de variable aleatoria discreta
se estudiaron, la distribución binomial y la distribución de Poisson.
La distribución binomial se utiliza para analizar una población infinita sin reempla-
zo o una población finita con reemplazo. Cada observación puede tomar una de dos
categorías: éxito o fracaso y el resultado de cualquier observación es independiente
del resto de las observaciones anteriores o posteriores. Los estadísticos de la distri-
bución binomial se calculan como la media o E(X) = np; la desviación estándar es
igual a la raíz cuadrada de np (1-p).
La probabilidad de Poisson se aplica en eventos discretos que ocurren en un área de
oportunidad, un intervalo continuo de tiempo, longitud o área. El área de oportuni-
dad debe reducirse de tal forma que la probabilidad de observar exactamente un
éxito es estable, la probabilidad de observar exactamente más de un éxito en el
intervalo es cero y, la ocurrencia de un éxito en cualquier intervalo es estadística-
mente independiente de que ocurra en cualquier otro intervalo. Una propiedad inte-
resante de la distribución de Poisson es que la media y la varianza son iguales al
parámetro λ.
En ambas distribuciones de probabilidad: binomial y Poisson, el cálculo de la pro-
babilidad de ocurrencia se puede obtener de tablas previamente elaboradas, de un
paquete estadístico, o de la hoja de cálculo de Excel.
8.12 Términos clave
Distribución de probabilidad para una
variable aleatoria discreta
Esperanza matemática o valor espe-
rado
Varianza y Desviación estándar de
una variable aleatoria discreta
Valor monetario esperado
Función de distribución de probabili-
dad discreta
Distribución binomial
Distribución de Poisson
212
8.13 Problemas de repaso del capítulo
1. En el juego de dados de sietes, se arroja una vez un par de dados y la suma resul-
tante determina si el jugador gana o pierde su apuesta. Por ejemplo, el jugador pue-
de apostar $1.00 a que la suma es menor, es decir 2, 3, 4 ,5 o 6. Para esta apuesta,
el jugador perderá $1.00 si el resultado es igual o mayor que siete, es decir 7, 8, 9,
10, 11 y 12.
De manera similar, el jugador puede apostar $1.00 a que la suma es mayor que 7,
es decir, 8, 9, 10, 11 y 12. Aquí el jugador pierde un $1.00 si el resultado es igual a
7 o menor, es decir 7, 6, 5, 4, 3 ó 2.
Un tercer método de juego es apostar $1.00 sobre el resultado de 7. Para esta
apuesta el jugador ganará $4.00 si el resultado es 7 y perderá $1.00 si no lo es.
a) Forme la función de distribución de probabilidad que represente los dife-
rentes resultados que son posibles para cada una de las modalidades seña-
ladas en el párrafo anterior.
b) Pruebe que la ganancia o pérdida esperada a la larga para el jugador es
igual, sin importar el método que se utilice.
2.- Una máquina fabrica una determinada pieza y se sabe que produce un 7 por
1000 de piezas defectuosas. Hallar la probabilidad de que al examinar 50 piezas
sólo haya:
a) una defectuosa
b) cinco defectuosa
3.- La probabilidad de éxito de una determinada vacuna es 0,72. Calcula la proba-
bilidad de a que una vez administrada a 15 pacientes:
213
a) Ninguno sufra la enfermedad
b) Todos sufran la enfermedad
c) Dos de ellos contraigan la enfermedad
4.- Si se admite que un número de teléfono de cada cinco está comunicando, ¿cuál
es la probabilidad de que, cuando se marquen 10 números de teléfono elegidos al
azar, sólo comuniquen dos?
5.- La probabilidad de que un artículo producido por una fábrica sea defectuoso es
p 0.002. Se envió un cargamento de 10,000 artículos a unos almacenes. Hallar el
número esperado de artículos defectuosos, la varianza y la desviación típica.
6.- Supóngase que estamos investigando la seguridad de un crucero muy peligroso.
Los archivos del departamento de tránsito indican una media de cinco accidentes
por mes en él. El número de accidentes está distribuido conforme a la distribución
de Poisson, el nuevo jefe del departamento quiere calcular la probabilidad de exac-
tamente 0,1,2,3 y 4 accidentes en un mes determinado.
7.- Si un banco recibe en promedio 6 cheques sin fondo por día, ¿Cuáles son las
probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10
cheques sin fondos en cualquiera de dos días consecutivos.
8.- En la inspección de hojalata producida por un proceso electrolítico continuo se
identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilida-
des de identificar a) una imperfección en 3 minutos, b) al menos dos imperfeccio-
nes en 5 minutos, c) cuando más una imperfección en 15 minuto.
214
8.14 Mapa conceptual de modelos de distribución de probabilidad para variables
aleatorias discretas.
Distribuciones de probabilidad
discreta
Definiciones y propiedades
Valor esperado E(X)
Varianza
σ2
Distribución Binomial
Aproximación de Poisson a
Binomial
Distribución de Poisson
N≥ 20
P≤ .05
215
Capítulo 9
La distribución normal
*********************
Objetivo del
Capítulo
Propiciar la compresión del uso de la
función de distribución de probabilidad
normal de una variable continua y el uso
aproximado para variables discretas.
216
217
9.1 Introducción
En este capítulo se estudiará la distribución de probabilidades más importante en
Estadística, la distribución normal. Se hará énfasis en sus características y sus di-
versas aplicaciones.
La distribución normal, también llamada distribución de Gauss o distribución gaus-
siana, es la distribución de probabilidad que con más frecuencia aparece en estadís-
tica y teoría de probabilidades. Esto se debe a dos razones fundamentalmente:
Su función de densidad es simétrica y con forma de campana, lo que favorece su
aplicación como modelo a gran número de variables estadísticas.
Es, además, límite de otras distribuciones y aparece relacionada con multitud de
resultados ligados a la teoría de las probabilidades gracias a sus propiedades ma-
temáticas.
Al concluir el capítulo, el alumno será capaz de:
1. Comprender las propiedades de la distribución normal
2. Encontrar el valor porcentual que corresponde a cualquier punto debajo de
la curva
218
3. Saber cuándo y cómo utilizar una distribución normal como aproximación
a las distribuciones de variable aleatoria discreta como la binomial y la de
Poisson.
9.2 La función de densidad de probabilidad de una variable aleatoria continua
Las funciones de densidad de probabilidades continuas surgen de la medición de
diversos fenómenos de interés como la estatura, el peso, el tiempo. La obtención de
probabilidades para fenómenos continuos requiere del conocimiento matemático de
cálculo integral, fuera del alcance de este curso. No obstante, dada la importancia
de aplicación, se han construido tablas de probabilidad especial y se han creado
programas de cómputo con el fin de eliminar los laboriosos cálculos matemáticos.
La función de densidad de probabilidad de una variable continua más utilizado se
le conoce como distribución normal o gaussiana.
9.3 La distribución normal
La distribución normal se caracteriza porque los valores se distribuyen en forma de
campana, en torno a un valor central que coincide con el valor medio de la distri-
bución: un 50% de los valores están a la derecha de este valor central y otro 50% a
la izquierda.
9.4 Propiedades de la distribución normal
La distribución normal tiene varias propiedades teóricas importantes, entre las que
se encuentran las siguientes:
1. La distribución de los eventos gráficamente se asemeja a una campana
simétrica.
2. Las mediciones de tendencia central (media, mediana, moda, alcance me-
dio y eje medio) son idénticas.
3. La dispersión media es igual a 1.33 desviaciones estándar.
219
4. La variable aleatoria tiene un alcance teórico de ± ∞, aunque en la práctica
caerá entre los valores de ± 3 desviaciones estándar.
5. La probabilidad de ocurrencia de un evento es igual a la frecuencia relativa
9.5 El modelo matemático
El modelo matemático que representa la función de densidad de probabilidad se
denota mediante
f (X)= σ
x
e-(½)[(x- )/ ]
2µx σx
2π
1
Dado que e y π son números constantes, cada que se modifique la media de la po-
blación µ o la desviación estándar σ se generará una distribución de probabilidad
diferente, lo que propicia que exista un número infinito de combinaciones y se
requerirá, para el cálculo de probabilidades, un número infinito de tablas. Para
hacer práctico el uso del modelo matemático se requiere estandarizar los datos
originales.
Para estandarizar el modelo matemático (reducir el modelo) se consideran 3 condi-
ciones:
1. transformar los valores de cualquier variable aleatoria de X a una variable
aleatoria normal estandarizada mediante la fórmula:
Z = X-µx
σx
2. La distribución normal estandarizada siempre tiene una µz = 0 y
3. Una desviación estándar σz = 1.
Bajo estas condiciones siempre se puede convertir cualquier conjunto de datos
normalmente distribuidos a su forma estandarizada y determinar cualquier probabi-
lidad deseada a partir de la distribución normal estandarizada.
220
9.6 Ejemplo:
En el montado de una pieza de un proceso de producción, un analista de tiempos y
movimientos de producción determinó que el tiempo promedio, después de un
entrenamiento, un obrero tarda 150 segundos en realizarlo, con una desviación
estándar de 12 segundos.
Considerando, que para efectos prácticos el total de las observaciones se distribu-
yen en ± 3 σ (desviaciones estándar) los valores posibles en segundos que los tra-
bajadores tardarían en realizarlo serían: (150-3σ), (150-2σ), (150-1σ), (150-0σ),
(150+1σ), (150+2σ) y (150+3σ), es decir entre los siguientes: 114, 126, 138, 150,
162, 174 y 186.
Con el propósito de realizar un análisis de probabilidades, el analista estandarizó
los datos normales –convirtió los valores reales a valores Z-, como se puede obser-
var en la tabla 9.1.
Tabla 9.1 Estandarización de una variable aleatoria X
La interpretación gráfica de la distribución normal estandarizada se puede apreciar
en la figura 9.1
221
Figura 9.1 Transformación de escalas de normal a normal estandarizada
114
-3
126
-2
138
-1
150
0
162
1
174
2
186
3
X escala
Z escala
Uso de las tablas de probabilidad normal.
El diagrama en forma de campana de la figura 9.1 ilustra el polígono de frecuen-
cias relativas para la distribución normal que representa el tiempo (en segundos) de
montaje de todos los obreros. Los datos representan la población entera de la plana
y por lo tanto, las probabilidades o proporciones totales bajo el área de la curva es
igual a 1.
Siguiendo con el ejemplo, el analista desea determinar la probabilidad de que un
obrero seleccionado aleatoriamente requiera entre 150 y 162 segundos para montar
la pieza. Utilizando los datos estandarizados, la pregunta sería ¿Cuál es la probabi-
lidad de que el tiempo del obrero esté entre la media y una desviación estándar?
La tabla 9.2 representa las probabilidades, para los valores de Z, es decir, para los
valores de X estandarizados. Al usar la tabla se puede observar que todos los valo-
res de Z deben de registrarse hasta con dos decimales. Por lo tanto, el valor de in-
terés del ejemplo será Z = 1.00. El valor de Z = 1 se localiza en la intersección de
la fila con valor de 1.0 y la columna con valor de .0, la cual indica .3413. La inter-
pretación se ilustra en la figura 9.2 y representa el 34.13% del área total debajo de
la curva, equivalente al 34.13% de probabilidad de que el obrero escogido aleato-
222
riamente caiga en ese rango. Cada valor representa el área bajo la curva desde la
media o Z= 0 hasta +3Z.
Figura 9.2 Distribución normal estandarizada, área de interés: P (150 ≤X≤162
-3 -2 -1 0 1 2 3
X escala
Z escala
Área = .3413
Z = X-µx =1σx 12
114 126 138 150 162 174 186
Utilizando la hoja de cálculo de Excel, se utiliza el comando F(x)/Estadísticas
/DISTR.NORM.ESTAND(1), se introduce el valor de Z y se obtiene el valor de la
probabilidad acumulada, por lo que es necesario restarle el .50 que corresponde a la
primera mitad de la curva. A .8413 se le resta .50, se obtiene el área de .3413, que
corresponde al área entre 0 y 1Z.
Figura 9.3 Comando de cálculo del valor Z en la hoja de cálculo Excel
223
Tabla 9.2 Distribución normal estandarizada: valores de área desde la media
hasta Z
Z/ 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0 0 0.004 0.008 0.012 0.016 0.0199 0.0239 0.0279 0.0319 0.03590.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.07530.2 0.0793 0.0832 0.0871 0.091 0.0948 0.0987 0.1026 0.1064 0.1103 0.11410.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.148 0.15170.4 0.1554 0.1591 0.1628 0.1664 0.17 0.1736 0.1772 0.1808 0.1844 0.18790.5 0.1915 0.195 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.219 0.22240.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.25490.7 0.258 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.28520.8 0.2881 0.291 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.31330.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.334 0.3365 0.3389
1 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.36211.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.377 0.379 0.381 0.3831.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.398 0.3997 0.40151.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.41771.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.43191.5 0.4332 0.4345 0.4357 0.437 0.4382 0.4394 0.4406 0.4418 0.4429 0.44411.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.45451.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.46331.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.47061.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.475 0.4756 0.4761 0.4767
2 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.48172.1 0.4821 0.4826 0.483 0.4834 0.4838 0.4842 0.4846 0.485 0.4854 0.48572.2 0.4861 0.4864 0.4868 0.4871 0.4875 -0.0122 0.4881 0.4884 0.4887 0.4892.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.49162.4 0.4918 0.492 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.49362.5 0.4938 0.494 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.49522.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.496 0.4961 0.4962 0.4963 0.49642.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.497 0.4971 0.4972 0.4973 0.49742.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.498 0.49812.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.499 0.4993.1 0.499 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.49933.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.49953.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.49973.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
224
Tabla 9.3 Distribución normal estandarizada: valores de área desde la media
hasta –Z
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-4 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002 0.00002
-3.9 0.00005 0.00005 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.00003
-3.8 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.00005
-3.7 0.00011 0.0001 0.0001 0.0001 0.00009 0.00009 0.00008 0.00008 0.00008 0.00008
-3.6 0.00016 0.00015 0.00015 0.00014 0.00014 0.00013 0.00013 0.00012 0.00012 0.00011
-3.5 0.00023 0.00022 0.00022 0.00021 0.0002 0.00019 0.00019 0.00018 0.00017 0.00017
-3.4 0.00034 0.00032 0.00031 0.0003 0.00029 0.00028 0.00027 0.00026 0.00025 0.00024
-3.3 0.00048 0.00047 0.00045 0.00043 0.00042 0.0004 0.00039 0.00038 0.00036 0.00035
-3.2 0.00069 0.00066 0.00064 0.00062 0.0006 0.00058 0.00056 0.00054 0.00052 0.0005
-3.1 0.00097 0.00094 0.0009 0.00087 0.00084 0.00082 0.00079 0.00076 0.00074 0.00071
-3 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00103 0.001
-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139
-2.8 0.00256 0.00248 0.0024 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193
-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.0028 0.00272 0.00264
-2.6 0.00466 0.00453 0.0044 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357
-2.5 0.00621 0.00604 0.00587 0.0057 0.00554 0.00539 0.00523 0.00508 0.00494 0.0048
-2.4 0.0082 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639
-2.3 0.01072 0.01044 0.01017 0.0099 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842
-2.2 0.0139 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.0116 0.0113 0.01101
-2.1 0.01786 0.01743 0.017 0.01659 0.01618 0.01578 0.01539 0.015 0.01463 0.01426
-2 0.02275 0.02222 0.02169 0.02118 0.02067 0.02018 0.0197 0.01923 0.01876 0.01831
-1.9 0.02872 0.02807 0.02743 0.0268 0.02619 0.02559 0.025 0.02442 0.02385 0.0233
-1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938
-1.7 0.04456 0.04363 0.04272 0.04181 0.04093 0.04006 0.0392 0.03836 0.03754 0.03673
-1.6 0.0548 0.0537 0.05262 0.05155 0.0505 0.04947 0.04846 0.04746 0.04648 0.04551
-1.5 0.06681 0.06552 0.06425 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592
-1.4 0.08076 0.07927 0.0778 0.07636 0.07493 0.07353 0.07214 0.07078 0.06944 0.06811
-1.3 0.0968 0.0951 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226
-1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09852
-1.1 0.13566 0.1335 0.13136 0.12924 0.12714 0.12507 0.12302 0.121 0.119 0.11702
-1 0.15865 0.15625 0.15386 0.1515 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786
-0.9 0.18406 0.18141 0.17878 0.17618 0.17361 0.17105 0.16853 0.16602 0.16354 0.16109
-0.8 0.21185 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673
-0.7 0.24196 0.23885 0.23576 0.23269 0.22965 0.22663 0.22363 0.22065 0.21769 0.21476
-0.6 0.27425 0.27093 0.26763 0.26434 0.26108 0.25784 0.25462 0.25143 0.24825 0.24509
-0.5 0.30853 0.30502 0.30153 0.29805 0.2946 0.29116 0.28774 0.28434 0.28095 0.27759
-0.4 0.34457 0.3409 0.33724 0.33359 0.32997 0.32635 0.32276 0.31917 0.31561 0.31206
-0.3 0.38209 0.37828 0.37448 0.3707 0.36692 0.36317 0.35942 0.35569 0.35197 0.34826
-0.2 0.42074 0.41683 0.41293 0.40904 0.40516 0.40129 0.39743 0.39358 0.38974 0.3859
-0.1 0.46017 0.4562 0.45224 0.44828 0.44433 0.44038 0.43644 0.4325 0.42857 0.42465
0 0.5 0.49601 0.49202 0.48803 0.48404 0.48006 0.47607 0.47209 0.46811 0.46414
225
9.7 Aplicaciones
Una vez conociendo el procedimiento y uso de la estandarización de una densidad
de distribución normal se pueden resolver distintos cuestionamientos de probabili-
dad referentes a la distribución normal, tales como:
1. ¿Cuál es la probabilidad de que un obrero seleccionado aleatoriamente
pueda montar la pieza en menos de 150 segundos o en más de 162?
2. ¿Cuál es la probabilidad de que lo haga entre 136 y 162 segundos?
3. ¿Cuál es la probabilidad de que lo haga en menos de 124 segundos?
4. ¿Cuál es la probabilidad de que lo haga entre 114 y 138 segundos?
5. ¿Cuántos segundos deben de transcurrir antes de que el 50% de los obreros
monten la pieza?
6. ¿Cuántos segundos deben de transcurrir antes de que el 10% de los obreros
monten la pieza?
7. ¿Cuál es el alcance intercuartil (rango en segundos) esperado para que los
obreros monten la pieza?
Respuestas a las preguntas
Pregunta 1: Encontrar la P(X<150 o X>162). Para determinar la respuesta hay
dos maneras de calcularla, utilizando la regla de complemento o la regla de adición
para eventos mutuamente excluyentes. La regla de complemento se aplica como 1-
(la probabilidad de que ocurra entre 150 y 162 segundos), es decir 1-.3413 = .6587;
Usando la tabla 9.3, se observa que el área bajo la curva normal de -4Z hasta Z = 0
es igual a .50, resulta ser el área total del lado izquierdo. Ahora, si el área total del
lado derecho es igual a .50, habrá que restarle el área que abarca los valores de 0 a
1Z, que corresponde a .3413, por lo que el área de más de 162 segunda es igual a
226
.50 - .3413 = .1587. Aplicando la regla de adición, se obtiene la probabilidad de
que se realice en menos de 150 segundos y se le suma a la probabilidad de que sea
en más de 162.
Esto es P(X<150 o X>162) = .50 + .1587 = 6587. El resultado se ilustra en la figura 9.4
Figura 9.4 Área de P(X<150 o X>162).
-3 -2 -1 0 1 2 3
X escala
Z escala
Área = .3413
Área = .1587
Área = .50
Z = X-µx =1σx 12
114 126 138 150 162 174 186
Pregunta 2. Encontrar la P(138 ≤X≥ 162) Para encontrar el área de probabilidad
que se encuentra entre los valores de 138 y 162, se observa en la figura 9.5 que el
área se encuentra entre los valores de Z igual -1 y Z igual a 1. Como la tabla de
cálculo o el uso de software sólo permite calcular la probabilidad de la media hasta
un valor positivo o negativo de Z, el área de interés podrá obtenerse en tres pasos:
a) Determinar la probabilidad de la media a 162 segundos.
b) Determinar la probabilidad de la media a 138 segundos.
c) Sumar la probabilidad de ambas.
Utilizando las tablas, el primer paso ya se ha determinado anteriormente y tiene un
valor de .3413; el segundo paso, el cálculo de la probabilidad de 138 segundos se
obtiene de restarle a .50, el valor de la probabilidad de -1Z, es decir (.50) –(.1587)
= .3413. La suma de ambas áreas es de .6826.
227
Otra manera de calcularlo es, sabiendo de la simetría de la curva de distribución
normal, se deduce que el área de 1Z es igual a el área de -1Z, entonces el área total
será de (.3415) + (.3415) = .6826.
Figura 9.5 Área de P(138 ≤X≥ 162)
-3 -2 -1 0 1 2 3
X escala
Z escala
Área = .3413Área = .3413
Z = X-µxZ =
X-µx =162-150
=1= -1 σxσx 1212
114 126 138 150 162 174 186
Pregunta 3. Encontrar la P (X < 124) Para encontrar el área de probabilidad de
que un obrero seleccionado aleatoriamente pueda montar la pieza en menos de 124
segundos, primero tendrá que calcularse el valor de Z, podrá consultarse directa-
mente en la tabla 9.3 de los valores negativos de Z o directamente el la hoja de
cálculo de Excel. El área puede observarse en la figura 9.6
Figura 9.6 Área de P(X< 124)
-3 -2 -1 0 1 2 3
X escala
Z escala
Área = .0150
Z = X-µx = -2.17σx 12
114 126 138 150 162 174 186
228
Pregunta 4. Encontrar la P(124 ≤X ≤138). Para encontrar el área de probabilidad
de que un obrero seleccionado aleatoriamente pueda montar la pieza entre 124 y
138 segundos. Puesto que la tabla o la hoja de cálculo de Excel sólo permiten cal-
cular el área desde la media hasta cierto valor de Z, la probabilidad de interés se
podrá obtener en tres pasos.
a) Determinar la probabilidad o área bajo la curva de la media hasta 124 se-
gundos.
b) Determinar la probabilidad o área bajo la curva de la media hasta 138 se-
gundos
c) Restar el área menor a la mayor para evitar doble conteo
El área hasta 124 segundos corresponde al área entre la media y -2.17 Z, esto es
.0150
El área hasta 138 segundos corresponde al área entre la media y -1Z, esto es .1587
La resta de áreas es igual a .1587 -.0150 = .1437, este resultado se puede observar
en la figura 9.7
Figura 9.7 Área de P(124 ≤X ≤ 138)
-3 -2 -1 0 1 2 3
X escala
Z escala
Z = X-µx
Z = X-µx
=124-150
=138-150
= -2.17
= -1
σx
σx
12
12
Área = .1587- .0150=.1437
Área = .0150 puesto que Z = -2.17
Área para -1Z = .1587
114 126 138 150 162 174 186
229
Pregunta 5. Para determinar cuántos segundos transcurren antes de que el 50% de
los obreros monten la pieza, debe considerarse la simetría de la curva de distribu-
ción normal, si la media es igual a 150 segundos y ésta se encuentra exactamente
en la mitad de la curva, significa que el 50% de los obreros tardan hasta 150 se-
gundos en montar la pieza.
Pregunta 6. Para determinar cuanto tiempo transcurre antes de que el 10% de los
obreros terminen de montar la pieza, se busca en la tabla 9.3 de valores negativos
de Z, se busca en el interior de la tabla el valor que más se aproxime al .10 y se
encuentra que es el valor de Z = -1.28, que es el valor estandarizado de X. Pero
como lo que es de interés es el valor de X, ahora se utiliza la ecuación de estandari-
zación en forma inversa, es decir, conociendo Z, ahora se estima el valor de X.
Z = X-µx
σx
;
µ σ )x x+Z( = X
150 + (-1.28)(12) = 134.64
Pregunta 7. Para obtener el rango intercuartil lo primero que se tiene que realizar
es el cálculo de Q1 y Q3. Como el área debajo de la curva es simétrica y la densidad
de la curva es igual a 1, entonces el primer cuartil se localiza desde la media hasta
.2500 del área izquierda y el tercer cuartil de la media hasta el .2500 del área dere-
cha, se localizan los valores más próximos a ella en las tablas 9.3 y 9.2. Se observa
que los valores de Z son -.67 y +.67 respectivamente. Utilizando la ecuación ante-
rior, se tiene que:
Q1 = X = µx+Z(σx) = 150 + (-.67)(12) = 141.96 segundos
Q2 = X = µx+Z(σx) = 150 + (67)(12) = 158.04 segundos
El rango intercuartil es igual a Q3 – Q1 = 158.04 – 141.96 = 16.08 segundos.
230
9.8 Uso de distribución normal como una aproximación a la distribución bino-
mial o a la distribución de Poisson
Se ha dicho que la distribución binomial es simétrica, como la distribución normal,
siempre que p = .5, mientras más grande sea el número de observaciones de la
muestra n, y mientras más cerca se p de .5, más simétricamente será la distribución.
Como regla general, cuando np y n(1-np) tengan un valor de al menos 5, se puede
utilizar la distribución normal. Por lo tanto, para encontrar probabilidades aproxi-
madas correspondientes a los valores de la variable aleatoria discreta X se utiliza la
siguiente aproximación:
X -npaZ = X-µx Z
np(1-p)σx
Donde
np = a la media de la distribución binomial
np(1-p) es igual a la desviación estándar de la distribución binomial
Xa = número ajustado de éxitos de x, para variable discretas, de tal forma que Xa =
± .5 según sea el caso.
Ejemplo. Para ilustrar la aplicación de utilizar la distribución normal como una
aproximación a la distribución binomial, de una muestra n = 1600 llantas, se obtie-
nen aleatoriamente de un proceso continuo en el que la experiencia dice que hay
8% se producen con defecto. ¿Cuál es la probabilidad de que en esta muestra no
más de 150 llantas sean defectuosas.
Puesto de np = 1600 (.08)= 128 y n(1-p) es igual a 1600(.92) = 1,472 exceden de 5,
entonces se puede utilizar la aproximación de la distribución normal.
X -npaZ
np(1-p)= 150.5 – 128 /[(1600)(.08)(.92)]1/2
= 22.5/10.85 = 2.07
231
Usando la tabla 9.2 se observa que el área bajo la curva es de .4808, de tal forma
que la probabilidad está dado por .5000 + .4808 = .9808.
Por otro lado, la distribución normal también puede utilizarse como una aproxima-
ción al modelo de Poisson, siempre que el parámetro λ (número esperado de éxitos)
sea igual o mayor que 5. Puesto que la media y la varianza de una distribución de
Poisson son iguales a λ, se recuerda que:
Una propiedad de esta distribución es que la media y la varianza son iguales al
parámetro λ, por lo que la desviación estándar es igual a √λ (raíz cuadrada de λ),
por lo que
X -a λZ =
X-µx Z λσx
Donde
λ= a la media de la distribución Poisson
λ es igual a la desviación estándar de la distribución se Poisson
Xa = número ajustado de éxitos de x, para variable discretas, de tal forma que Xa =
± .5 según sea el caso.
Ejemplo. Para ilustrar la aplicación de utilizar la distribución normal como una
aproximación a la distribución de Poisson, se considera que en una planta de pro-
ducción el número de interrupciones de trabajo al día por problemas con el equipo
es de 12. ¿cuál es la probabilidad aproximada de tener 15 interrupciones:
X -aλ
Z λ
15.5 -12.0/(12)1/2
= 1.01
El número ajustado de éxitos, es de 15.5, se observa que el valor del área debajo de
la curva par Z = 1.01 es de .3438, si se le agrega el área del lado izquierdo de la
curva que es igual a .50, se tiene que la probabilidad aproximada de tener 15 o
232
menos interrupciones en la planta por problemas del equipo, es de .8438, esta
aproximación se acerca bastante a la probabilidad de Poisson exacta, que calculada
tiene un valor de .8445.
9.9 Resumen
La mayoría de las variables aleatorias que se presentan en los estudios relacionados
con las ciencias sociales, físicas y biológicas, son continuas y se distribuyen según
una función de densidad. La función de densidad más utilizada se conoce como
distribución normal o distribución gaussiana. La característica principal de esta
distribución es que su representación gráfica tiene forma de campana simétrica que
ilustra la igualdad de los valores mayores y menores ponderados con respecto a la
media. La ponderación de los valores está dada por la frecuencia relativa de las
observaciones y es igual a la probabilidad de ocurrencia.
Dado que la función de densidad de la distribución normal está dado por un modelo
matemático que relaciona los valores de la media y la desviación estándar, existe
un gran número de valores que representan la densidad de distribución de probabi-
lidades como poblaciones existan con diferente media o desviación estándar:
f (X)= σ
x
e-(½)[(x- )/ ]
2µx σx
2π
1
Para hacer práctica la aplicación de la función de densidad de la distribución nor-
mal, se requiere estandarizar los valores de Xi a valores Z, considerando a la media
con un valor igual a cero y la desviación estándar igual a 1, el cálculo de los valo-
res de Z se realizan mediante la fórmula:
Z = X-µx
σx
Una vez estandarizados los valores de Xi, los valores de Z, con valores prácticos de
±3, se define el área que corresponde a los valores de Z, ya sea utilizando la tabla
de distribución normal o un paquete estadístico o la hoja de cálculo de Excel.
233
Los valores de ±3Z, es decir, 6 desviaciones estándar, cubren un área de .9974 del
total de la densidad de la curva; ±2Z, es decir, cuatro desviaciones estándar, cubren
el .9772 y ±1 desviación estándar, el .6826.
Bajo ciertas condiciones, la función de densidad de la distribución normal, se pue-
de aplicar como una aproximación de las distribuciones binomial y de Poisson,
utilizadas para calcular la distribución de probabilidad de variables aleatorias dis-
cretas.
9.10 Términos clave
Función de densidad de probabilidad
Distribución normal o campana de
Gauss
Estandarización
Valores Z
Aproximaciones a la distribución
binomial
Aproximación a la distribución de
Poisson
9.11 Problemas de repaso del capítulo
1.- Una pequeña empresa de diseño y fabricación de piezas mecánicas ha recibido
un pedido de cojinetes de diámetro de 1.9 cm. Los límites de aceptación son ±.025
cm. Por experiencia, el gerente de la empresa sabe que el valor esperado es 1.912
cm. y una desviación estándar de .010 cm. ¿Cuál es la probabilidad de que un coji-
nete muestreado aleatoriamente esté?
a) Entre la media solicitada y la media real.
b) Entre el límite inferior y el diámetro solicitado.
c) Por arriba del límite superior aceptado.
d) Por debajo del límite superior aceptado.
e) Por arriba de que valor de diámetro estará el 93% de los cojinetes.
234
2.- Una empresa que distribuye refrescos embotellados de 2 litros con una desvia-
ción estándar de .05 litros, sabe que si los refrescos que distribuye no satisfacen el
95% del contenido neto, podrían ser multados por la PROFECO, también sabe que
si el contenido es de 2.10 litros puede ocasionar derrames del líquido.
a) ¿Qué proporción de las botellas contendrá?
1. Entre 1.90 y 2.0 litros.
2. Entre 1.90 y 2.10 litros.
3. Menos de 1.90 litros.
4. Menos de 1.90 litros o más de 2.10 litros.
5. Más de 2.0 litros.
6. Entre 2.05 y 2.10 litros.
b) Se espera que al menos el 90% de las botellas tuviera al menos cuánto re-
fresco?
c) Se espera que al menos el 90% de las botellas contuvieran simétricamente
entre qué y qué cantidad?
d) Suponga que en un esfuerzo de reducir el número de botellas que contienen
menos de 1.90 litros, el embotellador calibra la máquina de tal forma que
la media es ahora de 2.02 litros. Bajo esa circunstancia ¿Cuáles serían las
respuestas para los incisos a, b y c?
3.- Una alumna del 5º. semestre mide 1.70 metros y pesa 61.25 kg. Si la media de
estatura del grupo es de 1.65 metro con una desviación estándar de .06 m. y una
media de peso de 56.5 kg. Con una desviación estándar de .43 kg. Determine si la
medida más inusual de la alumna es la estatura o el peso.
4.- Se sabe que una de cada tres personas que entran a una tienda departamental
hace al menos una compra.
235
a) Si se selecciona una muestra de n = 5 personas ¿cuál es la probabilidad de
que?
1. Dos o más hagan al menos una compra.
2. A lo más cuatro hagan al menos una compra.
b) Si se selecciona una muestra aleatoria de n = 81 personas, ¿Cuál es la pro-
babilidad aproximada de que?
1. 30 o más hagan al menos una compra
2. A lo más 40 hagan al menos una compra
5.- ¿Cuál es la probabilidad aproximada de que un estudiante apruebe un examen
de 100 de cierto y falso si tuviera que adivinar cada respuesta?
¿Cuál es la probabilidad aproximada de que un estudiante obtenga exactamente 60
respuestas correctas en un examen de 100 preguntas de cierto y falso si tuviera que
adivinar cada respuesta?
236
9.12 Mapa conceptual de la distribución normal
Distribución
normal
PropiedadesAproximación a distribuciones
discretas
Evaluación de supuestos
Campana de Gauss
Para binomialcuando np y n(1-p)≥ 5
Para la de Poissoncuando λ ≥ 5
237
Capítulo 10
Análisis de series
*********************
Objetivo del
Capítulo
Mostrar como se puede estudiar la
tendencia de crecimiento de un
fenómeno, como los precios, la po-
blación, la producción, etc.
238
239
10.1 Introducción
Como ya se ha visto, una de las principales preocupaciones de la Estadística es el
análisis de cambio de las variables, tanto consideradas individualmente como en
conjunto. Para facilitar tal tipo de análisis estadístico se han creado distintos ins-
trumentos, no solo el para análisis individual de cada variable, sino que algunos de
ellos adquieren mayor mérito cuando se utilizan para comparar entre variables con
diferente dimensión.
Una de los instrumentos que más se utilizan en el área de negocios es el análisis de
series de tiempo o análisis de series históricas. Su propósito es el de determinar las
tasas de crecimiento (negativo o positivo) de un factor en un momento dado con
respecto a otro, así como para determinar su tendencia de crecimiento y realizar
comparaciones con otros factores que estén relacionados.
El análisis de series históricas sirve para estudiar la tendencia de crecimiento de la
población, el ingreso, la demanda, la producción, las importaciones, las exporta-
ciones y en general, todos los factores que tienen un crecimiento y desarrollo. El
análisis de series de tiempo abarca dos tipos: la construcción de números índice y
análisis de patrones básicos.
240
10.2 Construcción de números índice
El problema de la comparación estadística se resuelve en buena manera mediante el
uso de números índices. En general un número índice es aquella medida estadística
que permite estudiar las fluctuaciones o variaciones de una sola magnitud o de más
de una en relación al tiempo o al espacio. Los índices más habituales son los que
realizan las comparaciones en el tiempo, por lo que, como se verá más adelante, los
números índices son en realidad series temporales.
Un número índice es un número relativo con una base igual al 100% y se utiliza
como un indicador de comparación de la variación de un número de un factor (fac-
tores) y otro número que representa ese mismo factor (factores) en otro lugar o en
otro tiempo.
Existen muchos números índices que se pueden construir, por ejemplo los índices
de producción, los índices de clientes, los índices de ventas, etc. Los índices bien
utilizados ayudan a corregir los objetivos y metas de la empresa.
Ejemplo. El mes pasado se produjeron 1500 piezas y este mes se produjeron 1250,
el índice nos indica cuanto bajó la producción:
1250 piezas/ 1500 piezas = .8333 * 100% = 83.33% con respecto al mes
pasado, que es lo mismo que la producción se redujo en un 16.66%.
Si este mes se vendió $23,000.00 y el mes pasado se vendió $16,500.00 entonces
las ventas se comportaron de la siguiente manera:
$23,000.00/16,500.00 = 1.39 * 100 = 139%, es decir las ventas aumentaron
en un 39%
El mes pasado la sucursal “A” de la empresa vendió $12,500.00 y la sucursal “B”
$32,000, el análisis sería:
241
$12,500.00/32,000.00 = .39 * 100%, la sucursal “A” apenas vendió el 39%
de lo que vendió la sucursal “B”
Cabe señalar que más de las veces la comparación en valores absolutos o reales en
dos áreas geográficas diferentes no son válidos, dado que cada área geográfica
tiene diferentes características como la población, el ingreso, los gustos, las prefe-
rencias, etc. Para este caso los números índice son de gran ayuda, ya que elimina la
dimensión.
Del ejemplo anterior, si la sucursal “A” vendió el mes anterior al próximo pasado
la cantidad de $10,000.00 y la sucursal “B” $30,000.00, entonces, el análisis más
apropiado es:
Sucursal “A”: $12,500.00/$10,000.00 = 1.25 * 100%, lo significa que la
sucursal “A” vendió 25% más.
Sucursal “B”: $32,000.00/$30,000.00 = 1.066 * 100%, lo que significa que
la sucursal “B” vendió el 6.06%
La elaboración de índices no solo determinar cual ha sido el ritmo de variación de
esta magnitud en cada una de las dos áreas, sino que además posibilitan que se
pueda realizar comparaciones entre ambas, pues si se hubiera trabajado en términos
absolutos, entonces, no sería posible comparar las dos variables, pese a que ambas
están expresadas en las mismas unidades de medida, pues las mismas hacen refe-
rencia a áreas geográficas muy diferentes.
Índices de precios, cantidades y valores
Para fines de un estudio de mercado los índices más utilizados son los índices de
precios, los índices de cantidades y los índices de valores. Éstos son utilizados para
deflactar (quitar la inflación) a los precios y a los ingresos, que refleja el poder
adquisitivo de los valores nominales expresados en unidades monetarias. Cuando
242
los precios no son deflactados, se les denomina a precios corrientes, cuando se les
aplica el índice de deflactación con respecto a un año, se les denomina a preciso
constantes del año base.
La construcción de los índices pueden ser simples, cuando sólo consideran un fac-
tor; compuestos, cuando influyen varios factores, como el índice de precios al con-
sumidor (varios artículos y varios precios). Éstos, también se pueden construir de
base fija, en eslabón. Para entender rápidamente su construcción, se desarrollará los
siguientes ejemplos:
Ejemplo. Supóngase que los precios del café por kilogramo del país durante los
últimos 6 años fue el siguiente:
Tabla 10.1 Precios e índices de precios del café veracruzano
Año Precio
índice/año
base
índice
año
anterior
2001 25 1.0 -
2002 30 1.2 1.2
2003 50 2.0 1.66
2004 20 .8 .40
2005 22 .88 1.1
2006 40 1.6 1.81
Para su cálculo se realizaron las siguientes operaciones:
Índices de base fija: 2001/2001; 2002/2001; 2003/2001; ……….2006/2001
Índice en eslabón o año anterior: 2002/2001; 2003/2002; 2004/2003;
…………..2006/2005
Ejemplo. Supongamos que se quiere construir los números índices simples y com-
puestos de precios, cantidades y valores de los huevos, leche y carne que se con-
243
sumió en un área geográfica (ciudad, colonia, estado, país), en los años 2005 y
2006, de acuerdo a los datos siguientes:
Tabla 10.2 Precios, cantidades y valor 2005-2006
Año 2005 2006
Artículo
Precio
unitario
Cantidad
vendida
Valor de
ventas
Precio
unitario
Cantidad
vendida
Valor de
ventas
Huevo
(docena) 10.00 100 1000,00 12.00 90 1080,00
Leche (litro) 5.00 120 600,00 7.00 140 980,00
Carne (kilo) 35.00 10 350,00 42.00 15 630,00
1950,00 2690,00
Si se desea construir el índice de cambio de un solo factor, se puede realizar sólo
dividiendo la cantidad del año analizado por la cantidad del año base.
Tabla 10.3 Índices simples. 2006/2005
Artículo índice índice índice
precio cantidades valor
Huevo (12/10) 1.2 (90/100) .9 (1080/1000) 1.08
Leche (7/5 ) 1.4 (140/120) 1.16 (980/600) 1.63
Carne (42/35) 1.2 (15/10) 1.5 (630/350) 1.8
Pero si se desea conocer el cambio relativo del costo de la vida, no debe de anali-
zarse el cambio de un solo artículo. Debe incluirse los precios de los artículos más
representativos del gasto de la familia. En este caso y a manera de ejemplo sólo se
considera la leche, la carne y los huevos.
Para un análisis más preciso del cambio del costo de la vida se debe considerar el
costo de alimentación, transporte, vivienda, entre otros, incluso lo que oficialmente
se llama “canasta básica”.
244
Para construir los índices de precios y de cantidades, quitando el peso específico de
cada artículo por la unidad de medida o por la cantidad, se requiere utilizar la
fórmula de los índices de Laspeyres:
IPL 2006 = (ΣPn x Qo)/ΣPo x Qo
= [ (12 x 100) + (7 x 120) + (42 x 10) ]/1950 = 1.26
IQL 2006 = (ΣQn x Po)/ΣPo x Qo
= [ (90 x 10) + (140 x 5) + (15 x 35) ]/1950 = 1.08
Para calcular el índice de valor se utiliza la fórmula de Passche
I valor 2006 = (ΣPn x Qn)/ΣPo x Qo
= [ (12 x 90) + (7 x 140) + (42 x 15) ]/1950 = 1.37
Índices de inflación y poder adquisitivo
La inflación es un fenómeno económico de naturaleza monetaria que por sus con-
secuencias ha sido, y sigue siendo, fuente de preocupación para todos los agentes
que intervienen en la economía, tanto los privados como los públicos. Pero más
que hablar de los efectos de la inflación lo más conveniente será definirla cuidado-
samente. Samuelson y Nordhaus (1999) la relacionan muy bien con el índice de
precios cuando señala que un índice de precios es un indicador del nivel medio de
precios. La inflación indica la subida del nivel general de precios. La tasa de infla-
ción es la tasa de variación del nivel general de precios y se expresa de la forma
siguiente:
Tasa de inflación año n
nivel de precios (año ) - nivel de precios (año -1)n n
nivel de precios (año -1)n= x 100
Lo sustantivo de esta definición es que el fenómeno en cuestión consiste en un
aumento general y sostenido de los precios de todos los bienes y servicios tanto
producidos como consumidos.
245
Ese incremento generalizado de precios tiene como consecuencia inmediata que la
capacidad de compra del dinero se reduce de forma continuada. Es decir, la canti-
dad de un bien que puede adquirirse con una unidad monetaria dada (peso, euro,
libra, dólar, etc.) es cada vez menor como resultado del incremento del precio de
ese bien. Pero si en lugar de tratarse de un solo bien, la subida de precios afecta a
todos los bienes de una economía, la situación sería similar, solo que agravada. Así
pues, la inflación reduce la capacidad de compra del dinero o poder adquisitivo del
mismo.
La siguiente cuestión sería definir un instrumento estadístico que permita cuantifi-
car esa subida generalizada de precios. Es decir, se trata de buscar un índice de
precios que recoja de forma adecuada el fenómeno de la inflación. A tal efecto, el
índice que suele utilizarse de forma casi universal es el índice de precios al consu-
midor (IPC), aunque el mismo tiene algunas limitaciones que no son del alcance de
este libro.
En México el Índice Nacional de Precios al consumidor INPC se elabora ponde-
rando cada precio según la importancia económica del bien o servicio considerado
para su cálculo. La canasta se obtiene a partir de la Encuesta de Ingreso-Gasto de
los Hogares (ENIGH) emitida por el INEGI. Dicha encuesta proporciona los gastos
asociados de los hogares en 580 bienes y servicios.
Con esta base el Banco de México selecciona algunos productos y servicios y los
integra en una canasta básica y calcula el peso de cada uno en la construcción del
INPC, a esto se le conoce como ponderación.
Por ejemplo, si tomamos dos productos incluidos en la canasta básica del Banco de
México: jitomate (ponderación 0.50) y sal (ponderación 0.05), el primero afectará
más el comportamiento del INPC, debido a que tiene mayor incidencia en el presu-
puesto familiar (mayor ponderación) que la sal.
La canasta básica del Banco de México está compuesta por 80 bienes y servicios
246
agrupados en las siguientes categorías:
alimentos, bebidas y tabaco; ropa, calzado y accesorios; vivienda; muebles, apara-
tos y accesorios domésticos; salud y cuidado personal; transporte; educación y
esparcimiento, así como otros servicios.
Tabla 10.4 Índice de Precios nacionales y valor del peso
Año b ase 2002 = 100%
Fuente: elaboración propia en base a Cuaderno de Información Oportuna. Precios.
INEGI
En la Tabla10.4 se recogen los valores medios anuales del IPC para México en el
periodo 2006-2008 con base 2002. Según el contenido de esta tabla, el nivel medio
de los precios en ese periodo de tres años creció por encima de .34 veces. Esto,
dicho en otros términos, equivale a que si en 2002 un bien costaba 100 pesos, el
precio de ese mismo bien en el año 2008 era 134 pesos, o lo que es igual, con 100
pesos del año 2008 solo se podría comprar lo que en 2002 con 74. Estas cifras dan
una idea bastante clara de cual ha sido la pérdida de la capacidad de compra del
peso en México en tan sólo tres años.
El PIB nominal y PIB real
El Producto Interno Bruto (PIB) mide el gasto total en los bienes y servicios en
todos los mercados de la economía de un país. Si el gasto total aumenta de un año a
otro, debe a dos fenómenos económicos: (1) la economía esta produciendo mas
bienes y servicios o (2) los bienes y servicios están otorgándose a precios más al-
tos.
247
Cuando se quiere estudiar la evolución de la economía, se requiere considerar estos
dos efectos. En concreto se requiere un indicador de la cantidad total de los bienes
y servicios que están produciendo la economía que no se vea afectado por las va-
riaciones de los precios de dichos bienes y servicios. Para ello, utilizan un indica-
dor llamado PIB real o PIB a precios constantes. El PIB real da respuesta a una
pregunta hipotética: ¿Cuál será el crecimiento real del PIB?
Para poder realizar un análisis del PIB real, se requiere escoger un año base de
análisis. Usualmente se escoge como año base el más estable de la serie. Por ejem-
plo, en la serie de datos del PIB e inflación 1990-1999 obtenida del INEGI a pre-
cios corrientes se observa que el año 1994 es el que tiene menor inflación, por lo
tanto puede seleccionarse como año base tabla 10.5
Tabla 10.5 PIB Nacional 1990-1999
Año PIB (Corrientes) Inflación
1990 2.697.294.027 0,2654
1991 3.510.654.340 0,2284
1992 4.198.677.709 0,1558
1993 4.697.560.701 0,0978
1994 5.248.801.852 0,0697
1995 6.645.246.991 0,3477
1996 9.388.750.603 0,3526
1997 12.092.586.530 0,2082
1998 14.694.672.927 0,1590
1999 16.282.611.699 0,1672 Fuente: elaboración propia con datos del Banco de información sectorial, INEGI
2008
Para realizar la comparación hay que seguir los siguientes pasos:
1.- Seleccionar el año base
2.- Establecer el número índice base = 1
3.- Calcular los números índices en base a la inflación (variable conocida) a través
248
de la fórmula: Inflación es = IPC(este año) menos IPC (del año pasado) entre IPC
(año pasado).
Dado que se conoce la inflación y el índice del año base se procede a calcular los
índices de los años anteriores y posteriores del año base.
Para el cálculo del IP1993:
Inflación 1994 = (IP1994 – IP1993)/ IP1993 = 0.0697 = (1 - IP1993)/ IP1993
Despejando: IP1993 = 1/(1.0697) = 0.93
Para el cálculo del IP1992:
Inflación 1993 = (IP1993 – IP1992)/ IP1992 = 0.0978 = (0.93 - IP1992)/ IP1992
Despejando: IP1992 = .93/(1.0978) = 0.847
Para el cálculo del IP1991:
Inflación 1991 = (IP1992 – IP1991)/ IP1991 = 0.1558 = (0.847 - IP1991)/ IP1991
Despejando: IP1991 = .847/(1.1558) = 0.7328
Para el cálculo del IP1990:
Inflación 1991 = (IP1991 – IP1990)/ IP1990 = 0.2284 = (0.7328 - IP1990)/ IP1990
Despejando: IP1991 = .7328/(1.2284) = 0.5965
Para el cálculo del IP1995:
Inflación 1995 = (IP1995 – IP1994)/ IP1994 = 0.3477 = (IP1995- 1)/ 1
Despejando: IP1995 = 1*(.3477+1) = 1.3477
Para el cálculo del IP1996:
Inflación 1996 = (IP1996 – IP1995)/ IP1995 = 0.3526 = (IP1996- 1.3477)/ 1.3477
Despejando: IP1995 = 1.3477*(.3526+1) = 1.8229
Para el cálculo del IP1997:
249
Inflación 1997 = (IP1997 – IP1996)/ IP1996 = 0.2082 = (IP1997- 1.8229)/ 1.8229
Despejando: IP1995 = 1.8229*(.2082+1) = 2.2024
Para el cálculo del IP1998:
Inflación 1998 = (IP1998 – IP1997)/ IP1997 = 0.1590 = (IP1998- 2.2024)/ 2.2024
Despejando: IP1995 = 2.2024*(.1590+1) = 2.5525
Para el cálculo del IP1999:
Inflación 1999 = (IP1999 – IP1998)/ IP1998 = 0.1672 = (IP1999- 2.5525)/ 2.5525
Despejando: IP1995 = 2.5525*(.1672+1) = 2.9792
• PIB nominal producción de bienes y servicios valorada a precios corrientes
• PIB real producción de bienes y servicios valorada a precios constantes.
Tabla 10.6 PIB Nacional 1990-1999
(mi l es de p esos a p recios de 1994)
Fuente: elaboración propia con datos del Banco de información sectorial, INEGI
2008
250
La diferencia sustantiva entre el análisis del PIB a precios corrientes y del PIB a
precios constantes radica en que a este último se le descuenta el efecto de la infla-
ción. Por ejemplo, si quisiéramos analizar el crecimiento del PIB entre los años
1994 y 1999, tendríamos que a precios corrientes el crecimiento fue de 16 282 611
699/ 5 248 801 852 = 3.10 veces, es decir, creció 210% más que 1994. Sin embar-
go a precios constantes el crecimiento real fue apenas de 5 465 195 514/5 248 801
852 = 1.04, es decir apenas el 4% de crecimiento.
Índices bursátiles
Los índices bursátiles son números índices que reflejan la evolución en el tiempo
de los precios de los títulos cotizados en un mercado. La muestra de activos que
componen el índice obedece a ciertos criterios de elección que en general tienen
que ver con el volumen negociado y la capitalización bursátil. Dado que existen
distintos tipos de títulos cotizados (acciones, derivados) se pueden calcular diferen-
tes tipos de índices, aunque los más conocidos son los que se refieren a las accio-
nes.
Los índices pueden suponer agrupaciones parciales de valores (sectoriales) o globa-
les (generales).
Técnicamente son números índices temporales complejos y en la mayoría de los
casos ponderados. La finalidad de los índices bursátiles es reflejar la evolución en
el tiempo de los precios de los títulos admitidos a cotización en Bolsa. En resumen
tratan de reflejar el comportamiento de todos los valores que cotizan en la bolsa
tomados en conjunto como si fuera una sola unidad.
En México el indicador del desarrollo del mercado accionario es el índice de Pre-
cios y Cotizaciones (IPC), calculado en función a las variaciones de precios de una
selección de acciones balanceada, ponderada y representativa del conjunto de ac-
ciones cotizadas en la Bolsa Mexicana de Valores.
251
La muestra empleada para su cálculo se integra por emisoras de distintos sectores
de la economía y se revisa semestralmente. El peso relativo de cada acción se ex-
plica por su valor de mercado. Es decir, se trata de un índice ponderado por valor
de capitalización. La fecha base es el 30 de octubre de 1978 = 100. Se consideran
en él 35 series accionarias clasificadas como de alta y media bursatilidad, es decir,
las más negociadas del mercado tanto por volumen como por importe.
Tabla 10.7 Índice de precios y cotizaciones de la bolsa mexicana
10.3 Análisis de patrones básicos
Los cambios en los fenómenos sociales y económicos en el pasado pueden ser ana-
lizados en base a los cambios de sus patrones básicos a través del tiempo.
En materia de análisis de los cambios de series de tiempo es importante, porque el
conocimiento del pasado permite predecir con mayor exactitud el comportamiento
futuro. Una serie de tiempo que representa una actividad particular, es el resultado
de la interacción de diversos factores dinámicos que pueden ser de tipo económico,
político o de influencia social. Los factores de cambio son los que se investigan y
252
estudian para la toma de decisiones. Éstos se presentan en forma de tendencia, es-
tacional, cíclica o irregular.
Tendencia.- Los fenómenos de tendencia señalan la dirección del movimiento de
una serie de tiempo sobre un largo período. El movimiento puede ser de forma
ascendente o descendente. Cuando se muestra gráficamente, normalmente se hace a
través de una línea recta o una curva.
Variación estacional.- Los fenómenos de variación estacional son movimientos
periódicos que están influidos por las condiciones del tiempo, las tradiciones, los
hábitos, entre otros.
Fluctuaciones cíclicas.- Indican expansiones o contracciones de los movimientos
alrededor de una cantidad normal. Las fuerzas que los motivan son principalmente
factores económicos: niveles de inversión, producción, consumo, gasto, entre otras.
Movimientos irregulares.- Representan todo tipo de movimientos de una serie de
tiempo que no presenten característica en forma de tendencia, estacional o cíclica.
Estas son de difícil estudio.
10.4 Métodos de estimación de las tendencias
Para el análisis de las series de tiempo se puede elaborar un manejo de datos al
interior de cada período para determinar una cantidad que lo represente en forma
de tendencia. Adicionalmente, se tendrá que realizar un análisis cualitativo que
explique el comportamiento real: estacional, cíclico o irregular.
Tendencia lineal
La estimación de una serie de tiempos se puede efectuar a través del método gráfi-
co y el de los mínimos cuadrados.
253
Método gráfico
En un sistema de coordenadas X y Y, con una escala apropiada en cada uno de los
ejes, se grafica, en forma individual, los valores que le corresponden a cada varia-
ble. Posteriormente se traza una curva que trata de pasar lo más cerca de cada uno
de los puntos graficados. El método gráfico es un método rudimentario y debe ser
considerado apenas como una aproximación.
Figura 10.1 Método gráfico
Métodos de mínimos cuadrados
El Método de Mínimos Cuadrados Ordinarios es un modelo estadístico que hace
parte de un grupo denominado Modelos de Regresión, estos explican la dependen-
cia de una variable "Y" respecto de una o varias variables cuantitativas "X":
En el Método de Mínimos Cuadrados Ordinarios se estudia una única ecuación con
solo dos variables y con una regresión lineal.
El análisis de regresión trata de la dependencia de las variables explicativas, con el
Regression
95% confid.
Método Gráfico
X
Y
10
12
14
16
18
20
22
24
-5 -3 -1 1 3 5
254
objeto de estimar y/o predecir la media o valor promedio poblacional de la variable
dependiente en términos de los valores conocidos o fijos de las variables explicati-
vas. Se trata de encontrar una recta que se ajuste de una manera adecuada a la nube
de puntos definida por todos los pares de valores muestrales (Xi,Yi).
Este método de estimación se fundamenta en una serie de supuestos, los que hacen
posible que los estimadores poblacionales que se obtienen a partir de una muestra,
adquieran propiedades que permitan señalar que los estimadores obtenidos sean los
mejores.
Pues bien, el método de los mínimos cuadrados ordinarios consiste en hacer míni-
ma la suma de los cuadrados residuales, es decir lo que tenemos que hacer es hallar
los estimadores que hagan que esta suma sea lo más pequeña posible.
Las de tendencia lineal son aquellos puntos que más se acercan a una línea recta.
Recordemos que la fórmula general de una línea es Y = a + bX, en donde:
Y = valor de la ordenada de un punto sobre la recta, variable dependiente;
X = valor de la abscisa de un punto sobre la recta, variable independiente.
a = intersección de la recta en el eje de las Y (altura de la ordenada, desde el
origen al punto de intersección de la línea recta con el eje de la Y)
b = pendiente de la línea recta
Para poder considerar el método de los mínimos cuadrados, se tiene que recurrir a
las 2 propiedades matemáticas de un grupo de valores de tendencia central, que
son:
1.- La suma de las desviaciones de los valores individuales con respecto a
la media es igual a cero Σ (Y-Ym) = 0,
2.- La suma de los cuadrados de estas desviaciones es un mínimo. Σ (Y-
Ym)2 es un mínimo, es decir tiende a cero.
255
Para obtener la solución de las dos incógnitas, las constantes a y b en la ecuación
general Y = a + bX, mediante el método de mínimos cuadrados se requiere tener
dos ecuaciones obtenidas de la primera derivada de a y de b:
El procedimiento consiste entonces en minimizar los residuos al cuadrado Di²
∑Di
2
= ∑(Yi-Ym)2 …reemplazando Ym por (a +bX)
∑ Di
2
= ∑ [Yi-(a +bX) ]2
La obtención de los valores de a y b que minimizan esta función es un problema
que se puede resolver recurriendo a la derivación parcial de la función en términos
de a y b: llamemos G a la función que se va a minimizar:
G= ∑ [Y-a -bX) ]2
Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y
las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuacio-
nes normales del modelo que pueden ser resueltas por cualquier método ya sea
igualación o matrices para obtener los valores de a y b
Derivamos parcialmente la ecuación respecto de a:
dG/da = 2∑ (Y- a - bX) (-1) = 0
∑Y – na -b∑X ) = 0
Y = na + b ∑X Primera ecuación normal
Derivamos parcialmente la ecuación respecto de b
dG/db = 2∑ (Y- a - bX) (-X) = 0
-2 ∑ (Y – a – bX ) (X) = 0
∑XY -a∑X – b∑X2 = 0
256
∑XY = a∑X + b∑X2 Segunda ecuación normal
Con el propósito de simplificar la fórmula, se considera a ΣX = 0, lo que significa
que:
I.- ∑Y= na + b∑X II.- ∑XY = a∑X + b∑X2
a = (ΣY)/n b = Σ (XY)/ ΣX2
Ejemplo. Supóngase una serie de datos de exportación de un bien a lo largo de 7
años.
Tabla 10.8 Exportaciones de café mexicano
(en miles de toneladas)
Año Exportaciones
1994 165
1995 180
1996 259
1997 274
1998 247
1999 225
2000 250 Figura 10.2 Gráfico de dispersión
257
Tabla 10.9 Cálculo de los parámetros a y b
X Y X2XY
-3 165 9 -495
-2 180 4 -360
-1 259 1 -259
0 274 0 0
1 247 1 247
2 225 4 450
3 250 9 750
0 1600 28 333
∑X= 0 ∑Y= 1600 ∑X2= 28 ∑XY= 333
a = ∑Y/n = 1600/5= 228.57
b = ∑XY/∑X2 = 333/28 = 11.89
La ecuación de la recta es de; Y = 228+11.89X
Los nuevos valores calculados de Y se observan en la tabla 10.5
Tabla 10.10 Nuevos valores de Y
X a 11,89 X Y
-3 228 -35,67 192,33
-2 228 -23,78 204,22
-1 228 -11,89 216,11
0 228 0 228
1 228 11,89 239,89
2 228 23,78 251,78
3 228 35,67 263,67
4 228 47,56 275,56
5 228 59,45 287,45
Figura 10.3 Línea de regresión
258
Utilizando el paquete estadístico SPSS, con los comandos Analizar
/Regresión/mínimos cuadrado en dos fases, se obtienen los valores de las constan-
tes a y b al tiempo que calcula los nuevos valores para la ecuación de regresión.
También calcula la proyección para los años siguientes dando un click en guardar.
Figura 10.4 Menú de cálculo regresión lineal en SPSS
259
Figura 10.5 Menú de selección de variable dependiente e independiente
Figura 10.6 Resultados de cálculo de los parámetros a y b
a
b
260
Figura 10.7 Nuevos valores de la línea de regresión
Nuevos datos calculados
Tendencia exponencial
En el caso de la tendencia exponencial la ecuación general es Y = aebx
, que expre-
sada en logaritmos queda Ln Y = nc + Xb
Aplicando el método de mínimos cuadrados, los dos parámetros desconocidos a y b
pueden calcularse con las siguientes fórmulas básicas:
∑LnY= nc + ∑Xb
∑LnY * X = ∑Xc + ∑X2b
a = ec
Ejemplo: Se requiere estimar, de acuerdo a los datos estadísticos de INEGI, la po-
blación total del municipio de Victoria para el año 2010 y 2020 suponiendo que las
condiciones que influyen en el crecimiento siguen igual. Los datos que se tienen
son:
261
Tabla 10.11 Datos históricos de población de Cd. Victoria
El primer paso es obtener los factores que integran las fórmulas básicas de cálculo,
como son: n, ∑X, ∑LnY y ∑X2, para ello se tiene que generar la siguiente tabla:
Tabla 10.12 Cálculo de factores de ecuaciones básicas
Ecuaciones básicas:
∑LnY= nc + ∑Xb
∑LnY * X = ∑Xc + ∑X2b
262
a = ec
Sustitución de factores:
90.30 = 8c + 36b
421.35 = 36c + 204b
Ahora se tiene dos ecuaciones con dos incógnitas que se pueden resolver en forma
simultánea multiplicando la primera ecuación por -4.5, obteniendo:
421.35 = 36c + 204b
-406.35=-36c -162b, si se suma a la segunda ecuación nos queda:
15 = 42b;
b = .357, sustituyendo el valor de b en la primera ecuación, se tiene que:
90.30 = 8 c + 36 (.357); 8c = 77.47; c= 9.68
Por lo tanto
a = ec = 2.718
9.68 = 15,978
Sustituyendo los valores de a y de b en la ecuación general se tiene:
Y = aebx
= 15,978 (e(.357)(9)
) = (15,978)(24.85) = 397, 053, sería la población esti-
mada para el 2010; para el 2020, sería:
Y = aebx
= 15,978 (e(.357)(10)
) = (15,978) (35.5) = 567,274, para el 2020.
La estimación exponencial, a través del modelo de regresión no lineal, se puede
obtener sólo con capturar los datos fuente y hacer click en el paquete estadístico
SPSS; tal como se muestra enseguida.
263
Figura 10.8 Datos originales y menú de regresión no lineal.
Figura 10.9 Selección de variables dependiente e independiente
264
Figura 10.10 Hoja de resultados: valores de a y de b y gráfica de la tendencia
curvilínea
a b
Figura 10.11 Valores de la curva de regresión (calculados)
nuevos valores dela variable
La estimación a través del método de tendencia exponencial para períodos largos es
algo inexacto debido a que considera la evolución total del fenómeno, que en la
última fase puede cambiar sustancialmente.
265
Tasa anual de crecimiento
Existe otra manera de realizar la estimación exponencial que considera la tasa
anual de crecimiento entre un período dado. Se puede aplica la fórmula Yn = Yo (1
+ t)n, donde Yn es la cantidad a calcular, Yo es la cantidad del período base, t es la
tasa de crecimiento del período y n es el número de períodos, sea éstos, años, me-
ses, días, etc.
Para el caso de la población del municipio de Victoria, la tasa de crecimiento del
último período se obtiene sustituyendo los valores de las poblaciones de 1990 y
2000; sustituyendo los valores en la ecuación tenemos: 263,063 = 207,923 (1 +t)10
,
lo único que falta conocer es la t = tasa anual de crecimiento, n se refiere a los 10
años del período.
t = raíz décima de (263,063/207,923) – 1= 1.0238 – 1 = 0.0238
Para estimar la población para el año 2010 y 2020, se utiliza la fórmula de interés
compuesto:
Yn = Yo (1 + t)n;
263,063 (1 + 0.0238)
10 = 332,821
Yn = Yo (1 + t)n;
263,063 (1 + 0.0238)
20 = 421,077
Si comparamos los valores calculados manualmente con los obtenidos con el pa-
quete SPSS, se observará que no existe mucha diferencia, pero si existe diferencia
entre el método exponencial y el de interés compuesto. El investigador deberá es-
coger el que más se acerque a sus pretensiones. Existen métodos de ajuste para
estimaciones más exactas, pero están fuera de los propósitos de este libro, aquí sólo
se trata de dar una idea general de los más usados y que pueden calcularse con el
apoyo de programas de cómputo, más que realizar los cálculos matemáticos.
266
Tabla 10. 13 Comparación de valores estimados obtenidos manualmente, por
SPSS y de interés compuesto
Valores
obtenidos
manualmente
Valores
obtenidos en
SPSS
Valores
interés
compuesto
2010 397,053 397,931 332,821
2020 567,274 568,622 421,077
10.5 Correlación.
El coeficiente de correlación de Pearson es un índice estadístico que mide la rela-
ción lineal entre dos variables cuantitativas. A diferencia de la covarianza, la corre-
lación de Pearson es independiente de la escala de medida de las variables.
El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza
por el producto de las desviaciones estándar de ambas variables:
Siendo:
σXY la covarianza de (X,Y)
σX y σY las desviaciones estándar de las distribuciones marginales.
El valor del índice de correlación varía en el intervalo [-1, +1]:
Si r = 0, no existe relación lineal. Pero esto no necesariamente implica una
independencia total entre las dos variables, es decir, que la variación de
una de ellas puede influir en el valor que pueda tomar la otra. Pudiendo
haber relaciones no lineales entre las dos variables. Estas pueden calcularse
con la razón de correlación.
267
Si r = 1, existe una correlación positiva perfecta. El índice indica una de-
pendencia total entre las dos variables denominada relación directa: cuando
una de ellas aumenta, la otra también lo hace en idéntica proporción.
Si 0 < r < 1, existe una correlación positiva.
Si r = -1, existe una correlación negativa perfecta. El índice indica una de-
pendencia total entre las dos variables llamada relación inversa: cuando
una de ellas aumenta, la otra disminuye en idéntica proporción.
Si -1 < r < 0, existe una correlación negativa.
Siguiendo con el mismo ejemplo de exportaciones de café mexicano, para aceptar
como válida la línea de regresión calculada, se requiere que el índice de correlación
sea superior a 0.5, como se puede observar en los siguientes cálculos utilizando el
paquete estadístico SPSS.
El valor del índice de correlación de Pearson para este ejemplo es de .623, lo que
significa se puede aceptar como válido el cálculo.
Figura 10.12 Cálculo de índice de correlación con SPSS
268
Figura 10.13 Resultados del cálculo de índice de correlación
Figura. 10.14.- Diagramas de correlación
10.6 Resumen
El análisis de series históricas sirve para estudiar la tendencia de crecimiento de las
variables, tales como la población, el ingreso, la demanda, la producción, las im-
portaciones, las exportaciones y en general, todos los factores que tienen un creci-
miento y desarrollo. El análisis de series de tiempo abarca dos tipos: la construc-
Y
-r = 1.00
-r = 0.0
-r = 0.82
-r = -0.38
-r = 0.57
-r = -1.00
Y Y Y
Y Y
X
X X X
X X
269
ción de números índice y análisis de patrones básicos.
En general un número índice es aquella medida estadística que permite estudiar las
fluctuaciones o variaciones de una sola magnitud o de más de una en relación al
tiempo o al espacio. Los número índice son números relativos que multiplicados
por 100 representan el porcentaje comparado con una cifra original base.
Los números índice se construyen para analizar el cambio de precios, cantidades y
valores. Los hay simples y compuestos. Alguno índices como los de INPC y el IPC
de casa bolsa su elaboración es compleja.
Para el análisis de las series de tiempo se puede elaborar un manejo de datos al
interior de cada período para determinar una cantidad que lo represente en forma
de tendencia. Adicionalmente, se tendrá que realizar un análisis cualitativo que
explique el comportamiento real: estacional, cíclico o irregular.
Para el análisis de la tendencia del comportamiento de una variable dentro de un
período dado se puede realizar en forma gráfica y a través del método de mínimos
cuadrados, sea para una tendencia lineal o curvilínea. El cálculo matemático para
definir la línea o curva de regresión es más que complicado tedioso. Afortunada-
mente con los paquetes de software estadístico como el SPSS se facilita su cálculo
y estimación, incluso la gráfica dela tendencia.
Un instrumento estadístico que sirve de manera auxiliar para aceptar la relación de
una variable dependiente con una independientes es el índice de correlación de
Pearson, que es el cociente de la división de la covarianza de las variables en rela-
ción entre el producto de las desviaciones estándar de las mismas.
270
10.7 Términos clave
Índice de correlación
Índice de Precios y Cotizaciones IPC
Índice Nacional de precios al consu-
midor INPC
Índices compuestos
Índices simples
Inflación
Método de mínimos cuadrados
Método gráfico
Números índice
Tasa anual de crecimiento
Tendencia curvilínea
Tendencia lineal
Variable dependiente
Variable independiente
10.8 Problemas de repaso del capítulo
1.- El gerente de una tienda de abarrotes desea saber en forma individual y de con-
junto, la variación en precios, cantidades y valores de sus ventas del mes de octubre
con respecto a las ventas del mes de octubre del año pasado. El gerente tiene los
siguientes registros:
2.- La Secretaría de Desarrollo Económico y del Empleo del Gobierno del Estado
desea realizar, con el método gráfico y el de mínimos cuadrados, una estimación
del Producto Percápita de sus habitantes para los años 2005 y 2006. Para su esti-
mación cuenta con los siguientes datos:
271
3.- Se quiere ajustar una recta que exprese las ventas de una empresa en función de
los gastos en publicidad que hace a lo largo de 6 años (millones de pesos):
a) Elabore la línea de regresión que represente la tendencia de estas dos va-
riables
b) Verifique con el índice de correlación su validez
c) La empresa quiere obtener 35 millones de ventas, ¿cuánto debería gastar en
publicidad?
4.- De manera general una cadena de tiendas comerciales quiere estimar la pobla-
ción de México para el año 2020. Para hacerlo cuenta con los siguientes datos, en
272
millones de personas. Utilizando la tendencia exponencial y la de interés compues-
to, realice una estimación.
Población de México en millones de personas
5.- Estime la población del estado de Tamaulipas para el año 2010, si en el año
2000, de acuerdo a los datos del XII Censo General de Población y Vivienda había
2 753 222 habitantes y en el año 2005, de acuerdo al Conteo de Población y Vi-
vienda eran 3 024 238.
273
10.9 Mapa conceptual de análisis de series
GraficoTendencia
lineal
Tendencia
Exponencial
Simples
Compuestos
Análisis de series
Números índice
Métodos de
estimación
Índices de correlación
Tasa de
interés
compuesto
Mínimos
cuadrados
274
275
Bibliografía
Berenson L. Mark & Levine M. David. (1996). Estadística Básica en Administra-
ción, conceptos y aplicaciones. Prentice Hall, México D.F.
Goode,W y Hatt. (1975). P. Métodos de investigación social. Editorial Trillas,
México D. F.
Haber, A. and Runyon R. (1977). General Statistics. Addison-Wesley Publishing
Company, U.S.A.
Samuelson, Paul A. y Nordhaus, William D. (1999) Economía. McGraw-
Hill/Interamericana de España, S.A.U. Madrid.
Training Resources and Data Exchange (TRADE). (1995). How to Measure Per-
formance: A Handbook of Techniques and Tools. Safety and Health U.S. De-
partment of Energy.
Consultas en Internet:
Arsham, Hossein. (s.f.) Razonamiento Estadístico para Decisiones Gerenciales.
Disponible en: http://home.ubalt.edu/ntsbarsh/Business-stat/opre504S.htm.
García Muñoz, Tomás. (2003). El cuestionario como instrumento de evalua-
ción/investigación. Disponible en:
http://personal.telefonica.terra.es/web/medellinbadajoz/sociologia/El_Cuestiona
rio.pdf
Jara, Antonio. (2003). Estadística aplicada.
Marín Fernández, Josefa. (2002). ESTADÍSTICA: Prácticas de ordenador con
SPSS para Windows. Disponible en:
http://www.catedras.fsoc.uba.ar/sautu/pdfs/manual-spss.pdf
Recursos educativos para profesores. Exploración de datos, introducción a la es-
tadística descriptiva. Disponible en:
http://www.ucv.cl/web/estadistica/index.htm
Ruíz Muñoz David (2004). Manual de Estadística. Editado por eumed·net. ISBN:
84-688-6153-7. Disponible en:
http://www.eumed.net/cursecon/libreria/drm/drm-estad.pdf
276
277
Apéndices
Apéndice I: Repaso a matemáticas básicas 279
Apéndice II: Glosario de símbolos 283
Apéndice III: Glosario de términos 287
Apéndice IV: Lista de fórmulas. 297
278
279
Apéndice I
Repaso a matemáticas
básicas
Propiedades de las operaciones
La operación de adición (+)
o se escribe
o es comutativa:
o es asociativa:
280
o tiene una operación inversa llamada sustracción:
, que es igual a sumar un número negativo,
o tiene un elemento neutro 0 que no altera la suma:
La operación de multiplicación (×)
o se escribe: o
o es conmutativa: =
o es asociativa: o es abreviada por yuxtaposición:
o tiene una operación inversa, para números diferentes a cero, llamada
división:
, que es igual a multiplicar por el recíproco,
o tiene un elemento neutro 1 que no altera la multiplicación:
o es distributiva respecto la adición:
La operación de potenciación
o se escribe
o es una multiplicación repetida: (n ve-
ces)
o no es ni conmutativa ni asociativa: en general y
o tiene una operación inversa, llamada logaritmo:
281
o puede ser escrita en términos de raíz enésima: y
por lo tanto las raíces pares de números negativos no existen en el
sistema de los números reales. (Ver: sistema de números complejos)
o es distributiva con respecto a la multiplicación:
o tiene la propiedad:
o tiene la propiedad:
Propiedades de la igualdad
La relación de igualdad (=) es:
reflexiva:
simétrica: si entonces
transitiva: si y entonces
Leyes de la igualdad
La relación de igualdad (=) tiene las propiedades siguientes:
si y entonces y
si entonces
si dos símbolos son iguales, entonces, uno puede ser sustituido por el otro.
regularidad de la suma: trabajando con números reales o complejos sucede
que si entonces .
regularidad condicional de la multiplicación: si y no es ce-
ro, entonces .
Leyes de la desigualdad
La relación de desigualdad (<) tiene las siguientes propiedades:
282
de transitividad: si y entonces
si y entonces
si y entonces
si y entonces
Regla de los signos
En el producto de números positivos (+) y negativos (-) se cumplen las siguientes
reglas:
283
Apéndice II
Glosario de símbolos
Operadores matemáticos
≠ diferente
< menor que
> mayor que
≤ menor o igual que
≥ mayor o igual que
raíz cuadrada
Xn
X elevado a la n potencia
284
N! N factorial, multiplica a N por todos sus componentes menores que él
y mayores de cero
│X│ valor absoluto de X, es decir sin signo
∑n
X ii= 1 sumatoria de todas las X, desde X1 hasta Xn
∑n
X iX =
ni= 1 media aritmética de la muestra
Letras griegas
α probabilidad de cometer el error de tipo I, es decir rechazar la Ho cuan-
do es verdadera; nivel de significación.
β probabilidad de cometer el error de tipo II, aceptar la Ho cuando es falsa
χ2
Chi cuadrada
μ media de la población
σ2 varianza de la población
σ desviación estándar de la población
x - μ error muestral
σ/√n error estándar
Letras en español
a término constante en una ecuación de regresión
b pendiente de la línea recta, que es la relación de los valores de Y en X
f frecuencia
Ho hipótesis nula
H1 hipótesis alternativa
i iteración
k número de grupos o categorías
285
N tamaño de la población (elementos que la componen)
n tamaño de la muestra (elementos que la componen)
p proporción; probabilidad; porción
p(A) probabilidad de que ocurra el evento A
p(A│B) probabilidad de A dado que ocurrió B
Q probabilidad de que no ocurra un evento; proporción complementaria de
p; Q = (1-p)
Q1 primer cuartil, posición 25ª de la muestra
Q3 tercer cuartil, posición 75ª de la muestra
r coeficiente de correlación de Pearson
r2
coeficiente de determinación
S2 =
∑n
(X in - 1
- X‾ )2
i= 1 varianza de la muestra
∑
n
(X iS =n - 1
- X‾ )2
i= 1
desviación estándar de la muestra
t(n-1) valores estandarizados t de student con (n-1) grados de libertad
Z valores estandarizados para la distribución normal
286
287
Apéndice III
Glosario de términos
Abscisa. En el plano cartesiano, se refiere al eje horizontal, comúnmente denomi-
nado eje de las Xs.
Análisis de varianza. el análisis de la varianza o análisis de varianza (ANOVA,
según terminología inglesa) es una colección de modelos estadísticos y sus
procedimientos asociados, en el cual la varianza está particionada en ciertos
componentes debidos a diferentes variables explicativas. Las primeras técni-
cas del análisis de varianza fueron desarrolladas por el estadístico y genetista
R. A. Fisher en los años 1920 y 1930s y es algunas veces conocido como
288
Anova de Fisher o análisis de varianza de Fisher, debido al uso de la distribu-
ción F de Fisher como parte del test de significancia estadística.
Arreglo de datos. Ordenar los datos de acuerdo a su magnitud, de menor a mayor o
viceversa.
Asintótica. Que tiene relación con una línea recta. En Estadistica la usamos para
definir a la curva de distribucion normal "Gaussiana" ya que es una curva o
campana que nunca "pega" en su base y se le llama doblemente asintótica, es
decir, de su extremo izquierdo y de su extremo derecho.
Censo. Estudio de las características de la totalidad de las unidades que componen
la población o universo.
Coeficiente de correlación. Existen diversos coeficientes que miden el grado de
correlación, adaptados a la naturaleza de los datos. El más conocido es el co-
eficiente de correlación de Pearson (introducido en realidad por Francis Gal-
ton), que se obtiene dividiendo la covarianza de dos variables por el producto
de sus desviaciones estándar.
Correlación. La correlación indica la fuerza y la dirección de una relación lineal
entre dos variables aleatorias. Se considera que dos variables cuantitativas
están correlacionadas cuando los valores de una de ellas varían sistemática-
mente con respecto a los valores homónimos de la otra: si tenemos dos varia-
bles (A y B) existe correlación si al aumentar los valores de A lo hacen tam-
bién los de B y viceversa. La correlación entre dos variables no implica, por
sí misma, ninguna relación de causalidad.
Dato. (del latín datum), es una representación simbólica (numérica, alfabética, al-
gorítmica etc.), del atributo o característica de una entidad. El dato no tiene
valor semántico (sentido) en sí mismo, pero convenientemente tratado (pro-
289
cesado) se puede utilizar en la realización de cálculos o toma de decisiones.
Ejemplos de datos: la altura de una montaña, la fecha de nacimiento de un
personaje histórico, el peso específico de una sustancia, el número de habi-
tantes de un país, etc. La información representa un conjunto de datos rela-
cionados que constituyen una estructura de menos complejidad (por ejemplo,
un capítulo de un libro de ciencias).
Estadística descriptiva. Es una parte de la estadística que se dedica a analizar y
representar los datos. Este análisis es muy básico, pero fundamental en todo
estudio. Aunque hay tendencia a generalizar a toda la población las primeras
conclusiones obtenidas tras un análisis descriptivo, su poder inferencial es
mínimo y debería evitarse tal proceder.
Estadística inferencial. Es una parte de la Estadística que comprende los métodos
y procedimientos para deducir propiedades (hacer inferencias) de una pobla-
ción, a partir de una pequeña parte de la misma (muestra).
Estadística. La estadística es una ciencia con base matemática referente a la reco-
lección, análisis e interpretación de datos, que busca explicar condiciones re-
gulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad
de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de
la salud hasta el control de calidad, y es usada para la toma de decisiones en
áreas de negocios e instituciones gubernamentales.
Estadístico. Es una medida cuantitativa, derivada de un conjunto de datos de una
muestra, con el objetivo de estimar o contrastar características de una pobla-
ción o modelo estadístico.
Frecuencia absoluta. Es el número de veces (ni) que aparece en el estudio el valor
de una variable estadística Xi,
290
Frecuencia absoluta acumulada. Es la suma de las frecuencias absolutas de todos
los valores menores o iguales que él, Fi. La frecuencia absoluta acumulada
del último valor es igual al número de datos.
Frecuencia relativa (fi). Es el cociente entre la frecuencia absoluta y el tamaño de
la muestra (n).
Frecuencia relativa acumulada (Fi). Es el cociente entre la frecuencia absoluta
acumulada y el número total de datos, n. Con la frecuencia relativa acumula-
da por 100 se obtiene el porcentaje acumulado (Pi)
Frecuencia. Se llama frecuencia a la cantidad de veces que se repite un determina-
do valor de la variable. Se suelen representar con histogramas y con diagra-
mas de Pareto.
Grados de libertad. Es un estimador del número de categorías independientes en
una prueba particular o experimento estadístico. Se encuentran mediante la
fórmula n-1, donde n = número de sujetos en la muestra (también pueden ser
representados por k-1 donde k = número de grupos, cuando se realizan ope-
raciones con grupos y no con sujetos individuales).
Hipótesis alternativa. Es una hipótesis de contraste (oposición) con la hipótesis
nula, se representa como H1.
Hipótesis nula. En estadística, una hipótesis nula es una hipótesis construida para
anular o refutar. Cuando se le utiliza, la hipótesis nula se presume verdadera
hasta que una evidencia estadística en la forma de una prueba de hipótesis in-
dique lo contrario. Se representa como Ho.
Intervalo de clase. Rango utilizado para dividir el conjunto de posibles valores numé-
ricos al trabajar con grandes cantidades de datos. Por ejemplo, si los valores
291
están entre 1 y 100, se podrían definir grupos por medio de los intervalos 1-25,
26-50, 51-75, 76-100 cuando el intervalo de la clase es 25.
Intervalo de confianza. Par de números entre los cuales se estima que estará cierto
valor desconocido con una determinada probabilidad de acierto. Formalmente,
estos números determinan un intervalo, que se calcula a partir de datos de una
muestra, y el valor desconocido es un parámetro poblacional.
Media armónica. Representada H, de una cantidad finita de números es igual al
recíproco, o inverso, de la media aritmética de los recíprocos de dichos
números.
Media geométrica. Es la raíz n-ésima del producto de todos los números.
Media muestral. Es una medida cuantitativa, derivada de un conjunto de datos de
una muestra, con el objetivo de estimar o contrastar características de una
población o modelo estadístico.
Media ponderada. Es la medida de un conjunto de valores de una variable X a los
que se han asignado pesos (ponderaciones). Su cálculo se realiza a través de
la sumatoria de los valores individuales de la variable multiplicados por la
ponderación correspondiente, dividida entre la sumatoria de las ponderacio-
nes.
Media. Es el promedio de medida de una característica (variable) de un conjunto de
números; llamada media aritmética, es igual a la suma de todos sus valores
dividida por el número de sumandos.
Mediana. Es el valor de la variable que deja el mismo número de datos antes y
después que él, una vez ordenados estos. De acuerdo con esta definición el
conjunto de datos menores o iguales que la mediana representarán el 50% de
292
los datos, y los que sean mayores que la mediana representarán el otro 50%
del total de datos de la muestra. La mediana coincide con el percentil 50, con
el segundo cuartil y con el quinto decil.
Método estadístico. El conjunto de técnicas que se utilizan para medir las carac-
terísticas de la información, resumir los valores individuales, y analizar los
datos a fin de extraerles el máximo de información.
Moda. Es el valor que cuenta con una mayor frecuencia en una distribución de
datos.
Muestra. Porción de la población que, bajo ciertas condiciones de confianza, repre-
senta las características de la población o universo.
Nivel de confianza. La probabilidad de éxito que se desea obtener en la estimación
se representa por 1 – α. El nivel de confianza y la amplitud del intervalo var-
ían conjuntamente, de forma que un intervalo más amplio tendrá más posibi-
lidades de acierto (mayor nivel de confianza), mientras que para un intervalo
más pequeño, que ofrece una estimación más precisa, aumentan sus posibili-
dades de error.
Nivel de significación. Es la probabilidad de fallar en la estimación en el intervalo
de confianza, dado un nivel de confianza (1-α), se representa por α. También
se conoce como la probabilidad de cometer un error de tipo I, es decir, recha-
zar la hipótesis nula cuando ésta es verdadera. La suma del nivel de confian-
za y el nivel de significación es igual a 1.
Ordenada. En el plano cartesiano se refiere al eje vertical, comúnmente denomina-
do eje de las Ys.
293
Parámetro. Es una medida definida sobre valores numéricos de una población,
como la media aritmética, la varianza o su desviación estándar.
Población o universo. Número total de individuos, objetos o medidas que tienen
características observables comunes, en un espacio común.
Potencia de prueba. (1-β) es la probabilidad de no cometer un error de tipo II, es
decir rechazar la hipótesis nula cuando esta es verdaderamente falsa y debería
ser rechazada.
Primer cuartil. Es el valor en el cual o por debajo del cual queda un cuarto (25%)
de todos los valores de la sucesión (ordenada).
Región crítica. Es la proporción del área debajo de la curva que incluye los valores
de rechazo de una hipótesis nula.
Tercer cuartil. Es el valor en el cual o por debajo del cual quedan las tres cuartas
partes (75%) de los datos.
Valor absoluto. En matemática, el valor absoluto de un número real es su valor
numérico sin su respectivo signo, sea este positivo (+) o negativo (-); o en
otras palabras, su distancia en la recta numérica hasta el valor cero, indepen-
diente al lado que pertenezca.
Variable continua. Es la variable que puede adquirir cualquier valor dentro de un
intervalo especificado de valores. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5
kg...) o la altura (1.64 m, 1.65 m, 1.66 m...), que solamente está limitado por
la precisión del aparato medidor, en teoría permiten que siempre exista un va-
lor entre dos cualesquiera.
294
Variable cualitativa nominal. En esta variable los valores no pueden ser someti-
dos a un criterio de orden como por ejemplo los colores o el lugar de residen-
cia.
Variable cualitativa ordinal. La variable puede tomar distintos valores ordenados
siguiendo una escala establecida, aunque no es necesario que el intervalo en-
tre mediciones sea uniforme, por ejemplo, leve, moderado, grave.
Variable discreta. Es la variable que presenta separaciones o interrupciones en la
escala de valores que puede tomar. Estas separaciones o interrupciones indi-
can la ausencia de valores entre los distintos valores específicos que la varia-
ble pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5).
Variable. Es una característica (magnitud, vector o número) que puede ser medida,
adoptando diferentes valores en cada uno de los casos de un estudio, como el
peso, talla, edad, temperatura, longitud, etc.
Variables cualitativas. Son las variables que expresan distintas cualidades, carac-
terísticas o modalidad. Cada modalidad que se presenta se denomina atributo
o categoría y la medición consiste en una clasificación de dichos atributos.
Las variables cualitativas pueden ser ordinales y nominales. Las variables
cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores
posibles como sí y no, hombre y mujer o son politómicas cuando pueden ad-
quirir tres o más valores. Dentro de ellas podemos distinguir:
Variables cuantitativas. Son las variables que se expresan mediante cantidades
numéricas.
Variables dependientes. Son las variables de respuesta que se observan en el estu-
dio y que podrían estar influenciadas por los valores de las variables inde-
pendientes.
295
Variables independientes. Es la variable que sola o en compañía de otras inciden
en el valor de otra. Los cambios en los valores de este tipo de variables de-
terminan cambios en los valores de otra (variable dependiente).
296
297
Apéndice IV
Lista de fórmulas Cálculo de medidas resumen
Media =
Rango medio = Xmenor + Xmayor
n
Cuartil 1 = Q1 = (n + 1)/4 de las observaciones ordenadas.
Mediana = (n + 1)/2 de las observaciones ordenadas, es igual a la mediana.
Cuartil 3 = Q3 = valor correspondiente a la posición 3(n + 1)/4
Varianza de la muestral = S2 = (X1 - X‾ )
2
+ (X2 - X‾ )2
+ ………….+ (Xn - X‾ )2
n-1
298
Varianza de la muestra expresada en forma sintética: S2 =
∑n
(X in - 1
- X‾ )2
i= 1
Desviación estándar de la muestra =
∑n
(X iS =n - 1
- X‾ )2
i= 1
Coeficiente de variación = CV = (S )
X‾
Media de la población =
∑n
fX iµ =
Ni= 1
Varianza de la población
∑n
(X iσ
2 =
µ
N- )
2
i= 1
Desviación estándar de la población =
∑n
(X iσ χ =
µ
N- )
2
i= 1
Coeficiente de variación de la población = CVpob = (σ )µ
Error estándar Es = S/n½
Cálculo de probabilidades
P(A) = X/T, probabilidad simple, donde X es igual al número de resultados en los
que ocurre el evento y T es igual al número de resultados posibles.
P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn), probabilidad de A,
donde cada evento conjunto no pueden ocurrir simultáneamente, por lo que se les
denomina, eventos mutuamente excluyentes, pero tienen que ocurrir, es decir son
colectivamente exhaustivos si uno de los eventos debe ocurrir. La probabilidad de
A es igual a suma de sus probabilidades parciales.
299
P(AUB) = P(A) + P(B) - P(A B), regla de adición.
P(AUB) = P(A) + P(B), regla de adición cuando A y B son mutuamente excluyen-
tes.
P(A y B)=
P(A|B) = P(A) y P(B|A) = P(B), regla de independencia.
P(A|B) = P(A y B)/P(B)
P(A y B) = P(A|B) P(B), regla de multiplicación.
P(A y B) = P(A) P(B) regla de multiplicación para eventos independientes.
P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn), donde B1, B2, B3…
Bn son eventos mutuamente excluyentes y colectivamente exhaustivos.
P(E) + P(~E) = 1, suma de probabilidad complemento.
Teorema de Bayes:
P(A|B = P(B |A)i
P(A|B )P(B )i i
1) P(B 1) + P(A|B 2)P(B 2)……+ P(A|Bn) P(Bn)
Permutaciones = n!/(n-X)!
Combinaciones = n!/X!(n-X)!
Valor esperado de la distribución de un variable discreta = µx = E(X) = ∑
n
(X i X iP )i= 1
Varianza de la distribución de un variable discreta = ∑n
(X -i µ x )2
X iσ2 = P )
i= 1
(((((
Desviación estándar de la distribución de un variable discreta = ∑
n
(X -i µ x ) 2X iσ =
P )i= 1
(((((
Distribución de probabilidad binomial:
n! p px n-x(1- )
x!(n-x)!
300
Distribución de probabilidad de Poisson:
e-λ xλP(X = x =|λ) x!
Distribución normal: f (X)=
σx
e-(½)[(x- )/ ]
2µx σx
2π
1
Estandarización de valores reales a valores Z: Z =
X-µx
σx
Aproximación a la distribución normal de la distribución binomial.
X -npaZ = X-µx Z
np(1-p)σx
Aproximación a la distribución normal de la distribución Poisson.
X -a λZ =
X-µx Z λσx
Cálculo de índices
Índice de Precios Laspayere = IPL = (ΣPn x Qo)/ΣPo x Qo
Índice de cantidades Laspayere =IQL 2006 = (ΣQn x Po)/ΣPo x Qo
Para el índice de valor se utiliza la fórmula de Passche, IPQ = (ΣPn x Qn)/ΣPo x Qo
Método de mínimos cuadrados:
Y = a +bX
a = (ΣY)/n b = Σ (XY)/ ΣX2
top related