estadistica i - libro

ESTADÍSTICA BÁSICA

PARA NEGOCIOS

Conceptos y aplicaciones

Volumen I: Estadística descriptiva y Probabilidad básica.

Marco Luiz García

Prefacio

Las generaciones anteriores a la era de las Tecnologías de la Información TI, cre-

cimos con la afirmación de que los cursos de estadística eran complejos, aburridos,

incomprensibles, tanto que eran verdaderas pruebas de resistencia, tenacidad y

frustración. Los catedráticos de la materia se concentraban más en explicar los

modelos matemáticos que en el uso y aplicación de los resultados.

El propósito de esta edición es hacer que la Estadística sea un campo interesante de

aplicación práctica en diversos aspectos de la realidad, especialmente en el área de

negocios. Acorde con el propósito, el libro pretende ser una herramienta de apren-

dizaje y práctica, utilizando los paquetes de software estadísticos que realicen los

complicados y laboriosos cálculos matemáticos. Específicamente se orientará al

uso de la hoja de cálculo de Excel y del paquete estadístico SPSS, es decir, se trata

de combinar los últimos avances de la Estadística y la Tecnología de la informa-

ción.

Se pretende que el aprendizaje de los estudiantes sea a través de diferentes proble-

mas de la vida real, eliminando los ejemplos inventados o acontecidos en otros

contextos que nada tienen que ver con nuestra realidad. En un intento de ser más

pragmáticos, se omiten algunos temas que en el área de negocios raramente se uti-

lizan y que sólo confunden y desesperan al estudiante.

Es tiempo de terminar con la anacrónica manera de enseñar estadística, que enfati-

za sobre el aprendizaje de modelos matemáticos y fórmulas de cálculo que hostigan

a los estudiantes y los distrae del verdadero propósito del uso de la Estadística:

proporcionar información para la toma de decisiones.

Uno de los principales enfoques del libro es preservar y enfatizar sobre la distin-

ción entre los parámetros de la población y los estadísticos de la muestra. La dis-

tinción es básica para el pleno entendimiento del uso de la Estadística como méto-

do para la toma de decisiones.

Acerca del contenido, se considera de suma importancia el aprendizaje de la Es-

tadística descriptiva porque, además de ser una técnica de representación descripti-

va de cualquier fenómeno, se considera como prerrequisito para entender y aplicar

los conceptos y procesos de la Estadística inferencial.

Más que el desarrollo de modelos y fórmulas matemáticas, se considera que la

Estadística es un lenguaje que se puede leer e interpretar, por ello se agrega en la

parte final un apartado de apéndices que contiene: un repaso a las matemáticas

básicas, un glosario de símbolos y términos generalmente aceptados y una lista de

fórmulas.

Los ejercicios al final de cada capítulo son extremadamente importantes para que el

estudiante pueda relacionar el marco teórico con la aplicación práctica, al tiempo

que el estudiante descubre la utilidad del uso del método estadístico en el campo

profesional en el que va a incursionar.

El propósito último del contenido es que el estudiante sepa seleccionar las herra-

mientas estadísticas apropiadas para la obtención y procesamiento de datos y cómo

interpretar y entender los resultados de su esfuerzo.

Presentación

Estadística Básica para Negocios, Conceptos y Aplicaciones, volumen I Estadísti-

ca Descriptiva y Probabilidad Básica del Mtro. Marco Luiz García ve la luz bajo

los mejores auspicios. Se trata de una obra en la que el autor aborda el estudio sis-

temático de la estadística y su aplicación práctica en los negocios en época moder-

na, como lo anuncia el título que es fruto de su larga experiencia como docente,

consultor particular y estudioso de la materia objeto de este libro.

Cuando la teoría y la praxis, además del estudio e investigación se conjugan, nece-

sariamente da el nacimiento a un producto de calidad que cumple diversos objeti-

vos, como lo señala el autor. En primer término, se logra una meta preestablecida

que implica muchas horas de trabajo, investigación, reflexión, manteniendo la

perspectiva hacia un propósito definido. De igual forma, esta obra del Mtro. Luiz

García, está diseñada para utilizarse como libro de texto en la materia de estadística

que imparte desde hace varios años en la Unidad Académica de Derecho y Cien-

cias Sociales “Lic. Francisco Hernández García” de la Universidad Autónoma de

Tamaulipas, atendiendo una necesidad inaplazable de dotar al alumno de un ins-

trumento de estudio integral, didáctico, económico, con ejemplos y sistemas mo-

dernos, que esgrimiendo la informática y el avance tecnológico de nuestros días, lo

convierte en un texto fundamental para aprender los conceptos básicos de la es-

tadística y su utilización en el diagnóstico y planeación de los negocios.

Es de advertirse, sin necesidad de ser un especialista en la materia, que el autor

utiliza un lenguaje técnico preciso, despojado de información innecesaria y que por

lo mismo se traduce en un material sustantivo para la enseñanza de la materia es-

tadística. Contiene el libro diez capítulos en los que abarca el contenido básico que

permite al estudiante entrar en contacto de una manera más clara y directa con la

enseñanza de esta disciplina, y además del basamento teórico le ofrece aplicaciones

prácticas para su debida utilización.

En cualquier área del conocimiento, es bienvenida una publicación como el que

hoy ofrece el Mtro. Luiz García, del que seguramente abrevarán muchas genera-

ciones de estudiantes que lo adoptarán como un referente obligado en la didáctica

de esta importante materia, para sistematizar el análisis y la toma de decisiones en

la marcha de la empresa.

Lic. Ramiro González Sosa

Abogado General de la UAT

Agradecimientos.

De manera muy especial quiero manifestar mi agradecimiento al Lic. Carlos Hino-

josa Cantú por darme la oportunidad de impartir las materias de Estadística Des-

criptiva y Estadística Inferencial que forman parte del pensum de la licenciatura de

Negocios Internacionales, recién creada en la UA de Derecho y Ciencias Sociales

de la Universidad Autónoma de Tamaulipas. Su encargo me motivó a diseñar

apuntes que fueran entendidos por los estudiantes que tienen formación preparato-

ria en las áreas sociales.

De igual manera y con la misma intensidad expreso mi agradecimiento al matemá-

tico y experto en estadística, Cristóbal José Rojas Montoya, actual Delegado Pro-

vincial del Instituto Nacional de Estadística y Delegado Provincial de la Oficina del

Censo Electoral en Salamanca, España, a quien conocí circunstancialmente en un

viaje que realicé a ese maravilloso país. Abusando de su amabilidad le pedí que

revisara el contenido del libro y lo hizo en una forma profesional y diligente. Por

considerar importante sus observaciones, me permito citar textualmente uno de sus

comentarios.

“Digo esto porque da la impresión que has hecho mucho hincapié en

explicar las cosas de una forma muy sencilla y simple, es decir, para

personas con poca preparación matemática. Si esto es así, me parece

estupenda la línea que has utilizado en la elaboración del texto. Si los

alumnos tienen cierta base matemática y/o estadística, el texto les va a

parecer muy simple, porque lo van a entender a la primera. Esto, que

parece algo malo, puede ser justo lo que tú persigues con la creación

de este libro. Así que puede ser estupendo según tus objetivos.”

Este comentario, viniendo de un experto, es bastante halagador para los

propósitos del libro.

Contenido Resumido

CAPÍTULO 1. El método estadístico.

CAPÍTULO 2. Elaboración de estudios estadísticos.

CAPÍTULO 3. Organización y presentación gráfica de datos.

CAPÍTULO 4. Características de la distribución de datos

numéricos.

CAPÍTULO 5. Uso de paquetes estadísticos.

CAPÍTULO 6. Presentación de datos categóricos en tablas y

diagramas.

CAPÍTULO 7. Probabilidad básica.

CAPÍTULO 8. Modelos de distribución de probabilidad para

variables aleatorias discretas.

CAPÍTULO 9. La distribución normal.

CAPÍTULO 10. Análisis de series.

Contenido detallado Prefacio

1. El método estadístico…………………………................... 17 1.1 Introducción.

1.2 Definición del término “Estadística”

1.3 División de la Estadística

1.4 Términos comúnmente usados en Estadística

1.5 Método Estadístico

1.6 La Estadística y el uso de programas de cómputo.

1.7 Resumen.

1.8 Términos clave

1.9 Problemas de repaso del capítulo.

1.10 Mapa conceptual del término Estadística.

2. Elaboración de estudios estadísticos….………….............. 37 2.1 Introducción

2.2 Tipos de estudios.

2.3 La obtención de datos.

2.4 Tipos de datos, niveles de medición y escalas de medición.

2.5 Definición operacional.

2.6 Realización de encuestas.

2.7 Tipo de muestreo

2.8 Uso de una tabla de números aleatorios.

2.9 Errores comunes en la aplicación de una encuesta

2.10 Resumen.

2.11 Términos clave.

2.12 Mapa conceptual de los estudios estadísticos.

3. Organización y presentación gráfica de datos numéri-

cos…………………………………………………. 81 3.1 Introducción.

3.2 Tabla de datos originales sin orden y ordenados.

3.3 Diagrama de tallo y hojas.

3.4 Tabulación de datos numéricos: distribución de frecuencia.

3.5 Histograma o diagrama de distribución de frecuencias.

3.6 Polígono de frecuencias.

3.7 Tabla y polígono de porcentaje acumulado.

3.8 Diagrama de Pareto.

3.9 Resumen.

3.12 Mapa conceptual de organización y presentación de datos numéri-

4. Características de la distribución de datos numéricos……. 99 4.1 Introducción

4.2 Medidas de Posición de tendencia central.

4.3 Medidas de dispersión: varianza y desviación estándar.

4.4 Análisis de 5 puntos y gráfica de caja de sesgo.

4.5 Medidas de deformación.

4.6 Cálculo de mediciones descriptivas de la población.

4.7 Uso de la desviación estándar.

4.8 Resumen.

4.11 mapa conceptual de distribución de datos numéricos

5. Uso de paquetes estadísticos………………………………. 131 5.1 Introducción.

5.2 Edición de datos.

5.3 Captura de datos.

5.4 Obtención de resultados.

5.5 Definición de las variables de análisis.

5.6 Tabla de frecuencias.

6. Presentación de datos categóricos en tablas y diagramas… 143 6.1 Introducción.

6.2 Tabulación de datos categóricos.

6.3 Elección de la gráfica apropiada.

6.4 Tabla de contingencia o de datos cruzados.

7. Probabilidad básica……………………………….............. 155 7.1 Introducción. 7.2 Criterios de probabilidad: subjetivo y objetivo.

7.3 Espacio muestral y tipos de eventos.

7.4 Formas de examinar el espacio muestral.

7.5 Probabilidad simple y probabilidad conjunta.

7.6 Teorema de Bayes.

7.7 Principios fundamentales para enumerar.

7.8 Resumen.

7.11 Mapa conceptual de probabilidad.

8. Modelos de distribución de probabilidad para variables

aleatorias discretas…………………………….. 187 8.1 Introducción

8.2 Definición del concepto.

8.3 Valor esperado de una variable discreta.

8.4 Varianza y desviación estándar de una variable discreta.

8.5 Ejemplos:

8.6 Funciones de distribución de probabilidad discreta.

8.7 Distribución Binomial.

8.8 Características de la distribución binomial.

8.9 Distribución de Poisson.

8.10 Características de la función de la distribución de probabilidades

de Poisson.

8.11 Resumen.

8.13 Problemas de repaso.

8.14 Mapa conceptual de modelos de distribución

9. La distribución normal……………………………………. 215 9.1 Introducción.

9.2 La función de densidad de probabilidad de una variable aleatoria

continua.

9.3 La distribución normal.

9.4 Propiedades de la distribución normal.

9.5 El modelo matemático.

9.6 Ejemplos.

9.7 Aplicaciones.

9.8 Uso de distribución normal como una aproximación a la distribu-

ción binomial o a la distribución de Poisson.

9.9 Resumen

9.12 Mapa conceptual de la distribución normal

10. Análisis de series…………………………………………... 237 10.1 Introducción

10.2 Construcción de números índice.

10.3 Análisis de patrones básicos

10.4 Métodos de estimación de las tendencias

10.5 Correlación

10.6 Mapa conceptual de análisis de series

Bibliografía 275

APÉNDICES 277

Capítulo 1

El método estadístico

*********************

Objetivo del

Capítulo

Presentar una visión general del con-

cepto de Estadística, su evolución y

aplicación, particularmente en el área

de negocios

1.1 Introducción

Si se le preguntara al hombre de la calle qué significa para él el término Estadística,

en la mayoría de los casos se obtendría respuestas como “Estadística es “hocus

pocus1 con números”. El significado anterior supone que los números manipulados

bajo ciertas normas pueden representar cualquier cosa que tengamos en mente, es

decir, es un lenguaje. O también podríamos escuchar decir que la Estadística es una

simple recolección de datos.

La palabra estadística a menudo nos trae a la mente imágenes de números apilados

en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muer-

tes, impuestos, poblaciones, ingresos, producción, control de calidad, deudas,

créditos y así, largamente podremos enumerar su aplicación en fenómenos natura-

les y en todas las actividades del hombre.

La Estadística es mucho más que números apilados y gráficas bonitas. Es una cien-

cia con tanta antigüedad como la escritura. La Estadística nos auxilia a construir

indicadores para la toma de decisiones, por lo tanto, se puede considerar como

auxiliar de todas las demás ciencias. La economía, la administración, la medicina,

1 hocus pocus: apócope de Hoc est corpus meum que los paganos, que no entendían latín, a través del tiem-po relacionaron con palabras mágicas que se decían durante la comunión y que se fue reduciendo a hocus pocus.

la biología, la ingeniería, la administración pública, las ciencias sociales, entre

otros, se basan fundamentalmente en la aplicación de la estadística.

En el área de negocios, la ausencia de estadísticas conlleva un caos generalizado,

deja a los administradores y ejecutivos sin información relevante que fundamente

la toma de decisiones en tiempos de incertidumbre.

Cada día de nuestra vida moderna está significado por datos estadísticos relaciona-

dos con el mercado de valores, el desempleo, la inflación, los datos deportivos, los

índices de accidentes, etc. El tema de la estadística moderna abarca la recolección,

presentación y caracterización de la información que contribuya tanto para el análi-

sis como para el proceso de toma de decisiones.

Al término del capítulo, el alumno podrá comprender:

1. El significado de la palabra “Estadística” y la aplicación del método es-

tadístico.

2. Comprender el significado de los diferentes términos estadísticos: pobla-

ción, muestra, dato, variable aleatoria, censo, encuesta, entre otros.

3. Apreciar la utilidad de los estudios enumerativos y analíticos.

4. Sabrá de la existencia de paquetes estadísticos de cómputo disponibles para

el cálculo de medición estadística, lo que facilita su uso sin profundizar el

conocimiento de los modelos matemáticos que los sustentan.

La evolución de la Estadística

La Estadística, como todas las ciencias, no surgió de improviso, sino mediante un

proceso largo de desarrollo y evolución, desde hechos de simple recolección de

datos hasta la diversidad y rigurosa interpretación que se da hoy en día. Así pues, el

origen de la Estadística se remonta a los comienzos de la historia y esto se sabe

tanto a través de crónicas, datos escritos, como de restos arqueológicos. Lo anterior

es explicable porque en ese tiempo se estaba recién formando la sociedad y era

algo inherente a la necesidad de saber cosas elementales como: cuántos habitantes

tiene la tribu, con cuántos bienes cuenta, cuántos esclavos, etc.

Históricamente el desarrollo de la Estadística moderna se debe a dos fenómenos

totalmente separados:

La necesidad del gobierno de conocer las características de su población

(número, edades, ingresos, producción, salud, educación, etc.) y,

el desarrollo de modelos matemáticos que representan la realidad y la pro-

babilidad del acontecer de fenómenos (sucesos).

Así, podemos señalar que en Roma, con su perfecta organización política, jurídica

y administrativa favoreció para el desarrollo de la Estadística. Una muestra es el

Censo que se realizaba cada 5 años y que tenía por objeto, no sólo saber el número

de habitantes, sino también su cantidad de bienes. Bajo el mandato de Servio Tulio,

éstos pasaron a ser base constitucional del gobierno. También en un inicio se lleva-

ba un registro de nacimientos y de fallecimientos; pero fue bajo Antoninos que la

declaración de nacimientos adquirió una verdadera institución legal que era necesa-

ria hacerla ante el "prefecto del erario" en el templo de Saturno y no después de 30

días de nacimiento. Con la caída del Imperio Romano las estadísticas se pierden en

Europa, floreciendo más, bajo la civilización árabe.

A finales del siglo XVII, en su obra Political Arithmetick escrita probablemente en

1672 y publicada en 1690, Sir William Petty expone un punto de vista completa-

mente nuevo para la investigación económica. “En lugar –dice- de usar sólo pala-

bras comparativas y superlativas, y argumentos intelectuales, he tomado el cami-

no…. de expresarme en términos de Número, Peso y Medida; de usar sólo argu-

mentos de sentido y de tomar en cuenta únicamente las causas que tengan funda-

mentos visibles en la naturaleza” (Roll, 1969: 92). Petty no sólo enseñó con su

práctica y preceptos cómo se deben de recopilar y manejar los datos, sino que puso

en su debido lugar la investigación de los hechos en relación con el análisis teórico,

ante esta contundente evidencia de primacía, se puede afirmar que no sólo es el

fundador de la economía política sino también del uso de la estadística como

método de investigación.

Petty es mejor conocido por sus escritos de historia económica y estadística previos

al trabajo de Adam Smith. Sus trabajos más famosos son los de tipo demográfico,

Aritmética política y títulos similares; se trata de los primeros intentos de entender

las relaciones entre la población y la economía. Fue el creador del termino pleno

empleo y formulador de la Ley de Petty, que establece que el progreso de una eco-

nomía se aprecia fundamentalmente a través del creciente volumen de la población

que se dedica a los servicios.

La formulación matemática de la teoría de la probabilidad se da en la investigación

de juegos de azar en la época del Renacimiento. Con las aportaciones del matemá-

tico francés Blaise Pascal y de Chevalier de Mere se dieron las bases para el cálcu-

lo de la probabilidad. Estos y otros matemáticos como Bernoulli, DeMoivre, y

Gauss fueron los precursores de la estadística inferencial. Sin embargo, no fue has-

ta principios del siglo XX que los estudiosos como Pearson, Fisher, Gosset, Ney-

man, Wald y Tukey sentaron las bases de desarrollo de los métodos de la estadísti-

ca inferencial que actualmente se aplica en los diversos campos de la investigación

en nuestra actualidad.

La evolución del uso de la Estadística se puede distinguir en tres etapas:

1.- Primera Fase: Los Censos.

2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Polí-

3.- Tercera Fase: Estadística y Cálculo de Probabilidades.

La Estadística que conocemos hoy en día debe gran parte de su realización a los

trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las proba-

bilidades, con la cual se adhirió a las ciencias formales como una ciencia aliada.

Fue Godofredo Achenwall, profesor de la Universidad de Gotinga, quien acuñó en

1760 la palabra estadística, que extrajo al parecer del término italiano statista (esta-

dista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado

más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra

parte, en el término latino status, que significa estado o situación; esta etimología

aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido

cuantitativo de las más variadas situaciones.

Los progresos más recientes en el campo de la Estadística se refieren al ulterior

desarrollo del cálculo de probabilidades, particularmente en la rama denominada

indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido

en la Física como resultado de las investigaciones atómicas y que este principio se

juzga aplicable tanto a las ciencias sociales como a las físicas.

Es por esta razón que la estadística se presenta como un poderoso auxiliar de las

distintas ciencias y técnicas; al provocar en éstas, la investigación de las leyes de

comportamiento de ciertas variables que intervienen en un fenómeno cuyo valor,

gracias a la Estadística se han puesto de manifiesto.

Uso de la Estadística en el área de negocios

Contabilidad

Seleccionar muestras de registros contables para fines de auditorías.

Para comprender las tendencias de costos en la contabilidad.

Finanzas

Para analizar las tendencias de las medidas financieras de la empresa, del

mercado financiero y del mercado bursátil.

Para desarrollar modelos de pronóstico de éstas medidas.

Producción

Para controlar y mejorar los estándares de calidad del producto.

Para controlar y mejorar la productividad de la planta.

Para conocer el nivel de desempeño.

Mercadotecnia

Para conocer el mercado potencial del producto y definir el mercado obje-

Para conocer las fuerzas demográficas y económicas del entorno de la em-

presa.

Para definir estrategias de mercado: publicidad, precio, diferenciación de

producto, puntos de venta, con el propósito de incrementar las ventas y la

rentabilidad.

Para conocer los gustos, preferencias y demanda del consumidor.

Para segmentar el mercado por área geográfica, tipo de mercado, por tipo

de cliente.

La Estadística y la competitividad empresarial

En los albores del siglo XXI, el predominio de la economía global (producción,

distribución y consumo de bienes y servicios a nivel internacional) obliga a las

empresas a poner mayor énfasis en la competitividad de sus productos servicios.

Se entiende por competitividad a la capacidad de las empresas de producir bienes y

servicios en forma eficiente (con costos decrecientes y calidad creciente) y eficaz,

haciendo que sus productos sean útiles y atractivos, tanto dentro como fuera del

país. Para ello, es necesario lograr niveles elevados de calidad y productividad que

permitan operar con una rentabilidad meritoria.

La competitividad exige que las empresas conozcan toda la información -interna y

externa- relacionada con su negocio, como es la información sobre clientes, pro-

veedores, estándares de calidad, costos, producción, características de la materia

prima, características de los sistemas de logística, características de la competencia,

etc. Parte fundamental de la práctica gerencial que procura la competitividad es la

aplicación de ciertos métodos estadísticos y su adecuada interpretación de resulta-

La interpretación adecuada de los resultados incluye el reconocimiento de que los

datos son substancialmente variables y que su pertinencia y empleo permiten tomar

decisiones para mejorar un estado actual, sea sobre producción, innovación, mejo-

ramiento de la calidad, diferenciación del producto, mejoramiento de costos, aten-

ción a nuevos clientes, atención a nuevos mercados, mejoramiento de precios, etc.

Datos gubernamentales, publicaciones gremiales o especializadas)

Con el propósito de coordinar los Sistemas Nacionales Estadístico y de Informa-

ción Geográfica, y brindar el servicio público de información estadística y geográ-

fica sobre el territorio, la población y la economía de México, el gobierno federal

cuenta con el Instituto Nacional de Estadística, Geografía e Informática (INEGI),

órgano desconcentrado de la Secretaría de Hacienda y Crédito Público, con auto-

nomía técnica y administrativa. El antecedente más antiguo fue la Dirección Gene-

ral de Estadística (DGE) la cual fue creada en 1882. En 1895 se levantó el primer

Censo de Población.

INEGI genera estadísticas de cobertura nacional, regional, estatal y local de temas

como: estadísticas sociodemográficas, estadísticas económicas, estadísticas de

género, estadísticas ambientales, estadísticas de ciencia y tecnología. Además de su

requerimiento constitucional de realizar los censos de población y vivienda, agro-

pecuarios y económicos, el INEGI tiene que ver con la realización de encuestas

referidas a la población, al gasto familiar, a la vivienda, fabricación, transporte,

entre otros, y cada cierto tiempo realiza estudios sobre el índice de precios.

Además de información estadística creada por las instituciones gubernamentales,

existen varias publicaciones especializadas en datos industriales o comerciales

específicos creadas por organizaciones gremiales, empresas especializadas en el

sector, instituciones de educación o investigación, medios de comunicación.

1.2 Definición del término “Estadística”

Los estudiantes confunden comúnmente los demás términos asociados con las Es-

tadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene

dos significados:

a) En primer término se usa para referirse a la información procesada

(siete de cada diez personas prefieren comprar jabón de la marca X que

de la marca Z; el 10% de los clientes de supermercados pagan con tarje-

ta de crédito);

b) También se utiliza para referirse al conjunto de técnicas y métodos que

se utilizan para obtener, procesar, analizar y presentar la información

pertinente de un estudio. Esta última es la razón del libro.

Con tantas aplicaciones del término Estadística parece imposible obtener por con-

senso una sola definición, sin embargo, es posible hacer una distinción entre las

definiciones comúnmente aceptadas.

La estadística es considerada como la colección de datos numéricos los cuales son

expresados en términos de cuentas resumidas, sean éstos obtenidos a través de

observaciones directas o a través de otros datos. (Haber y Runyon, 1977: 6). Tal es

el caso de los censos económicos, demográficos, de vivienda, entre otros. También

es considerada como un método de relación con esos datos (Ibíd.). Esta definición

enfatiza la visión de que la estadística es una herramienta relacionada con la colec-

ción, organización y análisis de datos numéricos u observaciones.

La estadística, en general, es la ciencia que trata de la recopilación, organización

presentación, análisis e interpretación de datos numéricos con el fin de realizar una

apropiada toma de decisión (Muñoz, 2004: 3). Para muchos, la Estadística es la

ciencia auxiliar de todas las ciencias.

1.3 División de la Estadística

Para su mejor estudio, la Estadística se ha dividido en dos grandes ramas: la Es-

tadística Descriptiva y la Estadística Inferencial.

Estadística Descriptiva consiste sobre todo, en la presentación de datos en forma

medidas resumen, de tablas y de gráficas. Ésta comprende cualquier actividad rela-

cionada con los datos y está diseñada para resumir o describir las características –

variables- del fenómeno en estudio mediante medidas resumen; esto es, sin intentar

inferir nada que vaya más allá de los datos, como tales.

La estadística descriptiva puede definirse como aquellos métodos que in-

cluyen la recolección, presentación y caracterización de un conjunto de datos

con el fin de describir apropiadamente las diversas características que

distinguen a ese conjunto de datos (Berenson & Levin, 1996: 3).

Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca

de una parte de un conjunto numeroso de elementos y esto implica que su análisis

requiere de generalizaciones que van más allá de los datos. Como consecuencia, la

característica más importante del reciente crecimiento de la estadística ha sido un

cambio en el énfasis de los métodos que describen a métodos que sirven para hacer

generalizaciones. La Estadística inferencial investiga o analiza una población par-

tiendo de una muestra tomada.

La Estadística inferencial puede definirse como aquellos métodos que

hacen posible la estimación de una característica de una población o la toma

de una decisión referente a una población, basándose sólo en los resultados

de la muestra, (Ibíd.)

Para entender ambas definiciones, es necesario conocer el significado de los térmi-

nos utilizados, representados en la figura 1.1.

Fig. 1.1 Funciones del análisis estadístico

Población (total de alumnos

de la UAMFHG)

Muestra (selección

de algunos alumnos

representativos del

total de alumnos de

la UAMFHG)

Datos (observaciones)

Estadística descriptiva

Estadística inferencial

1.4 Términos comúnmente utilizados en estadística

Variable: una característica o fenómeno que puede obtener diferentes valores.

Peso, talla, sexo, ingreso, ventas, costos, temperatura, son ejemplos de variables.

Una variable es diferente a una constante, la cual nunca cambia de valor, que no

puede modificarse, al menos no dentro del contexto o situación para el cual está

previsto.

Variables cualitativas: son las variables que expresan distintas cualidades o carac-

terísticas. Cada modalidad que se presenta se denomina atributo o categoría y la

medición consiste en una clasificación de dichos atributos.

Variables cuantitativas: son las variables que se expresan mediante cantidades

numéricas. Las variables cuantitativas además pueden ser discretas o continuas.

Variables independientes: Es la variable que sola o en compañía de otras inciden

en el valor de otra. Los cambios en los valores de este tipo de variables determinan

cambios en los valores de otra (variable dependiente).

Variables dependientes: son las variables de respuesta que se observan en el estu-

dio y que podrían estar influenciadas por los valores de las variables independien-

Variable aleatoria: valor de la característica o fenómeno específico de una obser-

vación escogida al azar.

Dato: números o medida que se obtienen a través de obtener la dimensión de la

variable en una observación. Éstos pueden ser enumerados por unidades o acumu-

lación de puntos. Los datos pueden ser de naturaleza numérica o categórica. Por

ejemplo, 25 años de edad, 1.65 metros de altura, 65 kilogramos de peso, son los

datos de las variables de edad, estatura y peso de una persona.

Población o universo: el número total de individuos, objetos o medidas que tienen

características observables comunes, en un espacio común. Todos los mexicanos,

toda la población de Tamaulipas, todas las personas que viven en Cd. Victoria y

que tienen entre 12 y 36 años, todos los estudiantes de la UAT.

Censo: Cuando se estudia la totalidad de las unidades que componen la población

o universo. Desventaja: errores de observación, omisiones, duplicaciones, no-

ubicación (no medibles) del encuestado, enorme volumen de información, requie-

ren enormes recursos para su elaboración (tiempo, dinero, personas, instalaciones).

Los censos de población y vivienda que realiza el INEGI es un buen ejemplo.

Parámetros: los valores de las características observadas (variables) que represen-

tan a la población o universo. Generalmente se utiliza el alfabeto griego para repre-

sentarlas (ejemplo: µ,σ), que significan la media y la desviación estándar de la

población respectivamente.

Muestra: una porción de la población que, bajo ciertas condiciones de confianza,

representa las características de la población o universo.

Estadísticos: son las medidas resumen resultantes, bajo ciertos procedimientos

específicos, de los datos originales obtenidos en una muestra. Los estadísticos se

utilizan para estimar los parámetros de la población a través de una muestra. Para

su representación, generalmente se utilizan letras itálicas (ejemplo: X ,S), que sig-

nifican la media y la desviación estándar de la muestra.

Para relacionar estas definiciones con un ejemplo, suponga que se quiere investi-

gar, mediante una encuesta, la edad y el nivel de ingresos de los alumnos de la

UADYCS. La población o el universo en este caso serían todos los estudiantes

inscritos en el período vigente. La muestra sería sólo aquellos estudiantes que se

seleccionaron para participar en el estudio, misma que tendría que ser representati-

va de todas las licenciaturas y de todos los semestres.

El objetivo de la encuesta sería describir las características (variables: edad e ingre-

so) de toda la población (parámetros). La descripción se obtendría a través del uso

de estadísticos obtenidos de la muestra. Por lo tanto, se puede decir que la estadís-

tica inferencial es el proceso de utilizar la estadística muestral para sacar conclu-

siones acerca de los parámetros de la población.

El uso de estadística inferencial surge de la necesidad de muestrear, sea porque no

se tiene acceso a toda la población, sea porque la población es muy grande y en

consecuencia obtener sus características es muy tardado o muy caro.

1.5 Método estadístico

El conjunto de técnicas que se utilizan para medir las características de la informa-

ción, resumir los valores individuales, y analizar los datos a fin de extraerles el

máximo de información, es lo que se llama métodos estadísticos. Los métodos de

análisis para la información cuantitativa se pueden dividir en los siguientes seis

pasos:

1. Definición del problema.

2. Recopilación de la información existente.

3. Obtención de información original.

4. Clasificación.

5. Presentación.

6. Análisis.

Definición del problema

En el ámbito de los negocios, los problemas tienen que ver con ventas en cantidad

y valor, costos, precios, inventarios, consumo, rendimientos, número de clientes,

oferta, demanda, producción, control de calidad, satisfacción del cliente, análisis de

puntos de venta, y todas las variables del entorno que afecten directa e indirecta-

mente a la empresa, como inflación, paridad monetaria, importaciones, exportacio-

nes, índices de crecimiento, etc.

Recopilación de la información existente

Para conocer la dimensión del problema es necesario consultar la información

histórica interna o externa que esté relacionada con el problema que requiere aten-

ción. Por ejemplo, si hablamos de un problema de ventas, tendremos que consultar

los registros contables, los de inventarios, las ventas por productos, por zona ge-

ográfica, etc. Si el problema es de mercado, tendremos que consultar la informa-

ción existente que produce INEGI, tal como el tamaño de la población, el ingreso,

el gasto familiar, la edad de la población, el nivel de educación, etc.

Obtención de información original.

Siguiendo con el mismo problema de ventas, se requiere de conocer información

que no existe y que hay que generar, como los precios de la competencia, las prefe-

rencias del consumidor, las características de los productos, estos datos, que se

convertirán en información, se obtienen en forma directa a través de la observa-

ción, la experimentación y la encuesta.

Clasificación

La información obtenida, existente y original, se clasifica por estratos, por períodos

o por ubicación geográfica de tal manera que tenga una ponderación adecuada para

su análisis.

Presentación

La información clasificada se presenta a través de tablas y gráficas que pueda in-

terpretarse, por ejemplo, la tabla1.1 que se observa en la próxima página.

Análisis de la información

De los datos clasificados y presentados se pueden derivar una serie de análisis, por

ejemplo: las ventas de huevo disminuyó en un 10% en unidades, pero en precio

aumentó un 20% en precio por lo que resultó un aumento del 8% en el valor de lo

vendido.

Tabla 1.1 Precios y cantidades vendidas en 2005-2006

2005 2006

Artículo Precio Unidades Valor Precio Unidades Valor

Unit. Vendidas ventas Unit Vendidas venta

(docena) 10.00 100 1,000.00 12.00 90 1,080.00

Leche (litro) 5.00 120 600.00 7.00 140 980.00

Carne (kilo) 35.00 10 350.00 42.00 15 630.00

1,950.00 2,690.00

1.6 La estadística y el uso de programas de cómputo

El uso de paquetes de cómputo para el cálculo estadístico es cada vez más común

en la comunidad empresarial, académica y de investigación. Bajo esa premisa, el

desarrollo del curso considera, que para realizar los análisis estadísticos de prácti-

ca, el alumno tendrá acceso a los paquetes estadísticos como el STATISTICA, el

SPSS o la hoja de cálculo de Excel. Así, se pondrá mayor atención al uso de méto-

dos estadísticos apropiados y análisis de resultados que a la teoría matemática sub-

yacente a los métodos.

1.7 Resumen

La estadística es una ciencia matemática que se refiere a la colección, estudio e

interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia va-

riedad de disciplinas, desde la física hasta las ciencias sociales, usada también en la

toma de decisiones en áreas de negocios e instituciones gubernamentales. Colo-

quialmente se puede decir que la Estadística es la ciencia auxiliar de las ciencias.

El predominio de la economía global obliga a las empresas a poner mayor énfasis

en la competitividad. Parte fundamental de la competitividad es el pleno conoci-

miento e adecuada interpretación de la información relacionada con el entorno

interno y externo de la empresa.

La aplicación del método estadístico en la realización de estudios estadísticos ac-

tualmente es imprescindible.

La aplicación del método estadístico se utiliza para describir y para inferir las

características del objeto de estudio, de ahí que la estadística se divide en dos áreas

de estudio, la estadística descriptiva y la estadística inferencial.

La estadística descriptiva, que se dedica a los métodos de recolección, descripción,

visualización y resumen de datos originados a partir de los fenómenos en estudio.

Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de

descriptores numéricos son la media y la desviación estándar. Resúmenes gráficos

incluyen varios tipos de figuras y gráficos.

La estadística inferencial, que se dedica a la generación de los modelos, derivacio-

nes y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo

aleatorio e incertidumbre en las observaciones. Se usa para modelar patrones en los

datos y extraer inferencias acerca de la población de estudio. Estas inferencias pue-

den tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estima-

ciones de características numéricas (estimación, pronósticos de futuras observacio-

nes, descripciones de asociación (correlación) o modelamiento de relaciones entre

variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANO-

VA, series de tiempo y tendencias de datos.

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay

también una disciplina llamada estadística matemática, la cual se refiere a las bases

teóricas de la materia. La palabra estadísticas también se refiere al resultado de

aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas

económicas, estadísticas criminales, estadísticas de salud, entre otras.

Actualmente, el uso generalizado de sistemas de cómputo ha simplificado la reali-

zación de estudios estadísticos; las hojas de cálculo y los paquetes estadísticos son

de extraordinaria ayuda; para usarlos correctamente, se requiere utilizar los cono-

cimientos adquiridos en este capítulo, ello ayudaría a reducir los errores de digitali-

zación, cálculo y análisis.

1.8 Términos clave:

Estadística

Estadística descriptiva

Estadística inferencial

Estadística moderna

Estadístico

Muestra

Parámetro

Población

Universo

Variable

Variable aleatoria

Variable cualitativa

Variable cuantitativa

1.9 Problemas de repaso del capítulo

En los siguientes ejercicios, describa una aplicación específica e identifique la po-

blación y los parámetros que son de interés principal del estudio.

1. Describa una aplicación de la estadística en economía o finanzas.

2. Describa una aplicación de la estadística en los deportes

3. Describa una aplicación de la estadística en la administración de empresas

4. Describa una aplicación de la estadística en el área de publicidad y mercadotec-

5. Describa una aplicación de la estadística en la investigación médica o en la ad-

ministración de la salud.

6. Describa la diferencia entre la estadística descriptiva y Estadística inferencial.

7. Describa el Método estadístico.

1.10 Mapa conceptual del término Estadística

• Comienzos de la historia

• Siglo XVII

• Siglo XXOrigen

• Necesidades de Gobierno

• Desarrollo de modelos de representación

• Soporte de todas las ciencias

Aplicación

• Información procesada

• Técnicas y métodos para el manejo de datosSignificado

ESTADÍSTICA

Estadística moderna

Descriptiva Inferencial

Método

estadístico:

Definición del problema

Recopilación de información

Clasificación

Presentación

Análisis

Capítulo 2

Elaboración de estudios

estadísticos

*********************

Objetivo del

Capítulo

Mostrar la importancia de diseñar un estu-

dio estadístico, especialmente los que se

requieren elaborar para los negocios y la

importancia de obtener buenos datos

2.1 Introducción

Las organizaciones modernas enfrentan gran complejidad para su buen funciona-

miento. Una de las razones por las cuales las organizaciones modernas son comple-

jas, es que en el mundo globalizado que operan cambia constantemente y presenta

nuevos desafíos y amenazas. Existe la necesidad permanente de adaptarse al cam-

bio, tanto en las entradas como en las salidas y en el proceso de transformación.

Los administradores de las organizaciones modernas tienen la responsabilidad de

conocer cómo, cuándo, dónde se deben realizar los cambios de adaptación a las

nuevas exigencias de mercado. Estos cambios no pueden ser implementados sin el

conocimiento de la información apropiada pertinente, suficiente, oportuna, veraz,

económica y de predicción. Las organizaciones modernas y competitivas, de cual-

quier tamaño o complejidad deben de medir en forma permanente el nivel de des-

empeño a través de conocer información sobre costos, cantidad, calidad, producti-

vidad, eficiencia de productos, servicios y procesos. Pero también debe conocer de

los cambios que ocurren en el medio ambiente en que se desarrolla, tales como

población, ingresos percápita, competencia, gustos, preferencias, necesidades, pre-

cios, etc.

Para que un estudio estadístico sea útil en el proceso de toma de decisiones, los

datos de entrada deben ser de origen fidedigno y cumplir con una serie de carac-

terísticas de codificación que faciliten su captura, agrupación, correlación y análi-

sis. Por ello el proceso de recolección es extremadamente importante en la realiza-

ción de un estudio. Si los datos están distorsionados por sesgos, ambigüedades o

malas interpretaciones, lo más probable es que se elaboren estudios de mala calidad

y por lo tanto, en base a ellos, se toman malas decisiones.

Esta sección pretende introducir al alumno a determinar qué tipo de estudios es-

tadísticos se requieren en las organizaciones, cómo se obtienen los datos, cómo se

clasifican, agrupan y presentan. Cabe señalar que actualmente el uso generalizado

de equipos de cómputo “la edad de la tecnología de la información” ha facilitado

esta tarea de obtención, procesamiento y presentación de información. Aún y cuan-

do cada organización tiene diferentes necesidades de estudios estadísticos, pedagó-

gicamente y metodológicamente se pueden hacer generalizaciones que el profesio-

nal tendrá que adaptar a sus necesidades de aplicación.

Al término del capítulo, el alumno deberá ser capaz de:

1. Conocer los tipos estudios estadísticos que se pueden realizar.

2. Conocer las diferentes fuentes de obtención de datos.

3. Conocer los diferentes tipos de datos, niveles de medición y escalas de me-

dición.

4. Conocer la importancia de diseñar un estudio estadístico, especialmente los

que requieren aplicación de una encuesta.

5. Saber diseñar un cuestionario con preguntas objetivas, plenas de significa-

do y alta relación con el objeto de estudio.

6. Utilizar una tabla de números aleatorios para la definición de los indivi-

duos de la encuesta.

2.2 Tipos de estudios.

Hay dos tipos de estudios “enumerativos” y “analíticos”. Los estudios enumerati-

vos son aquellos que muestran cómo son las cosas pero que no tienen la cualidad

de predecir por ellos mismos. El censo de población y vivienda es un buen ejemplo

de estudio enumerativo. Medir el rendimiento del maíz es un estudio enumerativo.

Las condiciones de producción agrícola del 2004 o 2005 o de cualquier año pasado

se han ido y no se repetirán. En ese sentido no existe un proceso subyacente. Los

estudios analíticos son utilizados para estudiar procesos y pueden predecir, bajo

ciertos cambios en el proceso original, los resultados en un futuro (TRADE, 1995:

Ambos tipos de estudios utilizan el método estadístico para la toma de decisiones.

Ambos utilizan los datos como materia prima para su elaboración.

Los estudios enumerativos involucran la toma de decisiones respecto a una pobla-

ción y/o sus características (Berenson & Levin, 1996: 5). Un ejemplo de estudio

enumerativo sería aquel que se realiza en cierta área geográfica, previo a la opera-

ción comercial de una empresa. El objetivo es el de proporcionar estimaciones de

las características de la población y tomar ciertas decisiones sobre ellas.

El área geográfica definida para el estudio enumerativo se le denomina marco y

proporciona los elementos para la selección de una muestra. De ahí surgen las pre-

guntas de ¿Cuántos son hombres y cuántas mujeres? ¿Cuántos consumen el pro-

ducto? ¿Qué marca de producto prefieren? ¿Qué nivel de ingresos tienen? ¿Cuán-

tos negocios similares existen? ¿Cuál es el aforo vehicular por las principales ave-

nidas?

Fig. 2.1 Mapa base para estudio enumerativo de mercado

Otro ejemplo de un estudio enumerativo es la descripción del contenido de un

tazón de canicas, el tazón completo representa la población, las preguntas del estu-

dio se hacen en relación a saber ¿Qué hay en el tazón? ¿Cuántas canicas son de

color negro, o en qué proporción son negras? ¿Qué probabilidad existe aleatoria-

mente de escoger una canica negra?

Figura 2.2 Estudio enumerativo.

Muestra

Por otro lado, los estudios analíticos involucran realizar alguna actividad sobre un

proceso para mejorar el desempeño en el futuro (Ibíd.)

La técnica Estadística permite dise-ñar una muestra representativa de un área geográfica específica y de-terminar, en forma aproximada, sus características enumerativas en conjunto

El estudio de los resultados de un proceso de producción o de prestación de servi-

cios considerados durante cierto tiempo, es un ejemplo de estudio analítico. El

propósito de un estudio analítico es el de obtener predicciones de comportamientos

futuros y de resultados. Esto es la generación de información anticipada para la

toma de decisiones para la mejora del proceso y en consecuencia, de los resultados.

Un estudio analítico, se refiere al análisis de procesos. Los procesos, utilizando el

enfoque de sistemas, se componen de varias etapas, en forma general: entradas,

procesos de transformación, salidas y retroalimentación.

En un sistema empresarial, las entradas son principalmente materia prima, perso-

nas, maquinaria y equipo e información; los procesos de transformación se refieren

a las actividades propias de la organización, es decir a la transformación de las

entradas en salidas; las salidas son los bienes o servicios que la organización oferta

al medio ambiente (clientes reales y potenciales).

El Dr. Walter Shewhart, un pionero de estudios estadísticos en control de procesos,

dice que un proceso consiste en equipo, métodos, material y personas que son con-

juntados para producir salidas en un medio ambiente. Por ejemplo, en agricultura,

si bien es cierto que las condiciones de clima predominan en los rendimientos agrí-

colas, también influyen los métodos de cultivo, el tipo de suelo, el tipo de semilla,

los mejoradores agrícolas, las plagas, entre otros. (TRADE, 1995: 84)

El análisis de resultados del sistema organizacional se da a través de lo que se co-

noce como retroalimentación, que no es otra cosa que el análisis de la información

de respuesta del medio ambiente a las salidas de la organización, reflejadas, en más

de las veces, en ventas, devoluciones, quejas, pedidos, sugerencias, entre otras.

Figura 2.3 Ámbito de aplicación de estudios analíticos

Administración y Finanzas

Producción

GerenciaGeneral

Mercadotecnia

Entradas Proceso

Retroalimentación

Salidas

CompetidoresProveedoresDistribuidoresClientesEmpleadosAccionistasSociedad

AccionistasSindicatoGobiernoCámarasGrupos de interés

TierraMano de obra

Capital

Productoso

Servicios

Existen cuatro razones básicas para realizar estudios estadísticos (enumerativos o

analíticos):

a) Contar con material imprescindible en un estudio de investigación.

b) Medir el desempeño y tomar medidas correctivas

c) Apoyar la toma de decisiones en la definición de estrategias

d) Para satisfacer nuestra curiosidad.

Los estudios estadísticos más comunes en el área de negocios, tienen que ver con

control de producción, control de calidad, ventas, crédito, cobros, estudios de mer-

cado (mercado potencial, mercado objetivo, precios de mercado, etc.)

La calidad de los estudios estadísticos

La calidad de los estudios estadísticos depende de la calidad de los datos que los

soporten. Los investigadores han adoptado el término GIGO, del inglés garbage

in, garbage out, que se traduce como basura entra, basura sale. Lo que el trata de

significar es que si los datos obtenidos son equivocados o tienen errores, el estudio

será de mala calidad y su uso para el que fue creado, estará equivocado o tendrá

errores: se tomarán malas decisiones.

Para diseñar un estudio estadístico, el estudiante debe comprender las distintas

fuentes de datos, los tipos de datos que existen y los sistemas de medición.

2.3 La obtención de datos

Existen varios métodos de obtención de datos, depende del tipo de estudio que se

quiera realizar. Primero, se puede utilizar datos ya publicados por otras instancias,

sean gubernamentales, gremiales o individuales, a este tipo de información se le

conoce como información de fuente secundaria. La de fuente primaria se obtiene

en forma directa a través de la experimentación, la observación o el levantamiento

de encuesta.

Sin importar la fuente, se hace una distinción entre el recolector original de datos y

la organización o individuo que los compilan. El recolector de datos es la fuente

primaria; el compilador es la fuente secundaria. Los datos generados por el usuario

son de fuente primaria, los datos generados por terceros, son de fuente secundaria.

Los datos primarios se obtienen a través de:

a) diseñar un experimento,

b) realizar observaciones de comportamiento de actitudes u opiniones de los

individuos que son de interés del estudio o

c) realizar una encuesta.

Método de experimentación

La obtención de datos por el método de la experimentación es el más complejo y

eficaz de los métodos empíricos, por lo que a veces se utiliza erróneamente como

sinónimo de método empírico. En este método, el investigador interviene sobre el

objeto de estudio modificándolo directa o indirectamente para crear las condiciones

necesarias que permitan revelar sus características fundamentales y sus relaciones

esenciales bien sea:

-Aislando al objeto y las propiedades que estudia de la influencia de otros

factores

-Reproduciendo el objeto de estudio en condiciones controladas

-Modificando las condiciones bajo las cuales tiene lugar el proceso o fenó-

meno que se estudia.

Así, los datos son sacados de la manipulación sistemática de variables en un expe-

rimento. Una diferencia clara con el método empírico en general es que éste trata

de considerar los errores, de modo que una inferencia pueda ser hecha en cuanto a

la causalidad del cambio observado.

Por ejemplo, para medir los efectos de una bebida vigorizante, a dos grupos de

jugadores después de un partido de futbol, se le pide a uno que tome la bebida en

cierta cantidad y después se le analizan sus signos vitales (presión arterial, pulsa-

ciones, respiración, dilatación de pupila, contenido de glucosa, etc.) al otro indivi-

duo se le pide que tome sólo agua purificada y también se le miden los signos vita-

les. Una vez hecho el experimento se comparan las mediadas de los signos vitales

de ambos. Se llamará a un grupo, el de la condición, experimental y al otro grupo

de control. Pero se podría trabajar con varios grupos con distintas cantidades de

ingesta de vigorizante.

Método de la observación

Fue el primer método utilizado por los científicos y en la actualidad continua sien-

do su instrumento universal. Permite conocer la realidad mediante la percepción

sensorial directa de entes y procesos, para lo cual debe poseer algunas cualidades

que le dan un carácter distintivo. El método de la observación permite obtener da-

tos primarios mediante la observación de la conducta de las personas, acciones y

situaciones pertinentes. Por ejemplo, un investigador de mercados de productos

lácteos podría visitar puntos de venta y observar a los compradores desde que en-

tran a la tienda, caminan por los anaqueles, toman el producto lácteo, leen las eti-

quetas y toman la decisión de compra. O una gasolinera podría evaluar la posibili-

dad de abrir nuevas sucursales mediante la observación de los esquemas de tráfico,

las condiciones del área, la ubicación de la competencia.

La investigación por el método de observación obtiene información que la gente no

puede o no quiere proporcionar. En muchos casos, la observación es la única mane-

ra de obtener información, sin embargo, algunas cosas no pueden observarse, como

las emociones, los motivos, o la conducta privada. A causa de esas restricciones,

los investigadores suelen utilizar como complemento otros métodos de recopila-

ción de datos. En la actualidad muchas empresas utilizan el método de investiga-

ción etnográfica (ciencia que estudia, describe y clasifica las culturas o pueblos)

para observar a individuos en su hábitat natural. Las investigaciones etnográficas

proporcionan a menudo detalles íntimos que no se pueden obtener por la observa-

ción tradicional.

Método de encuesta

El método de obtención más utilizado en los estudios de mercado es la realización

de una encuesta. Una encuesta es un conjunto de preguntas dirigidas a una muestra

representativa de población o de instituciones, con el fin de conocer estados de

opinión o hechos específicos. La realización de una encuesta debe tener un diseño

muestral y un marco de aplicación. La encuesta es una investigación estadística en

que la información se obtiene de una porción representativa de las unidades que

componen el universo. La encuesta es preferible a los censos (o estudio de toda la

población) por las siguientes razones:

- La población es grande y, por tanto, imposible de analizar en su totalidad.

- Las características de la población varían si el estudio se prolonga dema-

siado tiempo.

- Reducción de costes: al estudiar una parte de la población, los gastos de re-

cogida y tratamiento de los datos serán menores que si los obtenemos del

total de la población.

- Rapidez: al reducir el tiempo de acopio y tratamiento de los datos, se con-

sigue mayor rapidez.

- La población es suficientemente homogénea respecto a la característica

medida, resultaría inútil gastar recursos en un análisis exhaustivo.

- El proceso de estudio es destructivo o es necesario consumir un artículo pa-

ra extraer la muestra (ejemplos: vida media de una bombilla, carga sopor-

tada por una cuerda, precisión de un proyectil, etc.).

2.4 Tipos de datos, niveles de medición y escalas de medición

Las variables generan dos tipos de datos: categóricos y numéricos. Los datos ca-

tegóricos representan categorías de la observación. Los datos numéricos represen-

tan dimensión del fenómeno, estos pueden ser discretos o continuos.

Un ejemplo de dato categórico sería la respuesta a la pregunta ¿Pertenece usted a

un club social? si o no, es una respuesta categórica; igualmente sería un dato ca-

tegórico la clasificación de los hoteles de una estrella, dos estrellas, tres estrellas,

Gran Turismo; otro ejemplo sería el grado de satisfacción de un producto o un ser-

vicio: muy satisfecho, satisfecho, no satisfecho.

Los datos numéricos surgen del conteo o de la medición de los fenómenos. Los

datos discretos son respuestas numéricas que surgen de un proceso de conteo, los

datos continuos son respuesta numérica de un proceso de medición. Un ejemplo

de dato numérico discreto sería el número de refrescos que compra al día: 2, 3, 4.

Por otro lado, la altura de un estudiante es el ejemplo de una variable numérica

continua, 1.72 metros, la medición acepta fracciones de la unidad.

Figura 2.14 Tipo de datos.

Tipo de datos Tipo de pregunta Respuesta

Categóricos

Numéricos

Niveles de medición

En el sentido más amplio, todos los datos ha obtener son medibles. Incluso los

datos numéricos discretos pueden considerarse como producto de una medición

mediante el conteo. Todo lo que se observa generalmente es referido como varia-

bles. Por ejemplo, si se estudiara el precio de una taza de café americano en Victo-

ria o en Matamoros, la variable principal sería el precio, seguramente el valor de la

variable será diferente en varios establecimientos, como también es variable la

cantidad servida y las condiciones ambientales del lugar. Cualquier observación en

particular se denomina “valor de la variable”. Los tres niveles de medición en esca-

la reconocidos son: nominal, ordinal y cardinal (intervalo y relación).

1. La escala nominal se utiliza para nombrar.

2. La escala ordinal se utilizan para representar un ordenamiento.

3. La escala cardinal sirven para representar una cantidad (intervalo o de rela-

ción)

Escala de medición

Los datos obtenidos de una variable categórica pueden ser medidos en una escala

nominal u ordinal. Las observaciones no ordenadas constituyen el nivel más bajo

de mediada y son referidas como una escala nominal. Se puede asignar un valor

numérico para representar la variedad de clases en una escala nominal pero este

número no tiene propiedades cuantitativas, sólo sirven para identificar la clase. Es

decir, si los datos observados simplemente se clasifican en diversas categorías, en

las que no implica ningún orden.

La medición de variables categóricas nominales resultan de la aplicación de una

escala de medición que permite solo determinar las relaciones = y ≠. El valor que

toma una variable categórica nominal indica la categoría a la que pertenece; por lo

tanto, permite clasificar a los individuos en grupos. Los grupos pueden ser dicotó-

micos (dos categorías) o politómicos (más de dos categorías). Por ejemplo:

Variable categórica nominal dicotómica: género (femenino / masculino). Variable

categórica nominal politómica: afiliación partidista (cuando se distinguen más de

dos partidos) como PRI, PAN, PRD.

Figura 2.5 Ejemplos de escala nominal.

Variable categórica Categoría

Seguro de automóvil

Tipo de seguro de vida que se tiene

Afiliación política

Temporal Vitalicio

PRIísta PANista PRDísta

El siguiente nivel de medición, de escala ordinal se refiere cuando la medición

representa un orden en una serie. En esta escala las diferencias son expresadas en

términos de inequidades algebraicas: a es menor que b (a<b) o a es mayor que b

(a>b). Las relaciones entre variables serán: más grande, más veloz, más alto, etc.

Los números empleados en la escala ordinal no son cuantitativos, sólo indican una

posición pero no qué tanto es la diferencia entre las diferentes posiciones de la

escala.

Ejemplos de aplicación de la escala ordinal incluye: la designación de clase de un

estudiante en un grupo, la clasificación de las películas, la categoría de los emplea-

dos, etc.

Figura 2.6 Ejemplos de escala ordinal.

Variable categórica Categoría

Clase de estudiante en un grupo

Clasificación de películas

Clasificación hotelera

Primero Segundo Tercero

G PG PG-13 R X

Finalmente el nivel más alto de medición en la ciencia es alcanzado por el uso de

números cardinales (escala de intervalo y de relación). Los valores numéricos

asociados con esta escala son cuantitativos y por ello permite el uso de operaciones

aritméticas como la suma, resta, multiplicación y división.

La diferencia entre estos dos tipos de escala radica en que la escala de intervalo

emplea un punto arbitrario (cero) de comparación mientras que la escala de rela-

ción emplea un cero real.

La medición de temperatura en grados Celsius o Fahrenheit son ejemplos de medi-

ción en escala de intervalos. No podemos decir que 40º C es a 20º C como 20º C es

a 10º C. Lo anterior se debe a que el punto de medición 0º C es arbitrario. En esta

escala de intervalo utilizada existe lo que se conoce como cero absoluto y se supo-

ne que es equivalente a -273º C, por lo que 40º C equivale a 273º C + 40º C de

calor; 20º C representa 273º C + 20º C de calor y 10º C representa 273º C + 10º C.

Cabe señalar que la diferencia entre dos lecturas tiene el mismo significado en

cualquier nivel de la escala, así la diferencia entre 37º C y 39º C es de 2º grados,

igual que en las lecturas de 25º C y 27º C.

La medición de las variables categóricas ordinales resultan de la aplicación de una

escala de medición que permite determinar las cuatro relaciones =, ≠, > y <. Lo que

permite ordenar a los individuos en un orden creciente o decreciente con relación a

una característica medida.

Figura 2.7 ejemplos de escala cardinal (intervalo o relación)

Variable numérica Nivel de medición

Temperatura ( C o F)

Tiempo de calendario (hebreo o islámico)

Altura (en pulgadas o centímetros)

Peso (en libras o kilogramos)

Edad (en años o días)

o o Intervalo

Intervalo

Relación

Generalmente los datos obtenidos de una variable numérica han sido medidos en

una escala de intervalo o de relación. Estas escalas constituyen los niveles más

altos de medición, son formas más concretas de medición, que de una de escala

ordinal, porque se puede distinguir no sólo la dimensión sino también la diferencia

con otras observaciones.

En la escala de relación (o de cociente), además de que las diferencias son signifi-

cativas e iguales en cualquier punto de la escala, existe un punto cero verdadero

que pueda ser tomado en cuenta para realizar comparaciones. Una persona mide

1.80 metros, el doble de alta de una que mide .90 metros.

Escala tipo Likert

Frecuentemente se requieren conocer las inclinaciones, sentimientos, prejuicios o

distorsiones, nociones preconcebidas, ideas, temores, amenazas y convicciones de

cierta población acerca de cualquier asunto específico, como las preferencias.

Una manera de realizar este tipo de estudios es aplicando un cuestionario con una

serie de ítems con respuestas alternativas con una escala de medición de actitudes,

como la escala de Likert, que fue desarrollada por el sociólogo Rensis Likert en

1932. La escala Likert, conocida también como escala sumativa está en función de

una serie de ítems que reflejan una actitud positiva o negativa acerca de un estímu-

lo o referente; analiza los pensamientos y sentimientos de la persona hacia los

hechos. Para realizar un estudio de esta naturaleza, se propone seguir los siguientes

pasos:

1. Preparación de los ítems del cuestionario; se elaboran una serie de enun-

ciados afirmativos y negativos sobre el tema o actitud que se pretende me-

dir. El número de enunciados elaborados al principio debe ser mayor al

número final de enunciados incluidos en la versión final.

2. Aplicación del cuestionario en una muestra representativa de la población

cuya actitud deseamos medir. Se le solicita a los sujetos que expresen su

acuerdo o desacuerdo frente a cada ítem mediante una escala.

3. Asignación de puntajes a los ítems; se le asigna un puntaje a cada ítem a

fin de clasificarlos según reflejen actitudes positivas o negativas.

4. Asignación de puntuaciones a los sujetos; la puntuación de cada sujeto se

obtiene mediante la suma de las puntuaciones de los distintos ítems.

5. Análisis y selección de los ítems; mediante la aplicación de pruebas es-

tadísticas se seleccionan los ajustados al momento de efectuar la discrimi-

nación de la actitud en cuestión, rechazando aquellos que no cumplan con

este requisito.

Después de concluir la aplicación del cuestionario, cada elemento se puede analizar

por separado o, en algunos casos, las respuestas a cada elemento se suman para

obtener una puntuación total para un grupo de elementos. Por ello las escalas de

tipo Likert son un tipo de escalas sumativas. Cada ítem está estructurado con cinco

o más alternativas de respuesta. La unidad de análisis que responde a la escala

marcará su grado de aceptación o rechazo hacia la proposición expresada en el

ítem. Los ítems por lo general tienen implícita una dirección positiva o negativa.

Por ejemplo:

“Los menonitas son un grupo étnico con excelentes valores hacia el trabajo”:

( ) Totalmente de acuerdo

( ) De acuerdo

( ) Indiferente

( ) En desacuerdo

( ) Totalmente en desacuerdo

La escala de Likert es un método de escala bipolar que mide tanto el grado positivo

como negativo de cada enunciado. A veces se utilizan 4 niveles de respuesta; de

esta forma se obliga a elegir un lado de la escala, ya que no existe la posibilidad de

neutralidad.

Las respuestas a los elementos se pueden sumar, teniendo en cuenta que todos los

elementos midan el mismo concepto (p.ej., preferencias de consumo). Es recomen-

dable realizar un análisis estadístico de los ítems con el propósito de ser selectivos.

Entre las técnicas de análisis se encuentran la correlación ítem-escala por medio del

coeficiente de correlación de Pearson, el coeficiente gamma, el análisis factorial, el

análisis discriminante, entre otros.

2.5 Definición operacional

En un estudio estadístico generalmente participan diferentes tipos de personas, lo

que hace necesario establecer la definición operacional para obtener la respuesta o

interpretación apropiada. En otras palabras, todas las personas que tengan interés

en un estudio estadístico específico, deberán hablar el mismo lenguaje. Las perso-

nas que participan en un estudio estadístico, se pueden identificar como: responsa-

ble del estudio, colaboradores en el diseño, encuestador, encuestado, capturista,

compilador y tomador de decisiones. Una definición operacional proporciona un

significado a un concepto o variable que puede comunicarse a otros individuos. Es

algo que tiene el mismo significado ayer, hoy y mañana para todos los individuos

(Berenson & Levin, 1996: 18).

En la definición operacional se debe tener en cuenta que lo que se intenta es obte-

ner la mayor información posible de la variable seleccionada, de modo que se capte

su sentido y se adecúe al contexto, y para ello se deberá hacer una cuidadosa revi-

sión de la literatura disponible sobre el tema de investigación.

Por ejemplo, la definición operacional de la variable productividad, podría ser la

siguiente: cantidad de bienes producidos por un trabajador en una jornada laboral

de ocho horas. En el ejemplo se pretende buscar una relación entre motivación y

productividad, la definición operacional de la variable productividad se circunscri-

be al trabajo realizado por un trabajador en determinado lapso de tiempo y con

cierto tipo de incentivos, tales como salarios, premios, beneficios sociales, oportu-

nidades de progreso, estabilidad en el cargo, aumento de sueldo y prolongación de

vacaciones. Si el objeto de estudio hubiese sido otro, por ejemplo, analizar la pro-

ductividad en relación con el uso de ciertos materiales o maquinarias, entonces la

definición operacional hubiese sido otra.

El investigador, al formular la definición operacional, debe considerar las condi-

ciones contribuyentes, contingentes y alternativas al problema que trata. Una con-

dición contribuyente aumenta la posibilidad de que un fenómeno ocurra pero no lo

hace implícito o cierto, ya que por sí misma no causa el fenómeno sino que es uno

entre otros tantos factores que inciden en su ocurrencia. Las condiciones contingen-

tes y alternativas que inciden en la medición de una variable son más proclives a

ser analizadas en las investigaciones sociales.

La operacionalización de las variables está estrechamente vinculada al tipo de

técnica o metodología empleadas para la recolección de datos. Éstas deben ser

compatibles con los objetivos de la investigación, a la vez que responden al enfo-

que empleado, al tipo de investigación que se realiza. Estas técnicas, en líneas ge-

nerales, pueden ser cualitativas o cuantitativas.

Las técnicas cuantitativas se emplean cuando el universo de estudio es amplio y la

complejidad de las variables posibilita una aceptable desagregación en niveles sus-

ceptibles de cuantificarse y ser analizados. En los estudios de tipo social, la encues-

ta es el instrumento de recolección de datos más utilizado en las investigaciones

cuantitativas.

Por su parte, las técnicas cualitativas son más utilizadas en las investigaciones ex-

ploratorias, su flexibilidad permite la construcción de categorías en la búsqueda,

análisis e interpretación de los datos obtenidos. Con esta técnica, empleada por

ejemplo en las entrevistas en profundidad, se produce una interacción permanente

entre la observación y la reflexión, entre lo descriptivo y lo explicativo.

Cuando nos encontramos con variables complejas, donde el pasaje de la definición

conceptual a su operacionalización requiere de instancias intermedias, entonces se

puede hacer una distinción entre variables, dimensiones e indicadores. A modo de

síntesis, puede afirmarse que el pasaje de la dimensión al indicador hace un reco-

rrido de lo general a lo particular, del plano teórico al plano de lo empíricamente

contrastable.

Las dimensiones vendrían a ser subvariables o variables con un nivel más cercano

al indicador. Para el caso de definir a la variable productividad, nos encontramos

con diferentes subdimensiones que forman parte de la variable, como ser: cantidad

de producción, costo de mano de obra, tiempo de producción, maquinaria, materia-

les o energía consumida, desperdicios. Cada una de estas subvariables son las di-

mensiones de la variable productividad.

A su vez, estas dimensiones, para poder ser contrastadas empíricamente por el in-

vestigador, requieren operacionalizarse en indicadores, que no son otra cosa que

parámetros que contribuyen a ubicar la situación en la que se halla la problemática

a estudiar. En un sentido restringido, los indicadores son datos. Para la variable

productividad, por ejemplo, en la dimensión mano de obra, los indicadores podrían

ser cantidad de productos envasados por un trabajador en ocho horas de trabajo.

2.6 Realización de encuestas

Las encuestas es lo más directo y rápido para obtener datos pero puede tener ries-

gos y lagunas. Dada una población, se calcula la dimensión suficiente de una mues-

tra y se genera procedimiento aleatorio, preferentemente con un equipo de cómpu-

to, para determinar los individuos de la población a los que se les aplicará el cues-

tionario. La clasificación de los individuos de la población debe tener la misma

estructura numérica que el procedimiento aleatorio definido.

Hay dos pasos esenciales, para la realización de una encuesta:

a) el diseño de las preguntas y,

b) el análisis final para sacar conclusiones a un nivel de estadística descripti-

El diseño de las preguntas y análisis de respuestas es el tratamiento de datos que se

espera realizar, lo más común es exponer los datos en porcentajes y medidas com-

parativas al interior y exterior de la muestra. Es muy importante definir las relacio-

nes existentes entre un grupo de variables en las que se suponen que algunas de

ellas (denominadas constructos)2 se miden a partir de otras variables observables

denominadas indicadores. Los modelos utilizados constan, por lo tanto, de dos

partes:

a) un modelo estructural que especifica las relaciones de dependencia existen-

te entre las constructos latentes y,

b) un modelo de medida que especifica cómo los indicadores se relacionan

con sus correspondientes constructos.

Una definición operacional de un constructo se refiere a las operaciones mediante

las cuales un investigador determina la presencia, ausencia o magnitud de un

fenómeno. Estas operaciones son mediciones o registros numéricos, por ejemplo: si

se quisiera medir la satisfacción del cliente sería difícil determinarla recabando las

respuestas de que sí está o no satisfecho con tal o cual producto. Para ser más

aproximado al concepto de satisfacción habrá que preguntar si el producto cumplió

con sus expectativas, si estuvo conforme con la atención, con el precio, con los

tiempos de entrega, con el sistema de venta, entre otros. La variable satisfacción

del cliente es una variable dependiente y el resto son variables independientes. En

forma general, se puede expresar como:

f(x)= {a, b, c, …. z}

Donde f(x) es la satisfacción del cliente y a, b, c, son las variables que la determi-

Para la realización de una encuesta (y cualquier tipo de estudio estadístico), además

de la práctica administrativa inherente, se requiere seguir los siguientes pasos:

Elección del tema de estudio: uso del tiempo libre de los estudiantes

2 Un constructo es, en términos generales, una idea. Más precisamente y según el filósofo argentino Mario Bunge, “Por constructo u objeto conceptual, entendemos una creación mental. Distinguiremos cuatro clases básicas de

constructos: conceptos, proposiciones, contextos y teorías”. En consecuencia, los conceptos, las hipótesis (que son

proposiciones), las teorías y las clasificaciones científicas son constructos.

Marco teórico del tema: teorías en que se fundamenta el estudio y lo que

se desea investigar, a través de formular las preguntas de investigación.

Diseñar del instrumento de recolección de datos (cuestionario): pregun-

tas numéricas o categóricas

Definir el ámbito de aplicación: local

Definición del universo: Estudiantes de la UA Derecho y Ciencias Socia-

Definir el tipo de muestreo: Probabilístico, no probabilístico.

Definir el método de aplicación: personal, correo tradicional, teléfono, en

línea.

Obtención y tratamiento de datos: digitalización y análisis estadístico

Elaboración de informe: se refiere a la redacción de lo que se encontró en

la investigación y comparación de los parámetros que se conocen.

Elección del tema

Los temas para realizar estudios estadísticos son prácticamente infinitos. Depen-

derá del área de interés del investigador. En el área de negocios los estudios se

diseñan para estimar los gustos y preferencias del consumidor, los precios de mer-

cado, el mercado objetivo, la disponibilidad de recursos para adquirir el producto,

las cantidades promedio de consumo, la impresión de la imagen de la empresa, la

competencia, etc.

Marco Teórico de la investigación

En todo proceso de investigación, un elemento que direcciona el camino a seguir

en todo trabajo científico es el marco teórico, ya que en base a éste se inicia, con-

tinúa o hace que ésta fracase, posteriormente al planteamiento del problema de

estudio (tema de estudio), es decir, que se han definido los objetivos que se preten-

den lograr y las interrogantes que se quieren despejar con su realización, el siguien-

te paso consiste en sustentar teóricamente el estudio. Este paso implica analizar y

exponer aquellas teorías, enfoques teóricos, investigaciones y antecedentes en ge-

neral que se consideran válidos para un correcto encuadre del estudio. A esta etapa

se le denomina “elaboración del marco teórico”.

El marco teórico no solamente abarca la revisión de conceptos y/o teorías que apo-

yan una investigación. Además debe tomarse en cuenta el marco de referencia y el

marco conceptual en el cual se circunscribe la investigación a realizar.

La observación, descripción y explicación de la realidad a investigarse debe ubicar

en la perspectiva de lineamientos de carácter teórico. Esto exige del investigador la

identificación de un marco de referencia sustentado en el conocimiento científico;

por ello, “cada investigación toma en cuenta el conocimiento previamente cons-

truido, por lo que al realizarla se apropia parcialmente de la estructura teórica ya

existente”. A esta etapa se le denomina “marco referencial” que no es otra cosa que

conocer, hasta donde sea posible, las investigaciones que se han efectuado sobre el

tema. De éstas, se puede obtener una visión completa de las formulaciones teóricas

sobre las cuales se ha de fundamentar el conocimiento científico propuesto en las

fases de observación, descripción y explicación.

Por ejemplo, en el estudio del uso del tiempo libre, que se ha tomado como refe-

rencia, lo primero que se tiene que hacer es definir el concepto “Tiempo libre” que,

según algunos autores, es una situación donde no existe obligación de realizar una

determinada tarea. En el tiempo libre, los individuos pueden realizar actividades

que disfrutan, tales como satisfacer necesidades personales, como el descanso, la

distracción, diversión, el desarrollo personal, la distracción.

El derecho al tiempo libre, no es solo cuestión cuantitativa o temporal, tiene más un

sentido cualitativo, puesto que en él se modifica el estilo de vida del individuo y las

estructuras sociales de su entorno. En el tiempo libre se adoptan los principios y

valores que se incorporan a la calidad de vida.

El marco teórico del uso de tiempo libre inicia con la distribución teórica del tiem-

po disponible. Se sabe que los médicos recomiendan alrededor de 8 horas de sueño

para que el organismo descanse y pueda recuperarse del desgaste cotidiano, esto

quiere decir, en números, que un tercio del día se debe dedicar al abandono total de

cualquier actividad necesaria para el sostenimiento de la vida y la salud, como las

económicas y las que satisfacen las necesidades fisiológicas.

El segundo bloque en cantidad de tiempo consumido durante el día, es el “Tiempo

de Trabajo” el cual en México se limita, por ley a un máximo de 8 horas durante el

horario diurno. Se entiende por trabajo a una actividad física o mental realizada por

un individuo a cambio de un jornal o de un salario. Si bien el trabajo remunerado

es la modalidad laboral más claramente identificable, no es la única, ya que existen

otras formas no remuneradas y que exigen una considerable cuota de tiempo y de

esfuerzo por parte del individuo que se dedica a ellas. Ejemplos de estas formas de

trabajo no remunerado, son los estudios (jornada escolar), así como los trabajos

realizados en el hogar para su funcionamiento y conservación (jornada doméstica).

El tercer tipo es el “tiempo social”, que se consume en actividades tales como el

transporte público o privado, en las charlas y reuniones con compañeros de trabajo

o de estudios y que exigen cierta obligatoriedad. Asimismo, la asistencia a ciertos

actos familiares, sociales, laborales, políticos o públicos que comprometen la asis-

tencia ineludible del individuo. También los actos y ceremonias de índole religiosa.

Por cierto, es en este tiempo en cuando se produce la formación de los grupos so-

ciales más permanentes, en los que surge la amistad y, en etapas más profundas y

avanzadas, las relaciones afectivas de pareja, que como en los casos anteriores,

también exigen una responsabilidad y obligación para con el grupo.

Por último y como consecuencia de la ocupación y la utilización de los otros tiem-

pos para la satisfacción de las necesidades económicas y sociales, queda un resi-

duo, un tiempo restante que queda liberado de toda obligación: el tiempo libre.

Diseño del cuestionario.

El cuestionario es un instrumento considerado clásico en las ciencias sociales para

la obtención y registro de datos. Su versatilidad permite utilizarlo como instrumen-

to de investigación de las características de personas, procesos y programas. Es un

instrumento de recolección de datos que puede abarcar aspectos cuantitativos y

cualitativos, es decir, considerar las variables numéricas y categóricas. Su carac-

terística singular radica en que para registrar la información solicitada a los mismos

sujetos, ésta tiene lugar de una forma menos profunda e impersonal, que el "cara a

cara" de la entrevista. Al mismo tiempo, permite consultar a una parte representati-

va de la población (muestra) de una manera rápida y económica.

Existe una relación inversa entre la amplitud de un cuestionario y la tasa de res-

puesta, en consecuencia, cada pregunta deberá de presentarse claramente, con el

menor número de palabras. Las preguntas deben estar libres de ambigüedades. Si

fuera necesario evitar confusiones debido a la complejidad de las preguntas, deberá

de acompañarse de definiciones operacionales para obtener respuestas apropiadas.

Es muy conveniente procurar que las respuestas sean en su mayoría del tipo numé-

ricas o categóricas, éstas facilitan la codificación. Las preguntas abiertas (aquellas

donde el encuestado exponga su punto de vista) deben de clasificarse u ordenarse

apropiadamente.

Los datos que se pueden obtener con un cuestionario pertenecen a cuatro cate-

gorías:

a) Hechos (datos actuales): datos personales del grupo social estudiado: por

ejemplo, edad, nivel educativo; datos del ambiente que le rodea: por ejem-

plo, vivienda, relaciones familiares, de vecindad, de trabajo, etc. y datos de

su comportamiento con respecto al tema de estudio (compró, vendió,

probó, fue, etc.).

b) Opiniones, a las cuales se suman los niveles de información, de expecta-

ción, todo lo que se podría llamar datos subjetivos.

c) Actitudes y motivaciones, todo lo que empuja a la acción, al comporta-

miento, y ésta a la base de las opiniones.

d) Cogniciones, es decir índices de nivel de conocimiento de los diversos te-

mas estudiados en el cuestionario. Revela el grado de confianza a conceder

a las opiniones sobre juicios subjetivos.

Las preguntas del cuestionario, según el modo de formularse, pueden ser cerradas

y abiertas.

Las cuestiones cerradas ofrecen al usuario que va a ser evaluado todas las alternati-

vas posibles, o al menos todas aquellas que mejor responden a la situación. El suje-

to no tiene sino elegir alguna o algunas, poniendo una señal convenida: una cruz,

rodear con un círculo, subrayar.... Suelen ser preguntas con la opción afirmativa y

negativa, y, a veces, no sé/sin opinión. Ejemplo:

¿Tiene en su domicilio acceso a Internet? Sí ( ) No ( )

En otras ocasiones las preguntas están categorizadas. Al usuario se le da a elegir

entre un abanico de opciones. Ejemplo:

¿Cuántos habitantes tiene la ciudad donde vive?

Menos de 2.000. ( ) De 2.001 a 5.000 ( ) De 5.001 a 10.000 ( )

De 10.001 a 20.000 ( ) De 20.001 a 50.000 ( ) De 50.001 a 100.000 ( )

Las respuestas o categorías que se ofrezcan a este tipo de preguntas han de reunir

dos condiciones esenciales: que sean exhaustivas y excluyentes. Las categorías o

respuestas serán exhaustivas si abarcan todos los casos que pueden darse. En ese

caso, ningún encuestado puede dejar de responder por no encontrar su categoría. Y

serán excluyentes, cuando ningún sujeto al contestar al cuestionario, pueda elegir

válidamente dos respuestas distintas de la misma pregunta.

Algunas preguntas se presentan bajo una escala cuantitativa, correspondiente al

número de veces que se repite una acción determinada. En este caso es conveniente

elegir un número par de opciones, cuatro o seis, con objeto de evitar que el encues-

tado pueda responder a la opción central, sin esforzarse en reflexionar. Así ocurre

por ejemplo:

En las clases teóricas del curso de formación que está haciendo, ¿Toma apuntes o

notas de lo que dice el expositor?

Nunca ( ) Pocas veces ( ) Con frecuencia ( ) Siempre ( )

Por otro lado, las preguntas abiertas no ofrecen ninguna categoría para elegir. Sólo

contienen la pregunta y no ofrecen ningún tipo de respuesta, dejando ésta a la con-

sideración del sujeto que completa el cuestionario.

Posibilidades y limitaciones de las cuestiones abiertas y cerradas.

Las preguntas abiertas son más fáciles de formular, puesto que no hay que prever

ningún tipo de respuesta ni investigar acerca de la exhaustividad y exclusión de las

categorías propuestas. Sin embargo, la dificultad aparece a la hora de tratar la in-

formación recogida. Es muy difícil reducir contestaciones dispares a unas categor-

ías significativas que permitan recoger la información más relevante, con objeto de

poderla cuantificar después.

Siguiendo con la idea de realizar un estudio sobre uso de tiempo libre, a continua-

ción se señalan algunos cuestionamientos, así como sus posibles respuestas.

Actividades de tiempo libre que le gustan y que practica habitualmente: ir de co-

pas; ir a discotecas, bailar; salir a reunirse con amigos; hacer deporte; asistir a

competencias deportivas; ir de excursión; ir al cine; ir al teatro; ir a conciertos;

escuchar música; ir a museos, exposiciones; no hacer nada. Al final del capítulo, a

manera de ejemplo se presenta el cuestionario para investigar el uso de tiempo libre

de los estudiantes de la UADYCS.

Ámbito de aplicación.

El ámbito de aplicación de la encuesta se refiere al espacio comprendido dentro de

límites geográficos determinados. Éste puede ser internacional, nacional, regional,

local, institucional.

Universo.

El universo del estudio es el número total de individuos u objetos que tienen carac-

terísticas observables comunes, en el ámbito de aplicación definido. Todos los

mexicanos, si el ámbito es la República mexicana; Todos los tamaulipecos, si el

ámbito es el estado de Tamaulipas; todas las personas que viven en la colonia

Obrera y que tienen entre 12 y 36 años, si el estudio fuera de esa área geográfica.

2.7 Tipo de muestreo

Un vez conocido el marco de estudio o listas actualizadas del universo y calculado

el tamaño apropiado de la muestra, se procede a definir los candidatos a proporcio-

nar los datos. Existen básicamente dos tipos de muestra: Probabilística y no pro-

babilística.

Muestreo probabilístico

Una muestra probabilística es aquella en que los sujetos de la muestra se eligen

sobre la base de probabilidades. Hay cuatro tipos de muestras de probabilidad más

comunes: aleatoria simple, la muestra sistemática, la muestra estratificada y, la

muestra de agrupación.

a) El muestreo aleatorio simple puede ser de dos tipos:

1. Sin reposición de los elementos: cada elemento extraído se descarta para

la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una

"población" de bombillas para estimar la vida media de las bombillas que

la integran, no será posible medir más que una vez la bombilla selecciona-

da. Al descartar el elemento extraído, aumenta la probabilidad de extrac-

ción de los subsiguientes.

2. Con reposición de los elementos: las observaciones se realizan con reem-

plazo de los individuos, de forma que la población es idéntica en todas las

extracciones. En poblaciones muy grandes, la probabilidad de repetir una

extracción es tan pequeña que el muestreo puede considerarse sin reposi-

ción aunque, realmente, no lo sea.

Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la

extracción de números aleatorios mediante equipo de cómputo, calculadoras o ta-

blas construidas para ese propósito.

b) Muestra sistemática

Se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo.

Primero hay que identificar las unidades y relacionarlas con el calendario (cuando

proceda). Luego hay que calcular una constante, que se denomina coeficiente de

elevación, k= N/n; donde N es el tamaño del universo y n el tamaño de la muestra.

Determinar en qué fecha se producirá la primera extracción, para ello hay que ele-

gir al azar un número entre 1 y k; de ahí en adelante tomar uno de cada k intervalos

regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del

fenómeno.

Elegir aleatoriamente un número m, entre 1 y k; tomar como muestra los elementos

de la lista: {em, em+k, em+2k, em+3k….em+(n-1)k}

Esto es lo que se denomina muestreo sistemático. Cuando el criterio de ordenación

de los elementos en la lista es tal que los elementos más parecidos tienden a estar

más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio sim-

ple, ya que recorre la población de un modo más uniforme. Por otro lado, es a me-

nudo menos probable de cometer errores con un muestreo sistemático que con el

aleatorio simple.

c) Muestra estratificada.

Consiste en la división previa de la población de estudio en grupos o clases que se

suponen homogéneos respecto a la característica a estudiar. A cada uno de estos

estratos se le asignaría una cuota que determinaría el número de miembros del

mismo que compondrán la muestra. Dentro de cada estrato el muestreo se realizaría

mediante el método de muestra aleatoria simple. Según la cantidad de elementos de

la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de

muestreo estratificado:

1. Asignación proporcional: El tamaño de cada estrato en la muestra es pro-

porcional a su tamaño en la población.

2. Asignación óptima: la muestra recogerá más individuos de aquellos estra-

tos que tengan más variabilidad. Para ello es necesario un conocimiento

previo de la población.

Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por

separado las opiniones de hombres y mujeres pues se estima que, dentro de cada

uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está

compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra

que contenga también esa misma proporción.

d) Muestra de agrupación o conglomerado

Cuando la población se encuentra dividida, de manera natural, en grupos que se

suponen que contienen toda la variabilidad de la población, es decir, la representan

fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de

estos grupos o conglomerados para la realización del estudio.

Dentro de los grupos seleccionados se ubicarán las unidades elementales, por

ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a

todas las unidades, es decir, los miembros del grupo, o sólo a algunos de ellos,

seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de

información muestral cuando, dentro de cada conglomerado, se extraen los indivi-

duos por el método aleatorio simple, el muestreo se llama bietápico.

Las ideas de estratificación y conglomerados son opuestas. El primero funciona

mejor cuanto más homogénea es la población respecto del estrato, aunque más

diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados

deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.

Muestreo no probabilístico

El muestreo no probabilístico se realiza cuando la extracción de la muestra y su

tamaño para ser representativa se valoran de forma subjetiva. Se basa en una buena

estrategia y el buen juicio del investigador. Para muchos estudios sólo se dispone

de una muestra no probabilística como una muestra de juicio, de cuota o de parte

grande.

Figura 2.8 Tipos de muestra

ProbabilísticaProbabilística

Tipo de

muestra

De juicio

De cuota

De parte grande

Aleatoria simple

Sistemática

Estratificada

Agrupación

Tamaño de la muestra

Para que la encuesta pueda ser aplicada con alto grado de confiabilidad, la muestra,

del universo debe de cumplir dos requisitos fundamentales: que sea representativa

y que sea adecuada.

Para que la muestra sea representativa, se requiere especificar una serie de carac-

terísticas que determinan la pertenencia de sus miembros y al universo a que perte-

necen. Mientras más específicas sean sus características, más fácil será su estudio.

Si se quisiera hacer un estudio de la vivienda en Cd. Victoria, para un estudio de

mercado de muebles del hogar, se requiere ser más específico del tipo de vivienda

(residencial, de interés social, autoconstrucción, ubicación geográfica, entre otras),

las variables a obtener podrían ser, según el interés del estudio: número de cuartos,

mediada de los mismos, usos, necesidades de muebles, nivel de ingreso de los habi-

tantes, entre otras. La especificación del universo o marco de estudio, reduce los

esfuerzos y recursos requeridos para su realización.

Además de que la muestra debe cumplir el requisito de representatividad, también

se requiere que sea adecuada, y lo es, cuando tiene la magnitud suficiente para que

las características objeto del estudio (variables) sean confiables para inferir las

características del universo.

Para determinar la magnitud de la muestra existen dos formas, la primera es a

través de conocer el error estándar de la población o por lo menos un error estima-

do. El error estándar mide la dispersión en torno a la media de una distribución

hipotética. Los valores que forman esta distribución hipotética son las medidas de

todas las posibles muestras de un universo. Así pues, la media de esta distribución

es la media de las medias de todas las posibles muestras y se puede considerar co-

mo la media verdadera del universo (Goode y Hatt, 1975: 281). La fórmula para

calcular el tamaño de la muestra se deriva de la fórmula de estandarización:

Z = X-µx

La diferencia entre la media de la muestra y la media de la población se conoce

como error de muestreo y se denota como Es. Por lo que la ecuación queda como:

Es = Z σ/n½; despejando nos resulta que n = Z

2(σ /Es)

Donde Es representa al error estándar, Z es el valor crítico determinado, que co-

rresponde a (1- α)/2 del centro de una distribución normal estandarizada., σ la des-

viación estándar y n el tamaño de la muestra. Lo que significa que si se conoce la

desviación estándar de la población y el error estándar se puede conocer el tamaño

de la muestra.

La otra forma de estimar el tamaño de la muestra es cuando la distribución bino-

mial puede ser aproximada a la distribución normal, esto es cuando np y n(1-p)

adquieren un valor de cuanto menos 5.

p(1-p)n

La diferencia entre la porción de la muestra y la porción de la población ps - p se

conoce como error de muestreo y se denota como e. Por lo que la ecuación queda

Z p(1-p)

n = e, despejando n se tiene que: n = Z

2 p(1-p)

Por ahora es suficiente saber que existe la manera de calcular el tamaño de la

muestra, la aplicación práctica se realizará en temas posteriores.

Método de aplicación del cuestionario

Existen básicamente cuatro modos mediante el cual se realiza el trabajo de la apli-

cación del cuestionario de una encuesta: la entrevista personal, la entrevista tele-

fónica, la de correo tradicional y últimamente a través de Internet (correo electróni-

co o de página Web). Cada modo tiene ventajas y desventajas de aplicación.

Tabla2.1 Características de los métodos de aplicación del cuestionario

Tratamiento de datos

Una vez que se aplican los cuestionarios, se procede a digitalizarlos, considerando

cada cuestionario como un registro. Un registro es un conjunto de campos que con-

tienen los datos que pertenecen a una misma repetición de entidad. La estructura

implícita de un registro y el significado de los valores de sus campos exige que

dicho registro sea entendido como una sucesión de datos, uno en cada columna de

la tabla.

Elaboración de informe de resultados

El informe es un documento, en el cual quedan plasmados una serie de procedi-

mientos de obtención de datos, cálculos, resultados, gráficas, análisis y conclusio-

nes, que permiten a otras personas conocer y entender sobre lo que se investigó y a

las conclusiones a que se han llegado. Todo informe tiene un carácter muy particu-

lar. Estará definido según sus autores, el tipo de trabajo que se reporta y el tema

estudiado. Sin embargo, existe un mínimo de apartados que debe contener:

Carátula o portada de identificación

Índice de contenido

Fuente: Shiffman & Kanuk: Consumer Behavior, 2002

Introducción o resumen

Objetivos que se persiguen

Marco Teórico en que se fundamenta la investigación

Tratamiento estadístico de datos obtenidos (medidas resumen)

Resultados obtenidos (comparación con la teoría)

Conclusiones y recomendaciones

2.8 Uso de una tabla de números aleatorios

Una tabla de números aleatorios consiste en generar una serie de dígitos aleatorios

y ordenarlo en el orden que se generaron en filas y columnas. La tabla de dígitos se

utiliza en lugar de utilizar un ánfora con códigos de identificación de cada uno de

los miembros de la población. Para usarla es necesario primero asignar un número

de código a cada elemento de la población; el elemento escogido como parte de la

muestra será aquel que coincida con los datos encontrados en la tabla. Para encon-

trar el primer dígito de la tabla, se escoge al azar una casilla y se comienza a agre-

gar un número de dígitos igual a los que se utilizaron para definir los elementos de

la población.

Tabla 2.2 500 números generados aleatoriamente

07100 90373 24960 26488 33661 13259 23749 25534 24894 15189

83910 56611 78253 72888 97998 10168 10017 21426 71997 07445

21710 61976 99909 65107 35231 64810 29109 48093 21129 12329

24202 52068 18888 40414 52187 35963 53734 31101 57979 85458

91421 85578 76917 29831 40572 63702 39652 57484 11609 14730

64858 79534 71939 43688 06496 76212 99004 58751 24902 27438

25927 27277 84748 76738 98954 31559 47986 06848 21507 60155

26152 15619 46603 96551 83952 72504 97556 74224 44859 08726

46286 55571 39459 48329 59223 61955 58590 22680 32722 33059

25868 27581 83049 25989 87956 80005 30420 78024 35990 10565

07100 90373 24960 26488 33661 13259 23749 25534 24894 15189

83910 56611 78253 72888 97998 10168 10017 21426 71997 07445

21710 61976 99909 65107 35231 64810 29109 48093 21129 12329

24202 52068 18888 40414 52187 35963 53734 31101 57979 85458

91421 85578 76917 29831 40572 63702 39652 57484 11609 14730

64858 79534 71939 43688 06496 76212 99004 58751 24902 27438

25927 27277 84748 76738 98954 31559 47986 06848 21507 60155

26152 15619 46603 96551 83952 72504 97556 74224 44859 08726

46286 55571 39459 48329 59223 61955 58590 22680 32722 33059

25868 27581 83049 25989 87956 80005 30420 78024 35990 10565

Por ejemplo, si la población es de 1,000 elementos, cada uno de ellos se identifica

con un número de tres dígitos. Suponiendo que se escogió al azar la casilla de la

columna 5 de la segunda fila, el primer número formado por cuatro dígitos será

979, y los subsiguientes serán: 981, 016, 810, 017, 214, 267, 199, 707, 445,

……….., los números de identificación de los 1,000 elementos estarían entre el

000 y el 999. Al terminarse la tabla, se continúa con el inicio de ésta, Si se llegara a

repetir un número, este se descarta y se continúa formando los necesarios.

2.9 Errores comunes en la aplicación de una encuesta

Al momento de recopilar los datos que serán procesados es susceptible de cometer

errores, así como durante el cómputo de los mismos. Aún y cuando la definición

de la muestra utilice el muestreo probabilístico, ésta está expuesta a errores de apli-

cación. Existen cuatro tipos de errores más comunes: de cobertura o sesgo, de no

respuesta, de muestreo y de medición.

Error de cobertura consiste en la exclusión de ciertos grupos de la población.

Para evitar este tipo de error es necesario contar con un marco apropiado de la po-

blación o una lista actualizada de todos los sujetos de donde se extraerá la muestra.

Error de no-respuesta o sesgo de no-respuesta resulta del fracaso de recolectar

datos sobre el total de los sujetos de la muestra.

Error de Muestreo refleja la variedad o las diferencias de oportunidad de muestra

a muestra basándose en la probabilidad de los sujetos que están siendo selecciona-

dos en las muestras particulares. El error de muestreo puede reducirse tomando

tamaños de muestra mayores, aunque esto incrementará el costo de aplicación.

Error de Medición se refiere a inexactitudes en las respuestas registradas que

ocurren debido a una mala formulación de las preguntas, al influjo del encuestador

sobre el encuestado o a las exageraciones o minimizaciones que hace el encuesta-

Si la muestra se selecciona correctamente, tendrá básicamente las mismas propie-

dades que la población de la cual fue extraída; pero si el muestreo se realiza inco-

rrectamente, entonces puede suceder que los resultados no signifiquen nada. Re-

cuerde el acrónimo GIGO. Existen dos maneras de resolver los problemas deriva-

dos de los errores de aplicación: (1) analizando cuidadosamente los datos y tratar

de recolectar los datos más confiables de aquellos individuos cuyas respuestas son

inusuales y (2) realizar una nueva muestra aleatoria que sustituya las que se descar-

taron.

Existen otros errores que no tienen nada que ver con la digitalización y que no son

tan fácilmente identificables. Algunos de estos errores son:

Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas

antes de comenzar a estudiar un problema, y existen muchas maneras en que una

perspectiva o estado mental pueda influir en la recopilación y en el análisis de la

información. En estos casos se dice que hay un sesgo cuando el individuo da mayor

peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso

extremo de sesgo sería la situación donde primero se toma una decisión y después

se utiliza el análisis estadístico para justificar la decisión ya tomada.

Datos no comparables: el establecer comparaciones es una de las partes más im-

portantes del análisis estadístico, pero es extremadamente importante que tales

comparaciones se hagan entre datos que sean comparables.

Proyección descuidada de tendencias: la proyección simplista de tendencias pa-

sadas hacia el futuro es uno de los errores que más ha desacreditado el uso del aná-

lisis estadístico.

2.10 Resumen.

En forma general, existen dos tipos de estudios estadísticos: estudios enumerativos

y estudios analíticos. Ambos sirven para la toma de decisiones, los primeros sobre

las características de una población y los segundos sobre las características de un

proceso.

El capítulo trató también sobre la recolección y presentación de datos para un estu-

dio estadístico. Lo primero que se definió fue que existen dos tipos de variable:

categórica y numérica, a su vez, las variables categóricas se pueden medir en una

escala nominal u ordinal, mientras que las variables numéricas se miden en una

escala cardinal (de intervalo o de relación). La medición cardinal o escalar son de

tipo discreto o continuo.

Una vez que se define el tipo de variables (datos) que se requieren para realizar el

estudio estadístico, es necesario identificar la fuente que los proporcione. Existen

cuatro fuentes para obtener los datos: uso de datos publicados, diseño de experi-

mento, por observación y realización de encuesta.

En la realización de estudios socio-demográficos, la forma más directa y rápida de

obtener los datos es a través de la realización de una encuesta, entendiendo a esta

como un conjunto de preguntas normalizadas dirigidas a una muestra representati-

va de población o instituciones, con el fin de conocer estados de opinión o hechos

específicos. Para la realización de la encuesta se requiere definir o conocer el

ámbito de estudio, el universo de estudio y definición de la muestra. Para definir

la muestra se utiliza el método no probabilístico y probabilístico, sea cualquiera

de los dos métodos, la definición de la muestra tiene riesgo de errores, los más

comunes son: error de cobertura o sesgo de selección, error de no respuesta o

sesgo de no respuesta, error de muestreo y error de medición.

2.11 Términos clave

Datos continuos

Datos discretos

Definición operacional

Encuesta

Error de cobertura

Error de medición

Error de muestreo

Error de no respuesta

Est. de Experimentación

Estudio analítico

Estudio de Observación

Estudio enumerativo

Fuente primaria

Fuente secundaria

Medición cardinal

Medición de intervalo

Medición de relación

Medición nominal

Medición ordinal

Muestra adecuada

Muestra de agrupación

Muestra estratificada

Muestra sistemática

Muestreo con reemplazo

Muestreo no probabilístico

Muestreo probabilístico

Muestreo sin reemplazo

Números aleatorios

Variable categórica

Variable numérica

1. Para cada inciso siguiente, indique si el estudio es enumerativo o analítico, ar-

gumente la elección.

a) La universidad requiere conocer el número de estudiantes inscritos en cla-

ses con horario anterior a las 9:00 hs.

b) Una empresa desea reducir el número de errores en el cálculo de pago de

horas extras.

c) La Universidad desea determinar si la asistencia total de alumnos inscritos

en clases que comienzan antes de las 9:00 horas aumenta o disminuye con

relación al tipo de materia impartida a esas horas.

d) La UADYCFHG desea determinar las razones de los estudiantes por las

cuales ha aumentado la cantidad de inscritos en la carrera de Negocios In-

ternacionales.

e) Una empresa desea realizar un estudio sobre cómo reducir el número de

errores en la facturación.

f) Una empresa desea saber el nivel de ingresos de sus clientes

g) Una empresa desea saber si el sistema de producción ha reducido el núme-

ro de piezas defectuosa con las mejoras de proceso instrumentadas.

h) Una empresa desea conocer el nivel de precios de mercado de los produc-

tos que comercializa.

i) Una empresa desea saber las características de preferencia de marca en

pasta dental.

j) La UAT desea conocer las intenciones de ingreso a la Universidad de los

estudiantes de preparatoria.

2. ¿Cuál es la diferencia entre una un estudio estadístico enumerativo y un estudio

estadístico analítico?

3. ¿Cuál es la diferencia entre una variable aleatoria numérica y una categórica?

4. ¿Cuál es la diferencia entre un dato discreto y dato continuo?

5. ¿Cuáles son los niveles de medición?

6. ¿Qué significa una definición operacional?

7. ¿Cuál es la diferencia entre una muestra probabilística y una no probabilística?

8. ¿Cuántos tipos de muestreo probabilístico existen?

9. ¿Cuál es la diferencia entre un muestreo simple con reemplazo y un muestreo

simple sin reemplazo?

10. ¿Qué tipo de errores más comunes se presentan en la definición de la muestra?

11. ¿Qué se requiere realizar para editar los datos en una hoja de cálculo electróni-

ca o en un paquete estadístico?

12. Determine en cada uno de los incisos si la variable es categórica o numérica. Si

es numérica determine si es discreta o continua.

a) Número de credencial de estudiante

b) Tipo de automóvil de la VW.

c) Cargo mensual, en pesos y centavos, del recibo de consumo de energía

eléctrica.

d) Lugar en que llegaron los corredores en la carrera universitaria.

e) Nivel de categoría de la planta docente.

f) Especialidad académica de los catedráticos.

g) Disponibilidad de efectivo para actividades de recreación.

h) Ingresos mensuales de los catedráticos.

13. Suponga que requiere editar la siguiente información estadística de los estu-

diantes de la UADYCFHG después de la segunda semana de clases, señale el

tipo de variable y el nivel y la escala de medición que le corresponde.

a. Matrícula

b. Edad

c. Género

d. Estado civil

e. Lugar de origen antes de ingresar a la Universidad

f. Situación laboral (empleado, desempleado, autoempleo)

g. Dependencia económica familiar (autónomo, paternal, otro)

h. Número de miembros de la familia

i. Ingresos familiares

j. Período de estudio (semestre que impera)

k. Carrera que estudia

l. Turno académico

m. Número de materias que cursa en el período actual

n. ¿Consideras importante contar con libros de texto?

o. Cantidad de dinero gastada en adquirir libros

p. Número de libros de textos con que cuenta (uno por materia)

q. Dispone de computadora personal

r. Número de horas de uso diario de computadora

s. Número de horas de uso diario de Internet

t. Gasto mensual en uso de Internet (conexión o uso de chat)

14. Elabore un cuestionario de aplicación en la UADYCS sobre un tema que sea de

su interés, como ausentismo, tabaquismo, alcoholismo, deportivismo, aprove-

chamiento escolar, métodos de enseñanza, etc.

2.13 Mapa conceptual de los estudios estadísticos.

Enumerativos Analíticos

Método estadístico

•nominal•ordinalCategóricos

•Cardinal (de intervalo –de relación): discretos -continuos

Numéricos

•Gobierno•Industria

•Instancias especializadas

Secundaria

•Experimentación•Observación

•EncuestaPrimaria

Fuente de datosElección del tema

Diseño de cuestionario

Ámbito de aplicación

Definición del universo

Definición de tipo de muestreo

Método de aplicaaciónPreparación de datos

Capítulo 3

Organización y presentación

gráfica de datos numéricos

**********************

Objetivo del

Capítulo

Mostrar como organizar y presentar en

tablas y diagramas los datos numéricos

3.1 Introducción

En los apartados anteriores se ha visto la importancia de aplicación del método

estadístico y la importancia de contar con datos de origen, confiables y suficientes,

a través del muestreo. Puesto que el muestreo ahorra tiempo, dinero y esfuerzo, se

reitera la conveniencia de utilizar la muestra de datos para la realización de estu-

dios estadísticos, sean enumerativos o analíticos (de proceso). Sin importar si los

datos corresponden a una muestra o a una población, cuando estos son en una can-

tidad mayor de 10, la mejor manera de interpretar sus valores es por medio de un

resumen y una representación gráfica.

Este apartado se trata sobre la presentación de datos. En particular se mostrará

cómo grandes series de datos numéricos pueden presentarse de una manera que

facilite su análisis. Las observaciones independientes pueden registrarse en una

forma ordenada o diagrama de tallo de hojas y luego presentarse en forma tabular,

como la distribución de frecuencias o en forma gráfica como histograma, polígono

de frecuencias o diagrama de Pareto.

Al término del capítulo, el alumno podrá comprender:

1. La digitalización de datos

2. Presentar los datos en forma resumida, ordenada e interpretativa.

3. La ventaja de construir el diagrama de Tallo y hojas.

4. La utilidad de agrupar los datos en clases.

5. Construir los diferentes tablas y diagramas de datos: histograma, polígono

de frecuencias o diagrama de Pareto.

3.2 Tabla de datos originales sin orden y ordenados

Cuando se recolecta una serie de datos, habitualmente se hace sin ningún orden, es

decir se capturan tal y como le llegan al capturista. Posterior a la captura, el analis-

ta arreglará los datos de acuerdo a sus necesidades. Generalmente la captura de

datos de una encuesta corresponde a un conjunto de registro que contienen, cada

uno de ellos, los datos que pertenecen a una misma entidad. Se le asigna automáti-

camente un número consecutivo (número de registro) que en ocasiones es usado

como índice, aunque lo normal y práctico es asignarle a cada registro un campo

clave nominal para su búsqueda.

En estadística, y concretamente en el contexto de una base de datos, un registro

representa un ítem único de datos implícitamente estructurados en una tabla (carac-

terísticas de los objetos o sujetos en estudio). En términos simples, una tabla de una

base de datos puede imaginarse formada de filas y columnas o campos. Cada fila

de una tabla representa un conjunto de datos relacionados, y todas las filas de la

misma tabla tienen la misma estructura. La estructura implícita de un registro y el

significado de los valores de sus campos exige que dicho registro sea entendido

como una sucesión de datos, uno en cada columna de la tabla. La fila se interpreta

entonces como una variable relacional compuesta por un conjunto de secuencias

ordenadas, cada una de las cuales consta de dos ítems: el nombre de la columna

relevante (dato) y el valor que esta fila provee para dicha columna.

Supongamos que una empresa está interesada en estudiar las características del

parque vehicular que circuló en los Estados Unidos en el año de 1970. Para ello

recopiló las características de los 30 automóviles más vendidos en ese año. Las

variables a estudiar son: rendimiento de millas por galón (mpg); centímetros cúbi-

cos del motor (engine); caballos de fuerza (horse); peso en libras (weight), tiempo

de aceleración de 0 a 60 millas/hora (accel), año de fabricación (year); origen de

fabricación (origin) y número de cilindros del motor (cylinder). Los datos obteni-

dos sin ordenar se presentan en la tabla 3.1

Tabla 3.1 Hoja de captura de registros sin ordenar

En este ejemplo lo que se trata de mostrar es que en un solo registro existen diver-

sas variables relacionadas y que es difícil realizar cualquier análisis en el orden con

que se capturaron los datos. Un primer análisis estadístico se podría realizar al or-

denar los datos en forma ascendente o descendente, es decir de menor a mayor o de

mayor a menor. En la tabla 3.2 se puede observar el cambio de posición de los

registros tomando en consideración el orden de los valores ascendentes de la varia-

ble mpg.

Tabla 3.2 Hoja de registros ordenada por una variable de interés

En este primer intento de análisis estadístico podemos observar los valores míni-

mos y máximos de la variable mpg. También se puede observar la relación directa

o inversa que existe entre las variables. Por ejemplo, se puede observar que a ma-

yor rendimiento, menor tamaño del motor, menor fuerza en caballos y menor peso

en libras.

Es importante señalar que cuando el número de registros es más grande y sobrepa-

sa más de una hoja de cálculo, este procedimiento es poco útil. Mientras mayor sea

el número de observaciones registradas más difícil es sacar provecho a la clasifica-

ción ordenada. En tales situaciones es útil agrupar los datos en un diagrama de tallo

y hojas, con el fin de estudiar las características de los datos.

3.3 Diagrama de tallo y hojas

Un diagrama de tallo y hojas separa el valor de los datos en un dígito guía y un

dígito gregario, los dos asociados representan el valor del dato. El diagrama de

tallo y hojas se puede construir desde la tabla de datos sin ordenar o desde la tabla

de datos ordenada. Dependiendo del grado de exactitud que requiere el estudio

estadístico, las cifras de los valores, siguiendo la metodología tradicional, es con-

veniente trabajar con dos o tres dígitos. Por ejemplo 2,356 libras se puede represen-

tar por 2.4 miles de libras; 50.726 toneladas por 51 toneladas.

Usando los datos sin ordenar de la tabla 3.1 se construye fácilmente el diagrama de

tallo y hojas. Observe que el primer registro tiene el dato de 18, el segundo de 15,

el tercero de 18…… Registrando todos los valores de la variable mpg sería:

Tallo & hojas

1 85867544454687545548

2 1421765453

El valor del tallo es:10

Cada hoja: 1 caso(s)

Número de casos: 30

Figura 3.1 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles sin ordenar (mpg). Fuente: tabla 3.1

Colocando los dígitos en forma ascendente de acuerdo a la tabla 3.2, el diagrama

arreglado quedaría de la siguiente forma:

Tallo & hojas

1 44444455555566778888

2 1124455667

El valor del tallo es:10

Cada hoja: 1 caso(s)

Número de casos: 30

Tal vez el valor de los datos está muy concentrado y sea conveniente incrementar

el número de tallos. Aquí lo que procede es dividir cada valor de tallo en valores

bajos (0 a 4) y valores altos (5 a 9)

3.4 Tabulación de datos numéricos: distribución de frecuencia

Utilizando los datos originales es posible construir tablas y diagramas que faciliten

el análisis estadístico, así, una tabla de mucha utilidad es la tabla de distribución de

frecuencias, en ella se disponen los datos en forma agrupada por categorías, orde-

nadas en forma ascendente o descendente. Para construir una tabla de frecuencias

debe ponerse atención a 3 conceptos fundamentales:

Figura 3.2 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada Fuente: tabla 3.2

Figura 3.3 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada y ampliando en número de tallos. Fuente: tabla 3.2

1. Seleccionar el número de agrupamientos, o clases.

2. Obtener un intervalo de clase de cada agrupamiento y

3. Establecer los límites de cada intervalo de clase

En forma general, dependiendo el número de observaciones, el número de clases de

intervalo no debe de ser menor de 5 y mayor de 15, ambos extremos dificultan la

interpretación. Cada clase o intervalo tendrá una amplitud igual.

Una manera para determinar la amplitud de cada agrupamiento o intervalo de clase,

es aplicando la relación del rango y el número de intervalos deseado. Considerando

los datos de la tabla 3.2, se observa que el rango de la variable mpg es 27-14 = 13.

Si se quisiera 6 tipos de clase, los valores de cada clase serían de 13/6= 2.16. Para

conveniencia y facilidad de lectura, el intervalo de clase seleccionado se redondea

a 2 mpg. Los límites de los diversos agrupamientos deben de establecerse de mane-

ra que incluyan todas las observaciones. Así, el primer intervalo de clase se esta-

blece desde mayor de 12 hasta menor o igual que 14, el segundo desde mayor de

14 hasta menor o igual que 16 etc. Estableciendo los límites de cada clase, de esta

manera las 30 observaciones se han registrado en 8 clases, como se puede observar

en la tabla 3.3 de distribución de frecuencia y porcentaje de la muestra.

Tabla 3.3 Distribución de frecuencias y porcentaje de la muestra

Clase Frecuencia porcentaje

12<x<=14 6 20.00

14<x<=16 8 26.66

16<x<=18 6 20.00

18<x<=20 0 0.00

20<x<=22 3 10.00

22<x<=24 2 6.66

24<x<=26 4 13.33

26<x<=28 1 3.33

La principal ventaja de utilizar la tabla de distribución de frecuencias es que vi-

sualmente se pueden detectar algunas características de la muestra, tales como el

alcance aproximado de las observaciones, que va desde 12 hasta 28 mpg, tendiendo

a agruparse en los valores de 12 a 18 mpg.

El hecho de agrupar los valores observados en clase, implica transformar una va-

riable de cardinal (de cociente o de intervalo) en una variable categórica ordinal de

orden débil que no se identifica los valores individuales dentro de un intervalo.

Para atenuar un poco esta desventaja, se acostumbra a utilizar el punto medio. El

punto medio de una clase (o marca de clase) es punto de la mitad de los límites de

cada clase y es representativo del valor de la clase. La tabla de distribución de fre-

cuencias sirve para dibujar tres importantes diagramas: el histograma o diagrama

de distribución de frecuencias, el polígono de frecuencias y el diagrama de Pareto.

3.5 Histograma o diagrama de distribución de frecuencias

El histograma es una gráfica de barras que permite describir el comportamiento de

un conjunto de datos en cuanto a su tendencia central, forma y dispersión. El histo-

grama permite que de un vistazo se pueda tener una idea objetiva sobre la calidad

de un producto, el desempeño de un proceso o el impacto de una acción de mejora.

La correcta utilización del histograma permite tomar decisiones no solo con base

en la concentración de valores, sino también con base en la dispersión y formas

especiales de comportamiento de los datos. El histograma se construye a partir de

la tabla de distribución de frecuencias.

Para evitar posibles anormalidades en la construcción del histograma se procede

seguir las siguientes instrucciones:

a. Determinar el rango de datos. La diferencia entre el dato máximo y el dato

mínimo.

b. Obtener el número de clases o barras y la longitud de clase. Se puede utilizar

los definidos en la tabla de frecuencias.

c. Construir los intervalos de clase con relación al paso anterior.

d. Obtener la frecuencia de cada clase. Se cuentan los datos que caen en cada

intervalo de clase.

e. Graficar el histograma: se grafican en barras, en las que su base es el interva-

lo de clase y la altura sean las frecuencias de las clases.

La grafica de frecuencias del ejemplo del rendimiento de los automóviles (mpg),

se observa en la figura 3.4

Figura 3.4 Histograma o gráfica de distribución de frecuencias

1412 16 18 20 22 24 26 28

Millas por galón

20% 20%

13.33%

26.66%

cuencia

Fuente: Tabla 3.3

Polígono de frecuencias

Otro gráfico utilizado para el análisis de datos es el polígono de frecuencias, el cual

se forma con la unión lineal de los puntos medios de cada clase. Dado que la unión

de los puntos medios es a través de rectas, el polígono se muestra a veces en forma

dentada. Sin embargo mientras mayor sea el número de observaciones y los inter-

valos de clase reducidos, este efecto tiende a suavizarse.

Figura 3.5 Polígono de frecuencias

1412 16 18 20 22 24 26 28

20% 20%

13.33%

26.66%

Millas por galón

Fuente: Tabla 3.3

Tabla y polígono de porcentaje acumulado

Estas herramientas de análisis de datos son de considerable importancia, porque

nos señalan cómo se concentran los valores de las observaciones. En el caso del

ejemplo, se puede observar que las primeras tres clases concentran 20 observacio-

nes, que en conjunto representan el 66.66%. Para construir la tabla de frecuencia y

porcentaje acumulado se parte de la tabla 3.3 de distribución de frecuencias y por-

centajes y se realiza el agregado de cada clase hasta la última, que terminará con el

número total de observaciones y el 100% acumulado.

Tabla 3.4 Distribución de frecuencias y porcentaje acumulado

Frecuencia Porcentaje

Clase Frecuencia acumulada porcentaje acumulado

12<x<=14 6 6 20.00 20.00

14<x<=16 8 14 26.66 46.66

16<x<=18 6 20 20.00 66.66

18<x<=20 0 20 0.00 66.66

20<x<=22 3 23 10.00 76.66

22<x<=24 2 25 6.66 83.33

24<x<=26 4 29 13.33 96.67

26<x<=28 1 30 3.33 100.00

El polígono de porcentajes acumulados, figura 3.6, se construye a partir de los

cálculos de la tabla 3.4, donde en el eje horizontal se registran los puntos medios

del intervalo de clase y en el eje vertical se registran las frecuencias o porcentajes

acumulados partiendo de cero.

Figura 3.6 Polígono de frecuencias y porcentajes acumulados

1412 16 18 20 22 24 26 28

66.66%

76.66%

83.33%

96.67%100%

46.66%

Millas por galón

Fuente: tabla 3.4

3.8 Diagrama de Pareto

El diagrama de Pareto u 80-20, se construye ordenando en una tabla de frecuencias

desde la clase que mayor número de observaciones tenga hasta la de menor. El

diagrama permite llevar a cabo el principio de Pareto (pocos vitales, muchos trivia-

les) es decir, que hay muchos problemas sin importancia frente a unos pocos gra-

ves. Hay que tener en cuenta que tanto la distribución de los efectos como sus po-

sibles causas no son de carácter lineal sino que el 20% de las causas totales hace

que sean originadas el 80% de lo efectos.

Tabla 3.5 Distribución de frecuencias y porcentaje acumulado de mayor a

menor frecuencia.

Siguiendo con el mismo ejemplo, y derivado de la tabla 3.5 se puede elaborar el

muy útil diagrama de Pareto.

Figura 3.7 diagrama de Pareto

14-16 12-14 16-18 24-26 20-22 22-24 26-28 18-20

26.66%

66.66%

79.99%

89.99%

96.65%

46.66%

Millas por galón

cuencia

porcentaje

Clase Frecuencia porcentaje acumulado

14<x<=16 8 26.66 26.66

12<x<=14 6 20.00 46.66

16<x<=18 6 20.00 66.66

24<x<=26 4 13.33 79.99

20<x<=22 3 10.00 89.99

22<x<=24 2 6.66 96.65

26<x<=28 1 3.33 99.99

18<x<=20 0 0.00 99.99

3.9 Resumen

El capítulo trató sobre el resumen de datos y representación gráfica de los mismos.

Al aplicar estadística a un problema científico, industrial o social, se comienza con

un proceso o una población a ser estudiada. Esta puede ser una población de perso-

nas en un país, de granos cristalizados en una roca o de bienes manufacturados por

una fábrica en particular durante un periodo dado. También podría ser un proceso

observado en varios instantes y los datos recogidos de esta manera constituyen una

serie de tiempo.

Por razones prácticas, en lugar de compilar datos de una población entera, usual-

mente se estudia un subconjunto seleccionado de la población, llamado muestra.

Los datos acerca de la muestra son recogidos por observación o por experimento,

como se pudo observar en el capítulo anterior. Los datos obtenidos ahora son agru-

pados por categorías. Los datos numéricos, dentro de un rango creado por la dife-

rencia longitudinal de los valores mínimo y máximo de la muestra, se agrupan por

clases de intervalo iguales. Con el fin de que no se traslapen los intervalos de clase,

se definen límites inferiores y superiores en cada intervalo de clase. Una vez deci-

dido, en base al rango de la muestra, en número de clases y el tamaño de intervalo,

se procede a realizar las tablas y diagramas de frecuencias simples o acumuladas.

Datos sin ordenar

Clasificación ordenada

Diagrama de tallo y hojas

Clase, límite de clase

Intervalo de clase

Tabla de distribución de frecuencias

Diagramas de distribución de fre-

cuencias: histograma, Polígono de

frecuencias, Diagrama de Pareto.

1. Explique la diferencia entre la tabla datos sin ordenar y ordenados

2. ¿Cuándo es más útil utilizar el diagrama de tallo y hojas que una tabla de

datos ordenada?

3. Explique la diferencia entre histograma de frecuencia, polígono de fre-

cuencia y polígono de frecuencia acumulado.

4. ¿Cuál es ventaja principal de uso del diagrama de Pareto.

5. Los datos de la siguiente tabla son los sueldos de una muestra aleatoria de

100 empleados con licenciatura en Negocios Internacionales egresados en-

tre el año 2000 y 2005.

24,300 82,500 22,500 23,550 57,000 30,300 38,850 36,150 35,550 20,100

24,750 54,000 48,000 35,100 40,200 28,350 21,750 110,625 45,150 24,000

22,950 26,400 55,000 23,250 21,450 27,750 24,000 42,000 73,750 25,950

25,050 33,900 53,125 29,250 21,900 35,100 16,950 92,000 25,050 24,600

25,950 24,150 21,900 30,750 45,000 27,300 21,150 81,250 27,000 28,500

31,650 29,250 78,125 22,350 32,100 40,800 31,050 31,350 26,850 30,750

24,150 27,600 46,000 30,000 36,000 46,000 60,375 29,100 33,900 40,200

72,500 22,950 45,250 30,750 21,900 103,750 32,550 31,350 26,400 30,000

68,750 34,800 56,550 34,800 27,900 42,300 135,000 36,000 28,050 22,050

16,200 51,000 41,100 60,000 24,000 26,250 31,200 19,200 30,900 78,250

a) Reduzca los datos a 2 dígitos y elabore un diagrama de tallo y hojas sin or-

denar y ordenado.

b) Forme una tabla de distribución de frecuencias (simple y acumulada) y de

porcentaje (simple y acumulada)

c) Elabore el histograma, el polígono de frecuencias y el diagrama de Pareto.

3.12 Mapa conceptual de organización y presentación de datos numéricos.

Digitalización de datos

(captura)

Orden ascendente

o descendente

Diagrama Tallo y hojas

Tabulación de datos

Histograma

Polígono de frecuencias

Diagrama de Pareto

Capítulo 4

Características de distribución

de datos numéricos

********************** Objetivo del

Capítulo

Comprender las características de los

datos numéricos representativas de la

población o de la muestra: tendencia

central, variación, forma) y sus medi-

ciones descriptivas de resumen

4.1 Introducción

Como se ha visto en los temas anteriores, la fase previa a cualquier estudio estadís-

tico es la recolección, organización y presentación de los datos. Los instrumentos

auxiliares para realizar esta tarea son básicamente las tablas de la base de datos, el

diagrama tallo y hojas, las tablas y diagramas de distribución de frecuencias relati-

vas y acumuladas. De aquí en adelante los temas a desarrollar estarán enfocados a

la elaboración de un resumen, descripción de las características de la distribución y

la interpretación de datos.

La concentración de datos numéricos de una variable de una población o muestra

aleatoria da lugar a tres principales clases de medidas del fenómeno en estudio:

medidas de posición, medidas de dispersión y medidas de deformación. Es necesa-

rio recordar que las características numéricas de la muestra se les denomina “es-

tadísticos” y las características de la población “parámetros”

1. Comprender el significado de la concentración de los datos numéricos a

través de las medidas de posición, medidas de dispersión y medidas de de-

formación.

2. Apreciar el valor de las técnicas de análisis de datos: los cinco puntos, la

gráfica de caja y sesgo.

4.2 Medidas de Posición de tendencia central

Las medidas de posición son unos estadísticos que nos sintetizan la información

sobre los datos que analizamos, facilitando su manejo. En lugar de trabajar con

toda la tabla de frecuencias, las medidas de posición resumen los valores significa-

tivos del conjunto de datos.

El término “promedio” se utiliza comúnmente para describir el valor de la parte

central de una distribución. Sin embargo, existen cinco diferentes medidas de ten-

dencia central que pueden tener diferente valor unas de otras, dependerá del grado

de concentración de los datos la que tenga mayor peso. Las cinco medidas de posi-

ción de tendencia central son: la media, la mediana, la moda, el rango medio y el

eje medio.

La media aritmética

La media aritmética, conocida también como media, es el promedio o medición

de tendencia central más utilizada. Se calcula sumando todos los valores de las

observaciones divididas entre el número de observaciones.

Por lo tanto, una muestra que contiene n observaciones X1, X2, X3, …….Xn, la

media aritmética x se puede calcular sumando todos los valores de X y dividiendo

entre el total de observaciones: x = ( X1 + X2 + X3 + …….Xn )/n, también se pue-

de expresar mediante la fórmula: x

Xii = 1

En donde:

n = tamaño de la muestra o número de observaciones.

Xi = diferentes valores que toma la variable aleatoria de la muestra.

x = media o valor promedio de la variable de interés de la muestra.

Si la distribución de valores en grandes y pequeños de la muestra fueran equivalen-

tes, la media aritmética es un valor representativo de la muestra; pero si hubiera

muchos valores pequeños y pocos grandes, viceversa, el valor de la media aritmé-

tica no sería muy representativo. Cuando existen valores extremos significativos la

media aritmética trasmite una representación distorsionada de los datos; así pues, la

media no sería el mejor promedio para describir las características de la muestra.

Para entender esta posible distorsión, a continuación se presentan dos pequeñas

muestras con la misma media pero características completamente distintas.

Suponga que, dentro de la misma base de datos se tomaron aleatoriamente dos

pequeñas muestras de 6 observaciones cada una, la media en ambas es igual, sin

embargo tienen diferentes características.

Tabla 4.1 Distribución de frecuencias de los valores de la variable mpg de dos

muestras aleatorias de 6 elementos c/u

Xi de A Xi de B

112 112

Considerando la fórmula para calcular la media, la suma del valor de las observa-

ciones entre el número de observaciones, es decir, x = 112/6 = 18.66 para ambas,

sin embargo la diferencia de características se observa en los siguientes gráficos,

denominados Escala de puntos.

Fig. 4.2 Distribución de los valores de la muestra “A”

14 16 18 20 22 24 26

Fig. 4.3 Distribución de los valores de la muestra “B”

14 16 18 20 22 24 26

De hecho los datos de la muestra “A” son bastante parecidos y se agrupan alrede-

dor de la media de la muestra, en este caso, la media es la medida descriptiva pro-

medio apropiada. Por otro lado, los datos de la muestra “B” están muy dispersos y

alejados de la media, por lo que ésta no es representativa de las características de la

muestra. El significado de dispersión se estudiará más adelante.

La mediana

La mediana es el valor que corresponde a la observación que se encuentra en la

mitad del +

forma ascendente o descendente; en seguida, se localiza el punto de posición me-

dio y el valor de ese punto corresponde al valor de la mediana. Si el número de

observaciones es impar, la localización del punto medio se determina utilizando la

fórmula: (n + 1)/2.

Si el número de observaciones es par, el punto de posición se encuentra entre las

dos observaciones medias de la clasificación ordenada. El valor de la mediana co-

rresponde al valor promedio de estas dos observaciones.

Muestra de tamaño impar. Suponga que en la muestra “A” del ejemplo anterior,

en lugar de seis observaciones se realizaron cinco, con los siguientes valores:

16 17 18 21 22

1 2 3 4 5

Aplicando la fórmula (n + 1)/2 = 3; lo que significa que la mediana se localiza en

la observación número 3 y tiene un valor de 18.

Muestra de tamaño par. Para el ejemplo de la muestra “B”, aplicando la fórmula

(n + 1)/2, la mediana se localiza en (6 + 1 )/2 = 3.5, es decir entre las observaciones

3 y 4. El valor de la mediana es igual al promedio de las dos observaciones, (17 +

18)/2 = 17.5

14 15 17 . 18 22 26

1 2 3 . 4 5 6

La moda

La moda es el valor de las observaciones que aparecen con más frecuencia. Se

obtiene fácilmente de una clasificación ordenada. La moda no se ve afectada por la

ocurrencia de valores extremos, sin embargo sólo se utiliza para propósitos descrip-

tivos dado que es el valor más variable de una serie de muestras, que otras medi-

ciones de tendencia central. En el caso de la muestra “A” la moda es 18, es el único

valor que se repite. En el caso de la muestra “B” no hay moda ya que ningún valor

se repite.

El rango medio

El rango medio es una medida de posición de tendencia central que se obtiene al

promediar los valores extremos de las observaciones, es decir la de menor y la de

mayor valor. Rango medio = (Xmenor+Xmayor)/2

Para el caso de la muestra “A”

16 17 18 21 22

1 2 3 4 5

Rango medio “A” (16 + 22)/2 = 19

Para el caso de la muestra “B”

14 15 17 18 22 26

1 2 3 4 5 6

Rango medio “B” (14 + 26)/2= 20

En el ejercicio anterior, el rango medio de la muestra “A” es igual a (16 + 22)/2 =

19, dado que los valores de la muestra “A” son muy homogéneos y cercanos al

valor de la media, el valor del rango medio está muy próximo al valor de la media.

En el caso de la muestra “B” el rango medio es igual a (14 + 26)/2 = 20. El rango

medio se ve afectado significativamente por la existencia de valores muy extremos

dado que sólo se consideran éstos.

Eje medio

Una medida de tendencia central que no se ve afectada por los valores extremos es

el eje medio. Para conocer el valor del eje medio, primero es necesario localizar las

posiciones de los valores del 1er cuartil y 3er cuartil, éstos se localizan al término

de contar el 25% y el 75% del número de observaciones, respectivamente. El eje

medio se obtiene de promediar esos dos valores. Para identificar los valores de los

cuartiles se utilizan las siguientes fórmulas:

Cuartil 1 = Q1 = valor correspondiente a la posición 1/4(n + 1) de las observa-

ciones ordenadas.

Cuartil 3 = Q2 = valor correspondiente a la posición 3/4(n + 1) de las observa-

ciones ordenadas.

Para estimar el valor de las observaciones del 1er y 3er cuartil, se toma el valor

más próximo a la posición calculada, si ésta se encuentra en el punto medio de dos

observaciones, se toma el valor promedio. Las siguientes gráficas, tomando los

datos de la muestra “B” tratarán de facilitar el entendimiento del cálculo del valor

del eje medio.

Q1 = valor correspondiente a la posición 1/4(6 + 1) de las observaciones orde-

nadas, igual a 1.75, el valor más próximo a la posición 1.75 es 15.

Q3 = valor correspondiente a la posición 3/4(6 + 1) de las observaciones orde-

nadas, igual a 5.25, el valor más próximo a la posición 5.25 es 22.

14 15 17 18 22 26

1 . 2 3 4 5 . 6

Número de observaciones = 6

Eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5

Como se puede observar, los valores extremos (14) y (26) no afectan al cálculo del

valor del eje medio.

4.3 Medidas de dispersión: varianza y desviación estándar.

Otra de las características de la distribución de las observaciones es que tanto se

acercan o se alejan del valor de la media, como se observó en los ejemplos de las

medidas de posición de las muestras “A” y “B”, pueden tener la misma tendencia

central pero diferir en términos de variación. Los valores de la muestra “A” son

mucho menos variables que los de la muestra “B”. Existen cinco mediciones de

variación: el rango, el rango intercuartil, la varianza, la desviación estándar y

el coeficiente de variación.

El rango (alcance)

El rango es la medida de variación más fácil de calcular de un conjunto de datos

ordenados. El rango es recorrido que existe entre la observación de mayor valor y

la de menor valor.

Rango = Xmayor – Xmenor

Usando los datos de la muestra “B”

14 15 17 18 22 26

El rango es 26 -14 = 12 mpg

El rango mide la variación total de las observaciones, se sabe que cualquier valor

de la muestra tendrá un valor dentro de ese rango. Aunque es una medición simple

y fácil cálculo, el rango no consigue describir realmente el grado de variación entre

el valor menor y el mayor.

El rango intercuartil

El rango intercuartil es una medida de variación entre los valores de las observa-

ciones que se encuentran al final del 25% y 75% del número de las observaciones.

Es decir la diferencia de valor entre el 3er cuartil y el 1er cuartil. Siguiendo con la

misma muestra de datos “B”. La manera de calcularlo es igual a:

Rango intercuartil = Q3-Q1

14 15 17 18 22 26

1 . 2 3 4 5 . 6

Número de observaciones = 6

Q1 = valor correspondiente a la posición (6 + 1)/4 de las observaciones ordenadas,

igual a 1.75, el valor más próximo a la posición 1.75 es 15.

Q3 = valor correspondiente a la posición 3(6 + 1)/4 de las observaciones ordenadas,

igual a 5.25, el valor más próximo a la posición 5.25 es 22.

El rango intercuartil es 22-15 = 7

Esta medición considera la dispersión entre los valores extremos que se encuentran

en la parte media de la muestra, por lo tanto, no se ve influenciada por los valores

extremos. El rango intercuartil abarca el 50% de las observaciones más cercanas a

la media.

La varianza y la desviación estándar

Las mediciones de rango y rango intercuartil, aunque son muy fáciles de calcular y

entender su significado no son suficientemente descriptivos ya que no consideran

la mayor parte de las observaciones, sólo consideran dos valores en cada caso. La

varianza y la desviación estándar son medidas que sí consideran al total de los va-

lores de las observaciones.

La varianza de la muestra o varianza muestral es muy aproximada al promedio de

las diferencias de las observaciones con respecto a la media al cuadrado. Así, para

la muestra que tiene n observaciones, X1, X2, X3,…………. Xn, la varianza muestral, S2,

puede calcularse como:

S2 = [(X1 - x

+ (X2 - x )

+ (X3 - x )2…….+ (Xn - x )2

Utilizando la notación matemática de sumatoria de las diferencias de las observa-

ciones con respecto a la media, se puede expresar de la siguiente forma:

Donde x = a la media aritmética;

n = el tamaño de la muestra

Xi = valores iterativos de la variable X

El cálculo de la varianza se hace del promedio de las diferencias al cuadrado ya

que, en una distribución de tendencia central, la sumatoria de las diferencias linea-

les se hacen cero o un mínimo, mientras que las diferencias al cuadrado son agre-

gativas. Para ver la diferencia, nuevamente se tomará el conjunto de datos de la

muestra “B” que se ha venido utilizando.

14 15 17 18 22 26

1 . 2 3 4 5 . 6

Utilizando el cuasi promedio de diferencias lineales de la muestra “B” con una

media x = 18.66 mpg

[(14 - x ) + (15 - x ) + (17 - x ) + (18 - x ) + (22 - x ) + (26 - x )]/ n-1 =

[(14–18.66) + (15-18.66) + (17– 8.66) + (18–18.66) + (22 – 18.66)+(26–18.66)]/ 5

= [-10.64 + 10.68] = 0.04/5 = 0.008…casi cero

Mientras que utilizando el casi promedio de las diferencias al cuadrado se obtiene:

S2 = [(14 - x )2

+(15 - x ) 2 + (17 - x )2

+(18 - x ) 2 +(22 - x )2

+(26 - x )2]/ n-1

S2=[(14–18.66)

2+(15-18.66)

2+(17–8.66)

2+(18–18.66)

2+(22-18.66)

2+(26–18.66)

[(-4.66)

2 + (-3.66)

2 + (-1.66)

2 + (-0.66)

2 + (3.34)

2 + 7.34)

2 ]/ 5 =

S2 = [21.72+13.40+2.76+0.44+11.16+53.88]/5 = 103.3/5 = 20.66

Otra manera de apreciar la diferencia de cálculo es a través de la siguiente tabla:

Tabla 4.2 suma de diferencias del valor de las observaciones con respecto a la

media. (simples y elevadas al cuadrado)

14 -18.66 -4.66 21.72

15 -18.66 -3.66 13.40

17 -18.66 -1.66 2.76

18 -18.66 -0.66 0.44

22 -18.66 3.34 11.16

26 -18.66 7.34 53.88

0 103.33

Xi (Xi-X) (Xi-X)2

La desviación estándar de la muestra simplemente se calcula sacando la raíz cua-

drada de la varianza, cuyo símbolo es s. Puesto que los cálculos de la varianza se

realizaron elevando al cuadrado las diferencias, ésta no podrá ser nunca negativa.

Mientras que la varianza es casi el promedio de las diferencias cuadradas del valor

de las observaciones con respecto a la media, la desviación estándar es casi el

promedio de los valores absolutos de las diferencias de las observaciones con res-

pecto a la media.

La varianza y la desviación estándar miden la dispersión promedio que existe entre

el valor de la media y el valor de las observaciones. La varianza es útil para ciertos

procesamientos de datos, sin embargo, su cálculo da como resultado unidades cua-

dradas: metros cuadrados, kilogramos cuadrados, pesos cuadrados, etc. unidades

poco prácticas en el análisis de datos. La desviación estándar, dado que su cálculo

arroja unidades lineales, es la medida de dispersión de mayor utilidad,: metros,

kilos, pesos, que son las unidades de medida originales de las observaciones.

En la muestra “B”, con una varianza de 20.66 mpg2, tiene una raíz cuadrada de

5.54 mpg, que es igual a la desviación estándar, lo que significa que el total de las

observaciones distan en promedio ±5.54 mpg del valor de la media. Esto nos dice

que el valor promedio de las observaciones menores se sitúan a -5.54 unidades del

valor de la media y que el valor promedio de los valores mayores se sitúa a +5.54

unidades. Si la media tiene un valor de 18.66 mpg; el promedio de los valores me-

nores se sitúa en (18.66 – 5.54) =13.12 mpg y el valor promedio de los valores

mayores en (18.66 + 5.54) = 24.2 mpg.

Coeficiente de variación

El coeficiente de variación, a diferencia de las anteriores medidas de dispersión, es

una medida relativa y describe la relación del valor del promedio de las desviacio-

nes con respecto a la media, es decir la desviación estándar entre la media:

Coeficiente de variación = CV = S/ x Regresando a los datos de la muestra “B” tenemos que:

Coeficiente de variación = CV = (5 .5 4 )

1 8 .6 6 = .2968

Lo que significa que los valores mayores o menores de la media se desvían

aproximadamente un 30% del valor de la media.

Interpretación de las medidas de dispersión

Las medidas de dispersión: el rango, el rango intercuartil, la varianza y la desvia-

ción estándar miden el grado de esparcimiento de las observaciones entre ellas y

con relación a un valor central, la media. Mientras más propagados o dispersos

estén los valores, mayor será el valor de las medidas de dispersión. Mientras más

homogéneos sean los valores, menor serán estas mediadas. Si todos los valores de

las observaciones fueran iguales, todas las medidas de dispersión serían iguales a

4.4 Análisis de 5 puntos y gráfica de caja de sesgo

Después de conocer las principales propiedades de distribución de un conjunto de

datos numéricos: tendencia central, forma y medidas de variación, es posible,

para darnos una idea rápida de la forma de distribución, realizar un resumen de

estas características a través de una gráfica que considere a dos medidas de tenden-

cia central (la mediana y el rango medio) y dos medidas de variación (el rango y el

rango intercuartil)

Xmenor Q1 mediana Q3 Xmayor

Para los datos de la muestra “B”

14 15 17 18 22 26

Xmenor = 14; Xmayor = 26

Q1 = al valor de la posición de (n+1)/4= (6+1)/2 = 1.75 casi 2; el valor que corres-

ponde a casi 2 es 15, por lo tanto Q1= 15

Q3 = al valor de la posición de 3(n+1)/4= 3(6+1)/4 = 5.25 casi 5; el valor que

corresponde a casi 5 es 22, por lo tanto Q3= 22

Mediana = al valor que se localiza a la mitad de las observaciones = (n+1)/2 =

(6+1)/2 = 3.5, por lo tanto, el valor que le corresponde es 17.5, es decir el

promedio del valor de las observaciones con valor 17 y 18

14 16 18 20 22 24 26

Se puede observar el sesgo hacia la derecha, es decir, la media es mayor que la

mediana, lo que significa que el mayor peso de las observaciones se encuentra a la

derecha.

Figura 4.4 distribuciones examinadas a través de la gráfica de caja y sesgo

Mmediana Mmediana = media

Distribución equilibrada Distribución sesgada a la derecha Distribución sesgada a la izquierda

mediaMmedia Mediana

Cuando los valores de las observaciones están claramente sesgadas a la derecha o a

la izquierda, como se observa en la figura anterior, las longitudes de los sesgos

pueden variar significativamente y no es posible que la mediana se localice al cen-

tro de la caja.

En la distribución equilibrada, el número y peso de los valores menores y mayores

son iguales. En la distribución sesgada a la derecha, lo que significa es que el ma-

yor número de observaciones se encuentran agrupadas en el extremo inferior; el

75% de las observaciones se encuentran entre el extremo menor y el final de la caja

(3er cuartil). En la distribución sesgada a la izquierda, lo que significa es que el

mayor número de observaciones se encuentran agrupadas en el extremo superior; el

75% de las observaciones se encuentran entre el inicio de la caja (1er cuartil) y el

extremo superior.

4.5 Medidas de deformación

Una vez iniciado el análisis estadístico de resumen de la información, para lo cual

hemos estudiado las medidas de posición y dispersión de la distribución de una

variable, necesitamos conocer más sobre el comportamiento de la distribución de la

misma. No podemos basar nuestras conclusiones únicamente en expresiones que

vengan dadas en términos de medidas de posición y dispersión. Si bien intentamos

generalizar el comportamiento del colectivo que sea objeto de nuestro estudio, para

lo cual las medidas de posición son nuestro mejor instrumento, no debemos proce-

der a una interpretación que implique un comportamiento colectivo uniforme,

constante e igual a la medida de posición en cuestión con un error dado por la co-

rrespondiente medida de dispersión.

Cualquier conjunto de datos tienden a distribuirse de una forma simétrica o asimé-

trica con respecto a la media. Cuando las observaciones se distribuyen en forma

simétrica, significa que el número de observaciones menores es igual al número de

observaciones mayores y la suma de las diferencias de los valores con respecto a la

media es igual a cero, (Xi- x ) = 0

Otra característica es que la media y la mediana son iguales.

La simetría perfecta es una condición teórica difícil de observar en la realidad. Lo

común es que estas observaciones tiendan a acumularse más a un lado del centro de

recorrido, sea a la izquierda o a la derecha. Para describir la simetría de distribu-

ción de los valores de las observaciones, sólo basta comparar la media y la media-

na. Si son iguales, prácticamente se considera una distribución simétrica o normal;

si la media excede a la mediana, los datos pueden describirse como de sesgo posi-

tivo o sesgada a la derecha; cuando la media es excedida por la mediana, los datos

están generalmente sesgados a la izquierda o sesgo negativo. Esto es:

Media = Mediana: simetría o de sesgo cero

Media > mediana: sesgo positivo o derecho

Media < mediana: sesgo negativo o izquierdo

Figura 4.3 Formas de distribución

Mmediana Mmediana = media MmediaMmedia Mediana

La asimetría es más ostensible al analizar la representación gráfica de la distribu-

ción, sin embargo, las medidas de forma de una distribución se basan en su repre-

sentación gráfica, sin llegar a realizar la misma.

Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis

o apuntamiento.

Medidas de asimetría más comunes.

Las medidas de asimetría tienen como finalidad el elaborar un indicador que permi-

ta establecer el grado de simetría (o asimetría) que presenta una distribución, sin

necesidad de llevar a cabo su representación gráfica.

Coeficiente de asimetría de Fisher: ahora se intenta buscar una medida que recoja

la simetría o asimetría de una distribución. Si la distribución es simétrica, el eje de

simetría de su representación grafica será una recta paralela al eje de ordenadas,

que pasa por el punto cuya abscisa es la media aritmética. Por ello, cuando la dis-

tribución es asimétrica, referiremos los valores de la distribución a este promedio.

Si una distribución es simétrica, existe el mismo número de valores a la derecha

que a la izquierda de la media x , y por tanto el mismo número de desviaciones

con signo positivo que con signo negativo, siendo la suma de desviaciones positi-

vas igual a la suma de las negativas. Podemos partir, de las desviaciones (Xi - x ) elevadas a una potencia impar para no perder los signos de las desviaciones.

Lo más sencillo sería tomar como medida de asimetría el promedio de estas des-

viaciones, elevadas a la potencia impar más simple (que es tres), es decir, tomaría-

mos como medida de asimetría el momento de orden tres centrado en la media.

Pero, de hacer esto, esta medida vendría expresada en las mismas unidades que las

de la variable elevadas al cubo, por lo que no es invariante ante un cambio de esca-

la. Para conseguir un indicador adimensional, debemos dividir la expresión anterior

por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el

cubo de la desviación estándar, obteniéndose así el coeficiente de asimetría de R.

A. Fisher, cuya expresión es:

Si g1 =0 la distribución es simétrica,

Si g1 >0 la distribución es asimétrica positiva (a derecha), y

Si g1 < 0 la distribución es asimétrica negativa (a izquierda).

Tabla 4.3 Momentos m1, m2 y m3: (Xi- x ), (Xi- x )2, (Xi- x )3

Xi ni x Xi- x (Xi- x )2 (Xi- x )3 (Xi- x )2*ni (Xi- x )3*ni

De la fórmula: (1/30 * 1690.66)/(1/30 * 567.37)2/3

= 56.35/82.25 = 0.6851

La distribución es asimétrica a la derecha, es decir, existe mayor número de datos a

la izquierda.

Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones

campaniformes, unimodales y moderadamente asimétricas el coeficiente definido

como Ap = ( x - Mo) /σ, donde Mo es la moda.

Como en una distribución campaniforme simétrica x = Mo = Me, si la distribución

es asimétrica positiva o a derechas, x se desplaza a la derecha de la moda, y por

tanto, x - Mo > 0. En el caso de distribución asimétrica negativa la media se sitúa

por debajo de Mo, por lo que el valor x - Mo < 0.

La desviación estándar que aparece en el denominador no modifica el signo de la

diferencia x - Mo y sirve para eliminar las unidades de medida de dicha diferencia.

Así tendremos que si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución

es asimétrica positiva y si Ap < 0 la distribución es asimétrica negativa.

Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y

la mediana, y viene dado por la expresión Ab = (Q3 + Q1 - 2Me)/(Q3 + Q1). Se

cumple que si Ab = 0 la distribución es simétrica, si Ab > 0 la distribución es

asimétrica positiva y si Ab < 0 la distribución es asimétrica negativa. Q3 y Q1 son

los cuartiles tres y uno respetivamente.

Coeficiente Curtosis o de apuntamiento

El coeficiente curtosis define la distribución de frecuencias en la zona central de la

misma. La mayor o menor concentración de frecuencias alrededor de la media y en

la zona central de la distribución dará lugar a una distribución más o menos apun-

tada. Por esta razón a las medidas de curtosis se les llama también de apuntamiento

o concentración central.

En la distribución normal se verifica que m4 = 3σ4 siendo m el momento de orden 4

respecto a la media y σ la desviación estándar. Si consideramos la expresión g2=

(m4/σ4) - 3, su valor será cero para la distribución normal. Por ello, como coefi-

ciente de apuntamiento o curtosis se utiliza la expresión:

Del ejemplo anterior:

Tabla 4.4 Momentos m1, m2 y m4: (Xi- x ), (Xi- x )2, (Xi- x )4

Xi ni x Xi- x (Xi- x )2 (Xi- x )4 (Xi- x )2*ni (Xi- x )4*ni

De la fórmula:

[(1/30 * 21,082.58)/ (1/30 * 567.37)2]-3 = -1.03

Tomando la normal como referencia, diremos que una distribución puede ser más

apuntada que la normal (es decir, leptocúrtica) o menos apuntada (es decir, pla-

ticúrtica). A la distribución normal, desde el punto de vista de la curtosis, se le

llama mesocúrtica.

Una distribución es:

mesocúrtica (apuntamiento igual al de la normal) cuando g2 = 0,

leptocúrtica (apuntamiento mayor que el de la normal) si g2 > 0,

platicúrtica (apuntamiento menor que el de la normal) si g2 < 0.

4.6 Cálculo de mediciones descriptivas de la población

Para explicar el cálculo e interpretación de las medidas descriptivas de posición de

tendencia central, forma y dispersión, se han calculado los estadísticos de los datos

de una muestra: “A” y “B”. Si se quisiera hacer un estudio descriptivo con mayor

exactitud, sería a través del cálculo de los parámetros de la población.

La media de la población, con símbolo µ, se calcula con la fórmula:

N = tamaño de la población

Xi = diferentes valores que toma la variable aleatoria de la población.

f = frecuencia o repetición de valores de cada Xi.

La moda, el rango medio y el eje medio de la población se calculan igual

como se explicó en los apartados anteriores.

La varianza y la desviación estándar de la población se simboliza con la le-

tra griega σ2 y σ respectivamente. Se calcula mediante la fórmula:

∑ ∑n n

( (X i X iσ

2 = σ =

N N- -) )

i= 1 i= 1

El coeficiente de variación, señala el grado de dispersión relativa entre la

desviación estándar y el valor de la media Cv = (σ/μ)

Con los datos de la tabla 3.2, sin agrupar, se obtiene la siguiente tabla de distribu-

ción de frecuencias de la población de 30 vehículos más vendidos en 1970:

Tabla 4.5 Distribución de frecuencias de los valores de la variable mpg

Aplicando las fórmulas tenemos los siguientes resultados:

Media: µ = , µ= 553/30 = 18.43 mpg.

Mediana: punto de posición = (N +1)/2 = (30 +1)/2 = 15.5 El valor de la mediana,

se toma del valor promedio de las posiciones 15 y 16 de la tabla 4.3, que corres-

ponde a los valores de 17 y 17. El promedio de los dos valores es igual a 17.

Moda: el valor que más aparece en las observaciones es el 15 mpg.

Rango medio: rango medio = (Xmenor + Xmayor)/2 = (14 + 27)/2 = 20.5

Q1: punto de posición 1/4(N +1) = 1/4(30 +1)/4 = 7.75, es decir, la posición 8,

cuyo valor es igual a 15 mpg.

Q3: punto de posición 3/4(N +1) = 3/4(30 +1) = 23.25, es decir, la posición 23

cuyo valor es igual a 22 mpg.

Eje medio: eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5

Rango (alcance): rango = Xmayor – Xmenor = 27 – 14 = 13

Alcance intercuartil; Q3-Q1 = 22 -15 = 7

Varianza:

(X iσ

i= 1 = [(14 – 18.43)

2 + (15 – 18.43)

2 + (16 – 18.43)

2 + ...(27 –

18.43)2 ]/30 = 19.56

Desviación estándar:

(X iσ =

= 4.42

Coeficiente de variación: σ/µ = 4.42/18.43 = 23.98

Resumen de cinco puntos y caja y sesgo:

Xmenor Q1 mediana Q3 Xmayor

14 15 17 22 27

14 16 18 20 22 24 26 27

Entre los valores de rendimiento mpg de los 30 automóviles más vendidos en el

año 1970, dado que la media excede a la mediana, 18.43 vs 17, se puede considerar

como sesgada a la derecha. Conclusión similar se obtiene de observar la gráfica de

caja y sesgo.

Tabla 4.4 Comparación de medidas de la muestra “B” y de la población.

Medición muestral población

(n= 6) (N= 30)

Media 18.66 18.43

Mediana 17.5 17

Moda no 14 y 15

Xmenor 14 14

Xmayor 26 27

Rango medio 20 20.5

Eje medio 18.5 18.5

Rango (alcance) 12 13

Rango intercuartil 7 7

Varianza 20.66 19.56

Desviación estándar 5.54 4.42

Coef. de variación 29.68 23.98

Forma sesgo der. sesgo der.

Se observa que los valores de medición descriptivos de la muestra y de la pobla-

ción son bastante similares aún y cuando la muestra es muy pequeña. En la prácti-

ca, es raro realizar estudios con muestras tan pequeñas, aquí lo que se trató es de

hacer un ejercicio que facilitara el entendimiento de la Estadística descriptiva.

Cálculo de mediciones descriptivas de datos agrupados.

Cuando en la realización del estudio estadístico se utiliza fuente secundaria de da-

tos, es decir revistas, censos, periódico o publicaciones especializadas, generalmen-

te no se dispone de datos originales. La mayoría de las veces lo que se obtiene de

las fuentes secundarias son las características de agrupados o estratificados. En esta

situación, donde los datos originales no están disponibles, las medidas descriptivas

pueden estimarse de una manera aproximada.

Aunque existen diversas fórmulas para calcular las diferentes medidas de tendencia

central y de variación cuando se dispone de datos agrupados, dado que son aproxi-

maciones, es más fácil para su estimación utilizar los diagramas de frecuencias

relativas y acumuladas para su cálculo. A manera de ejercicio, se supone que sólo

se cuenta con los datos agrupados de la tabla 3.4.

Tabla 4.5 distribución de frecuencia de datos agrupados

Frecuencia Porcentaje

Clase Frecuencia acumulada porcentaje acumulado

12<x<=14 6 6 20.00 20.00

14<x<=16 8 14 26.66 46.66

16<x<=18 6 20 20.00 66.66

18<x<=20 0 20 0.00 66.66

20<x<=22 3 23 10.00 76.66

22<x<=24 2 25 6.66 83.33

24<x<=26 4 29 13.33 96.67

26<x<=28 1 30 3.33 100.00

Figura 4.5 Polígono de porcentajes

1412 16 18 20 22 24 26 28

20%20%

13.33%

26.66%

Fig. 4.6 Polígono de porcentajes acumulado

menorX

16 18 20 22 24 26 28

66.66%

76.66%

83.33%

96.67%100%

46.66%

Millas por galón

Utilizando visualmente la figura 4.6, diagrama de porcentaje acumulado, fácilmen-

te se puede estimar el valor de la mediana, ésta se localiza aproximadamente tra-

zando una línea horizontal del 50% del eje vertical (porcentaje) hasta que cruce la

curva de porcentaje acumulado, de ahí se traza una línea vertical hasta el eje hori-

zontal de los valores de la variable “millas por galón”. Aproximadamente el valor

de la mediana es 15.5 mpg. De la misma forma se puede aproximar el valor del

primer cuartil y del tercer cuartil; Q1 = 13.2 y Q3 = 20.5 de éstos valores se calcula

el rango intercuartil aproximado a 5.5. El rango se calcula con los valores prome-

dio de la primera clase y de la última, es decir 13 y 27 mpg, utilizando la fórmula

rango = Xmayor – Xmenor resulta 27 – 13 = 14

Desafortunadamente la media, la varianza, la desviación estándar y el coeficiente

de variación no pueden calcularse una vez que los datos se han agrupado, sin em-

bargo en algunas situaciones pueden realizarse aproximaciones útiles. Si los datos

fueran perfectamente simétricos, la media es igual a la mediana, al rango medio y

al eje medio; si fueran aproximadamente simétricos, la mejor aproximación sería

un promedio de las tres. La desviación estándar podría aproximarse como el pro-

medio entre un sexto del rango y tres cuartos del rango intercuartil. Siguiendo con

el mismo ejemplo, se tiene que la mediana es igual a 15.5; el rango medio es igual

a (Xmenor + Xmayor )/2 = (27 +13)/2 = 20; y el eje medio es igual a (Q1 + Q3) = (13.2

+ 20.5)/2 = 16.85; el promedio de estas tres medidas centrales es de (15.5 + 20 +

16.85)/3 = 17.45

La desviación estándar aproximada sería de (rango/6 + 3 rango intercuartil/4)/2 =

(14/6 + 3*7/4) = 3.79; varianza (3.79)2 = 14.36

La tabla 4.6 presenta una comparación entre el resumen de las medidas descripti-

vas reales obtenidas de los datos sin procesar, aplicando las fórmulas explicadas en

los capítulos 3 y 4 y las medidas aproximadas de los datos agrupados obtenidas a

través de distribución de frecuencias y distribución de frecuencias acumulada.

Tabla 4.6 Comparación de medidas descriptivas de la variable mpg de la po-

blación (cálculo exacto) y datos agrupados.

Medición datos datos

población agrupados

Media 18.43 17.45

Mediana 17 15.5

Moda 15 no

Xmenor 14 13

Xmayor 27 27

Rango medio 20.5 20

Eje medio 18.5 16.85

Rango (alcance) 13 14

Rango intercuartil 7 7

Varianza 19.56 14.36

Desviación estándar 4.42 3.79

Coef. de variación 23.98 21.71

Forma sesgo der. sesgo der.

4.7 Uso de la desviación estándar.

Existen muchas variables asociadas a fenómenos naturales que se distribuyen en

forma equilibrada, con respecto a la media. En forma general, basados en los mo-

delos matemáticos de Gauss y Bienaymé & Chebyshev, se estima que dos de cada

tres observaciones se encuentran a una distancia de 1 desviación estándar de la

media (es decir el 67% del total de las observaciones y aproximadamente el 95%

de las observaciones están contenidas en una distancia de 2 desviaciones estándar

alrededor de la media.

A mediados del siglo XIX, en forma separada, los matemáticos Bienaymé y Che-

byshev encontraron, que sin importar cómo se distribuye una serie de datos de una

variable aleatoria, la probabilidad de que las observaciones estén distanciadas de su

media en más de k veces la desviación típica, es menor o igual que 1/k2, por lo que,

la agrupación alrededor de la media está dado por la ecuación (1 - 1/k2), para datos

de cualquier distribución, se tiene que;

• Al menos [1 – (1/22)] *100% = 75.0% de las observaciones están conteni-

das dentro de una distancia ±2 desviaciones estándar alrededor de la media.

Aunque el cálculo Bienaymé-Chebyshev se aplica a cualquier tipo de distribución

de datos, más adelante se estudiará, en teoría de probabilidades, que si los datos

forman la distribución normal, en forma de campana, o campana de Gauss, el

68.26% de todas las observaciones se encuentran alrededor de ± 1 desviación

estándar, mientras que el 95.44%, 99.73% y 99.99% estarán en ±2, ±3 y ±4 desvia-

ciones estándar.

Mientras que en el cálculo de Bienaymé-Chebyshev nos indica, para cualquier tipo

de distribución, al menos qué tan posible es que una observación se encuentre alre-

dedor de la media, la aplicación del modelo de Gauss, para distribuciones norma-

les, nos dice exactamente qué tan probable es que cualquier observación esté lejos

o cerca de la media.

4.8 Resumen

El cálculo de las medidas estadísticas sintetiza la información sobre los datos que

se han recopilado, facilitando su manejo e interpretación. En lugar de trabajar con

toda la tabla de frecuencias, se calcula tres tipos de medidas estadísticas: de posi-

ción, de forma y de dispersión.

Las medidas de posición, como la media, la mediana, la moda, el rango medio y el

eje medio, indican el nivel general del fenómeno, o sea el punto de escala numérica

alrededor del cual se agrupa la mayoría de las observaciones obtenidas al captar el

fenómeno que interesa; las medidas de forma, con sólo comparar el valor de la

media con el de la mediana, muestran el grado en que las observaciones tienden a

acumularse por arriba o por debajo de los valores centrales y tienen por objeto de-

terminar el grado de asimetría de una distribución de frecuencias; y las medidas de

dispersión, como el rango, el rango intercuartil, la varianza, la desviación estándar

y el coeficiente de variación indican el mayor o menor grado en que las observa-

ciones se alejan del valor central dado por las medidas de posición. En conjunto,

las medidas estadísticas resumen los valores significativos del conjunto de datos.

4.9 Términos clave

Análisis de datos

Medidas de posición: media, media-

na, moda, rango medio, eje medio.

Medidas de forma: equilibrada, sesgo

a la derecha, sesgo a la izquierda.

Medidas de dispersión: rango, rango

intercuartil, varianza, desviación

estándar, coeficiente de variación.

Escala de puntos.

1.- Un grupo de estudiantes de la Universidad han decidido llevar a cabo un fo-

notón para recabar fondos para la construcción de un Centro de Artes. Los datos

siguientes representan las cantidades prometidas (en miles de pesos) por todos los

ex alumnos que fueron llamados durante los primeros nueve días: 16, 18, 11, 17,

13, 10, 22, 16

a) Calcule la media, mediana, el rango medio y el rango intercuartil

b) Calcule la varianza y la desviación estándar

c) Describa la forma de esta serie de datos

d) Describa la cantidad ofrecida por los ex-alumnos

e) Escriba un reporte donde estime la cantidad en recaudar si el fonotón dura

30 días

2.- Los siguientes datos representan el precio al menudeo de camisetas de una

muestra de 20 tiendas más frecuentadas de la ciudad.

Precio de camisetas al menudeo

137.4 139.2 141.1 138

140 141.8 139.7 140.9

138.8 137.3 136.7 140.6

139.1 133.5 136.3 136.7

144.4 138.2 135.6 134.1

a) Forme el diagrama de tallo y hojas; elabore las tablas y diagramas de fre-

cuencias absolutas, relativas y acumuladas; elabore el diagrama de Pareto.

b) Calcule la media, mediana, eje medio, rango, rango intercuartil, desviación

estándar y coeficiente de variación; elabore el análisis de 5 puntos y la caja

de sesgo.

3.- Los siguientes datos corresponden al costo por onza en pesos de muestras alea-

torias de 31 champuses etiquetados para cabello normal y 29 para cabello delgado.

Cabello normal Cabello fino

7.9 6.3 1.9 0.9 3.7 6.9 0.9 2.3 2.2 0.8

4.9 2.0 1.6 5.5 6.9 1.2 3.2 1.2 1.8 7.8

2.3 1.4 9.0 8.7 4.4 1.9 6.3 4.9 3.7 5.5

1.3 1.6 2.3 2.0 6.4 8.5 4.4 8.7 1.7 1.1

2.8 1.8 3.2 8.1 8.5 2.3 5.0 6.5 5.1 3.5

4.7 5.0 0.8 1.3 2.1 1.4 2.0 2.8 0.8

Para cada conjunto de datos (cabello normal y cabello fino) calcule

a) Forme el diagrama de tallo y hojas; elabore las tablas y diagramas de fre-

cuencias absolutas, relativas y acumuladas; elabore el diagrama de Pareto.

b) Calcule la media, mediana, eje medio, rango, rango intercuartil, desviación

estándar y coeficiente de variación; elabore el análisis de 5 puntos y la caja

de sesgo.

4.11 Mapa conceptual de distribución de datos numéricos.

Mediana

Rango medio

Eje medio

El rango

El rango intercuartil

Varianza

Desviación estándar

• Coeficiente Fisher

• Coeficiente Pearson• Coeficiente Bowley

Medidas de

asimetría

• Coeficiente CurtosisMedida Curtosis

Medidas de posición

Medidas de dispersión

Medidas de deformación

Capítulo 5

Uso de paquetes Estadísticos

*********************

Objetivo del

Capítulo

Mostrar cómo el uso de la computadora

ayuda al análisis estadístico, evitando así

los laboriosos cálculos matemáticos y

dedicar más atención a la interpretación

para la toma de decisiones.

5.1 Introducción

Hasta ahora lo que se ha tratado de explicar es la técnica del manejo de datos para

facilitar su análisis e interpretación. Cuando son cantidades pequeñas de datos, se

pueden realizar manualmente, pero cuando la muestra rebasa las 100 observacio-

nes, el trabajo de ordenar y agrupar y calcular las medidas resumen de los datos se

complica. Afortunadamente, como se ha dicho desde el inicio, existen paquetes

estadísticos que realizan todo este pesado trabajo. Lo que si es cierto, es que en la

mayoría de los estudios estadísticos es inevitable la digitalización manual de datos,

como materia prima del estudio.

1. Obtener las medidas resumen de una muestra a través del uso del paquete

estadístico SPSS.

2. Obtener los diagramas apropiados para el análisis gráfico de la distribución

de datos.

Si el conjunto de registros, denominado “la base de datos” está bien computado, el

paquete estadístico se encarga de realizar todos los cálculos estadísticos. Al analista

sólo le resta saber interpretar los resultados. El programa SPSS (Statistical Package

for Social Sciences) permite, mediante su aplicación, realizar un análisis descripti-

vo de una o varias variables, utilizando gráficos que expliquen su distribución o

calculando sus medidas características. Entre sus muchas prestaciones, también

figuran el cálculo de intervalos de confianza, contrastes de hipótesis, análisis de

regresión o análisis multivariantes.

5.2 Edición de datos

Una vez que se ha accedido al programa (haciendo clic el icono correspondiente) la

interfaz con el usuario se compone de dos ventanas principales:

1. El editor de datos: de aspecto y funcionalidad semejantes a las de cualquier

hoja de cálculo

2. El visor de resultados, donde irán apareciendo los resultados de los aná-

lisis realizados.

Desde ambas ventanas se puede acceder a la barra de menús (desde donde se selec-

ciona el análisis que se quiere realizar) y a la barra de botones rápidos (desde la que

se puede acceder a las opciones de menú más comúnmente solicitadas).

Al ejecutar el programa estadístico SPSS, para capturar los datos es necesario defi-

nir las características de cada variable. En la parte inferior de la página principal

hay una pestaña “vista de variables” que hay que abrir:

Figura 5.1 Página principal del paquete SPSS

Figura 5.2 Página principal de Resultados de SPSS.

Antes de definir las características de las variables, es necesario considerar las si-

guientes indicaciones.

1. Enlistar todas las variables que se van a analizar, en orden que facilite la

captura.

2. Definir el nombre con el que se identifica la variable.

3. Defina si es numérica o categórica, también se puede definir si es de fecha,

si la separación de miles se hace coma, si requiere punto, si representa di-

nero y el número de decimales que se requiere.

4. Se requiere establecer un código de equivalencias para los diferentes valo-

res de las variables. Por ejemplo: 1 = femenino y 2 = masculino

5. Se requiere señalar el significado literal de la variable: género, nivel de

educación, fecha de nacimiento, categoría de empleo, etc.

6. Se requiere establecer la escala de medición: nominal, ordinal o cardinal

(escalar)

A manera de ejemplo, utilizando la misma estructura de datos del estudio estadísti-

co de automóviles que se ha venido utilizando en los ejercicios de los apartados

anteriores, se genera una base de datos de 406 registros. La magnitud de lo datos

dificulta el cálculo manual de las mediciones descriptivas, por lo que se utiliza los

paquetes estadísticos SPSS.

En la siguiente figura se puede observar la forma en que se definen las característi-

cas de las variables en el paquete estadístico SPSS.

Figura 5.3 Características de las variables de estudio

5.3 Captura de datos.

Una vez que se ha diseñado la edición de la presentación de los datos recabados, se

procede a su captura. En la figura 5.4 se puede observar el resultado de estas acti-

vidades. Los datos están listos para su análisis estadístico. La tabla de datos puede

salvarse como archivo de datos con extensión .sav, listo para utilizarse por el pa-

quete estadístico SPSS.

Figura 5.4 Presentación de datos digitados en SPSS

5.4 Obtención de resultados

Habiendo capturado todos los datos de la muestra o de la población, según sea el

caso, a través del comando analizar/estadísticas descriptivas, se obtendrá un

menú de análisis.

Figura 5.4 Análisis de datos

5.5 Definición de variable de análisis

Al escoger el sub-menú aparece un recuadro de definición de variables a analizar y

de estadísticos a visualizar; en el caso del ejemplo se escogerá la variable Miles per

Galon (mpg):

Figura 5.5 Definición de variable a analizar

Figura 5.6 Definición de características de los estadísticos

Figura 5.7 Definición de características de los gráficos

Figura 5.8 Estadísticos obtenidos

Figura 5.9 Gráficos obtenidos: Tallo y hojas y caja y sesgo

5.6 Tabla de frecuencias.

Si desea conocer la tabla de frecuencias, en el sub-menú de estadísticas descripti-

vas, se obtendría lo siguiente:

Figura 5.10 Frecuencias.

Figuera 5.11 Tabla de frecuencias no agrupada obtenida

Miles per Gallon

6 20,0 20,0 20,0

6 20,0 20,0 40,0

2 6,7 6,7 46,7

2 6,7 6,7 53,3

4 13,3 13,3 66,7

2 6,7 6,7 73,3

1 3,3 3,3 76,7

2 6,7 6,7 83,3

2 6,7 6,7 90,0

2 6,7 6,7 96,7

1 3,3 3,3 100,0

30 100,0 100,0

Válidos

Frecuenc ia Porcentaje

Porcentaje

válido

Porcentaje

acumulado

Figuera 5.12 Histograma y distribución de frecuencias

1. Utilizando el paquete SPSS, obtenga las medidas de posición, dispersión y dis-

torsión y los diagramas de distribución de frecuencias y de Pareto de los datos de la

siguiente tabla, que son los sueldos de una muestra aleatoria de 100 empleados con

licenciatura en Negocios Internacionales egresados entre el año 2000 y 2005.