taller n° 1 matematicas gerardo antonio villegas castañeda

MEDIDAS DE VARIABILIDAD

Además de las medidas de localización o de tendencia central, es necesario

considerar medidas de dispersión o variabilidad, dado que dos conjuntos de

datos pueden tener promedios similares, pero diferir en la dispersión de éstos.

Las medidas de variabilidad de mayor uso en estadística son rango, rango

intercuartil, varianza, desviación estándar y coeficiente de variación.

Rango

El rango es la medida de dispersión más sencilla en un conjunto de datos. Se

calcula por medio de la siguiente ecuación:

Aunque el rango es la medida de dispersión más fácil de calcular, casi nunca

se usa como la única medida de dispersión, debido a que se basa sólo en los

valores extremos del conjunto de datos.

Por ejemplo, para el tiempo que tardan los expertos en auditar un proceso, el

rango sería:

Rango = 74 – 45 = 29 minutos

El rango debe interpretarse a partir de los valores extremos; es decir,

mencionar entre qué valores está el rango. Para el ejemplo, se dice que la

variación del tiempo de los expertos es de 29 minutos, el cual oscila entre 45 y

74 minutos.

Rango intercuartil

El rango intercuartil (RIC) es una medida de dispersión que elimina la influencia

de los valores extremos de un conjunto de datos. Se define como la diferencia

Rango = valor máximo – valor mínimo

entre el tercer cuartil Q3 y el primero Q1. En otras palabras, el rango intercuartil

corresponde al rango del 50% intermedio de los datos.

Para los datos del tiempo que tardan los expertos en realizar la auditoría de un

proceso, los cuartiles son Q1 = 55.12 minutos y Q3 = 64.72 minutos. Así el

rango intecuartil es

RIC = 64.72 – 55.12 = 9.6 minutos.

El intervalo 55.12 a 64.72 suele denominarse mitad central y 9.6 minutos la

dispersión media o rango intercuartil del tiempo que tardan los expertos en

realizar la auditoría de un proceso.

Varianza

La varianza es una medida de dispersión que emplea todos los datos. Se basa

en la diferencia de cada observación (xi) y la media. La diferencia entre cada x i

y el promedio (x para una muestra y μ para una población) se llama

desviación respecto al promedio. Para una muestra, la desviación respecto a

la media se expresa como ( xi−x ) ; para una población es ( x i−μ ). Para

calcular la varianza, las desviaciones respecto al promedio se elevan al

cuadrado.

Si el conjunto de datos es una población, el promedio de las desviaciones al

cuadrado se llama varianza de la población y se representa con el símbolo

griego σ2. Para una población con N observaciones o datos, cuando μ

representa el promedio de esa población, la definición de la varianza de la

población es:

Rango intercuartil (RIC) = Q3 - Q1

σ 2=∑ (xi−μ)2

N

En la mayoría de los análisis estadísticos los datos analizados son una

muestra. Cuando se calcula la varianza para la muestra, lo más importante es

emplearla para estimar la varianza de todo el conjunto de datos, es decir, para

la población.

La varianza de la muestra (s2) es la suma de los cuadrados de las desviaciones

con relación a la media aritmética, dividida entre el tamaño de la muestra

menos 1.

Donde:

x : media aritmética de la muestra

n : tamaño de la muestra

x i : cada dato u observación de la variable X.

Si el denominador fuera n en lugar de n – 1, se obtendría el promedio de los

cuadrados de las diferencias con respecto a la media. Sin embargo, se utiliza n

– 1 debido a ciertas propiedades matemáticas deseadas que tiene el

estadístico s2, las cuales lo hacen apropiado para hacer inferencias

estadísticas. Al aumentar el tamaño de la muestra, la diferencia entre n y n –

1disminuye cada vez más.

Cuando se calcula la varianza, las unidades en las cuales fueron medidos los

datos causan confusiones. Como los valores que se suman al calcular la

varianza, que son ( xi−x )2, se elevan al cuadrado, las unidades asociadas con

la varianza de la muestra también se elevan al cuadrado. Por ejemplo, si se

está calculando la edad en años para un grupo de empleados, la varianza

tendrá (años)2.

s2=∑ ( x i−x )2

n−1

Las unidades al cuadrado asociadas con la varianza hacen difícil la

interpretación. Por tanto, se recomienda que se tome la varianza como una

medida útil para comparar el grado de dispersión de dos o más variables y, al

compararlas, la que tienen mayor varianza tiene mayor dispersión o

variabilidad.

Por ejemplo, en la tabla 1 se presenta el salario, en millones de pesos, de los

gerentes de una cadena de almacenes; calcular la varianza.

Tabla 1. Salario en millones de pesos de gerentes

SALARIO (millones)

x i

MEDIA DE LA MUESTRA

x

DESVIACIÓN

( xi−x ) ( xi−x )2

3,5 9.57 -6.07 36.84

4,5 9.57 -5.07 25.70

6,0 9.57 -3.57 12.74

8,0 9.57 -1.57 2.46

10,0 9.57 0.43 0.18

15,0 9.57 5.43 29.48

20,0 9.57 10.42 108.78

∑ ( x i−x )=0 ∑ ( x i−x )2=216 . 18

Fuente: Datos hipotéticos

Luego, la varianza será:

s2=∑ ( x i−x )2

n−1=216 .18

6=36 .03

Cuando los datos están agrupados en frecuencias o por intervalos, la fórmula

para la varianza puede ser transformada en la siguiente ecuación:

s2=∑ xi2∗f in

−x2

Donde:

x : media aritmética de la muestra

n : tamaño de la muestra

x i : cada dato u observación de la variable X o marca de clase si es intervalo

f i : frecuencia absoluta del valor de la variable X

Para los datos de tiempo que tardan los expertos en realizar la auditoría de un

proceso, presentados en la tabla 10, la varianza sería:

Tabla 2. Varianza para el tiempo que tardan los expertos en realizar la auditoría de un proceso

Nº DE CLASE

TIEMPO ENMINUTOS

x i f i x i2 x i

2∗f i

1 44.5 - 49.5 47 2 2209 4418

2 49.5 - 54.5 52 9 2704 24336

3 54.5 - 59.5 57 12 3249 38988

4 59.5 - 64.5 62 11 3844 42284

5 64.5 - 69.5 67 9 4489 40401

6 69.5 - 74.5 72 7 5184 36288

n=50 ∑ x i2∗¿ f i=186 .715 ¿


De la tabla 17 se tienen que el promedio es x=60 .7 ; luego

s2=∑ xi2∗f in

−x2=186 .71550

−(60 . 7 )2=3734 .3−3684 . 49=49 .81

Desviación estándar

La desviación estándar se define como la raíz cuadrada positiva de la varianza.

Se denota por s la desviación estándar de la muestra y por σ la desviación

estándar de la población.

La desviación estándar indica cómo se agrupa o distribuye un conjunto de

datos alrededor de la media. Para la mayor parte de los conjuntos de datos, la

mayoría de los valores observados cae dentro de un intervalo que corresponde

a la media aritmética más o menos una desviación estándar. Esto implica que

el intervalo comprendido entre X−1S y X+1 S , por lo general, incluye la

mayoría de los valores de los datos. Por consiguiente, el conocimiento de la

media aritmética y la desviación estándar ayudan a definir en dónde se agrupa

la mayor parte de los datos.

Para los datos de tiempo que tardan los expertos en realizar la auditoría de un

proceso, presentados en la tabla 26, la desviación estándar sería:

s=√s2=√49 . 81=7 . 06 minutos

La desviación estándar del tiempo de los expertos es 7.06 minutos. Esto indica

que los tiempos que tardan en realizar la auditoría del proceso para la mayor

parte de los expertos se agrupan dentro de 7.06 minutos alrededor de la media

60.7 minutos; es decir, se agrupan entre X−1S=53 .64 y X+1 S=67 .76

minutos.

Finalmente, para comprender la variación de los datos se deben tener en

cuenta los siguientes aspectos:

Cuanto más dispersos estén los datos, mayores serán el rango, el rango

intercuartil, la varianza y la desviación estándar.

Cuanto más concentrados u homogéneos sean los datos, menores serán el

rango, el rango intercuartil, la varianza y la desviación estándar.

s=√s2σ=√σ2

Si los datos son todos iguales (de manera que no hay variación de los

datos), el rango, el rango intercuartil, la varianza y la desviación estándar

serán iguales a cero.

Las medidas de variación (rango, rango intercuartil, varianza y desviación

estándar) nunca son negativas.

Coeficiente de variación

El coeficiente de variación, denotado por CV, es una medida descriptiva que

indica lo grande que es la desviación estándar en comparación con la media

aritmética; se expresa en porcentaje y se calcula por medio de la siguiente

ecuación:

Para los datos del tiempo que tardan los expertos en realizar la auditoría de un

proceso, el promedio es 60.7 minutos y la desviación estándar es 7.06 minutos.

El coeficiente de variación sería:

CV= SX

∗100=7 . 0660 .7

∗100=11.6 %

Interpretando estos datos, el coeficiente de variación indica que la desviación

estándar de la muestra es el 11.6% del valor de la media de la muestra.

Como medida relativa, el coeficiente de variación resulta especialmente útil

cuando se compara la variabilidad de dos o más conjuntos de datos, que se

expresan en diferentes unidades de medida. Esto se muestra en el siguiente

ejemplo, adaptado del texto Estadística para administración, de Mark L.

Berenson y otros, página 120.

CV= SX

∗100

Suponga que un inversionista desea adquirir acciones en una de dos compañía

A o B, listadas en la Bolsa de Valores. Si ninguna de las compañías ofrece

dividendos a sus clientes y ambas tienen igual clasificación (según los servicios

de inversión) en términos del crecimiento potencial, el inversionista quizá

considere la volatilidad o variabilidad de ambas acciones para ayudar en la

decisión de inversión.

Supóngase que cada acción de la compañía A ha promediado $150.000 en los

últimos meses, con desviación estándar de $30.000. Además, durante el

mismo período el precio promedio de las acciones en la compañía B fue de

$36.000 con una desviación estándar de $12.000. ¿Cómo puede determinar el

inversionista cuáles acciones son más variables?

Solución

En términos de las desviaciones estándar, el precio de las acciones de A

parece más volátil o variable que el de las acciones de B. Sin embargo, como

los precios promedio por acciones de las dos compañías son tan diferentes, es

más conveniente que el inversionista considere la variabilidad del precio

respecto al promedio con el fin de analizar la estabilidad de ambas acciones.

Los coeficientes de variación para las compañías A y B serían:

CV A=SX

∗100= $30 . 000$150 .000

∗100=20.0 % y CV B=

SX

∗100=$ 12. 000$36 . 000

∗100=33 .3 %

En consecuencia, en relación con la media, el precio de las acciones B es más

variable que el de las acciones A.

MEDIDAS DE LOCALIZACIÓN

Hasta el momento se han descrito algunas medidas de tendencia central y de

dispersión. La media es la que más se usa como medida de tendencia central,

mientras que la desviación estándar y la varianza son las más empleadas para

la dispersión. Las medidas de localización relativa se apoyan en la media y la

desviación estándar para ubicar valores particulares de un conjunto de datos.

Valores z

Al usar la media y la desviación estándar se puede determinar la localización

relativa de cualquier observación. Supóngase que hay una muestra de n datos,

con sus valores representados por x1 , x2 , x1 x3 ,. . . .,xn . Además, se han

calculado la media x y la desviación estándar s de la muestra. Existe otro

valor asociado con cada valor xi de los datos que se denomina valor z, el cual

se calcula con la siguiente ecuación:

Donde,

zi : valor de z del elemento xi

x : media de la muestra

s : desviación estándar de la muestra.

Con frecuencia se le da el nombre de valor estandarizado al valor de z. El

valor zi se interpreta como el número de desviaciones estándar que dista xi de

promedio x . Por ejemplo, si zi=1 . 2 indica que x1 es 1.2 desviaciones

estándar por encima de la media de la muestra. Igualmente, z2=−0 .5 indica

que x2 está a 0.5, o ½ desviación estándar por debajo de la media de la

muestra. Obsérvese que los valores de z positivos corresponden a

observaciones o datos con valores mayores que la media, y que los valores de

z negativos corresponden a observaciones con valores menores que la media.

Un valor z igual a cero indica que el valor de una observación es igual a la

media.

zi=x i−xs

Los valores de z para el ejemplo de la tabla 1, donde se presenta el salario, en

millones de pesos, de los gerentes de una cadena de almacenes, con media

$9.57 millones y desviación estándar $6 millones, serán:

Tabla 3. Valores z para el salario en millones de pesos de gerentes

SALARIO (millones)

x i

DESVIACIÓN

( x i−x )

VALOR Z

xi−xs

3,5 -6.07 -1.01

4,5 -5.07 -0.84

6,0 -3.57 -0.60

8,0 -1.57 -0.26

10,0 0.43 0.07

15,0 5.43 0.90

20,0 10.42 1.74


Obsérvese que el valor z de 1.74 para el séptimo dato indica que es el más

alejado del promedio; está a 1.74 desviaciones estándar por encima del

promedio.

Teorema de Chebyshev

El teorema de Chebyshev permite inferir la proporción de valores que deben

quedar dentro de una cantidad específica de desviaciones estándar respecto a

la media.

Teorema de Chebyshev

Cuando menos (1−

1z2 )

de los datos debe estar a menos de z desviaciones estándar de separación respecto a la media, siendo z cualquier valor mayor que 1.

Por ejemplo, cuando z es igual a 2, 3 y 4 desviaciones estándar, se tienen las

siguientes implicaciones a partir del teorema de Chebyshev:

Cuando menos, el 0.75 o 75% de los datos debe estar a menos de 2

desviaciones de la media (z = 2).

Cuando menos, el 0.89 u 89% de los datos debe estar a menos de 3


Cuando menos, el 0.94 o 94% de los datos debe estar a menos de 4


Como ejemplo de la aplicación del teorema de Chebyshev, supóngase que las

puntuaciones de un examen de ingreso de 100 aspirantes al programa de

Administración de una universidad tuvieron un promedio de 70 puntos y una

desviación estándar de 5 puntos. ¿Cuántos aspirantes tuvieron puntuaciones

entre 60 y 80? ¿Cuántos entre 58 y 82?

Para las puntuaciones de 60 a 80 se observa que el valor 60 está a dos

desviaciones estándar por debajo del promedio: (60-70)/5 = -2, y que el valor

80, a dos desviaciones estándar por encima del promedio: (80-70)/5 = +2. Al

aplicar el teorema de Chebyshev, cuando menos el 0.75 o 75% de los datos

debe tener valores menores de dos desviaciones estándar del promedio. Así,

cuando menos o mínimo 75 de los 100 aspirantes deben haber obtenido

puntuaciones entre 60 y 80.

Para las puntuaciones entre 58 y 82, (58-70)/5 = -2.4 indica que 58 están a 2.4

desviaciones estándar por debajo del promedio, y que (82-70)/5 = +2.4 indica

que 82 están a 2.4 desviaciones estándar por encima del promedio. Aplicando

el teorema de Chebyshev con z = 2.4 se obtiene:

(1−1z2 )=[1−

1(2 . 4 )2 ]=0 . 826

Lo que significa que, mínimo 82.6% de los aspirantes deben tener

puntuaciones entre 58 y 82.

La regla empírica

Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier

conjunto de datos, independientemente de la forma de la distribución de los

mismos. Sin embargo, en las aplicaciones prácticas se ha encontrado que

muchos conjuntos de datos tienen una distribución en forma de colina o de

campana. Cuando se cree que los datos tienen aproximadamente esa

distribución, se puede aplicar la regla empírica para determinar el porcentaje de

elementos que debe estar dentro de determinada cantidad de desviaciones

estándar respecto al promedio.

Por ejemplo, en una línea de producción se llenan, automáticamente, envases

de plástico con detergente líquido. Con frecuencia, el volumen de llenado tiene

una distribución en forma de campana. Si el volumen promedio de llenado es

de 16 cm3 y la desviación estándar 0.25 cm3, se puede aplicar la regla empírica

para concluir:

Regla empírica para datos con distribución en forma de campana

Aproximadamente 68% de los elementos están a menos de una desviación estándar de la media.

Aproximadamente 95% de los elementos están a menos de dos desviaciones estándar de la media.

Casi todos los elementos están a menos de tres desviaciones estándar de la media.

Aproximadamente 68% de los envases llenos tienen entre 15.75 y 16.25

cm3 (esto es, menos de una desviación estándar de la media).

Aproximadamente 95% de los envases llenos tienen entre 15.50 y 16.50 cm3

(esto es, menos de dos desviaciones estándar de la media).

Casi todos los envases llenos tienen entre 15.25 y 16.75 cm3 (esto es, menos de tres desviaciones estándar de la media).

Sesgo o forma

El sesgo o forma es la manera como se distribuyen los datos. La distribución

de los datos es simétrica (en forma de campana) o no lo es. Si no es simétrica,

recibe el nombre de distribución asimétrica o sesgada.

Para describir el sesgo o la forma, se deben comparar la media y la mediana.

Si ambas medidas son iguales, por lo general se considera que los datos son

simétricos (o con sesgo cero). Por el contrario, si la media es mayor que la

mediana, los datos se describen como sesgados a la derecha, o con sesgo

positivo. Si la media es menor que la mediana, los datos suelen llamarse

sesgados a la izquierda, o con sesgo negativo. Es decir,

El sesgo positivo surge cuando la media aumenta debido a algunos valores

grandes y poco usuales; el sesgo negativo ocurre cuando la media se reduce

debido a algunos valores muy pequeños. Los datos son simétricos cuando en

realidad no hay valores extremos en ninguna dirección, de tal manera que los

valores grandes y pequeños se equilibran.

Media > Mediana: sesgo positivo o a la derecha

Media = Mediana: simetría o sesgo cero

Media < Mediana: sesgo negativo o a la izquierda

Forma o sesgo de un conjunto de datos

La grafica muestra la forma o sesgo de tres conjuntos de datos. Los datos del

primer cuadro son simétricos; cada mitad de la curva es la imagen del espejo

de la otra mitad. Los valores grandes y pequeños se compensan, y la media es

igual a la mediana.

Los datos del cuadro del centro tienen sesgo negativo o a la izquierda. Se

observan una cola larga y una distorsión hacia la izquierda, causadas por

valores en extremo pequeños. Estos valores tan pequeños jalan la media

hacia abajo y resulta menor que la mediana. Los datos del tercer cuadro tienen

un sesgo positivo o a la derecha. Se observan una cola larga hacia la derecha

de la distribución y una distorsión hacia la derecha, causadas por valores muy

grandes. Estos valores en extremo grandes jalan la media hacia arriba y

resulta mayor que la mediana.

El sesgo para el ejemplo de la tabla 3, donde se presenta el salario, en millones

de pesos, de los gerentes de una cadena de almacenes, con media $9.57

millones y mediana $8 millones, será positivo o a la derecha, dado que la

media es mayor que la mediana. Además, el conjunto de datos presenta un

valor extremo muy alto, el cual atrae la media hacia el extremo derecho de la

distribución.

Diagrama de caja o bigotes

El diagrama de caja o bigotes es un resumen gráfico de los datos basado en el

resumen de cinco números.

En un resumen de cinco números se emplean cinco cantidades para resumir

los datos:

Valor mínimo

Primer cuartil (Q1)

Mediana (Me = Q2)

Tercer cuartil (Q3)

Valor máximo

La forma más ágil de elaborar un resumen de 5 números es poner los datos en

orden ascendente. Así facilita la identificación del valor mínimo, los tres

cuartiles y el valor máximo.

Por ejemplo, los salarios mensuales, en miles de pesos, de 12 egresados de un

programa de Administración son 2.940, 2.920, 2.950, 2.710, 2.850, 2.755,

2.890, 2.880, 2.880, 3.130, 3.325 y 3.050.

Organizando los datos y calculando los cuartiles, se tiene la siguiente

distribución:

2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325

Q1 = 2865 Q2 = 2905

(Mediana)

Q3 = 3000

Al analizar los datos anteriores se ve un valor mínimo de 2.710 y un valor

máximo de 3.325 miles de pesos. Así, el resumen de los cinco números de los

datos de salarios es 2.710, 2.865, 2.905, 3.000 y 3.325 miles de pesos.

Aproximadamente una cuarta parte, 25% de los valores de los datos, están

entre dos números adyacentes del resumen de cinco números.

El diagrama de caja y bigotes resume gráficamente los cinco números. Los

pasos para trazar un diagrama de caja y bigotes son los siguientes:

Se traza un rectángulo con los extremos en el primer y tercer cuartiles.

Este rectángulo contiene el 50% intermedio de los datos. Para los datos

de salarios Q1 = 2.865 y Q3 = 3.000.

En la caja se traza una recta vertical en el lugar de la mediana (2.950

para los datos de salarios). Así, la línea de la mediana divide los datos

en dos partes iguales.

Se ubican los límites mediante el rango intercuartil, RIC = Q3 - Q1. Los

límites en el diagrama de caja están a 1.5(RIC) por debajo de Q1 y

1.5(RIC) por encima de Q3 . Para los datos de salarios RIC = Q3 - Q1 =

3.000 – 2.865 = 135. Así, los límites son 2.865 – 1.5(135) = 2.662,5 y

3.000 + 1.5(135) = 3.202,5. Se considera que los datos fuera de estos

límites son valores atípicos.

Los bigotes de la caja se trazan con líneas punteadas, desde los

extremos de la caja hasta los valores mínimo y máximo dentro de los

límites. Así, los bigotes terminan en los valores de salarios de 2.710 y

3.130.

Por último, se marcan con un asterisco (*) las localizaciones de los

valores atípicos. Para el ejemplo se localiza un valor atípico de 3.325.

Diagrama de caja y bigotes con líneas que muestran los límites

En la gráfica se trazaron las líneas que indican el lugar de los límites con el fin

de mostrar cómo se calculan éstos y dónde se ubican en el caso de los

salarios. Aunque siempre se calculan, por lo general no se trazan en los

diagramas de caja. En la gráfica se muestra el aspecto habitual de un

diagrama de caja y bigotes para los datos de los salarios.

Diagrama de caja y bigotes de los sueldos mensuales de un grupo de egresados de un programa de Administración

Observación

Al utilizar el diagrama de caja y bigotes se tiene la opción de identificar los

mismos valores atípicos que los encontrados con el método de valores z:

menores que –3 y mayores que +3. Sin embargo, el objetivo de ambos

métodos es identificar elementos que se deben revisar para asegurar la validez

de los datos. Se deben revisar los valores atípicos identificados por cualquiera

de los métodos.

Curtosis

La curtosis mide si los valores de la distribución están más o menos

concentrados alrededor de los valores medios de la muestra. El coeficiente

percentil de Curtosis (k) analiza el grado de concentración que presentan los

valores alrededor de la zona central de la distribución; se calcula con la

siguiente ecuación:

Donde,

Q3: tercer cuartil.

Q1: primer cuartil.

P90: percentil 90.

P10: percentil 10.

Nota: es importante recordar que el P10 es igual al D1 y el P90 es igual al D9.

Según el coeficiente de Curtosis, se definen 3 tipos de distribuciones, los

cuales se ilustran en la gráfica:

Tipos de distribución según el coeficiente de Curtosis

Distribución mesocúrtica: presenta un grado de concentración medio

alrededor de los valores centrales de la variable (el mismo que presenta una

distribución simétrica o normal). El valor de k = 0.263.

Distribución leptocúrtica: presenta un elevado grado de concentración

alrededor de los valores centrales de la variable. El valor de k > 0.263.

Distribución platicúrtica: presenta un reducido grado de concentración

alrededor de los valores centrales de la variable. El valor de k < 0.263.

k=12 (Q3−Q1 )

P90−P10

Para el ejemplo de la tabla sobre el tiempo que tarda un grupo de expertos en

realizar la auditoría de un proceso, Q1 = 55.12, Q3 = 64.72, P10 = D1 = 44.7 y

P90 = D9 = 70.9.

El coeficiente percentil de Curtosis (k) será:

k=12 (Q3−Q1 )

P90−P10=

12 (64 . 72−55 .12 )

70. 9−44 . 7=

0 . 5(9 .6)26 .2

=4 . 8

26 . 2=0. 183

Por lo tanto, el coeficiente percentil de Curtosis es 0.183, lo que quiere decir

que se trata de una distribución platicúrtica, es decir, con una reducida

concentración alrededor de los valores centrales de la distribución.

taller n° 1 matematicas gerardo antonio villegas castañeda

Documents