taller n° 1 matematicas gerardo antonio villegas castañeda
TRANSCRIPT
MEDIDAS DE VARIABILIDAD
Además de las medidas de localización o de tendencia central, es necesario
considerar medidas de dispersión o variabilidad, dado que dos conjuntos de
datos pueden tener promedios similares, pero diferir en la dispersión de éstos.
Las medidas de variabilidad de mayor uso en estadística son rango, rango
intercuartil, varianza, desviación estándar y coeficiente de variación.
Rango
El rango es la medida de dispersión más sencilla en un conjunto de datos. Se
calcula por medio de la siguiente ecuación:
Aunque el rango es la medida de dispersión más fácil de calcular, casi nunca
se usa como la única medida de dispersión, debido a que se basa sólo en los
valores extremos del conjunto de datos.
Por ejemplo, para el tiempo que tardan los expertos en auditar un proceso, el
rango sería:
Rango = 74 – 45 = 29 minutos
El rango debe interpretarse a partir de los valores extremos; es decir,
mencionar entre qué valores está el rango. Para el ejemplo, se dice que la
variación del tiempo de los expertos es de 29 minutos, el cual oscila entre 45 y
74 minutos.
Rango intercuartil
El rango intercuartil (RIC) es una medida de dispersión que elimina la influencia
de los valores extremos de un conjunto de datos. Se define como la diferencia
Rango = valor máximo – valor mínimo
entre el tercer cuartil Q3 y el primero Q1. En otras palabras, el rango intercuartil
corresponde al rango del 50% intermedio de los datos.
Para los datos del tiempo que tardan los expertos en realizar la auditoría de un
proceso, los cuartiles son Q1 = 55.12 minutos y Q3 = 64.72 minutos. Así el
rango intecuartil es
RIC = 64.72 – 55.12 = 9.6 minutos.
El intervalo 55.12 a 64.72 suele denominarse mitad central y 9.6 minutos la
dispersión media o rango intercuartil del tiempo que tardan los expertos en
realizar la auditoría de un proceso.
Varianza
La varianza es una medida de dispersión que emplea todos los datos. Se basa
en la diferencia de cada observación (xi) y la media. La diferencia entre cada x i
y el promedio (x para una muestra y μ para una población) se llama
desviación respecto al promedio. Para una muestra, la desviación respecto a
la media se expresa como ( xi−x ) ; para una población es ( x i−μ ). Para
calcular la varianza, las desviaciones respecto al promedio se elevan al
cuadrado.
Si el conjunto de datos es una población, el promedio de las desviaciones al
cuadrado se llama varianza de la población y se representa con el símbolo
griego σ2. Para una población con N observaciones o datos, cuando μ
representa el promedio de esa población, la definición de la varianza de la
población es:
Rango intercuartil (RIC) = Q3 - Q1
σ 2=∑ (xi−μ)2
N
En la mayoría de los análisis estadísticos los datos analizados son una
muestra. Cuando se calcula la varianza para la muestra, lo más importante es
emplearla para estimar la varianza de todo el conjunto de datos, es decir, para
la población.
La varianza de la muestra (s2) es la suma de los cuadrados de las desviaciones
con relación a la media aritmética, dividida entre el tamaño de la muestra
menos 1.
Donde:
x : media aritmética de la muestra
n : tamaño de la muestra
x i : cada dato u observación de la variable X.
Si el denominador fuera n en lugar de n – 1, se obtendría el promedio de los
cuadrados de las diferencias con respecto a la media. Sin embargo, se utiliza n
– 1 debido a ciertas propiedades matemáticas deseadas que tiene el
estadístico s2, las cuales lo hacen apropiado para hacer inferencias
estadísticas. Al aumentar el tamaño de la muestra, la diferencia entre n y n –
1disminuye cada vez más.
Cuando se calcula la varianza, las unidades en las cuales fueron medidos los
datos causan confusiones. Como los valores que se suman al calcular la
varianza, que son ( xi−x )2, se elevan al cuadrado, las unidades asociadas con
la varianza de la muestra también se elevan al cuadrado. Por ejemplo, si se
está calculando la edad en años para un grupo de empleados, la varianza
tendrá (años)2.
s2=∑ ( x i−x )2
n−1
Las unidades al cuadrado asociadas con la varianza hacen difícil la
interpretación. Por tanto, se recomienda que se tome la varianza como una
medida útil para comparar el grado de dispersión de dos o más variables y, al
compararlas, la que tienen mayor varianza tiene mayor dispersión o
variabilidad.
Por ejemplo, en la tabla 1 se presenta el salario, en millones de pesos, de los
gerentes de una cadena de almacenes; calcular la varianza.
Tabla 1. Salario en millones de pesos de gerentes
SALARIO (millones)
x i
MEDIA DE LA MUESTRA
x
DESVIACIÓN
( xi−x ) ( xi−x )2
3,5 9.57 -6.07 36.84
4,5 9.57 -5.07 25.70
6,0 9.57 -3.57 12.74
8,0 9.57 -1.57 2.46
10,0 9.57 0.43 0.18
15,0 9.57 5.43 29.48
20,0 9.57 10.42 108.78
∑ ( x i−x )=0 ∑ ( x i−x )2=216 . 18
Fuente: Datos hipotéticos
Luego, la varianza será:
s2=∑ ( x i−x )2
n−1=216 .18
6=36 .03
Cuando los datos están agrupados en frecuencias o por intervalos, la fórmula
para la varianza puede ser transformada en la siguiente ecuación:
s2=∑ xi2∗f in
−x2
Donde:
x : media aritmética de la muestra
n : tamaño de la muestra
x i : cada dato u observación de la variable X o marca de clase si es intervalo
f i : frecuencia absoluta del valor de la variable X
Para los datos de tiempo que tardan los expertos en realizar la auditoría de un
proceso, presentados en la tabla 10, la varianza sería:
Tabla 2. Varianza para el tiempo que tardan los expertos en realizar la auditoría de un proceso
Nº DE CLASE
TIEMPO ENMINUTOS
x i f i x i2 x i
2∗f i
1 44.5 - 49.5 47 2 2209 4418
2 49.5 - 54.5 52 9 2704 24336
3 54.5 - 59.5 57 12 3249 38988
4 59.5 - 64.5 62 11 3844 42284
5 64.5 - 69.5 67 9 4489 40401
6 69.5 - 74.5 72 7 5184 36288
n=50 ∑ x i2∗¿ f i=186 .715 ¿
Fuente: Datos hipotéticos
De la tabla 17 se tienen que el promedio es x=60 .7 ; luego
s2=∑ xi2∗f in
−x2=186 .71550
−(60 . 7 )2=3734 .3−3684 . 49=49 .81
Desviación estándar
La desviación estándar se define como la raíz cuadrada positiva de la varianza.
Se denota por s la desviación estándar de la muestra y por σ la desviación
estándar de la población.
La desviación estándar indica cómo se agrupa o distribuye un conjunto de
datos alrededor de la media. Para la mayor parte de los conjuntos de datos, la
mayoría de los valores observados cae dentro de un intervalo que corresponde
a la media aritmética más o menos una desviación estándar. Esto implica que
el intervalo comprendido entre X−1S y X+1 S , por lo general, incluye la
mayoría de los valores de los datos. Por consiguiente, el conocimiento de la
media aritmética y la desviación estándar ayudan a definir en dónde se agrupa
la mayor parte de los datos.
Para los datos de tiempo que tardan los expertos en realizar la auditoría de un
proceso, presentados en la tabla 26, la desviación estándar sería:
s=√s2=√49 . 81=7 . 06 minutos
La desviación estándar del tiempo de los expertos es 7.06 minutos. Esto indica
que los tiempos que tardan en realizar la auditoría del proceso para la mayor
parte de los expertos se agrupan dentro de 7.06 minutos alrededor de la media
60.7 minutos; es decir, se agrupan entre X−1S=53 .64 y X+1 S=67 .76
minutos.
Finalmente, para comprender la variación de los datos se deben tener en
cuenta los siguientes aspectos:
Cuanto más dispersos estén los datos, mayores serán el rango, el rango
intercuartil, la varianza y la desviación estándar.
Cuanto más concentrados u homogéneos sean los datos, menores serán el
rango, el rango intercuartil, la varianza y la desviación estándar.
s=√s2σ=√σ2
Si los datos son todos iguales (de manera que no hay variación de los
datos), el rango, el rango intercuartil, la varianza y la desviación estándar
serán iguales a cero.
Las medidas de variación (rango, rango intercuartil, varianza y desviación
estándar) nunca son negativas.
Coeficiente de variación
El coeficiente de variación, denotado por CV, es una medida descriptiva que
indica lo grande que es la desviación estándar en comparación con la media
aritmética; se expresa en porcentaje y se calcula por medio de la siguiente
ecuación:
Para los datos del tiempo que tardan los expertos en realizar la auditoría de un
proceso, el promedio es 60.7 minutos y la desviación estándar es 7.06 minutos.
El coeficiente de variación sería:
CV= SX
∗100=7 . 0660 .7
∗100=11.6 %
Interpretando estos datos, el coeficiente de variación indica que la desviación
estándar de la muestra es el 11.6% del valor de la media de la muestra.
Como medida relativa, el coeficiente de variación resulta especialmente útil
cuando se compara la variabilidad de dos o más conjuntos de datos, que se
expresan en diferentes unidades de medida. Esto se muestra en el siguiente
ejemplo, adaptado del texto Estadística para administración, de Mark L.
Berenson y otros, página 120.
CV= SX
∗100
Suponga que un inversionista desea adquirir acciones en una de dos compañía
A o B, listadas en la Bolsa de Valores. Si ninguna de las compañías ofrece
dividendos a sus clientes y ambas tienen igual clasificación (según los servicios
de inversión) en términos del crecimiento potencial, el inversionista quizá
considere la volatilidad o variabilidad de ambas acciones para ayudar en la
decisión de inversión.
Supóngase que cada acción de la compañía A ha promediado $150.000 en los
últimos meses, con desviación estándar de $30.000. Además, durante el
mismo período el precio promedio de las acciones en la compañía B fue de
$36.000 con una desviación estándar de $12.000. ¿Cómo puede determinar el
inversionista cuáles acciones son más variables?
Solución
En términos de las desviaciones estándar, el precio de las acciones de A
parece más volátil o variable que el de las acciones de B. Sin embargo, como
los precios promedio por acciones de las dos compañías son tan diferentes, es
más conveniente que el inversionista considere la variabilidad del precio
respecto al promedio con el fin de analizar la estabilidad de ambas acciones.
Los coeficientes de variación para las compañías A y B serían:
CV A=SX
∗100= $30 . 000$150 .000
∗100=20.0 % y CV B=
SX
∗100=$ 12. 000$36 . 000
∗100=33 .3 %
En consecuencia, en relación con la media, el precio de las acciones B es más
variable que el de las acciones A.
MEDIDAS DE LOCALIZACIÓN
Hasta el momento se han descrito algunas medidas de tendencia central y de
dispersión. La media es la que más se usa como medida de tendencia central,
mientras que la desviación estándar y la varianza son las más empleadas para
la dispersión. Las medidas de localización relativa se apoyan en la media y la
desviación estándar para ubicar valores particulares de un conjunto de datos.
Valores z
Al usar la media y la desviación estándar se puede determinar la localización
relativa de cualquier observación. Supóngase que hay una muestra de n datos,
con sus valores representados por x1 , x2 , x1 x3 ,. . . .,xn . Además, se han
calculado la media x y la desviación estándar s de la muestra. Existe otro
valor asociado con cada valor xi de los datos que se denomina valor z, el cual
se calcula con la siguiente ecuación:
Donde,
zi : valor de z del elemento xi
x : media de la muestra
s : desviación estándar de la muestra.
Con frecuencia se le da el nombre de valor estandarizado al valor de z. El
valor zi se interpreta como el número de desviaciones estándar que dista xi de
promedio x . Por ejemplo, si zi=1 . 2 indica que x1 es 1.2 desviaciones
estándar por encima de la media de la muestra. Igualmente, z2=−0 .5 indica
que x2 está a 0.5, o ½ desviación estándar por debajo de la media de la
muestra. Obsérvese que los valores de z positivos corresponden a
observaciones o datos con valores mayores que la media, y que los valores de
z negativos corresponden a observaciones con valores menores que la media.
Un valor z igual a cero indica que el valor de una observación es igual a la
media.
zi=x i−xs
Los valores de z para el ejemplo de la tabla 1, donde se presenta el salario, en
millones de pesos, de los gerentes de una cadena de almacenes, con media
$9.57 millones y desviación estándar $6 millones, serán:
Tabla 3. Valores z para el salario en millones de pesos de gerentes
SALARIO (millones)
x i
DESVIACIÓN
( x i−x )
VALOR Z
xi−xs
3,5 -6.07 -1.01
4,5 -5.07 -0.84
6,0 -3.57 -0.60
8,0 -1.57 -0.26
10,0 0.43 0.07
15,0 5.43 0.90
20,0 10.42 1.74
Fuente: Datos hipotéticos
Obsérvese que el valor z de 1.74 para el séptimo dato indica que es el más
alejado del promedio; está a 1.74 desviaciones estándar por encima del
promedio.
Teorema de Chebyshev
El teorema de Chebyshev permite inferir la proporción de valores que deben
quedar dentro de una cantidad específica de desviaciones estándar respecto a
la media.
Teorema de Chebyshev
Cuando menos (1−
1z2 )
de los datos debe estar a menos de z desviaciones estándar de separación respecto a la media, siendo z cualquier valor mayor que 1.
Por ejemplo, cuando z es igual a 2, 3 y 4 desviaciones estándar, se tienen las
siguientes implicaciones a partir del teorema de Chebyshev:
Cuando menos, el 0.75 o 75% de los datos debe estar a menos de 2
desviaciones de la media (z = 2).
Cuando menos, el 0.89 u 89% de los datos debe estar a menos de 3
desviaciones de la media (z = 3).
Cuando menos, el 0.94 o 94% de los datos debe estar a menos de 4
desviaciones de la media (z = 4).
Como ejemplo de la aplicación del teorema de Chebyshev, supóngase que las
puntuaciones de un examen de ingreso de 100 aspirantes al programa de
Administración de una universidad tuvieron un promedio de 70 puntos y una
desviación estándar de 5 puntos. ¿Cuántos aspirantes tuvieron puntuaciones
entre 60 y 80? ¿Cuántos entre 58 y 82?
Para las puntuaciones de 60 a 80 se observa que el valor 60 está a dos
desviaciones estándar por debajo del promedio: (60-70)/5 = -2, y que el valor
80, a dos desviaciones estándar por encima del promedio: (80-70)/5 = +2. Al
aplicar el teorema de Chebyshev, cuando menos el 0.75 o 75% de los datos
debe tener valores menores de dos desviaciones estándar del promedio. Así,
cuando menos o mínimo 75 de los 100 aspirantes deben haber obtenido
puntuaciones entre 60 y 80.
Para las puntuaciones entre 58 y 82, (58-70)/5 = -2.4 indica que 58 están a 2.4
desviaciones estándar por debajo del promedio, y que (82-70)/5 = +2.4 indica
que 82 están a 2.4 desviaciones estándar por encima del promedio. Aplicando
el teorema de Chebyshev con z = 2.4 se obtiene:
(1−1z2 )=[1−
1(2 . 4 )2 ]=0 . 826
Lo que significa que, mínimo 82.6% de los aspirantes deben tener
puntuaciones entre 58 y 82.
La regla empírica
Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier
conjunto de datos, independientemente de la forma de la distribución de los
mismos. Sin embargo, en las aplicaciones prácticas se ha encontrado que
muchos conjuntos de datos tienen una distribución en forma de colina o de
campana. Cuando se cree que los datos tienen aproximadamente esa
distribución, se puede aplicar la regla empírica para determinar el porcentaje de
elementos que debe estar dentro de determinada cantidad de desviaciones
estándar respecto al promedio.
Por ejemplo, en una línea de producción se llenan, automáticamente, envases
de plástico con detergente líquido. Con frecuencia, el volumen de llenado tiene
una distribución en forma de campana. Si el volumen promedio de llenado es
de 16 cm3 y la desviación estándar 0.25 cm3, se puede aplicar la regla empírica
para concluir:
Regla empírica para datos con distribución en forma de campana
Aproximadamente 68% de los elementos están a menos de una desviación estándar de la media.
Aproximadamente 95% de los elementos están a menos de dos desviaciones estándar de la media.
Casi todos los elementos están a menos de tres desviaciones estándar de la media.
Aproximadamente 68% de los envases llenos tienen entre 15.75 y 16.25
cm3 (esto es, menos de una desviación estándar de la media).
Aproximadamente 95% de los envases llenos tienen entre 15.50 y 16.50 cm3
(esto es, menos de dos desviaciones estándar de la media).
Casi todos los envases llenos tienen entre 15.25 y 16.75 cm3 (esto es, menos de tres desviaciones estándar de la media).
Sesgo o forma
El sesgo o forma es la manera como se distribuyen los datos. La distribución
de los datos es simétrica (en forma de campana) o no lo es. Si no es simétrica,
recibe el nombre de distribución asimétrica o sesgada.
Para describir el sesgo o la forma, se deben comparar la media y la mediana.
Si ambas medidas son iguales, por lo general se considera que los datos son
simétricos (o con sesgo cero). Por el contrario, si la media es mayor que la
mediana, los datos se describen como sesgados a la derecha, o con sesgo
positivo. Si la media es menor que la mediana, los datos suelen llamarse
sesgados a la izquierda, o con sesgo negativo. Es decir,
El sesgo positivo surge cuando la media aumenta debido a algunos valores
grandes y poco usuales; el sesgo negativo ocurre cuando la media se reduce
debido a algunos valores muy pequeños. Los datos son simétricos cuando en
realidad no hay valores extremos en ninguna dirección, de tal manera que los
valores grandes y pequeños se equilibran.
Media > Mediana: sesgo positivo o a la derecha
Media = Mediana: simetría o sesgo cero
Media < Mediana: sesgo negativo o a la izquierda
Forma o sesgo de un conjunto de datos
La grafica muestra la forma o sesgo de tres conjuntos de datos. Los datos del
primer cuadro son simétricos; cada mitad de la curva es la imagen del espejo
de la otra mitad. Los valores grandes y pequeños se compensan, y la media es
igual a la mediana.
Los datos del cuadro del centro tienen sesgo negativo o a la izquierda. Se
observan una cola larga y una distorsión hacia la izquierda, causadas por
valores en extremo pequeños. Estos valores tan pequeños jalan la media
hacia abajo y resulta menor que la mediana. Los datos del tercer cuadro tienen
un sesgo positivo o a la derecha. Se observan una cola larga hacia la derecha
de la distribución y una distorsión hacia la derecha, causadas por valores muy
grandes. Estos valores en extremo grandes jalan la media hacia arriba y
resulta mayor que la mediana.
El sesgo para el ejemplo de la tabla 3, donde se presenta el salario, en millones
de pesos, de los gerentes de una cadena de almacenes, con media $9.57
millones y mediana $8 millones, será positivo o a la derecha, dado que la
media es mayor que la mediana. Además, el conjunto de datos presenta un
valor extremo muy alto, el cual atrae la media hacia el extremo derecho de la
distribución.
Diagrama de caja o bigotes
El diagrama de caja o bigotes es un resumen gráfico de los datos basado en el
resumen de cinco números.
En un resumen de cinco números se emplean cinco cantidades para resumir
los datos:
Valor mínimo
Primer cuartil (Q1)
Mediana (Me = Q2)
Tercer cuartil (Q3)
Valor máximo
La forma más ágil de elaborar un resumen de 5 números es poner los datos en
orden ascendente. Así facilita la identificación del valor mínimo, los tres
cuartiles y el valor máximo.
Por ejemplo, los salarios mensuales, en miles de pesos, de 12 egresados de un
programa de Administración son 2.940, 2.920, 2.950, 2.710, 2.850, 2.755,
2.890, 2.880, 2.880, 3.130, 3.325 y 3.050.
Organizando los datos y calculando los cuartiles, se tiene la siguiente
distribución:
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
Q1 = 2865 Q2 = 2905
(Mediana)
Q3 = 3000
Al analizar los datos anteriores se ve un valor mínimo de 2.710 y un valor
máximo de 3.325 miles de pesos. Así, el resumen de los cinco números de los
datos de salarios es 2.710, 2.865, 2.905, 3.000 y 3.325 miles de pesos.
Aproximadamente una cuarta parte, 25% de los valores de los datos, están
entre dos números adyacentes del resumen de cinco números.
El diagrama de caja y bigotes resume gráficamente los cinco números. Los
pasos para trazar un diagrama de caja y bigotes son los siguientes:
Se traza un rectángulo con los extremos en el primer y tercer cuartiles.
Este rectángulo contiene el 50% intermedio de los datos. Para los datos
de salarios Q1 = 2.865 y Q3 = 3.000.
En la caja se traza una recta vertical en el lugar de la mediana (2.950
para los datos de salarios). Así, la línea de la mediana divide los datos
en dos partes iguales.
Se ubican los límites mediante el rango intercuartil, RIC = Q3 - Q1. Los
límites en el diagrama de caja están a 1.5(RIC) por debajo de Q1 y
1.5(RIC) por encima de Q3 . Para los datos de salarios RIC = Q3 - Q1 =
3.000 – 2.865 = 135. Así, los límites son 2.865 – 1.5(135) = 2.662,5 y
3.000 + 1.5(135) = 3.202,5. Se considera que los datos fuera de estos
límites son valores atípicos.
Los bigotes de la caja se trazan con líneas punteadas, desde los
extremos de la caja hasta los valores mínimo y máximo dentro de los
límites. Así, los bigotes terminan en los valores de salarios de 2.710 y
3.130.
Por último, se marcan con un asterisco (*) las localizaciones de los
valores atípicos. Para el ejemplo se localiza un valor atípico de 3.325.
Diagrama de caja y bigotes con líneas que muestran los límites
En la gráfica se trazaron las líneas que indican el lugar de los límites con el fin
de mostrar cómo se calculan éstos y dónde se ubican en el caso de los
salarios. Aunque siempre se calculan, por lo general no se trazan en los
diagramas de caja. En la gráfica se muestra el aspecto habitual de un
diagrama de caja y bigotes para los datos de los salarios.
Diagrama de caja y bigotes de los sueldos mensuales de un grupo de egresados de un programa de Administración
Observación
Al utilizar el diagrama de caja y bigotes se tiene la opción de identificar los
mismos valores atípicos que los encontrados con el método de valores z:
menores que –3 y mayores que +3. Sin embargo, el objetivo de ambos
métodos es identificar elementos que se deben revisar para asegurar la validez
de los datos. Se deben revisar los valores atípicos identificados por cualquiera
de los métodos.
Curtosis
La curtosis mide si los valores de la distribución están más o menos
concentrados alrededor de los valores medios de la muestra. El coeficiente
percentil de Curtosis (k) analiza el grado de concentración que presentan los
valores alrededor de la zona central de la distribución; se calcula con la
siguiente ecuación:
Donde,
Q3: tercer cuartil.
Q1: primer cuartil.
P90: percentil 90.
P10: percentil 10.
Nota: es importante recordar que el P10 es igual al D1 y el P90 es igual al D9.
Según el coeficiente de Curtosis, se definen 3 tipos de distribuciones, los
cuales se ilustran en la gráfica:
Tipos de distribución según el coeficiente de Curtosis
Distribución mesocúrtica: presenta un grado de concentración medio
alrededor de los valores centrales de la variable (el mismo que presenta una
distribución simétrica o normal). El valor de k = 0.263.
Distribución leptocúrtica: presenta un elevado grado de concentración
alrededor de los valores centrales de la variable. El valor de k > 0.263.
Distribución platicúrtica: presenta un reducido grado de concentración
alrededor de los valores centrales de la variable. El valor de k < 0.263.
k=12 (Q3−Q1 )
P90−P10
Para el ejemplo de la tabla sobre el tiempo que tarda un grupo de expertos en
realizar la auditoría de un proceso, Q1 = 55.12, Q3 = 64.72, P10 = D1 = 44.7 y
P90 = D9 = 70.9.
El coeficiente percentil de Curtosis (k) será:
k=12 (Q3−Q1 )
P90−P10=
12 (64 . 72−55 .12 )
70. 9−44 . 7=
0 . 5(9 .6)26 .2
=4 . 8
26 . 2=0. 183
Por lo tanto, el coeficiente percentil de Curtosis es 0.183, lo que quiere decir
que se trata de una distribución platicúrtica, es decir, con una reducida
concentración alrededor de los valores centrales de la distribución.