Download - Análisis Estadístico
-
Escuela de Ingeniera Industrial y Estadstica
Introduccin Al
Anlisis Exploratorio de Datos
Roberto Behar Gutirrez.
-
Introduccin al Anlisis Exploratorio de datos
2
-
R. Behar
3
Introduccin al Anlisis Exploratorio de Datos
Por
Roberto Behar Gutirrez
Universidad del Valle
-
Introduccin al Anlisis Exploratorio de datos
4
Titulo: Introduccin al Anlisis Exploratorio de Datos
Roberto Behar Gutirrez, 2008
Email: [email protected] [email protected]
Versin 2.0 , Cali, Colombia, 2009
Edicin Intrauniversitaria, Universidad del Valle
-
R. Behar
5
Prologo El Anlisis Exploratorio de Datos, (AED) es un enfoque, una actitud frente a los datos,
apoyado en un conjunto de herramientas grficas y sntesis de los datos. El profesor John
Tukey acuo este nombre, Exploratory Data Analysis en la dcada de los setenta, cuando
public su famoso libro que lleva ese nombre, a travs de la editorial Addison-Wesley.
Anlisis Exploratorio en contraposicin con el Anlisis Confirmatorio. En este ltimo, se
supone que previo a la toma de los datos, estn planteadas unas hiptesis que pretenden ser
confrontadas con la observacin de la naturaleza, a travs de diseos de experimentos o de
estudios observacionales meticulosamente planeados para obtener datos que permitan
contrastar las hiptesis preestablecidas.
Las ideas de Tukey, en este enfoque, restan importancia a las hiptesis enunciadas a
priori. Tukey dice: Hay que dejar que los datos hablen, en este sentido el Anlisis
Exploratorio de Datos puede convertirse en una mina generadora de hiptesis plausibles.
El libro de Tukey mencionado anteriormente, surge en una poca en la que la computacin
estaba desarrollndose, no haban grandes desarrollos de Software. Sin embargo hoy en da,
todos los paquetes de software estadstico, incluyen sus ahora conocidos diagramas de caja
y alambres, los diagramas de tallos y hojas, los diagramas de puntos, entre otros. La
mayora de las ideas planteadas por Tukey en su libro, estn por ser difundidas y usadas.
Esta obra, se ha llamado Introduccin al Anlisis Exploratorio de Datos, pues trata solo
unas pocas herramientas muy tiles, entre las cientos de ideas plantadas por Tukey.
Un par de discpulos de Tukey, Valleman y Hoaglin, escribieron en 1981 un libro que
llamaron The ABC's of EDA: Applications, Basics, and Computing of Exploratory, muy
seguramente con los mismos argumentos.
-
Introduccin al Anlisis Exploratorio de datos
6
Mi colega y amigo Jorge Martnez Collantes, profesor de la Universidad Nacional de
Colombia, uno de los primeros doctores en estadstica en el pas, tambin discpulo del
profesor Tukey fue el primero en difundir las ideas sobre Anlisis Exploratorio en
Colombia.
En este libro, se desarrollan las ideas bsicas del Anlisis Exploratorio de Datos, a travs
de situaciones problema que pretenden poner en contexto las herramientas grficas y
algunos indicadores estadsticos.
Este material ha sido usado por varios cientos de estudiantes de pregrado y de posgrado. Se
ha usado en el curso de Anlisis de Datos de la Especializacin en Estadstica Aplicada y
en el programa de Posgrado en Ingeniera Industrial.
Esta que he llamado versin 2.0, fue mejorada en su estilo, con respecto a la versin
anterior, gracias al apoyo de Nancy Jelen Valencia, estudiante de la maestra de ingeniera
Industrial quien revis la versin 1.0.
Creo que todo producto es mejorable y en particular este libro. El proceso de mejora es
dinmico y es justamente de la observacin del proceso de enseanza-aprendizaje, el
escenario ms idneo para detectar posibles oportunidades de hacerlo mejor, por
sugerencia de colegas y estudiantes que lo usen.
El autor
Santiago de Cali, Julio 13 de 2009.
-
R. Behar
7
El ABC del Anlisis Exploratorio de
Datos. Introduccin. En el captulo anterior, se ha hecho nfasis en el aporte de la estadstica en la bsqueda del
conocimiento, proporcionando un marco y herramientas para detectar el mensaje, la
informacin que los datos contienen, pero que se encuentra mezclada con un ruido, que se
hace homlogo a una variacin aleatoria.
La estadstica y el pensamiento estadstico, intentan descubrir patrones de comportamiento
en lo datos, en un ambiente de variabilidad e incertidumbre. En el captulo 1, se present un
modelo de pensamiento estadstico propuesto por Wild y Pfunnkuch (1999), que nos hace
conscientes de la complejidad del proceso de pensamiento, de una jerarqua tan alta, que
trasciende el clsico uso de frmulas y algoritmos estadsticos. Queda muy claro, que al
enfrentar una situacin problema, es necesario recorrer un camino de reflexin, de
comprensin del contexto, de valoracin de la naturaleza del problema, de conocimiento de
las consecuencias del mismo, de precisin en la definicin operativa de conceptos y
caractersticas, de sus procesos medicin, de claridad en el objetivo que se propone. Todo
esto, es necesario para el proceso de transnumeracin, para buscar exprimir la informacin
-
Introduccin al Anlisis Exploratorio de datos
8
contenida en los datos. En este sentido es muy til, el recurso grfico, la medicin de
algunos rasgos de los datos, que nos ayudan a establecer diferencias, a conformar grupos a
sacar el diamante en bruto del fango. A esta fase se le conoce frecuentemente como anlisis
exploratorio de datos. Este nombre y muchas de las herramientas grficas asociadas con l,
son aportes del famoso estadstico John Tukey.
Se ilustran a continuacin algunas de estas herramientas exploratorias, a travs de algunos
casos. No siempre se requiere aplicar todas estas herramientas. Al igual que el cirujano, o el
mecnico, cada instrumento surge de una necesidad y un propsito. Es natural, que para un
mismo propsito estn disponibles varios instrumentos y ser el criterio particular de quien
decide, usar el que considere ms conveniente. En los casos que se presentan algunas veces
se muestra el uso de dos o ms instrumentos para lograr el mismo propsito, con la
intencin de ilustrar su uso.
Ejemplo. Caso de la fabricacin de Chocolates
La fbrica de chocolate, tiene indicios que el peso de las barras que produce, presenta una
variabilidad ms alta que la deseada, no obstante que el peso nominal es de 30 gramos.
Se desea estudiar esta situacin e identificar algunas acciones que permitan generar una
mejora en cuanto a la heterogeneidad.
Qu tan grave es la situacin. Dado que la variabilidad es inevitable, qu quiere decir una
variabilidad ms alta que la deseada? Cul es la deseada? Cul es el peso de las barras
de chocolate que se producen?
La respuesta a esta ltima pregunta no es un solo nmero, porque existe variabilidad,
porque se sabe que es inevitable que todas las barras de chocolate salgan con peso
diferente.
-
R. Behar
9
Una muestra aleatoria de barras de chocolate es obtenida, los pesos registrados aparecen a
continuacin:
30,44 29,96 30,14 29,96 29,83 30,47 30,26 29,77 30,13 29,91 30,02 29,76 30,3 30,01 30,2 30,1 30,1 30,35 30,07 29,85 29,67 29,67 29,95 30,05 30,15 30,22 30,07 30,06 29,69 29,67
No obstante que son solo 30 datos, obtener alguna conclusin solo mirando los datos
anteriores es difcil. Para tener una primera mirada de la situacin podemos recurrir al ms
sencillo de los grficos un diagrama de puntos. (dot plot).
Diagrama de puntos.
Figura 1. Diagrama de puntos para el peso de barras de chocolate en una muestra aleatoria de 30
unidades.
El diagrama de puntos consiste en ir colocando los valores de la muestra sobre un eje
metrizado, de tal manera que si dos valores coinciden o estn muy cercanos se coloca un
punto arriba del otro. Es un grfico muy sencillo, que permite ver de un solo golpe de vista
todos los datos, su ubicacin relativa, las zonas donde estn ms concentrados y si aparecen
algunas posibles anomalas (puntos atpicos). Este grfico es muy til, sobre todo cuando la
muestra no es demasiado grande. En tal caso, es una mejor herramienta grfica, el
histograma que presentaremos mas adelante.
-
Introduccin al Anlisis Exploratorio de datos
10
Se detecta que los datos varan entre los valores extremos de 29.67 gramos (mnimo) y
30,47 gramos (mximo). A la diferencia se le denomina rango.
Rango = Mximo-Mnimo=30,47 gr - 29,67 gr = 0,8 gr
Podemos responder ahora la pregunta? Existe demasiada variabilidad?
Sabemos que la diferencia entre la barra ms pesada y la ms liviana es de 0,8 gramos. Es
grande este valor? Para intentar responder, como clientes de los chocolates, hacemos
conciencia que si en el mercado nos dieran una barra de chocolate de 29, 7 gramos, cuando
en el empaque dice 30 gramos, muy seguramente no lo notaramos, de la misma manera si
la barra pesara 30,5 gramos, tampoco nos enteraramos del exceso. La reflexin anterior,
nos hara pensar, en calidad de consumidores, que la variabilidad revelada en la muestra no
es exagerada.
Sin embargo, desde el punto de vista del fabricante otro podra ser el panorama, pues por un
lado, para la industria de alimentos y los procesos de empacado, existe la legislacin que
toma en consideracin la variabilidad, pero que define normas muy precisas para su
control. En esta situacin la pregunta podra convertirse en: estamos cumpliendo con las
normas legales?
Por otro lado, dependiendo de la capacidad de los procesos de la fbrica y de las polticas
de la empresa frente a la competitividad, la propia empresa podra tener normas internas de
calidad, mucho ms exigentes que las normas legales. En este casos la pregunta sera:
estamos cumpliendo con las normas y polticas de la empresa?
En ambos casos, para emitir un juicio, requeriramos de las especificaciones para el
producto.
-
R. Behar
11
Imaginemos que la empresa por todas las consideraciones anteriores, ha definido el
siguiente lmite de especificacin: una barra de chocolate se considera conforme si su peso
se encuentra entre 29,7 gramos y 30,3 gramos.
Qu nos dice la muestra frente a estas especificaciones?
Calculemos pues, con este criterio, qu porcentaje de las barras de chocolate de la muestra
no cumplen con las especificaciones.
La respuesta puede deducirse a partir del siguiente diagrama de puntos en el que se han
marcado los lmites de especificacin para las barras de chocolate.
Figura 2. Valoracin de la variabilidad al confrontar la muestra con los lmites de especificacin del
producto.
Observemos que de las 30 barras de chocolate hay 5 que no cumplen con las
especificaciones definidas por la fbrica, lo cual representa aproximadamente es un 17%, lo
cual denota una situacin delicada.
-
Introduccin al Anlisis Exploratorio de datos
12
Esta exploracin, nos ha permitido corroborar la sensatez de la presuncin que ha dado
origen a estas pesquisas.
Antes de seguir adelante, conviene plantear una reflexin, a la cual daremos curso en el
ltimo captulo de este libro. Si tomramos de nuevo una muestra aleatoria de 30 barras,
obtendramos exactamente los mismos resultados?
El equipo humano que est abordando este problema se rene con el propsito de especular
sobre las posibles causas que pueden estar dando origen a este problema de variabilidad.
Despus de mltiples consideraciones, creen que:
Una posible causa es la variabilidad de la viscosa colada de chocolate. Siendo los moldes de volumen constante, al variar la densidad la colada, se producen barras
con diferente peso.
La variabilidad de la densidad puede ser debida a una falta de control en la temperatura de coccin.
Para contrastar estas hiptesis se decide tomar nuevos datos, esta vez midiendo
simultneamente la temperatura de coccin y la densidad de la colada.
En una muestra aleatoria de 50 datos se obtiene lo siguiente valores:
Fabricacin barras de chocolate Temperatura Densidad Temperatura Densidad
102.1 1.55 104.5 1.49 106.7 1.45 103.3 1.54 97.3 1.62 107.7 1.46 100.6 1.59 94.7 1.70 94.3 1.67 95.9 1.66
-
R. Behar
13
Fabricacin barras de chocolate Temperatura Densidad Temperatura Densidad
101.1 1.56 97.8 1.64 94.7 1.72 97.3 1.66 104.1 1.52 99.7 1.60 98.7 1.63 100.6 1.59 104.4 1.51 98.0 1.63 98.9 1.63 108.7 1.43 102.3 1.56 108.3 1.43 91.1 1.79 96.2 1.67 100.3 1.57 100.8 1.60 105.3 1.51 100.2 1.59 99.6 1.65 98.6 1.64 100.0 1.59 97.8 1.63 104.1 1.51 104.5 1.50 102.6 1.56 100.2 1.57 100.6 1.59 97.2 1.65 92.1 1.74 100.6 1.59 94.9 1.69 101.6 1.58 96.1 1.67 103.4 1.56 107.7 1.42 104.2 1.55 102.3 1.55 102.3 1.53
Con base en estos datos, hay evidencia de excesiva variabilidad en los valores de la
densidad?
De nuevo requerimos referentes para emitir un juicio sobre la magnitud de la variabilidad
de la densidad.
Para ello se procedi a la siguiente manera: conociendo el volumen de los moldes, se hizo
la pregunta: cul debe ser la densidad de la colada para que una barra de chocolate tenga
un peso igual al lmite inferior de especificacin, es decir 29,7 gramos? Anlogamente para
-
Introduccin al Anlisis Exploratorio de datos
14
lmite superior 30,3 gramos? Al responder esta pregunta surgieron de manera natural los
lmites de especificacin para la densidad:
Limite inferior: 1.52 gramos/c.c Lmite Superior: 1.68 gramos/c.c Valor nominal: 1.60 gramos/c.c
Esto significa que cuando la densidad es 1,60 gramos/CC, el peso de la barra de chocolate
coincide con el Valor nominal 30 gramos.
Cuando la densidad alcanza el Valor 1,52 gramos/CC, el peso de la barra de chocolate
coincide con el lmite inferior 29,7 gramos y cuando la densidad es 1,68 gramos/CC el
peso de la barra de chocolate queda en 30,3 gramos.
Con base en estos nuevos lmites de especificacin para la densidad juzguemos la nueva
muestra de la 50 barra de chocolate.
Como puede apreciarse en el diagrama de puntos de la Figura 3, 11 de los 50 valores no
cumplen con las especificaciones, lo cual representa el 22%, es decir casi una de cada 4
resultaron no conformes, lo cual es una evidencia que no contradice la hiptesis que se
haba planteado. El problema es grave y la variabilidad en la densidad es un factor
importante.
Puede observarse sin embargo que el valor nominal 1,60 gramos/CC est ubicado en el
centro de los datos, lo cual habla bien del centramiento del proceso. En otras palabras, se
estn produciendo barras de chocolate que en promedio tienen 30 gramos, pero la
variabilidad supera lo deseable.
-
R. Behar
15
Este es una buena ilustracin de lo peligroso que podra ser controlar un proceso y en
general tomar decisiones solo con el promedio. La dupla centramiento y variabilidad debe
ser siempre inseparable.
Figura 3. Confrontacin de los valores de la muestra de 50 valores de la densidad contra sus lmites de
especificacin
Queda pendiente una importante pesquisa, definida con la pregunta:
Est relacionada la variabilidad de la densidad con la variabilidad de la
temperatura?
Para dar respuesta esta pregunta, construiremos el grfico conocido como diagrama de
dispersin o diagrama bivariante, que consiste en dibujar los puntos de las parejas:
(temperatura y densidad), en un plano cartesiano en cuyo eje X, colocaremos la temperatura
y en el eje Y. la densidad.
El diagrama de dispersin se muestra en la Figura 4.
-
Introduccin al Anlisis Exploratorio de datos
16
Diagrama Bivariante o Diagrama de Dispersin
Figura 4. Relacin fuerte entre Densidad y Temperatura, evidenciada por un diagrama de dispersin.
En el grfico de la Figura 4, se pone en evidencia una muy fuerte relacin estadstica entre
la temperatura y la densidad. El diagrama de dispersin pone en evidencia que dicha
relacin es rectilnea y adems inversa, es decir que la densidad decrece proporcionalmente
con el aumento de la temperatura.
-
R. Behar
17
Se ha trazado sobre la nube de puntos una recta que marca la tendencia y que se conoce
como Recta de Regresin. Como puede observarse no siempre para una misma temperatura
se genera exactamente la misma densidad, aunque los valores, en este caso estn bastante
cercanos. Por esa razn los valores de la densidad que se calculen con base en la recta,
puede interpretarse como la densidad media que se produce para una temperatura
especfica, si se repitiera muchas veces la observacin de la densidad a esa misma
temperatura.
As por ejemplo, vemos que cuando la temperatura es 100C, la densidad est alrededor de
1,60 gr/CC, que es el valor ideal de la densidad, con la cual se producen barras de chocolate
de 30 gramos.
Los valores crticos de la temperatura, como se sealan en el grfico, corresponden a 96C
y a 104C, con las cuales se logran las densidades crticas, de 1,52 gr/CC y de 1,68 gr/CC.
Conclusin
De este anlisis exploratorio puede recomendarse controlar la temperatura del
proceso de tal manera que se mantenga entre 96C y 104C, y preferiblemente muy
cerca de 100C.
Recta de Regresin
En el grfico de la Figura 4, se hace explcita la ecuacin de la recta de Regresin
lineal, que pasa siempre por el centro de gravedad de los puntos y logra hacer
mnima la suma de los cuadrados de las desviaciones verticales de los datos a la
recta. Valindonos de dicha expresin, podramos estimar la densidad media que se
-
Introduccin al Anlisis Exploratorio de datos
18
obtendra para cualquier temperatura dentro del rango estudiado. As por ejemplo
para una temperatura T= 98C, se obtendra una densidad media de:
Densidad media = 3,548 -0,01952 (98) = 1,63 gr/CC
Lo cual significa que si se controla la temperatura a 98 C, se espera que la media de la
densidad de la colada se encuentre alrededor de 1,63 gr/CC.
Como puede apreciarse disponer de una recta de Regresin es bastante til para hacer
predicciones en el rango observado.
En el grfico tambin se aprecia un valor asociado con algo llamado coeficiente de
correlacin lineal. Dicho valor es -0,98. Cul es su significado?
Coeficiente de Correlacin Lineal.
Este coeficiente, es muy usado desde hace casi un siglo, su valor siempre se encuentra en el
rango entre - 1 y 1. Su significado est asociado con el grado en que la nube de puntos se
acomoda en un espacio geomtrico rectilneo. As por ejemplo, el coeficiente de correlacin
lineal toma los valores extremos 1 o +1, cuando la nube de puntos se deja atrapar en
forma perfecta por una recta, es decir todos los puntos del diagrama de dispersin cae sobre
la recta. A medida que la nube de puntos se hace ms dispersa alrededor de alguna recta,
este coeficiente se acerca al valor 0. Veamos algunos casos, para hacernos una idea ms
precisa. Cuando la nube de puntos se ajusta alrededor de una recta con pendiente positiva,
el coeficiente de correlacin lineal tendr signo positivo, en caso contrario, tendr signo
negativo, como se ilustra en laFigura 5.
-
R. Behar
19
Cuando una nube de puntos es amorfa, como una bola o con una configuracin alrededor de
una recta horizontal, el correlacin lineal muy seguramente estar prximo a cero.
Veamos algunas situaciones:
Figura 5. Diagramas de dispersin y sus coeficientes de correlacin lineal.
Cmo se calcula el coeficiente de correlacin lineal?
Se tienen n unidades de observacin en la muestra aleatoria y cada una de ellas se miden
dos caractersticas X e Y, como en el ejemplo la temperatura y la densidad.
-
Introduccin al Anlisis Exploratorio de datos
20
Individuo ( , )i ii X Y
( )( )( )
1
22
1( )
n
i ii
n
i ii
X X Y Yr
X X Y Y
=
=
=
Hoy en da, hasta las calculadoras ms baratas lo incluyen. Observe alguna tecla que tenga
la letra r.
Comentarios. Una pobre relacin entre dos variables, puede darse por mucha razones como las siguientes:
a) Cuando el rango de variacin de una de ellas no es suficientemente amplio como para observar cambios en la otra. Por ejemplo edad y estatura. Si en la muestra el rango de edades est entre 11 y 12 aos, se percibir un diagrama de dispersin amorfo y por lo tanto un pobre coeficiente de correlacin lineal. Sin embargo si la muestra considera un rango de edades entre 6 y 12 aos, la forma del diagrama de dispersin ser muy distinta y estamos haciendo referencia a las mismas variables.
b) Otra razn puede ser la no consideracin de otras variables de inters en la explicacin de la variacin. En el mismo ejemplo anterior, de la edad y la estatura, si adems de un rango amplio de edades, consideramos el gnero y hacemos diagramas de dispersin separados para hombres y mujeres, seguramente mejorar la asociacin.
c) Otra razn puede ser que efectivamente las dos variables no est asociadas, como podra ser la estatura de un adulto y sus ingresos mensuales.
-
R. Behar
21
Ejemplo. El caso de Moto Pizza1.
Antecedentes.
Motopizza es un negocio de pizzas a domicilio que fue lanzado en octubre de 2001.
La estrategia de negocios se basaba en tener tiempos de entrega menor que sus
competidores (25 minutos), si se exceda este plazo se haca un descuento a favor del
cliente de 25%. Slo se atiende a clientes de una zona cercana en la cual se concentra la
publicidad local.
La propuesta fue bien recibida por el pblico y la red se extendi rpidamente. A finales de
2003 ya contaba con 14 establecimientos en tres ciudades. Los establecimientos pertenecan
a Motopizza siendo socios los encargados que pasaban por un proceso de formacin.
Las instalaciones y los procesos eran comunes en los 14 establecimientos.
El negocio marchaba viento en popa hasta que finales de 2003 comenzaron a incrementarse
en forma alarmante las quejas de los clientes por retraso en la entrega de los pedidos, con el
consiguiente impacto sobre la economa del negocio, por su poltica de descuento por
retraso.
1 Este caso est basado en un caso del mismo nombre que usan los colegas de la Universidad Politcnica de
Catalua, en los cursos de capacitacin Seis Sigma.
-
Introduccin al Anlisis Exploratorio de datos
22
La direccin decidi emprender un programa de bsqueda cientfica de las causas (seis
sigma) involucrando los socios encargados. Uno de los primeros proyectos piloto tena
como objetivo reducir el porcentaje de entrega es con retraso.
La informacin cuantificada disponible era muy escasa, ya que el rpido crecimiento haba
desbordado los sistemas y no exista cultura de gestin con base en datos.
Tras una fuerte discusin en el comit de direccin se estim que el porcentaje de entrega
con retraso estaba entre un 10% y un 15% y que el nivel aceptable era mximo un 3%. Se
cree que este nivel puede alcanzarse si los tiempos de entrega tienen magnitud de 20 5
minutos.
Se estima que las prdidas econmicas al ao, ascienden a Col$ 500 millones. El 80% de
este dinero podra recuperarse si se mejora en los tiempos de entrega.
Con esta informacin de partida se puso en marcha un equipo de cinco encargados de
establecimientos que se consideraban representativos liderados por un Black Belt2
entrenado por la UPC.
A continuacin se presenta un mapa del proceso llamado normalmente SIPOC por su
iniciales en Ingls: Suppliers, Inputs, Process, Outputs, Customers. Que podra traducirse
respectivamente como Proveedores, Entradas al Proceso, Proceso, Salidas del Proceso Y
Clientes.
Veamos el SIPOC para el proceso de fabricacin de Pizzas de Motopizza.
2 Un Black Belt es un funcionario con una muy fuerte capacitacin en herramientas cuantitativas, especialmente en Estadstica. Esta denominacin es tpica en los procesos de capacitacin conocidos como Seis Sigma.
-
R. Behar
23
Mapa del proceso (SIPOC)
Figura 6. Mapa de Proceso SIPOC para Motopizza.
En ocasiones se comete un grave error y es suponer que ya se sabe lo que el cliente quiere.
El Black Belt, que dirige el proyecto lo sabe muy bien. La voz del cliente es el insumo ms
importante. Por esta razn organiza dos Focus Group en dos ciudades diferentes. Las
ideas se organizaron con base en un diagrama de afinidad llegando a un gran
descubrimiento.
La voz del cliente.
Se descubri que 30 minutos es un tiempo de entrega aceptable para el cliente siempre y
cuando la pizza llegue caliente.
-
Introduccin al Anlisis Exploratorio de datos
24
Dado que esta informacin result de Focus Group se program para ms adelante una
encuesta estratificando por ciudad y por establecimiento, con los siguientes propsitos:
Validar el descubrimiento del Focus Group
Averiguar cuestiones relacionadas con los tipos de Pizza.
Explorar la posibilidad de ofrecer productos complementarios.
Determinacin de las Caractersticas Crticas para el Cliente (CCC).
Las caractersticas crticas para el cliente deben ser expresadas de manera medible de tal
forma que el impacto de algn programa o una estrategia pueda ser valorado. No se puede
mejorar lo que no se puede medir.
Figura 7. Determinacin de las Caractersticas Crticas para el Cliente (CCC) a parir de impulsores.
-
R. Behar
25
La facturacin anual conjunta de todos los establecimientos asciende a 13.000 millones y se
estima que el 15% de las entregas se hacen con retraso, lo cual representa una perdida
aproximada de 500 millones.
El local B2, del cual es encargado el hijo del dueo, tiene contabilizadas las perdidas por
retrasos sin trampas y sus nmeros alrededor de 3 millones mensuales, son bastante
coherentes con las cifras estimadas. El procedimiento usados para la estimacin global de
las perdidas fue avalado por el director financiero de la empresa.
Una sntesis de la situacin se resume en el siguiente cuadro, en el cual se expresa la
problemtica en forma sinttica, se caracterizan las mtricas claves, para las cuales se
intenta definir su punto de partida y adems se establecen las metas que se quieren lograr
con el proyecto y la ganancia que se tendr si estas metas se cumplen.
Descripcin del Problema Retrasos en las entregas originando importantes prdidas econmicas valoradas en Col$ 500 millones y otros perjuicios relacionadas con la prdida de clientes Objetivos Mtrica Valor de partida Valor Objetivo
1. Retrasos % 10-15 3 2. Tiempo de
entrega Minutos ? 25-30
3. Temperatura C ? 80C Resultados Econmicos Esperados Ahorros por aumento en la puntualidad de Col$ 500 millones.
Preguntas Claves a resolver.
En realidad, Cunto se retrasan las pizzas?
A qu temperatura le estn llegando las pizzas a los clientes?
Ocurre lo mismo en todos los establecimientos?
-
Introduccin al Anlisis Exploratorio de datos
26
Unos das de la semana son ms crticos que otros?
Hay ms retrasos en algunas horas especiales del da?
Se retrasan ms los pedidos ms caros?
Se retrasan ms unos motoristas que otros?
Observe que las dos primeras preguntas hacen referencia a lo que hemos llamado variable
de respuesta (Y) y estn orientadas a definir de manera precisa nuestro punto de partida.
Cmo estamos ahora antes de emprender estrategia de mejoramiento?
La respuesta a estas dos preguntas es indispensable, pues si no conocemos el punto de
partida, no podemos valorar el impacto de nuestras acciones o programas.
La restante preguntas estn orientadas a detectar posibles causas, que nos permitan de
manera racional priorizar nuestras acciones tendientes a neutralizar su efecto.
Tener explcitas y bien planteadas un conjunto de preguntas relacionadas con nuestro
propsito, es muy importante, pues a partir de las preguntas, surgirn las caractersticas que
es necesario observar o medir para responderlas. Nos obligan a reflexionar acerca de los
procedimientos idneos para obtener datos vlidos y nos hace prever algunas opciones de
anlisis, a partir de las cuales daremos respuesta a las preguntas.
Surge de manera natural conocer el proceso que empieza con un evento desencadenante
que es una llamada de un cliente y termina con la entrega del pedido. Conocer el proceso,
nos permitir detectar oportunidades de mejora.
-
R. Behar
27
Diagrama del proceso.
Figura 8. Diagrama de flujo del proceso en Motopizza.
El diagrama del flujo es una importante herramienta, que nos permitir planear nuestra
observacin del proceso, identificacin de actividades, deteccin de acciones redundantes y
posiblemente otras que no produce ningn valor agregado.
En el diagrama se han planteado tres etapas: recepcin de llamadas, fabricacin de la pizza,
distribucin y entrega de la misma.
En la fase de distribucin se observa que los clientes estn clasificados por zona (A y B) y
que se van agrupando los pedidos, para armar una ruta para hacer varias entregas.
Existen datos para responder las preguntas formuladas?
-
Introduccin al Anlisis Exploratorio de datos
28
Las mediciones disponibles eran escasas, incompletas y adems muy poco fiables.
Para evitar problemas con la central, se disfrazaban muchas causas de retraso, razn por la
cual la poca informacin disponible estaba distorsionada.
Slo el local B2 dispone de algunos datos relacionados con el monto de dinero perdido por
retrasos, pues por motivacin propia, al percatarse de la gravedad de la situacin, puso en
marcha un estudio.
Durante un mes (Noviembre) el telefonista anot la hora del pedido y los motoristas
anotaron la hora de entrega. No estamos muy seguros de la fiabilidad del sistema de medida
utilizado.
Validacin del sistema de medida
Dado que todo el proyecto y la valoracin de cualquier estrategia de mejora dependen de un
registro vlido de las variables de respuesta o caractersticas crticas para el cliente (CCC),
tiempo de entrega y temperatura de la pizza, en este caso, no es de poca monta garantizar
que las mediciones de esta variables sean vlidas, carentes de sesgos.
Para lograr esto se convierte la hoja de pedido en una plantilla itinerante, y se construye
una definicin operativa del sistema de medida.
Se coloca un reloj digital visible para todos, se dota a todos los motoristas de relojes
digitales sincronizados pide termmetros para situar en una ranura establecida en la caja de
la pizza, para la medicin de la temperatura.
Se explica a los implicados (telefonistas, cocineros, motoristas) la importancia de tomar
buenos datos y los beneficios que se desprenden del proyecto.
-
R. Behar
29
Como procedimiento para la validacin de los datos, se ofrece un descuento en la prxima
orden que realicen, a los clientes que llamen para informar no hora de recepcin del pedido
y su opinin sobre s estaba caliente o no.
Se confrontan los registros obtenidos con este procedimiento, con los datos registrados por
los motoristas en la plantilla itinerante, revelando que el sistema de medida es bastante
fiable.
Recoleccin de nuevos datos
Durante un mes se recogieron datos, con el nuevo sistema de medida validado, al cual se le
realizaron algunas mejoras. Los datos fueron registrados para cinco de los 14
establecimientos, que se consideraron bastante representativos.
A continuacin, se describen las caractersticas de los establecimientos observados.
Establecimiento Antigedad Volumen Ubicacin Tipo
M1 2 aos Mas de Col$ 1500 millones Madrid A
M6 4 meses Col$ 600-1500 millones Madrid C
B2 2 aos Mas de Col$ 1500 millones Barcelona A
B3 1,5 aos Col$ 600-1500 millones Barcelona B
V1 3 meses Menos de Col$ 600 millones Valencia A
Se consider ms conveniente, recoger datos de todos los pedidos en lugar de hacer
Muestreo. Se continu validando el sistema de medida durante el proceso de recoleccin.
Al registrar los datos en la hoja de pedido, se poda estratificar por: hora, tipo de pizza,
zona de la ciudad, motorista.
Se proporcion un espacio para escribir observaciones.
-
Introduccin al Anlisis Exploratorio de datos
30
Responder Preguntas (datos existentes).
Los datos recogidos, por el local B2, antes del estudio, nos permiten tener una primera
respuesta sobre el impacto del da de la semana en el volumen de ventas.
Son todos los das iguales?
Figura 9. Serie de Tiempo para el nmero de entregas segn da de la semana en el local B2 de
Motopizza.
Del grfico de serie de tiempo que muestra la Figura 9, se obtiene informacin muy
importante. Se ve claro que hay gran diferencia entre los das laborables y los fines de
semana. Se detecta un da atpico, pero se le encuentra explicacin, ese da hubo un partido
(clsico). Hace falta hacer un anlisis especial para las horas del da.
Qu ocurre con los tiempos de entrega? Cmo se comportan?
-
R. Behar
31
Se dispone de 1354 observaciones del local B2, en este caso el diagrama de puntos no es
prctico. En este caso conviene representar la distribucin de los tiempos de entrega con un
histograma.
Histograma para la distribucin de los tiempos de entrega
Cuando se dispone de una variable continua como el Tiempo, en lugar de reportar los
valores individuales de las observaciones como lo hicimos en el diagrama de puntos,
pueden construirse intervalos, para ir contando cuantas observaciones caen en cada uno
de ellos, el resultado de ste conteo, representa lo que se conoce como frecuencia absoluta
para un intervalo dado.
Si se presenta como porcentaje del total de observaciones, nos referimos a la frecuencia
relativa. Una manera de representar estos intervalos y sus frecuencias es a travs del
histograma que se construye colocando en el eje X, los intervalos definidos y construyendo
sobre cada intervalo un rectngulo cuya rea representa el porcentaje de datos que
pertenecen a dicho intervalo. De esta manera el rea de histograma es siempre ciento por
ciento, que se distribuye en los distintos intervalos.
-
Introduccin al Anlisis Exploratorio de datos
32
Figura 10. Representacin de la distribucin de los tiempos de entrega por medio de un histograma.
Si con base en el histograma de la Figura 10, quisiramos conocer que porcentaje de de los
tiempos de entrega resultaron mayores que 25 minutos, bastara con calcular el rea del
histograma que queda despus de 25, suponiendo que toda la rea es un 100%.
-
R. Behar
33
En la siguiente figura se ilustra esta afirmacin.
Figura 11. Interpretacin del rea en un histograma. Porcentaje de retrasos en la entrega.
-
Introduccin al Anlisis Exploratorio de datos
34
Como puede apreciarse, el rea sombreada representa aproximadamente un 16% del rea
total, lo cual significa que el porcentaje de tiempo de entrega superiores a 25 minutos tres
aproximadamente un 16%.
Este valor es preocupante, dada la poltica de hacer un descuento el cliente del 25% cuando
se produce retraso en la entrega. En este caso Motopizza estara dejando de recibir la cuarta
parte de ese 16%, decir se est perdiendo el 4% de los ingresos.
Un hecho que se destaca en el histograma es que la barra ms alta se produce alrededor de
24 minutos, justo antes del valor crtico (25 minutos). ste es un comportamiento raro,
cuando los errores de medicin varan de manera aleatoria, sobre todo cuando se tiene un
volumen grande de datos, como el nuestro caso. Comportamiento como ste, merece la
bsqueda de explicaciones. Aqu por ejemplo, se descubri que los motoristas que
entregaron a tiempo el pedido, pero olvidaron anotar al momento de la entrega el tiempo el
minutos, deciden colocar en casi todas las ocasiones de olvido, el registro 24 minutos.
Es importante destacar que lo que da significado porcentual en un histograma es el rea y
no la lectura de los rectngulos.
Cuartiles Q1 ,Q2 ,Q3 de una distribucin
Podemos aprovechar la idea de histograma para empezar a definir algunos indicadores muy
tiles al momento de describir el comportamiento de la distribucin de frecuencias de
alguna variable, ste es el caso de los llamados cuartiles de una distribucin.
Para encontrar los tres cuartiles Q1 ,Q2 ,Q3 de una muestra de datos, bastara con ordenar
los datos en forma no decreciente y descubrir tres nmeros que dividan esa muestra
ordenada y cuatro conjuntos de igual tamao, de tal manera en cada uno de estos se
encuentre el 25% de las observaciones.
-
R. Behar
35
Si ligamos sta idea con la idea de histograma, lo que requerimos es encontrar tres valores
de tiempo de entrega, que dividan el rea del histograma en cuatro partes iguales, cmo se
muestra en la Figura 12.
El grfico de la Figura 12, ensea los cuartiles de la distribucin de los tiempos de entrega.
Ellos son Q1 =19 minutos,Q2 = 22 minutos ,Q3 = 24 minutos. Cul es su significado?
Figura 12. Ilustracin el significado de los cuartiles de una distribucin
-
Introduccin al Anlisis Exploratorio de datos
36
Estos cuartiles nos indican que el 25% de las entregas se realizan en 19 minutos o menos,
que el 50% de las entregas se realizan en 22 minutos o menos y que el 25% de las entregas
se realizan en tiempos que superan los 24 minutos. Esto nos proporciona una primera idea,
bastante buena acerca el comportamiento de los tiempos de entrega.
Un grfico muy usado que involucra los tres cuartiles junto con el mnimo y el mximo de
los datos, se conoce como diagrama de caja y alambres (Box Plot) y lo explicaremos
enseguida.
Diagrama de Caja y Alambres.
Antes hablamos del riesgo de tomar decisiones o hacer descripciones usando slo los
promedios. Una manera de salir al paso de esta tendencia que pretende resumir la
complejidad de una muestra en un solo nmero, es asumir como costumbre, adems de la
media y de las medidas clsicas, reportar cinco indicadores que proporcionan
complementariamente una muy buena idea de la distribucin: los tres cuartiles y los valores
extremos. Con estos cinco nmeros, podemos construir el llamado diagrama de caja y
alambres, que es una herramienta extraordinaria sobre todo al momento de comparar la
distribucin de una caracterstica en varias subpoblaciones.
La Figura 13 nos ensea cmo construir un diagrama de caja y alambres.
Nuestro punto de partida, es el clculo de los tres cuartiles, el nuestro caso estos son Q1=19
minutos,Q2 = 22 minutos ,Q3 = 24 minutos.
Observe que la caja est delimitada por los cuartiles extremos, es decir, Q1 y Q3. En el
interior de la caja aparece una lnea divisoria que corresponde al segundo cuartil Q2.
-
R. Behar
37
Figura 13. Construccin de un diagrama de caja y alambres a partir de los tres cuartiles.
Hasta este momento tenemos construida a la caja, pero hasta dnde van los alambres?
Para responder esta pregunta y completar as la construccin de la caja, debemos marcar un
par de cercos, que van a servir para definir cules datos deben considerarse atpicos o
anmalos y cuales parecen provenir de la misma poblacin (datos tpicos).
-
Introduccin al Anlisis Exploratorio de datos
38
En el grfico se marca la longitud de la caja a la cual hemos llamado RIC, para abreviar
la expresin Rango Inter Cuartlico, que no es otra cosa que la diferencia entre los
cuartiles extremos.
RIC= Q3 - Q1 = 24-19 =5 minutos.
Los cercos se encuentran a una distancia de 1,5 veces el RIC, medida a partir de los
cuartiles extremos. Veamos:
Cerco Inferior = Q1 -1,5*RIC = 19-1,5*5= 11,5 minutos.
Cerco Superior = Q3 +1,5*RIC = 24+1,5*5= 31,5 minutos.
Esto significa que todo dato menor que 11,5 minutos o mayor que 31,5 minutos se
considerar atpico y se marcarn con asterisco (*). Los alambres van desde los extremos
de la caja hasta los datos menor y mayor que quedan atrapados entre los cercos.
Ms adelante, volveremos con los diagrama de caja para usarlos en la comparacin de
poblaciones.
Hasta ahora se ha trabajo con todos los datos sin hacer la diferenciacin por el tipo de da
de la semana. Surge ahora la pregunta:
Hay diferencia en la distribucin de los tiempos de entrega de los das laborables
frente a los fines de semana?
Esta pregunta puede ser respondida de varias maneras distintas. Alguien podra calcular
para cada una de las dos subpoblaciones que se comparan, el tiempo promedio de entrega, y
tambin algunas medidas que acompaen la media y que indiquen el grado de variabilidad,
sin embargo, dichas medidas, aunque son muy importantes y los referiremos a ella ms
-
R. Behar
39
tarde, no nos dan informacin sobre la condicin crtica de inters, es decir, el porcentaje de
entregas por encima de los 25 minutos. Es distinto este porcentaje de retrasos los das
laborales y los das de fin de semana?
Esto podra responderse contando para cada conjunto de das, en forma directa, el nmero
de veces que result por encima de 25 y convertirlo en porcentaje. Pero tambin lo
podemos apreciar comparando las respectivas reas en los dos histogramas como se
muestra a continuacin.
Observando la Figura 14 y considerando las variaciones aleatorias, podramos decir, que
tanto en das laborales como en das de fin de semana el porcentaje de retrasos est
alrededor del 15%.
De la comparacin se deduce que el promedio en bastante similar, sin embargo los fines de
semana varan mucho ms que lo que varan los das laborales.
De nuevo se observa que el rectngulo alrededor de 24 minutos es sistemticamente ms
alto en ambos histogramas corroborando la explicacin dada anteriormente
-
Introduccin al Anlisis Exploratorio de datos
40
Figura 14. Comparaciones de la distribucin de los tiempos de entrega segn sea das laborables o fines
de semana.
.Para que la comparacin de histogramas sea realmente til, es necesario asegurarse que los
histogramas que se comparan tenga la misma escala horizontal, pues de lo contrario
podramos incurrir el error de apreciacin, sobre todo en la dispersin como se muestra en
la Figura 15 que pretende ilustrar la misma situacin descrita en la Figura 14.
-
R. Behar
41
Figura 15. Percepcin equivocada de la dispersin cuando no se unifica la escala horizontal.
Ahora se percibe menos diferencia en las dispersiones.
-
Introduccin al Anlisis Exploratorio de datos
42
Debemos recordar que hasta ahora hemos estado trabajando con datos existentes, producto
de la iniciativa del encargado del local B2. Ms adelante confrontaremos estos resultados
con los obtenidos con los nuevos datos.
Para practicar la interpretacin de los diagrama de caja, hagamos la comparacin anterior
pero usando ste tipo de diagramas.
Figura 16. Comparacin de distribuciones usando diagrama de caja.
Observe la utilidad de los diagrama de caja al momento de comparar, muy fcilmente se
detecta que no hay diferencias el centramiento, sin embargo, de un solo golpe de vista se
aprecia que los das laborales hay menor variacin.
-
R. Behar
43
Respondiendo preguntas (datos Nuevos).
Ahora que hemos tomado nuevos datos con el propsito especfico de responder nuestras
preguntas y que adems hemos validado los sistemas de medida, estamos listos para
realizar un anlisis exploratorio.
Qu tan calientes llegan las pizzas a nuestros clientes?
n=610 observaciones Media= 82,3C Desviacin Estndar=5,0C
Figura 17. Distribucin de la temperatura de la Pizza al momento de la entrega.
-
Introduccin al Anlisis Exploratorio de datos
44
32% de las entregas no cumplen con las especificaciones de temperatura, lo cual es bastante
preocupante. Observe lo importante que disponer de esta medicin inicial, pues ser el
punto de partida para valorar el impacto de nuestras acciones de mejora. Si no hubiera una
medida fiable de nuestra situacin actual, cmo podramos saber si nuestros esfuerzos
funcionan?
Un par de valores que calcularemos siempre ser la media y la desviacin estndar, pues en
la mayora de los casos de medicin, conociendo este par de valores, podemos calcular los
porcentajes que necesitemos. ste maravilloso privilegio, lo tenemos cuando nuestra
variable puede modelarse razonablemente como una distribucin normal.
En este caso slo tuvo una media de 82,4 C con una desviacin estndar de 5C.
Calculados con una muestra de 610 observaciones.
Ms adelante abordaremos ms en detalle el significado y la utilidad de este par de
indicadores, quizs los ms importantes en estadstica. Dedicaremos tambin un captulo
para sacar provecho de la distribucin normal y sus propiedades.
Cul es la distribucin de los tiempos de entrega, a la luz de los nuevos datos?
El panorama que muestra el histograma de la Figura 18, es bastante fiable, toda vez que se
ha sido muy celoso en la validacin del sistema de medida y adems se dispuso de una
muestra de cerca de 2000 datos, lo cual nos da la confianza acerca de la estabilidad en las
cifras calculadas, en el sentido de que si repitiramos el estudio en las mismas condiciones,
se esperara que las cifras variarn relativamente poco, llegando, con alta confianza, a las
mismas conclusiones
-
R. Behar
45
Figura 18. Distribucin de los tiempos de entrega con los nuevos datos.
.
La forma que presenta el histograma que se ajusta bastante bien a la llamada distribucin
normal, es compatible con la idea de ausencia de sesgos sistemticos.
El porcentaje de retrasos, 12%, es un poco menor que el que habamos estimado con los
datos existentes. En ocasiones, la sola conciencia, de que se est midiendo con seriedad y se
est controlando el estudio, empieza a producir resultados. Por supuesto es ms creble esta
-
Introduccin al Anlisis Exploratorio de datos
46
estimacin que la anterior, pues aqu no solo se dispone de un nmero mayor de datos, sino
tambin de datos con mayor calidad.
En cuanto al tiempo de entrega todos los establecimientos tienen el mismo
comportamiento?
Intentemos responder esta pregunta usando diagrama de cajas y alambres para hacer la
comparacin pertinente.
Figura 19. Diagramas de caja para la comparacin de la Distribucin del tiempo de entrega segn
localidad
Es la Figura 19 hemos agregado un hay referencias en 25 minutos, que define el punto
crtico para el tiempo entrega. Se aprecia que la localidades M1, B2 y B3 tienen tendencia a
-
R. Behar
47
tardarse un poco ms en la entrega que las dems localidades. Aunque a decir verdad sera
muy conveniente disponer de herramientas para saber si hay evidencia de una verdadera
diferencia, o si por el contrario, es razonable pensar que dichas diferencias pueden
atribuirse al azar. En el ltimo captulo de este libro abordaremos esta problemtica.
Sin embargo puedo adelantarles que al investigar ms en detalle en busca de posibles
explicaciones, se descubri que los que ms tardaban eran los ms antiguos, pues haban
ido ampliando poco a poco su radio de operacin y tenan un porcentaje de clientes lejanos,
mucho mayor que las localidades nuevas.
Dejemos registrados para estas localidades la correspondiente media y desviacin estndar,
que como ya dijimos sern valiosos indicadores para realizar la comparacin despus de
haber implementado algunas estrategias para reducirlo.
Tiempos de Entrega segn Localidades (Nuevos datos) Localidad Media Desviacin estndar Nmero de datos
M1 21,7 4,0 370 M6 19,0 3,9 370 B2 20,9 3,8 331 B3 21,1 3,8 370 V1 19,3 3,9 385 M1 21,7 4,0 370
Cmo se comportan los tiempos asociados con el proceso de fabricacin de la
Pizza?
El sentido que tiene el diagrama de proceso que elaboramos, es entre otro, detectar las
actividades que se realizan en el proceso de fabricacin.
-
Introduccin al Anlisis Exploratorio de datos
48
En este caso, dichas actividades son de nuestro inters, en la medida en que nuestro
propsito es la reduccin del tiempo transcurrido desde que el cliente hace la llamada para
colocar el pedido, hasta que recibe su orden.
Si atendemos al diagrama, existen bsicamente tres componentes que consumen tiempo: la
recepcin del pedido, la fabricacin de la pizza y la distribucin. Para esta ltima hemos
dedicado la mayor parte de nuestro esfuerzo, pues las otras tienen menos impacto, dada la
proporcin de sus magnitudes y de sus variabilidades, razn por la cual destacamos como
problema prioritario el tiempo de distribucin.
Esto no quiere decir que las etapas del proceso de fabricacin y preparacin de la
distribucin, no sean importantes. Por ejemplo sera de inters valorar la poltica que ha
definido la empresa para realizar una ruta de distribucin. Se espera a que hayan al menos
tres pedidos que vayan para la misma zona, antes de asignar una ruta a un motorista.
Midiendo estos tiempos, podra realizarse un proceso de simulacin, de tal manera que
podamos encontrar, por ejemplo, cul es el nmero ptimo de pedidos de una zona, que
deben quedar en espera, antes de despachar un motorista en una determinada ruta.
Qu tenemos hasta ahora?
Corresponde ahora, hacer un balance de lo que hemos logrado hasta ahora. Una sntesis de
cmo hemos respondido las preguntas originales, con el propsito de orientar estrategias
para mejorar en de las variables crticas del cliente, satisfaciendo los niveles establecidos
como lmites de especificacin.
Hemos reportado siempre la media y la desviacin estndar de las variables de inters,
porque como ya dijimos, son dos de los indicadores ms importantes al momento de
reportar el comportamiento de una caracterstica que vara. A ellas nos dedicaremos de
-
R. Behar
49
manera particular en breve, para conocer sobre todo, como ellas pueden ayudarnos en los
procesos de descripciones y de comparacin de poblaciones.
A continuacin en la Figura 20 se presenta un cuadro con la sntesis de las respuestas a
nuestras preguntas.
-
Introduccin al Anlisis Exploratorio de datos
50
Sntesis
delasrespuestas
alaspreguntas.
Los hallazgos
Los hallazgos que tenemos hasta ahora son los siguientes: Un problema crtico, que merece ser abordado con vistas a su mejoramiento es el tiempo de reparto Parecen existir diferencias en las localidades en cuanto al tiempo de reparto. Las localidades M6 y V1, son las ms rpidas. De acuerdo con el estudio realizado al comparar la distribucin de los tiempos de los motoristas puede concluirse que hay evidencia suficiente para pensar que hay diferencias importantes entre ellos. Los tiempos de entrega varan segn sea da laboral o fin de semana. Un estudio el margen, mostr que no haba evidencias de que la hora del da por el tamao del pedido fueran causantes de retrasos. A los clientes les parece razonable un tiempo de entrega de 30 minutos siempre que la pizza llegue caliente. (Esto podra cambiar el lmite de especificacin)
El Diagrama del Proceso de Fabricacin
Punto de partida Tiempo de entrega Temperatura en la entrega
Porcentaje de Retrasos= 12% Media = 20,4 minutos Desviacin Estndar = 4,0 minutos
% No conformes= 32%. Media= 82,3C Desviacin Estndar=5,0C
Figura 20. Cuadro de sntesis sobre los hallazgos preliminares y el punto de partida
-
R. Behar
51
Generacin de hiptesis sobre posibles factores (causas) que pueden afectar las caractersticas crticas.
Entramos ahora en una importante etapa, que podramos llamar etapa de anlisis, en la cual
nos interesa sobre todo detectar posibles asociaciones de algunos factores, preferiblemente
sobre los que actuar, con las variables de respuesta de inters: tiempo entrega y
temperatura.
El grupo de estudio se ha reunido usando la metodologa de Brain Storming (Lluvia de
ideas), ha planteado por un lado una hiptesis para explicar la distribucin de la
temperatura de la pizza al momento de la entrega:
La temperatura de la pizza est bastante relacionada con el tiempo de reparto
Con respecto al tiempo de reparto, las reflexiones del equipo pueden plasmarse en el
siguiente diagrama de causa y efecto.
El diagrama de causa-efecto, que se muestra en la Figura 21 tendr tantas ramas cmo se
requiera, en este caso las posibles causas se agruparon en: fallas humanas, fallas mecnicas,
mtodos o procedimientos, y las relacionadas con el medio ambiente
-
Introduccin al Anlisis Exploratorio de datos
52
Diagrama de Causa y Efecto.
Figura 21. Diagrama de causa efecto para el retraso en los tiempos de entrega
.
-
R. Behar
53
Si el problema fuese muy complejo, cada una de esas causas que aparecen en cada rama,
podran convertirse en ramas. As por ejemplo, en la rama de maquinaria, el tem de no
arranca, podra descomponerse en falta de mantenimiento, equipo obsoleto.
Recordemos que en la indagacin a los clientes, se descubri que aceptaran de buen agrado
un tiempo entrega de 30 minutos, siempre y cuando la pizza llegue caliente. Este solo
hecho, es decir, modificar el lmite de especificacin para el tiempo entrega, ya cambia la
situacin. Si el descuento del 25% para los predios con retardo, se mantuviera pero
cambiando el lmite a 30 minutos, el porcentaje de retrasos bajara inmediatamente a un
valor sorprendente bajo, menos del 1%, lo cual, nos pondra dentro de la meta del proyecto.
Este panorama, hace que nuestros esfuerzos se centren en mejorar la situacin actual con
respecto a la Temperatura, pues en la actualidad no se cumple con la especificacin en el
32% de las entregas y si la hiptesis de relacin de Tiempo y Temperatura fuere cierta, lo
que significa es que poner el lmite en 30 minutos en el tiempo de entrega, eventualmente
podra agravar el problema de la temperatura.
Urge contrastar la hiptesis:
Hiptesis: La temperatura de la pizza est bastante relacionada con el tiempo de
reparto
Con los datos disponibles intentemos contrastar esta hiptesis. Para ello una herramienta
muy til es el diagrama de dispersin o diagrama bivariante, adems del coeficiente de
correlacin lineal.
-
Introduccin al Anlisis Exploratorio de datos
54
Figura 22. Relacin entre el tiempo de entrega y la temperatura
El diagrama de dispersin de la Figura 22, no contradice la hiptesis. El grfico muestra
asociacin estadstica entre el tiempo entrega y la temperatura de la pizza. El coeficiente de
de correlacin lineal, toma un valor de 0,81, que calculado con base en 100 datos, en
bastante fiable. Este valor nos estara indicando que aproximadamente el 66% (0,812) de la
variabilidad la temperatura, es explicada por la variabilidad en los tiempos de entrega.
Con la lnea punteada en el grfico, se muestra que cuando el tiempo entrega est alrededor
de 22 minutos, la temperatura de la pizza es en promedio 80C.
En esta etapa de anlisis, puede usarse una batera de herramientas estadsticas ms
potentes, como el anlisis de regresin lineal, que se sale del alcance de este captulo. Sin
-
R. Behar
55
embargo a manera de informacin, puede ser conveniente saber que para poder usar el
modelo lineal hallado y que se muestra la figura, es necesario validar algunos supuestos.
Para ello corrientemente se usan herramientas grficas, como las que aparecen en la Figura
23.
Figura 23. Diagnostico grfico para el ajuste de un modelo de regresin lineal.
Con los indicadores asociados al modelo de regresin ajustado, podemos afirmar por
ejemplo en nuestro caso que en las ocasiones en las cuales el tiempo de entrega es de 22
minutos, la temperatura promedia de entrega es de 81C aproximadamente. Adems,
podemos afirmar que en esa misma situacin el 95% de las veces la temperatura de la pizza
estar entre 75C y 87C.
Anlogamente en las entregas que tardan 20 minutos, el 95% de las veces la temperatura de
la pizza se haya entre 77C y 89C.
-
Introduccin al Anlisis Exploratorio de datos
56
Esta informacin es realmente til, pues permite no solo trabajar con las medias sino con
intervalos de confianza para los parmetros o de prediccin para las variables.
Una primera
conclusin
Lo que resulta de este anlisis es que si queremos que la pizza
llegue caliente (al menos 80C), debe reducirse el tiempo de
entrega o mejorar el proceso de la conservacin de la
temperatura o una combinacin de ambos
Otras Hiptesis
A partir del diagrama causa efecto de la Figura 21, se plantearon la siguiente hiptesis:
Hiptesis: existe diferencia en la distribucin de los tiempos de entrega segn
motoristas.
Para contrastar esta hiptesis, se construyeron diagrama de caja, para el tiempo entrega
asociado con cada uno de los motoristas, ponindose en evidencia la existencia de tal
diferencia.
Por otro lado se analizaron los registros, la parte de Observaciones y se detect que los
errores en la direccin y en la localizacin del piso, representan el cuatro por ciento de los
retrasos.
Un descubrimiento interesante lo constituye el hecho de que la diferencias entre motoristas,
se debe principalmente a la diferencias en el conocimiento de la zona.
-
R. Behar
57
Al describir en detalle el diagrama del proceso, surge la necesidad de valorar la poltica de
cola antes del despacho, pues en la actualidad, se espera que haya tres pedidos para la
misma zona, o que transcurran tres minutos, lo que ocurra primero.
Estrategias para Mejorar.
Alguna de las opciones de mejora del proceso planteadas por los miembros del equipo son
las siguientes:
1. Definir mecanismos para la verificacin de la direccin y del piso
2. Capacitar a los motoristas.
3. Aumentar el nmero de motoristas.
4. No recibir pedidos de la zona B, que es la ms lejana.
5. Disear mtodos para la conservacin de la Temperatura. (Aislar cajas en la moto y
hacer uso de bolsas plsticas).
Pruebas Piloto y evaluacin de riesgos
Una vez se han generado estrategias de mejora, existen mecanismos para valorar su
impacto y para medir los riesgos de su implementacin, una opcin muy recomendable son
las llamadas pruebas piloto.
Antes de invertir grandes cantidades de dinero, llevando la prctica alguna de las
alternativas, conviene probarlas a pequea escala. Esto permite entre otras cosas, descubrir
algunas posibles limitaciones en su aplicacin, as como tambin valorar su impacto en
relacin con su costo, posiblemente a travs de un anlisis de costo beneficio. Se detectan
-
Introduccin al Anlisis Exploratorio de datos
58
con ensayo piloto, algunos efectos secundarios no deseables, que podran ser difciles de
detectar a priori.
De esta manera se realizaron pruebas piloto para las siguientes propuestas de mejoramiento:
DiseodeunnuevoProcesoparadisminuirerroresenladireccin.
Este nuevo proceso se ensay en las localidades B2 y M1 y se tomaron como control para
la comparacin las localidades B3 y M6 que usaban el sistema tradicional.
Se pas de 1,7% de direcciones erradas a tan slo 0,5%, resultando sta diferencia
estadsticamente significativa, al aplicar las pruebas estadsticas correspondientes para
decidir si esta diferencia puede producirse por azar o si por el contrario es una diferencia
estructural.
Redefinicindelaszonasaatender.
Las zonas a servir se redefinieron, estudiando la distancia y los tiempos de entrega a partir
de los registros observados. Esto implicar, entre otras cosas, no atender algunos clientes
que antes se atenda. Para ello se realizar un estudio de costo beneficio.
Conservacindelatemperatura
Se probaron distintos tipos de bolsa trmica caliente , con criterios tcnicos y de costos se
seleccion una para ser probada en un ensayo piloto. Cada vez que haba pedido para una
misma zona, se haca una rifa de manera totalmente aleatoria para decidir a cual pone bolsa
y a cual no, esto para evitar sesgos por posible variables no controladas y evitar se
convirtieran en factores de confusin.
-
R. Behar
59
Los resultados se presentan a continuacin:
Figura 24. Valoracin del impacto de la bolsa trmica caliente.
La Figura 24 pone en evidencia de manera contundente, el impacto de la bolsa en el control
de la temperatura, pues pasamos de una situacin en la cual el 35,5% de las entregas no
cumplan con la especificacin, a tan slo un, 3,7%.
Estos resultados correspondientes a la media y a la desviacin estndar, son bastante
estables, toda vez que han sido calculados con una muestra suficientemente grande, como
-
Introduccin al Anlisis Exploratorio de datos
60
para garantizar que la diferencias observadas no se presentan de chiripa. Las herramientas
sobre este tema, las trataremos en el ltimo captulo.
Implantacin de las mejoras.
Una vez se han realizado los ensayos piloto, se han validado las opciones de mejoramiento
que realmente funcionan, y se ha medido su impacto econmico a travs de anlisis de
costo beneficio, estn listas para ser implantadas en la organizacin.
Para ello, se estableci un calendario de actividades, con responsables especficos y con los
recursos requeridos para implantarlas.
Se realiz una muy fuerte capacitacin sobre nuevo el proceso a los encargados de los 14
establecimientos y se compraron bolsas trmicas para todos los motoristas.
Se hizo una intensa formacin a los motoristas en el manejo de mapas, directorios y
callejeros, con entrenamiento en la calle y con su correspondiente evaluacin para
garantizar la efectividad de su capacitacin.
Se estableci un espacio de reunin de los motoristas, para intercambiar experiencias e
informacin sobre rutas.
Establecimiento de controles
Cuando se implementar un nuevo sistema, es muy importante garantizar la nueva inercia,
que impida que el sistema vuelva a su estado anterior, es necesario, que todos en la
organizacin se familiaricen con los nuevos estndares y especificaciones, con los nuevos
procedimientos, con los nuevos instrumentos de registro de datos. Hay que evitar que las
mejoras sean transitorias, es necesario consolidar el nuevo sistema.
-
R. Behar
61
Todo esto debe hacerse de manera organizada definiendo un sistema de monitoreo y
control.
Corresponde ahora la prctica, ya no ha escala piloto, si no con la empresa funcionando,
validar las cifras, los indicadores, y los beneficios esperados.
Elementos esenciales del sistema de control podran ser entre otros los siguientes:
Estandarizacin. Documentacin de los nuevos procesos.
Control de los procesos a los nuevos niveles. Dado que pueden haberse cambiado las especificaciones, es necesario monitorear los procesos para asegurarse que se
cumple. Esto puede hacerse a travs de los llamados grficos de control.
Documentacin del proyecto. Es la historia del proyecto, que incluyen dificultades y sus soluciones, que plantea de forma explcita las mtricas utilizadas, sus
definiciones, los instrumentos de medicin, sus especificaciones, clculos de
rentabilidad financiera, supuestos, preguntas pendientes de resolver.
Control al nuevo nivel
Se puso en marcha en forma paulatina un sistema de seguimiento de tiempo y temperatura
en la misma tarjeta de pedido.
Se estableci el cuadro de mando que se muestran en la Error! No se encuentra el origen
de la referencia., en el cual se presenta de una manera precisa, la forma como deben ser
controladas cada una de las variables crticas, incluyendo responsables, frecuencia de
control, mtodo evaluacin, tolerancias y propsito.
-
Introduccin al Anlisis Exploratorio de datos
62
Xs Objetivo Tolerancias Mtodo de Evaluacin Frecuenci
a
Responsable de la medida
Formacin Conocimiento de la ciudad >70% en el
examen Examen nueva incorporacin
Todos los motoristas Supervisor
Zona Utilizar la Zona asignada segn carga de trabajo
Cero Zona/Carga Cada entrega Supervisor
Respuestas Y
Tiempo de Entrega
Satisfaccin del cliente >99,7%
Encuesta de satisfaccin Anual Central
30 minutos Min 99% Nmero de descuentos Todas Supervisor
Temperatura 80C >76C Ficha Todas Supervisor Figura 25. Cuadro de mando para controlar los procesos
-
R. Behar
63
Valoracin de Resultados No financieros
Tiempo de Entrega de los Pedidos
Aunque la media no ha cambiado mucho, la variabilidad se ha reducido notablemente, haciendo que el lmite de especificacin ahora se cumpla holgadamente. Esta reduccin de los tiempos grandes traern mejoras tambin en la temperatura
Temperatura de la Pizza
Se ha mejorado no solo en la media, que ahora es mayor, sino tambin en la dispersin que ahora es menor, a tal punto que el 100% de los pedidos llegan con temperatura superior a los 78C.
-
Introduccin al Anlisis Exploratorio de datos
64
Calculo de los cuartiles para datos crudos.
Ilustraremos el proceso de clculo de los cuartiles con un ejemplo.
Ejemplo.
Los siguientes datos corresponden a las edades de 14 personas seleccionadas al azar, entre
cierta clase de empleados de la poblacin objetivo de un estudio.
25, 38, 29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31.
Paso #1; Ordenar los datos de menor a mayor:
Observe que cuando los nmeros indican posicin, los colocamos entre parntesis.
Los cuartiles los descubrimos calculando la posicin que ocupan; es conveniente empezar
por el segundo cuartil
Segundo cuartil Q2. (Mediana)
Para calcular la posicin que ocupa el segundo cuartil, promediamos las posiciones
extremas: (14)+(1) / 2 = (7.5). Como no existe la posicin 7.5, porque un dato queda en la
-
R. Behar
65
posicin 7 o en la 8, entonces interpretaremos que queda en el medio de los datos que
estn de 7 y 8 , para evitar esta ria, hacemos el promedio de los dos datos que ocupan
esas posiciones:
2(33 34) 33,5 aos
2Q += =
Primer Cuartil3, Q1. El primer cuartil se obtiene considerando solo los datos que
quedan antes de la mediana. Para este grupo de datos se calcula la media .Se trata pues de
encontrar la posicin de la mitad de la mitad.
La posicin que ocupara el primer cuartil ser la mediana de este primer grupo de datos:
que es el que ocupe la posicin
3 Note que si el nmero de datos es impar, el segundo cuartil Q2, no sera necesariamente un dato de la
muestra. En este caso, para calcular la ubicacin del primer cuartil Q1, se toman en cuenta los datos que
quedaron antes del segundo cuartil, excluyendo el dato que result ser el segundo cuartil Q2. Anlogamente
para el tercer cuartil Q3.
-
Introduccin al Anlisis Exploratorio de datos
66
(7) (1) (4)2+ =
La Cuarta posicin la ocupa el dato 29. Este es el primer cuartil.
Es decir que el primer cuartil, Q1 es el dato que ocupa la 4 posicin, o sea que Q1 = 29
Aos
Si aplicamos este mismo procedimiento a los datos mayores que la mediana, se obtiene el
tercer cuartil
El tercer cuartil Q3.
La posicin que ocupar el tercer cuartil ser la mediana de este segundo grupo de datos:
Es decir, ser el valor que ocupe la posicin:
(8) (14) (11)2
+ =
La posicin once (11) la ocupa el dato 42. Este es el tercer cuartil.
Q3 = 42 Aos
-
R. Behar
67
Para la construccin de un diagrama de caja y alambres, se requiere de algunos clculos
adicionales, basados en los cuartiles ya encontrados:
Rango Intercuartlico. (RIC)
RIC = Q3-Q1 = 42-29= 13 Aos
Edad mnima = 23 Aos
Edad mxima = 54 Aos
Cerco interno inferior = Q1- 1.5(RIC) = 29-1.5(13) = 9.5
Cerco interno superior = Q3 + 1.5(RIC) = 42 + 1.5(13)= 61.5
Construya usted el diagrama de caja para este caso4
Otro ejemplo (Sntesis)
Se tiene una muestra aleatoria sobre cierta caracterstica de la Poblacin y se quiere hacer
una descripcin de la misma, usando los cuartiles y construyendo un diagrama de caja y
alambres.
Para ello, se ordena la muestra de menor a mayor, como se muestra enseguida.
4 Note que en este caso particular, todos los puntos quedaron dentro de los dos (2) cercos, lo cual no ocurre
siempre, por esta razn los puntos interiores ms cercanos al cerco son el mnimo y el mximo de los datos,
que definen la longitud de los alambres que van pegados a la caja.
-
Introduccin al Anlisis Exploratorio de datos
68
Se empieza calculando el segundo cuartil y despus los otros dos, siguiendo los pasos que
se explican abajo.
Figura 26. Ilustracin de los pasos para el clculo de los cuartiles
En resumen puede decirse que los diagramas de cajas y alambres son tiles, entre otros para
los siguientes propsitos:
1. Para identificar la localizacin de los datos alrededor de la mediana.
-
R. Behar
69
2. Para hacerse una muy buena idea de la dispersin de los datos, basndose en la
longitud de la caja (rango intercuartlico), pues siempre la caja, corresponde al 50% de los
datos que estn en la parte central. Adems se aprecia el rango de los datos, el cual
corresponde a la distancia entre las observaciones ms extremas.
3. El diagrama de cajas y alambres, nos permite hacernos una muy buena idea sobre el
grado de asimetra de una distribucin, al comparar la proporcin de la caja que queda a la
izquierda de la mediana, con la que queda a la derecha, igualmente la longitud de los
alambres respectivos. En el ejemplo de la figura, se observa que los datos estan ms
concentrados en entre Q1 y Q2 que entre Q2 y Q3, lo cual es una muestra de cierto grado
de asimetra.
4. El diagrama es til para identificar posibles puntos atpicos ( fuera de los cercos
internos pero dentro de los externos) o puntos atpicos o outliers (fuera de los cercos
externos).
5. Una utilidad grande de los diagramas de caja y alambres, es comparar varias
poblaciones, a travs de sus distribuciones. En este caso se construye un diagrama para
cada distribucin y se dibujan en una misma escala (sobre un mismo plano), lo cual permite
muy fcilmente hacerse una idea de las semejanzas y las diferencias de los rasgos ms
importantes de las distribuciones. Como se ilustrara en un ejemplo ms adelante.
-
Introduccin al Anlisis Exploratorio de datos
70
La Media y la Desviacin Estndar. Su significado y su Utilidad
Prctica.
La media aritmtica y la desviacin estndar, son las medidas mas frecuentemente usadas
en estadstica y, en parte, la razn es que corresponden por suerte a los parmetros de la
distribucin mas famosa y mas til de la estadstica: La Distribucin Normal. Por esta
razn esperamos a estar justo antes del tratamiento de la distribucin normal ( prximo
captulo) para hablar de estos indicadores.
Figura 27. La Media y la desviacin Estndar. Una mirada intuitiva.
En Las dos situaciones que se ilustran en la Figura 27, la media tiene el mismo valor que
pretende indicar dnde est el centro del conjunto de datos respectivo, sin embargo, en la
situacin B, la media parece representar mejor los datos que en la situacin A. Dicho de
otra manera: En la situacin B, los datos son ms parecidos a su media. Dicho de otra
manera, la media es mejor representante de los datos en la situacin B quede en la situacin
A.
-
R. Behar
71
La desviacin estndar es una medida de la cercana de los datos a la media que los
representa. En cierta forma la desviacin estndar es una medida de la credibilidad de la
media aritmtica en su intencin de representar los datos.
La media y la desviacin ser estndar son una pareja inseparable, la primera informa sobre
la magnitud de los datos y la segunda da cuenta del crdito que hay que darle dicha
magnitud, en trminos de su similaridad con los datos que representa.
Decimos que en la situacin B, la desviacin estndar de los datos es menor que en la
situacin A.
Es claro que pueden existir varias maneras de definir la cercana (o alejamiento) de los
datos a un cierto valor central.
La desviacin estndar tiene una definicin muy especfica, que aunque a primera vista
tiene una complejidad para su interpretacin intuitiva, tiene como contraparte un rico
tratamiento matemtico, que ha permitido el desarrollo de abundante teora en la llamada
inferencia estadstica.
Origen de la media y la desviacin estndar.
El criterio de cercana que da origen a la definicin de la media y de la desviacin
estndar es el siguiente:
Utilizaremos los datos representados en la Figura 28, en la que tambin hemos representado
un valor a, en principio arbitrario, con el propsito de descubrir donde conviene
colocarlo para que sea un buen representante del conjunto de los datos.
Empezaremos diciendo que a puede ser cualquier nmero real y despus le vamos a
exigir algunos requisitos asociados con nuestra idea de lo que significa buen
-
Introduccin al Anlisis Exploratorio de datos
72
representante, lo cual restringir el conjunto de valores que pueda asumir. Veamos un
criterio para seleccionar el valor de a.
Figura 28. Muestra aleatoria de 10 valores, con sus distancias a un presunto valor central
De todos los posibles valores de a, vamos a escoger aquel que haga menor la media de
los cuadrados de la distancia de los datos a dicho valor a. Es decir, el que minimiza la
funcin:
( )( )2
1
n
ii
x ag a
n=
=
En este caso el mejor valor de a puede deducirse derivando g(a) con respecto de a,
igualando a cero y despejando su valor. Veamos:
-
R. Behar
73
( )1
( ) 2 0n
ii
g a x aa n =
= =
Por tanto ( )1
0n
ii
x a=
= .
De donde se deduce que ix n a= y despejando a tenemos: ix
a xn
= =
Si hacemos la segunda derivada vemos que siempre es positiva, lo cual confirma que el
punto crtico es xa = (media aritmtica) es el nmero que produce el valor ms bajo para g(a). Dicho valor ( )g x es la varianza de X.
Con los datos de nuestro ejemplo = 15,1 y el valor mnimo de g(a), es decir,
( ) ( )2
ix xg xn= es la varianza, que representaremos por S2 = 7,89. Sacando raz
cuadrada se obtiene la llamada desviacin estndar S = 2,81.
Esto muestra como la media aritmtica y la desviacin estndar son medidas hermanas.
La media como centro de gravedad de los datos.
Observe de la demostracin anterior que el valor hallado para a, es decir xa = , satisface
que ( ) 01
==
N
ii xx , lo cual se expresa en la Figura 29, haciendo que la suma de las
distancias de la media a los datos que quedan a su izquierda es exactamente igual a la suma
de los que quedan a su derecha.
-
Introduccin al Anlisis Exploratorio de datos
74
Figura 29. Propiedad de la media aritmtica
Esta propiedad de la media, la caracteriza como el centro de gravedad de los datos.
Si se dispone de un histograma y se desea saber en qu punto queda la media, basta
identificar su centro de gravedad, como se muestra en la Figura 30
Figura 30. La media como centro de gravedad
Notacin: Se usara el smbolo X (X-barra), cuando se hace referencia a la media de una
muestra. El smbolo (mu), representa la media de toda la poblacin de Inters.
-
R. Behar
75
Con la media X de una muestra, se pretende estimar (conocer aproximadamente) la media
de la poblacin, por esta razn, se dice que X es un estimador del parmetro .
La varianza de la poblacin (2) y desviacin estndar poblacional (). Su contraparte muestral se representa por la letra S.
Observaciones.
En realidad las definiciones que se usan con el propsito de realizar estimaciones de los parmetros poblacionales varianza (2) o desviacin estndar () son un poco distintas a las planteadas, pues en lugar del denominador n, se usa el denominador
(n-1) as:
( )
( )
1 2
22
2
... Media Muestral
Varianza Muestral1
Desviacin Estndar Muestral1
n
i
i
X X XXn
x xS
n
x xS
n
+ + +== =
Observe que en caso extremo en que todos los datos son idnticos, es decir, no existe variabilidad, la media tambin seria idntica a los datos y por tanto la
desviacin estndar S sera nula. Por otro lado a medida que los datos se alejan mas
de la media, las distancias al cuadrado se hacen ms grandes y por lo tanto crecera
la desviacin estndar. Por estas razones, la desviacin estndar es una medida de
variabilidad o dispersin de los datos. Sin embargo, la interpretacin directa no es
fcil, pues no es posible emitir un juicio sobre su tamao al margen del contexto,
-
Introduccin al Anlisis Exploratorio de datos
76
ms an cuando su valor depende de las unidades en las que se mide en las variables
correspondientes.
No obstante, una muy buena interpretacin surge del llamado principio deTshevichev, y
tambin cuando se asocia con la distribucin normal.
Interpretacin de la desviacin estndar
Aunque la interpretacin y la utilidad ms contundente de la desviacin estndar est
asociada con la distribucin normal que trataremos en otro captulo, su carcter de medida
de dispersin puede apreciarse a travs del conocido Principio de Schebyshev.
Principio de Schebyshev.
Si a cualquier conjunto de datos le calculamos su media X y su desviacin estndar S y
luego construimos un intervalo con centro en la media X , restndole y sumndole un
numero k de desviaciones estndar, este intervalo atrapa una fraccin de los datos igual a
211 k
As por ejemplo entre la media y dos desviaciones estndar (k=2), estar por lo menos
75.0211 2 =
, el 75% de los datos.
Entre la media y tres desviaciones estndar siempre habr al menos 88.0311 2 =
, el
88% de los datos.
Y para 4 desviaciones estndar, por lo menos 93.8%.
-
R. Behar
77
En los siguientes captulos, tendremos la oportunidad de apreciar la importancia de estas
dos medidas.
Observe que este principio se cumple siempre, no importa cual distribucin tiene la variable
de inters y nos proporciona una cota mnima para el porcentaje de datos que se encuentren
a una distancia de a los mas k veces la desviacin estndar.
Propiedades Operativas de la media
1. Si xi = k, para todo i, o sea que si todos los datos son iguales a k, entonces: x = k.
Veamos:
xx
n
k
nnkn
ki
i
m
i
n
= = = == =
1 1
2. Si todos los datos de una muestra se multiplican por una constante, el promedio de
dicha muestra resulta multiplicando por la misma constante, es decir:
si yi = axi , i = 1, 2, ..., n; entonces y = a x
yy
n
ax
na
x
nax
ii
n
ii
n
ii
n
= = = == = =
1 1 1
3. Si Zi = axi + byi , i = 1, 2, ..., n; donde a, b son constantes, entonces
Z ax b y= +
-
Introduccin al Anlisis Exploratorio de datos
78
Veamos:
( )1 1
n n
i i ii i i i
Z ax byx yZ a b
n n n nZ ax b y
= =+ = = = +
= +
Esta propiedad puede generalizarse a la combinacin lineal de k variables y puede
resumirse diciendo que la media aritmtica es un operador lineal.
Ejemplo: Ingreso econmico de parejas de casados
Se ha tomado una muestra de parejas de casados y se han observado las variables X e Y.
X : Ingreso mensual del esposo
Y : Ingreso mensual de la esposa
Se encontr que el ingreso promedio mensual de los esposos es
X = $100.000 y de las esposas Y = $80.000.
Si se define la variable ingreso familiar Z, como la suma de los ingresos de los esposos,
entonces el ingreso familiar de la pareja i ser: Zi = Xi + Yi y el ingreso familiar promedio
ser:
Z X Y= + = $100.000 + $80.000 = $180.000
-
R. Behar
79
6. Si una muestra de n elementos, se divide en k submuestras excluyentes y exhausti-
vas, que tienen n1, n2,..., nk, elementos (n1 + n2 + ... + nk = n), con promedios x 1, x 2,..., x k
respectivamente, entonces el promedio de la muestra global estar dado por:
x n x n x n xn
k k= + + +1 1 2 2 ...
es decir: xn x
n
i ii
k
= =
1
El promedio x i, de los datos del grupo i, est dado por: xx
nij
G
i
i=
por tanto: x n xjG
i ii
=
Por otro lado:
x x x x
n x n x n x
jj
n
jG
jG
jG
k k
k= = + + +
= + + +1
1 1 2 2
1 2
...
...
Entonces: xx
nn x n x n x
n
jj
n
k k= = + + +=
1 1 1 2 2 ...
Ejemplo
-
Introduccin al Anlisis Exploratorio de datos
80
Una muestra de 500 trabajadores tienen un salario promedio de $108.000, si el salario
promedio de los hombres es $120.000, y el de las mujeres $100.000, cuntos hombres y
mujeres hay?
Si n1 es el nmero de hombres y n2 el de mujeres, entonces:
n1 + n2 = 500 (1)
Adems:
$108. . .000 120 000 100 000500
1 2= + n n (2)
Resolviendo (1) y (2) se obtiene: n1 = 200 y n2 = 300
Clculo de la media aritmtica para los datos agrupados en intervalos de
clase.
Se sabe que cuando los datos estn agrupados en clases, se pierde la individualidad de la
informacin, as por ejemplo puede conocerse que en el intervalo (10,20] hay 3 datos, pero
no conocemos cul es el valor de cada uno de estos datos; esto plantea una dificultad para
el clculo de la media usando la definicin presentada.
Se puede calcular en este caso la media, en forma aproximada, usando la propiedad 6 y el
supuesto de que los datos en cada intervalo estn uniformemente distribuidos, puesto que si
esto sucede , la media aritmtica de los datos del intervalo i, coincide con el punto medio
del intervalo (marca de clase), de esta manera se puede considerar la muestra total, dividida
en "m" submuestras constituidas por los datos que pertenecen a cada uno de los intervalos,
as aplicando la propiedad 6, se obtiene que:
-
R. Behar
81
x n x n x n xn
m m= + + +1 1 2 2 ...
Como: ' ; entonces :ix x
'
'
'1
1
; entonces :im
i i mi
i ii
x x
n xx f x
n=
=
= =
Ejemplo
Dada la siguiente distribucin de frecuencias:
La media aritmtica de esta distribucin ser:
x = + + + + =12 15 16 30 42 50 25 65 5 85100
481.
O en forma equivalente:
x = 0.12 x 15 + 0.16 x 30 + 0.42 x 50 + 0.25 x 65 + 0.05 x 85
-
Introduccin al Anlisis Exploratorio de datos
82
x = 48.1
Propiedades Operativas de la varianza.
Las propiedades que se presentan a continuacin pueden ser heredadas por la desviacin
estndar con las limitaciones que genera la funcin raz cuadrada.
1. ( )S xn xi
i
n
2
2
2=
Esta, ms que una propiedad es una forma alternativa de calcular la varianza,
realizando menos clculos numricos que con la expresin que proporciona la
definicin. Su demostracin es la siguiente:
( ) ( )
( )
( )( ) ( )
( )
Sn
x xn
x xx x
nx
nx x
nx
nx x
x
n nn x
nx x x
Sn
x x
i i ii
n
i
n
i ii
n
i
n
i
ii
n
i
i
2 2 2 2
11
2
1 1
2
2 1 2
2 2 2
2 2 2
1 1 2
1 1 2 1
1 2 1
1 2
1
= = +
= +
= +
= +
=
==
= =
=
S2 = Promedio de los cuadrados, menos, promedio al cuadrado
-
R. Behar