análisis estadístico

130
Escuela de Ingeniería Industrial y Estadística Introducción Al Análisis Exploratorio de Datos Roberto Behar Gutiérrez.

Upload: javier-hernando-ochoa-arteaga

Post on 15-Nov-2015

107 views

Category:

Documents


11 download

TRANSCRIPT

  • Escuela de Ingeniera Industrial y Estadstica

    Introduccin Al

    Anlisis Exploratorio de Datos

    Roberto Behar Gutirrez.

  • Introduccin al Anlisis Exploratorio de datos

    2

  • R. Behar

    3

    Introduccin al Anlisis Exploratorio de Datos

    Por

    Roberto Behar Gutirrez

    Universidad del Valle

  • Introduccin al Anlisis Exploratorio de datos

    4

    Titulo: Introduccin al Anlisis Exploratorio de Datos

    Roberto Behar Gutirrez, 2008

    Email: [email protected] [email protected]

    Versin 2.0 , Cali, Colombia, 2009

    Edicin Intrauniversitaria, Universidad del Valle

  • R. Behar

    5

    Prologo El Anlisis Exploratorio de Datos, (AED) es un enfoque, una actitud frente a los datos,

    apoyado en un conjunto de herramientas grficas y sntesis de los datos. El profesor John

    Tukey acuo este nombre, Exploratory Data Analysis en la dcada de los setenta, cuando

    public su famoso libro que lleva ese nombre, a travs de la editorial Addison-Wesley.

    Anlisis Exploratorio en contraposicin con el Anlisis Confirmatorio. En este ltimo, se

    supone que previo a la toma de los datos, estn planteadas unas hiptesis que pretenden ser

    confrontadas con la observacin de la naturaleza, a travs de diseos de experimentos o de

    estudios observacionales meticulosamente planeados para obtener datos que permitan

    contrastar las hiptesis preestablecidas.

    Las ideas de Tukey, en este enfoque, restan importancia a las hiptesis enunciadas a

    priori. Tukey dice: Hay que dejar que los datos hablen, en este sentido el Anlisis

    Exploratorio de Datos puede convertirse en una mina generadora de hiptesis plausibles.

    El libro de Tukey mencionado anteriormente, surge en una poca en la que la computacin

    estaba desarrollndose, no haban grandes desarrollos de Software. Sin embargo hoy en da,

    todos los paquetes de software estadstico, incluyen sus ahora conocidos diagramas de caja

    y alambres, los diagramas de tallos y hojas, los diagramas de puntos, entre otros. La

    mayora de las ideas planteadas por Tukey en su libro, estn por ser difundidas y usadas.

    Esta obra, se ha llamado Introduccin al Anlisis Exploratorio de Datos, pues trata solo

    unas pocas herramientas muy tiles, entre las cientos de ideas plantadas por Tukey.

    Un par de discpulos de Tukey, Valleman y Hoaglin, escribieron en 1981 un libro que

    llamaron The ABC's of EDA: Applications, Basics, and Computing of Exploratory, muy

    seguramente con los mismos argumentos.

  • Introduccin al Anlisis Exploratorio de datos

    6

    Mi colega y amigo Jorge Martnez Collantes, profesor de la Universidad Nacional de

    Colombia, uno de los primeros doctores en estadstica en el pas, tambin discpulo del

    profesor Tukey fue el primero en difundir las ideas sobre Anlisis Exploratorio en

    Colombia.

    En este libro, se desarrollan las ideas bsicas del Anlisis Exploratorio de Datos, a travs

    de situaciones problema que pretenden poner en contexto las herramientas grficas y

    algunos indicadores estadsticos.

    Este material ha sido usado por varios cientos de estudiantes de pregrado y de posgrado. Se

    ha usado en el curso de Anlisis de Datos de la Especializacin en Estadstica Aplicada y

    en el programa de Posgrado en Ingeniera Industrial.

    Esta que he llamado versin 2.0, fue mejorada en su estilo, con respecto a la versin

    anterior, gracias al apoyo de Nancy Jelen Valencia, estudiante de la maestra de ingeniera

    Industrial quien revis la versin 1.0.

    Creo que todo producto es mejorable y en particular este libro. El proceso de mejora es

    dinmico y es justamente de la observacin del proceso de enseanza-aprendizaje, el

    escenario ms idneo para detectar posibles oportunidades de hacerlo mejor, por

    sugerencia de colegas y estudiantes que lo usen.

    El autor

    Santiago de Cali, Julio 13 de 2009.

  • R. Behar

    7

    El ABC del Anlisis Exploratorio de

    Datos. Introduccin. En el captulo anterior, se ha hecho nfasis en el aporte de la estadstica en la bsqueda del

    conocimiento, proporcionando un marco y herramientas para detectar el mensaje, la

    informacin que los datos contienen, pero que se encuentra mezclada con un ruido, que se

    hace homlogo a una variacin aleatoria.

    La estadstica y el pensamiento estadstico, intentan descubrir patrones de comportamiento

    en lo datos, en un ambiente de variabilidad e incertidumbre. En el captulo 1, se present un

    modelo de pensamiento estadstico propuesto por Wild y Pfunnkuch (1999), que nos hace

    conscientes de la complejidad del proceso de pensamiento, de una jerarqua tan alta, que

    trasciende el clsico uso de frmulas y algoritmos estadsticos. Queda muy claro, que al

    enfrentar una situacin problema, es necesario recorrer un camino de reflexin, de

    comprensin del contexto, de valoracin de la naturaleza del problema, de conocimiento de

    las consecuencias del mismo, de precisin en la definicin operativa de conceptos y

    caractersticas, de sus procesos medicin, de claridad en el objetivo que se propone. Todo

    esto, es necesario para el proceso de transnumeracin, para buscar exprimir la informacin

  • Introduccin al Anlisis Exploratorio de datos

    8

    contenida en los datos. En este sentido es muy til, el recurso grfico, la medicin de

    algunos rasgos de los datos, que nos ayudan a establecer diferencias, a conformar grupos a

    sacar el diamante en bruto del fango. A esta fase se le conoce frecuentemente como anlisis

    exploratorio de datos. Este nombre y muchas de las herramientas grficas asociadas con l,

    son aportes del famoso estadstico John Tukey.

    Se ilustran a continuacin algunas de estas herramientas exploratorias, a travs de algunos

    casos. No siempre se requiere aplicar todas estas herramientas. Al igual que el cirujano, o el

    mecnico, cada instrumento surge de una necesidad y un propsito. Es natural, que para un

    mismo propsito estn disponibles varios instrumentos y ser el criterio particular de quien

    decide, usar el que considere ms conveniente. En los casos que se presentan algunas veces

    se muestra el uso de dos o ms instrumentos para lograr el mismo propsito, con la

    intencin de ilustrar su uso.

    Ejemplo. Caso de la fabricacin de Chocolates

    La fbrica de chocolate, tiene indicios que el peso de las barras que produce, presenta una

    variabilidad ms alta que la deseada, no obstante que el peso nominal es de 30 gramos.

    Se desea estudiar esta situacin e identificar algunas acciones que permitan generar una

    mejora en cuanto a la heterogeneidad.

    Qu tan grave es la situacin. Dado que la variabilidad es inevitable, qu quiere decir una

    variabilidad ms alta que la deseada? Cul es la deseada? Cul es el peso de las barras

    de chocolate que se producen?

    La respuesta a esta ltima pregunta no es un solo nmero, porque existe variabilidad,

    porque se sabe que es inevitable que todas las barras de chocolate salgan con peso

    diferente.

  • R. Behar

    9

    Una muestra aleatoria de barras de chocolate es obtenida, los pesos registrados aparecen a

    continuacin:

    30,44 29,96 30,14 29,96 29,83 30,47 30,26 29,77 30,13 29,91 30,02 29,76 30,3 30,01 30,2 30,1 30,1 30,35 30,07 29,85 29,67 29,67 29,95 30,05 30,15 30,22 30,07 30,06 29,69 29,67

    No obstante que son solo 30 datos, obtener alguna conclusin solo mirando los datos

    anteriores es difcil. Para tener una primera mirada de la situacin podemos recurrir al ms

    sencillo de los grficos un diagrama de puntos. (dot plot).

    Diagrama de puntos.

    Figura 1. Diagrama de puntos para el peso de barras de chocolate en una muestra aleatoria de 30

    unidades.

    El diagrama de puntos consiste en ir colocando los valores de la muestra sobre un eje

    metrizado, de tal manera que si dos valores coinciden o estn muy cercanos se coloca un

    punto arriba del otro. Es un grfico muy sencillo, que permite ver de un solo golpe de vista

    todos los datos, su ubicacin relativa, las zonas donde estn ms concentrados y si aparecen

    algunas posibles anomalas (puntos atpicos). Este grfico es muy til, sobre todo cuando la

    muestra no es demasiado grande. En tal caso, es una mejor herramienta grfica, el

    histograma que presentaremos mas adelante.

  • Introduccin al Anlisis Exploratorio de datos

    10

    Se detecta que los datos varan entre los valores extremos de 29.67 gramos (mnimo) y

    30,47 gramos (mximo). A la diferencia se le denomina rango.

    Rango = Mximo-Mnimo=30,47 gr - 29,67 gr = 0,8 gr

    Podemos responder ahora la pregunta? Existe demasiada variabilidad?

    Sabemos que la diferencia entre la barra ms pesada y la ms liviana es de 0,8 gramos. Es

    grande este valor? Para intentar responder, como clientes de los chocolates, hacemos

    conciencia que si en el mercado nos dieran una barra de chocolate de 29, 7 gramos, cuando

    en el empaque dice 30 gramos, muy seguramente no lo notaramos, de la misma manera si

    la barra pesara 30,5 gramos, tampoco nos enteraramos del exceso. La reflexin anterior,

    nos hara pensar, en calidad de consumidores, que la variabilidad revelada en la muestra no

    es exagerada.

    Sin embargo, desde el punto de vista del fabricante otro podra ser el panorama, pues por un

    lado, para la industria de alimentos y los procesos de empacado, existe la legislacin que

    toma en consideracin la variabilidad, pero que define normas muy precisas para su

    control. En esta situacin la pregunta podra convertirse en: estamos cumpliendo con las

    normas legales?

    Por otro lado, dependiendo de la capacidad de los procesos de la fbrica y de las polticas

    de la empresa frente a la competitividad, la propia empresa podra tener normas internas de

    calidad, mucho ms exigentes que las normas legales. En este casos la pregunta sera:

    estamos cumpliendo con las normas y polticas de la empresa?

    En ambos casos, para emitir un juicio, requeriramos de las especificaciones para el

    producto.

  • R. Behar

    11

    Imaginemos que la empresa por todas las consideraciones anteriores, ha definido el

    siguiente lmite de especificacin: una barra de chocolate se considera conforme si su peso

    se encuentra entre 29,7 gramos y 30,3 gramos.

    Qu nos dice la muestra frente a estas especificaciones?

    Calculemos pues, con este criterio, qu porcentaje de las barras de chocolate de la muestra

    no cumplen con las especificaciones.

    La respuesta puede deducirse a partir del siguiente diagrama de puntos en el que se han

    marcado los lmites de especificacin para las barras de chocolate.

    Figura 2. Valoracin de la variabilidad al confrontar la muestra con los lmites de especificacin del

    producto.

    Observemos que de las 30 barras de chocolate hay 5 que no cumplen con las

    especificaciones definidas por la fbrica, lo cual representa aproximadamente es un 17%, lo

    cual denota una situacin delicada.

  • Introduccin al Anlisis Exploratorio de datos

    12

    Esta exploracin, nos ha permitido corroborar la sensatez de la presuncin que ha dado

    origen a estas pesquisas.

    Antes de seguir adelante, conviene plantear una reflexin, a la cual daremos curso en el

    ltimo captulo de este libro. Si tomramos de nuevo una muestra aleatoria de 30 barras,

    obtendramos exactamente los mismos resultados?

    El equipo humano que est abordando este problema se rene con el propsito de especular

    sobre las posibles causas que pueden estar dando origen a este problema de variabilidad.

    Despus de mltiples consideraciones, creen que:

    Una posible causa es la variabilidad de la viscosa colada de chocolate. Siendo los moldes de volumen constante, al variar la densidad la colada, se producen barras

    con diferente peso.

    La variabilidad de la densidad puede ser debida a una falta de control en la temperatura de coccin.

    Para contrastar estas hiptesis se decide tomar nuevos datos, esta vez midiendo

    simultneamente la temperatura de coccin y la densidad de la colada.

    En una muestra aleatoria de 50 datos se obtiene lo siguiente valores:

    Fabricacin barras de chocolate Temperatura Densidad Temperatura Densidad

    102.1 1.55 104.5 1.49 106.7 1.45 103.3 1.54 97.3 1.62 107.7 1.46 100.6 1.59 94.7 1.70 94.3 1.67 95.9 1.66

  • R. Behar

    13

    Fabricacin barras de chocolate Temperatura Densidad Temperatura Densidad

    101.1 1.56 97.8 1.64 94.7 1.72 97.3 1.66 104.1 1.52 99.7 1.60 98.7 1.63 100.6 1.59 104.4 1.51 98.0 1.63 98.9 1.63 108.7 1.43 102.3 1.56 108.3 1.43 91.1 1.79 96.2 1.67 100.3 1.57 100.8 1.60 105.3 1.51 100.2 1.59 99.6 1.65 98.6 1.64 100.0 1.59 97.8 1.63 104.1 1.51 104.5 1.50 102.6 1.56 100.2 1.57 100.6 1.59 97.2 1.65 92.1 1.74 100.6 1.59 94.9 1.69 101.6 1.58 96.1 1.67 103.4 1.56 107.7 1.42 104.2 1.55 102.3 1.55 102.3 1.53

    Con base en estos datos, hay evidencia de excesiva variabilidad en los valores de la

    densidad?

    De nuevo requerimos referentes para emitir un juicio sobre la magnitud de la variabilidad

    de la densidad.

    Para ello se procedi a la siguiente manera: conociendo el volumen de los moldes, se hizo

    la pregunta: cul debe ser la densidad de la colada para que una barra de chocolate tenga

    un peso igual al lmite inferior de especificacin, es decir 29,7 gramos? Anlogamente para

  • Introduccin al Anlisis Exploratorio de datos

    14

    lmite superior 30,3 gramos? Al responder esta pregunta surgieron de manera natural los

    lmites de especificacin para la densidad:

    Limite inferior: 1.52 gramos/c.c Lmite Superior: 1.68 gramos/c.c Valor nominal: 1.60 gramos/c.c

    Esto significa que cuando la densidad es 1,60 gramos/CC, el peso de la barra de chocolate

    coincide con el Valor nominal 30 gramos.

    Cuando la densidad alcanza el Valor 1,52 gramos/CC, el peso de la barra de chocolate

    coincide con el lmite inferior 29,7 gramos y cuando la densidad es 1,68 gramos/CC el

    peso de la barra de chocolate queda en 30,3 gramos.

    Con base en estos nuevos lmites de especificacin para la densidad juzguemos la nueva

    muestra de la 50 barra de chocolate.

    Como puede apreciarse en el diagrama de puntos de la Figura 3, 11 de los 50 valores no

    cumplen con las especificaciones, lo cual representa el 22%, es decir casi una de cada 4

    resultaron no conformes, lo cual es una evidencia que no contradice la hiptesis que se

    haba planteado. El problema es grave y la variabilidad en la densidad es un factor

    importante.

    Puede observarse sin embargo que el valor nominal 1,60 gramos/CC est ubicado en el

    centro de los datos, lo cual habla bien del centramiento del proceso. En otras palabras, se

    estn produciendo barras de chocolate que en promedio tienen 30 gramos, pero la

    variabilidad supera lo deseable.

  • R. Behar

    15

    Este es una buena ilustracin de lo peligroso que podra ser controlar un proceso y en

    general tomar decisiones solo con el promedio. La dupla centramiento y variabilidad debe

    ser siempre inseparable.

    Figura 3. Confrontacin de los valores de la muestra de 50 valores de la densidad contra sus lmites de

    especificacin

    Queda pendiente una importante pesquisa, definida con la pregunta:

    Est relacionada la variabilidad de la densidad con la variabilidad de la

    temperatura?

    Para dar respuesta esta pregunta, construiremos el grfico conocido como diagrama de

    dispersin o diagrama bivariante, que consiste en dibujar los puntos de las parejas:

    (temperatura y densidad), en un plano cartesiano en cuyo eje X, colocaremos la temperatura

    y en el eje Y. la densidad.

    El diagrama de dispersin se muestra en la Figura 4.

  • Introduccin al Anlisis Exploratorio de datos

    16

    Diagrama Bivariante o Diagrama de Dispersin

    Figura 4. Relacin fuerte entre Densidad y Temperatura, evidenciada por un diagrama de dispersin.

    En el grfico de la Figura 4, se pone en evidencia una muy fuerte relacin estadstica entre

    la temperatura y la densidad. El diagrama de dispersin pone en evidencia que dicha

    relacin es rectilnea y adems inversa, es decir que la densidad decrece proporcionalmente

    con el aumento de la temperatura.

  • R. Behar

    17

    Se ha trazado sobre la nube de puntos una recta que marca la tendencia y que se conoce

    como Recta de Regresin. Como puede observarse no siempre para una misma temperatura

    se genera exactamente la misma densidad, aunque los valores, en este caso estn bastante

    cercanos. Por esa razn los valores de la densidad que se calculen con base en la recta,

    puede interpretarse como la densidad media que se produce para una temperatura

    especfica, si se repitiera muchas veces la observacin de la densidad a esa misma

    temperatura.

    As por ejemplo, vemos que cuando la temperatura es 100C, la densidad est alrededor de

    1,60 gr/CC, que es el valor ideal de la densidad, con la cual se producen barras de chocolate

    de 30 gramos.

    Los valores crticos de la temperatura, como se sealan en el grfico, corresponden a 96C

    y a 104C, con las cuales se logran las densidades crticas, de 1,52 gr/CC y de 1,68 gr/CC.

    Conclusin

    De este anlisis exploratorio puede recomendarse controlar la temperatura del

    proceso de tal manera que se mantenga entre 96C y 104C, y preferiblemente muy

    cerca de 100C.

    Recta de Regresin

    En el grfico de la Figura 4, se hace explcita la ecuacin de la recta de Regresin

    lineal, que pasa siempre por el centro de gravedad de los puntos y logra hacer

    mnima la suma de los cuadrados de las desviaciones verticales de los datos a la

    recta. Valindonos de dicha expresin, podramos estimar la densidad media que se

  • Introduccin al Anlisis Exploratorio de datos

    18

    obtendra para cualquier temperatura dentro del rango estudiado. As por ejemplo

    para una temperatura T= 98C, se obtendra una densidad media de:

    Densidad media = 3,548 -0,01952 (98) = 1,63 gr/CC

    Lo cual significa que si se controla la temperatura a 98 C, se espera que la media de la

    densidad de la colada se encuentre alrededor de 1,63 gr/CC.

    Como puede apreciarse disponer de una recta de Regresin es bastante til para hacer

    predicciones en el rango observado.

    En el grfico tambin se aprecia un valor asociado con algo llamado coeficiente de

    correlacin lineal. Dicho valor es -0,98. Cul es su significado?

    Coeficiente de Correlacin Lineal.

    Este coeficiente, es muy usado desde hace casi un siglo, su valor siempre se encuentra en el

    rango entre - 1 y 1. Su significado est asociado con el grado en que la nube de puntos se

    acomoda en un espacio geomtrico rectilneo. As por ejemplo, el coeficiente de correlacin

    lineal toma los valores extremos 1 o +1, cuando la nube de puntos se deja atrapar en

    forma perfecta por una recta, es decir todos los puntos del diagrama de dispersin cae sobre

    la recta. A medida que la nube de puntos se hace ms dispersa alrededor de alguna recta,

    este coeficiente se acerca al valor 0. Veamos algunos casos, para hacernos una idea ms

    precisa. Cuando la nube de puntos se ajusta alrededor de una recta con pendiente positiva,

    el coeficiente de correlacin lineal tendr signo positivo, en caso contrario, tendr signo

    negativo, como se ilustra en laFigura 5.

  • R. Behar

    19

    Cuando una nube de puntos es amorfa, como una bola o con una configuracin alrededor de

    una recta horizontal, el correlacin lineal muy seguramente estar prximo a cero.

    Veamos algunas situaciones:

    Figura 5. Diagramas de dispersin y sus coeficientes de correlacin lineal.

    Cmo se calcula el coeficiente de correlacin lineal?

    Se tienen n unidades de observacin en la muestra aleatoria y cada una de ellas se miden

    dos caractersticas X e Y, como en el ejemplo la temperatura y la densidad.

  • Introduccin al Anlisis Exploratorio de datos

    20

    Individuo ( , )i ii X Y

    ( )( )( )

    1

    22

    1( )

    n

    i ii

    n

    i ii

    X X Y Yr

    X X Y Y

    =

    =

    =

    Hoy en da, hasta las calculadoras ms baratas lo incluyen. Observe alguna tecla que tenga

    la letra r.

    Comentarios. Una pobre relacin entre dos variables, puede darse por mucha razones como las siguientes:

    a) Cuando el rango de variacin de una de ellas no es suficientemente amplio como para observar cambios en la otra. Por ejemplo edad y estatura. Si en la muestra el rango de edades est entre 11 y 12 aos, se percibir un diagrama de dispersin amorfo y por lo tanto un pobre coeficiente de correlacin lineal. Sin embargo si la muestra considera un rango de edades entre 6 y 12 aos, la forma del diagrama de dispersin ser muy distinta y estamos haciendo referencia a las mismas variables.

    b) Otra razn puede ser la no consideracin de otras variables de inters en la explicacin de la variacin. En el mismo ejemplo anterior, de la edad y la estatura, si adems de un rango amplio de edades, consideramos el gnero y hacemos diagramas de dispersin separados para hombres y mujeres, seguramente mejorar la asociacin.

    c) Otra razn puede ser que efectivamente las dos variables no est asociadas, como podra ser la estatura de un adulto y sus ingresos mensuales.

  • R. Behar

    21

    Ejemplo. El caso de Moto Pizza1.

    Antecedentes.

    Motopizza es un negocio de pizzas a domicilio que fue lanzado en octubre de 2001.

    La estrategia de negocios se basaba en tener tiempos de entrega menor que sus

    competidores (25 minutos), si se exceda este plazo se haca un descuento a favor del

    cliente de 25%. Slo se atiende a clientes de una zona cercana en la cual se concentra la

    publicidad local.

    La propuesta fue bien recibida por el pblico y la red se extendi rpidamente. A finales de

    2003 ya contaba con 14 establecimientos en tres ciudades. Los establecimientos pertenecan

    a Motopizza siendo socios los encargados que pasaban por un proceso de formacin.

    Las instalaciones y los procesos eran comunes en los 14 establecimientos.

    El negocio marchaba viento en popa hasta que finales de 2003 comenzaron a incrementarse

    en forma alarmante las quejas de los clientes por retraso en la entrega de los pedidos, con el

    consiguiente impacto sobre la economa del negocio, por su poltica de descuento por

    retraso.

    1 Este caso est basado en un caso del mismo nombre que usan los colegas de la Universidad Politcnica de

    Catalua, en los cursos de capacitacin Seis Sigma.

  • Introduccin al Anlisis Exploratorio de datos

    22

    La direccin decidi emprender un programa de bsqueda cientfica de las causas (seis

    sigma) involucrando los socios encargados. Uno de los primeros proyectos piloto tena

    como objetivo reducir el porcentaje de entrega es con retraso.

    La informacin cuantificada disponible era muy escasa, ya que el rpido crecimiento haba

    desbordado los sistemas y no exista cultura de gestin con base en datos.

    Tras una fuerte discusin en el comit de direccin se estim que el porcentaje de entrega

    con retraso estaba entre un 10% y un 15% y que el nivel aceptable era mximo un 3%. Se

    cree que este nivel puede alcanzarse si los tiempos de entrega tienen magnitud de 20 5

    minutos.

    Se estima que las prdidas econmicas al ao, ascienden a Col$ 500 millones. El 80% de

    este dinero podra recuperarse si se mejora en los tiempos de entrega.

    Con esta informacin de partida se puso en marcha un equipo de cinco encargados de

    establecimientos que se consideraban representativos liderados por un Black Belt2

    entrenado por la UPC.

    A continuacin se presenta un mapa del proceso llamado normalmente SIPOC por su

    iniciales en Ingls: Suppliers, Inputs, Process, Outputs, Customers. Que podra traducirse

    respectivamente como Proveedores, Entradas al Proceso, Proceso, Salidas del Proceso Y

    Clientes.

    Veamos el SIPOC para el proceso de fabricacin de Pizzas de Motopizza.

    2 Un Black Belt es un funcionario con una muy fuerte capacitacin en herramientas cuantitativas, especialmente en Estadstica. Esta denominacin es tpica en los procesos de capacitacin conocidos como Seis Sigma.

  • R. Behar

    23

    Mapa del proceso (SIPOC)

    Figura 6. Mapa de Proceso SIPOC para Motopizza.

    En ocasiones se comete un grave error y es suponer que ya se sabe lo que el cliente quiere.

    El Black Belt, que dirige el proyecto lo sabe muy bien. La voz del cliente es el insumo ms

    importante. Por esta razn organiza dos Focus Group en dos ciudades diferentes. Las

    ideas se organizaron con base en un diagrama de afinidad llegando a un gran

    descubrimiento.

    La voz del cliente.

    Se descubri que 30 minutos es un tiempo de entrega aceptable para el cliente siempre y

    cuando la pizza llegue caliente.

  • Introduccin al Anlisis Exploratorio de datos

    24

    Dado que esta informacin result de Focus Group se program para ms adelante una

    encuesta estratificando por ciudad y por establecimiento, con los siguientes propsitos:

    Validar el descubrimiento del Focus Group

    Averiguar cuestiones relacionadas con los tipos de Pizza.

    Explorar la posibilidad de ofrecer productos complementarios.

    Determinacin de las Caractersticas Crticas para el Cliente (CCC).

    Las caractersticas crticas para el cliente deben ser expresadas de manera medible de tal

    forma que el impacto de algn programa o una estrategia pueda ser valorado. No se puede

    mejorar lo que no se puede medir.

    Figura 7. Determinacin de las Caractersticas Crticas para el Cliente (CCC) a parir de impulsores.

  • R. Behar

    25

    La facturacin anual conjunta de todos los establecimientos asciende a 13.000 millones y se

    estima que el 15% de las entregas se hacen con retraso, lo cual representa una perdida

    aproximada de 500 millones.

    El local B2, del cual es encargado el hijo del dueo, tiene contabilizadas las perdidas por

    retrasos sin trampas y sus nmeros alrededor de 3 millones mensuales, son bastante

    coherentes con las cifras estimadas. El procedimiento usados para la estimacin global de

    las perdidas fue avalado por el director financiero de la empresa.

    Una sntesis de la situacin se resume en el siguiente cuadro, en el cual se expresa la

    problemtica en forma sinttica, se caracterizan las mtricas claves, para las cuales se

    intenta definir su punto de partida y adems se establecen las metas que se quieren lograr

    con el proyecto y la ganancia que se tendr si estas metas se cumplen.

    Descripcin del Problema Retrasos en las entregas originando importantes prdidas econmicas valoradas en Col$ 500 millones y otros perjuicios relacionadas con la prdida de clientes Objetivos Mtrica Valor de partida Valor Objetivo

    1. Retrasos % 10-15 3 2. Tiempo de

    entrega Minutos ? 25-30

    3. Temperatura C ? 80C Resultados Econmicos Esperados Ahorros por aumento en la puntualidad de Col$ 500 millones.

    Preguntas Claves a resolver.

    En realidad, Cunto se retrasan las pizzas?

    A qu temperatura le estn llegando las pizzas a los clientes?

    Ocurre lo mismo en todos los establecimientos?

  • Introduccin al Anlisis Exploratorio de datos

    26

    Unos das de la semana son ms crticos que otros?

    Hay ms retrasos en algunas horas especiales del da?

    Se retrasan ms los pedidos ms caros?

    Se retrasan ms unos motoristas que otros?

    Observe que las dos primeras preguntas hacen referencia a lo que hemos llamado variable

    de respuesta (Y) y estn orientadas a definir de manera precisa nuestro punto de partida.

    Cmo estamos ahora antes de emprender estrategia de mejoramiento?

    La respuesta a estas dos preguntas es indispensable, pues si no conocemos el punto de

    partida, no podemos valorar el impacto de nuestras acciones o programas.

    La restante preguntas estn orientadas a detectar posibles causas, que nos permitan de

    manera racional priorizar nuestras acciones tendientes a neutralizar su efecto.

    Tener explcitas y bien planteadas un conjunto de preguntas relacionadas con nuestro

    propsito, es muy importante, pues a partir de las preguntas, surgirn las caractersticas que

    es necesario observar o medir para responderlas. Nos obligan a reflexionar acerca de los

    procedimientos idneos para obtener datos vlidos y nos hace prever algunas opciones de

    anlisis, a partir de las cuales daremos respuesta a las preguntas.

    Surge de manera natural conocer el proceso que empieza con un evento desencadenante

    que es una llamada de un cliente y termina con la entrega del pedido. Conocer el proceso,

    nos permitir detectar oportunidades de mejora.

  • R. Behar

    27

    Diagrama del proceso.

    Figura 8. Diagrama de flujo del proceso en Motopizza.

    El diagrama del flujo es una importante herramienta, que nos permitir planear nuestra

    observacin del proceso, identificacin de actividades, deteccin de acciones redundantes y

    posiblemente otras que no produce ningn valor agregado.

    En el diagrama se han planteado tres etapas: recepcin de llamadas, fabricacin de la pizza,

    distribucin y entrega de la misma.

    En la fase de distribucin se observa que los clientes estn clasificados por zona (A y B) y

    que se van agrupando los pedidos, para armar una ruta para hacer varias entregas.

    Existen datos para responder las preguntas formuladas?

  • Introduccin al Anlisis Exploratorio de datos

    28

    Las mediciones disponibles eran escasas, incompletas y adems muy poco fiables.

    Para evitar problemas con la central, se disfrazaban muchas causas de retraso, razn por la

    cual la poca informacin disponible estaba distorsionada.

    Slo el local B2 dispone de algunos datos relacionados con el monto de dinero perdido por

    retrasos, pues por motivacin propia, al percatarse de la gravedad de la situacin, puso en

    marcha un estudio.

    Durante un mes (Noviembre) el telefonista anot la hora del pedido y los motoristas

    anotaron la hora de entrega. No estamos muy seguros de la fiabilidad del sistema de medida

    utilizado.

    Validacin del sistema de medida

    Dado que todo el proyecto y la valoracin de cualquier estrategia de mejora dependen de un

    registro vlido de las variables de respuesta o caractersticas crticas para el cliente (CCC),

    tiempo de entrega y temperatura de la pizza, en este caso, no es de poca monta garantizar

    que las mediciones de esta variables sean vlidas, carentes de sesgos.

    Para lograr esto se convierte la hoja de pedido en una plantilla itinerante, y se construye

    una definicin operativa del sistema de medida.

    Se coloca un reloj digital visible para todos, se dota a todos los motoristas de relojes

    digitales sincronizados pide termmetros para situar en una ranura establecida en la caja de

    la pizza, para la medicin de la temperatura.

    Se explica a los implicados (telefonistas, cocineros, motoristas) la importancia de tomar

    buenos datos y los beneficios que se desprenden del proyecto.

  • R. Behar

    29

    Como procedimiento para la validacin de los datos, se ofrece un descuento en la prxima

    orden que realicen, a los clientes que llamen para informar no hora de recepcin del pedido

    y su opinin sobre s estaba caliente o no.

    Se confrontan los registros obtenidos con este procedimiento, con los datos registrados por

    los motoristas en la plantilla itinerante, revelando que el sistema de medida es bastante

    fiable.

    Recoleccin de nuevos datos

    Durante un mes se recogieron datos, con el nuevo sistema de medida validado, al cual se le

    realizaron algunas mejoras. Los datos fueron registrados para cinco de los 14

    establecimientos, que se consideraron bastante representativos.

    A continuacin, se describen las caractersticas de los establecimientos observados.

    Establecimiento Antigedad Volumen Ubicacin Tipo

    M1 2 aos Mas de Col$ 1500 millones Madrid A

    M6 4 meses Col$ 600-1500 millones Madrid C

    B2 2 aos Mas de Col$ 1500 millones Barcelona A

    B3 1,5 aos Col$ 600-1500 millones Barcelona B

    V1 3 meses Menos de Col$ 600 millones Valencia A

    Se consider ms conveniente, recoger datos de todos los pedidos en lugar de hacer

    Muestreo. Se continu validando el sistema de medida durante el proceso de recoleccin.

    Al registrar los datos en la hoja de pedido, se poda estratificar por: hora, tipo de pizza,

    zona de la ciudad, motorista.

    Se proporcion un espacio para escribir observaciones.

  • Introduccin al Anlisis Exploratorio de datos

    30

    Responder Preguntas (datos existentes).

    Los datos recogidos, por el local B2, antes del estudio, nos permiten tener una primera

    respuesta sobre el impacto del da de la semana en el volumen de ventas.

    Son todos los das iguales?

    Figura 9. Serie de Tiempo para el nmero de entregas segn da de la semana en el local B2 de

    Motopizza.

    Del grfico de serie de tiempo que muestra la Figura 9, se obtiene informacin muy

    importante. Se ve claro que hay gran diferencia entre los das laborables y los fines de

    semana. Se detecta un da atpico, pero se le encuentra explicacin, ese da hubo un partido

    (clsico). Hace falta hacer un anlisis especial para las horas del da.

    Qu ocurre con los tiempos de entrega? Cmo se comportan?

  • R. Behar

    31

    Se dispone de 1354 observaciones del local B2, en este caso el diagrama de puntos no es

    prctico. En este caso conviene representar la distribucin de los tiempos de entrega con un

    histograma.

    Histograma para la distribucin de los tiempos de entrega

    Cuando se dispone de una variable continua como el Tiempo, en lugar de reportar los

    valores individuales de las observaciones como lo hicimos en el diagrama de puntos,

    pueden construirse intervalos, para ir contando cuantas observaciones caen en cada uno

    de ellos, el resultado de ste conteo, representa lo que se conoce como frecuencia absoluta

    para un intervalo dado.

    Si se presenta como porcentaje del total de observaciones, nos referimos a la frecuencia

    relativa. Una manera de representar estos intervalos y sus frecuencias es a travs del

    histograma que se construye colocando en el eje X, los intervalos definidos y construyendo

    sobre cada intervalo un rectngulo cuya rea representa el porcentaje de datos que

    pertenecen a dicho intervalo. De esta manera el rea de histograma es siempre ciento por

    ciento, que se distribuye en los distintos intervalos.

  • Introduccin al Anlisis Exploratorio de datos

    32

    Figura 10. Representacin de la distribucin de los tiempos de entrega por medio de un histograma.

    Si con base en el histograma de la Figura 10, quisiramos conocer que porcentaje de de los

    tiempos de entrega resultaron mayores que 25 minutos, bastara con calcular el rea del

    histograma que queda despus de 25, suponiendo que toda la rea es un 100%.

  • R. Behar

    33

    En la siguiente figura se ilustra esta afirmacin.

    Figura 11. Interpretacin del rea en un histograma. Porcentaje de retrasos en la entrega.

  • Introduccin al Anlisis Exploratorio de datos

    34

    Como puede apreciarse, el rea sombreada representa aproximadamente un 16% del rea

    total, lo cual significa que el porcentaje de tiempo de entrega superiores a 25 minutos tres

    aproximadamente un 16%.

    Este valor es preocupante, dada la poltica de hacer un descuento el cliente del 25% cuando

    se produce retraso en la entrega. En este caso Motopizza estara dejando de recibir la cuarta

    parte de ese 16%, decir se est perdiendo el 4% de los ingresos.

    Un hecho que se destaca en el histograma es que la barra ms alta se produce alrededor de

    24 minutos, justo antes del valor crtico (25 minutos). ste es un comportamiento raro,

    cuando los errores de medicin varan de manera aleatoria, sobre todo cuando se tiene un

    volumen grande de datos, como el nuestro caso. Comportamiento como ste, merece la

    bsqueda de explicaciones. Aqu por ejemplo, se descubri que los motoristas que

    entregaron a tiempo el pedido, pero olvidaron anotar al momento de la entrega el tiempo el

    minutos, deciden colocar en casi todas las ocasiones de olvido, el registro 24 minutos.

    Es importante destacar que lo que da significado porcentual en un histograma es el rea y

    no la lectura de los rectngulos.

    Cuartiles Q1 ,Q2 ,Q3 de una distribucin

    Podemos aprovechar la idea de histograma para empezar a definir algunos indicadores muy

    tiles al momento de describir el comportamiento de la distribucin de frecuencias de

    alguna variable, ste es el caso de los llamados cuartiles de una distribucin.

    Para encontrar los tres cuartiles Q1 ,Q2 ,Q3 de una muestra de datos, bastara con ordenar

    los datos en forma no decreciente y descubrir tres nmeros que dividan esa muestra

    ordenada y cuatro conjuntos de igual tamao, de tal manera en cada uno de estos se

    encuentre el 25% de las observaciones.

  • R. Behar

    35

    Si ligamos sta idea con la idea de histograma, lo que requerimos es encontrar tres valores

    de tiempo de entrega, que dividan el rea del histograma en cuatro partes iguales, cmo se

    muestra en la Figura 12.

    El grfico de la Figura 12, ensea los cuartiles de la distribucin de los tiempos de entrega.

    Ellos son Q1 =19 minutos,Q2 = 22 minutos ,Q3 = 24 minutos. Cul es su significado?

    Figura 12. Ilustracin el significado de los cuartiles de una distribucin

  • Introduccin al Anlisis Exploratorio de datos

    36

    Estos cuartiles nos indican que el 25% de las entregas se realizan en 19 minutos o menos,

    que el 50% de las entregas se realizan en 22 minutos o menos y que el 25% de las entregas

    se realizan en tiempos que superan los 24 minutos. Esto nos proporciona una primera idea,

    bastante buena acerca el comportamiento de los tiempos de entrega.

    Un grfico muy usado que involucra los tres cuartiles junto con el mnimo y el mximo de

    los datos, se conoce como diagrama de caja y alambres (Box Plot) y lo explicaremos

    enseguida.

    Diagrama de Caja y Alambres.

    Antes hablamos del riesgo de tomar decisiones o hacer descripciones usando slo los

    promedios. Una manera de salir al paso de esta tendencia que pretende resumir la

    complejidad de una muestra en un solo nmero, es asumir como costumbre, adems de la

    media y de las medidas clsicas, reportar cinco indicadores que proporcionan

    complementariamente una muy buena idea de la distribucin: los tres cuartiles y los valores

    extremos. Con estos cinco nmeros, podemos construir el llamado diagrama de caja y

    alambres, que es una herramienta extraordinaria sobre todo al momento de comparar la

    distribucin de una caracterstica en varias subpoblaciones.

    La Figura 13 nos ensea cmo construir un diagrama de caja y alambres.

    Nuestro punto de partida, es el clculo de los tres cuartiles, el nuestro caso estos son Q1=19

    minutos,Q2 = 22 minutos ,Q3 = 24 minutos.

    Observe que la caja est delimitada por los cuartiles extremos, es decir, Q1 y Q3. En el

    interior de la caja aparece una lnea divisoria que corresponde al segundo cuartil Q2.

  • R. Behar

    37

    Figura 13. Construccin de un diagrama de caja y alambres a partir de los tres cuartiles.

    Hasta este momento tenemos construida a la caja, pero hasta dnde van los alambres?

    Para responder esta pregunta y completar as la construccin de la caja, debemos marcar un

    par de cercos, que van a servir para definir cules datos deben considerarse atpicos o

    anmalos y cuales parecen provenir de la misma poblacin (datos tpicos).

  • Introduccin al Anlisis Exploratorio de datos

    38

    En el grfico se marca la longitud de la caja a la cual hemos llamado RIC, para abreviar

    la expresin Rango Inter Cuartlico, que no es otra cosa que la diferencia entre los

    cuartiles extremos.

    RIC= Q3 - Q1 = 24-19 =5 minutos.

    Los cercos se encuentran a una distancia de 1,5 veces el RIC, medida a partir de los

    cuartiles extremos. Veamos:

    Cerco Inferior = Q1 -1,5*RIC = 19-1,5*5= 11,5 minutos.

    Cerco Superior = Q3 +1,5*RIC = 24+1,5*5= 31,5 minutos.

    Esto significa que todo dato menor que 11,5 minutos o mayor que 31,5 minutos se

    considerar atpico y se marcarn con asterisco (*). Los alambres van desde los extremos

    de la caja hasta los datos menor y mayor que quedan atrapados entre los cercos.

    Ms adelante, volveremos con los diagrama de caja para usarlos en la comparacin de

    poblaciones.

    Hasta ahora se ha trabajo con todos los datos sin hacer la diferenciacin por el tipo de da

    de la semana. Surge ahora la pregunta:

    Hay diferencia en la distribucin de los tiempos de entrega de los das laborables

    frente a los fines de semana?

    Esta pregunta puede ser respondida de varias maneras distintas. Alguien podra calcular

    para cada una de las dos subpoblaciones que se comparan, el tiempo promedio de entrega, y

    tambin algunas medidas que acompaen la media y que indiquen el grado de variabilidad,

    sin embargo, dichas medidas, aunque son muy importantes y los referiremos a ella ms

  • R. Behar

    39

    tarde, no nos dan informacin sobre la condicin crtica de inters, es decir, el porcentaje de

    entregas por encima de los 25 minutos. Es distinto este porcentaje de retrasos los das

    laborales y los das de fin de semana?

    Esto podra responderse contando para cada conjunto de das, en forma directa, el nmero

    de veces que result por encima de 25 y convertirlo en porcentaje. Pero tambin lo

    podemos apreciar comparando las respectivas reas en los dos histogramas como se

    muestra a continuacin.

    Observando la Figura 14 y considerando las variaciones aleatorias, podramos decir, que

    tanto en das laborales como en das de fin de semana el porcentaje de retrasos est

    alrededor del 15%.

    De la comparacin se deduce que el promedio en bastante similar, sin embargo los fines de

    semana varan mucho ms que lo que varan los das laborales.

    De nuevo se observa que el rectngulo alrededor de 24 minutos es sistemticamente ms

    alto en ambos histogramas corroborando la explicacin dada anteriormente

  • Introduccin al Anlisis Exploratorio de datos

    40

    Figura 14. Comparaciones de la distribucin de los tiempos de entrega segn sea das laborables o fines

    de semana.

    .Para que la comparacin de histogramas sea realmente til, es necesario asegurarse que los

    histogramas que se comparan tenga la misma escala horizontal, pues de lo contrario

    podramos incurrir el error de apreciacin, sobre todo en la dispersin como se muestra en

    la Figura 15 que pretende ilustrar la misma situacin descrita en la Figura 14.

  • R. Behar

    41

    Figura 15. Percepcin equivocada de la dispersin cuando no se unifica la escala horizontal.

    Ahora se percibe menos diferencia en las dispersiones.

  • Introduccin al Anlisis Exploratorio de datos

    42

    Debemos recordar que hasta ahora hemos estado trabajando con datos existentes, producto

    de la iniciativa del encargado del local B2. Ms adelante confrontaremos estos resultados

    con los obtenidos con los nuevos datos.

    Para practicar la interpretacin de los diagrama de caja, hagamos la comparacin anterior

    pero usando ste tipo de diagramas.

    Figura 16. Comparacin de distribuciones usando diagrama de caja.

    Observe la utilidad de los diagrama de caja al momento de comparar, muy fcilmente se

    detecta que no hay diferencias el centramiento, sin embargo, de un solo golpe de vista se

    aprecia que los das laborales hay menor variacin.

  • R. Behar

    43

    Respondiendo preguntas (datos Nuevos).

    Ahora que hemos tomado nuevos datos con el propsito especfico de responder nuestras

    preguntas y que adems hemos validado los sistemas de medida, estamos listos para

    realizar un anlisis exploratorio.

    Qu tan calientes llegan las pizzas a nuestros clientes?

    n=610 observaciones Media= 82,3C Desviacin Estndar=5,0C

    Figura 17. Distribucin de la temperatura de la Pizza al momento de la entrega.

  • Introduccin al Anlisis Exploratorio de datos

    44

    32% de las entregas no cumplen con las especificaciones de temperatura, lo cual es bastante

    preocupante. Observe lo importante que disponer de esta medicin inicial, pues ser el

    punto de partida para valorar el impacto de nuestras acciones de mejora. Si no hubiera una

    medida fiable de nuestra situacin actual, cmo podramos saber si nuestros esfuerzos

    funcionan?

    Un par de valores que calcularemos siempre ser la media y la desviacin estndar, pues en

    la mayora de los casos de medicin, conociendo este par de valores, podemos calcular los

    porcentajes que necesitemos. ste maravilloso privilegio, lo tenemos cuando nuestra

    variable puede modelarse razonablemente como una distribucin normal.

    En este caso slo tuvo una media de 82,4 C con una desviacin estndar de 5C.

    Calculados con una muestra de 610 observaciones.

    Ms adelante abordaremos ms en detalle el significado y la utilidad de este par de

    indicadores, quizs los ms importantes en estadstica. Dedicaremos tambin un captulo

    para sacar provecho de la distribucin normal y sus propiedades.

    Cul es la distribucin de los tiempos de entrega, a la luz de los nuevos datos?

    El panorama que muestra el histograma de la Figura 18, es bastante fiable, toda vez que se

    ha sido muy celoso en la validacin del sistema de medida y adems se dispuso de una

    muestra de cerca de 2000 datos, lo cual nos da la confianza acerca de la estabilidad en las

    cifras calculadas, en el sentido de que si repitiramos el estudio en las mismas condiciones,

    se esperara que las cifras variarn relativamente poco, llegando, con alta confianza, a las

    mismas conclusiones

  • R. Behar

    45

    Figura 18. Distribucin de los tiempos de entrega con los nuevos datos.

    .

    La forma que presenta el histograma que se ajusta bastante bien a la llamada distribucin

    normal, es compatible con la idea de ausencia de sesgos sistemticos.

    El porcentaje de retrasos, 12%, es un poco menor que el que habamos estimado con los

    datos existentes. En ocasiones, la sola conciencia, de que se est midiendo con seriedad y se

    est controlando el estudio, empieza a producir resultados. Por supuesto es ms creble esta

  • Introduccin al Anlisis Exploratorio de datos

    46

    estimacin que la anterior, pues aqu no solo se dispone de un nmero mayor de datos, sino

    tambin de datos con mayor calidad.

    En cuanto al tiempo de entrega todos los establecimientos tienen el mismo

    comportamiento?

    Intentemos responder esta pregunta usando diagrama de cajas y alambres para hacer la

    comparacin pertinente.

    Figura 19. Diagramas de caja para la comparacin de la Distribucin del tiempo de entrega segn

    localidad

    Es la Figura 19 hemos agregado un hay referencias en 25 minutos, que define el punto

    crtico para el tiempo entrega. Se aprecia que la localidades M1, B2 y B3 tienen tendencia a

  • R. Behar

    47

    tardarse un poco ms en la entrega que las dems localidades. Aunque a decir verdad sera

    muy conveniente disponer de herramientas para saber si hay evidencia de una verdadera

    diferencia, o si por el contrario, es razonable pensar que dichas diferencias pueden

    atribuirse al azar. En el ltimo captulo de este libro abordaremos esta problemtica.

    Sin embargo puedo adelantarles que al investigar ms en detalle en busca de posibles

    explicaciones, se descubri que los que ms tardaban eran los ms antiguos, pues haban

    ido ampliando poco a poco su radio de operacin y tenan un porcentaje de clientes lejanos,

    mucho mayor que las localidades nuevas.

    Dejemos registrados para estas localidades la correspondiente media y desviacin estndar,

    que como ya dijimos sern valiosos indicadores para realizar la comparacin despus de

    haber implementado algunas estrategias para reducirlo.

    Tiempos de Entrega segn Localidades (Nuevos datos) Localidad Media Desviacin estndar Nmero de datos

    M1 21,7 4,0 370 M6 19,0 3,9 370 B2 20,9 3,8 331 B3 21,1 3,8 370 V1 19,3 3,9 385 M1 21,7 4,0 370

    Cmo se comportan los tiempos asociados con el proceso de fabricacin de la

    Pizza?

    El sentido que tiene el diagrama de proceso que elaboramos, es entre otro, detectar las

    actividades que se realizan en el proceso de fabricacin.

  • Introduccin al Anlisis Exploratorio de datos

    48

    En este caso, dichas actividades son de nuestro inters, en la medida en que nuestro

    propsito es la reduccin del tiempo transcurrido desde que el cliente hace la llamada para

    colocar el pedido, hasta que recibe su orden.

    Si atendemos al diagrama, existen bsicamente tres componentes que consumen tiempo: la

    recepcin del pedido, la fabricacin de la pizza y la distribucin. Para esta ltima hemos

    dedicado la mayor parte de nuestro esfuerzo, pues las otras tienen menos impacto, dada la

    proporcin de sus magnitudes y de sus variabilidades, razn por la cual destacamos como

    problema prioritario el tiempo de distribucin.

    Esto no quiere decir que las etapas del proceso de fabricacin y preparacin de la

    distribucin, no sean importantes. Por ejemplo sera de inters valorar la poltica que ha

    definido la empresa para realizar una ruta de distribucin. Se espera a que hayan al menos

    tres pedidos que vayan para la misma zona, antes de asignar una ruta a un motorista.

    Midiendo estos tiempos, podra realizarse un proceso de simulacin, de tal manera que

    podamos encontrar, por ejemplo, cul es el nmero ptimo de pedidos de una zona, que

    deben quedar en espera, antes de despachar un motorista en una determinada ruta.

    Qu tenemos hasta ahora?

    Corresponde ahora, hacer un balance de lo que hemos logrado hasta ahora. Una sntesis de

    cmo hemos respondido las preguntas originales, con el propsito de orientar estrategias

    para mejorar en de las variables crticas del cliente, satisfaciendo los niveles establecidos

    como lmites de especificacin.

    Hemos reportado siempre la media y la desviacin estndar de las variables de inters,

    porque como ya dijimos, son dos de los indicadores ms importantes al momento de

    reportar el comportamiento de una caracterstica que vara. A ellas nos dedicaremos de

  • R. Behar

    49

    manera particular en breve, para conocer sobre todo, como ellas pueden ayudarnos en los

    procesos de descripciones y de comparacin de poblaciones.

    A continuacin en la Figura 20 se presenta un cuadro con la sntesis de las respuestas a

    nuestras preguntas.

  • Introduccin al Anlisis Exploratorio de datos

    50

    Sntesis

    delasrespuestas

    alaspreguntas.

    Los hallazgos

    Los hallazgos que tenemos hasta ahora son los siguientes: Un problema crtico, que merece ser abordado con vistas a su mejoramiento es el tiempo de reparto Parecen existir diferencias en las localidades en cuanto al tiempo de reparto. Las localidades M6 y V1, son las ms rpidas. De acuerdo con el estudio realizado al comparar la distribucin de los tiempos de los motoristas puede concluirse que hay evidencia suficiente para pensar que hay diferencias importantes entre ellos. Los tiempos de entrega varan segn sea da laboral o fin de semana. Un estudio el margen, mostr que no haba evidencias de que la hora del da por el tamao del pedido fueran causantes de retrasos. A los clientes les parece razonable un tiempo de entrega de 30 minutos siempre que la pizza llegue caliente. (Esto podra cambiar el lmite de especificacin)

    El Diagrama del Proceso de Fabricacin

    Punto de partida Tiempo de entrega Temperatura en la entrega

    Porcentaje de Retrasos= 12% Media = 20,4 minutos Desviacin Estndar = 4,0 minutos

    % No conformes= 32%. Media= 82,3C Desviacin Estndar=5,0C

    Figura 20. Cuadro de sntesis sobre los hallazgos preliminares y el punto de partida

  • R. Behar

    51

    Generacin de hiptesis sobre posibles factores (causas) que pueden afectar las caractersticas crticas.

    Entramos ahora en una importante etapa, que podramos llamar etapa de anlisis, en la cual

    nos interesa sobre todo detectar posibles asociaciones de algunos factores, preferiblemente

    sobre los que actuar, con las variables de respuesta de inters: tiempo entrega y

    temperatura.

    El grupo de estudio se ha reunido usando la metodologa de Brain Storming (Lluvia de

    ideas), ha planteado por un lado una hiptesis para explicar la distribucin de la

    temperatura de la pizza al momento de la entrega:

    La temperatura de la pizza est bastante relacionada con el tiempo de reparto

    Con respecto al tiempo de reparto, las reflexiones del equipo pueden plasmarse en el

    siguiente diagrama de causa y efecto.

    El diagrama de causa-efecto, que se muestra en la Figura 21 tendr tantas ramas cmo se

    requiera, en este caso las posibles causas se agruparon en: fallas humanas, fallas mecnicas,

    mtodos o procedimientos, y las relacionadas con el medio ambiente

  • Introduccin al Anlisis Exploratorio de datos

    52

    Diagrama de Causa y Efecto.

    Figura 21. Diagrama de causa efecto para el retraso en los tiempos de entrega

    .

  • R. Behar

    53

    Si el problema fuese muy complejo, cada una de esas causas que aparecen en cada rama,

    podran convertirse en ramas. As por ejemplo, en la rama de maquinaria, el tem de no

    arranca, podra descomponerse en falta de mantenimiento, equipo obsoleto.

    Recordemos que en la indagacin a los clientes, se descubri que aceptaran de buen agrado

    un tiempo entrega de 30 minutos, siempre y cuando la pizza llegue caliente. Este solo

    hecho, es decir, modificar el lmite de especificacin para el tiempo entrega, ya cambia la

    situacin. Si el descuento del 25% para los predios con retardo, se mantuviera pero

    cambiando el lmite a 30 minutos, el porcentaje de retrasos bajara inmediatamente a un

    valor sorprendente bajo, menos del 1%, lo cual, nos pondra dentro de la meta del proyecto.

    Este panorama, hace que nuestros esfuerzos se centren en mejorar la situacin actual con

    respecto a la Temperatura, pues en la actualidad no se cumple con la especificacin en el

    32% de las entregas y si la hiptesis de relacin de Tiempo y Temperatura fuere cierta, lo

    que significa es que poner el lmite en 30 minutos en el tiempo de entrega, eventualmente

    podra agravar el problema de la temperatura.

    Urge contrastar la hiptesis:

    Hiptesis: La temperatura de la pizza est bastante relacionada con el tiempo de

    reparto

    Con los datos disponibles intentemos contrastar esta hiptesis. Para ello una herramienta

    muy til es el diagrama de dispersin o diagrama bivariante, adems del coeficiente de

    correlacin lineal.

  • Introduccin al Anlisis Exploratorio de datos

    54

    Figura 22. Relacin entre el tiempo de entrega y la temperatura

    El diagrama de dispersin de la Figura 22, no contradice la hiptesis. El grfico muestra

    asociacin estadstica entre el tiempo entrega y la temperatura de la pizza. El coeficiente de

    de correlacin lineal, toma un valor de 0,81, que calculado con base en 100 datos, en

    bastante fiable. Este valor nos estara indicando que aproximadamente el 66% (0,812) de la

    variabilidad la temperatura, es explicada por la variabilidad en los tiempos de entrega.

    Con la lnea punteada en el grfico, se muestra que cuando el tiempo entrega est alrededor

    de 22 minutos, la temperatura de la pizza es en promedio 80C.

    En esta etapa de anlisis, puede usarse una batera de herramientas estadsticas ms

    potentes, como el anlisis de regresin lineal, que se sale del alcance de este captulo. Sin

  • R. Behar

    55

    embargo a manera de informacin, puede ser conveniente saber que para poder usar el

    modelo lineal hallado y que se muestra la figura, es necesario validar algunos supuestos.

    Para ello corrientemente se usan herramientas grficas, como las que aparecen en la Figura

    23.

    Figura 23. Diagnostico grfico para el ajuste de un modelo de regresin lineal.

    Con los indicadores asociados al modelo de regresin ajustado, podemos afirmar por

    ejemplo en nuestro caso que en las ocasiones en las cuales el tiempo de entrega es de 22

    minutos, la temperatura promedia de entrega es de 81C aproximadamente. Adems,

    podemos afirmar que en esa misma situacin el 95% de las veces la temperatura de la pizza

    estar entre 75C y 87C.

    Anlogamente en las entregas que tardan 20 minutos, el 95% de las veces la temperatura de

    la pizza se haya entre 77C y 89C.

  • Introduccin al Anlisis Exploratorio de datos

    56

    Esta informacin es realmente til, pues permite no solo trabajar con las medias sino con

    intervalos de confianza para los parmetros o de prediccin para las variables.

    Una primera

    conclusin

    Lo que resulta de este anlisis es que si queremos que la pizza

    llegue caliente (al menos 80C), debe reducirse el tiempo de

    entrega o mejorar el proceso de la conservacin de la

    temperatura o una combinacin de ambos

    Otras Hiptesis

    A partir del diagrama causa efecto de la Figura 21, se plantearon la siguiente hiptesis:

    Hiptesis: existe diferencia en la distribucin de los tiempos de entrega segn

    motoristas.

    Para contrastar esta hiptesis, se construyeron diagrama de caja, para el tiempo entrega

    asociado con cada uno de los motoristas, ponindose en evidencia la existencia de tal

    diferencia.

    Por otro lado se analizaron los registros, la parte de Observaciones y se detect que los

    errores en la direccin y en la localizacin del piso, representan el cuatro por ciento de los

    retrasos.

    Un descubrimiento interesante lo constituye el hecho de que la diferencias entre motoristas,

    se debe principalmente a la diferencias en el conocimiento de la zona.

  • R. Behar

    57

    Al describir en detalle el diagrama del proceso, surge la necesidad de valorar la poltica de

    cola antes del despacho, pues en la actualidad, se espera que haya tres pedidos para la

    misma zona, o que transcurran tres minutos, lo que ocurra primero.

    Estrategias para Mejorar.

    Alguna de las opciones de mejora del proceso planteadas por los miembros del equipo son

    las siguientes:

    1. Definir mecanismos para la verificacin de la direccin y del piso

    2. Capacitar a los motoristas.

    3. Aumentar el nmero de motoristas.

    4. No recibir pedidos de la zona B, que es la ms lejana.

    5. Disear mtodos para la conservacin de la Temperatura. (Aislar cajas en la moto y

    hacer uso de bolsas plsticas).

    Pruebas Piloto y evaluacin de riesgos

    Una vez se han generado estrategias de mejora, existen mecanismos para valorar su

    impacto y para medir los riesgos de su implementacin, una opcin muy recomendable son

    las llamadas pruebas piloto.

    Antes de invertir grandes cantidades de dinero, llevando la prctica alguna de las

    alternativas, conviene probarlas a pequea escala. Esto permite entre otras cosas, descubrir

    algunas posibles limitaciones en su aplicacin, as como tambin valorar su impacto en

    relacin con su costo, posiblemente a travs de un anlisis de costo beneficio. Se detectan

  • Introduccin al Anlisis Exploratorio de datos

    58

    con ensayo piloto, algunos efectos secundarios no deseables, que podran ser difciles de

    detectar a priori.

    De esta manera se realizaron pruebas piloto para las siguientes propuestas de mejoramiento:

    DiseodeunnuevoProcesoparadisminuirerroresenladireccin.

    Este nuevo proceso se ensay en las localidades B2 y M1 y se tomaron como control para

    la comparacin las localidades B3 y M6 que usaban el sistema tradicional.

    Se pas de 1,7% de direcciones erradas a tan slo 0,5%, resultando sta diferencia

    estadsticamente significativa, al aplicar las pruebas estadsticas correspondientes para

    decidir si esta diferencia puede producirse por azar o si por el contrario es una diferencia

    estructural.

    Redefinicindelaszonasaatender.

    Las zonas a servir se redefinieron, estudiando la distancia y los tiempos de entrega a partir

    de los registros observados. Esto implicar, entre otras cosas, no atender algunos clientes

    que antes se atenda. Para ello se realizar un estudio de costo beneficio.

    Conservacindelatemperatura

    Se probaron distintos tipos de bolsa trmica caliente , con criterios tcnicos y de costos se

    seleccion una para ser probada en un ensayo piloto. Cada vez que haba pedido para una

    misma zona, se haca una rifa de manera totalmente aleatoria para decidir a cual pone bolsa

    y a cual no, esto para evitar sesgos por posible variables no controladas y evitar se

    convirtieran en factores de confusin.

  • R. Behar

    59

    Los resultados se presentan a continuacin:

    Figura 24. Valoracin del impacto de la bolsa trmica caliente.

    La Figura 24 pone en evidencia de manera contundente, el impacto de la bolsa en el control

    de la temperatura, pues pasamos de una situacin en la cual el 35,5% de las entregas no

    cumplan con la especificacin, a tan slo un, 3,7%.

    Estos resultados correspondientes a la media y a la desviacin estndar, son bastante

    estables, toda vez que han sido calculados con una muestra suficientemente grande, como

  • Introduccin al Anlisis Exploratorio de datos

    60

    para garantizar que la diferencias observadas no se presentan de chiripa. Las herramientas

    sobre este tema, las trataremos en el ltimo captulo.

    Implantacin de las mejoras.

    Una vez se han realizado los ensayos piloto, se han validado las opciones de mejoramiento

    que realmente funcionan, y se ha medido su impacto econmico a travs de anlisis de

    costo beneficio, estn listas para ser implantadas en la organizacin.

    Para ello, se estableci un calendario de actividades, con responsables especficos y con los

    recursos requeridos para implantarlas.

    Se realiz una muy fuerte capacitacin sobre nuevo el proceso a los encargados de los 14

    establecimientos y se compraron bolsas trmicas para todos los motoristas.

    Se hizo una intensa formacin a los motoristas en el manejo de mapas, directorios y

    callejeros, con entrenamiento en la calle y con su correspondiente evaluacin para

    garantizar la efectividad de su capacitacin.

    Se estableci un espacio de reunin de los motoristas, para intercambiar experiencias e

    informacin sobre rutas.

    Establecimiento de controles

    Cuando se implementar un nuevo sistema, es muy importante garantizar la nueva inercia,

    que impida que el sistema vuelva a su estado anterior, es necesario, que todos en la

    organizacin se familiaricen con los nuevos estndares y especificaciones, con los nuevos

    procedimientos, con los nuevos instrumentos de registro de datos. Hay que evitar que las

    mejoras sean transitorias, es necesario consolidar el nuevo sistema.

  • R. Behar

    61

    Todo esto debe hacerse de manera organizada definiendo un sistema de monitoreo y

    control.

    Corresponde ahora la prctica, ya no ha escala piloto, si no con la empresa funcionando,

    validar las cifras, los indicadores, y los beneficios esperados.

    Elementos esenciales del sistema de control podran ser entre otros los siguientes:

    Estandarizacin. Documentacin de los nuevos procesos.

    Control de los procesos a los nuevos niveles. Dado que pueden haberse cambiado las especificaciones, es necesario monitorear los procesos para asegurarse que se

    cumple. Esto puede hacerse a travs de los llamados grficos de control.

    Documentacin del proyecto. Es la historia del proyecto, que incluyen dificultades y sus soluciones, que plantea de forma explcita las mtricas utilizadas, sus

    definiciones, los instrumentos de medicin, sus especificaciones, clculos de

    rentabilidad financiera, supuestos, preguntas pendientes de resolver.

    Control al nuevo nivel

    Se puso en marcha en forma paulatina un sistema de seguimiento de tiempo y temperatura

    en la misma tarjeta de pedido.

    Se estableci el cuadro de mando que se muestran en la Error! No se encuentra el origen

    de la referencia., en el cual se presenta de una manera precisa, la forma como deben ser

    controladas cada una de las variables crticas, incluyendo responsables, frecuencia de

    control, mtodo evaluacin, tolerancias y propsito.

  • Introduccin al Anlisis Exploratorio de datos

    62

    Xs Objetivo Tolerancias Mtodo de Evaluacin Frecuenci

    a

    Responsable de la medida

    Formacin Conocimiento de la ciudad >70% en el

    examen Examen nueva incorporacin

    Todos los motoristas Supervisor

    Zona Utilizar la Zona asignada segn carga de trabajo

    Cero Zona/Carga Cada entrega Supervisor

    Respuestas Y

    Tiempo de Entrega

    Satisfaccin del cliente >99,7%

    Encuesta de satisfaccin Anual Central

    30 minutos Min 99% Nmero de descuentos Todas Supervisor

    Temperatura 80C >76C Ficha Todas Supervisor Figura 25. Cuadro de mando para controlar los procesos

  • R. Behar

    63

    Valoracin de Resultados No financieros

    Tiempo de Entrega de los Pedidos

    Aunque la media no ha cambiado mucho, la variabilidad se ha reducido notablemente, haciendo que el lmite de especificacin ahora se cumpla holgadamente. Esta reduccin de los tiempos grandes traern mejoras tambin en la temperatura

    Temperatura de la Pizza

    Se ha mejorado no solo en la media, que ahora es mayor, sino tambin en la dispersin que ahora es menor, a tal punto que el 100% de los pedidos llegan con temperatura superior a los 78C.

  • Introduccin al Anlisis Exploratorio de datos

    64

    Calculo de los cuartiles para datos crudos.

    Ilustraremos el proceso de clculo de los cuartiles con un ejemplo.

    Ejemplo.

    Los siguientes datos corresponden a las edades de 14 personas seleccionadas al azar, entre

    cierta clase de empleados de la poblacin objetivo de un estudio.

    25, 38, 29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31.

    Paso #1; Ordenar los datos de menor a mayor:

    Observe que cuando los nmeros indican posicin, los colocamos entre parntesis.

    Los cuartiles los descubrimos calculando la posicin que ocupan; es conveniente empezar

    por el segundo cuartil

    Segundo cuartil Q2. (Mediana)

    Para calcular la posicin que ocupa el segundo cuartil, promediamos las posiciones

    extremas: (14)+(1) / 2 = (7.5). Como no existe la posicin 7.5, porque un dato queda en la

  • R. Behar

    65

    posicin 7 o en la 8, entonces interpretaremos que queda en el medio de los datos que

    estn de 7 y 8 , para evitar esta ria, hacemos el promedio de los dos datos que ocupan

    esas posiciones:

    2(33 34) 33,5 aos

    2Q += =

    Primer Cuartil3, Q1. El primer cuartil se obtiene considerando solo los datos que

    quedan antes de la mediana. Para este grupo de datos se calcula la media .Se trata pues de

    encontrar la posicin de la mitad de la mitad.

    La posicin que ocupara el primer cuartil ser la mediana de este primer grupo de datos:

    que es el que ocupe la posicin

    3 Note que si el nmero de datos es impar, el segundo cuartil Q2, no sera necesariamente un dato de la

    muestra. En este caso, para calcular la ubicacin del primer cuartil Q1, se toman en cuenta los datos que

    quedaron antes del segundo cuartil, excluyendo el dato que result ser el segundo cuartil Q2. Anlogamente

    para el tercer cuartil Q3.

  • Introduccin al Anlisis Exploratorio de datos

    66

    (7) (1) (4)2+ =

    La Cuarta posicin la ocupa el dato 29. Este es el primer cuartil.

    Es decir que el primer cuartil, Q1 es el dato que ocupa la 4 posicin, o sea que Q1 = 29

    Aos

    Si aplicamos este mismo procedimiento a los datos mayores que la mediana, se obtiene el

    tercer cuartil

    El tercer cuartil Q3.

    La posicin que ocupar el tercer cuartil ser la mediana de este segundo grupo de datos:

    Es decir, ser el valor que ocupe la posicin:

    (8) (14) (11)2

    + =

    La posicin once (11) la ocupa el dato 42. Este es el tercer cuartil.

    Q3 = 42 Aos

  • R. Behar

    67

    Para la construccin de un diagrama de caja y alambres, se requiere de algunos clculos

    adicionales, basados en los cuartiles ya encontrados:

    Rango Intercuartlico. (RIC)

    RIC = Q3-Q1 = 42-29= 13 Aos

    Edad mnima = 23 Aos

    Edad mxima = 54 Aos

    Cerco interno inferior = Q1- 1.5(RIC) = 29-1.5(13) = 9.5

    Cerco interno superior = Q3 + 1.5(RIC) = 42 + 1.5(13)= 61.5

    Construya usted el diagrama de caja para este caso4

    Otro ejemplo (Sntesis)

    Se tiene una muestra aleatoria sobre cierta caracterstica de la Poblacin y se quiere hacer

    una descripcin de la misma, usando los cuartiles y construyendo un diagrama de caja y

    alambres.

    Para ello, se ordena la muestra de menor a mayor, como se muestra enseguida.

    4 Note que en este caso particular, todos los puntos quedaron dentro de los dos (2) cercos, lo cual no ocurre

    siempre, por esta razn los puntos interiores ms cercanos al cerco son el mnimo y el mximo de los datos,

    que definen la longitud de los alambres que van pegados a la caja.

  • Introduccin al Anlisis Exploratorio de datos

    68

    Se empieza calculando el segundo cuartil y despus los otros dos, siguiendo los pasos que

    se explican abajo.

    Figura 26. Ilustracin de los pasos para el clculo de los cuartiles

    En resumen puede decirse que los diagramas de cajas y alambres son tiles, entre otros para

    los siguientes propsitos:

    1. Para identificar la localizacin de los datos alrededor de la mediana.

  • R. Behar

    69

    2. Para hacerse una muy buena idea de la dispersin de los datos, basndose en la

    longitud de la caja (rango intercuartlico), pues siempre la caja, corresponde al 50% de los

    datos que estn en la parte central. Adems se aprecia el rango de los datos, el cual

    corresponde a la distancia entre las observaciones ms extremas.

    3. El diagrama de cajas y alambres, nos permite hacernos una muy buena idea sobre el

    grado de asimetra de una distribucin, al comparar la proporcin de la caja que queda a la

    izquierda de la mediana, con la que queda a la derecha, igualmente la longitud de los

    alambres respectivos. En el ejemplo de la figura, se observa que los datos estan ms

    concentrados en entre Q1 y Q2 que entre Q2 y Q3, lo cual es una muestra de cierto grado

    de asimetra.

    4. El diagrama es til para identificar posibles puntos atpicos ( fuera de los cercos

    internos pero dentro de los externos) o puntos atpicos o outliers (fuera de los cercos

    externos).

    5. Una utilidad grande de los diagramas de caja y alambres, es comparar varias

    poblaciones, a travs de sus distribuciones. En este caso se construye un diagrama para

    cada distribucin y se dibujan en una misma escala (sobre un mismo plano), lo cual permite

    muy fcilmente hacerse una idea de las semejanzas y las diferencias de los rasgos ms

    importantes de las distribuciones. Como se ilustrara en un ejemplo ms adelante.

  • Introduccin al Anlisis Exploratorio de datos

    70

    La Media y la Desviacin Estndar. Su significado y su Utilidad

    Prctica.

    La media aritmtica y la desviacin estndar, son las medidas mas frecuentemente usadas

    en estadstica y, en parte, la razn es que corresponden por suerte a los parmetros de la

    distribucin mas famosa y mas til de la estadstica: La Distribucin Normal. Por esta

    razn esperamos a estar justo antes del tratamiento de la distribucin normal ( prximo

    captulo) para hablar de estos indicadores.

    Figura 27. La Media y la desviacin Estndar. Una mirada intuitiva.

    En Las dos situaciones que se ilustran en la Figura 27, la media tiene el mismo valor que

    pretende indicar dnde est el centro del conjunto de datos respectivo, sin embargo, en la

    situacin B, la media parece representar mejor los datos que en la situacin A. Dicho de

    otra manera: En la situacin B, los datos son ms parecidos a su media. Dicho de otra

    manera, la media es mejor representante de los datos en la situacin B quede en la situacin

    A.

  • R. Behar

    71

    La desviacin estndar es una medida de la cercana de los datos a la media que los

    representa. En cierta forma la desviacin estndar es una medida de la credibilidad de la

    media aritmtica en su intencin de representar los datos.

    La media y la desviacin ser estndar son una pareja inseparable, la primera informa sobre

    la magnitud de los datos y la segunda da cuenta del crdito que hay que darle dicha

    magnitud, en trminos de su similaridad con los datos que representa.

    Decimos que en la situacin B, la desviacin estndar de los datos es menor que en la

    situacin A.

    Es claro que pueden existir varias maneras de definir la cercana (o alejamiento) de los

    datos a un cierto valor central.

    La desviacin estndar tiene una definicin muy especfica, que aunque a primera vista

    tiene una complejidad para su interpretacin intuitiva, tiene como contraparte un rico

    tratamiento matemtico, que ha permitido el desarrollo de abundante teora en la llamada

    inferencia estadstica.

    Origen de la media y la desviacin estndar.

    El criterio de cercana que da origen a la definicin de la media y de la desviacin

    estndar es el siguiente:

    Utilizaremos los datos representados en la Figura 28, en la que tambin hemos representado

    un valor a, en principio arbitrario, con el propsito de descubrir donde conviene

    colocarlo para que sea un buen representante del conjunto de los datos.

    Empezaremos diciendo que a puede ser cualquier nmero real y despus le vamos a

    exigir algunos requisitos asociados con nuestra idea de lo que significa buen

  • Introduccin al Anlisis Exploratorio de datos

    72

    representante, lo cual restringir el conjunto de valores que pueda asumir. Veamos un

    criterio para seleccionar el valor de a.

    Figura 28. Muestra aleatoria de 10 valores, con sus distancias a un presunto valor central

    De todos los posibles valores de a, vamos a escoger aquel que haga menor la media de

    los cuadrados de la distancia de los datos a dicho valor a. Es decir, el que minimiza la

    funcin:

    ( )( )2

    1

    n

    ii

    x ag a

    n=

    =

    En este caso el mejor valor de a puede deducirse derivando g(a) con respecto de a,

    igualando a cero y despejando su valor. Veamos:

  • R. Behar

    73

    ( )1

    ( ) 2 0n

    ii

    g a x aa n =

    = =

    Por tanto ( )1

    0n

    ii

    x a=

    = .

    De donde se deduce que ix n a= y despejando a tenemos: ix

    a xn

    = =

    Si hacemos la segunda derivada vemos que siempre es positiva, lo cual confirma que el

    punto crtico es xa = (media aritmtica) es el nmero que produce el valor ms bajo para g(a). Dicho valor ( )g x es la varianza de X.

    Con los datos de nuestro ejemplo = 15,1 y el valor mnimo de g(a), es decir,

    ( ) ( )2

    ix xg xn= es la varianza, que representaremos por S2 = 7,89. Sacando raz

    cuadrada se obtiene la llamada desviacin estndar S = 2,81.

    Esto muestra como la media aritmtica y la desviacin estndar son medidas hermanas.

    La media como centro de gravedad de los datos.

    Observe de la demostracin anterior que el valor hallado para a, es decir xa = , satisface

    que ( ) 01

    ==

    N

    ii xx , lo cual se expresa en la Figura 29, haciendo que la suma de las

    distancias de la media a los datos que quedan a su izquierda es exactamente igual a la suma

    de los que quedan a su derecha.

  • Introduccin al Anlisis Exploratorio de datos

    74

    Figura 29. Propiedad de la media aritmtica

    Esta propiedad de la media, la caracteriza como el centro de gravedad de los datos.

    Si se dispone de un histograma y se desea saber en qu punto queda la media, basta

    identificar su centro de gravedad, como se muestra en la Figura 30

    Figura 30. La media como centro de gravedad

    Notacin: Se usara el smbolo X (X-barra), cuando se hace referencia a la media de una

    muestra. El smbolo (mu), representa la media de toda la poblacin de Inters.

  • R. Behar

    75

    Con la media X de una muestra, se pretende estimar (conocer aproximadamente) la media

    de la poblacin, por esta razn, se dice que X es un estimador del parmetro .

    La varianza de la poblacin (2) y desviacin estndar poblacional (). Su contraparte muestral se representa por la letra S.

    Observaciones.

    En realidad las definiciones que se usan con el propsito de realizar estimaciones de los parmetros poblacionales varianza (2) o desviacin estndar () son un poco distintas a las planteadas, pues en lugar del denominador n, se usa el denominador

    (n-1) as:

    ( )

    ( )

    1 2

    22

    2

    ... Media Muestral

    Varianza Muestral1

    Desviacin Estndar Muestral1

    n

    i

    i

    X X XXn

    x xS

    n

    x xS

    n

    + + +== =

    Observe que en caso extremo en que todos los datos son idnticos, es decir, no existe variabilidad, la media tambin seria idntica a los datos y por tanto la

    desviacin estndar S sera nula. Por otro lado a medida que los datos se alejan mas

    de la media, las distancias al cuadrado se hacen ms grandes y por lo tanto crecera

    la desviacin estndar. Por estas razones, la desviacin estndar es una medida de

    variabilidad o dispersin de los datos. Sin embargo, la interpretacin directa no es

    fcil, pues no es posible emitir un juicio sobre su tamao al margen del contexto,

  • Introduccin al Anlisis Exploratorio de datos

    76

    ms an cuando su valor depende de las unidades en las que se mide en las variables

    correspondientes.

    No obstante, una muy buena interpretacin surge del llamado principio deTshevichev, y

    tambin cuando se asocia con la distribucin normal.

    Interpretacin de la desviacin estndar

    Aunque la interpretacin y la utilidad ms contundente de la desviacin estndar est

    asociada con la distribucin normal que trataremos en otro captulo, su carcter de medida

    de dispersin puede apreciarse a travs del conocido Principio de Schebyshev.

    Principio de Schebyshev.

    Si a cualquier conjunto de datos le calculamos su media X y su desviacin estndar S y

    luego construimos un intervalo con centro en la media X , restndole y sumndole un

    numero k de desviaciones estndar, este intervalo atrapa una fraccin de los datos igual a

    211 k

    As por ejemplo entre la media y dos desviaciones estndar (k=2), estar por lo menos

    75.0211 2 =

    , el 75% de los datos.

    Entre la media y tres desviaciones estndar siempre habr al menos 88.0311 2 =

    , el

    88% de los datos.

    Y para 4 desviaciones estndar, por lo menos 93.8%.

  • R. Behar

    77

    En los siguientes captulos, tendremos la oportunidad de apreciar la importancia de estas

    dos medidas.

    Observe que este principio se cumple siempre, no importa cual distribucin tiene la variable

    de inters y nos proporciona una cota mnima para el porcentaje de datos que se encuentren

    a una distancia de a los mas k veces la desviacin estndar.

    Propiedades Operativas de la media

    1. Si xi = k, para todo i, o sea que si todos los datos son iguales a k, entonces: x = k.

    Veamos:

    xx

    n

    k

    nnkn

    ki

    i

    m

    i

    n

    = = = == =

    1 1

    2. Si todos los datos de una muestra se multiplican por una constante, el promedio de

    dicha muestra resulta multiplicando por la misma constante, es decir:

    si yi = axi , i = 1, 2, ..., n; entonces y = a x

    yy

    n

    ax

    na

    x

    nax

    ii

    n

    ii

    n

    ii

    n

    = = = == = =

    1 1 1

    3. Si Zi = axi + byi , i = 1, 2, ..., n; donde a, b son constantes, entonces

    Z ax b y= +

  • Introduccin al Anlisis Exploratorio de datos

    78

    Veamos:

    ( )1 1

    n n

    i i ii i i i

    Z ax byx yZ a b

    n n n nZ ax b y

    = =+ = = = +

    = +

    Esta propiedad puede generalizarse a la combinacin lineal de k variables y puede

    resumirse diciendo que la media aritmtica es un operador lineal.

    Ejemplo: Ingreso econmico de parejas de casados

    Se ha tomado una muestra de parejas de casados y se han observado las variables X e Y.

    X : Ingreso mensual del esposo

    Y : Ingreso mensual de la esposa

    Se encontr que el ingreso promedio mensual de los esposos es

    X = $100.000 y de las esposas Y = $80.000.

    Si se define la variable ingreso familiar Z, como la suma de los ingresos de los esposos,

    entonces el ingreso familiar de la pareja i ser: Zi = Xi + Yi y el ingreso familiar promedio

    ser:

    Z X Y= + = $100.000 + $80.000 = $180.000

  • R. Behar

    79

    6. Si una muestra de n elementos, se divide en k submuestras excluyentes y exhausti-

    vas, que tienen n1, n2,..., nk, elementos (n1 + n2 + ... + nk = n), con promedios x 1, x 2,..., x k

    respectivamente, entonces el promedio de la muestra global estar dado por:

    x n x n x n xn

    k k= + + +1 1 2 2 ...

    es decir: xn x

    n

    i ii

    k

    = =

    1

    El promedio x i, de los datos del grupo i, est dado por: xx

    nij

    G

    i

    i=

    por tanto: x n xjG

    i ii

    =

    Por otro lado:

    x x x x

    n x n x n x

    jj

    n

    jG

    jG

    jG

    k k

    k= = + + +

    = + + +1

    1 1 2 2

    1 2

    ...

    ...

    Entonces: xx

    nn x n x n x

    n

    jj

    n

    k k= = + + +=

    1 1 1 2 2 ...

    Ejemplo

  • Introduccin al Anlisis Exploratorio de datos

    80

    Una muestra de 500 trabajadores tienen un salario promedio de $108.000, si el salario

    promedio de los hombres es $120.000, y el de las mujeres $100.000, cuntos hombres y

    mujeres hay?

    Si n1 es el nmero de hombres y n2 el de mujeres, entonces:

    n1 + n2 = 500 (1)

    Adems:

    $108. . .000 120 000 100 000500

    1 2= + n n (2)

    Resolviendo (1) y (2) se obtiene: n1 = 200 y n2 = 300

    Clculo de la media aritmtica para los datos agrupados en intervalos de

    clase.

    Se sabe que cuando los datos estn agrupados en clases, se pierde la individualidad de la

    informacin, as por ejemplo puede conocerse que en el intervalo (10,20] hay 3 datos, pero

    no conocemos cul es el valor de cada uno de estos datos; esto plantea una dificultad para

    el clculo de la media usando la definicin presentada.

    Se puede calcular en este caso la media, en forma aproximada, usando la propiedad 6 y el

    supuesto de que los datos en cada intervalo estn uniformemente distribuidos, puesto que si

    esto sucede , la media aritmtica de los datos del intervalo i, coincide con el punto medio

    del intervalo (marca de clase), de esta manera se puede considerar la muestra total, dividida

    en "m" submuestras constituidas por los datos que pertenecen a cada uno de los intervalos,

    as aplicando la propiedad 6, se obtiene que:

  • R. Behar

    81

    x n x n x n xn

    m m= + + +1 1 2 2 ...

    Como: ' ; entonces :ix x

    '

    '

    '1

    1

    ; entonces :im

    i i mi

    i ii

    x x

    n xx f x

    n=

    =

    = =

    Ejemplo

    Dada la siguiente distribucin de frecuencias:

    La media aritmtica de esta distribucin ser:

    x = + + + + =12 15 16 30 42 50 25 65 5 85100

    481.

    O en forma equivalente:

    x = 0.12 x 15 + 0.16 x 30 + 0.42 x 50 + 0.25 x 65 + 0.05 x 85

  • Introduccin al Anlisis Exploratorio de datos

    82

    x = 48.1

    Propiedades Operativas de la varianza.

    Las propiedades que se presentan a continuacin pueden ser heredadas por la desviacin

    estndar con las limitaciones que genera la funcin raz cuadrada.

    1. ( )S xn xi

    i

    n

    2

    2

    2=

    Esta, ms que una propiedad es una forma alternativa de calcular la varianza,

    realizando menos clculos numricos que con la expresin que proporciona la

    definicin. Su demostracin es la siguiente:

    ( ) ( )

    ( )

    ( )( ) ( )

    ( )

    Sn

    x xn

    x xx x

    nx

    nx x

    nx

    nx x

    x

    n nn x

    nx x x

    Sn

    x x

    i i ii

    n

    i

    n

    i ii

    n

    i

    n

    i

    ii

    n

    i

    i

    2 2 2 2

    11

    2

    1 1

    2

    2 1 2

    2 2 2

    2 2 2

    1 1 2

    1 1 2 1

    1 2 1

    1 2

    1

    = = +

    = +

    = +

    = +

    =

    ==

    = =

    =

    S2 = Promedio de los cuadrados, menos, promedio al cuadrado

  • R. Behar