capítulo 3: sistemas de representaciÓn grÁfica ... · ventajas sobre los sistemas de...

38
Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS). 1991 · 79

Upload: buikhanh

Post on 01-Apr-2018

226 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

1991 · 79

Page 2: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

80 · Hector Monterde i Bort - Manuel Perea Lara.

Page 3: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

3.1.- INTRODUCCIÓN Y CONCEPTOS PREVIOS.

Consecuentemente con las características e ideas propugnadas por este enfoque, del Análisis Exploratorio de Datos, las representaciones gráficas constituyen su característica más distintiva, por su singularidad y por la importancia que este enfoque les otorga, ya que están a la base de los principios que han levantado a este enfoque ("mirar los datos....", explorar,...).

La importancia concedida por el enfoque del A.E.D. a las técnicas gráficas, en respuesta a la limitación mostrada por el enfoque "clásico" para resumir óptimamente conjuntos de datos cuando éstos no se ajustan a un modelo teórico, ha provocado el desarrollo de nuevas técnicas gráficas, por los defensores del enfoque del A.E.D., con el objetivo de encontrar el mejor sistema de "resumir" un conjunto de datos. Y aunque falta una perspectiva histórica que lo confirme, hoy por hoy posiblemente las técnicas desarrolladas por el A.E.D. constituyan las posiciones más cercanas a dicho objetivo.

En este capítulo serán presentadas y descritas estas técnicas, especialmente las denominadas con los imaginativos nombres de "Tallo-y-Hojas" (Stem-and-Leaf ) y "Caja-y-Bigotes-de-gato" (Box-and-Whiskers ), junto con los conceptos básicos con ellas relacionados.

No obstante, antes de pasar a su descripción, conviene aclarar otra equivalencia utilizada en el enfoque A.E.D. respecto a la estadística "clásica". Se trata del concepto de conjunto de datos (batch) utilizado en sustitución de muestra, que es el término utilizado por la estadística "clásica". Esta diferenciación, al igual que ocurre con otras equivalencias, no es gratuita, pues aunque ambas se refieren a lo mismo, a los datos obtenidos, la diferencia terminológica justifica diferencias prácticas e incluso teóricas, como es, en este caso, que el concepto de "muestra" tradicionalmente incluye las asunciones o supuestos de independencia y de idéntica

1991 · 81

Page 4: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

distribución. Pero estos son supuestos que en el A.E.D. no tienen por qué asumirse. Para el A.E.D., los datos recogidos son sólo un conjunto de valores o cantidades.

Aunque menos relevante, otra "diferenciación" que puede ilustrar aún más lo dicho, es la relativa aversión que en el enfoque del A.E.D. se tiene a la utilización del término "normal" (ecuaciones normales, curva normal,...) por el aspecto calificativo que tiene. Así, es frecuente la utilización del término "Gaussiana" para referirse a la distribución Normal.

Daremos paso al análisis de las técnicas gráficas diciendo que, para el enfoque del A.E.D., la estructura más común de datos es un conjunto de números.

3.2.- GRÁFICOS DE "TALLO-Y-HOJAS".

3.2.1.- INTRODUCCIÓN.

El gráfico de "Tallo-y-Hojas", ideado por Tukey (1972, 1977) y con un precedente en Dudley (1946), es una especie de híbrido entre Histograma y Tabla de Distribución de Frecuencias en el que las líneas o barras se construyen con los propios datos. Frente al Histograma presenta la ventaja de que los datos originales no se pierden.

Consiste en una organización de los números gráficamente que permite visualizar y tener el conjunto de datos completo a la vez que observar las características más importantes de la distribución, como:

- La forma y el grado aproximado de simetría de la distribución.

- La dispersión que presentan los datos del conjunto.

- La presencia y cantidad de valores extremos o atípicos.

82 · Hector Monterde i Bort - Manuel Perea Lara.

Page 5: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

- La existencia de concentraciones de datos en determinados puntos de la distribución.

- La existencia y situación de "agujeros" en el conjunto de datos o en la distribución.

- Etc.

Por otra parte, presenta además, como veremos, otras ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos:

I) La presencia en la representación de los propios valores del conjunto de datos permite operar sobre él y calcular índices descriptivos a partir de la gráfica, dado que en ella se encuentran todos los valores o puntuaciones tal y como fueron obtenidos.

II) No implica ninguna teoría elaborada. Es un método muy flexible, que permite multitud de variaciones en su elaboración que posibilitan que el investigador adapte el resultado a sus gustos personales, a sus intereses de información, en cada momento, y a las características de los datos.

Su comprensión se hará más fácil con algunos ejemplos.

3.2.2.- DESCRIPCIÓN.

La elaboración de un gráfico o representación de "Tallo-y-Hojas" básicamente consiste en separar los dígitos o posiciones que ocupa cada uno de los valores del conjunto de datos en dos partes, de equivalentes posiciones. Trazando una raya vertical, la parte izquierda de cada uno de los valores (de idénticas posiciones o con el mismo número de dígitos) se colocan a la izquierda de dicha raya, ordenados de menor a mayor empezando por arriba, constituyendo esta parte los que serán llamados "Tallos" y que equivaldrían a las Clases en una tabla de distribución de frecuencias clásica, por lo que serán únicos (si

1991 · 83

Page 6: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

al dividir varios valores resultan repetidas estas partes, sólo se tomará una -aunque habrá algunas excepciones como veremos-). La parte restante de cada uno de los valores, se colocará, de forma ordenada (de menor a mayor empezando por la izquierda), a la derecha de la raya separadas por espacios, tantas como datos haya (incluyendo las repeticiones), y frente al "tallo" al que corresponden, constituyendo las que serán llamadas "hojas".

Para ilustrar sus características y la forma de elaboración comenzaremos con los datos que sirvieron, constantemente, a los ejemplos de Capítulo 2, a los que ad hoc hemos añadido algunos más, como primer acercamiento. Por tanto, sea el siguiente conjunto de datos, ya ordenados:

3, 4, 4, 5, 5, 6, 7, 8, 9, 11, 15, 33, 37, 40

Un gráfico (uno, pues veremos que existen varias posibilidades a la hora de construir la representación) de "Tallo-y Hojas" aplicado al conjunto de datos anterior podría ser:

0 1 2 3 4

3 4 4 5 5 6 7 8 9 1 5 3 7 0

Aunque el conjunto de datos, por su escaso tamaño, no justificaría la representación gráfica, el ejemplo permite poder seguir la explicación anterior sobre el proceso de construcción, aprehender las características básicas de este sistema de representación, y detectar, visualmente, algunas características de la distribución, como, por ejemplo, la existencia de un agujero en el "tallo" 2. También nos servirá para ilustrar algunos conceptos.

Como se verá, la gráfica tiene cinco "tallos" o filas (0, 1, 2, 3, 4) que quedan ordenados a la izquierda de la raya vertical, cada uno de los cuales tiene una determinada cantidad de "hojas", que corresponderían a las frecuencias absolutas de dicha Clase en un gráfico clásico, sólo que aquí son los mismos datos los que forman las frecuencias. El primer "tallo", el 0, agrupa nueve valores, representados por sus "hojas" (3, 4, 4, 5, 5, 6, 7, 8, 9), que son (al añadirles el "tallo": 03, 04, 04, 05, 06, 07, 08 y 09 (a los que podríamos quitar el 0). El

84 · Hector Monterde i Bort - Manuel Perea Lara.

Page 7: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

segundo "tallo", el 1, agrupa dos valores, representados por su hojas (1 y 5), que son (al añadirles el "tallo" correspondiente) el 11 y el 15. El tercer "tallo", el 2, no tiene ninguna hoja, ello significa que en el conjunto de datos no existen valores comprendidos entre 20 y 29 (inclusive), que es la Amplitud de Intervalo que se está utilizando (como en una tabla de frecuencias clásica). Etc...

Para que cualquier otra persona pueda comprender un gráfico de "Tallo-y-Hojas" y operar a partir de él, sin necesidad de recurrir a los datos originales, será preciso especificar cómo han sido tratados los valores, es decir, cómo son los valores originales (con cuántos dígitos se representa u ocupa cada valor y si estos dígitos, y cuántos de ellos, son decimales o enteros). Ello se hace añadiendo una especificación de la unidad en la parte de arriba de la gráfica, que se expresa en potencias de 10 (..., 10-1, 100, 101, 102,...), y significará que la yuxtaposición entre "tallo" y "hoja" (unidos) multiplicada por dicha unidad nos dará, y por ello indicará como es, el dato original.

Así, pues, para extraer los datos de un diagrama de "Tallo-y-Hojas", emplearemos la siguiente fórmula:

Dato original = (tallo hoja) * unidad expresada

Por ejemplo, dada la siguiente combinación (parte de un gráfico) de "Tallo-y-Hoja", en la que se representa un "tallo" de "1" y una "hoja" de "23":

1 | 23

si la unidad es:

· · 10-2 = 0'01, significa que el valor original es: 123*0'01

= 1'23.

10-1 = 0'1, significa que el valor original es: 123*0'1 =

12'3.

100 = 1, significa que el valor original es: 123*1 = 123.

101 = 10, significa que el valor original es: 123*10 =

1230.

1991 · 85

Page 8: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

102 = 100, significa que el valor original es: 123*100 =

12300. · ·

En el ejemplo visto, la unidad sería 1, que indicaría, por ejemplo, que la representación 03 es "3". Debiendo quedar la gráfica con la siguiente expresión:

(Unid. = 1) 0

1 2 3 4

3 4 4 5 5 6 7 8 9 1 5 3 7 0

Por contra, para obtener la unidad , que deberemos indicar al elaborar un gráfico de "Tallo-y-Hojas", dividiremos uno cualquiera de los datos por el valor resultante de no tener en cuenta los decimales:

1'23/123 = 0'01 12'3/123 = 0'1 123/123 = 1

o bien por la representación que vayamos a hacer de dicho valor en la gráfica (por ejemplo, si el valor es 1230 y lo queremos representar como 123: 1230/123 = 10, etc.).

En el proceso de elaboración de una representación en "Tallo-y-Hojas", una vez determinada la expresión de la unidad , que vendrá determinada por los datos, el paso siguiente será tomar la decisión acerca de la amplitud de intervalo que vamos a utilizar para representar los valores en la gráfica. Para ello, veremos primero, en el siguiente Apartado, las distintas posibilidades que se nos ofrecen en este procedimiento de representación de la variable, relativas a la amplitud de los intervalos, que confieren a esta técnica la característica de flexibilidad a la que se hizo referencia en un principio. Para después, en otro Apartado, a continuación, tratar los criterios objetivos propuestos para determinar la amplitud de intervalo más adecuada para una óptima representación de la variable, aunque el último criterio estará siempre en la "cabeza" del elaborador, que es quien mejor sabrá lo que quiere mostrar y a dónde quiere llegar (a cuyas intenciones y decisiones constituirán valiosa ayuda los criterios objetivos).

86 · Hector Monterde i Bort - Manuel Perea Lara.

Page 9: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

3.2.3.- VARIANDO LA CONCENTRACIÓN: ANCHURA DEL TALLO Y DIVISIÓN EN RAMAS.

Veremos a continuación cómo, aprovechando las múltiples posibilidades de representación que para un mismo conjunto de datos permite este sistema, podemos variar la concentración o el detalle de la distribución de datos en función, por ejemplo, de los objetivos perseguidos, hasta encontrar el resultado más óptimo. Este es un procedimiento equivalente a la determinación de la Amplitud de los Intervalos en los sistemas de representación clásicos.

Para ello, dispondremos de dos posibilidades:

1) Variar la "anchura" de los "Tallos", o lo que será más práctico, variar la "anchura" de las "Hojas"; que significa determinar por dónde realizamos el "corte" en los datos, es decir, cuántos dígitos dedicamos al "tallo" y cuántos a la "hoja".

2) Aplicar subdivisiones a los "tallos", en lo que llamaremos "Ramas", ampliando con ello el número de filas, es decir, reduciendo con cada "rama" la amplitud de intervalo.

Combinando ambas posibilidades podemos seguir la siguiente

estrategia:

I) Si el valor más alto, existente en el conjunto de datos, tiene más de dos dígitos (contando decimales): procederemos a variar la anchura de "tallo" actuando, nos será más fácil, sobre la anchura de "hoja".

a) Así, si queremos concentrar más la distribución: aumentaremos la anchura de la "hoja", dando el siguiente dígito, de derecha a izquierda, a la "hoja", y quitándoselo del

1991 · 87

Page 10: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

"tallo" (si el dato particular no tiene más dígitos, rellenaremos con ceros, y el "tallo" será también cero). Con ello se producirá una disminución de las filas o líneas, en este caso "tallos", apareciendo la distribución más concentrada:

(Unidad = 1) 100 1 2 7 (Unidad = 1) 101 0 1 6 pasará a: 10 01 02 07 10 11 16

La amplitud de los intervalos (suponiendo, a efectos de cálculo, que la variable es continua) vendrá dada por el resultado de multiplicar la unidad (expresada) por 10 elevado al número de dígitos que tengan las "hojas" (en el ejemplo: 1*101= 10 antes de la

transformación, porque la unidad =1 y las "hojas" están compuestas por un dígito, y 1*102=100 después de la transformación, porque

las "hojas" tienen ahora 2 dígitos).1

b) Si, por el contrario, queremos extender más la distribución, procederemos en sentido inverso: disminuiremos la anchura de la "hoja" pasando el primer dígito, de la izquierda, de ésta al "tallo", con lo que se provocará una disminución de la anchura de los intervalos. Con ello, la distribución se extenderá más, aumentando el número de filas o, en este caso, "tallos", permitiendo un mayor detalle:

(Unidad = 1) (Unidad = 1) 10 01 02 07 10 11 16 pasará a: 100 1 2 7 101 0 1 6

Esta posibilidad tocará fin cuando sólo nos quede un dígito para formar la "hojas", si queremos extender aún más la distribución, pasaremos a la segunda de las posibilidades apuntadas.

1 Obsérvese que en el primer caso, el "tallo 100" recoge todos los valores comprendidos entre 1000 y 1009 inclusives, por lo que la amplitud de intervalo es, suponiendo una variable continua para facilitar la comprensión, AI=1009'5-999'5=10. En el segundo caso, el "tallo 10" recoge todos los valores comprendidos entre 1000 y 1099 inclusives, por lo que, suponiendo variable continua, la AI=1099'5-999'5=100.

88 · Hector Monterde i Bort - Manuel Perea Lara.

Page 11: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

II) Si sólo hay, o cuando sólo nos quede, un dígito para formar las "hojas", y queramos extender más la distribución, procederemos a subdividir los "tallos" en "ramas". Dos tipos de divisiones son frecuentes:

a) Dos "ramas" por "tallo": consistente en dividir en dos cada "tallo", con lo que tendremos dos filas o, en este caso, "ramas" compartiendo el mismo "tallo". La primera aglutinará las "hojas" cuyo primer dígito (desde la izquierda) sea 0, 1, 2, 3 ó 4, y se indica con un asterisco situado a continuación del "tallo" (a la izquierda de la raya). La segunda aglutinará las "hojas" cuyo primer dígito sea 5, 6, 7, 8 ó 9, y se indica con un punto colocado en la misma posición:

(Unidad = 1) (Unidad = 1) 100 1 2 7 100 * 1 2 101 0 1 6 pasará a: 100 · 7 101 * 0 1 101 · 6

La amplitud de los intervalos (suponiendo, a efectos de cálculo, que la variable es continua) vendrá dada por el resultado de multiplicar la unidad (expresada), partida por el número de "ramas" (subdivisiones del "tallo") o filas por tallo, por 10 elevado al número de dígitos que tengan las "hojas" (en el

ejemplo: 11*10

1=10 antes de la transformación,

porque la unidad =1, cada "tallo" tiene sólo una fila y cada "hoja" está compuesta por 1

dígito, y 12*10

1=5 después de la

transformación, porque cada "tallo" tiene ahora dos "ramas" y cada "hoja" sigue estando compuesta por 1 dígito).2

2 Obsérvese que en el segundo caso, después de la transformación, el "tallo 100*" recoge los valores comprendidos entre 1000 y 1004 inclusives, por lo que, suponiendo una variable continua para facilitar la comprensión, la AI=1004'5-999'5=5.

1991 · 89

Page 12: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

b) Cinco "ramas" por "tallo": consistente en subdividir cada "tallo" en 5 ramas, cada una de las cuales aglutinará dos posibles valores para el primer dígito de cada "hoja", que con el símbolo de referencia (los dos vistos más tres letras, iniciales de "dos", "cuatro" y "seis", en inglés) se indican en la siguiente tabla:

*............. 0 ó 1 t............. 2 ó 3 f............. 4 ó 5 s............. 6 ó 7 ·............. 8 ó 9

(Unidad = 1) (Unidad = 1) 100 1 2 7 8 100 * 1 101 0 1 2 4 6 9 pasará a: 100 t 2 100 f 100 s 7 100 · 8 101 * 0 1 101 t 2 101 f 4 101 s 6 101 · 9

La amplitud de los intervalos (suponiendo, a efectos de cálculo, que la variable es continua) vendrá dada por el resultado de multiplicar la unidad (expresada), partida por el número de "ramas" o filas por tallo, por 10 elevado al número de dígitos que tengan las

"hojas" (en el ejemplo: 11*10

1=10 antes de la

transformación, porque la unidad =1, cada "tallo" tiene sólo una fila y cada "hoja" está

compuesta por 1 dígito, y 15*10

1=2 después de

la transformación, porque cada "tallo" tiene ahora 5 "ramas" y cada "hoja" sigue estando compuesta por 1 dígito).3

3 Obsérvese que en el segundo caso, después de la transformación, el "tallo 100*" recoge los valores comprendidos entre 1000 y 1001 inclusives, por lo que, suponiendo una variable continua para facilitar la comprensión, la AI=1001'5-999'5=2.

90 · Hector Monterde i Bort - Manuel Perea Lara.

Page 13: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

El procedimiento descrito para conocer más cómodamente la amplitud de intervalo empleada, en una representación de "Tallo-y-Hojas", quedaría expresado de forma general con la siguiente fórmula:

AIutilizada = unidad expresada

nº de filas por tallo * 10nº digitos en hojas

Finalmente, conviene aclarar que las posibilidades de variación hasta ahora expuestas, y como han sido expuestas, sólo afectan al efecto visual de la representación. No suponen ninguna alteración de los datos, que siguen siendo los originales.

No obstante, a estos tipos de variaciones descritas, cabe añadir un tercer tipo, que sí supone un pequeña alteración sobre los datos originales, aunque de forma general. Se trata de la eliminación de los decimales, que puede ser una estrategia, previa, interesante en muchos casos, pues en algunos casos ayudará al objetivo principal de la representación, el facilitar la inspección visual de la distribución.

Para la eliminación de los decimales se pueden seguir dos criterios:

a) Redondeo, normalmente por exceso, por el que cada uno de los valores se redondea al entero más cercano, de la siguiente forma (por ejemplo):

24'0, 24'1, 24'2, 24'3 y 24'4 pasarán a ser 24, y

24'5, 24'6, 24'7, 24'8, y 24'9 pasarán a ser 25.

b) Truncado, por el que se elimina simplemente la parte decimal de cada valor, de la siguiente forma:

24'0, 24'1, 24'2, 24'3, 24'4, 24'5, 24'6, 24'7, 24'8 y 24'9 pasarán a 24, y

25'0, 25'1, 25'2, 25'3, 25'4, 25'5, 25'6, 25'7, 25'8 y 25'9 pasarán a 25.

Normalmente se suele preferir el truncado, recomendándose, pues es más fácil de aplicar y produce el mismo resultado en la representación.

1991 · 91

Page 14: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Llegados a este punto, conviene también advertir que todas las variaciones vistas, incluyendo las de truncado y redondeo, se han descrito y utilizado bajo el supuesto de que cualquier variación realizada lo es para todos los "tallos", que es como van a ser utilizadas en este Capítulo, aunque su utilidad excede de los límites impuestos aquí (por ejemplo como estrategias de transformación de datos para conseguir simetría o linealidad), dado que su exposición y aplicación se limita, por ahora, exclusivamente a objetivos de exploración, en este caso, a su aplicación a la representación del conjunto de datos.

A continuación ilustraremos lo expuesto, aplicando las posibilidades de variación descritas sobre un conjunto de datos ejemplo, suficientemente amplio como para justificar su representación, y observando el resultado conseguido sobre la representación "Tallo-y-Hojas".

Sea el siguiente supuesto conjunto de datos, que para abreviar presentamos agrupados en una tabla de distribución de frecuencias clásica que, a efectos didácticos, tomamos con un decimal y, para abreviar, suponemos todas las clases con frecuencia de 1:

Clases Frecuencias absolutas

92 · Hector Monterde i Bort - Manuel Perea Lara.

Page 15: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

9'8 9'9

10'0 10'1 10'2 10'3 10'4 10'5 10'6 10'7 10'8 10'9 11'0 11'1 11'2 11'3 11'4 11'5 11'6 11'7 11'8 11'9 12'0 12'1 12'2 12'3 12'4 12'5

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Un primer desarrollo del diagrama de "Tallo-y-Hojas", podría ser el siguiente:

(Unidad = 0'1) 0

1 98 99

00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Evidentemente, en ningún "tallo" figuran "hojas" repetidas porque convinimos en asignar frecuencias de 1 a todas las Clases, aquí "tallos"/"ramas", para abreviar. Aunque esta situación no será la más frecuente, y que desde luego, justificaría bien poco cualquier sistema de tabulación y/o representación aplicado con dicho conjunto de datos.

En este caso, se han asignado dos dígitos a las "hojas" (uno al "tallo"), la amplitud de los intervalos (bajo la perspectiva clásica) es de 10, y la referencia unidad= indica que los valores tienen un decimal, lógicamente el último dígito (de izquierda a derecha) de las "hojas". Con ello, a partir de esta representación "Tallo-y Hojas" podemos extraer los valores sin ningún problema.

No obstante, un número tan bajo de filas, en este caso "tallos", puede ser poco óptimo para permitir una rápida inspección de la distribución. Como respuesta, podemos ensayar

1991 · 93

Page 16: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

otro criterio de "anchura" mayor para la "hojas", volviendo a confeccionar el gráfico:

(Unidad = 0'1) 9

10 11 12

8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5

En este caso, se ha asignado un dígito a las "hojas" (dos al "tallo"), la amplitud de los intervalos (bajo la perspectiva clásica) es de 1, y la referencia unidad= indica que los valores tienen un decimal, y como la "hojas" sólo están compuestas de un dígito, éste es el decimal. Con ello, a partir de esta representación "Tallo-y Hojas" también podemos extraer los valores sin problema, pero hemos ganado algo en detalle.

Si aún quisiéramos mostrar la distribución de forma más extendida, o menos concentrada, dado que sólo nos queda un dígito para las "hojas", pasaremos a efectuar la subdivisión de "tallo", primero por el primer criterio, dos "ramas" por "tallo":

(Unidad = 0'1) 9

9 10 10 11 11 12 12

* · * · * · * ·

8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5

En este caso, se ha seguido asignando un dígito a las

"hojas" (dos al "tallo"), pero se ha dividido en dos filas cada "tallo", que llamamos "ramas". La primera "rama" de cada "tallo" contiene las "hojas" 0 a 4 inclusive, y la segunda de cada "tallo", las "hojas" 5 a 9 inclusive. La amplitud de los intervalos (bajo la perspectiva clásica) es ahora de 0'5, y la referencia unidad= sigue indicando que los valores tienen un decimal (si unidad fuera igual a 0'01 indicaría que hay dos decimales, luego como en este caso sólo hay un dígito en las "hojas", que éste sería el segundo decimal y que el otro decimal estaría en el "tallo", el siguiente dígito del "tallo" de derecha a izquierda). Con ello, a partir de esta representación "Tallo-y Hojas" también podemos extraer los valores sin problema, pero hemos ganado algo más en detalle.

94 · Hector Monterde i Bort - Manuel Perea Lara.

Page 17: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

Si aún quisiéramos extender más la representación de la distribución, aplicaremos el segundo criterio de subdivisión de "tallo", cinco "ramas" por tallo:

(Unidad = 0'1) 9

9 10

10 11

11 12

12

* t f s · * t f s · * t f s · * t f s ·

8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5

En este caso, se ha seguido asignando un dígito a las "hojas" (dos al "tallo"), pero se ha dividido en cinco filas o "ramas" cada "tallo". Cada una de las cuales recoge un par de posibles valores de "hojas", según el criterio que se expuso anteriormente. La primera "rama" de cada "tallo" contendrá las "hojas" 0 y 1 inclusive, la segunda las "hojas" 2 y 3 inclusive, ....., y la quinta las "hojas" 8 y 9 inclusive. Por lo que la amplitud de los intervalos (bajo la perspectiva clásica) es ahora de 0'2, y la referencia unidad= sigue indicando que los valores tienen un decimal. Con ello, a partir de esta representación "Tallo-y Hojas" seguimos pudiendo extraer los valores sin problema, pero hemos ganado mucho más en detalle.

Finalmente, si decidiéramos eliminar los decimales, aplicando la estrategia de truncamiento de los valores, que es la más frecuentemente aconsejada, la representación "Tallo-y-Hojas" podría quedar así, en una de sus formas posibles:

(Unidad = 1)

1991 · 95

Page 18: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

0

0 1

1

* t f s · * t f s ·

9 9 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2

La referencia unidad=1 indicará que los valores son enteros. Por lo que las "hojas" serán las unidades respectivas de los valores truncados (el "tallo" lo constituirán las decenas).

3.2.4.- NÚMERO DE "TALLOS"/"RAMAS" Y AMPLITUD DE INTERVALO OPTIMOS.

Ya familiarizados con el procedimiento de construcción de este sistema de representación y sus variantes, nos centraremos ahora en intentar responder a una pregunta que tal vez el lector que se introduce por primera vez en este acercamiento a través del presente texto se haya planteado: Conocidas las posibilidades y sabidos los procedimientos para aumentar o disminuir, a voluntad, el número de filas, "tallos" o "ramas", ante un caso real ¿cuantas filas, "tallos"/"hojas", conviene hacer?, ¿es decisión arbitraria o existe algún criterio o consejo al respecto?. Sí, y es más, disponer de un criterio, aunque sea aproximado, va a ser necesario para determinados propósitos, como por ejemplo cuando tengamos que comparar diferentes conjuntos de datos.

Una breve reflexión nos llevará a concluir que tal o tales criterios, si existen, deberán estar determinados por el tamaño (N) del conjunto de datos a estudiar. Y que el número de filas, "tallos"/"ramas", determinará la amplitud de los intervalos. La relación entre número de filas ("tallos"/"ramas"), la unidad y la amplitud de intervalo ya ha sido tratada en el apartado anterior, por lo que el lector se encontrará ya familiarizado con estos conceptos.

96 · Hector Monterde i Bort - Manuel Perea Lara.

Page 19: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

RESPECTO AL NÚMERO DE FILAS, que según el caso serán "tallos" o "ramas", Emerson y Hoaglin, considerados entre los iniciadores de este enfoque, proponen (EMERSON Y HOAGLIN, 1983a, p. 11) utilizar el criterio propuesto por Dixon y Kronmal (1965) para determinar el número máximo de clases en la tabulación clásica:

Nº máximo de filas = Fmax = [10 * log10N]

Siendo N el número de datos, frecuencias

o casos, y los corchetes se utilizan para indicar que el resultado debe ser truncado (al valor entero).

Estos autores también consideran el criterio propuesto por Velleman (1976) cuando el tamaño del conjunto de datos sea pequeño (menor o igual de 50), siguiente:

Nº máximo de filas = Fmax = [2 N]

Siendo, igualmente, N el número de

datos, frecuencias o casos, y los corchetes la indicación que el resultado debe ser truncado.

Dado que este segundo criterio presenta la limitación de que si el tamaño del conjunto de datos (N) es grande la fórmula puede dar valores excesivamente altos, y amparándonos en los comentarios realizados por Batista y Valls (1985) acerca de su experiencia personal en el empleo de estos criterios, creemos interesante aportar, como tercer criterio, el propuesto por estos autores, que supone una doble estrategia basada en la conjunción de los dos anteriores:

a) Para un número de datos menor o igual a mil (N<=1000), proponen utilizar la fórmula, ya vista, de Velleman:

1991 · 97

Page 20: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Fmax = [2 N].

b) Para un número de datos superior a mil (N>1000), proponen utilizar la siguiente fórmula, variante de la de Dixon y Kronmal:

Fmax = [21 * log10N].

Otros criterios han sido propuestos (DOANE, 1976;...), pero sus complicadas formulaciones para llegar a resultados prácticamente equivalentes, no justifican su tratamiento en este texto, remitiendo al lector a consultar el mencionado texto de Emerson y Hoaglin (1983a, pp. 22-29) donde se realiza una descripción y análisis comparativos.

RESPECTO A LA AMPLITUD DE LOS INTERVALOS, cabe comenzar diciendo que sea cual sea el criterio seguido para decidir el número de filas, éste determinará, en cierta medida, la amplitud que deberán tener los intervalos.

Emerson y Hoaglin (1983a, pp. 12-13) proponen un procedimiento para obtener la amplitud mínima de los intervalos, que se describe a continuación:

1º) se aplica la siguiente fórmula: Intervalo mínimo =

Imin = ATeFmax

; en la que ATe es la amplitud total excluyente (valor

más alto, o Es, menos valor más bajo, o Ei).

2º) el resultado se redondea, por exceso, a la próxima potencia de 10 (resultado que para indicar que se trata del redondeado a la próxima potencia de 10 llamaremos: Ir10

).

Así, resultados entre 0 y 1 inclusive serán redondeados a 1, que es la siguiente potencia de 10 (100), resultados mayores de 1 hasta 10 serán redondeados a 10, que es la siguiente potencia de 10 (101), resultados mayores de 10 hasta 100 serán redondeados a 100, que es la siguiente potencia de 10 (102), ....

El problema viene cuando estos autores (op. cit. ) aconsejan realizar divisiones intermedias entre estos valores cuando la representación resultante de su aplicación no

98 · Hector Monterde i Bort - Manuel Perea Lara.

Page 21: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

satisfaga o esté demasiado concentrada, lo que supone una vuelta al criterio de buen cubero....

Estas subdivisiones deben corresponder con las expresadas en el apartado anterior, dos o cinco "ramas" por "tallo", que corresponderán respectivamente a intervalos con amplitud la mitad o la quinta parte de la unidad utilizada. Expresado matemáticamente quedaría así:

AI = unidad

1 * 10nº de dígitos hojas =

Ir10

1 = unidad * 10nº

de dígitos hojas.

AI = unidad

2 * 10nº de dígitos hojas =

Ir10

2 = 5 * unidad *

10nº de dígitos hojas -1.

AI = unidad

5 * 10nº de dígitos hojas =

Ir10

5 = 2 * unidad *

10nº de dígitos hojas -1.

Cuyo significado fue expuesto en el Apartado anterior.

Otra posible solución, puede ser calcular el procedimiento descrito, tomar el valor resultante de dividir la Amplitud Total excluyente por el número máximo de filas hallado (sin redondear a potencias de 10) e intentar ajustar la amplitud de intervalo obtenida por el procedimiento a la más cercana de las divisiones tipo consideradas, según la relación anterior. Esto como primer intento o criterio provisional. Es decir, construir la representación "Tallo-y-Hojas" y juzgar el resultado, para ver si es óptimo para los propósitos perseguidos con ella. Si lo es, damos el criterio como definitivo, y si no lo es, procedemos a aplicar las variaciones disponibles, tal y como vimos en el apartado anterior, hasta conseguir el efecto deseado con la representación. Este criterio nos parece el más práctico.

Como en el caso del número de filas máximo, han sido propuestos otros criterios para determinar la amplitud mínima de los intervalos (por ejemplo, SCOTT, 1979; FREEDMAN Y DIACONIS, 1981a, 1981b; estos últimos con varios), pero sus complicadas formulaciones, y en muchos de ellos por los supuestos en los que se basan, no ofrecen mejores resultados, por lo que a excepción de uno de los ofrecidos por Freedman y Diaconis (1981b), debido

1991 · 99

Page 22: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

a su sencillez de aplicación, no serán tratados en este texto, remitiendo al lector a consultar el texto de Emerson y Hoaglin (1983a, pp. 22-29) donde se realiza una descripción y se exponen análisis comparativos realizados.

El referido criterio de Freedman y Diaconis (1981b), uno de los varios ofrecidos por estos autores, queda expresado en la siguiente fórmula:

Imin = 2(AIC)N1/3

;

siendo: AIC la Amplitud Inter-Cuartil, o su equivalente aquí la Amplitud Entre-Cuartos (AEC), y N el número de datos, frecuencias o casos;

de cuya eficacia práctica no podemos aún dar cuenta.

Veremos a continuación, en el siguiente apartado, un ejemplo práctico del proceso de construcción de una representación de "Tallo-y-Hojas".

3.2.5.- PROCESO DE CONSTRUCCIÓN DE UN DIAGRAMA "TALLO-Y-HOJAS".

Sea el siguiente conjunto de datos, que representan los Tiempos de Reacción medios de 50 sujetos:

0'12 0'09 1'34 2'37 0'81 0'10 0'67 0'23 1'05 1'52 2'07 0'96 1'85 1'05 1'02 1'16 1'27 0'56 1'06 0'56 1'09 1'21 0'90 1'12 1'05 2'01 1'06 1'87 1'07 0'89 0'75 1'01 1'66 1'24 1'04 1'98 1'06 0'99 1'29 1'03 0'91 1'04 1'08 1'05 1'19 0'13 1'10 0'31 1'37 0'42

Que una vez ordenados los valores, resulta:

0'09, 0'10, 0'12, 0'13, 0'23, 0'31, 0'42, 0'56, 0'56, 0'67, 0'75, 0'81, (0'89), 0'90, 0'91, 0'96, 0'99, 1'01, 1'02,

1'03, 1'04, 1'04, 1'05, 1'05, (1'05, 1'05), 1'06, 1'06, 1'06, 1'07, 1'08, 1'09, 1'10, 1'12, 1'16, 1'19, 1'21, (1'24), 1'27, 1'29,

1'34, 1'37, 1'52, 1'66, 1'85, 1'87, 1'98, 2'01, 2'07, 2'37.

100 · Hector Monterde i Bort - Manuel Perea Lara.

Page 23: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

(Los paréntesis indican la Mediana y los Cuartos).

Para representar estos valores en un gráfico de "Tallo-y-Hojas", seguiremos los siguientes pasos.

1º) Establecer la unidad a expresar: como los datos vienen medidos en una precisión de 2 decimales (en Tiempo de Reacción equivaldrían a centésimas de segundo):

Unidad = 10-2 = 0'01

2º) Calcular el número máximo de filas ("tallos" y/o "ramas"):

- según Fmax = [10 log10N] = [10 log1050] = [16'99] =

16

- y según Fmax = [2 N] = [2 50] = [14'14] = 14

3º) Calcular la amplitud mínima de intervalo:

- según Imin = ATeFmax

= 2'37 - 0'09

16 = 2'2816 _~ 0'14

ó 2'3714 _~ 0'16

- y según Imin = 2(AEC)N1/3

= 2(1'24 - 0'89)

501/3 = 0'73'68

_~

0'19

4º) Redondear el valor obtenido para la amplitud mínima de intervalo al valor más cercano por arriba a 1, 2 ó 5 multiplicado por la potencia de 10 más próxima:

(Por ejemplo, si Imin da 1'1 redondearemos a 2*10

0 = 2,

si da 0'3 redondearemos a 5*10-1 = 0'5, si da 0'6 redondearemos a 1*100 = 1,....)

1991 · 101

Page 24: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

La siguiente tabla, que hemos elaborado, ayudará a facilitar este cálculo para la determinación de la amplitud de intervalo:

Valor de Imin

Amplitud Intervalo

Expresado en potencias de 10: Ir10

Nº de filas/"ramas" por tallo

... ... ... ... ]0'05,0'1] 0'1 1*10-1 1

]0'1,0'2] 0'2 2*10-1 5

]0'2,0'5] 0'5 5*10-1 2

]0'5,1] 1 1*100 1

]1,2] 2 2*100 5

]2,5] 5 5*100 2

]5,10] 10 1*101 1

]10,20] 20 2*101 5

]20,50] 50 5*101 2

]50,100] 100 1*102 1

... ... ... ...

En el ejemplo que estamos viendo, los tres procedimientos llevarían a un Imin de 0'2.

5º) En función del número al que se ha redondeado, establecer las "ramas" o filas a realizar, según la relación mostrada en la tabla anterior. En nuestro ejemplo,

la consulta de la tabla, nos llevará a 5 "ramas" por "tallo" como subdivisión óptima.

6º) En función del número de "ramas" o filas resultante o de interés decidir el reparto de dígitos, es decir cuántos asignamos para constituir las "hojas" y cuántos a los "tallos":

En el ejemplo, para conseguir que quede una amplitud de intervalo de 0'2 con 5 "ramas" por "tallo", deberemos asignar dos dígitos a las "hojas" (salvo que decidamos redondear o truncar los valores)..

102 · Hector Monterde i Bort - Manuel Perea Lara.

Page 25: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

7º) Preparar la base del gráfico, situar primero todos los "tallos" y, después, trasladar cada uno de los valores del conjunto de datos. El resultado sería:

(Unidad = 0'01) 0

0 1

1 2

2

* t f s · * t f s · * t f s ·

09 10 12 13 23 31 42 56 56 67 75 81 89 90 91 96 99 01 02 03 04 04 05 05 05 05 06 06 06 07 08 09 10 12 16 19 21 24 27 29 34 37 52 66 85 87 98 01 07 37

3.2.6.- PROFUNDIDAD Y DIAGRAMA DE "TALLO-Y-HOJAS".

Sea la siguiente representación "Tallo-y-Hojas":

(Unidad = 1) 3

(2) 3

1

0 1 2 3 4

7 9 9 3 4 2 3 0

De la observación del diagrama, y teniendo en cuenta la unidad, podemos conocer que el conjunto de datos, ordenados, es el siguiente:

7, 9, 9, 13, 14, 22, 23 y 40.

De acuerdo con lo indicado en el Capítulo 2, a cada dato, se le pueden asignar dos grados, uno ascendente y otro descendente, por ejemplo, el valor "23" tiene por órdenes 7

1991 · 103

Page 26: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

ascendente y 2 descendente. Igualmente, se indicó que la profundidad de un valor era el menor de ambos grados. En el ejemplo, la profundidad de "23" es el menor de 7 y 2, es decir 2.

En el diagrama de "Tallo-y-Hojas" resulta de gran utilidad indicar la profundidad de las puntuaciones, ya que ello facilitará considerablemente el cálculo de diversos índices tales como la Mediana o los Cuartos. Concretamente,

la profundidad asociada a un "tallo"/"rama" en un diagrama de este tipo, es la máxima profundidad asociada a los valores de esa fila.

Por ejemplo, la profundidad del Tallo "2|" es 3, puesto que es la mayor de las profundidades de cada uno de los valores contenidos en dicha fila, ya que la profundidad asociada al valor "23" es 2, mientras que la del valor "22" es 3. En el caso de que la fila ("tallo o "rama") carezca de "hojas", no se indicará ningún índice de profundidad, como ocurre con el Tallo "3|" del ejemplo.

Una excepción a lo anterior ocurre en el caso de encontrarnos en el "Tallo-Medio" ("tallo"/"rama", es decir fila, que incluye la Mediana), en el que lo que se indica es el número de "hojas", o frecuencias, de esa línea, entre paréntesis. Por ejemplo, se ha puesto "(2)" en el "Tallo-Medio" para indicar el número de "hojas" del mismo y no su profundidad.

En el caso de que la Mediana recaiga entre dos filas, "tallos" o "ramas", no se hace ninguna indicación del "Tallo-Medio". Para ilustrar esto veremos otro ejemplo en el que utilizaremos otro conjunto de datos:

(Unidad = 1) 2

4 4 2 1

0 1 2 3 4

2 3 5 6 1 2 0 1

En este ejemplo, como la Mediana recae entre la fila (en este caso, Tallo) "1|" y la fila "2|" solamente se han indicado las profundidades.

104 · Hector Monterde i Bort - Manuel Perea Lara.

Page 27: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

3.2.7.- COMPARACIÓN DE DOS DISTRIBUCIONES: LA VARIANTE "ESPALDA-CON-ESPALDA".

El método gráfico de "Tallo-y-Hojas" puede ser empleado también para comparar dos distribuciones o conjuntos de datos, con lo que sus posibilidades se ven incrementadas.

En este caso lo que se hace es utilizar una serie de Tallos comunes para las dos distribuciones, con la misma unidad y los mismas amplitudes de intervalo, representando cada conjunto de datos a cada lado de la columna de los Tallos. Como podrá apreciarse en el siguiente ejemplo:

(Unidad = 0'01) 09

28 32 40 49 55 59

66 78 78 78 78 88 90 90 92 94 96 99

08 09 15 18 18 21 27 27 32 38 38

42 42 46 54 62 66 75

88 90 01 01 11 20 20 25

40 40 64 69

82

* t f s · * t f s · * t f s ·

0

0 1

1 2

2

* t f s · * t f s · * t f s ·

09 10 12 13 23 31 42 56 56 67 75 81 89 90 91 96 99 01 02 03 04 04 05 05 05 05 06 06 06 07 08 09 10 12 16 19 21 24 27 29 34 37 52 66 85 87 98 01 07 37

En el ejemplo, se puede apreciar la clara asimetría positiva de los valores de la distribución de la izquierda, mientras que la de la derecha se muestra más o menos simétrica. Igualmente, la distribución de la derecha se localiza en valores más elevados, en general, que la de la izquierda.

Cabe destacar que cuando se utilice esta técnica para comparar dos distribuciones, deberá tenerse en cuenta que los conjuntos de datos a comparar sean de tamaño equivalente, o aproximado, para facilitar la comprensión de la representación.

1991 · 105

Page 28: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

3.3.- GRÁFICOS DE CAJA-RESUMEN.

Son representaciones semigráficas, en las que utilizando como base un rectángulo se resumen una serie de índices característicos del conjunto de datos. Veremos dos tipos: la Caja de "Índices-Letra" de Posición (Letter-Values Display ) y la Caja de "Índices-Letra" de Dispersión.

3.3.1.- CAJA-RESUMEN DE "ÍNDICES-LETRA" DE POSICIÓN.

Consiste en una representación sencilla del denominado "Resumen de 5 Números", del que se habló en el Capítulo 2.

Se trata de un rectángulo dentro del cual se disponen, de una determinada forma prefijada, los 5 índices de posición más importantes: Mediana (M), Cuarto inferior (Ci), Cuarto superior (Cs), puntuación mínima o extremo inferior (Ei) y puntuación máxima o extremo superior (Es). Esta información suele ser

complementada, en columna dispuesta en la parte izquierda y fuera del rectángulo, con el tamaño del conjunto de datos (#) y, situándose a la altura correspondiente, las respectivas profundidades (P) de los cinco índices. En la forma que veremos a continuación:

# PM M PC Ci Cs PE Ei Es

106 · Hector Monterde i Bort - Manuel Perea Lara.

Page 29: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

Por ejemplo, el diagrama de Caja-Resumen de Posición correspondiente al conjunto de datos sobre Tiempo de Reacción que sirvió de ejemplo en el Apartado 2.3.5.:

0'09, 0'10, 0'12, 0'13, 0'23, 0'31, 0'42, 0'56, 0'56, 0'67, 0'75, 0'81, (0'89),

0'90, 0'91, 0'96, 0'99, 1'01, 1'02, 1'03, 1'04, 1'04, 1'05, 1'05, (1'05;

1'05), 1'06, 1'06, 1'06, 1'07, 1'08, 1'09, 1'10, 1'12, 1'16, 1'19, 1'21,

(1'24), 1'27, 1'29, 1'34, 1'37, 1'52, 1'66, 1'85, 1'87, 1'98, 2'01, 2'07, 2'37,

sería el siguiente:

# 50 M 25'5 1'05

C 13 0'89 1'24

E 1 0'09 2'37

El estudio de los valores contenidos en el diagrama puede darnos un primera idea acerca de la forma de la distribución de datos, por ejemplo, observando la relación de distancias entre los Cuartos y sus correspondientes Extremos (puntuaciones mayor y menor) podemos detectar la existencia de asimetría y si ésta es positiva o negativa.

3.3.2.- CAJA-RESUMEN DE "ÍNDICES-LETRA" DE DISPERSIÓN.

Se trata de una figura compuesta por dos rectángulos, uno pequeño (previsto para contener sólo un valor) sobre otro más grande en el que se sitúan de una determinada disposición prefijada diversos índices de dispersión característicos.

Dentro del rectángulo pequeño figurará un valor que constituye el factor de escala que determinará el criterio de consideración de puntuaciones atípicas (en principio, los valores más allá de los cuartos son considerados como "puntuaciones atípicas potenciales"). Este valor, factor de escala, suele ser 1'5, que multiplicado por la Amplitud Entre-Cuartos determinará una distancia normativa que recibe el nombre de paso, cuya expresión es la siguiente:

1991 · 107

Page 30: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Paso = 1'5 * AEC

Dentro del rectángulo mayor se dispondrán los valores que constituirán los índices de dispersión denominados fronteras interiores (inferior y superior) y las fronteras exteriores (inferior y superior). Estos valores vienen determinados por las siguientes expresiones:

a) Fronteras Interiores (f):

Inferior = fi = Ci - 1*Paso (Cuarto inferior

menos un Paso). Superior = fs = Cs + 1*Paso (Cuarto superior

más un Paso).

b) Fronteras Exteriores (F):

Inferior = Fi = Ci - 2*Paso (Cuarto inferior

menos dos Pasos). Superior = Fs = Cs + 2*Paso (Cuarto superior

más dos Pasos).

A los que se puede añadir los:

c) Valores Adyacentes (VA): que constituyen los dos valores existentes (superior e inferior) en el conjunto de datos que están respectivamente más cercanos a la fronteras interiores, sin rebasarlas (aunque pueden coincidir con ellas). Dado que los valores que constituyen fronteras, al igual que los cuantiles, pueden no coincidir con alguno de los valores obtenidos que forman el conjunto de datos.

Las fronteras determinarán el criterio de consideración de puntuaciones atípicas, que según caigan más allá de unas u otras son consideradas como:

I) Puntuaciones Atípicas Moderadas (o Anomalías Moderadas) (PAM): aquellos valores del conjunto ordenado de datos situados entre la frontera exterior inferior y la frontera interior inferior , o entre la frontera interior superior y la frontera exterior superior. Es decir, dentro del segundo paso.

II) Puntuaciones Atípicas Extremadas (o Anomalías Extremadas) (PAE): aquellos valores del conjunto ordenado de datos situados por debajo (o menores) de la frontera exterior

108 · Hector Monterde i Bort - Manuel Perea Lara.

Page 31: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

inferior o por encima (o mayores) de la frontera exterior superior. Es decir, más allá del segundo paso.

El diagrama puede tener toda o parte de la información descrita. La siguiente sería una de las formas más completas y la más frecuente:

Paso VAi VAs fi fs #

PAMi #PAMs

Fi Fs #

PAEi #PAEs

Siendo: VAi y VAs : Respectivos valores Adyacentes, inferior y

superior. fi y fs : Respectivas Fronteras Interiores, inferior y

superior. #PAMi : Número de valores existentes en el conjunto de

datos que son Puntuaciones Atípicas Moderadas y que se encuentran por encima de la Frontera Exterior inferior (y por debajo de fi).

#PAMs : Número de valores existentes en el conjunto de

datos que son Puntuaciones Atípicas Moderadas y que se encuentran por debajo de la Frontera Exterior superior (y por encima de fs).

Fi y Fs : Respectivas Fronteras Exteriores, inferior y

superior. #PAEi : Número de valores existentes en el conjunto de

datos que son Puntuaciones Atípicas Extremadas, es decir, que se encuentran por debajo de Fi.

#PAEs : Número de valores existentes en el conjunto de

datos que son Puntuaciones Atípicas Extremadas, es decir, que se encuentran por encima de Fs.

Para construir el diagrama de Caja-Resumen de Dispersión, por ejemplo, correspondiente al mismo conjunto de datos sobre

1991 · 109

Page 32: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Tiempo de Reacción utilizado en el apartado anterior, con factor de escala = 1'5, seguiremos las siguientes fases:

1º) Calcular el paso : Paso = 1'5 * AEC = 1'5*(1'24 - 0'89) = 0'525

2º) Calcular las fronteras interiores : fi = Ci - 1*Paso = 0'89 - 0'525 = 0'365 fs = Cs + 1*Paso = 1'24 + 0'525 = 1'765

3º) Localizar en la distribución los valores adyacentes : VAi = 0'42 VAs = 1'66

4º) Calcular las fronteras exteriores : Fi = Ci - 2*Paso = 0'89 - 2*0'525 = -0'16 -->

0'04Fs = Cs + 2*Paso = 1'24 + 2*0'525 = 2'29

5º) Contar y localizar los valores atípicos moderados, es decir, entre cada par de correspondientes fronteras interior y exterior:

#PAMi (entre 0'0 y 0'365) = 6, que son: 0'09, 0'10,

0'12, 0'13, 0'23 y 0'31. #PAMs (entre 1'765 y 2'29) = 5, que son: 1'85, 1'87,

1'98, 2'01 y 2'07.

6º) Contar y localizar los valores entre las fronteras correspondientes:

#PAEi (menores de 0) = 0, no puede haber ninguna por ser

0 el límite real. #PAEs (mayores a 2'29) = 1, que es: y 2'37.

7º) Elaborar el diagrama, que aprovechando toda la información disponible quedaría de la siguiente forma:

0'525 VA 0'42 1'66 f 0'365 1'765 0'09,0'10,0'12,0'13,0'23,0'31 6 5 1'85,1'87,1'98,2'01,2'07 F 0 2'29 0 1 2'37

4 Quedará en "0" porque, por las características de la variable, no pueden haber valores menores de cero.

110 · Hector Monterde i Bort - Manuel Perea Lara.

Page 33: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

Como se verá, pueden colocarse los correspondientes valores atípicos a ambos lados de la caja.

Este tipo de gráfico proporciona una información completa sobre la existencia de valores atípicos en la distribución, constituyendo normalmente un complemento del gráfico de "Caja-y-Bigotes" que veremos en el próximo apartado.

3.4.- GRÁFICOS DE "CAJA-Y-BIGOTES DE GATO".

Este tipo de representación, también debido a Tukey (op. cit. ), consiste en un diagrama esquemático donde se representan de forma exclusivamente gráfica los índices más importantes vistos en el apartado anterior: Mediana, Cuartos, Valores Adjuntos y Valores Atípicos. Es una representación gráfica que se asemeja abstractamente (y con un poco de imaginación) a una "cara de gato", y consiste en situar sobre un eje-escala un rectángulo del que salen perpendicularmente sendos segmentos de línea y más allá de los cuales unas marcas que corresponden a los valores atípicos, todo ello de forma que las proporciones de las distancias en el gráfico se corresponden con las proporciones encontradas entre los diferentes índices, así como entre éstos y los valores atípicos.

El siguiente gráfico de "Caja-y-Bigotes" correspondería al conjunto de datos sobre el ejemplo del Tiempo de Reacción utilizado en los dos apartados anteriores (omitimos el proceso de construcción, pues es el mismo que el seguido con los gráficos de "Caja-Resumen" vistos en los dos apartados anteriores, de los que tomamos sus resultados).

1991 · 111

Page 34: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

0'05 0'20 0'35 0'50 0'65 0'80 0'95 1'10 1'25 1'40 1'55 1'70 1'85 2'00 2'15 2'30 | | | | | | | | | | | | | | | |

oo oo o o x - -- -- -- -- -- -- -- -- -- -- -- -x o o o o o @

La línea interior del rectángulo o Caja indica la posición de la Mediana (cuyo valor puede seguirse en la escala graduada). La longitud del rectángulo está determinada por los Cuartos, cuyas posiciones están indicadas por los bordes longitudinales, conteniendo el 50% de los datos. Las equis señalan la posición de los Valores Adyacentes, o valores más extremos no-atípicos, quedando unidas a la Caja por medio de líneas para facilitar la comprobación de la simetría. Finalmente, una serie de marcas sueltas (normalmente círculos) diferenciadas para distinguir entre puntuaciones atípicas moderadas y extremas, indican la posición (y, a través de la escala graduada, el valor) de éstas.

En nuestro ejemplo, debido las limitaciones de precisión y/o de extensión, las distancias expresadas son aproximadas. No obstante, a efectos didácticos, a pesar de estas limitaciones el gráfico elaborado es suficientemente expresivo. También, en este caso por limitaciones en variedad de símbolos, las puntuaciones atípicas moderadas, expresadas, lo han sido con un círculo (•) y la extremada con un arroba (@), para su diferenciación.

La forma, que acabamos de ver, es la que sugiere la "cabeza de gato", pero también es frecuente la representación en sentido vertical, en la forma que ofrecemos a continuación aplicada sobre el mismo conjunto de datos (si bien, las puntuaciones atípicas no han podido ser ubicadas todas, por lo que sólo figuran representadas las que nos ha permitido la precisión del gráfico):

112 · Hector Monterde i Bort - Manuel Perea Lara.

Page 35: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

2'5

2'4

@ 2'3

2'2

2'1

• 2'0 •

• 1'9

• 1'8

1'7

X 1'6 |

| 1'5 |

| 1'4 |

| 1'3 |

1'2

1'1

1'0

0'9

| 0'8 |

| 0'7 |

| 0'6 |

| 0'5 |

| 0'4 X

0'3 •

• 0'2

• 0'1 •

0'0

También esta técnica permite la comparación de dos o más conjuntos de datos simultáneamente, como podrá haberse deducido:

0'05 0'20 0'35 0'50 0'65 0'80 0'95 1'10 1'25 1'40 1'55 1'70 1'85 2'00 2'15 | | | | | | | | | | | | | | |

x- -- -- -- -- -- -- -- -- -- -- -x x- -- -- -- -- -- -- -x x -- -- -- -- -- -- -- -- -- -- -- -- -- -x

1991 · 113

Page 36: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Como podrá deducirse, con este tipo de representación gráfica se puede observar con suma facilidad la asimetría (si la línea que indica la Mediana no aparece equidistante de los límites de la caja o Cuartos), así como las puntuaciones extremas.

En el caso de que haya grandes diferencias en la localización de las muestras, cabe hacer uso de diversas tranformaciones de datos para lograr una visión global de tales conjuntos de datos en una misma representación gráfica que ayude a su posterior interpretación (véase, para una ampliación, EMERSON Y STOTO, 1983).

114 · Hector Monterde i Bort - Manuel Perea Lara.

Page 37: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

Cap. 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS).

1991 · 115

Page 38: Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA ... · ventajas sobre los sistemas de representación "clásicos", entre ellas destacaremos dos: I) La presencia en la representación

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Capítulo 3: SISTEMAS DE REPRESENTACIÓN GRÁFICA (UNIVARIADOS). ...............................79

3.1.- INTRODUCCIÓN Y CONCEPTOS PREVIOS. .................................................81

3.2.- GRÁFICOS DE "TALLO-Y-HOJAS". ......................................................82

3.2.1.- INTRODUCCIÓN.................................................................82

3.2.2.- DESCRIPCIÓN..................................................................83

3.2.3.- VARIANDO LA CONCENTRACIÓN: ANCHURA DEL TALLO Y DIVISIÓN EN RAMAS.............86

3.2.4.- NÚMERO DE "TALLOS"/"RAMAS" Y AMPLITUD DE INTERVALO OPTIMOS..................93

3.2.5.- PROCESO DE CONSTRUCCIÓN DE UN DIAGRAMA "TALLO-Y-HOJAS".......................97

3.2.6.- PROFUNDIDAD Y DIAGRAMA DE "TALLO-Y-HOJAS"....................................99

3.2.7.- COMPARACIÓN DE DOS DISTRIBUCIONES: LA VARIANTE "ESPALDA-CON-ESPALDA"........101

3.3.- GRÁFICOS DE CAJA-RESUMEN. ........................................................102

3.3.1.- CAJA-RESUMEN DE "ÍNDICES-LETRA" DE POSICIÓN.................................102

3.3.2.- CAJA-RESUMEN DE "ÍNDICES-LETRA" DE DISPERSIÓN...............................103

3.4.- GRÁFICOS DE "CAJA-Y-BIGOTES DE GATO". ............................................107

116 · Hector Monterde i Bort - Manuel Perea Lara.