visualización en un entorno de minería de datos desde una … · aspectos tratados en interaccion...

12
Visualizaci ´ on en un entorno de miner´ ıa de datos desde una perspectiva interacci ´ on humano computador Ra´ ul Oscar Klenzi, Mar´ ıa Alejandra Malberti, Graciela Elida Beguer´ ı Universidad Nacional de San Juan, Departamento de Inform ´ atica, Facultad de Ciencias Exactas F´ ısicas y Naturales, Argentina {rauloscarklenzi, amalberti, grabeda}@gmail.com Resumen. Con el prop´ osito de apoyar el proceso de dise ˜ no, an´ alisis y evaluaci´ on de los mecanismos de visualizaci ´ on de resultados que provean informaci´ on, en entornos de Miner´ ıa de Datos, este trabajo trata la problem ´ atica de la visualizaci ´ on, desde un escenario de Interacci ´ on Humano Computador. En ´ el se consideran aspectos relevantes surgidos del estudio de la percepci ´ on humana. Se describen tres ejemplos pr ´ acticos, sobre datos num´ ericos, de texto y georreferenciados, vali´ endose de la herramienta KNIME Analytics. Asimismo, se expone la utilidad e importancia de los gr´ aficos para una correcta interpretaci ´ on de la informaci ´ on. Palabras clave. KNIME, visualizaci ´ on, miner´ ıa de datos, interacci ´ on humano computador. Visualization in a Data Mining Environment from a Human Computer Interaction Perspective Abstract. With the aim of providing support to the design, analysis and evaluation of result visualization mechanisms used to supply information in Data Mining Environments, this work analyzes the visualization issue from a Human Computer Interaction setting. Important considerations arisen from the study of human perception are considered. Three practical examples based on numerical, textual and georeferenced data are described by means of the KNIME Analytics tool. In addition, the use and importance of graphs are emphasized for a correct information interpretation. Keywords. KNIME, visualization, data mining, human computer interaction. 1. Introducci ´ on La b´ usqueda de conocimiento en datos por medio de la aplicaci ´ on de Miner´ ıa de Datos, es un ´ area ampliamente difundida y en expansi´ on a ra´ ız del incremento constante en la generaci ´ on de datos. Uno de los retos de la visualizaci´ on radica en presentar una buena informaci´ on para lograr el inter´ es y an´ alisis de los usuarios. En la actualidad, la disponibilidad de diversos entornos y herramientas de aprendizaje de aquina, an´ alisis de algoritmos y procesamiento de la informaci ´ on que ofrecen diversas funcionalidades, como por ejemplo KNIME, RapidMiner y Weka, entre otras, plantea otra problem ´ atica que es la de tener que elegir cu´ al usar en una situaci ´ on particular, adem ´ as de explicitar formas de presentar conclusiones desde las cuales poder extraer conocimiento de una manera m´ as adecuada, r ´ apida y efectiva. En este punto es pertinente considerar los mecanismos de visualizaci ´ on de resultados provis- tos, como por ejemplo grafos, gr´ aficos de barras, una matriz de confusi ´ on, entre otros. Una matriz de confusi ´ on es una herramienta que permite la visualizaci ´ on del desempe ˜ no de un algoritmo que se emplea en aprendizaje supervisado. Cada columna de la matriz representa el n ´ umero de predicciones de cada clase, mientras que cada fila representa a las instancias en la clase real. Uno de los beneficios de las matrices de confusi ´ on es que facilitan ver si el sistema est´ a confundiendo entre clases [11]. Cuando la cantidad de datos supera la capacidad cognitiva, la informaci´ on deber´ ıa ser Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290 ISSN 1405-5546 doi: 10.13053/CyS-22-1-2558

Upload: others

Post on 09-Jul-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

Visualizacion en un entorno de minerıa de datos desde unaperspectiva interaccion humano computador

Raul Oscar Klenzi, Marıa Alejandra Malberti, Graciela Elida Beguerı

Universidad Nacional de San Juan,Departamento de Informatica, Facultad de Ciencias Exactas Fısicas y Naturales,

Argentina

{rauloscarklenzi, amalberti, grabeda}@gmail.com

Resumen. Con el proposito de apoyar el proceso dediseno, analisis y evaluacion de los mecanismos devisualizacion de resultados que provean informacion,en entornos de Minerıa de Datos, este trabajotrata la problematica de la visualizacion, desde unescenario de Interaccion Humano Computador. Enel se consideran aspectos relevantes surgidos delestudio de la percepcion humana. Se describen tresejemplos practicos, sobre datos numericos, de texto ygeorreferenciados, valiendose de la herramienta KNIMEAnalytics. Asimismo, se expone la utilidad e importanciade los graficos para una correcta interpretacion de lainformacion.

Palabras clave. KNIME, visualizacion, minerıa de datos,interaccion humano computador.

Visualization in a Data MiningEnvironment from a Human Computer

Interaction Perspective

Abstract. With the aim of providing support to thedesign, analysis and evaluation of result visualizationmechanisms used to supply information in Data MiningEnvironments, this work analyzes the visualizationissue from a Human Computer Interaction setting.Important considerations arisen from the study of humanperception are considered. Three practical examplesbased on numerical, textual and georeferenced dataare described by means of the KNIME Analytics tool.In addition, the use and importance of graphs areemphasized for a correct information interpretation.

Keywords. KNIME, visualization, data mining, humancomputer interaction.

1. Introduccion

La busqueda de conocimiento en datos pormedio de la aplicacion de Minerıa de Datos, esun area ampliamente difundida y en expansion araız del incremento constante en la generacionde datos. Uno de los retos de la visualizacionradica en presentar una buena informacion paralograr el interes y analisis de los usuarios. En laactualidad, la disponibilidad de diversos entornosy herramientas de aprendizaje de maquina,analisis de algoritmos y procesamiento de lainformacion que ofrecen diversas funcionalidades,como por ejemplo KNIME, RapidMiner y Weka,entre otras, plantea otra problematica que esla de tener que elegir cual usar en unasituacion particular, ademas de explicitar formasde presentar conclusiones desde las cualespoder extraer conocimiento de una manera masadecuada, rapida y efectiva.

En este punto es pertinente considerar losmecanismos de visualizacion de resultados provis-tos, como por ejemplo grafos, graficos de barras,una matriz de confusion, entre otros. Una matrizde confusion es una herramienta que permitela visualizacion del desempeno de un algoritmoque se emplea en aprendizaje supervisado. Cadacolumna de la matriz representa el numero depredicciones de cada clase, mientras que cada filarepresenta a las instancias en la clase real. Uno delos beneficios de las matrices de confusion es quefacilitan ver si el sistema esta confundiendo entreclases [11].

Cuando la cantidad de datos supera lacapacidad cognitiva, la informacion deberıa ser

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546

doi: 10.13053/CyS-22-1-2558

Page 2: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

volcada en una representacion basada en graficosque permita transformarlos en informacion util,visual y accesible para el destinatario. Atento a quees la vista el organo sensorial que mayor cantidadde informacion puede captar.

En las secciones 2 y 3, se proporcionauna introduccion a Visualizacion y a InteraccionHumano Computador. En la seccion 4, sepresentan tres ejemplos practicos en los quese aplican diferentes instancias de visualizacionconforme la tipologıa de datos utilizada, yparticularizando en la utilizacion de la herramientade software KNIME Analytics 3.2.1.

2. Visualizacion

El escritor y disenador, McCandless en [9],expone que la problematica sobre la sobrecarga deinformacion o exceso de datos que se sufre hoy endıa es acarreada por el uso de la tecnologıa Web.Afirma que existe una solucion facil que radicaen la visualizacion de la informacion. Por mediode esta se pueden ver patrones y conexiones,de modo que la informacion tiene mas sentidoy permite centrarse unicamente en lo que esimportante.

Visualizacion, para Yuk y Diamond en [12],es el estudio de como representar los datosusando un enfoque visual o artıstico en lugar delmetodo tradicional de reportes, siendo dos delos tipos mas populares el tablero y la infografıa.Estos autores consideran que ser util, usabley deseable son caracterısticas recomendablesde toda visualizacion, y a ellas les agregan:ser visualmente atractivas, escalables, proveer alusuario de informacion correcta y ser accesiblesen cualquier momento. Es muy importante tener encuenta ”que” datos mostrar y ”como” mostrarlos.Ignasi Alcalde, [1], senala las diferencias ysimilitudes entre infografıa y visualizacion. Alrespecto aduce que “la visualizacion de lainformacion es el estudio de la representacionvisual de los datos abstractos (interactivos), parareforzar la cognicion humana, e incluyen tantodatos numericos y no-numericos. Como texto einformacion geografica. . .

La infografıa implica la presentacion de in-formacion de forma estatica, mientras que la

visualizacion de datos tiene como eje principalel componente dinamico y la posibilidad deinteraccion y exploracion de los mismos”.

En la Figura 1, se presenta el pipeline devisualizacion propuesto en [10].

Fig. 1. Pipeline de visualizacion

El punto de partida es el procesamiento de losdatos en bruto en algo utilizable por un sistema devisualizacion (interpolacion por ejemplo para datosfaltantes, o en el caso de datos de gran tamanopodrıa recurrirse a muestreo, filtrado, agregaciono particionamiento). Una vez que los datos estanpreprocesados, se elige una representacion visualespecıfica en lo que refiere a geometrıa, colory sonido, por ejemplo. La etapa final implica elmapeo de datos geometricos a imagen. En [12],se propone el uso de dos medidas: Expresividady Eficacia, para estimar la informacion transferida.Una visualizacion expresiva presenta toda lainformacion, y solo la informacion, mientras queuna visualizacion es eficaz cuando se puedeinterpretar con precision y rapidez.

En el extremo derecho del pipeline se encuentrael ser humano; es importante entonces, abordaraspectos tratados en Interaccion Humano Compu-tador.

3. Interaccion humano computador

Cuando las personas y los ordenadores inter-actuan lo hacen por medio de una interfaz. “Lainterfaz es el punto en que las personas y losordenadores se ponen en contacto y se transmitenmutuamente tanto informacion, ordenes y datoscomo sensaciones, intuiciones y nuevas formas dever las cosas” [4].

A la vez se menciona la definicion comunmenteaceptada de la disciplina Interaccion Persona

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546doi: 10.13053/CyS-22-1-2558

Raúl Oscar Klenzi, María Alejandra Malberti, Graciela Elida Beguerí280

Page 3: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

Computador, segun el Grupo SIGCHI (SpecialInterest Group on Human-Computer Interaction),creado en el ambito de la ACM (Associationfor Computer Machinery), como “la disciplinarelacionada con el diseno, la evaluacion y la im-plementacion de sistemas informaticos interactivospara uso de seres humanos, y con el estudio delos fenomenos mas importantes con los que estarelacionado” [4].

Se debe tambien proveer un entendimiento de laforma en que los usuarios trabajan, las tareas quenecesitan ejecutar y la forma en que los sistemascomputacionales necesitan ser estructurados parafacilitar el logro de dichas tareas [2].

Un aspecto importante a ser consideradocuando hay individuos involucrados, es lo relativoa la percepcion humana. Los primeros estudiosde la percepcion se centraron en la vision y suscapacidades, mientras que enfoques posterioresconsideraron los problemas cognitivos y dereconocimiento.

Los seres humanos perciben los datos quese les presentan a traves de visualizaciones. Seestudia entonces la percepcion para mejorar lapresentacion de los datos.

La mayorıa de las definiciones y teorıas dela percepcion la consideran como el proceso dereconocimiento (ser consciente de), organizacion(recopilar y almacenar), e interpretacion (laconstruccion de conocimiento), de la informacionsensorial. La percepcion es el proceso medianteel cual el ser humano interpreta el mundo quelo rodea formando una representacion mental delentorno, que no es isomorfa con el mundo real [10].

La percepcion tiene en cuenta los sentidosque detectan senales del entorno, tales comovista, oıdo, tacto, olfato y gusto. De ellos lavision y audicion son los mas tratados. Algunaspropiedades perceptivas, tales como color, texturay movimiento, han sido usadas en visualizacion.

Ward, Grinstein y Keim mencionan tambien trestipos de memoria que consideran relevantes enel estudio de la percepcion en visualizacion. Lamemoria sensorial, este aprendizaje es fısico ypuede ser aprovechado por acciones repetidas,por ejemplo posiciones de teclas. La memoria decorto plazo, que puede ser aprovechada mediantela agrupacion y la repeticion. Y la memoria a

largo plazo que puede ser aprovechada por eluso de asociacion mnemotecnica y fragmentacion.En el diseno de visualizaciones es importanteconsiderar diversas caracterısticas de los sereshumanos, relacionadas con su capacidad depercibir, para evitar por ejemplo la generacion deimagenes con informacion ambigua, enganosa odifıcil de interpretar [10].

Para poder medir y comparar el rendimiento dela percepcion humana sobre diversos fenomenosse necesita una metrica, es decir, una medidapara evaluar de forma fiable. Para ello se hanrealizado numerosos estudios experimentales quehan permitido obtener diferentes resultados.

Para cada estımulo primitivo, ya sea visual,auditivo, de gusto, tacto u olfato, se midioel numero de niveles distintos que un sujetopromedio puede identificar con un alto grado deprecision. Una resena de los resultados obtenidosestan planteados en [3] y [10].

Para los estımulos estudiados, se observo quelos usuarios no podıan extraer mas de 6 o7 niveles, de un valor de datos con exactitud.La combinacion de mas de un estımulo, comopor ejemplo punto en un cuadrado, salinidady dulzura, sonoridad y tono entre otros, segunexperiencias, permitirıa aumentar la cantidad deinformacion que se comunica, pero no a los nivelesesperados respecto a los atributos individuales.Esto concuerda con la teorıa linguıstica queidentifica de 8 a 10 dimensiones, cada una de lascuales puede ser clasificada solo en dos o trescategorıas.

Como consecuencia de los experimentos depercepcion con atributos graficos, resulta que losgraficos de barras y los diagramas de dispersionson herramientas eficaces para la comunicacionde datos cuantitativos ya que ambos dependende la posicion a lo largo de una escala comun,y a la vez sugieren que los graficos circularesno son representaciones convenientes. De igualmodo para aplicaciones donde se requiere unjuicio absoluto, lo mejor es usar graficas con unsolo atributo que tenga entre 4 y 7 valores.

Para obtener un mayor rango de nivelesreconocibles se deberıa considerar multiplesdimensiones, construir secuencias de decisiones

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546

doi: 10.13053/CyS-22-1-2558

Visualización en un entorno de minería de datos desde una perspectiva interacción humano computador 281

Page 4: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

simples, o llevar a cabo algun tipo de fragmenta-cion [10].

Segun Iliinsky y Steele, en [5], es util pensar enuna eficaz visualizacion de datos consistente en untaburete de tres patas: el disenador, el lector y losdatos. Donde cada una de ellas ejerce una fuerza,o aporta una perspectiva independiente, que debeser considerada para que una visualizacion seaestable y exitosa.

Fig. 2. La naturaleza de la visualizacion depende deque relacion, entre dos de los tres componentes, esdominante

Cada una de las tres patas tiene una relacionunica con las otras dos. Si bien es necesariodar cuenta de las necesidades y la perspectivade los tres componentes en cada proyecto devisualizacion, la relacion dominante determinaraen ultima instancia que categorıa de visualizaciones necesaria, Figura 2 [5].

4. Aplicaciones

Seguidamente se presentan algunas instanciasque la herramienta de minerıa de datos KNIMEAnalytics, tiene a modo de visualizacion internaasociada al preprocesamiento de datos, comoası tambien los modulos para una visualizacionfinal de resultados. En este sentido se habran deconsiderar tres ejemplos de trabajo con diferentestipos de datos, destacando en cada uno de elloslas propuestas que consideramos pertinentes paramejorar la interaccion humano computador (eneste caso la comprension de las conclusiones alas que la aplicacion arriba).

KNIME (Konstanz Information Miner), es unentorno de minerıa de datos construido bajo laplataforma Eclipse y programado esencialmenteen Java, que fue desarrollado originalmente enel departamento de bioinformatica y minerıa dedatos de la Universidad de Constanza, Alemania.Es una herramienta grafica para el desarrollo demodelos en un contexto visual, que dispone deuna serie de nodos (que encapsulan distintostipos de algoritmos), y flechas (que representanflujos de datos), que se despliegan y combinande manera grafica e interactiva. Se utiliza KNIMEAnalytics 3.2.1 bajo licencia GNU version 3, porsus caracterısticas y potentes funcionalidades,cuya interfaz de trabajo se puede visualizar en laFigura 3, [7].

Fig. 3. Entorno de software KNIME Analytics 3.2.1

4.1. Reconocimiento automatico de dıgitosmanuscritos

Se necesita un sistema de informacionen condiciones de reconocer, en formaautomatica, los dıgitos decimales escritos enforma manual sobre un pad de 28*28 pixeles,https://www.kaggle.com/c/digit-recognizer/data.Para ello se provee un conjunto de datos deentrenamiento (42000 registros), y otro conjuntopara posterior testeo (28000 registros), contra losque habra de validarse el modelo. Cada imagen esde 784 pıxeles en total. Cada pıxel tiene un unicovalor asociado que indica la claridad u oscuridadde ese pixel. Este valor de pixel es un numeroentero entre 0 y 255, inclusive; los numeros masaltos significan color mas oscuro.

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546doi: 10.13053/CyS-22-1-2558

Raúl Oscar Klenzi, María Alejandra Malberti, Graciela Elida Beguerí282

Page 5: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

El conjunto de datos de entrenamiento cuentacon 785 atributos. Uno de ellos, llamado ”label”,es el dıgito que fue dibujado por el usuario. Elresto de las columnas contiene los valores de pıxelmodificado por el trazo de la imagen asociada,como lo muestra parcialmente la Figura 4.

Fig. 4. Datos de entrenamiento

El diagrama en bloques de la Figura 5, esque-matiza la tarea a realizar para el reconocimientode dıgitos decimales manuscritos.

Fig. 5. Bloque de un Sistema Informatico en condicionesde reconocer dıgitos decimales manuscritos

A los efectos de encontrar un modelo que per-mita el reconocimiento automatico de caracteresmanuscritos, primero debe tenerse un conjuntode referencia desde donde realizar la tarea deentrenamiento y simultaneamente testeo de losresultados obtenidos.

Particularmente, atendiendo a que se considerauna fuente de datos de 42000 registros etiqueta-dos, se tomara de ellos el 80 % de entrenamientoy el restante 20 % de testeo, aplicando el conceptode validacion cruzada para legitimar el algoritmoutilizado para modelar ese conjunto de datoso registros. Ası mismo el desafıo planteado enesta aplicacion es encontrar, tras haber obtenidoun modelo que se considera posee una buenaaproximacion descriptiva de los datos entrenados,

las salidas que el modelo propone para los 28000registros que carecen de etiquetas.

La sucesion de modulos que en la herramientaKNIME Analytics permite realizar esta operacionse visualiza en la Figura 6. El algoritmo deaprendizaje utilizado es el de arboles de decision,basado en ganancia de informacion relativa. Lafraccion de la izquierda presenta el conjuntode modulos que hacen la lectura de los datos,tareas de preprocesamiento, y la instancia decross-validacion, ampliada esta en la fraccionderecha contiene el conjunto de modulos desdedonde se obtiene el modelo a aplicar mediante elalgoritmo decision-tree.

Fig. 6. Modulos de representacion grafica y los utilizadosen la instancia de validacion cruzada y prediccion, por laherramienta KNIME Analytics

Un aspecto importante en el marco de lastareas de preprocesamiento, es la posibilidad dela herramienta de transformar cada registro conlos 784 atributos (28*28 pixeles del pad), en lacorrespondiente imagen. La Figura 7, denota lasaproximaciones que cada registro posee con loscorrespondientes label asociados en el caso de losregistros de entrenamiento, y el grado de parecidoque pudiera lograrse sobre los registros de testeopara los que no existe etiqueta.

Se puede observar que tras la instanciade aprendizaje o entrenamiento, para el tercerregistro de entrenamiento (registro 43), el modeloha predicho un 2 en lugar del cuatro queoriginalmente habıa en ”label”, y desde lavisualizacion de la imagen cualquier usuariointerpretarıa a ese dibujo a mano alzada comoun cuatro. Ahora bien, el modelo ”debe”tratar demodelar en ese universo de los dıgitos decimalesmanuscritos, diferentes formas de escritura. Surgeası tambien un dıgito como el dibujado en elregistro 73, que desde la visualizacion de laimagen a una persona le resultarıa difıcil rotular.

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546

doi: 10.13053/CyS-22-1-2558

Visualización en un entorno de minería de datos desde una perspectiva interacción humano computador 283

Page 6: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

Sin embargo el sistema predice adecuadamente el”label.original. Esto destaca la fortaleza que debetener el algoritmo de aprendizaje y modelacionutilizado.

Fig. 7. Aproximacion entre registros y label asociados

Las fortalezas del algoritmo utilizado, mas allade estas comparaciones de tipo subjetivo comopueden ser el contrastar los resultados de laspredicciones con la percepcion que de los dıgitosdibujados tiene un usuario, se detectan medianteformas estadısticas que hablan del grado deaproximacion que el modelo alcanza hacia losregistros etiquetados.

En la Figura 8, se observa el error paracada grupo de entrenamiento conforme aquellainstancia de cross-validacion, que redunda en un17,4478 % de error promedio sobre la totalidad delos 42000 registros entrenados.

Fig. 8. Error de entrenamiento

De igual manera la herramienta presenta lamatriz de confusion que posibilita visualizar ycontrastar los ”labelcon sus predicciones, permi-tiendo al experto calıgrafo detectar las bondadesdel modelo conforme se puede reconocer lasaproximaciones para cada dıgito en particular.

En la Figura 9, se muestra la matriz de confusiony en la parte inferior las estadısticas de exactitud,ambas resultantes del proceso realizado.

Fig. 9. Matriz de confusion y medidas de exactitud

De la lectura que el experto calıgrafo hagade la Figura 9, podrıa significar no hacer unentrenamiento basado en muestras estratigraficassino favorecer el aprendizaje de determinadoscaracteres asociado a los errores relacionados concada uno de los dıgitos.

Se observa entonces que existen errores deprediccion de los dıgitos escritos a mano alzada.En un comienzo bastarıa tener los porcentajes deaciertos y de errores, pero en un analisis masdetallado serıa interesante conocer por ejemplolos dıgitos mejor predichos, ası como los queposiblemente generan mayor equivocacion en sudeteccion.

Si bien la diagonal de la matriz de confusioncontiene los casos correctamente predichos de losdiferentes dıgitos, no es inmediata la informacionreferente al porcentaje de equivocacion en cadacaso. Para facilitar la interpretacion de losresultados, cada una de las filas podrıa seracompanada por un diagrama de barras que eneste caso muestre el porcentaje en que el dıgitoha sido confundido con alguno de los restantes.

En lo que refiere a los indicadores Expresividady Eficacia, se podrıa considerar que la matrizde confusion es expresiva, pues presenta toda lainformacion, pero es discutible su eficacia pues noes inmediata su interpretacion.

En este contexto se presentan en la Figura10 los bloques que constituyen la instancia

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546doi: 10.13053/CyS-22-1-2558

Raúl Oscar Klenzi, María Alejandra Malberti, Graciela Elida Beguerí284

Page 7: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

de aprendizaje y los errores de aproximacion,resultantes de aplicar un mismo modelo a dos tiposde datos de entrenamiento. Por un lado pıxeles contipos de datos enteros entre 0 y 255 y por el otro,pıxeles con tipos de datos bivaluados, 0 o 255.En la misma figura se presentan, en el extremoizquierdo, los patrones de testeo incorporados (sinetiquetar) y en el extremo derecho los resultadosobtenidos para cada una de las instancias deentrenamiento.

Fig. 10. Modulos de instancias de aprendizaje y testeo

Se aprecia que con solamente filtrar la imagenoriginal, de tal manera que los pixeles no tenganvalores enteros entre 0 y 255 y unicamente tenganen cada pixel 0 o 255, y utilizando el mismoalgoritmo de aprendizaje, se logra una mejora en lainstancia de modelacion para los datos entrenadosdel 3 %.

Atendiendo a la informacion suministrada porla estadıstica asociada al ejemplo resuelto y enla instancia de entrenamiento se observa, desdelos valores numericos generados para el valor deprecision y tras haber sido ordenados en formadecreciente, que es el cero el que mejor precisionpresenta, seguido por el uno, posteriormente elseis y ası consecutivamente el resto de losnumeros (Figura12).

Fig. 11. Estadıstica de exactitud de aprendizaje

Si bien la informacion extraıda desde los valoresnumericos (Figura 11), es fiable, acertada y elprocesamiento extra generado por el ordenamien-to aporta una mejor posibilidad de evaluar losresultados de la tarea de reconocimiento de loscaracteres manuscritos, la Figura 12, permiteextraer mas rapidamente las mismas conclusionesanteriores.

Allı se muestran diferentes formas de visualizarla informacion numerica anterior. Se puedeobservar que la informacion se presenta enporcentajes, en diferente formatos numericos, enescala de grises y en barras de colores. Ası,si en lugar de representar el dato de precisionen forma numerica lo hacemos en forma relativamediante un grafico de barras de colores, nosolamente la longitud de la barra expresa elvalor de la precision sino que tambien el colorpuede generar un estado de alarma respecto decual es el numero manuscrito, cuyo modeladopara instancias de reconocimiento automatico, nofunciona adecuadamente.

Fig. 12. Diferentes formas de visualizar la informacionestadıstica

Una vez mas se observa que la imagen debarras asociada a la precision permite inferir, maseficiente y rapidamente, que de entre todos losnumeros el cinco es el que peor aproximacionposee. Es de destacar tambien que es sobre elque menos ejemplos se han entrenado, lo quelleva a la necesidad de requerir una muestra mayorasociada a este tipo de caracter manuscrito. Estopone en evidencia que los diagramas de barrasson una alternativa valiosa de visualizacion dedatos.

4.1.1. Minerıa de texto en contenidosmınimos de asignaturas

El analisis o minerıa de texto es otra de lasareas de minerıa de datos que cobra relevancia dıa

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546

doi: 10.13053/CyS-22-1-2558

Visualización en un entorno de minería de datos desde una perspectiva interacción humano computador 285

Page 8: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

a dıa, dado que mas del 80 % de la informacionde las organizaciones se encuentra en esteformato y donde se hacen necesarias diferentescapacidades de visualizacion con el objeto depresentar las conclusiones a las que se arriba eneste proceso.

Sin pretender explayarnos intensamente en losconceptos que hacen a la recuperacion de infor-macion o minerıa de texto, sı explicaremos algunosconceptos introductorios a efectos de entender surepresentacion y tratamiento. Para interpretar endetalle los documentos de texto, se puede buscaren ellos palabras claves o categorizarlos segunsu contenido semantico. Cuando se identificanpalabras claves, se observan definiciones odetalles caracterısticos de esos documentos quepueden usarse para buscar relaciones, conexioneso parecidos con otros documentos. En el area derecuperacion de informacion los documentos sehan representado tradicionalmente en un modelode espacio vectorial, generando lo que se conocecomo valija de palabras.

Un documento en el modelo de espacio vectorialse representa como un vector de pesos, enel que cada peso de los componentes secalcula sobre la base de alguna variacion dela frecuencia con que las diferentes palabrastokens o terminos aparecen en los documentosanalizados (TermFrecuency). Los documentos sepueden representar como vectores en un espacion-dimensional. Si un cierto valor t (palabra, token)ocurre n veces en un documento d, entonces lacoordenada correspondiente a t del documento des simplemente n. En la Figura 13, se compara tresdocumentos.

Un primer documento, Tıtulo, compuesto porla palabra minerıa repetida tres veces ”minerıaminerıa minerıa”, lo que denota su valor encoordenadas sobre el eje minerıa. Un segundodocumento, Doc1, compuesto por la palabra textorepetida dos veces ”texto texto”, y finalmenteun tercer documento, Doc2, compuesto por”minerıa texto minerıa texto minerıa datos”. De larepresentacion vectorial se observa que no hayninguna semejanza sintactica entre Tıtulo y Doc1(vectores perpendiculares que no tienen ninguntermino en comun) y sı la hay entre Tıtulo yDoc2 (vectores que forman un angulo diferente

a 90◦ y poseen terminos en comun). Se destacael angulo que conforman los vectores, dado queuna de las metricas de similitud entre documentosmuy usada en el ambito de la recuperacion dedocumentos, es la del coseno del angulo queforman los documentos que se estan comparando.Documentos de mayor similitud poseen valor demetrica proximo a 1 y aquellos con metricacercana a 0 son considerados mas disımiles.

Fig. 13. Ejemplo de representacion vectorial dedocumentos

La aplicacion realizada simplemente presen-ta diferentes formas de visualizar documentoscorrespondientes a los contenidos mınimos delas asignaturas correspondientes a un plan deLicenciatura en Ciencias de la Computacion. Laimplementacion llevada adelante en KNIME Analy-tics presenta una serie de modulos que permitenrealizar la lectura de los distintos documentos, lageneracion de la valija de palabras plausible yade representarse vectorialmente, ası como todaslas tareas inherentes al preprocesamiento de losdocumentos que consiste en transformar todoslos caracteres a mayusculas, eliminar palabrascarentes de significado (stop words), eliminarsignos de puntuacion y generar la estadısticaasociada entre otras tareas propias del analisissintactico de texto.

La Figura 14, muestra la transformacion pro-vocada por el procesamiento de la informacionconforme se suceden los modulos que generan lavalija de palabras, eliminan signos de puntuacion,eliminan stop-words, calculan frecuencia relativasde las palabras en los documentos, parafinalmente mostrarla ademas en la nube de

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546doi: 10.13053/CyS-22-1-2558

Raúl Oscar Klenzi, María Alejandra Malberti, Graciela Elida Beguerí286

Page 9: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

Fig. 14. Procesamiento de documentos de texto enKNIME

palabras o TagsCloud. Esta permite extraer mayorconocimiento del vistazo que significa la presenta-cion del conjunto de palabras involucradas segunsu tamano, conforme la frecuencia relativa de lasmismas en los documentos, y color asignado.

La Figura 15, permite visualizar, ademas, losresultados de la aplicacion que busca similitudessintacticas entre los contenidos mınimos dediferentes asignaturas y las areas de conoci-miento que debieran contenerlas. Esta primeraaproximacion se presenta a modo de tabla y ladistancia (metrica de similitud del coseno), entrecada una. Se destaca que en este caso la distanciarefleja la similitud sintactica entre documentos, asıconforme la distancia disminuye mayor similitudsintactica existe entre documentos.

Fig. 15. Secuencia de Modulos y tablas evidenciandosimilitudes entre asignaturas y areas de conocimiento

Es interesante destacar que entre las diferentesformas de visualizar la informacion anterior, laherramienta tiene la posibilidad de presentarla enforma de un grafo, por medio de una serie de

plugins que permiten trabajar el area de netmining.Es ası como la Figura 16, presenta la secuenciade modulos que permite la visualizacion del grafo,y la Figura 17, los respectivos nodos (asignaturasy areas de conocimiento), con las relacionesexistentes entre ellos, que en este caso son lascorrespondientes metricas de similitud.

Fig. 16. Secuencia de modulos que permite presentarinformacion en forma de un grafo o red

Fig. 17. Nodos y enlaces que visualiza las metricasde similitud sintactica entre asignaturas y areas deconocimiento

4.2. Representacion de datosgeorreferenciados

En este caso se presentan diferentes formas devisualizar un conjunto de datos georreferenciados.KNIME permite la traduccion de direccionespostales (nombre de calle, numeracion, orienta-cion, jurisdiccion, provincia, paıs), a coordenadaslatitud y longitud, y desde estas pasar a unarepresentacion en un mapa fısico correspondientea la ciudad o zona asociada a los datosgeorreferenciados.

Sin duda la representacion visual asociada amapas, es mucho mejor recibida por neofitos

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546

doi: 10.13053/CyS-22-1-2558

Visualización en un entorno de minería de datos desde una perspectiva interacción humano computador 287

Page 10: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

usuarios finales pese a que la informacion carac-terizada por las coordenadas sea exactamente lamisma.

En la Figura 18, se observa un conjuntode direcciones postales correspondientes a laciudad de San Juan, Argentina y su posteriortransformacion a coordenadas de latitud y longitud,las que finalmente se representan en un mapageografico mediante modulos especıficos deKNIME.

Fig. 18. Visualizacion de datos georreferenciados enKNIME

En particular, los modulos de georreferenciacionde la plataforma KNIME Analytics 3.2.1 han permi-tido, tambien, traducir datos correspondientes a lascampanas de recoleccion de semillas del InstitutoSemillero Hortıcola de la provincia de San Juan(INSEMI), convirtiendo los formatos de latitud ylongitud de cada uno de los lugares de recoleccion,en puntos de coordenadas geograficas sobre unmapa, figura 19; y mediante un rapido analisisvisual por parte de sus especialistas, determinarzonas no exploradas y desde allı organizar futurascampanas.

Se puede observar ademas la posibilidadque brinda la herramienta, a traves del modulomapviewer, de rotular los diferentes puntos derecoleccion atendiendo al nombre de la especiecolectada y colorear la referencia segun la altituden msnm (metros sobre el nivel del mar), variandode la menor altitud (color celeste), a la mayoraltitud (azul intenso).

Se destaca ademas, que el modulo OSMMapview permite visualizar y analizar zonas segunsu relieve geografico y la aridez segun su color.

Fig. 19. Georreferenciacion de campanas de recolec-cion de semillas

Fig. 20. Visualizacion georreferenciada de fallas en elalumbrado publico

La informacion asociada a los reclamos ysu tipificacion en el contexto de la oficinacorrespondiente al organismo encargado delmantenimiento del alumbrado publico, puedenser presentados como datos georreferenciadosidentificados por nombre y color, Figura 20.

Esto permite una mas rapida toma de decisionesrespecto de que vehıculo destinado a reparacionesse encuentra en las inmediaciones de cadareclamo y solucionar el problema con mayorceleridad.

5. Conclusiones

El trabajo propone un analisis de diversasformas de presentar la informacion o conocimiento

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546doi: 10.13053/CyS-22-1-2558

Raúl Oscar Klenzi, María Alejandra Malberti, Graciela Elida Beguerí288

Page 11: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

extraıdo desde los datos, destacando diferentesetapas en la tarea de preprocesamiento.

Consideramos de suma importancia conocerfehacientemente la tipologıa y area de aplicacionde los datos a efectos de sugerir estrategiasde visualizacion que permitan la mayor capturade informacion por parte de los usuarios. Eneste contexto la posibilidad de representar laimagen de los numeros manuscritos, los tagscloudası como formas de representar relaciones entredocumentos mediante grafos en las tareas deminerıa de texto, y transformar un conjunto depuntos georreferenciados a un mapa geografico,son una valiosa ayuda para los usuarios y sindudas un complemento a la propia representacioninterna de matrices, tablas estadısticas y otrasformas involucradas para valorar diferentes tareasen el marco de extraccion de conocimiento endatos.

En definitiva, y habiendo utilizado una mınimafraccion de formas de visualizacion que laherramienta KNIME posee, consideramos quetoda propuesta de visualizacion del conocimientoextraıdo que pueda ser transformado de lonumerico a lo grafico va a ser mejor interpretadopor parte de los usuarios. Ademas, en lostres casos de aplicacion se pueden verificar lascaracterısticas de ser util, usable y deseable.Asimismo resultan ser visualmente atractivas,escalables y desde ellas se puede obtenerinformacion correcta y plenamente accesibles porparte de los usuarios.

Ası para el caso de los caracteres decimalesmanuscritos se puede decir que la representaciongrafica es una ayuda importante para queun usuario, carente de experticia, infiera sila instancia de modelacion alcanzada funcionaadecuadamente o no. Aun ası hay pocos casos enque la representacion lograda difıcilmente puedaser interpretada como un dıgito decimal. Delmismo modo en que se modelo un clasificadorpara el reconocimiento automatico de dıgitosdecimales podrıa extenderse a cualquier tipocaligrafico.

La instancia de la matriz de confusion presentainformacion correcta y es facilmente escalable(con el aumento de registros de datos u otros tiposde caracteres manuscritos), pero requiere de un

conocimiento previo, por parte del usuario, para suinterpretacion.

En lo referente a la aplicacion de minerıa detexto desde la observacion de la nube de palabras,estas, su tamano, color y cercanıa reflejaninmediatamente la relevancia de la tematicaabordada por los documentos analizados, lo quedenota su utilidad. Conforme la cantidad decaracteres aumente y sus frecuencias de apariciontiendan a ser uniformes, se puede tornar difıcil elreconocimiento especıfico de los temas abordadospor los documentos.

El trabajo de encontrar metricas de similitudsintactica entre documentos y con ello poderestablecer la pertinencia de una asignatura a unarea de conocimiento se explicita mejor en elentorno grafico basado en grafos. Este, conformeaumentasen la cantidad de documentos tratados,podrıa generar una excesiva cantidad de nodos yenlaces pero que, a tales efectos y con el objetivode permitir escalabilidad, la herramienta disponede diferentes alternativas de filtros y modos derepresentacion de grafos.

En lo referente al tercer caso de aplicacion, larepresentacion cartografica de los datos es muyutil y deseable como lo ponen en evidencia laexactitud [6, 8], de los posicionadores satelitalesactuales montados a bordo de vehıculos automo-tores, y que permiten transitar hacia un destinoespecıfico en forma fiable y practicamente sintener en cuenta direcciones postales. Ası mismoresultan de suma utilidad para los encargados deevaluar la informacion presentada. La posibilidadde escalabilidad es factible atendiendo a quelos modulos que permiten la visualizacion tansolo presentan como lımite, no visualizar mas deaproximadamente 10,000 registros por segundo.

Agradecimientos

Agradecemos la colaboracion prestada por laProf. Laura Beatriz Ureta, docente e investigadorade la Universidad Nacional de San Juan, en laelaboracion del abstract.

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546

doi: 10.13053/CyS-22-1-2558

Visualización en un entorno de minería de datos desde una perspectiva interacción humano computador 289

Page 12: Visualización en un entorno de minería de datos desde una … · aspectos tratados en Interaccion Humano Compu-´ tador. 3. Interaccion humano computador´ Cuando las personas y

Referencias

1. Alcalde, I. (2015). Visualizacion de la informacion:de los datos al conocimiento. Editorial UOC.

2. Faulkner, X. & Culwin, F. (2000). Enter the usabilityengineer: integrating HCI and software engineering.ACM SIGCSE Bulletin, Vol. 32, No. 3, pp. 61–64.

3. Fayyad, U., Wierse, A., & Grinstein, G. (2002).Information visualization in data mining and know-ledge discovery. Morgan Kaufmann.

4. Granollers i Saltiveri, T., Lores Vidal, J., &Canas Delgado, J. J. (2012). Diseno de sistemasinteractivos centrados en el usuario. Editorial UOC,Catalunya.

5. Iliinsky, N. & Steele, J. (2011). Designing datavisualizations: Representing informational Rela-tionships. O Reilly Media, Inc.

6. Karimi, H. (2014). Big Data: techniques andtechnologies in geoinformatics. CRC Press.

7. KNIME (2016). KNIME Analytics version 3.2.1.software.

8. Mark, S., Resmini, R., Cervone, G., Lin, J., &Waters, N. (2014). Data Mining for GeoinformaticsMethods and Applications. Springer, New York.

9. McCandless, D. (2010). The beauty of datavisualization. John Wiley & Sons, TED website.

10. Ward, M. O., Grinstein, G., & Keim, D. (2010). In-teractive data visualization: foundations, techniques,and applications. CRC Press.

11. Wikipedia (2015). Matriz de confusion — wikipedia,la enciclopedia libre.

12. Yuk, M. & Diamond, S. (2014). Data visualizationfor dummies. John Wiley & Sons.

Article received on 01/08/2016; accepted on 12/10/2016.Corresponding author is Raul Oscar Klenzi.

Computación y Sistemas, Vol. 22, No. 1, 2018, pp. 279–290ISSN 1405-5546doi: 10.13053/CyS-22-1-2558

Raúl Oscar Klenzi, María Alejandra Malberti, Graciela Elida Beguerí290