jorge poblete - tarea 2

Download Jorge Poblete - Tarea 2

Post on 05-Aug-2015

39 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

Universidad de Talca

Minera de Datos

RECOPILACIN DE RUT, PESO, ESTATURA, EDAD Y GNERO DE UN GRUPO DE PERSONAS Y CARGA DE ESTA INFORMACIN A LOS SOFTWARE WEKA Y R. Jorge Antonio Poblete Prez Estudiante, Magster en Gestin de Operaciones, Universidad de Talca jpoblete@alumnos.utalca.cl Viernes 16 de Agosto de 2012

1

RECOPILACIN DE DATOS

La informacin requerida para el trabajo desarrollado corresponde a la recoleccin de los siguientes datos para 20 personas (11 mujeres y 9 hombres): Rut Peso (kilogramos) Altura (centmetros) Edad (aos) Gnero (F y M para femenino y masculino respectivamente)

Esta informacin fue recopilada en una planilla Excel 2010 utilizando 21 filas y 5 columnas. La primera fila corresponde a la identificacin de cada uno de los 5 tipos de datos trabajados tal como se observa en la Figura 1.

Figura 1: Recopilacin de datos en archivo Excel.

Jorge Antonio Poblete Prez

1

Universidad de Talca

Minera de Datos

Cabe destacar que una de las mayores dificultades asociadas a esta etapa no fue la carga de los datos en Excel sino que la recopilacin de la informacin debido, esencialmente, a la solicitud del rut de la persona. Este dato se considera de cuidado debido a los variados usos que se le da en transacciones financieras.

2

SOFTWARE WEKA

Una vez recopilada la informacin en un archivo Excel se procedi a su carga en el software WEKA para su posterior anlisis. 2.1 PREPARACIN DE ARCHIVOS PARA SU LECTURA EN WEKA La primera accin correspondi a la transformacin del archivo Excel a un formato CVS (archivo delimitado por comas). Para esto, en el archivo Excel, se debe acceder a las opcin Archivo > Guardar Como, tal como se observa en la Figura 2.

Figura 2: Convertir archivo .xlsx a .csv

El archivo obtenido posee la extensin .csv y puede ser editado tanto por medio de Excel como tambin por medio del Block de Notas de Windows. El archivo obtenido, dependiendo de la configuracin regional e idioma que dispuesta en el computador que se est utilizando (ver panel de control), puede corresponder a un archivo separado por ; y no por , que es lo requerido, tal como se visualiza en la Figura 3.

Jorge Antonio Poblete Prez

2

Universidad de Talca

Minera de Datos

Figura 3: Archivo .csv delimitado por ";" y no por ",".

Si este es el caso, tal como ocurri durante este trabajo, el procedimiento de modificacin del archivo se puede realizar abriendo el documento .csv en block de notas. El reemplazo se realiza accediendo a Edicin > Reemplazar, lo cual permite acceder a un men en el cual se indica en Buscar todos los smbolos ; y Reemplazar por , tal como se ve en la obteniendo el archivo que se presenta en la Figura 4.

Figura 4: Reemplazo de smbolo delimitador en archivo .csv

Fue complicado verificar que el archivo .csv es muy sensible al uso de ; en vez de ,. La nica manera de percatarse de esta situacin es por medio del intento de carga en WEKA. 2.2 CARGA DE ARCHIVOS EN WEKA Inicialmente se intent definir el archivo .csv ya obtenido anteriormente como un archivo ARFF. La manera de desarrollar esta etapa fue por medio de la estructuracin de la informacin del archivo CSV al modelo ARFF tal como se muestra en la Figura 5.

Jorge Antonio Poblete Prez

3

Universidad de Talca

Minera de Datos

Figura 5: Definicin de archivo CSV como ARFF

Adems se procedi a cambiar la extensin del archivo desde .csv a .arff por medio de la opcin Guardar Como del block de nota. Al intentar cargar el archivo en el software WEKA no se logr lectura del mismo. 2.3 VISUALIZACIN DE DATOS EN WEKA Ante esta situacin se procedi a una nueva definicin del archivo CSV donde la primera fila de datos corresponde a la identificacin del tipo de atributo y las filas siguientes a la informacin propiamente tal de la manera que se expone a continuacin:rut,peso,altura,edad,genero 16792985-0,83,167,24,F 17156973-7,49,165,23,F 16433506-2,60,160,25,F 17156722-k,69,168,23,F 17795336-9,56,157,21,F 16509971-0,73,182,25,M 17323008-7,61,171,22,F 18570460-8,62,169,18,M 16619156-4,64,168,24,F 18359802-3,75,168,19,F 6320799-3,73,158,56,F 6624291-9,90,165,60,M

Este nuevo archivo CSV fue cargado en WEKA de manera directa (sin ser transformado a ARFF) accediendo a la opcin Explorer del software. Una vez en la Weka Explorer se utiliz la opcin Open file con la cual se abre el men que permite buscar y abrir el archivo CSV desarrollado con anterioridad. Estos pasos se muestran en la Figura 6 marcados como 1, 2 y 3.

Jorge Antonio Poblete Prez

4

Universidad de Talca

Minera de Datos

Figura 6: Abrir archivo CSV de manera directa en WEKA

Con esta accin se logra una carga exitosa del archivo en WEKA, lo cual permite la visualizacin de los datos en un scatterplot accediendo a la opcin Visualice del programa. La grfica obtenida se puede observar en Figura 7.

Figura 7: Visualizacin de la informacin en WEKA

Jorge Antonio Poblete Prez

5

Universidad de Talca

Minera de Datos

WEKA entrega una serie de opciones que permiten modificar las caractersticas de la grfica obtenida. Estas opciones son las siguientes:

Figura 8: Opciones de modificacin de grfica en WEKA

-

PlotSize: permite modificar el tamao del diagrama de dispersin presentado. PointSize: altera el tamao de los puntos que representan a cada uno de los datos disponibles. Jitter: modifica las escalas utilizadas en los ejes de las grficas. Colour: permite indicar que atributo ser diferenciado por colores en WEKA. En este caso genero. Class Colour: da la opcin de seleccionar el color con el que se diferenciara el atributo genero en este caso. Select Attributes: indica los atributos que sern representados en la grfica. SubSample %: permite seleccionar la cantidad de datos o muestra a representar.

Por cada cambio realizado en alguna de las opciones anteriores se debe seleccionar Update a fin de que se hagan efectivas las modificaciones.

Figura 9: Tranformar archivo CSV en ARFF por medio de WEKA

Jorge Antonio Poblete Prez

6

Universidad de Talca

Minera de Datos

Cabe mencionar que el archivo CSV puede ser transformado en ARFF por medio de WEKA una vez que ha sido ledo por el programa. Para ello se debe realizar la misma operacin requerida para la lectura de archivos CSV (Figura 6). Posterior a esto, en el men Preprocess, se debe ir a la opcin Save y guardar el archivo en formato ARFF como se presenta en la Figura 9.

Figura 10: Histograma de los atributos en WEKA.

En la misma opcin de Preprocess se puede observar que existe la posibilidad de ver los histogramas de los atributos. En caso de querer mostrar el histograma de todos los atributos disponibles se puede seleccionar la opcin Visualize All como se presenta en la Figura 10.

3

SOFTWARE R

Otra forma de obtener un scatterplot es por medio de la carga de datos en el software R. Inicialmente se intent utilizar el archivo CSV generado en el apartado 2.1 de este informe. Sin embargo, a pesar de que se logr la lectura de los datos, no se obtuvo un buen reconocimiento individual para cada uno de los atributos como tampoco la deteccin de una etiqueta para cada uno de ellos. 3.1 PREPARACIN DE ARCHIVOS PARA SU LECTURA EN R En consideracin de lo expuesto anteriormente se procedi a la confeccin de un archivo distinto. Tomando como base el archivo Excel que posee la informacin acumulada de las 20 personas consultadas (ver Figura 1) se guard una copia del tipo Texto con formato (delimitado por espacios) tal como se presenta en la Figura 11.

Jorge Antonio Poblete Prez

7

Universidad de Talca

Minera de Datos

Figura 11: Transformacin de archivo .xlsx (Excel) a .txt separado por tabulaciones

Por medio del procedimiento ya explicado se obtiene un archivo de texto, tipo .txt, donde cada columna esta diferencia por un espacio, identificando en la primera fila el nombre de cada atributo tal como se presenta a continuacin.

Figura 12: Archivo de texto separado por tabulaciones

Jorge Antonio Poblete Prez

8

Universidad de Talca

Minera de Datos

3.2 CARGA DE ARCHIVOS EN R Una vez confeccionado el archivo con extensin .txt requerido para trabajar en R se procedi a la carga de la informacin. En este caso se trabaja con R-Studio el cual corresponde a una consola que administra archivos R como tambin facilita su edicin. En la Figura 13 se muestra la consola de trabajo en R. En rojo se enmarcar el rea donde se puede escribir cdigo de tal forma que este pueda ser utilizado y consultado en oportunidades futuras. En azul se encierra el rea de ejecucin, seccin donde se presentan los resultados numricos resultantes de la ejecucin del cdigo trabajado. En la seccin verde se presentan las grficas resultantes de la implementacin de cdigos.

Figura 13: Estructura R-Studio

El cdigo requerido para la lectura de los datos es el siguiente: Personas Personas rut peso altura edad genero 1 16792985-0 83 167 24 F 2 17156973-7 49 165 23 F 3 16433506-2 60 160 25 F 4 17156722-k 69 168 23 F 5 17795336-9 56 157 21 F 6 16509971-0 73 182 25 M

colnames(Personas)

Esta opcin permite mostrar los atributos contenidos dentro de Personas. El resultado es:> colnames(Personas) [1] "rut" "peso" "altura" "edad" "genero"

Personas$genero

Muestra los gneros que hay dentro de Personas. El signo "$" permite acceder a un dato particular de la base datos, tal como se muestra a continuacin (extracto).> Personas$genero [1] F F F F F M F M F F F M M F M M M M F M Levels: F M

plot(Personas$peso, Personas$edad, main="DATOS PERSONAS")

Desarrolla un diagrama de