thesis text mining

Download Thesis Text Mining

Post on 26-Jul-2015

107 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

1. Universidad de Oriente Facultad de Matemtica y Computacin Departamento de Computacin Trabajo de Diploma Empleo de Algoritmos de Agrupamiento como Mtodos de Condensado en Minera de Textos Presentado en opcin al Ttulo de Licenciado en Ciencia de la Computacin Autor: Jos Antonio Molinet Berenguer Dirigido por: MSc. Adrian Fonseca Bruzn Dr. C. Reynaldo Gil Garca Santiago de Cuba, Mayo 2010 2. A mi hermano y mis padres Por ser mis guas para llegar hasta aqu 3. Agradecimientos Mi mayor agradecimiento en la vida siempre ser a mis padres y mi hermano, por brindarme su amor y apoyo constantemente. Por confiar en m y demostrarlo sin reservas. Por soportar tantos aos de estar fuera y ayudarme a m a soportarlos tambin. Esta tesis sera una obra inconclusa sin la presencia de Adrian, desde hace aos ya, para evocar toda mi voluntad. Su ayuda como tutor ha sido decisiva para este trabajo, pero su amistad ha sido transcendental para mi vida. Son aos de comprensin, convivencia y muchas fiestas ms las que nos unieron. Los amigos que estn y los que ya se han ido (de diferentes formas) pero que nunca se olvidan. A Luis Manuel, que todava le debo un viaje a Gibara, este es tu trabajo de diploma tambin. A algunos que cuando empezamos no sabamos cuando acabar, pero que cambiamos muchas historias. A Gustavo y su familia por considerarme parte de ellos. A los amigos que siempre hemos estado ah, sin crear una jerarqua: Eubis y Victor los primeros en recibirme. Yidier y los inagotables problemas del mundo. Reinier y sus temas sorpresivos, solo vlidos para Elisabeth. Shippuden (o Jos por su nombre cientfico) de insaciables ganas de ayudar (con la comida) a los mareados. Eduardo y su bsqueda del juego perfecto, o la manera perfecta de jugarlo. A Packy por sus cuerdas desafinadas en la ltima nota sin perjudicar las primeras. A Erick, la especialidad de la casa segn los eruditos de la cocina y la incondicionalidad segn los corazones (afirmado por Dai, compaera de todos y peso completo en sinceridad). A Adriana, mstil y proa de los nufragos de espritu. A Frank veterano de aventuras y a Silvia. A Pedro, Papote, Lorena y sus compaeras, Yuri y todos los que estn al pie de pgina. A los viejos compaeros del D, de las peas, festivales. A mis compaeros del aula. A Jos Ramn y Fleitas por soportar mi msica y llegar a gustarle. Especial, como ella, es mi agradecimiento para mi novia Darling, quien ha estado a mi lado literalmente hasta el ltimo segundo de la realizacin de esta Tesis. Su presencia diaria y su apoyo, fueron la base de toda mi expresin y el desenlace de todas mis dudas. A su mam le hago extensivo mi agradecimiento, por su sonrisa encantadora y llena de esperanza. Parte importante del desarrollo de este trabajo es debido a la ayuda de los profesores de CERPAMID, los cuales permiten la superacin de varios estudiantes, gracias por esta oportunidad. A la profesora Aurora por ser el ejemplo a seguir por todo estudiante. Al profesor Gil por permitirme su conocimiento. De manera general a todos los trabajadores de CERPAMID y de DATYS, por acogernos en sus instalaciones y hacernos sentir parte de ellos. Quisiera agradecer tambin a todos aquellos profesores o estudiantes con los que he compartido estos aos y me han ayudado a formarme como profesional y ser humano. 4. I Resumen En la Minera de Textos, los clasificadores basados en vecindad han sido extensamente aplicados por sus buenos resultados y relativa facilidad de implementacin. Uno de los aspectos singularmente negativos asociados a las distintas variantes conocidas de este tipo de clasificadores radica en la necesidad de disponer de un conjunto de entrenamiento relativamente grande. Esto conlleva a que el clculo de los vecinos sea computacionalmente costoso, lo que podra imposibilitar su empleo en determinadas aplicaciones reales donde es necesaria una respuesta rpida por parte del clasificador. Con el objetivo de eliminar este inconveniente, en este trabajo se propone el empleo de algoritmos de agrupamiento para reducir la talla del conjunto de entrenamiento de los clasificadores basados en vecindad. Para probar la propuesta se realizaron un nmero grande de experimentos con colecciones de documentos de referencia internacional. Los resultados obtenidos, al aplicar nuestra propuesta a las tareas de Categorizacin de Documentos y el Filtrado Adaptativo de Documentos, muestran que la propuesta aqu presentada al ser comparada con los mtodos de condensado tradicionales obtiene resultados similares o superiores de clasificacin, pero reduce considerablemente ms el conjunto de entrenamiento inicial. 5. II Abstract In Text Mining, Nearest Neighbors classifiers have been widely used because of their good performance and relative simplicity of implementation. A negative point of these classifiers is the need for a large number of samples in the training set to obtain good results. Due to this need, the calculation of the nearest neighbors is computationally expensive and may restrict its application in some real problems which require a rapid response by the classifier. In order to eliminate this inconvenient, in this work we propose to employ a clustering algorithm to reduce the size of the training set for neighborhood-based classifiers. To test the proposal, a large number of experiments were conducted using reference document collections. The results obtained in Text Categorization and Adaptive Document Filtering, show that our proposal, when compared to traditional condensing algorithms, obtains similar or better results in classification, and additionally it achieves a better reduction of the initial training set. 6. III ndice Introduccin................................................................................................................................ 1 Captulo 1.................................................................................................................................... 3 1.1 Conceptos Fundamentales............................................................................................ 3 1.1.1 Formulacin General de un Problema de Clasificacin Supervisada................... 4 1.1.2 Representacin de los Documentos ...................................................................... 5 1.1.2.1 Esquemas de pesado de trminos.......................................................................... 6 1.1.3 Medida de semejanza............................................................................................ 7 1.2 Clasificadores basados en Criterios de Vecindad ........................................................ 7 1.2.1 Construccin de la Vecindad................................................................................ 8 1.2.1.1 Vecindad de los k vecinos ms cercanos .............................................................. 8 1.2.1.2 Vecindad .......................................................................................................... 9 1.2.2 Mtodos de Votacin.......................................................................................... 11 1.2.3 Reglas de Decisin.............................................................................................. 12 1.3 Mtodos de Condensado ............................................................................................ 12 1.3.1 Condensado del Vecino ms Cercano ................................................................ 13 1.3.2 Reducido del Vecino ms Cercano..................................................................... 15 1.3.3 Subconjunto Consistente Mnimo....................................................................... 16 1.3.4 Subconjunto Selectivo Modificado..................................................................... 18 1.4 Algoritmos de Agrupamiento..................................................................................... 19 1.4.1 Algoritmos de pasada simple.............................................................................. 20 1.4.1.1 Algoritmo SinglePass ......................................................................................... 20 1.4.2 Algoritmos basados en grafos............................................................................. 22 1.4.2.1 Algoritmo GLC................................................................................................... 23 1.4.2.2 Algoritmo Compacto Incremental ...................................................................... 24 1.4.2.3 Algoritmo Estrellas Grado.................................................................................. 26 1.5 Filtrado Adaptativo de Documento............................................................................ 28 7. IV 1.5.1 Esquema General de un Sistema de Filtrado Adaptativo de Documentos ......... 29 1.5.2 Estructura de un Sistema de Filtrado Adaptativo de Documentos ..................... 30 1.5.3 Algoritmo de Filtrado Adaptativo de Documentos............................................. 31 Captulo 2.................................................................................................................................. 34 2.1 Algoritmos de Agrupamiento como mtodos de condensado.................................... 36 2.2 Experimentos.............................................................................................................. 39 2.2.1 Medidas de Evaluacin....................................................................................... 39 2.2.2 Categorizacin de Documentos .......................................................................... 40 2.2.2.1 Colecciones de Prueba........................................................................................ 40 2.2.2.2 Descripcin de los experimentos ........................................................................ 42 2.2.2.3 Resultados experimentales.................................................................................. 43 2.2.2.4 Conclusiones.................