pfc itis 2012 alumno: dersu garcía sanz director: german rigau claramunt 1

25
PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Upload: alisa-collado

Post on 22-Jan-2016

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

PFC ITIS 2012Alumno: Dersu García Sanz

Director: German Rigau Claramunt

1

Page 2: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Introducción New Explorer Objetivos del proyecto Arquitectura del sistema Elección del tecnológica Desarrollo (CR-A-D-I-P) Gestión Conclusión Demostración

2

Page 3: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Este proyecto se enmarca en la Minería Web y el seguimiento de noticias.

Extraer noticias del portal EMM, desarrollado por el Joint Research Centre de la Comisión Europea.

3

Page 4: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Recuperar y almacenar las noticias y las relaciones que sobre ellas realiza el EMM News Explorer.

Con la autorización de Ralf Steinberger, máximo responsable del EMM y miembro del JRC.

4

Page 5: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Sistema informático de clasificación de noticias multilingües.

Su motor central recopila una media de 50.000 artículos al día de 1.500 páginas web en 42 idiomas.

Agrupa noticias similares en clústers y los relaciona con clústers en otros idiomas y a lo largo del tiempo.

5

Page 6: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

6

Page 7: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Extraer periódicamente información de las noticias recogidas en el portal News Explorer.

Almacenarla en disco para su posterior análisis.

Guardar un registro con la fecha de ejecución del programa y los datos almacenados.

7

Page 8: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

8

Page 9: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

9

Page 10: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Acceder al RSS de News Explorer y obtener los enlaces a páginas de clúster.

Acceder a dichas páginas y extraer información de las noticias.

Necesitamos especificar al programa:◦ Lenguajes de las noticias que queremos recoger.◦ Umbral de semejanza para recopilar clústers

relacionados.

10

Page 11: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

De cada clúster de noticias queremos extraer:◦ Enlace◦ Idioma◦ Título◦ Descripción◦ Fecha◦ Historia◦ Noticias◦ Países◦ Lugares◦ Personas◦ Entidades◦ Keywords◦ Clústers relacionados

11

Page 12: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

12

Page 13: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Dividir el trabajo en subprogramas Realizar los contratos de las operaciones

13

Page 14: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Base de Datos◦ Claves primarias SHA1(enlace)◦ Relaciones entre tablas◦ Frecuencias (Personas, Países, Otros nombres)

Elección tecnológica◦ Expresiones regulares

Pseudocódigo de las operaciones

14

Page 15: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

15

Page 16: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Ejemplos:

◦ Fecha del clúster m{<p class="center_group_main">(.+?)</p>}

◦ Otros nombres m{Other Names</p>(.*?)</div>}s m{<a href="(.*)" class="headline_link">(.*?)</a> \((\d+)\)</p>}g

◦ Noticias m{a target="EMMARTICLE" href="(.+)" class=".+">(.+)</a>}g m{<p class="center_headline_source">.+?&nbsp;(.+?)</p>}g

16

Page 17: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Módulos Perl◦ LWP::Simple◦ DBI◦ URI◦ HTML::Entities◦ Digest::SHA1

Extracción de información◦ Expresiones Regulares

Estructuras de datos◦ Listas

17

Page 18: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

emm_launcher.pl◦ Ejecuta diferentes configuraciones de emm.pl

emm.pl◦ Programa principal

NewsMonitor.pm◦ Definición de funciones y variables globales

18

Page 19: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Parámetros de entrada del programa◦ Idioma Principal◦ Idiomas Secundarios◦ Umbral de Semejanza

Unitarias◦ Probar funcionamiento de subprogramas antes de

añadirlos al programa principal. (Caja Negra) De Integración

◦ Probar programa principal al añadirle un subprograma.

19

Page 20: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

De Sistema◦ Comparación de los datos almacenados en la

base de datos con los que se encuentran en las páginas extraídas.

De Explotación◦ Problema al cambiar de servidor.◦ Personas con claves primarias iguales.

De Rendimiento◦ Expresiones regulares frente a parsers HTML.◦ Tamaño de columnas en la base de datos.

20

Page 21: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Procesos Planificado Real

Tácticos 50 60

Operativos 80 85

Formativos 115 145

Total 245 290

Desviación 18%

21

Page 22: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Incidencias principales◦ Falta de documentación.◦ Se estimó poco tiempo para desarrollar la

memoria.◦ Re-planificación de entregas.◦ Pensábamos terminar el proyecto en junio.

Otras asignaturas Cursos online Trabajo Inglés

22

Page 23: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Objetivos Cumplidos◦ Extraer datos de News Explorer◦ Almacenarlos en disco◦ Guardar registro log

El programa está en explotación

Mejoras futuras◦ Extraer información adicional◦ Obtener clústers relacionados en el mismo idioma◦ Guardar los datos en XML◦ Recuperar todo el cuerpo de las noticias (PF Máster)◦ Normalizar las fechas

23

Page 24: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Balance positivo del resultado◦ Objetivos cumplidos.◦ El programa lleva en funcionamiento desde

febrero de 2012 y será de utilidad para otros proyectos, entre los cuales de encuentran: OpeNER NewsReader SKATer Semantic Textual Similarity 2013

24

Proyectos Europeos

Proyecto Nacional (MEC)

Page 25: PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

Estado actual de la base de datos en el servidor.

Prueba de ejecución en local. emm_launcher.pl

◦ emm.pl en es fr it de nl 0.5◦ emm.pl nl en es fr it de 0.5◦ emm.pl de nl en es fr it 0.5◦ emm.pl it de nl en es fr 0.5◦ emm.pl fr it de nl en es 0.5◦ emm.pl es fr it de nl en 0.5

25