tesis doctoral - caracterización formal y análisis empírico de mecanismos incrementales de...

Post on 13-Jul-2015

314 Views

Category:

Education

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto

Universidad Nacional del Sur

Defensa Oral de Tesis

Doctor en Ciencias de la Computación

Carlos M. Lorenzetti

CONICET

Directores : Guillermo R. SimariAna G. Maguitman

Cambio de roles

Cambio de roles

Cambio de roles

Oportunidades

DDESAFÍOSESAFÍOS

AACCESIBILIDADCCESIBILIDAD

RRECURSOSECURSOS

AASISTENCIA SISTENCIA IINTELIGENTENTELIGENTE

Oportunidades

CPUCPU OOCIOSASCIOSAS

El problema del contextoEl problema del contexto

Cantidad de Cantidad de informacióninformación

El problema del contextoEl problema del contexto

ConsultaConsulta

ContextoContexto

El problema del contextoEl problema del contexto

Consultas basadas Consultas basadas en contextoen contexto

IIMPORTADOR DE CAFÉMPORTADOR DE CAFÉ

¿Variedades?¿Cualidades?

¿Exportadoras?

Búsqueda basada en contextoBúsqueda basada en contexto

TTTTTURISTAURISTAURISTAURISTAURISTA

¿Sitios de interés?

¿Historia?¿Historia?

¿Paquetes?

Búsqueda basada en contextoBúsqueda basada en contextoBúsqueda basada en contextoBúsqueda basada en contextoBúsqueda basada en contexto

EESTUDIANTESTUDIANTE

¿Ejemplos?

¿Comparación?

¿Sintaxis?

Búsqueda basada en contextoBúsqueda basada en contexto

Búsqueda basada en contextoBúsqueda basada en contexto

PPROBLEMASROBLEMAS

WWEBEB

CCOMPLEJIDADOMPLEJIDAD SSIGNIFICADOIGNIFICADO

FFORMULACIÓN DEORMULACIÓN DE

CCONSULTASONSULTAS

RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS

1.Consulta original

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

Refinamiento de consultas

1.Consulta original

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS

1.Consulta original

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

Refinamiento de consultas

RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS

1.Consulta original

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

Refinamiento de consultas

RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS

1.Consulta original

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación SupervisadaSupervisada● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

Refinamiento de consultas

RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS

1.Consulta original

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisadaNo supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

Refinamiento de consultas

RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS

1.Consulta original

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisadaSemi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

4.Mejora de la representación

5.Recuperación de mejores resultados

Refinamiento de consultas

RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS

1.Consulta original

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados5.Recuperación de mejores resultados

Refinamiento de consultas

RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS

1.Consulta original

2.Conjunto inicial de documentos

3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada

4.Mejora de la representación

5.Recuperación de mejores resultados

Refinamiento de consultas

OBJETIVOS

Proponer, investigar y evaluar nuevas técnicas Proponer, investigar y evaluar nuevas técnicas semisupervisadassemisupervisadas de IR orientadas a entender de IR orientadas a entender mejor las necesidades de los usuarios.mejor las necesidades de los usuarios.

Preguntas de investigaciónPreguntas de investigación

• ¿Puede el contexto del usuario explotarse para acceder a material relevante en la Web?

• ¿Pueden los términos específicos a un contexto ser refinados incrementalmente basándose en el análisis de los resultados de un motor de búsqueda?

• ¿Estos términos son mejores?

OBJETIVOS

1)Proponer un algoritmo semisupervisadoalgoritmo semisupervisado capaz de aprender incrementalmenteincrementalmente nuevos vocabularios con el propósito de mejorar consultas temáticas. El objetivo es que estas consultas reflejen la información información contextualcontextual y así puedan recuperar material relacionado semánticamentesemánticamente.

2)Desarrollar una plataformaplataforma para evaluar las técnicas de IR propuestas, así como otras técnicas existentes. Dicha plataforma es especialmente apta para el análisis de análisis de buscadores temáticosbuscadores temáticos y para incorporar métricas de evaluación novedosas basadas en las nociones de similitud semánticasimilitud semántica y relevancia parcialrelevancia parcial.

Nivel de información de un término en un conjunto de documentos.Poder descriptivo y discriminante de un término en un documento respecto de un conjunto de documentos.Conjunto predefinidos.Independientes de un contexto.Estudio basado en distribución a lo largo de los tópicos de las páginas recuperadas por un motor de búsqueda.

Distintos roles de los términos

• Descriptores● Términos que aparecen en la mayoríamayoría

de los documentos de un tópico¿Sobre qué trata el tópico?

• Discriminadores● Términos que aparecen sólosólo en los

documentos de un tópico¿Qué términos utilizo para encontrar información similar ?

Distintos roles de los términos

JavaJava

LanguageLanguage

AppletsApplets

CodeCode

Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java

NetBeansNetBeansComputersComputers

JVMJVM

RubyRuby ProgrammingProgramming

JDKJDK

VirtualVirtual

MachineMachine

Descriptores y discriminadores

JavaJava

LanguageLanguage

AppletsApplets

CodeCode

Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java

NetBeansNetBeansComputersComputers

JVMJVM

RubyRuby ProgrammingProgramming

JDKJDK

VirtualVirtual

MachineMachine Buenos descriptoresBuenos descriptores

Descriptores y discriminadores

JavaJava

LanguageLanguage

AppletsApplets

CodeCode

Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java

NetBeansNetBeansComputersComputers

JVMJVM

RubyRuby ProgrammingProgramming

JDKJDK

VirtualVirtual

MachineMachine

Buenos discriminadoresBuenos discriminadores

Descriptores y discriminadores

Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java

ContextoContextoInicialInicial

java 4

machine 2

virtual 1

language 1

programming 3

d 0

Descriptores y discriminadores

(1)(1) espressotec.comespressotec.com(2)(2) netbeans.orgnetbeans.org(3)(3) sun.comsun.com(4)(4) wikitravel.orgwikitravel.org

Número de Número de aparicionesapariciones del del término término kk

ii en el documento en el documento dd

jj

H [i , j ]= p

Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java

2 5 5 2

6 3 2 0

0 1 1 0

0 2 1 1

0 0 2 0

HH(1)(1) (2) (2) (3)(3) (4)(4)

java 4

machine 2

virtual 1

language 1

programming 3

d 0

Descriptores y discriminadores

(1)(1) espressotec.comespressotec.com(2)(2) netbeans.orgnetbeans.org(3)(3) sun.comsun.com(4)(4) wikitravel.orgwikitravel.org

Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java

2 5 5 2

6 3 2 0

0 1 1 0

0 2 1 1

0 0 2 0

3 0 0 3

4 0 0 2

4 0 0 1

0 2 1 0

0 3 3 0

HH(1)(1) (2) (2) (3)(3) (4)(4)

java 4

machine 2

virtual 1

language 1

programming 3

coffee 0

island 0

province 0

jvm 0

jdk 0

d 0

Número de Número de aparicionesapariciones del del término término kk

ii en el documento en el documento dd

jj

H [i , j ]= p

Descriptores y discriminadores

Poder Poder descriptivodescriptivo de un término de un término en un en un documentodocumento

java 4

machine 2

virtual 1

language 1

programming 3

coffee 0

island 0

province 0

jvm 0

jdk 0

0,718

0,359

0,180

0,180

0,539

0,000

0,000

0,000

0,000

0,000

0,447

0,500

0,577

0,500

0,577

0,000

0,000

0,000

0,000

0,000d j , k i=

s H [ i , j ]

∑h=0

m−1s H [ i , h ]

d j , k i=H [ i , j ]

∑k=0

n−1H [ i , j ]2

d 0 , k id 0 , k i

Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java

Poder Poder discriminantediscriminante de un de un término en un término en un documentodocumento

d 0

Descriptores y discriminadores

Función de similitud Función de similitud entre documentos entre documentos

Similitud por cosenoSimilitud por coseno

sim (d j , d k )=∑h=0

n−1

λ(d j , k h) .λ (d k , k h)

Similitud por cosenoSimilitud por cosenoSimilitud por cosenoSimilitud por cosenoSimilitud por coseno1

kk11

kk33kk22

dd22

dd11

α

Modelo de representación

Modelo vectorialModelo vectorial

Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java

javajava 4

machinemachine 2

virtual 1

language 1

programming 3

coffee 0

island 0

province 0

jvmjvm 0

jdkjdk 0

0,3850,385

0,1580,158

0,124

0,089

0,064

0,055

0,040

0,040

0,032

0,014

0,493

0,524

0,566

0,517

0,566

0,385

0,385

0,385

0,8480,848

0,8480,848

Poder Poder descriptivodescriptivo de un término en de un término en el tópico de un documentoel tópico de un documento

Λ(d j , k i)=∑h=0

h≠ j

m−1

sim (d j , dh ) .[ λ (dh ,k i)]2

∑h=0h≠ j

m−1

sim(d j ,d h)

d 0 , k i d 0 , k i

Poder Poder discriminantediscriminante de un término de un término en el tópico de un documentoen el tópico de un documento

Δ(d j , k i)=∑ h=0h≠ j

m−1

sim (d j , dh ) . [δ(d h , k i)]2

d 0

Descriptores y discriminadores

MÉTODO INCREMENTAL DE

RECUPERACIÓN DE INFORMACIÓNBASADO EN CONTEXTO

1

2

3

4

wm-1

wm

w8

w7

w6

w5w

4

w3

w2

w1

ContextoContexto

Términos

descriptores

discriminadores

w1 0.5

w2 0.25

.

.

.w

m 0.1

w1 0.4

w2 0.37

.

.

.w

m 0.01

resultado 01 consulta 01

resultado 02 consulta 02

resultado 03 consulta 03

resultado n consulta n

Método incremental de IRbasado en contexto

Términos

descriptores

discriminadores

w1 0.5

w2 0.25

.

.

.w

m 0.1

w1 0.4

w2 0.37

.

.

.w

m 0.01

resultado 01

resultado 02

resultado 03

resultado n

consulta 01

consulta 02

consulta 03

consulta n

1

2

3

4

wm-1

wm

w8

w7

w6

w5w

4

w3

w2

w1

ContextoContexto

Método incremental de IRbasado en contexto

descriptores

discriminadores

w1 0.5

w2 0.25

.

.

.w

m 0.1

w1 0.4

w2 0.37

.

.

.w

m 0.01

resultado 01

resultado 02

resultado 03

resultado n

consulta 01

consulta 02

consulta 03

consulta n

2

3

4

wm-1

wm

w8

w7

w6

w5w

4

w3

w2

w11

Términos

ContextoContexto

Método incremental de IRbasado en contexto

descriptores

discriminadores

w1 0.5

w2 0.25

.

.

.w

m 0.1

w1 0.4

w2 0.37

.

.

.w

m 0.01

resultado 01

resultado 02

resultado 03

resultado n

consulta 01

consulta 02

consulta 03

consulta n

2

3

4

1

Términos

wm-1

wm

w8

w7

w6

w5w

4

w3

w2

w1

ContextoContexto

Método incremental de IRbasado en contexto

descriptores

discriminadores

w1 0.5

w2 0.25

.

.

.w

m 0.1

w1 0.4

w2 0.37

.

.

.w

m 0.01

3

4 2

MMÉTRICASÉTRICAS

Términos

resultado 01 consulta 01

resultado 02 consulta 02

resultado 03 consulta 03

resultado n consulta n

wm-1

wm

w8

w7

w6

w5w

4

w3

w2

w1

Contexto1

Método incremental de IRbasado en contexto

Contexto

Términos

1

24

wm-1

wm

w8

w7

w6

w5w

4

w3

w2

w1

3

resultado 01 consulta 01

resultado 02 consulta 02

resultado 03 consulta 03

resultado n consulta n

descriptores

discriminadores

w1 0.5

w2 0.25

.

.

.w

m 0.1

w1 0.4

w2 0.37

.

.

.w

m 0.01

Método incremental de IRbasado en contexto

Términos

resultado 01

resultado 02

resultado 03

resultado n

consulta 01

consulta 02

consulta 03

consulta n

1

2

3

wm-1

wm

w8

w7

w6

w5w

4

w3

w2

w1

4

descriptores

discriminadores

w1 0.5

w2 0.25

.

.

.w

m 0.1

w1 0.4

w2 0.37

.

.

.w

m 0.01

ContextoContexto

descriptores

discriminadores

w1 0.5

w2 0.25

.

.

.w

m 0.1

w1 0.4

w2 0.37

.

.

.w

m 0.01

Método incremental de IRbasado en contexto

Términos

resultado 01 consulta 01

resultado 02 consulta 02

resultado 03 consulta 03

resultado n consulta n

1

2

3

4

wm-1

wm

w8

w7

w6

w5w

4

w3

w2

w1

ContextoContexto

descriptores

discriminadores

w1 0.5

w2 0.25

.

.

.w

m 0.1

w1 0.4

w2 0.37

.

.

.w

m 0.01

Método incremental de IRbasado en contexto

Alcances y aplicaciones1. Búsqueda basada en contexto

● Explotan la interacción del usuario con las aplicaciones en su computadora para determinar la tarea actual del usuario y poner en contexto sus necesidades de información.

2. Recuperación de recursos para portales temáticos● Tienen el propósito de reunir recursos sobre temas específicos. El material recolectado se utiliza para construir directorios y sitios de búsqueda especializados.

3. Búsqueda en la Web oculta●Se llama Web Oculta a las páginas generadas dinámicamente como el resultado de una consulta presentada a un formulario de búsqueda en sitios específicos.

4. Soporte para la administración y modelado del conocimiento

● Es el proceso mediante el cual se representa un cuerpo de conocimiento para facilitar su posterior acceso.

PPLATAFORMA DE LATAFORMA DE EEVALUACIÓNVALUACIÓN

consulta 01

consulta 03

consulta n

consulta 02

pedidos

documentos

representación

estadísticas

métricas

Plataforma de evaluación

pedidos

documentos

representación

estadísticas

métricasconsulta 01

consulta 03

consulta n

consulta 02

Plataforma de evaluación

consulta 01

consulta 02

consulta 03

consulta n

pedidos

documentos

representación

estadísticas

métricas

Plataforma de evaluación

Plataforma de evaluación

Plataforma de evaluación

HOGAR

ARTE DEPORTE

JARDINERIA

JARDINESJAPONESES

BONSAI YSUISEKI

COMPRAS

TOP

.....

CASA Y JARDIN

PLANTAS

ÁRBOLES

BONSAI

HISTORIA

JARDINESFAMOSOS

BOTÁNICOS

JARDINES

BONSAI enlace taxonómicoenlace simbólicoenlace relacionado

COCINA

350mil páginas

consulta 01

consulta 02

consulta 03

consulta n

pedidos

documentos

representación

estadísticas

métricas

Plataforma de evaluación

MMÉTRICASÉTRICAS

✔ PPRECISIÓNRECISIÓN

✔ CCOBERTURAOBERTURA

✔ SSIMILITUDIMILITUD

✔ SSIMILITUD NOVEDOSAIMILITUD NOVEDOSA

✔ PPRECISIÓN SEMÁNTICARECISIÓN SEMÁNTICA

✔ SSIMILITUD SEMÁNTICAIMILITUD SEMÁNTICA

Plataforma de evaluación

MMÉTRICASÉTRICAS

PPRECISIÓN Y RECISIÓN Y CCOBERTURAOBERTURA

Recuperados Relevantes

Espacio de documentosEspacio de documentos

RRAA

Plataforma de evaluación

MMÉTRICASÉTRICAS

PPRECISIÓN Y RECISIÓN Y CCOBERTURAOBERTURA

Recuperados Relevantes

Espacio de documentosEspacio de documentos

Recuperados relevantesRelevantesno recuperados

Recuperados no relevantes

RRAA

Plataforma de evaluación

MMÉTRICASÉTRICAS

PPRECISIÓN Y RECISIÓN Y CCOBERTURAOBERTURA

Recuperados Relevantes

Espacio de documentosEspacio de documentos

RRAA

P=∣A∩R∣∣A∣

C=∣A∩R∣∣R∣

Fβ=(β

2+1)P.C

C+β2 P

Plataforma de evaluación

MMÉTRICASÉTRICAS

SSIMILITUD Y IMILITUD Y SSIMILITUD NOVEDOSAIMILITUD NOVEDOSA

sim (d j , d k )=d⃗ j . d⃗ k∣⃗d j∣.∣⃗d k∣

simN(q ,d j , d k )=sim (⃗d j−q ,⃗ d k−q)

kk11

kk33kk22

dd22

dd11

Plataforma de evaluación

MMÉTRICASÉTRICAS

SSIMILITUD SEMÁNTICA Y IMILITUD SEMÁNTICA Y PPRECISIÓN SEMÁNTICARECISIÓN SEMÁNTICA

enlace taxonómicoenlace simbólicoenlace relacionado

HOGAR

ARTE DEPORTE

JARDINERIA

JARDINESJAPONESES

BONSAI YSUISEKI

COMPRAS

TOP

.....

CASA Y JARDIN

PLANTAS

ÁRBOLES

BONSAI

HISTORIA

JARDINESFAMOSOS

BOTÁNICOS

JARDINES

BONSAI

COCINA

Plataforma de evaluación

PS=∑d j∈A

simS (τ (C ) , τ(d j))

∣A∣

consulta 01

consulta 02

consulta 03

consulta n

pedidos

documentos

representación

estadísticas

métricas

Plataforma de evaluación

GGENÉTICO ENÉTICO MMONO Y ONO Y MMULTIOBJETIVOULTIOBJETIVO

IINCREMENTALNCREMENTAL

BBASEASE

BBOO1-DFR1-DFR y y BBOO11 SUPERVISADO SUPERVISADO

Plataforma de evaluación

EEVALUACIONESVALUACIONES

Sim

ilitu

d no

vedo

sa

Promedio sobre todos los tópicos evaluados

Evaluaciones

AALGORITMOLGORITMO I INCREMENTALNCREMENTAL

Cambio de fase

Formulación de consultas y recuperación de información

00.20.40.60.81

0

0.5

1

0

0.2

0.4

0.6

0.8

1

baseBo1

incr

emen

tal

EvaluacionesBaseBo1 (24%)Incremental (67%)

AALGORITMOLGORITMO I INCREMENTALNCREMENTAL

Precisión

00.20.40.60.81

0

0.5

1

0

0.2

0.4

0.6

0.8

1

baseBo1

incr

emen

tal

Precisión semántica

EvaluacionesAALGORITMOLGORITMO I INCREMENTALNCREMENTAL

BaseBo1 (28%)Incremental (65%)

00.050.10.150.20.250.30.350.4

0

0.1

0.2

0.3

0.4

0

0.2

0.4

0.6

0.8

1

baseBo1

incr

emen

tal

Similitud novedosa

EvaluacionesAALGORITMOLGORITMO I INCREMENTALNCREMENTAL

BaseBo1Incremental (100%)

NS

GA

-II

Bo1*

Base

Agr

ega

tivo

Bo1*

Base

Evaluaciones

Agregativo mejora a los demásNSGA-II mejora a los demás

Bo1* mejora a los demásBase mejora a los demás

AALGORITMOSLGORITMOS G GENÉTICOSENÉTICOS

Precisión

NS

GA

-II

Bo1*

Base

Agr

ega

tivo

Bo1*

Base

Evaluaciones

Agregativo mejora a los demásNSGA-II mejora a los demás

Bo1* mejora a los demásBase mejora a los demás

AALGORITMOSLGORITMOS G GENÉTICOSENÉTICOS

Cobertura

Conclusiones

➢ Herramienta de Recuperación de Información➔ Ayuda al usuario en la tarea que realiza➔ Soluciona el problema de sensibilidad semántica

• falsos-negativos (distinto vocabulario)• falsos-positivos (java)

➢ Plataforma de evaluación➔ Desarrollo, evaluación y comparación de

algoritmos➔ Nuevas métricas

Trabajo a futuro

➢ Clasificación de texto y clustering➔ Aplicación de las técnicas incrementales

➢ Nuevas métricas y estrategias➔ Mejorar el rendimiento

➢ Disponibilidad➔ Ampliación de la plataforma

Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto

Universidad Nacional del Sur

Carlos M. Lorenzetti

CONICET

Directores : Guillermo R. SimariAna G. Maguitman

¡MUCHAS GRACIAS!¡MUCHAS GRACIAS!

top related