Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto
Universidad Nacional del Sur
Defensa Oral de Tesis
Doctor en Ciencias de la Computación
Carlos M. Lorenzetti
CONICET
Directores : Guillermo R. SimariAna G. Maguitman
Cambio de roles
Cambio de roles
Cambio de roles
Oportunidades
DDESAFÍOSESAFÍOS
AACCESIBILIDADCCESIBILIDAD
RRECURSOSECURSOS
AASISTENCIA SISTENCIA IINTELIGENTENTELIGENTE
Oportunidades
CPUCPU OOCIOSASCIOSAS
El problema del contextoEl problema del contexto
Cantidad de Cantidad de informacióninformación
El problema del contextoEl problema del contexto
ConsultaConsulta
ContextoContexto
El problema del contextoEl problema del contexto
Consultas basadas Consultas basadas en contextoen contexto
IIMPORTADOR DE CAFÉMPORTADOR DE CAFÉ
¿Variedades?¿Cualidades?
¿Exportadoras?
Búsqueda basada en contextoBúsqueda basada en contexto
TTTTTURISTAURISTAURISTAURISTAURISTA
¿Sitios de interés?
¿Historia?¿Historia?
¿Paquetes?
Búsqueda basada en contextoBúsqueda basada en contextoBúsqueda basada en contextoBúsqueda basada en contextoBúsqueda basada en contexto
EESTUDIANTESTUDIANTE
¿Ejemplos?
¿Comparación?
¿Sintaxis?
Búsqueda basada en contextoBúsqueda basada en contexto
Búsqueda basada en contextoBúsqueda basada en contexto
PPROBLEMASROBLEMAS
WWEBEB
CCOMPLEJIDADOMPLEJIDAD SSIGNIFICADOIGNIFICADO
FFORMULACIÓN DEORMULACIÓN DE
CCONSULTASONSULTAS
RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
Refinamiento de consultas
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
Refinamiento de consultas
RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
Refinamiento de consultas
RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación SupervisadaSupervisada● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
Refinamiento de consultas
RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisadaNo supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
Refinamiento de consultas
RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisadaSemi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
4.Mejora de la representación
5.Recuperación de mejores resultados
Refinamiento de consultas
RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados5.Recuperación de mejores resultados
Refinamiento de consultas
RREFINAMIENTO DE EFINAMIENTO DE CCONSULTASONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia● Realimentación Supervisada● Realimentación No supervisada● Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
Refinamiento de consultas
OBJETIVOS
Proponer, investigar y evaluar nuevas técnicas Proponer, investigar y evaluar nuevas técnicas semisupervisadassemisupervisadas de IR orientadas a entender de IR orientadas a entender mejor las necesidades de los usuarios.mejor las necesidades de los usuarios.
Preguntas de investigaciónPreguntas de investigación
• ¿Puede el contexto del usuario explotarse para acceder a material relevante en la Web?
• ¿Pueden los términos específicos a un contexto ser refinados incrementalmente basándose en el análisis de los resultados de un motor de búsqueda?
• ¿Estos términos son mejores?
OBJETIVOS
1)Proponer un algoritmo semisupervisadoalgoritmo semisupervisado capaz de aprender incrementalmenteincrementalmente nuevos vocabularios con el propósito de mejorar consultas temáticas. El objetivo es que estas consultas reflejen la información información contextualcontextual y así puedan recuperar material relacionado semánticamentesemánticamente.
2)Desarrollar una plataformaplataforma para evaluar las técnicas de IR propuestas, así como otras técnicas existentes. Dicha plataforma es especialmente apta para el análisis de análisis de buscadores temáticosbuscadores temáticos y para incorporar métricas de evaluación novedosas basadas en las nociones de similitud semánticasimilitud semántica y relevancia parcialrelevancia parcial.
Nivel de información de un término en un conjunto de documentos.Poder descriptivo y discriminante de un término en un documento respecto de un conjunto de documentos.Conjunto predefinidos.Independientes de un contexto.Estudio basado en distribución a lo largo de los tópicos de las páginas recuperadas por un motor de búsqueda.
Distintos roles de los términos
• Descriptores● Términos que aparecen en la mayoríamayoría
de los documentos de un tópico¿Sobre qué trata el tópico?
• Discriminadores● Términos que aparecen sólosólo en los
documentos de un tópico¿Qué términos utilizo para encontrar información similar ?
Distintos roles de los términos
JavaJava
LanguageLanguage
AppletsApplets
CodeCode
Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java
NetBeansNetBeansComputersComputers
JVMJVM
RubyRuby ProgrammingProgramming
JDKJDK
VirtualVirtual
MachineMachine
Descriptores y discriminadores
JavaJava
LanguageLanguage
AppletsApplets
CodeCode
Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java
NetBeansNetBeansComputersComputers
JVMJVM
RubyRuby ProgrammingProgramming
JDKJDK
VirtualVirtual
MachineMachine Buenos descriptoresBuenos descriptores
Descriptores y discriminadores
JavaJava
LanguageLanguage
AppletsApplets
CodeCode
Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java
NetBeansNetBeansComputersComputers
JVMJVM
RubyRuby ProgrammingProgramming
JDKJDK
VirtualVirtual
MachineMachine
Buenos discriminadoresBuenos discriminadores
Descriptores y discriminadores
Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java
ContextoContextoInicialInicial
java 4
machine 2
virtual 1
language 1
programming 3
d 0
Descriptores y discriminadores
(1)(1) espressotec.comespressotec.com(2)(2) netbeans.orgnetbeans.org(3)(3) sun.comsun.com(4)(4) wikitravel.orgwikitravel.org
Número de Número de aparicionesapariciones del del término término kk
ii en el documento en el documento dd
jj
H [i , j ]= p
Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java
2 5 5 2
6 3 2 0
0 1 1 0
0 2 1 1
0 0 2 0
HH(1)(1) (2) (2) (3)(3) (4)(4)
java 4
machine 2
virtual 1
language 1
programming 3
d 0
Descriptores y discriminadores
(1)(1) espressotec.comespressotec.com(2)(2) netbeans.orgnetbeans.org(3)(3) sun.comsun.com(4)(4) wikitravel.orgwikitravel.org
Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java
2 5 5 2
6 3 2 0
0 1 1 0
0 2 1 1
0 0 2 0
3 0 0 3
4 0 0 2
4 0 0 1
0 2 1 0
0 3 3 0
HH(1)(1) (2) (2) (3)(3) (4)(4)
java 4
machine 2
virtual 1
language 1
programming 3
coffee 0
island 0
province 0
jvm 0
jdk 0
d 0
Número de Número de aparicionesapariciones del del término término kk
ii en el documento en el documento dd
jj
H [i , j ]= p
Descriptores y discriminadores
Poder Poder descriptivodescriptivo de un término de un término en un en un documentodocumento
java 4
machine 2
virtual 1
language 1
programming 3
coffee 0
island 0
province 0
jvm 0
jdk 0
0,718
0,359
0,180
0,180
0,539
0,000
0,000
0,000
0,000
0,000
0,447
0,500
0,577
0,500
0,577
0,000
0,000
0,000
0,000
0,000d j , k i=
s H [ i , j ]
∑h=0
m−1s H [ i , h ]
d j , k i=H [ i , j ]
∑k=0
n−1H [ i , j ]2
d 0 , k id 0 , k i
Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java
Poder Poder discriminantediscriminante de un de un término en un término en un documentodocumento
d 0
Descriptores y discriminadores
Función de similitud Función de similitud entre documentos entre documentos
Similitud por cosenoSimilitud por coseno
sim (d j , d k )=∑h=0
n−1
λ(d j , k h) .λ (d k , k h)
Similitud por cosenoSimilitud por cosenoSimilitud por cosenoSimilitud por cosenoSimilitud por coseno1
kk11
kk33kk22
dd22
dd11
α
Modelo de representación
Modelo vectorialModelo vectorial
Tópico: Máquina Virtual de JavaTópico: Máquina Virtual de Java
javajava 4
machinemachine 2
virtual 1
language 1
programming 3
coffee 0
island 0
province 0
jvmjvm 0
jdkjdk 0
0,3850,385
0,1580,158
0,124
0,089
0,064
0,055
0,040
0,040
0,032
0,014
0,493
0,524
0,566
0,517
0,566
0,385
0,385
0,385
0,8480,848
0,8480,848
Poder Poder descriptivodescriptivo de un término en de un término en el tópico de un documentoel tópico de un documento
Λ(d j , k i)=∑h=0
h≠ j
m−1
sim (d j , dh ) .[ λ (dh ,k i)]2
∑h=0h≠ j
m−1
sim(d j ,d h)
d 0 , k i d 0 , k i
Poder Poder discriminantediscriminante de un término de un término en el tópico de un documentoen el tópico de un documento
Δ(d j , k i)=∑ h=0h≠ j
m−1
sim (d j , dh ) . [δ(d h , k i)]2
d 0
Descriptores y discriminadores
MÉTODO INCREMENTAL DE
RECUPERACIÓN DE INFORMACIÓNBASADO EN CONTEXTO
1
2
3
4
wm-1
wm
w8
w7
w6
w5w
4
w3
w2
w1
ContextoContexto
Términos
descriptores
discriminadores
w1 0.5
w2 0.25
.
.
.w
m 0.1
w1 0.4
w2 0.37
.
.
.w
m 0.01
resultado 01 consulta 01
resultado 02 consulta 02
resultado 03 consulta 03
resultado n consulta n
Método incremental de IRbasado en contexto
Términos
descriptores
discriminadores
w1 0.5
w2 0.25
.
.
.w
m 0.1
w1 0.4
w2 0.37
.
.
.w
m 0.01
resultado 01
resultado 02
resultado 03
resultado n
consulta 01
consulta 02
consulta 03
consulta n
1
2
3
4
wm-1
wm
w8
w7
w6
w5w
4
w3
w2
w1
ContextoContexto
Método incremental de IRbasado en contexto
descriptores
discriminadores
w1 0.5
w2 0.25
.
.
.w
m 0.1
w1 0.4
w2 0.37
.
.
.w
m 0.01
resultado 01
resultado 02
resultado 03
resultado n
consulta 01
consulta 02
consulta 03
consulta n
2
3
4
wm-1
wm
w8
w7
w6
w5w
4
w3
w2
w11
Términos
ContextoContexto
Método incremental de IRbasado en contexto
descriptores
discriminadores
w1 0.5
w2 0.25
.
.
.w
m 0.1
w1 0.4
w2 0.37
.
.
.w
m 0.01
resultado 01
resultado 02
resultado 03
resultado n
consulta 01
consulta 02
consulta 03
consulta n
2
3
4
1
Términos
wm-1
wm
w8
w7
w6
w5w
4
w3
w2
w1
ContextoContexto
Método incremental de IRbasado en contexto
descriptores
discriminadores
w1 0.5
w2 0.25
.
.
.w
m 0.1
w1 0.4
w2 0.37
.
.
.w
m 0.01
3
4 2
MMÉTRICASÉTRICAS
Términos
resultado 01 consulta 01
resultado 02 consulta 02
resultado 03 consulta 03
resultado n consulta n
wm-1
wm
w8
w7
w6
w5w
4
w3
w2
w1
Contexto1
Método incremental de IRbasado en contexto
Contexto
Términos
1
24
wm-1
wm
w8
w7
w6
w5w
4
w3
w2
w1
3
resultado 01 consulta 01
resultado 02 consulta 02
resultado 03 consulta 03
resultado n consulta n
descriptores
discriminadores
w1 0.5
w2 0.25
.
.
.w
m 0.1
w1 0.4
w2 0.37
.
.
.w
m 0.01
Método incremental de IRbasado en contexto
Términos
resultado 01
resultado 02
resultado 03
resultado n
consulta 01
consulta 02
consulta 03
consulta n
1
2
3
wm-1
wm
w8
w7
w6
w5w
4
w3
w2
w1
4
descriptores
discriminadores
w1 0.5
w2 0.25
.
.
.w
m 0.1
w1 0.4
w2 0.37
.
.
.w
m 0.01
ContextoContexto
descriptores
discriminadores
w1 0.5
w2 0.25
.
.
.w
m 0.1
w1 0.4
w2 0.37
.
.
.w
m 0.01
Método incremental de IRbasado en contexto
Términos
resultado 01 consulta 01
resultado 02 consulta 02
resultado 03 consulta 03
resultado n consulta n
1
2
3
4
wm-1
wm
w8
w7
w6
w5w
4
w3
w2
w1
ContextoContexto
descriptores
discriminadores
w1 0.5
w2 0.25
.
.
.w
m 0.1
w1 0.4
w2 0.37
.
.
.w
m 0.01
Método incremental de IRbasado en contexto
Alcances y aplicaciones1. Búsqueda basada en contexto
● Explotan la interacción del usuario con las aplicaciones en su computadora para determinar la tarea actual del usuario y poner en contexto sus necesidades de información.
2. Recuperación de recursos para portales temáticos● Tienen el propósito de reunir recursos sobre temas específicos. El material recolectado se utiliza para construir directorios y sitios de búsqueda especializados.
3. Búsqueda en la Web oculta●Se llama Web Oculta a las páginas generadas dinámicamente como el resultado de una consulta presentada a un formulario de búsqueda en sitios específicos.
4. Soporte para la administración y modelado del conocimiento
● Es el proceso mediante el cual se representa un cuerpo de conocimiento para facilitar su posterior acceso.
PPLATAFORMA DE LATAFORMA DE EEVALUACIÓNVALUACIÓN
consulta 01
consulta 03
consulta n
consulta 02
pedidos
documentos
representación
estadísticas
métricas
Plataforma de evaluación
pedidos
documentos
representación
estadísticas
métricasconsulta 01
consulta 03
consulta n
consulta 02
Plataforma de evaluación
consulta 01
consulta 02
consulta 03
consulta n
pedidos
documentos
representación
estadísticas
métricas
Plataforma de evaluación
Plataforma de evaluación
Plataforma de evaluación
HOGAR
ARTE DEPORTE
JARDINERIA
JARDINESJAPONESES
BONSAI YSUISEKI
COMPRAS
TOP
.....
CASA Y JARDIN
PLANTAS
ÁRBOLES
BONSAI
HISTORIA
JARDINESFAMOSOS
BOTÁNICOS
JARDINES
BONSAI enlace taxonómicoenlace simbólicoenlace relacionado
COCINA
350mil páginas
consulta 01
consulta 02
consulta 03
consulta n
pedidos
documentos
representación
estadísticas
métricas
Plataforma de evaluación
MMÉTRICASÉTRICAS
✔ PPRECISIÓNRECISIÓN
✔ CCOBERTURAOBERTURA
✔ SSIMILITUDIMILITUD
✔ SSIMILITUD NOVEDOSAIMILITUD NOVEDOSA
✔ PPRECISIÓN SEMÁNTICARECISIÓN SEMÁNTICA
✔ SSIMILITUD SEMÁNTICAIMILITUD SEMÁNTICA
Plataforma de evaluación
MMÉTRICASÉTRICAS
PPRECISIÓN Y RECISIÓN Y CCOBERTURAOBERTURA
Recuperados Relevantes
Espacio de documentosEspacio de documentos
RRAA
Plataforma de evaluación
MMÉTRICASÉTRICAS
PPRECISIÓN Y RECISIÓN Y CCOBERTURAOBERTURA
Recuperados Relevantes
Espacio de documentosEspacio de documentos
Recuperados relevantesRelevantesno recuperados
Recuperados no relevantes
RRAA
Plataforma de evaluación
MMÉTRICASÉTRICAS
PPRECISIÓN Y RECISIÓN Y CCOBERTURAOBERTURA
Recuperados Relevantes
Espacio de documentosEspacio de documentos
RRAA
P=∣A∩R∣∣A∣
C=∣A∩R∣∣R∣
Fβ=(β
2+1)P.C
C+β2 P
Plataforma de evaluación
MMÉTRICASÉTRICAS
SSIMILITUD Y IMILITUD Y SSIMILITUD NOVEDOSAIMILITUD NOVEDOSA
sim (d j , d k )=d⃗ j . d⃗ k∣⃗d j∣.∣⃗d k∣
simN(q ,d j , d k )=sim (⃗d j−q ,⃗ d k−q)
kk11
kk33kk22
dd22
dd11
Plataforma de evaluación
MMÉTRICASÉTRICAS
SSIMILITUD SEMÁNTICA Y IMILITUD SEMÁNTICA Y PPRECISIÓN SEMÁNTICARECISIÓN SEMÁNTICA
enlace taxonómicoenlace simbólicoenlace relacionado
HOGAR
ARTE DEPORTE
JARDINERIA
JARDINESJAPONESES
BONSAI YSUISEKI
COMPRAS
TOP
.....
CASA Y JARDIN
PLANTAS
ÁRBOLES
BONSAI
HISTORIA
JARDINESFAMOSOS
BOTÁNICOS
JARDINES
BONSAI
COCINA
Plataforma de evaluación
PS=∑d j∈A
simS (τ (C ) , τ(d j))
∣A∣
consulta 01
consulta 02
consulta 03
consulta n
pedidos
documentos
representación
estadísticas
métricas
Plataforma de evaluación
GGENÉTICO ENÉTICO MMONO Y ONO Y MMULTIOBJETIVOULTIOBJETIVO
IINCREMENTALNCREMENTAL
BBASEASE
BBOO1-DFR1-DFR y y BBOO11 SUPERVISADO SUPERVISADO
Plataforma de evaluación
EEVALUACIONESVALUACIONES
Sim
ilitu
d no
vedo
sa
Promedio sobre todos los tópicos evaluados
Evaluaciones
AALGORITMOLGORITMO I INCREMENTALNCREMENTAL
Cambio de fase
Formulación de consultas y recuperación de información
00.20.40.60.81
0
0.5
1
0
0.2
0.4
0.6
0.8
1
baseBo1
incr
emen
tal
EvaluacionesBaseBo1 (24%)Incremental (67%)
AALGORITMOLGORITMO I INCREMENTALNCREMENTAL
Precisión
00.20.40.60.81
0
0.5
1
0
0.2
0.4
0.6
0.8
1
baseBo1
incr
emen
tal
Precisión semántica
EvaluacionesAALGORITMOLGORITMO I INCREMENTALNCREMENTAL
BaseBo1 (28%)Incremental (65%)
00.050.10.150.20.250.30.350.4
0
0.1
0.2
0.3
0.4
0
0.2
0.4
0.6
0.8
1
baseBo1
incr
emen
tal
Similitud novedosa
EvaluacionesAALGORITMOLGORITMO I INCREMENTALNCREMENTAL
BaseBo1Incremental (100%)
NS
GA
-II
Bo1*
Base
Agr
ega
tivo
Bo1*
Base
Evaluaciones
Agregativo mejora a los demásNSGA-II mejora a los demás
Bo1* mejora a los demásBase mejora a los demás
AALGORITMOSLGORITMOS G GENÉTICOSENÉTICOS
Precisión
NS
GA
-II
Bo1*
Base
Agr
ega
tivo
Bo1*
Base
Evaluaciones
Agregativo mejora a los demásNSGA-II mejora a los demás
Bo1* mejora a los demásBase mejora a los demás
AALGORITMOSLGORITMOS G GENÉTICOSENÉTICOS
Cobertura
Conclusiones
➢ Herramienta de Recuperación de Información➔ Ayuda al usuario en la tarea que realiza➔ Soluciona el problema de sensibilidad semántica
• falsos-negativos (distinto vocabulario)• falsos-positivos (java)
➢ Plataforma de evaluación➔ Desarrollo, evaluación y comparación de
algoritmos➔ Nuevas métricas
Trabajo a futuro
➢ Clasificación de texto y clustering➔ Aplicación de las técnicas incrementales
➢ Nuevas métricas y estrategias➔ Mejorar el rendimiento
➢ Disponibilidad➔ Ampliación de la plataforma
Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto
Universidad Nacional del Sur
Carlos M. Lorenzetti
CONICET
Directores : Guillermo R. SimariAna G. Maguitman
¡MUCHAS GRACIAS!¡MUCHAS GRACIAS!