almacenamiento y recuperación de información en la web recuperación de información (ir) parte i:...
TRANSCRIPT
![Page 1: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/1.jpg)
Almacenamiento y recuperación de información en la Web
Recuperación de Información (IR)
Parte I: Introducción a IR en la WebParte II: Modelos clásicos de IRParte III: Evaluación de la recuperación
![Page 2: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/2.jpg)
Almacenamiento y recuperación de información en la Web
Introducción a IR en la web
Parte I
Almacenamiento y recuperación de información en la Web
Broder, A. and Henzinger, M. 2002. Algorithmic aspects of information retrieval on the web. Handbook of Massive Data Sets, J. Abello, P. M. Pardalos, and M. G. Resende, Eds. Kluwer Academic Publishers, Norwell, MA, 3-23.
![Page 3: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/3.jpg)
IR: Contexto
• Problema– Un usuario trata de satisfacer una determinada necesidad de
información en un conjunto de documentos• Método
– El usuario efectúa una consulta a través de un sistema de IR sobre el conjunto de documentos
• Objetivo– El sistema de IR trata de recuperar aquellos documentos
relevantes para satisfacer las necesidades de información del usuario
Almacenamiento y recuperación de información en la Web
![Page 4: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/4.jpg)
IR: tareas
• Sistema– Procesar la información para construir una estructura de datos interna que
permita un acceso a los docs– Procesar las búsquedas, buscar en el conjunto de documentos– Ordenar los resultados
• Per-sé• Combinados (sistemas de recomendación), etc.
• Usuario– Recuperación de documentos
• Ad hoc: Qs sobre docs estáticos• Filtrado: Qs estables sobre docs dinámicos
– Perfiles de usurario– Clasificación de docs
– Navegado
Almacenamiento y recuperación de información en la Web
![Page 5: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/5.jpg)
IR en la Web
• Variante moderna de la IR clásica– búsqueda en repositorios de información
• Dos grandes diferencias:– El conjunto de documentos accesibles: todas las páginas web
públicas– El objetivo: proporcionar una selección de páginas
(documentos) de calidad para el usuario
• Estas diferencias se pueden analizar desde dos puntos de vista:– Diferencias en los documentos– Diferencias en los usuarios
Almacenamiento y recuperación de información en la Web
![Page 6: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/6.jpg)
Web IR: diferencias respecto de los documentos, I
• Hipertexto– Los documentos web contienen enlaces ( 10/doc)– Contienen estructuras HTML– Ambas características pueden ayudar a mejorar los algoritmos de
clasificación• Heterogeneidad
– Tipos de documentos: texto, multimedia, generación dinámica, etc.– Calidad: dificulta la búsqueda– Idioma:
• Hay más de 100 idiomas diferentes en la Web, • Dificultad aplicación de técnicas (enraizado, etc.)
• Número de documentos indexados: – 1 billón de docs, crecimiento 10% mensual– (2004) Teoría de los 4 bytes 4K millones tope
Almacenamiento y recuperación de información en la Web
![Page 7: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/7.jpg)
Web IR: diferencias respecto de los documentos, II
• Estabilidad:– La Web se modifica constantemente (crecimiento y modificación de contenidos)– Datos: 20% de páginas se modifican a diario (Cho 1999)
• Duplicación:– Aproximadamente el 20% de los docs en la web son duplicados de otros (Broder
1997)– Basta con recuperar una de las páginas duplicadas
• Discontinuidad del texto:– En IR clásica, el texto se asume continuo– En web IR, los docs contienen enlaces, imágenes, gráficos, y carecen con
frecuencia de texto continuo.• Estadísticas: Las estadísticas sobre la popularidad de una página o una
consulta pueden servir para mejorar los algoritmos de clasificación
Almacenamiento y recuperación de información en la Web
![Page 8: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/8.jpg)
• Los documentos se representan como un continuo. Su vista lógica puede variar.
structure
Accentsspacing stopwords
Noungroups stemming
Manual indexingDocs
structure Full text
Index terms
Vista lógica de los documentos
Text + structure Text
![Page 9: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/9.jpg)
Web IR: diferencias respecto de los usuarios, I
• En IR clásica: – Usuario:
• perfil de bibliotecario/investigador experto/conocedor de la materia sobre la que busca información
• efectúa consultas complejas • reformula consultas dependiendo de los
resultados
Almacenamiento y recuperación de información en la Web
![Page 10: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/10.jpg)
Web IR: diferencias respecto de los usuarios, II
• En web IR:– Usuarios muy heterogéneos en educación y conocimientos de la web – Búsquedas cortas e imprecisas– El 80% no usa operadores– El 85% sólo analiza los 10 primeros resultados (de miles)– El 78% no reformula las búsquedas
• (fuente: log de seis semanas en AltaVista. Silverstein 1998)– Simplificaciones de los problemas de web IR
• Variedad de herramientas: múltiples buscadores, diccionarios, tesauros, etc.• La publicación en la web sucede mucho más rápido que en los métodos clásicos.
Información en tiempo real.• Navegación: El usuario puede obtener la información buscada a través de una
página obtenida con su búsqueda
Almacenamiento y recuperación de información en la Web
![Page 11: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/11.jpg)
Herramientas para Web IR• Buscadores de propósito general
– Google, Yahoo, Altavista, AllTheWeb, Excite, …– Motores de búsqueda indirecta (meta-search engines) MetaCrawler,
DogPile, …• Directorios jerárquicos
– Yahoo, dmoz– Niveles jerárquicos con categorías
• Buscadores especializados– PubMed (publicaciones en medicina), robots comerciales (búsqueda
de productos, ofertas, etc. Válidos para contenidos dinámicos)• Otros paradigmas de búsqueda
– Search-by-example, filtros colaborativos, etc.
Almacenamiento y recuperación de información en la Web
![Page 12: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/12.jpg)
UserInterface
Text Operations
Query Operations Indexing
Searching
Ranking
Index
Text
query
user need
user feedback
ranked docs
retrieved docs
logical viewlogical view
inverted file
DB Manager Module
4, 10
6, 7
5 8
2
8
Text Database
Text
El proceso de recuperaciónTomada de http://people.ischool.berkeley.edu/~hearst/irbook/
![Page 13: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/13.jpg)
Almacenamiento y recuperación de información en la Web
Modelos clásicos de IR
![Page 14: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/14.jpg)
IR: taxonomía de modelos(independiente del contexto)
Almacenamiento y recuperación de información en la Web
![Page 15: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/15.jpg)
Modelos IR
Index Terms Full Text Full Text +Structure
RetrievalClassic
Set TheoreticAlgebraic
Probabilistic
ClassicSet Theoretic
AlgebraicProbabilistic
Structured
Browsing FlatFlat
HypertextStructure Guided
Hypertext
LOGICAL VIEW OF DOCUMENTS
USER
TASK
![Page 16: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/16.jpg)
Caracterización formal de los modelos de IR, I
• Un modelo de IR es una cuádrupla
• D: Conjunto de vistas lógicas (representaciones) de los docs de la colección
• Q: Conjunto de vistas lógicas de las necesidades del usuario: queries– Necesito información sobre el Ironman de Lanzarote
• European Ironman Competitions
• F: Marco para modelizar docs, queries y sus relaciones– Modelo vectorial: espacios vectoriales y álgebra– Modelo probabilístico: teoría de la probabilidad, modelos bayesianos, etc.
• Función de clasificación. Define un orden entre los docs con respecto a las queries
Almacenamiento y recuperación de información en la Web
( , , , ( , ))i jD Q F R q d
( , )i jR q d
![Page 17: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/17.jpg)
Caracterización formal de los modelos de IR, II
• Términos: palabras clave que describen semánticamente el tema principal del doc– suelen ser nombres– verbos, adverbios, adjetivos, complementos, etc. Son menos útiles
aunque se usan en IR en la web– Llevan asociados pesos que representan la relevancia del mismo en la
colección• Ej. Colección con 100 docs
– si pertenece a 100 --> peso nulo– si pertenece a 5 --> peso alto
Almacenamiento y recuperación de información en la Web
: /
:
: ( , )
i
j
ij i j
k indice termino
d doc
w peso k d
![Page 18: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/18.jpg)
Caracterización formal de los modelos de IR, III
• Se asume independencia entre los pesos
– simplifica la obtención de clasificaciones de docs– existen técnicas modernas de IR basadas en correlación de términos
Almacenamiento y recuperación de información en la Web
1, , tK k k Conjunto de todos los terminos
1 , ,j j tj jd w w pesos de terminos del doc d @@@@@@@@@@@@@@
0ij i jw si k d @@@@@@@@@@@@@@
i j ij i jg d w peso del termino k en d@@@@@@@@@@@@@@@@@@@@@@@@@@@@
1ij i jw no influye en w
![Page 19: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/19.jpg)
Modelo Booleano I
• Booleano (Lógico)– Basado en la Tª de Conjuntos y en álgebra de Boole– Semántica precisa: devuelve los documentos que contienen al
menos un término de la búsqueda– Formalismo bien definido
• Permite el uso de los operadores lógicos and, or y not• Ejemplo
– Query q:– forma normal disyuntiva de q: – componente conjunctiva de q:
– Desventajas• Recuperación muy restrictiva basada en un criterio de selección binario
(presente/ausente)
• Cardinalidad del conjunto recuperado– Muy pequeña o muy grande
Almacenamiento y recuperación de información en la Web
0,1ijw
1,1,1 1,1,0 1,0,0dnfq
1,1,0ccq
a b cq k k k
![Page 20: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/20.jpg)
Modelo Booleano, IISimilaridades
(1,1,1)
(1,0,0)(1,1,0)
Ka Kb
Kc
a b cq k k k
1 | , ( ) ( )( , )
0
i i j icc cc dnf ccj
q q q k g d g qsim d q
resto
1,1,1 1,1,0 1,0,0dnfq
1,1,0ccq
![Page 21: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/21.jpg)
Modelo Vectorial
• Considera un espacio vectorial n-dimensional con una dimensión por cada término de la búsqueda
• Cada doc o query se representa como un vector del espacio• Un término
– presente en un doc representa una componente > 0• Se admiten coincidencias parciales (pesos no binarios)
– ausente en un doc representa una componente = 0• El peso de la componente
– se incrementa con la frecuencia del término– se decrementa con el número de docs en que aparece
• Los pesos proporcionan un índice de similaridad• La clasificación final es decreciente por similaridad• Desventaja: hipótesis de independencia entre términos
Almacenamiento y recuperación de información en la Web
![Page 22: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/22.jpg)
Vectorial, IISimilaridad doc - q
Almacenamiento y recuperación de información en la Web
1, ,
1, ,
, ,1
2 2, ,
1 1
( ,..., )
( ,..., )
( , ) cos
j j t j
q t q
t
i j i qj i
j t tj
i j i qi i
d w w
q w w
w wd q
sim d qd q
w w
@@@@@@@@@@@@@@
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@@@@@@@@@@@@@@@@@@@@@@@@@@@@
![Page 23: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/23.jpg)
Vectorial, IIIDeterminación de pesos
• Obtención de pesos de documentos y queries– C = Conjunto de documentos– A = Clase de docs descritos por la query– Cuestiones a resolver en un problema de clasificación:
• Determinación de las características que mejor describen los objetos en A
– similaridad intra-cluster• Determinación de las características que mejor diferencian los
objetos en A de los que permanecen en C– disimilaridad inter-cluster
– Los métodos algorítmicos más comunes tratan de llegar a un balance entre ambas
• Esquema tf - idf
Almacenamiento y recuperación de información en la Web
cA
![Page 24: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/24.jpg)
Vectorial, IVClasificación similaridades
• Factor tf (term frequency)– Similaridad intra-cluster– Se cuantifica midiendo la frecuencia de
un término en un documento– Representa una medida de la bondad de
representación de un doc por un término
• Factor idf (inverse doc frequency)– Disimilaridad inter-cluster– Se cuantifica midiendo el inverso de la
frecuencia de un término entre los docs de la colección
– Los términos que aparecen en múltiples docs no suelen ser útiles para distinguir docs relevantes de los no relevantes
Almacenamiento y recuperación de información en la Web
i i
i,j i j
i,ji j
l,j
i j
j
N: Total de docs en el sistema
n : Docs con termino k
freq : frecuencia de k en d
freqk d
max freq
0 k d
El max se calcula para todos los terminos del doc d
ij lf
i i
i
N: Total de docs en el sistema
n : Docs con termino k
logni
Nidf
![Page 25: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/25.jpg)
Vectorial, VEjemplo esquema tf-idf
• Query q– “gold silver truck”
• D1 – “Shipment of gold damaged in a fire”
• D2– ”Delivery of silver arrived in a silver truck”
• D3– ”Shipment of gold arrived in a truck”
,
,
log logmax
i jij ij j ij
i il l j
freqN Nw tf idf f
n nfreq
Almacenamiento y recuperación de información en la Web
![Page 26: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/26.jpg)
Vectorial, VIIEsquema Salton-Buckley (1988)
• Pesos de los términos en las búsquedas
i,q
il,q
0,5·freq N0,5
max freqij
l
w Logn
2
1
( 1)·
( 1)·
ij jij t
ij jj
Log tf idfw
Log tf idf
Almacenamiento y recuperación de información en la Web
Salton G, Buckley C. Term-weighting approaches in automatic retrieval. Information Processing & Management, 24(5): 513-523, 1988.
![Page 27: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/27.jpg)
Vectorial, VIIIOtras medidas de Similaridad doc-term
Almacenamiento y recuperación de información en la Web
1
( , )t
i qj ijj
SC Q D w w
1
2 2
1 1
2
( , )
t
qj ijj
i t t
ij qjj j
w w
SC Q Dw w
1
2 2
1 1 1
( , )
t
qj ijj
i t t t
ij qj qj ijj j j
w w
SC Q Dw w w w
Coeficiente de Similaridad Estándar
Coeficiente de Similaridad deDice
Coeficiente de Similaridad deJaccard
![Page 28: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/28.jpg)
Introducción, I
• [Robertson-Sparck Jones] Relevance Weighting of Search Terms. Jrnl. of the American Society for Information Science. (Mayo 1976)
• Fundamentos– Trata de recuperar el conjunto ideal R de docs relevantes para una
consulta q, el cual se asume que existe como subconjunto del total– La consulta del usuario, q, se interpreta como una especificación de las
propiedades de este conjunto ideal de respuesta– R se obtiene mediante una estimación inicial, mejorando a posteriori
mediante refinamientos del usuario• El usuario inspecciona los docs buscando los relevantes (en la práctica sólo
se inspeccionan los top 10-20)• Se espera que el conjunto respuesta ideal vaya mejorando en sucesivos
refinamientos
Almacenamiento y recuperación de información en la Web
![Page 29: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/29.jpg)
El Principio Probabilidad de Ranking [Robertson, 1977]
• Proposición: La recuperación óptima se alcanza cuando, para una consulta dada, los documentos se ordenan de forma decreciente de acuerdo a una probabilidad de relevancia.– El modelo asume que existe un subconjunto ideal (R) de todos los docs
preferidos por el usuario para una q.– El modelo trata de encontrar dicha probabilidad de relevancia para
una q y cada doc de la colección, la cual debe ser la máxima posible.– La probabilidad de relevancia se obtiene a partir de las probabilidades
de los términos de una q que aparecen en un documento.• Si el término A está presente en q y en el doc D, existe una probabilidad de que el
doc sea relevante para dicha q• Esta hipótesis, extendida al resto de términos y suponiendo independencia entre
ellos, proporciona la probabilidad de relevancia como el producto de los pesos de cada término
Robertson, SE. The probability Ranking Principle in IR. Jrnl. Of Documentation 33. 1977.
Almacenamiento y recuperación de información en la Web
![Page 30: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/30.jpg)
Modelos clásicos: clasificación• En función de los parámetros de aprendizaje
– Aprendizaje basado en la query• Modelo probabilístico de Spark-Jones Binary Independence Retrieval Model (BIR).
– Aprendizaje basado en el documento• Juicios de relevancia para cada documento a partir de un conjunto de queries.• Binary Independence Indexing Model (BII)
– Aprendizaje basado en la descripción• Introduce el concepto de descripcion de relevancia.• Contiene valores de ciertas características de los objetos a considerar (docs, términos, queries)• Darmstadt Indexing Approach.
• En función de la naturaleza de las hipótesis realizadas– Aproximaciones orientadas al modelo
• Hipótesis de independencia sobre los elementos representados (BIR)
– Aproximaciones orientadas a la descripción: entrenamiento de funciones de clasificación a partir de representaciones consulta-doc y sus juicios de relevancia.
• Retrieval with probabilistic indexing model (RPI)
• En función de la representación de doc y queries– Optimización de la calidad de recuperación fijada la representación (BIR)– Modelos con representaciones más precisas de queries y docs
Almacenamiento y recuperación de información en la Web
![Page 31: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/31.jpg)
Binary Independence Retrieval Model (BIR)Robertson-Spark Jones 1976
• Trata de estimar la probabilidad de que dm sea calificado relevante respecto a qk:
• Hipótesis de clases: Los términos se distribuyen de manera diferente en los docs relevantes y no relevantes [Rijsbergen y Jones 1976]
• Hipótesis de términos de la consulta: Toda consulta se compone únicamente de un conjunto de términos del total.
Almacenamiento y recuperación de información en la Web
( | , )k mP R q d
![Page 32: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/32.jpg)
• Hipótesis Independencia– I1: La distribución de términos en docs relevantes es
independiente y la distribución en todos los docs también– I2: La distribución de términos en docs relevantes es
independiente y la distribución en los docs no relevantes también
• Hipótesis de orden– O1: La probabilidad de relevancia se fundamenta sólo en la
presencia de términos de búsqueda en los documentos– O2: La probabilidad de relevancia se fundamenta tanto en la
presencia de términos de búsqueda en los documentos como en su ausencia
Almacenamiento y recuperación de información en la Web
Binary Independence Retrieval ModelRobertson-Spark Jones 1976
![Page 33: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/33.jpg)
BIR ModelClasificación, I
Almacenamiento y recuperación de información en la Web
( | )
( | )
j
j
Sean:
R: conjunto de docs relevantes (conocido o estimado)
R: conjunto de docs no relevantes
Definimos:
P R d P de que un documento dado es relevante para q
P R d P de que un documento dado n
@@@@@@@@@@@@@@
@@@@@@@@@@@@@@
( | )
( | )
i i
i i
o es relevante para q
P k R P de que k esté en un doc escogido aleatoriamente de R
P k R P de que k no esté en un doc escogido aleatoriamente de R
P(R) P de que un doc escogido aleatoriamente de la colección sea de R
P( R ) P de que un doc escogido aleatoriamente de la colección no sea de R
![Page 34: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/34.jpg)
BIR ModelClasificación, II
Almacenamiento y recuperación de información en la Web
( ) 1 ( ) 0
( ) 1 ( ) 0
( ) 1 ( ) 0
( | ) ( | ). ( ) ( | )( , )
( | ) ( | ). ( ) ( | )
( | )· ( | )( | ) ( | )
( | )· ( | ) ( | ) ( | )i j i j
i j i j
i j i j
j j jj
j j j
i ig d g d i i
g d g di i i ig d g d
P R d P d R P R P d Rsim d q
P R d P d R P R P d R
P k R P k RP k R P k R
P k R P k R P k R P k R
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
( | ) ( | ) ( | ) ( | )· log log
1 ( | ) 1 ( | )( | ) 1 ( | )
( | ) ( | )
i ji j i j
i i i iiq ij
t d qt d q t d qi ii i
Ti i k
P k R P k R P k R P k Rw w
P k R P k RP k R P k R
P k R P k R si t q
Bayes A priori ( ) ( )P R P R
![Page 35: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/35.jpg)
BIR ModelCalculo de pesos de los términos, I
• Estimación inicial (sin docs recuperados. I1+O1)– Estimaciones basadas en simplificaciones
( | ) [3]
( | ) [4]
ii
i ii
VP k R
Vn V
P k RN V
Almacenamiento y recuperación de información en la Web
( | ) 0,5 (constante) [1]
( | ) ( numero docs con . , total de docs) [2]
i
ii i i
P k R
nP k R n k N
N
• Mejora. Definimos:– V : conjunto de documentos relevantes inicialmente– Vi : subconjunto de docs relevantes que contienen ki
– Re-evaluar estimaciones
– Repetir recursivamente, mejorando en cada iteración las estimaciones
![Page 36: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/36.jpg)
BIR ModelCalculo de pesos de los términos, II
• Dificultad:– Si V y Vi son pequeños (ej. V=1, Vi=0), [3] y [4] dan problemas. Se definen
entonces:
in
N
( | )1
( | )1
ii
i
ii i
i
nV
NP k RV
nn V
NP k RN V
Almacenamiento y recuperación de información en la Web
0,5( | ) [5]
10,5
( | ) [6]1
ii
i ii
VP k R
Vn V
P k RN V
– Otra alternativa, más satisfactoria, consiste en añadir la fracción
![Page 37: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/37.jpg)
BIR ModelEjemplo, I
Almacenamiento y recuperación de información en la Web
-Los pesos son estimaciones basadas en datos de entrenamiento
- Se supone que cuando el usuario formula una q el modelo está entrenado
1 2 3Dada ( , , )q k k k• Query q
– “gold silver truck”• D1
– “Shipment of gold damaged in a fire”• D2
– ”Delivery of silver arrived in a silver truck”• D3
– ”Shipment of gold arrived in a truck”
![Page 38: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/38.jpg)
BIR ModelEjemplo, II
pesos docs a arrived damaged delivery fire gold in of shipment silver truck
wi1 D1 1 0 1 0 1 1 1 1 1 0 0
wi2 D2 1 1 0 1 0 0 1 1 0 1 1
wi3 D3 1 1 0 0 0 1 1 1 1 0 1Frecuencia 3 2 1 1 1 3 3 3 2 1 3
wq q 0 0 0 0 0 1 0 0 0 1 1
Almacenamiento y recuperación de información en la Web
Matriz de frecuencias términos-documentos
![Page 39: Almacenamiento y recuperación de información en la Web Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos](https://reader033.vdocuments.mx/reader033/viewer/2022061301/54d769d54979596c658b5e9d/html5/thumbnails/39.jpg)
BIR ModelDesventajas
• Desventajas de modelo– Necesidad de separar inicialmente docs relevantes y no
relevantes.– Pesos binarios. No se considera la frecuencia de los
términos en los docs.– Hipótesis de independencia entre términos. No está claro
que sea una mala opción.
Almacenamiento y recuperación de información en la Web