Fusión de Anotaciones de Información Multimedia: Recuperación de Texto e Imágenes
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Rubén Granados [email protected]
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 2 de 23
Contenidos
1. Presentación Información Multimedia Recuperación Multimedia de Imágenes Multimedia Semantic Gap Fusión Multimedia
2. Propuesta Prefiltrado Textual Late Semantic Multimedia Fusion Contribución
3. Evaluación de la propuesta Marco de experimentación Experimentos monomodales Experimentos multimedia Ejemplos
4. Conclusiones
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 3 de 23
- Repositorios tradicionales o modernas aplicaciones (ej. médicas) - Muy presente en Internet
- sitios Web: Youtube (vídeos) o Picassa y Flicker (imágenes) - redes sociales: Facebook, Twitter, Instagram o Pinterest
- Colecciones personales
Información Multimedia
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 4 de 23
- TBIR (Text Based Image Retrieval) - anotaciones, metadatos, etiquetas, enlaces,... - más utilizadas y con mejores resultados - métodos de IR clásica (modelos, similitud, rankings,...)
- CBIR (Content Based Image Retrieval)
- descriptores visuales (color, forma, textura,...) - peores resultados
- Recuperación Multimedia
- combinación de TBIR y CBIR
Recuperación Multimedia de Imágenes (modos Textual y Visual)
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 5 de 23
+ buceador, sumergido, mar, persona en
bañador, azul, primer plano, etc.
Multimedia Semantic Gap
Escala semántica en Multimedia Baeza-Yates, R., & Ribeiro-Neto, B. (2011). Modern Information Retrieval (second edition). Addison-Wesley.
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 6 de 23
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 7 de 23
- Ejemplo tomado de ImageCLEF 2011 - La búsqueda CBIR está dirigida por el color, la textura, etc.
Consulta (parte visual)
Multimedia Semantic Gap (ejemplos)
CBIR
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 8 de 23
- Ejemplo tomado de Google Images (2012)
Multimedia Semantic Gap (ejemplos)
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Multimedia Semantic Gap
9 de 23
Consulta (parte textual): “diver underwater”
Consulta (parte visual)
- Ejemplo tomado de ImageCLEF 2011 - La búsqueda es “confundida” por el texto
TBIR
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
¿Multimedia Semantic Gap?
10 de 23
¿Combinación multimedia? • Combinar información textual y visual • Combinar resultados monomodales • Otros tipos de combinación
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Combinación multimedia
11 de 23
- Estado del arte - Resultados TBIR > Resultados CBIR
• Benavent, J., Benavent, X., Granados, R., & Garcia-Serrano, A. (2010). Experiences at ImageCLEF 2010 using CBIR and TBIR Mixing Information Approaches. In CLEF 2010 Working Notes.
• Clinchant, S., Csurka, G., & Ah-Pine, J. (2011). Semantic Combination of Textual and Visual Information in Multimedia Retrieval. ACM International Conference on Multimedia Retrieval. Trento, Italy: ACM.
- Beneficios potenciales colaboración Multimedia (MM)
• Granados, R., Benavent, J., Benavent, X., de Ves, E., & Garcia-Serrano, A. (2011). Multimodal information approaches for the Wikipedia collection at Image-CLEF 2011. In CLEF 2011 Working Notes
• Chatzichristofis, S., Zagoris, K., Boutalis, Y., & Papamarkos, N. (2010). Accurate Image Retrieval based on Compact Composite Descriptors and Relevance Feedback Information. IJPRAI, 24(2), 207-244.
• Atrey, P., Hossain, M., & Kankanhalli, M. (2010). Multimodal fusion for multimedia analysis: a survey. Multimedia Systems, 345-379.
- Hasta 2010: aproximaciones TBIR globalmente mejor que MM
• ImageCLEF2010 Evaluation Objectives (http://imageclef.org/2010/wiki)
- Reto actual: aprovechar complementariedad entre modos (textual y visual) mediante nuevas aproximaciones de Fusión Multimedia
Fusión multimedia
- Definición: “integración de diversos modos de información y sus características asociadas con el objetivo de llevar a cabo una determinada tarea”
Atrey, P., Hossain, M., & Kankanhalli, M. (2010). Multimodal fusion for multimedia analysis: a survey. Multimedia Systems, 345-379.
- Características (de las modalidades involucradas) a tener en cuenta en
una tarea de fusión multimedia: • Heterogeneidad de formatos • Asincronía • Niveles de confianza variables • Costes y complejidad de captura y procesamiento
- Planteamiento: niveles de fusión • a nivel de características (early fusion) • a nivel de decisiones (late fusion) • híbrida
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 12 de 23
Ventajas: - Solo una fase de decisión - Correlación
Desventajas: - Dimensionalidad - Sincronización - Heterogeneidad
Fusión multimedia: early fusion
- Nivel de características (early fusion): las características extraídas de los datos de entrada son combinadas y, posteriormente, enviadas como entrada para llevar a cabo la tarea de análisis
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 13 de 23
Fusión temprana
Decisión
C1
C2
Cn
...
C1,n D
Fusión multimedia: late fusion
- Nivel de características (late fusion): inicialmente se toman decisiones locales basadas en características individuales y, posteriormente, dichas decisiones son combinadas para obtener la decisión final
Ventajas: - Representación - Escalabilidad - Flexibilidad
Desventajas: - Sin correlación - Fase de decisión independiente
para cada modalidad
Fusión tardía
Decisión C1
C2
Cn
...
D1,n D Decisión
Decisión
...
Decisión
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 14 de 23
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Contribución
15 de 23
Propuesta combinación multimedia para evitar el Semantic Gap, se propone
una combinación asimétrica: Late Semantic Multimedia Fusion Prefiltro Textual Fusión Tardía
Combinación asimétrica:
1. Fase inicial de prefiltrado textual - similar a la técnica “image reranking” - restringe semánticamente la colección de búsqueda para CBIR - evaluado en ImageCLEF 2010
2. Prefiltrado textual + Fusión tardía textual y visual: Late Semantic
Multimedia Fusion
Resultado: la fusión MM supera a la textual y a la visual Granados, R., Benavent, J., Benavent, X., de Ves, E., & Garcia-Serrano, A. (2011). Multimodal information approaches for the Wikipedia collection at Image-CLEF 2011. In CLEF 2011 Working Notes
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Propuesta: Fusión Semántica Tardía
16 de 23
1. Prefiltrado Textual (≠ image reranking) • reducción de la colección • mejora de resultados de CBIR • mantiene cobertura • contraejemplos visuales
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Prefiltrado Textual. Ejemplo
17 de 23
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 18 de 23
Algoritmo Scores Ranks Combinación
Lineal Balanceado Normalización
Product Si No No Si Si
OWA Si No Si No Si
Enrich Si Si No No Si
FilterN No Si Si No No
MaxMerge Si No Si Si Si
Scores: fusión basada en los valores de relevancia Ranks: tiene en cuenta las posiciones en las listas de resultados Combinación Lineal: fusión basada en una combinación lineal Balanceado: misma importancia para todas las entradas Normalización: necesidad de normalización
Propuesta: Fusión Semántica Tardía
2. Fusión tardía (a nivel de decisiones): combina resultados TBIR y
CBIR (tras prefiltro textual) • análisis, evaluación e implementación de algoritmos de fusión
(Product, OWA, Enrich, MaxMerge, FilterN) • selección dependiente de la colección, la tarea y el objetivo
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Experimentación. Arquitectura
19 de 23
IDRA (Granados Muñoz, R., García Serrano, A., Goñi Menoyo, J. 2009. La herramienta IDRA (Indexing and Retrieving
Automatically). Procesamiento de Lenguaje Natural, vol. 1, nº 43)
Lucene http://lucene.apache.org/
CBIR-UV Departamento de Informática Universidad de Valencia
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 20 de 23
Experimentación. Resultados monomodales
- Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora CBIR con Prefiltro Textual (pero lejos de TBIR)
Experimento Mode MAP P@10 P@20
TBIR
TXT
0.3044 0.5060 0.4040
media2011 0.2169 0.3973 0.3228
mejor2011 0.3141 0.5160 0.4270
CBIR
IMG
0.0014 0.0060 0.0040
CBIR (prefiltro) 0.0618 0.0880 0.0910
media2011 0.0039 0.0270 0.0245
mejor2011 0.0044 0.0340 0.0280
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Experimentación. Resultados Multimedia
21 de 23
Experimento MAP P@5 P@10 P@20 TBIR 0.3044 0.5600 0.5060 0.4040
CBIR (Prefiltro) 0.0618 0.0880 0.0880 0.0910 Product (2º) 0.3400 0.6600 0.5540 0.4550
OWA 0.3369 0.6600 0.5660 0.4450
FilterN 0.3066 0.5640 0.5100 0.4040
Enrich 0.3079 0.5640 0.5080 0.4050
MaxMerge 0.2933 0.5600 0.5000 0.3980
Media2011 (11,110) 0.2558 - 0.4542 0.3678
Mejor2011 (Xerox) 0.3880 - 0.6320 0.5100
Experimento MAP P@10 P@20 Product (1º) 0.3111 0.5929 0.5479
media (127,9) 0.1387 0.3701 0.3293
mejor (Xerox) 0.2765 0.5814 0.5193
Experimento MAP P@10 P@20 Product (1º) 0.3231 0.5767 0.5092
media 0,1875 0.4051 0.3453
mejor (Xerox) 0.3230 0.6025 0.5154
ImageCLEF 2011
ImageCLEF 2010 ImageCLEF (2010+2011)
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Comentarios finales
22 de 23
TBIR Late Semantic Multimedia Fusion
Experimento MAP P@5 P@10 P@20 MAP P@5 P@10 P@20
Consultas 2010 Consultas 2011
TBIR 0.2885 0.5429 0.5414 0.4971 0.3044 0.5600 0.5060 0.4040
CBIR (prefiltro) 0.0779 0.1971 0.1971 0.1993 0.0618 0.0880 0.0880 0.0910
Propuesta LSMF 0.3111 0.6086 0.5929 0.5479 0.3400 0.6600 0.5540 0.4550
Mejora 7.83% 12.10% 9.51% 10.22% 11.70% 17.86% 9.49% 12.62%
Fusión de Anotaciones de Información Multimedia: Recuperación de Texto e Imágenes
VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"
Rubén Granados [email protected]