Page 1: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

INTRODUCCIÓN A IMPACTSESIÓN DE DEMOSTRACIÓN IMPACT Biblioteca Nacional de España, 5 de octubre de 2011

Page 2: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Antecedentes El texto no digitalizado es “virtualmente” invisible

Disponibilidad de material digitalizado demasiado lento, pequeñas cantidades y pocas fuentes

Tecnología OCR (reconocimiento óptico de caracteres) no resultados satisfactorios para documentos históricos

Falta de conocimiento institucional y especialización ineficiencia y “reinventar la rueda”

Page 3: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Texto histórico: típicos resultados OCR

VVt Venetien den 1.Junij, Anno 1618.DJgn i f paffato te S' aö'Jifeert mo?üen/bah .)etgi'uotbciraetail)i.r/JtmelchontDecht te /sbnbe bele btr felbrr geiufttceert baer bnber eeniglje jprant o^fen/bie ftcb .metbeSpaenfcbeu enbeeemgljen bifet Cbeiiupcen berbonbru befe

Page 4: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Tintas traspasadas





Calidad del papel

Entintado débil



Errores de impresión




Retos OCR

Page 5: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Retos lingüísticos: variantes ortográficas, variantes de grafía, formas conjugadas, declinadas…y más

Variantes históricas para la forma verbal hubo:hubo, huvo, uvo, vuo, uuo, huuo…

Variantes históricas para la palabra holandesa ‘wereld’ (mundo):werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds weerlyt wereldts vveerelts waereld weerelden waerelden weerlt werlt werelds sweerels zwerlys swarels swerelts werelts swerrels weirelts tsweerelds werret vverelt werlts werrelt worreld werlden wareld weirelt weireld waerelt werreld werld vvereld weerelts werlde tswerels werreldts weereldt wereldje waereldje weurlt wald weëled

Page 6: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Reto institucional: falta de conocimiento y experiencia ineficiencia

Page 7: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Cómo afrontar estos retos: La visión de IMPACT

• Digitalizar los textos impresos históricos en Europa mejor, más rápido , más barato

• Proporcionar herramientas, servicios e instalaciones para continuar avanzando en este campo

Page 8: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


El proyecto en cifras Apoyado por la Comunidad Europea a través de la línea ICT del FP7 Coordinación Biblioteca Nacional de Países Bajos (KB) Tipo de proyecto: Proyecto de integración a Gran Escala Financiación de la UE : € 11 500 000 Fecha de inicio: 1 enero 2008 Duración: 48 meses A partir de 2012: Centro de competencia sostenible Contacto: [email protected] Sitio web:

Page 9: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Consorcio IMPACT - Inicial Bibliotecas

– National Library of the Netherlands (KB)– The British Library (BL)– Bibliothèque nationale de France (BNF)– German National Library (DNB)– Bavarian State Library (BSB)– Göttingen State and University Library

(UGOE) – Austrian National Library (ONB)– University of Innsbruck Library (UIBK)

Universidades y Centros de Investigación– Dutch Institute for Lexicology (INL)– National Centre for Scientific Research –

Demokritos (NCSR)– University of Salford (USAL)– University of Munich (CIS group)– University of Innsbruck (InfMath group)– University of Bath (UKOLN)

Proveedores comerciales– IBM (Haifa Research Lab)– ABBYY (Moscow)

Page 10: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


OBJETIVOSMejora significativa de la digitalización masiva del texto impreso históricos mediante:

Innovación del software OCR y tecnologías en torno a los idiomas

Compartir conocimientos y poner en pie habilidades a nivel europeo

Garantizar existencia a largo plazo herramientas y servicios al finalizar el proyecto

Conseguir el intercambio de procesos o datos entre sistemas heterogéneos (‘interoperabilidad’)

Proporcionar una Guía de Mejores Prácticas en el ámbito de la digitalización

Atender las necesidades de usuarios en diversos idiomas

Page 11: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Inicio 2010 nuevos socios i.a.:… ... … …

23 Biblioteca Nacional de España BNE ES

24 Fundación Biblioteca Virtual Miguel de Cervantes BVC ES

25 Poznań Supercomputing and Networking Center PSNC PL

… … … …

BNE/UA = marzo de 2010

Page 12: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 13: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Extensión de objetivos Utilizar las herramientas de IMPACT para construir un léxico eficiente para idiomas

fuera de los objetivos iniciales de IMPACT→ Inicialmente: inglés, alemán, holandés

→ Dp: lenguas romance y eslavas ej español Demostrar y difundir los resultados del proyecto en Europa del Sur y del Este, y

apoyar la adquisición de conocimientos en digitalización en dichos países Reforzar la cooperación y mejorar la explotación de las sinergias de I+D sobre ICT

a lo largo de la Unión Europea Establecer vínculos estratégicos con el fin de avanzar en:

el acceso al conocimiento, desarrollo de estándares y soluciones interoperables

Page 14: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Estructura del proyecto: 4 subproyectos OPERATIONAL CONTEXT (OC)

Requisitos, documentación wfs y mediciones

Mejores prácticas y directrices

Marco de trabajo e integración técnica - interoperabilidad


Publicación recursos

Formación y apoyo



Pre-procesamiento y segmentación

OCR adaptativo y experimental

Modelos y diccionarios


Corrección colaborativa

Lexica e índices geográficos

Metadatos estructurales

Page 15: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Herramientas de OCRTecnologías para la extracción de texto en formato digital a partir de una página

Motor de OCR adaptativo: Clave del proyecto IMPACT, software de primera línea adaptado específicamente a las necesidades de las bibliotecas y que se adapta durante el proceso de OCR, integrando otras herramientas:

Image enhancement toolkit Segmentation toolkit Módulos de post-corrección Otros motores OCR

Prototipos y herramientas experimentales Prototipo OCR sobre textos escritos a máquina (Typewritten OCR prototype) Wordspotting…




Page 16: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Herramientas de enriquecimiento (tecnología lingüística)Conseguir que los resultados de OCR sean más precisos y accesibles Corrección colaborativa

Sistema de corrección colaborativa a través de web: plataforma web, adecuada para participación voluntaria masiva, valida y corrige resultados OCR. La primera herramienta de este tipo que se relaciona directamente a un motor de OCR

Lexicon e índices geográficos Léxicos generales y NER (nnll-uk-ger) Herramientas para proporcionar medios que permitan superar barrera lingüística


Metadatos estructuralesFEP: un conjunto de servicios web que pueden explotarse para detectar y etiquetar automáticamente metadatos estructurales del material escaneado




Page 17: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Herramientas y servicios estratégicos Sitio web proporciona acceso a todos los resultados del proyecto y constituye el núcleo de una red virtual formada

por todos los centros de competencia europeos en materia de digitalización y las actividades de investigación asociadas

Un conjunto de herramientas de Apoyo a la Toma de Decisiones que puede utilizarse para inciar, organizar, gestionar y evaluar el coste de los proyectos de digitalización masiva

Recursos de aprendizaje (learning resource toolbox) con directrices de funcionamiento que sirvan de guía para la implementación real de todas las herramientas producidas en el proyecto.

Formación y apoyo Sistema Help Desk peticiones, ayuda entre usuarios, socios del proyecto, centros de competencia de

digitalización. Programa de formación sobre temas y tecnologías en torno a la digitalización a gran escala con una amplia

gama de documentación de apoyo disponible a través del sitio web del proyecto

Demos OC



Page 18: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Biblioteca Nacional de España (CB) Entró a formar parte en marzo de 2010, II Fase del proyecto , en colaboración con

la Universidad de Alicante

Aportación de más de 60.000 imágenes (UA-BVMC) y subida a PRIMA (md): Escala grises, color, 300 dpi, TIFF Obras anteriores XIX ej: Teatro Siglo de Oro Obras cuyo OCR no está ofreciendo buenos resultados

– En 3 sets: Development (Lexicon Building) – Evaluation - Demonstration

Probar las funcionalidades realizadas por los desarrolladores participantes Demonstration dataset Lotes, repositorio resultados

Difundir el proyecto (presentaciones a nivel interno, FESABID, sesión externa)

Page 19: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Universidad de Alicante (EE-CB) Colaboración en carga en el servidor de imágenes PRIMA

Gestión de contrato GroundTruth (evaluación), control de calidad y subida a PRIMA

Difundir el proyecto

Creación de léxico español antiguo para conectar a las soluciones de OCR

Page 20: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Herramientas del entorno de trabajo

Page 21: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Repositorio de imágenes aportadas por las bibliotecas participantes que sirven de ejemplo para los diversos planes proyectados



Page 22: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


PRIMA: Groundtruth-formato PAGE

Page 23: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Plataforma o entorno de desarrollo donde investigadores intercambian ideas, desarrollos y planes



Page 24: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 25: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


TAVERNAHerramienta creada por un Grupo de Trabajo (myGrid) , de código libre (JAVA), que permite el diseño y ejecución de Flujos de Trabajos

Servicio Web:Interoperabilidad

Facilidad acceso Dinamismo

Flujos simples & complejos

Page 26: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


TAVERNA: flujos simples o complejos

Page 27: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Funcionamiento Taverna en Impact

Page 28: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 29: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 30: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 31: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 32: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 33: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 34: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 35: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 36: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 37: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 38: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 39: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 41: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Twitter: @impactocr, #impactproject

Tweets sobre últimas noticias en IMPACT

(Re)tweets de noticias en torno a la digitalización, tecnología OCR y lingüística

Tweets en vivo durante conferencias, talleres

Page 42: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


LinkedIn group: IMPACT Improving Access to Text

Comunidad online

Canal para obtener feedback sobre los entregables IMPACT(versiones posteriores)

Discusiones sobre digitalización, tecnología OCR y lingüística

Page 43: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


IMPACT blog:

Utilizado para talleres y días de demostración

Incorporación de– Presentaciones– Vídeos

Page 44: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Page 45: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Boletín trimestral IMPACT


Novedades Especial en torno a una

herramienta Fotos e informes sobre

contribuciones de IMPACT a conferencias

Entrevistas equipo humano IMPACT

Page 46: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Canal de IMPACT en Youtube

Breves introducciones sobre cada subproyecto y cada uno de los líderes de los distintos work package

Vídeo de presentación de IMPACT elaborado por la KB

Video de IBM sobre CONCERT

Page 47: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


IMPACT Helpdesk


Page 48: I ntroduccion a_impact_051011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Jefe de Servicio de Biblioteca Digital, [email protected]

Top Related