thèse cifre reconnaissance et comparaison de structure de
TRANSCRIPT
![Page 1: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/1.jpg)
- application aux documents administratifs -
Thèse CIFRE
Reconnaissance et comparaison de structure de documents
![Page 2: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/2.jpg)
2
Plan
1. Présentation de l’entreprise
2. Présentation du sujet
![Page 3: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/3.jpg)
3
Introduction
Prestation de service en dématérialisation
AG2R, AIRBUS, ARCHIVES DEPARTEMENTALES, BOUYGUES TELECOM, CAPGEMINI, CEA, DASSAULT AVIATION, FRANCE TELECOM, IBM, IONIS, IPECA, LYONNAISE DES EAUX, SNCF, SNECMA, THALES GROUP…
Références commerciales
![Page 4: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/4.jpg)
4
Quelques chiffres
3 millions d’images numérisées par mois (très variable)
270 salariés
1400 scans / heure / opérateur (max)
92 scanners couleurs (microformes, plan, A0, A3, A4, binarisation à la volé, redressement, couleur et noir et blanc simultané, …)
![Page 5: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/5.jpg)
5
Numérisation + traitement des fichiers
• Etapes de prestations: récupération, préparation, numérisation, traitements d'images, OCR, indexation, contrôle, importation dans une GED…
•Nature des documents: papiers noir et blanc, couleur, diapositives, microformes, plans, registres, journaux, affiches, plaques de verre...
Dématérialisation
![Page 6: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/6.jpg)
6
Types de documents numérisés
Globalement : •Documentations techniques (75%)•Documents RH (10%)•Facture (3%)•Note de frais (3%)•Bulletin de salaire (1%)•Registres d’état civil (0,05%)•Plans cadastraux (0,005%) • …
Grandes variations, dépendant des prestations et de l’activité (archive ou flux)• Archive (90%)• Flux (10%) -> cible de la thèse
![Page 7: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/7.jpg)
7
Types de documents numérisés
En moyenne, un document est composé de 10 pages.
15% des pages sont identifiés (1ères pages)
La quasi-totalité des pages sont traitées : détection d’anomalies.
Détection de pages blanches pour les versos (->50% des pages).
![Page 8: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/8.jpg)
8
Type de problèmes rencontrés
• Problèmes généraux : Chaque prestation est très différente. Grande variation des documents dans le temps.
• Problèmes dues à l’OCR : Qualité des documents (impression matricielle, annotations, pliures,
texte vertical, écriture blanche et fond noir) Autres (mélange des langues , présence d’images dans les pages,
texte sur les images, texte en manuscrit )
• Problèmes dues au traitement d’image : Qualité des documents (transparence, rotation) Autres (détection de couleur, binarisation)
![Page 9: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/9.jpg)
9
Type de problèmes rencontrés
• Détection couleur
![Page 10: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/10.jpg)
10
• Page blanche, page non-blanche
Type de problèmes rencontrés
![Page 11: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/11.jpg)
11
Plan
1. Présentation de l’entreprise
2. Présentation du sujet
Introduction2.1 Analyse2.2 Classification
![Page 12: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/12.jpg)
12
Introduction
Traitement de document
Référence : [1]
Analyse Classification Compréhension
![Page 13: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/13.jpg)
13
Introduction
•1960-2000 : traitement de document = OCR.
•2000-2010 : traitement = séparation du texte des graphiques, OCR, analyse, identification, classification...
• Analyse de document: reconstruction de la mise en page d’un document à partir de l’image papier.
• Classification de document: association d’un document à une classe (prédéfinie) en lui affectant le label correspondant.
• “Compréhension” de document : association de labels à plusieurs parties du document.
Référence : [1]
![Page 14: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/14.jpg)
14
Etapes du traitement
AnalysePrétraitement (redressement, restauration, nettoyage) Segmentation en blocs (RSLA, composantes connexes)Analyse des blocs (caractéristiques pixels)
ClassificationChoix et représentation des descripteursComparaison
Référence : [2]
![Page 15: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/15.jpg)
15
2.1.1.Prétraitement• Redressement.[2] : RLSA puis Hough
sous-échantillonagepuis Hough ->
Référence : [2]
Analyse
![Page 16: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/16.jpg)
16
2.1.2.Segmentation en blocs RSLA (Run Length Smoothing Algorithm)
Référence : [2]
Analyse
![Page 17: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/17.jpg)
17
2.1.3. Analyse des blocs
Méthode de classification du bloc : texte, graphique ou image.• Lignes -> ratio hauteur largeur• Image : entropie du niveaux de gris• Texte et graph -> densité de pixels noir
Référence : [2]
Analyse
![Page 18: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/18.jpg)
18
Classification
2.2.1. Problématique
-> Définition de l’espace document et de l’ensemble des classes
Les classes peuvent être basées sur le fond (similitude des contenues) et/ou la forme (similitude visuelle).
Ex. : une classe « document détérioré », une classe « facture »
Référence : [3]
![Page 19: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/19.jpg)
19
Classification
La classification peut être faite à différent niveaux :- grossière / haut niveau (ex.: bulletin de salaire, facture, doc technique, …)- fine / bas niveau (ex.: bulletin de l’entreprise X ou Y, du salarié, …)
2.2.2. Architecture d’un classificateur
-> 4 aspects caractérisent un classificateur: (a) les propriétés du document et le stade de la reconnaissance(b) le choix et représentations des descripteurs(c) les catégories de modèles et d'algorithmes de classification(d) le mécanismes d'apprentissage.
-> Ces aspects sont interdépendants.
Référence : [3]
![Page 20: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/20.jpg)
20
Architecture d’un classificateur
(a) Stade de la reconnaissance-> la classification peut être effectuée à différents stades du traitement.-> dépend de l'objectif de classification de documents et le type de documents.
Propriétés des documents-> à priori la nature et les propriétés des document seront très variable suivant
les prestations.-> en général : images binarisés .-> selon le DAS02 Working Group [4], des recherches devraient être consacrés
au traitement des images en niveaux de gris et couleurs.
Référence : [3],[4]
![Page 21: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/21.jpg)
21
Architecture d’un classificateur
(b) Choix des descripteurs
- Image (densités de pixels, …)- Structure (relation entre les objets)- Texte (OCR)
Les information structurelles sont souvent liés à la forme du document (et non au fond).
Référence : [3]
!
![Page 22: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/22.jpg)
22
Architecture d’un classificateur
Représentation des descripteurs
• Vecteur• Arbre• Graphique• Règles• …
-> dépend des caractéristiques que l’on souhaite représenterEx. : caractéristiques structurelles => arbre.
Référence : [3]
![Page 23: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/23.jpg)
23
Architecture d’un classificateur
(b) Représentation des descripteurs[5] recommande l'utilisation de certains types de représentations suivant les
caractéristiques du document..
Référence : [3],[5]
Caractéristiques des documentsExemple de
catégories
Représentation
recommandée
Mise en page fortement restreinte, chaque objet a une position fixe. Formulaire, chèques Liste
Mise en page variable mais avec une structure logique forte, les objets
ont une position légèrement variable mais des relations les lies.
Carte de travail,
lettres
Arbre de
données
Mise en page restreinte avec une structure complexe, les objets sont
organisés de manière hiérarchique ou répétés. La structure de la mise
en page est guidée par des lignes et des espaces.
TableauxArbre local et/ou
global
Structure globale prédéfinie mais l'attribution d'espace pour les
différents objets est flexible.Journaux, articles
Un ensemble de
règles
Eléments standard tels que des axes horizontaux et verticaux Histogrammes Graph ou réseau
![Page 24: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/24.jpg)
24
Arbre MXY
Exemple de représentation
![Page 25: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/25.jpg)
25
Graph
Exemple de représentation
![Page 26: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/26.jpg)
26
Classification
(c) Catégories d'algorithmes de classification:• kNN• Réseaux de neurones• HMM• Arbre de décision
(d) Mécanisme d’apprentissage
• Apprentissage base fixe (échantillons)• Apprentissage dynamique
Référence : [3]
![Page 27: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/27.jpg)
27
Classification
Une méthode simple : la classification par comparaison de mise en page.
1) A partir d’échantillons, on créé des regroupements par similarité « visuelle » de mise en page (suivant la nature et la répartition des zones).
2) On compare le fichier à trier avec les différentes structures et on établi un score de similarité (calcul de distance entre la structure du fichier à trier et les structures des classes).
?
Echantillons Classe
création
comparaison
Fichier à trier Classe
![Page 28: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/28.jpg)
28
Bibliographie
1. Esposito, F.; Malerba, D. & Lisi, F.Machine learning for intelligent processing of printed documentsJournal of Intelligent Information Systems, Springer, 2000, 14, 175-19
2. Yin, P.Skew detection and block classification of printed documentsImage and Vision Computing, Elsevier, 2001, 19, 567-579
3. Chen, N. & Blostein, D.A survey of document image classification: problem statement, classifier architecture and performance evaluationInternational Journal on Document Analysis and Recognition, Springer, 2007, 10, 1-16
![Page 29: Thèse CIFRE Reconnaissance et comparaison de structure de](https://reader035.vdocuments.mx/reader035/viewer/2022062416/62ad760ad8368e09b570e54e/html5/thumbnails/29.jpg)
29
Bibliographie
4. Smith, E.B., Monn, D., Veeramachaneni, H., Kise, K., Malizia,A., Todoran, L., El-Nasan, A., Ingold, R.: Reports ofthe DAS02 working group. Int. J. Doc. Anal. Recognit. 6(3),211–217 (2004)
5. Watanabe, T.: A guideline for specifying layout knowledge. In: Proceedings of Document Recognition and Retrieval VI (IS&T/SPIE electronic imaging), San Jose, CA, 27 January 1999, SPIE Proceedings Series 3651, 162–172 (1999)