arbelaez these
TRANSCRIPT
UNIVERSITÉ PARIS DAUPHINEU.F.R. MATHÉMATIQUES DE LA DÉCISION
Nouveau doctorat en sciences(arrêté du 25 avril 2002)
No. attribué par la bibliothèque| | | | | | | | | |
Pablo Andrés ARBELÁEZ ESCALANTE
Une approche métriquepour la
segmentation d’images
Thèse pour l’obtention du titre de
DOCTEUR EN SCIENCES
Spécialité :MATHÉMATIQUES APPLIQUÉES
Le 24 novembre 2005
JURY
Directeur : M. Laurent COHEN Directeur de Recherche CNRS
Président : M. Jean-Michel MOREL Professeur ENS Cachan
Rapporteurs : M. Henri MAITRE Professeur ENST
M. Jean SERRA Directeur de Recherche ENSMP
Examinateurs : Mme. Françoise DIBOS Professeur Paris-Nord
M. Laurent NAJMAN Professeur Associé ESIEE
Para Roxana e Irene
L’université n’entend donner aucune approbation ni improbation aux opinions émisesdans les thèses : ces opinions doivent être considérées comme propres à leurs auteurs.
Remerciements
L’étude exposée dans ce mémoire a été réalisée dans le cadre de ma thèse docto-rale au sein du Centre de Recherche en Mathématiques de la Décision (CEREMADE),à l’Université Paris-Dauphine. Elle n’aurait jamais pu aboutir sans le concours d’ungrand nombre de personnes auxquelles je voudrais exprimer ma profonde reconnais-sance.
Je tiens à remercier en premier lieu LAURENT COHEN, mon directeur de thèse, pourson encadrement, ses conseils et pour la confiance dont il m’a fait preuve en me laissantune liberté totale dans le choix du sujet et l’orientation de ma recherche.
Je voudrais exprimer ma sincère gratitude aux membres de mon Jury de thèse.JEAN-MICHEL MOREL, pour l’honneur qu’il me fait de le présider ; ses qualités hu-maines et scientifiques sont pour moi une source constante d’inspiration. JEAN SERRA
et HENRI MAÎTRE, pour l’intérêt qu’ils ont manifesté à mon travail en acceptant d’enêtre rapporteurs ; leur regard et leurs commentaires m’ont permis de l’améliorer gran-dement. FRANÇOISE DIBOS, dont le cours de DEA m’a initié au monde des images,pour avoir accepté de faire partie du Jury. LAURENT NAJMAN, pour avoir bien vouluexaminer cette étude, dont ses recherches sur la LPE ont constitué un point de départ.
Je remercie également les membres du CEREMADE, les thésards du groupe Imageset, plus particulièrement, OLIVIA SANCHEZ, CLAIRE JONCHERY, FLORENT RAN-CHIN et SYLVAIN PELLETIER ; sans eux, je me serais senti étranger au labo. Merciaussi à MICHEL VANBREUGEL pour sa patience, sa disponibilité et son aide avec lesmanips et à JOSETTE LÉVY pour son assistance lors des missions.
D’autre part, je voudrais remercier toutes les personnes avec qui j’ai eu la chanced’avoir d’enrichissants échanges scientifiques. En particulier, CORINNE VACHIER,pour l’introduction à la segmentation morphologique qu’elle m’a faite en début dethèse et qui a grandement influencé la suite des travaux. PASCAL MONASSE pour lesdiscussions sur la FLST et pour avoir eu la générosité de me prêter sa copie de l’articlede Kronrod, ainsi que sa précieuse traduction à l’anglais. MICHEL COUPRIE pour lamise à disposition du logiciel PINK.
Je remercie affectueusement mes parents, ma famille et mes amis pour leur sou-tien permanent et inconditionnel. Parmi eux, une pensée spéciale pour EMMANUELLE
PORCHER, qui a accepté le fardeau de corriger la version préliminaire de ce manuscrit.Je ne saurais lui exprimer ma reconnaissance pour sa solidarité et son amitié en cesquelques lignes.
Quiero agradecer finalmente a CAMILO, HEDDA, MARIA JOSÉ y MARIA PATRI-CIA, los hermanos que la vida me ha dado y que me acompañan siempre y a ROXANA
e IRENE, quienes dan sentido a mi existencia.
Table des matières
Introduction 1
I Cadre de travail 11
1 Distances et partitions 13
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Espaces pseudo-métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.2 Espace quotient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.4 Chemins et convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3 Partitions métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.3.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.3.3 Cadre variationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.4 Partitions de Voronoï centrées . . . . . . . . . . . . . . . . . . . . . . . 30
2 Images et segmentations 33
2.1 Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Composantes connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3 Segmentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.2 Représentation des contours . . . . . . . . . . . . . . . . . . . . . . . . 37
i
ii
2.3.3 Images mosaïques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Graphes et arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.2 Graphes d’adjacence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4.3 Arbres d’inclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4.4 Distances sur un graphe . . . . . . . . . . . . . . . . . . . . . . . . . . 44
II Métriques de chemin 47
3 Distances pondérées 49
3.1 Définition des métriques de chemin . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2 Optique géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3 Propagation des fronts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 Implantation par Fast Marching . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5 Segmentation par distances pondérées . . . . . . . . . . . . . . . . . . . . . . . 60
3.5.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.5.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.5.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4 Variation de chemin 69
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.1 Variation totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.2 Variation de chemin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.1 Variation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.3.2 Cadre régulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 Domaine discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.4.1 Construction par connexité . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.4.2 Construction par inclusion . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.5 Segmentation par variation de chemin . . . . . . . . . . . . . . . . . . . . . . . 82
4.5.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
iii
4.5.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.6 Mosaïque des extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.6.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.6.2 Comparaison avec la ligne de partage des eaux . . . . . . . . . . . . . . 92
4.6.3 Choix des sites par diffusion non linéaire . . . . . . . . . . . . . . . . . 99
III Ultramétriques 103
5 Classification hiérarchique 105
5.1 Ordres et arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.2 Hiérarchie de parties d’un ensemble . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3 Ultramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.4 Ultramétriques et hiérarchies indicées . . . . . . . . . . . . . . . . . . . . . . . 110
5.5 Coupes et partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.6 Ultramétrique sous-dominante . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.7 Classification ascendante hiérarchique . . . . . . . . . . . . . . . . . . . . . . . 118
5.7.1 Construction de la hiérarchie . . . . . . . . . . . . . . . . . . . . . . . . 118
5.7.2 Définition de l’ultramétrique . . . . . . . . . . . . . . . . . . . . . . . . 120
6 Cartes de contours ultramétriques 123
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.2 Segmentation hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.3 Définition des contours ultramétriques . . . . . . . . . . . . . . . . . . . . . . . 128
6.4 Construction ascendante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.4.1 Fusion de régions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.4.2 Dissemblances ultramétriques . . . . . . . . . . . . . . . . . . . . . . . 131
6.5 Mesures de contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.5.1 Sous-dominante de la variation de chemin . . . . . . . . . . . . . . . . . 134
6.5.2 Ultramétrique de contraste moyen . . . . . . . . . . . . . . . . . . . . . 139
6.6 Enrichissement du contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.7 Information interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.8 Ultramétrique des marqueurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
iv
6.8.1 Propagation de marqueurs . . . . . . . . . . . . . . . . . . . . . . . . . 155
6.8.2 Ultramétrique des marqueurs . . . . . . . . . . . . . . . . . . . . . . . . 157
6.9 Positionnement de l’approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.9.1 Cadre morphologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
6.9.2 Cadre variationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
IV Évaluation des résultats 167
7 Méthodologie d’évaluation 169
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.2 Vérité terrain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.3 Comparaison de segmentations . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.3.1 Signal et référence binaires . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.3.2 Descripteurs de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
7.3.3 Multiples segmentations humaines . . . . . . . . . . . . . . . . . . . . . 180
7.3.4 Carte de contours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7.4 Cohérence de la segmentation humaine . . . . . . . . . . . . . . . . . . . . . . 183
7.5 Correspondance de courbes et de pixels . . . . . . . . . . . . . . . . . . . . . . 188
8 Résultats 191
8.1 Optimisation du système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
8.1.1 Pré-segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
8.1.2 Enrichissement du contraste . . . . . . . . . . . . . . . . . . . . . . . . 196
8.1.3 Couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.1.4 Information interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.1.5 Autres éléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
8.2 Comparaison avec d’autres méthodes . . . . . . . . . . . . . . . . . . . . . . . . 199
8.2.1 Détecteurs de contours locaux . . . . . . . . . . . . . . . . . . . . . . . 199
8.2.2 Approche morphologique . . . . . . . . . . . . . . . . . . . . . . . . . 201
8.2.3 Approche variationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 205
8.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
8.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
v
9 Conclusions et perspectives 215
9.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
9.2 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
9.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
9.4 Liste des communications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
Bibliographie 227
Introduction
Motivations
Perception visuelle
The Unicorn looked dreamily at Alice, and said : "Talk, child."
Alice could not help her lips curling up into a smile as she began : "Do you know, I always
thought Unicorns were fabulous monsters, too ? I never saw one alive before !"
"Well, now that we have seen each other," said the Unicorn, "if you’ll believe in me, I’ll
believe in you. Is that a bargain ?"
Lewis Carroll. Through the Looking-Glass.
Vision artificielle
La vision artificielle, ou vision par ordinateur, est la discipline qui cherche à reproduire les
processus visuels au moyen de machines. La vue nous permet de réaliser une large diversité
de tâches dès le plus jeune âge ; avant même l’acquisition du langage, un enfant de dix-huit
mois peut reconnaître sans difficulté les personnes de son entourage sur une photo, éviter un
obstacle sur son chemin ou identifier un objet étranger à son environnement familier. La vision
semblerait donc faire partie des processus cognitifs les plus élémentaires et son étude pourrait
représenter un raccourci pour comprendre les mécanismes de l’intelligence humaine. Si tel est
le cas, nous sommes encore loin de dévoiler tous les mystères du cerveau. En 1968, l’ordinateur
du film 2001 : L’Odyssée de l’Espace, de Stanley Kubrick, reconnaissait des humains à partir
d’esquisses. Une telle prouesse relève aujourd’hui encore du domaine de la science fiction.
1
2
Images naturelles
De quel type d’information notre cerveau dispose-t-il pour voir ? La structure anatomique de
notre appareil visuel est d’une complexité considérable, mais les stades premiers de l’acquisition
des stimuli visuels sont schématiquement simples. Suite à une transformation optique réalisée
dans la partie antérieure du globule oculaire, le flot lumineux est projeté sur la rétine, où une
image rétinienne se forme. La membrane rétinienne est tapissée de millions de cellules, appelées
photorécepteurs, qui réagissent aux différentes longueurs d’onde de la lumière. Elles transmettent
le signal au nerf optique, qui l’achemine vers le cortex visuel.
L’image numérique est un modèle naturel des données d’entrée de notre système visuel. Une
image numérique représentant une scène du monde réel, ou image naturelle, est un tableau où
chaque case, ou pixel1, codifie une teinte de gris ou une couleur. Une image est donc consti-
tuée d’un grand volume de données locales et non structurées, dont l’analyse est le propos des
systèmes de vision artificielle.
Segmentation
Lorsqu’un être humain observe une image naturelle, il voit généralement des objets phy-
siques ou leurs parties. Il peut donc diviser l’image en régions, ou segments, les représentant.
Nous allons étudier dans ce mémoire comment une machine peut reproduire cette tâche de seg-
mentation.
La segmentation est un processus de synthèse, visant à extraire les caractéristiques géomé-
triques des images en faisant abstraction des nuances de couleur, des reflets, des transparences,
des ombres, des textures et autres éléments qui constituent l’incroyable richesse de l’information
visuelle.
Comment aborder un tel problème ? Sur l’image de la Figure 1.a, on voit un dalmatien sur
une pelouse. On peut donc représenter cette information sémantique par la segmentation de la
1pixel : de l’anglais pic-ture el-ement
3
(a) (b)
FIG. 1 – Exemple de segmentation d’une image naturelle.
partie (b), où la forme du chien se détache du fond. Comment passer de l’un à l’autre ? Comment
extraire ces régions d’un tableau de plusieurs millions de pixels, chacun d’entre eux teint d’une
couleur, parmi des millions ? Est-ce uniquement parce qu’un être humain reconnaît le chien qu’il
est capable de tracer ses contours ?
Les travaux de psychologues qui ont étudié la vision humaine au XXe siècle, et notamment
l’école du Gestalt et Juletz, suggèrent que notre perception visuelle agit plutôt dans la direction
inverse (voir [Gor97, Pal99] pour une synthèse récente du sujet). Ces chercheurs ont postulé l’hy-
pothèse d’un traitement de bas niveau agissant lors des stades initiaux de l’acquisition des stimuli
visuels, indépendant de l’information sémantique, et dont le rôle principal serait de structurer le
flot de données brutes perçues par la rétine. L’extraction des caractéristiques géométriques de
l’image rétinienne permettrait dans un second temps la réalisation de tâches de haut niveau,
comme la reconnaissance et la catégorisation, où une signification sémantique est attribuée à
l’information visuelle.
La démarche méthodologique que nous suivons pour aborder le problème de la segmentation
[Mar82, MS95] s’inspire de ces idées. Nous chercherons donc à effectuer le traitement de bas
niveau en segmentant l’image uniquement à partir de ses données physiques, sans connaître
préalablement son contenu.
4
FIG. 2 – Segmentation et information préalable.
Information sémantique
La segmentation de bas niveau est souvent considérée comme la clef de voûte de la vision
artificielle. Si on était en mesure de représenter automatiquement chaque objet de l’image par
une région, alors la compréhension de son contenu sémantique serait amplement facilitée. On
pourrait par exemple identifier le chien de la Figure 1 en utilisant des attributs de la région telles
la forme, la couleur, la taille, la texture, etc.
Remarquons néanmoins qu’une approche fondée uniquement sur les données de l’image ne
peut expliquer que partiellement le fonctionnement de la vision humaine. Les interactions entre
information physique et sémantique dans notre cerveau sont certainement beaucoup plus subtiles
et complexes que notre modèle d’étude ne le laisse entendre. Observons par exemple la Figure
2, photographie attribuée à Ronald C. James [Mar82]. Bien qu’on puisse décrire cette image
et la Figure 1 avec les mêmes mots, il est difficile de s’en apercevoir au premier coup d’oeil.
En revanche, une fois qu’on l’a identifié, on voit clairement le chien se détacher du fond et
l’organisation perceptuelle de la scène ne présente plus d’ambiguïtés. On pourrait même essayer
de tracer ses contours, mais quelle proportion de ces contours se trouve réellement dans l’image ?
Peut-on réaliser cette tâche si on n’a jamais vu un dalmatien ? Cet exemple est-il un cas limite ou
typique du fonctionnement de notre appareil visuel ?
5
La question de fond qui se pose est de savoir s’il est possible de quantifier le rôle de l’in-
formation sémantique dans la segmentation d’images naturelles. Notre façon d’y répondre sera
de créer un système de segmentation de bas niveau et de comparer sa performance à celle des
Humains sur une large base d’images naturelles.
Segmentation hiérarchique
Pour segmenter une image naturelle, un Humain identifie des objets physiques et démarque
leurs contours jusqu’à un certain niveau de détail, donné par l’attention qu’il leur accorde. Si on
suppose que tous les sujets d’un groupe d’Humains perçoivent les mêmes objets dans une image,
alors la superposition des contours (ou l’intersection des segments) de leurs segmentations four-
nit le plus fin niveau de détail considéré (voir la Figure 7.2, p. 174), aux erreurs de localisation
près. Les détails peuvent alors se regrouper en objets et puis en ensembles d’objets, etc. L’or-
ganisation perceptuelle de l’image peut donc se représenter par un arbre de régions, ordonné
selon l’inclusion, comme celui de la Figure 3. La racine de l’arbre perceptuel est la scène entière,
les feuilles sont les plus fins détails et chaque région représente un objet à une certaine échelle
d’observation.
Si on demandait à chaque sujet de construire un arbre perceptuel, on obtiendrait sans doute,
comme pour les segmentations, des résultats différents. Notre hypothèse de travail sera qu’on
peut reconstruire à partir des segmentations humaines un arbre qui explique le contenu séman-
tique de l’image. Les différentes segmentations peuvent alors s’interpréter comme un élagage de
l’arbre par l’attention de chaque sujet.
Dans l’expérience de la Figure 3, les instructions données aux sujets spécifiaient que toutes
les régions devaient avoir la même importance [Mar02], les encourageant ainsi à segmenter à
échelle constante. Le résultat montre que la notion d’échelle est subjective et varie d’un sujet à
un autre. Il s’agit en outre d’une information de haut niveau, déterminée par le contenu séman-
tique. Si on devait par exemple diviser en deux régions un portrait, probablement tous les sujets
6
Image originale Segmentations humaines Arbre perceptuel
Segmentation 1 Segmentation 1 Coupe 1
Segmentation 2 Segmentation 2 Coupe 2
Segmentation 3 Segmentation 3 Coupe 3
FIG. 3 – Organisation hiérarchique de la perception visuelle humaine. Haut : Image originale,segmentations humaines superposées et arbre perceptuel possible. Lignes 2 à 4 : Trois segmen-tations humaines et coupes correspondantes dans l’arbre.
7
sépareraient la figure humaine du fond, se souciant peu des données physiques de l’image.
L’importance de l’information préalable dans l’organisation perceptuelle rend vaine la re-
construction d’un arbre perceptuel au moyen d’une approche de bas niveau comme la nôtre. La
structure hiérarchique de la perception humaine suggère néanmoins qu’une stratégie à plusieurs
niveaux d’observation, ou multi-échelles, est souhaitable pour l’étude de la segmentation.
Présentation de l’approche
Les observations des pages précédentes avaient pour objectif de sensibiliser le lecteur à l’in-
térêt de l’étude de la segmentation et à ses difficultés intrinsèques. La vision artificielle est une
discipline jeune dont les principaux problèmes restent encore à élucider. Dans le cas de la seg-
mentation, le niveau de performance des techniques actuelles est encore loin de celui atteint par
les Humains. Le présent mémoire expose les travaux réalisés au cours de notre thèse doctorale
pour étudier la segmentation d’images naturelles. L’approche proposée, délibérément naïve, est
construite à partir des notions qui nous semblent centrales au problème.
Cadre de travail
La segmentation peut se concevoir comme un processus de regroupement perceptuel. Une
façon naturelle de regrouper ou de séparer des données est de les comparer au moyen d’une
distance. Ceci nous a conduit à formuler le problème dans le cadre métrique et à étudier les
partitions de l’espace induites par une distance. Deux types de partitions métriques, illustrés dans
la Figure 1.1, sont initialement considérées. Les premières, appelées partitions par seuillage,
sont obtenues en séparant des autres points de l’espace ceux dont la distance à un ensemble
est inférieure à un certain seuil. Les secondes, nommées partitions de Voronoï, décomposent
l’espace par rapport à une famille de points, ou sites, en assignant chaque point au site le plus
proche.
Le Chapitre 1 du mémoire présente les fondements du formalisme métrique. Cette première
8
partie est complétée par le Chapitre 2, qui traite des images ainsi que des structures pour les
représenter et les manipuler.
L’application de la théorie métrique nécessite la définition de distances appropriées pour
traiter un problème spécifique. Dans le cas de la segmentation, les distances se construisent à
partir des données de l’image. Les deuxième et troisième parties du mémoire présentent deux
voies pour atteindre ce but.
Métriques de chemin
La deuxième partie s’intéresse aux métriques de chemin, définies en mesurant le minimum de
la longueur des chemins entre points de l’espace. À chaque notion de longueur correspond une
distance différente. Nous présentons dans le Chapitre 3 l’exemple le plus classique, les distances
pondérées, ainsi que leurs applications principales à la segmentation. Dans le Chapitre 4, nous
proposons l’étude de la distance appelée variation de chemin, obtenue en considérant comme
longueur la variation totale de l’image sur le chemin.
Ultramétriques
La caractéristique principale de la perception visuelle humaine est son organisation hiérar-
chique. Cette constatation suggère d’approcher la segmentation comme un problème de classifi-
cation hiérarchique des données, voie que nous explorons dans la troisième partie du mémoire.
Le Chapitre 5 rappèle les éléments de base de cette théorie, issue historiquement du domaine de
la taxinomie numérique. Dans cette perspective, il semble plus approprié d’étudier la segmenta-
tion au moyen d’une famille de partitions emboîtées, plutôt qu’une partition unique. Ajoutée à la
notion d’échelle, cette idée conduit à la structure de hiérarchie indicée.
Dans le cadre métrique, les hiérarchies indicées correspondent à un type de distances appelées
ultramétriques. Ces distances induisent un nouveau type de partitions métriques, les partitions
ultramétriques, qui sont à la fois des partitions par seuillage et de Voronoï. Nous abordons dans
9
le Chapitre 6 le problème de la construction d’ultramétriques significatives pour la segmentation.
Dans ce but, nous remarquons que l’information géométrique des objets est en grande partie
exprimée dans leurs contours. Ainsi, nous proposons des ultramétriques spécifiques pour l’ex-
traction des contours des images naturelles. Ces distances sont déterminées principalement par
l’information de frontière des régions, qui est ensuite complétée par leurs attributs internes.
Évaluation des résultats
La démarche méthodologique suivie consiste à utiliser uniquement l’information de bas ni-
veau, retardant le plus possible l’utilisation de la connaissance sémantique dans le processus de
segmentation. Ainsi, nous exprimons systématiquement les degrés de liberté de notre système
sous forme de paramètres et interprétons leur ajustement comme l’introduction d’information de
plus haut niveau sur la structure géométrique des objets. La dernière partie du mémoire s’inté-
resse à l’inclusion de ce type d’information dans notre système de segmentation. Nous présentons
dans le Chapitre 7 une méthodologie générale pour mesurer la qualité d’une segmentation par
rapport à une référence. Cette vérité terrain contient l’information préalable, qui est dans notre
cas composée de segmentations humaines d’images naturelles. Ce cadre nous permet finalement
dans le Chapitre 8 d’optimiser les paramètres du système, d’évaluer quantitativement la perti-
nence de notre approche, et de la comparer à d’autres méthodes de segmentation.
10
Première partie
Cadre de travail
11
12
Chapitre 1
Distances et partitions
1.1 Introduction
La notion de distance est intimement liée à notre façon d’appréhender le monde. Qu’il
s’agisse d’objets physiques ou de concepts, il nous semble naturel de comparer deux éléments
d’un ensemble en disant qu’ils sont "proches" ou "éloignés". La formalisation mathématique la
plus répandue de cette idée intuitive est celle d’espace métrique, où les éléments de l’ensemble
sont appelés points et la distance est mesurée avec des nombres réels positifs.
Les distances sont en particulier utilisées pour décomposer des ensembles. Dans cette op-
tique, deux stratégies semblent naturelles. La première consiste à considérer un point ou un
ensemble initial S et à diviser les points de l’espace selon que leur distance à S est inférieure
ou supérieure à un seuil. Nous appelons cette approche partition par seuillage de la distance.
La Figure 1.1.a présente un exemple où S est un point isolé. Dans ce cas, l’ensemble de niveau
inférieur de la distance est la boule centrée en S.
La deuxième stratégie consiste à se donner une famille de points ou de sous-ensembles, ap-
pelés sites, et à assigner chaque point de l’espace au site le plus proche. Cette construction est
connue sous le nom de partition de Voronoï et les régions qu’elle définit sont souvent nom-
mées régions de Voronoï. La Figure 1.1.b présente une partition de Voronoï classique. Dans cet
exemple, un rectangle du plan est divisé en mesurant la distance euclidienne entre chaque point
13
14
(a) (b)
FIG. 1.1 – Exemple de partitions de l’espace induites par la distance euclidienne. a : partitionpar seuillage. b : partition de Voronoï.
et quatre sites. Les régions de Voronoï sont ici des polygones convexes.
De nombreux objets naturels, comme ceux des Figures 1.2.a et 1.2.b, présentent une structure
similaire aux partitions de Voronoï. Il n’est donc guère surprenant que cette notion soit de longue
date familière au monde scientifique. En 1644, Descartes utilisait déjà des constructions proches
des partitions de Voronoï dans ses Principia Philosophiae [Des44]. La Figure 1.2.c reproduit
par exemple une illustration employée par l’auteur pour décrire la distribution de la matière aux
alentours du système solaire.
Les premières formalisations du concept sont attribuées à Dirichlet [Dir50] et à Voronoï
[Vor07, Vor08, Vor09] dans le cadre de leurs études sur les formes quadratiques. Cependant,
grâce à la nature hautement intuitive de sa définition, la partition de Voronoï fut redécouverte
indépendamment dans des domaines très divers. Ainsi, les régions de Voronoï sont fréquemment
appelées pleisohedra en cristallographie, polygones de Thiessen en météorologie, régions de
Wigner-Seitz en chimie, ou encore zones d’influence en morphologie mathématique.
Depuis son introduction, la partition de Voronoï a trouvé son application dans un très large
spectre de disciplines et a fait l’objet de nombreuses généralisations. Le livre de Okabe et al.
[OBSC02] et la monographie de Aurenhammer et Klein [AK00] sont deux ouvrages de référence
sur le sujet. Parmi les applications des Partitions de Voronoï à l’analyse d’images, on peut citer
15
(a) (b) (c)
FIG. 1.2 – a et b : Structures naturelles semblables à une partition de Voronoï. c : Représentationdes alentours du système solaire par Descartes : S désigne le soleil, F une étoile proche et lacourbe qui passe par les points E et V décrit la trajectoire d’un comète.
la compression [AAS85], la représentation des formes [MR96] ou la classification des textures
[TJ90].
Voronoï fut aussi le premier à remarquer qu’une partition duale de l’espace peut être définie
en joignant par un segment de droite tous les sites dont les régions sont adjacentes. Cette autre
structure, connue aujourd’hui sous le nom de triangulation de Delaunay, est aussi largement
utilisée. Son étude dépasse cependant le cadre du présent travail. Le lecteur intéressé trouvera
dans [OBSC02] un traitement exhaustif du sujet.
Ce premier chapitre présente le cadre mathématique de notre étude ; les principales notions
sont définies et les notations employées tout au long du mémoire sont introduites. Nous commen-
çons par rappeler les bases du formalisme métrique pour nous intéresser ensuite aux partitions
de l’espace induites par une distance.
16
1.2 Espaces pseudo-métriques
1.2.1 Définitions
Définition 1.2.1. Une pseudo-métrique [Kel75] sur un ensemble Ω est une application ψ :
Ω× Ω → R qui satisfait les axiomes suivants :
Réflexivité :
ψ(x, x) = 0, ∀x ∈ Ω. (1.2.1)
Inégalité Triangulaire :
ψ(x, y) ≤ ψ(z, x) + ψ(z, y), ∀x, y, z ∈ Ω. (1.2.2)
Le couple (Ω, ψ) est appelé un espace pseudo-métrique et le nombre ψ(x, y) est la distance
entre les points x et y. Les pseudo-métriques sont parfois aussi appelées écarts finis [Kur66].
Les deux propriétés suivantes sont conséquence immédiate de la Définition 1.2.1 :
Proposition 1.2.1. Si (Ω, ψ) est un espace pseudo-métrique, alors :
Symétrie :
ψ(x, y) = ψ(y, x), ∀x, y ∈ Ω. (1.2.3)
Positivité :
0 ≤ ψ(z, y), ∀z, y ∈ Ω. (1.2.4)
Démonstration. Pour prouver la Symétrie, considérons l’Inégalité Triangulaire en remplaçant z
par y :
ψ(x, y) ≤ ψ(y, x) + ψ(y, y).
Or, d’après la Réflexivité, ψ(y, y) = 0, donc :
ψ(x, y) ≤ ψ(y, x).
17
En inversant les rôles de x et y on obtient l’inégalité inverse ψ(y, x) ≤ ψ(x, y), d’où le résultat.
Prouvons la Positivité. D’après l’Inégalité Triangulaire avec x = y, on a :
ψ(y, y) ≤ ψ(z, y) + ψ(z, y)
et donc, d’après la Réflexivité, 0 ≤ ψ(z, y).
Souvent, la structure métrique est utilisée pour organiser les points de l’espace par rapport à
un point ou un ensemble fixé.
La distance à un point s ∈ Ω est l’application d’une seule variable ψs : Ω → R+ donnée
par :
ψs(x) = ψ(x, s),∀x ∈ Ω.
La distance à un ensemble S ⊂ Ω est définie comme le minimum de la distance aux points de
S :
ψS(x) = infs∈S
ψs(x),∀x ∈ Ω. (1.2.5)
La boule (ouverte) centrée en un point s ∈ Ω et de rayon r > 0 est définie comme dans un
espace métrique :
Bs(r) = x ∈ Ω | ψ(s, x) < r
On prouve que la famille de boules
B = Bs(r) | s ∈ Ω, r > 0
est une base pour une topologie, nommée topologie pseudo-métrique de Ω induite par ψ.
1.2.2 Espace quotient
Remarquons que la seule différence entre la Définition 1.2.1 et celle d’un espace métrique
est la Réflexivité, qui remplace l’axiome de Séparation habituel :
18
ψ(x, y) = 0 ⇔ x = y.
Par conséquent, deux points distincts peuvent se trouver à distance nulle dans un espace
pseudo-métrique.
Cependant, la relation ∼ψ, définie dans Ω× Ω par la formule
x ∼ψ y ⇔ ψ(x, y) = 0
satisfait clairement les trois propriétés suivantes :
x ∼ψ x, ∀x ∈ Ω.
x ∼ψ y ⇔ y ∼ψ x.
Si x ∼ψ y et y ∼ψ z, alors x ∼ψ z.
La relation ∼ψ est donc une relation d’équivalence et on peut considérer la classe d’équiva-
lence d’un point x, formée par tous les points qui sont à distance nulle de x :
x(ψ) = y ∈ Ω | ψ(x, y) = 0.
Ainsi, x(ψ) est la fermeture de x pour la topologie pseudo-métrique. Les classes d’équivalence
indiquent le niveau de résolution de l’espace, en dessous duquel la distance est aveugle.
L’ensemble des classes d’équivalence est noté par :
Ω(ψ) = x(ψ)| x ∈ Ω.
Une topologie pour Ω(ψ) est alors définie en considérant le système de voisinages suivant :
Soit U une partie ouverte de Ω pour la topologie pseudo-métrique qui contient la classe
x(ψ). Un voisinage de x(ψ) dans Ω(ψ) est défini comme l’union de tous les y(ψ) ∈ Ω(ψ) tels
que y(ψ) ⊂ U dans Ω.
19
L’ensemble Ω(ψ) muni de cette topologie est appelé l’espace quotient de Ω sous ∼ψ. Ainsi,
la projection naturelle πψ : Ω → Ω donnée par la formule πψ(x) = x(ψ),∀ x ∈ Ω est une
fonction continue.
Par conséquent, l’application ψ : Ω(ψ) × Ω(ψ) → R définie par ψ(x, y) = ψ(x, y) est une
métrique pour l’espace quotient. Remarquons que, dans le cas où ψ est déjà une métrique, alors
l’espace quotient Ω(ψ) est homéomorphe à Ω.
1.2.3 Exemples
Illustrons à présent les définitions avec trois exemples élémentaires de pseudo-métriques dans
le plan : la distance euclidienne et deux projections.
Exemple 1
L’espace métrique canonique est l’espace euclidien (Rn, ε), où la distance entre deux points
x = (x1, ..., xn) et y = (y1, ..., yn) est donnée par la formule de Pythagore :
ε(x, y) =
[n∑
i=1
(xi − yi)2
]1/2
.
Puisque ε est une métrique, l’espace quotient Rn(ε) coïncide avec Rn et s(ε), la classe d’équiva-
lence du point s, est réduite au singleton s.
La Figure 1.3 montre deux exemples de distance euclidienne à un ensemble S ⊂ R2. En
haut, S est réduit à un point isolé et le graphe de εS est un cône. Dans l’exemple d’en bas, S est
une courbe. Cette figure illustre aussi deux façons de présenter la distance à un sous-ensemble
du plan. La première est l’image des intensités (au centre), où le niveau de gris de chaque pixel
est proportionnel à sa distance à S, et la seconde est le graphe (à droite), comme sous-ensemble
de R3 :
(x, ψS(x)) | x ∈ R2.
20
S εs εs
(a) (b) (c)
FIG. 1.3 – a : Ensemble de référence S : un point isolé (haut) et une courbe (bas). b : Imagesdes intensités de la distance euclidienne à S. c : Graphes de εS .
Exemple 2
Soit l’application ψ1 : R2 × R2 → R définie, pour tout couple de points x = (x1, x2), y =
(y1, y2) ∈ R2, par la formule :
ψ1(x, y) = |x2 − y2| = ε(x2, y2).
Remarquons que, puisque (R, ε) est un espace métrique, ψ1 satisfait les deux axiomes de la
Définition 1.2.1 :
ψ1(x, x) = |x2 − x2| = 0, ∀x ∈ Ω.
ψ1(x, y) = |x2 − y2| ≤ |z2 − x2|+ |z2 − y2| = ψ1(z, x) + ψ1(z, y), ∀x, y, z ∈ Ω.
Ainsi, (R2, ψ1) est un espace pseudo-métrique. Cet espace n’est cependant pas métrique, car
la classe d’équivalence d’un point s = (s1, s2) correspond à la droite horizontale qui passe par
s :
s(ψ1) = y ∈ R2 | ψ1(s, y) = 0 = (y1, y2) ∈ R2 | y2 = s2.
21
s(ψ1) ψ1s ψ1
s
s(ψ2) ψ2s ψ2
s
(a) (b) (c)
FIG. 1.4 – a : Classes d’équivalence d’un point. b : Images des intensités de la distance au point.c : Graphes de la distance au point.
L’espace quotient R2(ψ1) est donc homéomorphe à la droite des réels (R, ε). Enfin, la projection
πψ1 est ici la projection du plan cartésien sur l’axe des ordonnées : πψ1(x1, x2) = x2, et la
métrique quotient ψ1 coïncide avec la distance euclidienne dans R.
Exemple 3
Exprimons enfin les points du plan en coordonnées polaires et considérons l’application ψ2
définie, pour tout couple de points x = (r1, θ1), y = (r2, θ2) ∈ R+ × [0, 2π[ , par la formule :
ψ2(x, y) = |r1 − r2| = ε(r1, r2).
La vérification que ψ2 est une pseudo-métrique est identique à l’Exemple 2. Par ailleurs, puisque
ψ2 mesure la différence absolue des modules des points, la classe d’équivalence d’un point s =
(r0, θ0) est le cercle centré en l’origine O et de rayon r0 :
s(ψ2) = (r, θ) ∈ R+ × [0, 2π[ | r = r0.
22
L’espace quotient de R+ × [0, 2π[ sous ψ2 est une semi-droite munie de la distance euclidienne.
La Figure 1.4 illustre les définitions avec les pseudo-métriques ψ1 et ψ2, dans le cas où S est
un point isolé.
Notons enfin que, pour ces exemples simples de pseudo-métriques, l’application ψs mesure
la distance euclidienne à l’ensemble s(ψ).
1.2.4 Chemins et convexité
La notion usuelle de convexité dans Rn repose sur la distance euclidienne. On dit qu’un
ensemble Ω ⊂ Rn est convexe si, pour tout couple de points, le segment de droite les joignant
est entièrement contenu dans Ω. L’étude des partitions d’un espace pseudo-métrique requiert
l’extension de ce concept.
Un chemin γ entre deux points x, y ∈ Ω est une application continue d’un segment de (R, ε)
dans l’espace (Ω, ψ) :
γ : [a, b] → Ω tel que γ(a) = x et γ(b) = y.
L’image d’un chemin est appelée une courbe de Ω et notée aussi γ :
γ = x ∈ Ω | ∃t ∈ [a, b] : x = γ(t)
L’ensemble des chemins entre x et y est noté Γxy et l’ensemble des chemins entre points de
Ω est noté ΓΩ.
Un ensemble Ω est connexe par arcs s’il existe un chemin reliant entre eux tout couple de
points.
Un chemin γ ∈ Γxy est ψ−droit s’il satisfait la condition suivante :
∀ t ∈ [a, b], ψ(x, y) = ψ(x, γ(t)) + ψ(γ(t), y)
Les chemins ψ−droits sont donc l’équivalent des segments de droite pour une distance arbitraire.
Ce sont les chemins pour lesquels l’Inégalité Triangulaire devient une égalité. Notons cependant
23
que, à la différence de l’espace euclidien, un chemin ψ−droit entre deux points d’un espace
pseudo-métrique peut ne pas être unique.
Ainsi, la notion de convexité dans notre cadre de travail est la suivante :
Définition 1.2.2. Un espace pseudo-métrique (Ω, ψ) est convexe si et seulement si, pour tout
couple de points, il existe un chemin ψ−droit les joignant.
On dira aussi que l’ensemble Ω est convexe pour ψ. Notons enfin que tout espace convexe
est connexe par arcs.
1.3 Partitions métriques
Cette section s’intéresse aux partitions induites par une distance. Nous commençons par pré-
ciser la notion de décomposition de l’espace considérée.
Définition 1.3.1. Soit (Ω, ψ) un espace pseudo-métrique. Une partition de Ω est une famille
finie Ω1, ..., Ωn de sous-ensembles de Ω, qui satisfait les conditions suivantes :
Ωi est fermé, ∀i ∈ 1, ..., n. (1.3.1)
[Ωi \ ∂Ωi]⋂
[Ωj \ ∂Ωj] = ∅, ∀ i 6= j. (1.3.2)
n⋃i=1
Ωi = Ω. (1.3.3)
Une partition est donc un recouvrement de Ω en régions fermées qui se superposent unique-
ment sur leurs frontières.
24
1.3.1 Partitions par seuillage
Un premier type de partitions métriques repose sur la notion d’ensemble de niveau d’une
fonction scalaire.
Définition 1.3.2. L’isoensemble de niveau k d’une fonction F : Ω → R est défini par :
[F = k] = F−1(k).
L’ensemble de niveau inférieur (au niveau k) d’une fonction F : Ω → R est donné par :
[F ≤ k] = x ∈ Ω | F (x) ≤ k.
De même, on définit l’ensemble de niveau supérieur (au niveau k) de F :
[F ≥ k] = x ∈ Ω | F (x) ≥ k.
Si on se donne un ensemble de référence S ⊂ Ω, une première façon de décomposer un
espace pseudo-métrique (Ω, ψ) est de considérer les ensembles de niveau de la fonction scalaire
ψS . Ainsi, on peut partager les points de l’espace entre ceux qui se trouvent à une distance de S
inférieure ou égale à un seuil k :
[ψS ≤ k] = x ∈ Ω | ψS(x) ≤ k
et ceux dont la distance à S est supérieure ou égale à k :
[ψS ≥ k] = x ∈ Ω | ψS(x) ≥ k.
Remarquons que, si S est connexe, alors l’ensemble de niveau inférieur de ψS l’est aussi. En
revanche, l’ensemble de niveau supérieur de la distance à S, [ψS ≥ k], peut posséder plusieurs
composantes connexes, notées [ψS ≥ k]1, ..., [ψS ≥ k]q .
25
Π(ε, s, k) Π(ψ1, s, k) Π(ψ2, s, k)
FIG. 1.5 – Exemples de partitions par seuillage de la distance à un point.
Nous appelons partition par seuillage de la distance l’ensemble :
Π(ψ, S, k) = [ψS ≤ k], [ψS ≥ k]1, ..., [ψS ≥ k]q
En termes morphologiques, la construction de Π(ψ, S, k) est équivalente à la dilatation de S
lorsque l’élément structurant est une boule de rayon k pour la distance ψ.
La Figure 1.5 montre trois exemples de ce type de partitions. L’ensemble initial est le point
s de la Figure 1.4 et les pseudo-métriques sont celles de la Section 1.2.3. Dans chaque cas, le
niveau k à été fixé à 3/10 du maximum de la distance sur l’ensemble.
1.3.2 Partitions de Voronoï
Une deuxième façon de décomposer l’espace à partir de sa structure métrique est de consi-
dérer les "régions d’attraction" d’un ensemble de points fixés appelés, selon le contexte, sites,
sources ou générateurs.
Définition 1.3.3. Soit (Ω, ψ) un espace pseudo-métrique fermé et S = s1, ..., sn ⊆ Ω un
ensemble fini de sites.
La région de Voronoï, ou V-région, du site si ∈ S est définie par :
Vi = x ∈ Ω|ψsi(x) ≤ ψsj
(x),∀j ∈ 1, ..., n, j 6= i.
La partition de Voronoï, ou V-partition, de Ω associée à ψ et à S est l’ensemble des régions
26
de Voronoï :
Π(ψ, S) = V1, ..., Vn.
Le diagramme de Voronoï, ou V-diagramme, de Ω associé à ψ et à S est l’union des fron-
tières des régions de Voronoï :
∆(ψ, S) =n⋃
i=1
∂Vi.
En morphologie mathématique, les V-régions s’appellent aussi les zones d’influence des sites
et le V-diagramme, le squelette par zones d’influence [Lan78].
Notons que la famille finie Π(ψ, S) est bien une partition de Ω, dans le sens de la Définition
1.3.1. Dans le cas des espaces convexes, les régions de Voronoï sont de surcroît des ensembles
connexes, comme le montre le résultat suivant.
Proposition 1.3.1. Soit Π(ψ, S) une V-partition dans un espace pseudo-métrique convexe et
fermé (Ω, ψ). Alors, tout chemin ψ−droit entre un site si et un point x ∈ Vi est complètement
inclus dans Vi.
Démonstration. Puisque (Ω, ψ) est convexe, il existe un chemin ψ−droit reliant entre eux tout
couple de points de Ω. Notons γ un chemin ψ−droit entre un site si et un point x de sa région de
Voronoï. Supposons que γ n’est pas complètement inclus dans Vi. Il existe alors un point y dans
la courbe γ tel que y /∈ Vi. Donc, puisque les régions de Voronoï recouvrent Ω, il existe un autre
site sj 6= si tel que ψsj(y) < ψsi
(y). Mais, étant donné que γ est un chemin ψ−droit, l’Inégalité
Triangulaire donne :
ψsj(x) = ψ(x, sj) ≤ ψ(y, x) + ψ(y, sj) < ψ(y, x) + ψ(y, si) = ψ(x, si) = ψsi
(x).
Ainsi ψsj(x) < ψsi
(x). On en déduit que x /∈ Vi, ce qui est en contradiction avec les hypothèses.
27
(a) (b) (c)
FIG. 1.6 – a : Ensemble de sites S et univers Ω. b et c : Partitions de Voronoï Π(ψ1, S) etΠ(ψ2, S).
Toute région de Voronoï d’un espace pseudo-métrique convexe est donc un sous-ensemble
connexe de Ω. Notons par ailleurs que le résultat précédent fournit une description géométrique
plus précise des V-régions : celles-ci ont la forme d’une étoile à partir du site. Dans le cas des
partitions de Voronoï induites par la métrique euclidienne, les V-régions sont des polygones
convexes, comme le montre la Figure 1.1.a. La convexité n’est cependant pas forcément préser-
vée pour une distance arbitraire [AK00].
Remarquons que tout élément d’une partition de Voronoï est une union d’éléments de l’es-
pace quotient. De plus, notons que ψs = ψy, ∀y ∈ s(ψ). Un site peut donc être remplacé par
un autre point de sa classe d’équivalence sans affecter la V-partition. Par suite, la notion de site
désignera indistinctement le point s ou sa classe d’équivalence s(ψ).
Considérons par exemple l’ensemble de sites S = s1, s2, s3, s4 dans l’univers rectangulaire
Ω de la Figure 1.6.a et les pseudo-métriques ψ1 et ψ2 de la Section 1.2.2. Puisque s1 et s4
ont même ordonnée, leurs classes d’équivalence sous ψ1 coïncident et correspondent à la droite
horizontale tracée en noir. De même, si l’origine est choisie en s2, alors on a s1(ψ2) = s4(ψ
2)
et cette classe d’équivalence unique correspond au cercle noir. Par conséquent, dans toute V-
partition induite par ψ1 ou ψ2 les deux points appartiendront à la même V-région. En outre, pour
ces deux pseudo-métriques, les ensembles de sites s1, s2, s3, s4, s1, s2, s3 et s2, s3, s4 sont
équivalents.
Les Figures 1.6.b et 1.6.c montrent les partitions de Voronoï obtenues avec l’ensemble de
28
sites de la Figure 1.6.a et les pseudo-métriques ψ1 et ψ2 respectivement. Dans le premier cas,
les régions de Voronoï sont des bandes horizontales, tandis que pour ψ2 ce sont des couronnes
centrées en l’origine.
Remarquons toutefois que l’espace pseudo-métrique (Ω, ψ2) n’est pas convexe. Ceci peut
s’observer aussi dans la Figure 1.6.a : tout chemin ψ2-droit joignant s1 et s4 est par définition
contenu dans s1(ψ2), le cercle noir, or celui-ci n’est pas entièrement contenu dans le rectangle
Ω. Par conséquent, les V-régions sous ψ2 dans cet univers peuvent ne pas être connexes.
1.3.3 Cadre variationnel
Nous complétons ce chapitre par une formulation variationnelle de l’approche métrique. Ce
paragraphe présente les V-partitions en tant que minimisatrices d’une énergie et le paragraphe
suivant contient un résultat analogue pour les V-partitions centrées. On se place ici dans Rn et on
suppose que (Ω, ψ) est un espace métrique.
Lemme 1.3.2. Soit S = s1, ..., sn un ensemble de sites et Π = Ω1, ..., Ωn une partition de
Ω ⊂ Rn telle que si ∈ Ωi, ∀i ∈ [1, ..., n].
Alors, Π est une partition de Voronoï si et seulement si
ψsi(x) = ψS(x),∀ x ∈ Ω. (1.3.4)
Démonstration. Supposons que Π = V1, ..., Vn est la partition de Voronoï associée à S. Soient
x ∈ Ω et Vi ∈ Π tels que x ∈ Vi. Alors, par définition de V-région, on a
ψsi(x) ≤ ψsj
(x),∀j ∈ 1, ..., n, j 6= i
Donc, d’après la définition de distance à un ensemble (1.2.5),
ψsi(x) = ψS(x).
29
Réciproquement, si Π n’est pas une partition de Voronoï, alors au moins une de ses régions n’est
pas une V-région : ∃i : Ωi 6= Vi. Considérons un point x ∈ Ωi\Vi. Il existe alors une V-région
Vj 6= Vi telle que x ∈ Vj . On a donc
ψS(x) = ψsj(x) < ψsi
(x).
Théorème 1.3.3. Soit S = s1, ..., sn un ensemble de sites et Π = Ω1, ..., Ωn une partition
de Ω telle que si ∈ Ωi, ∀i ∈ [1, ..., n].
Alors, Π minimise l’énergie :
E(Ω1, ..., Ωn) =n∑
i=1
∫
Ωi
ψsi(x)dx (1.3.5)
si et seulement si Π est une partition de Voronoï.
Démonstration. Par définition de ψS , on a l’inégalité :
E(Ω1, ..., Ωn) =n∑
i=1
∫
Ωi
ψsi(x)dx ≥
n∑i=1
∫
Ωi
ψS(x)dx =
∫
Ω
ψS(x)dx = E(V1, ..., Vn). (1.3.6)
Pour une partition de Voronoï, l’énergie est donc minimale.
Réciproquement, si (1.3.6) est une égalité, alors pour tout i, on a∫
Ωiψsi
(x)−ψS(x)dx = 0.
Mais, par définition, ψsi(x) ≥ ψS(x) et on a :
∫Uψsi
(x)−ψS(x)dx = 0, pour tout U ⊆ Ωi.
Ainsi, puisque ψsiet ψS sont des fonctions continues, l’égalité est vraie sur Int(Ωi) = Ωi.
On a donc prouvé que : ∀x ∈ Ωi, ψsi(x) = ψS(x), ce qui est équivalent à dire que Ω1, ...Ωn
est une partition de Voronoï d’après le Lemme 1.3.2.
Un avantage de cette formulation variationnelle est qu’elle permet d’introduire de l’informa-
tion préalable dans la V-partition. On peut par exemple contrôler la régularité des V-régions en
ajoutant un terme de longueur de bord à l’énergie (1.3.6). Dans le contexte de la segmentation,
cette idée a été employée pour régulariser les contours obtenus par ligne de partage des eaux
[NWvdB03]. Cependant, puisque nous ne voulons pas inclure de connaissance à priori sur le
contenu de l’image dans notre système, cette approche ne sera pas développée dans la suite.
30
(a) (b) (c)
FIG. 1.7 – a : V-Partition non centrée. b et c : Partitions de Voronoï centrées.
1.3.4 Partitions de Voronoï centrées
Une partition de Voronoï centrée est une V-partition où chaque site est le barycentre de
sa V-région. Notons que cette condition n’est généralement pas satisfaite dans une V-partition
arbitraire, comme le montre la Figure 1.7.a.
Le barycentre ou centre de masse z∗ d’un ensemble V est défini au moyen d’une fonction de
densité ρ :
z∗ =
∫V
xρ(x)dx∫V
ρ(x)dx
Alternativement, on peut définir le barycentre de V par la minimisation d’une énergie :
z∗ = infz∈V
∫
V
ρ(x)ψ(x, z)dx
Enfin, on peut prouver le résultat suivant [DFG] :
Théorème 1.3.4. Soit S = s1, ..., sn un ensemble de sites et Π = Ω1, ..., Ωn une partition
de Ω telle que si ∈ Ωi, ∀i ∈ [1, ..., n].
Si Π minimise l’énergie :
F(Ω1, ..., Ωn, s1, ..., sn) =n∑
i=1
∫
Ωi
ρ(x)ψ2si(x)dx (1.3.7)
alors Π est une partition de Voronoï centrée.
31
TAB. 1.1 – Algorithme de Lloyd• Initialisation Partition de Voronoï initiale Π(ψ, S), où S = s1, ..., sn.
• Boucle : Itérer jusqu’à convergence : Calculer les barycentres des V-régions : S∗ = s∗1, ..., s∗n. Construire la Partition de Voronoï Π(ψ, S∗)
Notons que la fonctionnelle (1.3.7) dépend aussi bien des régions que des sites, contrairement
à celle définie par l’équation (1.3.5). Ce problème de minimisation admet une solution, mais elle
n’est généralement pas unique, comme le montrent les Figures 1.7.b et 1.7.c.
Il existe un certain nombre d’approches probabilistes et déterministes pour construire des
partitions de Voronoï centrées. Une des plus célèbres est l’algorithme de Lloyd [Llo82], présenté
dans le Tableau 1.1. Cette méthode, un cas particulier des nuées dynamiques de Diday [DLPT82],
repose sur l’alternance du calcul des barycentres et de la construction des V-partitions.
(a) (b)
FIG. 1.8 – Construction d’une Partition de Voronoï centrée par l’algorithme de Lloyd. a : V-partition initiale. b : Résultat après 50 itérations.
La Figure 1.8 présente un exemple d’application de cet algorithme. Un ensemble initial de
40 sites a été choisi aléatoirement. La fonction de densité est dans ce cas constante, de sorte que
z∗ soit le barycentre usuel, et la distance considérée est la distance euclidienne. On peut observer
que les sites tendent à se distribuer uniformément sur l’ensemble.
32
Chapitre 2
Images et segmentations
Nous nous intéressons dans ce chapitre au passage du monde continu au monde discret ainsi
qu’aux structures mathématiques et algorithmiques qui nous permettront de représenter et mani-
puler les images et leurs segmentations.
2.1 Images
Afin d’appliquer les notions introduites dans le chapitre précédent à la segmentation, l’en-
semble Ω désignera dorénavant le domaine d’une image.
Plus précisément, une image est une fonction u : Ω → (X, d), où le domaine de définition
Ω est, soit un sous ensemble de Rn dans le cadre continu, soit son intersection par une grille
régulière dans le cadre discret.
Le domaine d’une image 2D est usuellement un rectangle fermé du plan dans le cas continu
et une partie bornée de Z2 dans le cas discret.
Pour les images monochromatiques, l’espace pseudo-métrique d’arrivée (X, d) est (R, ε),
l’ensemble des réels muni de la distance usuelle. Le cas des images couleur requiert en revanche
une étude plus détaillée de l’espace des couleurs.
La représentation de la couleur est le sujet de la colorimétrie ; le lecteur intéressé dans ce do-
maine trouvera en [WS82] un ouvrage de référence. Le fondement de cette discipline sont les lois
33
34
expérimentales d’égalisation des couleurs, résumées dans le principe de généralisation trichro-
matique. Selon ce principe, la plupart des stimuli couleur perceptibles par l’œil humain peuvent
s’obtenir par le mélange pondéré de trois stimuli primaires. Les couleurs sont par conséquent
usuellement représentées par des vecteurs dans un espace de dimension trois, d’où X = R3.
L’espace le plus souvent utilisé est le système RVB, où la couleur d’un pixel est représentée
par le mélange additif des trois canaux chromatiques primaires Rouge, Vert et Bleu. D’une grande
utilité pratique pour le codage, cet espace présente néanmoins deux désavantages majeurs pour
notre application : il ne possède pas de métrique naturelle et il est mal adapté à la perception
humaine.
Outre l’existence d’une distance entre les couleurs, il serait souhaitable que la représentation
sépare l’information de luminosité de celle de chrominance, pour pouvoir inclure les images
monochromatiques comme un cas particulier du même modèle.
Les considérations précédentes nous ont conduit à adopter les standards L∗ab et L∗uv de la
Commission Internationale de l’Éclairage (CIE). Ces représentations sont des approximations
de l’espace des couleurs perceptuellement uniforme, où la couleur d’un pixel est décomposée
en une composante de luminosité L∗ et deux composantes chromatiques c1 et c2 ((a, b) et (u, v)
respectivement).
La métrique Riemannienne de l’espace des couleurs est généralement approchée dans les
systèmes L∗ab et L∗uv par la distance euclidienne. Cependant, sous certaines conditions d’obser-
vation, le poids relatif de la luminosité et de la chrominance perçues de deux stimuli de couleurs
peut varier [WS82]. Pour prendre en compte ces variations dans notre système, nous utilisons la
formule de distance suivante entre deux couleurs k = (l, c1, c2) et k′ = (l′, c′1, c′2) de ces espaces :
δ∗(k, k′) =√
(l − l′)2 + ξ(c1 − c′1)2 + ξ(c2 − c′2)2. (2.1.1)
Dans la suite, l’espace pseudo-métrique d’arrivée des images sera (X, d) = (L∗c1c2, δ∗).
Ainsi, lorsque ξ = 0, la seule information prise en compte est la luminosité et on retrouve le cas
35
des images monochromatiques. Par ailleurs, le poids ξ = 1 correspond aux espaces (L∗ab, ε) et
(L∗uv, ε) usuels.
2.2 Composantes connexes
L’objectif de notre travail est la segmentation de bas niveau, c’est-à-dire sans connaissance
préalable du contenu de l’image. Nous supposons donc que l’information des contours des ob-
jets est présente dans l’image originale et considérons comme contours possibles uniquement
ses discontinuités. Ce choix méthodologique, souvent adopté en segmentation morphologique
[Mey01b, Ser04], conduit à des contours parfois moins réguliers que ceux des approches diffé-
rentielles. En revanche, il n’oblige pas à interpréter l’image comme une fonction régulière.
Nous voulons donc construire des partitions métriques du domaine qui ne fragmentent pas
les zones constantes de l’image. Cette propriété est satisfaite lorsque la classe d’équivalence d’un
point x ∈ Ω coïncide avec la composante connexe de u qui contient x, notée Cx(u) et définie
par :
Cx(u) = y ∈ Ω | ∃γ ∈ Γxy : u(x) = u(y) = u(γ(t)), ∀t ∈ [a, b] . (2.2.1)
Alternativement, on peut définir Cx(u) comme le plus grand ensemble connexe qui contient x et
où u est constante.
On notera C(u) l’ensemble des composantes connexes de u :
C(u) = Cx(u) | x ∈ Ω.
Nous définirons dans la suite des espaces pseudo-métriques tels que x(ψ) = Cx(u). L’es-
pace quotient (Ω(ψ), ψ) est dans ce cas homéomorphe à l’espace des composantes de l’image
(C(u), δ∗) et les régions des partitions métriques considérées sont réunion de composantes connexes
de u.
Remarquons enfin que la non convexité du domaine n’est pas une limitation pour les distances
36
étudiées dans ce travail. En effet, ces distances sont déterminées par les données de l’image, dont
la définition peut être étendue hors du domaine de sorte qu’il contienne les chemins ψ-droits.
2.3 Segmentations
Nous avons jusqu’à présent considéré les segmentations comme des partitions de l’espace ;
cette section présente le formalisme de Morel et Solimini [MS95] pour leur définition en termes
de contours.
2.3.1 Définitions
Soit γ : [a, b] → Ω un chemin. Considérons σ = t0, ..., tn une subdivision finie de [a, b]
telle que a = t0 < t1 < ... < tn = b et notons Φ l’ensemble de ces subdivisions. La longueur
euclidienne de la courbe γ est définie par :
L(γ) = supσ∈Φ
n∑i=1
ε(γ(ti), γ(ti−1)). (2.3.1)
Une courbe rectifiable est une courbe de longueur euclidienne finie. Dans ce cas, on peut
reparamétrer la courbe par son abscisse curviligne, que nous notons l.
Une segmentation K est l’union d’un ensemble fini de courbes rectifiables.
La longueur d’une segmentation, notée L(K), est définie comme l’infimum des longueurs
de tous les ensembles dénombrables de courbes rectifiables dont l’union est K. Si K est l’union
d’un ensemble de courbes rectifiables se rencontrant uniquement en un ensemble dénombrable
de points, alors L(K) est la somme des longueurs des courbes.
Les régions d’une segmentation sont les composantes connexes de Ω\K. Elles seront notées
(Ωi)i. La mesure de Lebesgue bidimentionnelle de Ωi est notée |Ωi|.La frontière commune de deux régions Ωi et Ωj est contenue dans K et notée ∂(Ωi, Ωj) ou,
en l’absence d’ambiguïté, ∂ij . La frontière de Ωi est notée ∂Ωi.
37
Une courbe de Jordan est une courbe continue telle que ∀s, s′ ∈]0, 1[, s 6= s′, on a γ(s) 6=γ(s′). Si γ(0) = γ(1), la courbe de Jordan est fermée. Si γ(0) et γ(1) diffèrent, ils sont appelés
les extrémités de la courbe. Les autres points sont appelés points intérieurs de la courbe.
Une segmentation est normale1 si elle est l’union d’un ensemble fini de courbes de Jordan
rectifiables, qui se rencontrent entre elles et rencontrent ∂Ω uniquement en leurs extrémités. De
plus, chaque courbe de Jordan sépare deux régions différentes et chaque extrémité est commune
à au moins trois courbes de Jordan.
Les contours d’une segmentation normale sont les courbes de Jordan qui la composent. Les
points de rencontre de la segmentation sont leurs extrémités. Les contours peuvent être définis
de façon équivalente comme les composantes connexes des frontières communes ∂(Ωi, Ωj).
Les segmentations normales ont les propriétés suivantes :
Une segmentation normale avec α régions peut se décomposer en l’union de α − 1 courbes
de Jordan se rencontrant uniquement sur un ensemble fini de points.
Soit une segmentation normale avec α régions, β contours et η points de rencontre. Alors :
η ≤ 2(α− 1) et β ≤ 3(α− 1)− 2.
2.3.2 Représentation des contours
Une partition a été définie (Définition 1.3.1) comme un recouvrement du domaine en régions
fermées qui se superposent uniquement sur leurs frontières. Dans le cas de l’espace euclidien,
les V-partitions sont effectivement des segmentations normales et l’ensemble des contours K
coïncide avec le V-diagramme. Cependant, en général, l’ensemble des frontières d’une partition
pseudo-métrique peut avoir une aire non nulle. En outre, sur un domaine discret, cet ensemble
peut être fragmenté comme conséquence du processus de discrétisation. Ces considérations nous
ont conduit aux choix méthodologiques que nous décrivons dans ce paragraphe.
1appelée 1-normale dans [MS95]
38
(a) (b)
FIG. 2.1 – Représentation des contours. a : pixels. b : edgels.
Un premier problème pratique qui se pose est la représentation de la frontière entre deux
régions. Pour les images numériques définies sur une grille carrée, on représente usuellement
les frontières par un ensemble de pixels ou par les éléments d’une grille duale d’espaces inter-
pixellaires appelés edgels2, comme le montre la Figure 2.1.
Si on considère le processus d’acquisition de l’image comme l’échantillonnage d’un phéno-
mène continu, le modèle pixellaire semble le plus approprié géométriquement. En effet, puisque
la mesure obtenue dans les pixels frontière est un mélange des mesures des pixels voisins, il est
possible de déduire une estimation sous-pixellaire de la frontière réelle si on maîtrise les condi-
tions d’acquisition de l’image. Ce ne sera généralement pas notre cas. Le modèle pixellaire sur
une grille carrée présente par ailleurs des problèmes en topologie discrète, comme la non validité
du théorème de Jordan ou la nécessité de choisir deux connexités différentes pour une région et
sa frontière (voir par exemple [SM94]).
Nous avons par conséquent adopté le modèle inter-pixellaire qui, du point de vue de la seg-
mentation, est plus naturel et facile à gérer. Nous allons donc considérer en pratique des partitions
qui sont un recouvrement du domaine discret en régions disjointes.
2edgel : acronyme formé des mots anglais edg-e et el-ement.
39
Définition 2.3.1. Une partition du domaine de définition Ω d’une image numérique est une
famille finie Ω1, ..., Ωn de sous-ensembles de Ω, qui satisfait les conditions suivantes :
1. Ωi
⋂Ωj = ∅, ∀ i 6= j.
2.n⋃
i=1
Ωi = Ω.
Nous supposerons dans la suite que les points centraux des edgels d’une partition discrète
sont un échantillonnage des contours d’une segmentation normale.
Pour construire une partition discrète, nous assignons les pixels des frontières pseudo-métriques
à l’une des deux régions qu’ils séparent. Nous verrons dans la quatrième partie que, pour les dis-
tances étudiées, ce choix est secondaire pour la qualité globale de la segmentation.
2.3.3 Images mosaïques
A partir d’une segmentation, on peut construire une approximation régulière par morceaux de
l’image originale en choisissant un modèle, par exemple un spline d’ordre fixé, pour représenter
chaque région. Notre approche se fondant sur l’information de l’image originale, nous utiliserons
l’approximation surtout pour présenter les résultats. Le modèle des régions sera donc constant,
par exemple, la valeur de l’image sur le site, la médiane ou la moyenne sur la région. On obtient
ainsi une reconstruction de l’image constante par morceaux qui sera appelée dans la suite une
image mosaïque ou simplement mosaïque.
2.4 Graphes et arbres
2.4.1 Définitions
Graphes et arbres servent à modéliser les images à différents niveaux d’analyse. Nous rappe-
lons dans ce paragraphe les définitions de ces structures et précisons les notations. Pour plus de
détails, le lecteur peut consulter par exemple [CP95].
40
Un graphe orienté est un couple G = (X, A) où X est un ensemble fini et A est un sous-
ensemble de X2 définissant une relation binaire sur X .
Les éléments de X sont les sommets du graphe et ceux de A sont les arcs.
On considère l’application V : X → P(X) définie par V (x) = y ∈ X | (x, y) ∈ A.
L’ensemble V (x) est appelé un voisinage du sommet x ∈ X . Si y ∈ V (x), on dit que x et y sont
adjacents.
Un élément a ∈ A de la forme a = (x, x) pour x ∈ X est appelé une boucle.
Si les propriétés de G ne dépendent pas du sens des arcs, on dit que G est un graphe non
orienté. On considère dans ce cas les couples non ordonnés a = (x, y), qu’on appelle arêtes.
Un graphe est simple s’il est sans boucles et s’il n’y a jamais plus d’une arête entre deux
sommets donnés.
Un graphe est planaire s’il est possible de le représenter dans un plan sans que deux arcs ne
se croisent.
Un chemin, ou chaîne, entre deux sommets x0, xn ∈ X est une séquence π = x0, x1, ..., xntelle que xi+1 ∈ V (xi) pour tout i = 0, ..., n − 1. L’ensemble des chemins entre x et y est noté,
comme dans le cas continu, Γxy.
Un cycle est une chemin dont les extrémités coïncident et qui n’utilise pas deux fois le même
arc.
Un graphe est connexe si, pour tout couple de sommets, il existe un chemin les joignant.
Un arbre est un graphe non orienté simple, connexe et sans cycle.
La structure de graphe peut être enrichie en considérant une application à valeurs réelles w
définie sur X ou sur A. Dans le premier cas, on parle d’attribut d’un sommet et, dans le second,
de poids d’une arête. G est appelé dans les deux cas un graphe valué.
41
Image Zones plates Graphe de composantes
FIG. 2.2 – Exemple de graphe de composantes d’une image.
2.4.2 Graphes d’adjacence
Graphe de pixels
Une image peut toujours être traitée comme un graphe de pixels, où les sommets sont les
pixels et les arêtes relient des pixels voisins pour une connexité discrète (usuellement 4, 6 ou 8
connexité). Dans ce cas, on peut assigner comme attribut à chaque sommet la valeur de l’image
dans le pixel. Le poids des arêtes sert à exprimer des relations entre pixels voisins. Ce graphe est
utilisé dans le Chapitre 3 pour implanter les distances pondérées.
Graphe de composantes
Dans le cadre de notre approche, les éléments de base ne sont pas les pixels mais les com-
posantes connexes de l’image. Une première façon d’interpréter les composantes dans le cadre
discret est de considérer des chemins sur le graphe de pixels dans leur définition (2.2.1). La
composante d’un point est ainsi définie comme sa zone plate, l’ensemble des points qu’on peut
atteindre en suivant un chemin discret où l’image est constante.
Ainsi, nous utilisons souvent un graphe de composantes à la place du graphe de pixels. Dans
ce graphe, les sommets représentent les zones plates de l’image et leur attribut est la valeur du
canal de luminosité L∗. Les arêtes sont pondérées par la distance couleur δ∗ entre deux compo-
santes voisines. Sur cette structure repose une des constructions de la distance étudiée dans le
42
Chapitre 4.
Graphe de régions
Une segmentation est une partition du domaine de l’image et, à toute partition discrète, on
peut associer un graphe appelé graphe d’adjacence de régions (RAG3). Les sommets du graphe
sont les parties connexes des régions qui composent la partition. Deux sommets sont reliés par
une arête si les deux régions sont adjacentes, c’est-à-dire s’il existe au moins deux pixels voisins
appartenant chacun à l’une des deux régions. De même que le graphe de composantes, le RAG
dépend du type de connexité entre les pixels. Il est planaire pour la 4-connexité mais pas pour la
8-connexité.
Dans le cas du RAG, nous allons considérer une liste d’attributs pour décrire les caractéris-
tiques internes de chaque région. Le poids des arêtes sera pour sa part une mesure de dissem-
blance entre deux régions adjacentes.
Un avantage du RAG est d’élever le niveau de représentation de l’image en passant des pixels
(ou des composantes connexes) aux régions. Ces graphes se trouvent à la base des représentations
hiérarchiques des images qui seront construites dans la troisième partie du mémoire. Le graphe
de pixels et le graphe de composantes en sont des cas particuliers.
2.4.3 Arbres d’inclusion
La représentation de l’image par un graphe d’adjacence privilégie la relation de connexité.
La relation d’inclusion est pour sa part codifiée naturellement par une structure d’arbre.
Arbre de formes
Le graphe de composantes est construit en représentant, dans le cadre discret, les compo-
santes connexes par des zones plates. Pour les images monochromatiques, une alternative est de3RAG : de l’anglais Region Adjacency Graph.
43
[u ≥ 0] [u ≥ 1] [u ≥ 2] Arbre de maxima
[u ≤ 2] [u ≤ 1] [u ≤ 0] Arbre de minima
FIG. 2.3 – Exemple d’arbres de minima et de maxima avec l’image de la Figure 2.2.
considérer les ensembles de niveau (voir la Définition 1.3.2).
Les composantes connexes des ensembles de niveau sont ordonnées par l’inclusion (voir
la Figure 2.3). Les ensembles de niveau supérieurs définissent donc un arbre, appelé arbre de
maxima (max-tree), dont les feuilles sont les maxima régionaux de l’image et la racine est le plus
bas niveau [SOG98]. La même construction, réalisée avec les ensembles de niveau inférieurs,
définit un arbre de minima (min-tree). Une implantation efficiente de ces structures est proposée
dans [CNB05].
Les arbres de minima et de maxima sont des structures complémentaires mais redondantes.
Une façon de combiner leurs informations en une structure unique a été proposée par Monasse
[Mon00]. Dans ce travail, les éléments de base sont les "formes", les composantes connexes des
ensembles de niveau (inférieurs et supérieurs) dont on remplit les "trous". Un arbre de formes,
dont les feuilles sont les extrema de l’image sans trous, est alors construit. Cet arbre est une re-
présentation de l’image sans redondance et invariante par changements de contraste. Un exemple
d’arbre de formes est présenté dans la Figure 2.4, où on peut observer que l’information des
formes est codée une seule fois.
Ainsi, nous considérons une deuxième définition discrète de composante. Soit u une image
scalaire et Px la plus petite forme de l’arbre de formes de u qui contient le point x. La composante
44
Image u Arbre de formes
FIG. 2.4 – Exemple d’arbre de formes d’une image.
connexe de u contenant x est donnée par :
Cx(u) = y ∈ Ω |Py = Px (2.4.1)
L’arbre de formes est utilisé comme alternative au graphe de composantes dans le Chapitre 4.
Arbre de régions
Un graphe de régions sert à représenter une partition du domaine d’une image. Dans le Cha-
pitre 6, nous nous intéressons à des méthodes de segmentation où les régions d’une partition ini-
tiale sont fusionnées de façon itérative. Un tel algorithme peut s’implanter au moyen d’un RAG,
où la fusion de deux régions connexes se réalise en réunissant les deux sommets correspondants
et en supprimant l’arête qui les joint. Le processus de fusion en entier peut se représenter par un
arbre de régions ordonné selon l’inclusion, comme dans l’exemple de la Figure 2.5.
2.4.4 Distances sur un graphe
Rappelons enfin quatre distances classiques qu’on peut construire à partir des chemins d’un
graphe.
Somme des poids :
d1(x, y) = minπ∈Γxy
∑a∈π
w(a).
45
FIG. 2.5 – Exemple d’arbre de régions. La fusion de deux régions connexes correspond à lacréation d’un sommet de l’arbre. Les arêtes codifient la relation d’inclusion.
Poids maximum :
d2(x, y) = minπ∈Γxy
maxa∈π
w(a).
Somme des attributs :
d3(x, y) = minπ∈Γxy
∑xi∈π
w(xi).
Attribut maximum :
d4(x, y) = minπ∈Γxy
maxxi∈π
w(xi).
Ces distances peuvent s’interpréter en assimilant le graphe à un réseau routier, où les sommets
représentent des villes, l’attribut le péage pour passer par une ville, les arêtes les routes reliant
les villes et leur poids la distance les séparant. Ainsi, d1 mesure la longueur du plus court chemin
entre deux villes et d3 la somme à payer pour emprunter le chemin le moins cher. De même,
d4 mesure le plus petit péage maximum sur les chemins entre deux villes, et d2 la plus petite
distance maximum entre deux villes consécutives des chemins.
Les distances précédentes peuvent se calculer à l’aide d’un algorithme de chemins minimaux
classique comme celui de Dijkstra [Dij59, KR99].
Dans la troisième partie du mémoire, nous construirons un autre type de distances, les ultra-
métriques, sur un graphe de régions.
46
Deuxième partie
Métriques de chemin
47
48
Chapitre 3
Distances pondérées
L’application du cadre métrique requiert la définition de distances spécifiques pour traiter
un problème particulier. Dans le cas de la segmentation, la distance doit se construire à partir
des données de l’image, afin d’être représentative de son information géométrique. Par exemple,
segmenter une image au moyen d’une V-partition euclidienne est inapproprié, car le choix d’un
ensemble de sites et d’un domaine détermine les V-régions, indépendamment de l’information
de l’image.
La question qui se pose est donc comment construire de telles distances. La réponse proposée
dans cette partie du mémoire repose sur l’étude des chemins entre points du domaine de l’image.
Dans ce but, une quantité, interprétée comme une notion d’énergie ou de longueur généralisée,
est mesurée le long des chemins. La distance est alors donnée par le minimum de l’énergie sur
tous les chemins entre deux points.
Dans ce chapitre, nous commençons par préciser la définition des métriques de chemin dans
la Section 3.1, pour ensuite nous intéresser à l’exemple le plus classique de ce type de pseudo-
métriques, les distances pondérées.
49
50
3.1 Définition des métriques de chemin
Définition 3.1.1. Une structure de longueur pour l’ensemble Ω [Gro99] est une application
e : ΓΩ → R+ qui satisfait les conditions suivantes :
1. e(γ) = 0 si et seulement si γ est constant.
2. Si γ est la concaténation de γ1 et γ2, alors e(γ) = e(γ1) + e(γ2).
3. Si γ : [a, b] → Ω est un chemin et f : [c, d] → [a, b] est un homéomorphisme, alors γ f
est un chemin et e(γ f) = e(γ).
Les deux premières conditions sont la traduction en termes de chemins de la définition de
pseudo-métrique, comme nous le verrons par la suite. La troisième, pour sa part, indique que
e est invariante par changements de paramètre et donc que la longueur est une notion qui agit
directement sur la courbe image du chemin. Notons par ailleurs que la longueur euclidienne
définie en (2.3.1) satisfait la définition précédente.
À partir d’une structure de longueur, on peut définir une distance en considérant sa valeur
minimale sur tous les chemins qui relient deux points de l’ensemble Ω :
Définition 3.1.2. La métrique de chemin ψ induite par la structure de longueur e est définie
par :
ψ(x, y) = infγ∈Γxy
e(γ), ∀x, y ∈ Ω.
Vérifions qu’une métrique de chemin est effectivement une pseudo-métrique. Pour la Réflexi-
vité de la Définition 1.2.1, considérons un point x ∈ Ω et le chemin constant γ0 ∈ Γxx défini
par : γ0(t) = x, ∀t ∈ [a, b]. Puisque γ0 est constant, d’après la Définition 3.1.1, e(γ0) = 0 et donc
ψ(x, x) ≤ 0. Le résultat découle de l’hypothèse ψ(x, x) ≥ 0.
Pour prouver l’Inégalité Triangulaire, considérons trois points x, y, z ∈ Ω et notons par Γxzy
l’ensemble des chemins entre x et y obtenus par la concaténation d’un chemin entre x et z et
51
(a) (b)
FIG. 3.1 – Principe de Fermat
d’un chemin entre z et y. On a alors Γxzy ⊂ Γxy, car l’ensemble des chemins qui passent par z
est un sous ensemble de tous les chemins entre x et y. Donc, d’après l’Axiome 2 de la Définition
3.1.1, on obtient :
ψ(x, y) = infγ∈Γxy
e(γ) ≤ infγ∈Γxzy
e(γ) = infγ1∈Γzx
e(γ1) + infγ2∈Γzy
e(γ2) = ψ(z, x) + ψ(z, y),
où γ est la concaténation de γ1 et γ2.
3.2 Optique géométrique
La notion de chemin minimal trouve son fondement physique dans le domaine de l’optique
géométrique. Nous rappelons dans cette section certains résultats classiques de cette discipline
pour situer les distances pondérées dans notre cadre de travail. Le lecteur trouvera une exposition
détaillée du sujet dans des ouvrages de référence tels [BW80, Sea49, ST91].
Un milieu optique où la vitesse de la lumière est constante est appelé milieu homogène. Un
tel milieu est caractérisé par le nombre n ≥ 1, nommé indice de réfraction et défini par le rapport
entre la vitesse de la lumière dans le vide c0 et sa vitesse c dans le milieu.
Les différentes définitions seront illustrées à l’aide de la Figure 3.1.a, où le point s représente
une source ponctuelle de lumière monochromatique. La ligne horizontale médiane correspond
52
à l’interface entre deux milieux optiques homogènes différents, représentés en blanc et en gris,
avec indices de réfraction n1 et n2 respectivement.
La loi de réflexion de la lumière est connue depuis l’antiquité : si un rayon lumineux part
de s et atteint l’interface, alors une partie de la lumière est réfléchie et l’angle de réflexion est
égal à l’angle d’incidence. Les deux angles sont notés par θ dans le dessin. Héron d’Alexandrie
remarqua que la réflexion obéit à un principe de minimalité puisque, si les deux angles étaient
différents, le temps de parcours de la lumière et la distance parcourue seraient plus grands.
La loi qui régit la réfraction, la partie de la lumière qui traverse l’interface, mit en revanche
beaucoup plus de temps à être élucidée. Si l’indice de réfraction du milieu gris est plus grand que
celui du milieu blanc alors on observe que, comme dans le schéma, le rayon est "plié" vers la
normale à l’interface. L’angle de réfraction α varie cependant de façon non linéaire avec l’angle
d’incidence. Ce ne fut qu’en 1621 que Snell découvrit que le rapport entre les sinus des angles α
et β dépend uniquement des indices de réfraction des deux milieux optiques.
En 1657, Pierre de Fermat, reprenant l’observation d’Héron, eut l’idée d’expliquer la réfrac-
tion et la réflexion comme deux expressions différentes d’un même principe général qu’il énonça
sous la forme suivante : "La Nature agit toujours par le moindre cours". Ce célèbre principe sou-
leva une controverse philosophique qui se poursuit de nos jours, car il accorde une intentionnalité
à la nature qui semble étrangère à l’idée moderne de science.
Le principe de Fermat est pourtant vérifié en optique, où il implique que la trajectoire suivie
par un rayon de lumière monochromatique pour aller d’un point de l’espace à un autre est celle
qui prend le moins de temps. Ainsi, dans un milieu homogène, le temps de parcours est propor-
tionnel à la distance et le rayon lumineux suit la ligne droite entre les deux points. C’est le cas
par exemple pour les points s et y de la Figure 3.1.a, où le rayon est représenté en bleu.
Pour illustrer le comportement de la lumière lorsque le milieu n’est pas homogène, considé-
rons un rayon lumineux qui va du point s au point x et supposons que l’indice de réfraction du
milieu gris est le plus grand. Alors, le principe de Fermat implique que le rayon passera le plus
53
de temps possible dans le milieu blanc, où sa vitesse est plus grande, avant de s’engouffrer dans
le milieu gris. La lumière suivra donc la trajectoire noire au lieu de la ligne droite (en pointillé),
car, dans ce cas, le rayon devrait parcourir une plus grande distance à une plus petite vitesse et le
temps de parcours ne serait pas minimal.
Plus formellement, le temps t mis par la lumière pour parcourir une distance d dans un milieu
homogène d’indice de réfraction n est donné par t = d/c = nd/c0. Il est donc proportionnel au
produit nd, appelé la longueur optique du chemin. D’autre part, si le milieu n’est pas homogène,
l’indice de réfraction n(x) est une fonction de la position x. La longueur optique d’un chemin
γ ∈ Γsx entre deux points s et x est donnée dans ce cas par l’intégrale de n le long du chemin :
Lγ(s, x) =
∫ L
0
n(γ(l)) dl, (3.2.1)
où l dénote l’abscisse curviligne.
Remarquons que la longueur optique (3.2.1) satisfait les conditions de la Définition 3.1.1.
Il s’agit donc d’une structure de longueur particulière pour les chemins, qui induit une pseudo-
métrique. D’après la Définition 3.1.2, la métrique de chemin associée à la longueur optique,
nommée la distance optique dans ce contexte, est donnée par la formule :
ψ(s, x) = infγ∈Γsx
Lγ(s, x) = infγ∈Γsx
∫ L
0
n(γ(l)) dl, ∀s, x ∈ Ω. (3.2.2)
Or, d’après le principe de Fermat, la lumière suit le chemin qui minimise le temps de parcours
(et donc la longueur optique), les trajectoires des rayons lumineux sont donc les géodésiques de
la distance optique.
La distance optique apparaît également dans d’autres disciplines telles l’électrostatique et
la planification de trajectoire (path planning). Hors du contexte physique, elle est plus connue
sous le nom de distance pondérée. De même, l’indice de réfraction est généralement appelé une
fonction de potentiel. Notons enfin qu’une distance pondérée induite par un potentiel strictement
positif est, comme dans le cas de l’optique, non seulement une pseudo-métrique, mais aussi une
métrique. L’espace quotient d’une telle distance est donc homéomorphe au domaine.
54
3.3 Propagation des fronts
Une approche alternative pour l’étude des distances pondérées est celle de la propagation
des fronts. Dans le contexte de l’optique, cette démarche correspond à l’explication duale des
phénomènes lumineux au moyen d’ondes. Dans cette section, nous reprenons le formalisme des
ensembles de niveau introduit par Osher et Sethian [OS88] pour dériver l’équation Eikonale.
On considère, à l’instant t = 0, une courbe planaire, simple, fermée et régulière γ(0) qui re-
présente la frontière entre deux régions. L’objectif est de modéliser l’évolution de cette interface
à travers le temps, en supposant que l’évolution se fait uniquement dans la direction normale à la
courbe, avec une vitesse v connue.
La courbe à l’instant t, γ(t), vue comme un front de propagation, peut être représentée dans
le cadre Lagrangien par son vecteur de position C(l, t) = (x1(l, t), x2(l, t)) ∈ R2 où l dénote
l’abscisse curviligne.
L’évolution du front est donc donnée par l’équation différentielle :
∂C(l, t)
∂t= v−→n (l, t) (3.3.1)
où−→n représente le vecteur normal unitaire externe à la courbe et la condition initiale est C(·, 0) =
γ(0).
En général, la vitesse v peut être déterminée par trois types de facteurs [Set99]. Elle peut
dépendre de l’information géométrique locale, comme la courbure ou la direction de la normale.
Elle peut aussi dépendre des propriétés géométriques globales de la courbe, comme sa forme, sa
longueur ou sa position. Enfin, la vitesse peut être fonction de propriétés externes à la courbe,
comme le milieu dans lequel elle évolue. C’est le cas par exemple pour la propagation de la
lumière.
Ainsi, étant données la position initiale de la courbe γ(0) et sa vitesse v, l’objectif est de
modéliser son évolution. Suivant la formulation par ensembles de niveau d’Osher et Sethian
[OS88], le problème est posé dans le cadre Eulerien, c’est-à-dire en supposant que le système de
55
coordonnées sousjacent est fixé.
On interprète donc la courbe planaire initiale comme la ligne de niveau zéro d’une fonction
Lipschitzienne φ0 : R2 → R :
γ(0) = x ∈ R2|φ0(x) = 0.
L’approche par ensembles de niveau consiste alors à faire évoluer dans l’espace-temps une fonc-
tion φ : R2×R→ R, appelée fonction de niveau, à partir de φ0 et à modéliser γ(t), la courbe à
l’instant t, comme la ligne de niveau zéro de φ :
γ(t) = x ∈ R2|φ(x, t) = 0.
Cette immersion peut s’exprimer de façon équivalente par :
φ(C(l, t), t) = 0, ∀l ∈ [0, L[. (3.3.2)
On peut alors déduire des propriétés géométriques de la courbe à partir des dérivées spatiales de
φ. Par exemple, la normale externe au front est donnée par −→n = −∇φ/‖∇φ‖.
L’EDP qui régit l’évolution de la courbe (3.3.1) engendre une EDP pour la fonction de niveau
φ. On l’obtient en dérivant (3.3.2) par rapport au temps :
∂φ
∂t+∇φ · ∂C
∂t= 0
L’EDP qui gouverne l’évolution de la fonction de niveau est donc :
∂φ
∂t+ v‖∇φ‖ = 0, (3.3.3)
avec condition initiale φ(·, 0) = φ0(·).Réciproquement, comme conséquence de (3.3.3), toutes les lignes de niveau de φ évoluent
avec une vitesse normale v, en particulier la ligne de niveau zéro qui représente la courbe γ(t).
Considérons à présent le cas spécifique de notre problème, où la vitesse est strictement po-
sitive et dépend uniquement de la position : v = v(x) > 0. Cette condition indique que la
56
propagation se fait vers l’extérieur ou, en termes mécaniques, que la déformation de la courbe
est causée par une force d’expansion.
Notons par T (x) l’instant où la courbe atteint un point x ∈ R2 :
T (x) = inft>0φ(x, t) = 0.
L’équation d’évolution de la fonction de niveau (3.3.3) peut alors être exprimée dans sa formu-
lation stationnaire [OS88, BF90, FGL94] :
v‖∇T‖ = 1, (3.3.4)
avec condition de bord T (γ0) = 0.
Revenons enfin au cadre de l’optique géométrique de la section précédente où v est la vitesse
de la lumière et posons E = c0T . Alors (3.3.4) devient :
‖∇E‖ = n, (3.3.5)
avec condition de bord E(s) = 0.
L’équation (3.3.5) est connue en optique sous le nom d’Équation Eikonale. Sa solution, la
fonction scalaire E, appelée l’Eikonale, permet de caractériser les trajectoires des rayons lumi-
neux. Géométriquement, (3.3.5) indique que les lignes de niveau de E sont toujours orthogonales
aux rayons. Les caractéristiques (lignes maximales du gradient) de l’Eikonale sont donc paral-
lèles aux rayons et on peut reconstruire la trajectoire entre la source s et un point x en se déplaçant
dans la direction du gradient à partir de x. Ces propriétés peuvent s’observer dans la partie (b) de
la Figure 3.1, où les ensembles de niveau de l’Eikonale associée à l’exemple de la partie (a) sont
présentés.
Au moyen du calcul des variations, Hamilton prouva l’équivalence entre l’Équation Eikonale
et le principe de Fermat [BW80]. Dans le cadre de l’optique d’ondes, on peut aussi prouver
que l’Équation Eikonale est le cas limite de l’Équation d’Helmholtz lorsque la longueur d’onde
57
tend vers zéro. Pour de petites longueurs d’onde, l’Eikonale est donc proportionnelle à la phase
de l’onde lumineuse et ses lignes de niveau sont parallèles aux fronts d’onde [ST91]. On peut
observer le rapprochement des lignes de niveau de E dans la partie inférieure de la Figure 3.1.b,
traduisant une diminution de la vitesse normale au front.
3.4 Implantation par Fast Marching
Les sections précédentes ont décrit deux approches duales pour aborder le même problème
[CK97, Coh03].
D’une part, la définition d’une fonction de potentiel P : Ω → R+ (l’indice de réfraction en
optique) détermine une distance pondérée ψ : Ω × Ω → R. La distance à un site s ∈ Ω, notée
U , est donnée par la formule :
U(x) = ψs(x) = ψ(s, x) = infγ∈Γsx
∫ L
0
P (γ(l)) dl, ∀x ∈ Ω. (3.4.1)
D’autre part, le problème de minimisation (3.4.1) est équivalent à la résolution de l’équation
Eikonale :
‖∇U‖ = P, avec la condition de bord U(s) = 0. (3.4.2)
Dans cette section, nous présentons l’algorithme du Fast Marching, introduit par Sethian
[Set96, Set99] pour construire la solution de viscosité de (3.4.2).
Une des principales difficultés qui se posent pour la résolution de cette équation différentielle
non linéaire est que les solutions peuvent ne pas être différentiables, même avec des conditions
de bord régulières. Par conséquent, les schémas de différences finies classiques ont tendance à
diverger et sont instables. La méthode du Fast Marching contourne cette difficulté en discrétisant
l’équation (3.4.2) au moyen du schéma décentré amont suivant :
(maxUi,j − Ui−1,j,Ui,j − Ui+1,j, 0)2 + (maxUi,j − Ui,j−1,Ui,j − Ui,j+1, 0)2 = P 2i,j (3.4.3)
58
Cette technique permet de trouver Ui,j , la valeur de la solution de viscosité correcte de (3.4.2) à
chaque point (i, j) de la grille.
L’idée de base du Fast Marching est d’introduire un ordre dans la sélection des points de la
grille. Cet ordre repose sur le fait que l’information se propage vers l’extérieur dans une seule
direction, car la valeur de U ne peut qu’augmenter du fait de la nature quadratique de l’équation
(3.4.3). L’algorithme est détaillé dans le Tableau 3.1.
TAB. 3.1 – Algorithme du Fast Marching• Définitions Points Alive : points où la valeur de U est déterminée et ne changera plus. Points Trial : prochains points de la grille à être examinés. Une estimation de U en ces points
a déjà été faite à l’aide de (3.4.3), en utilisant uniquement l’information des points Alive. Points Far : tous les autres points de la grille, où U n’a pas encore été estimée.
• Initialisation Points Alive : le site s, U(s) = 0. Points Trial : les quatre voisins v de s avec valeur initiale U(v) = P (v). Points Far : tous les autres points p de la grille, avec U(p) = ∞.
• Boucle Tant que l’ensemble Trial n’est pas vide : Soit p le point Trial avec la valeur de U la plus faible. Enlever p des points Trial et le mettre avec les points Alive. Pour chaque voisin v de p :
– Si v est Far, l’ajouter à l’ensemble Trial.– Si v est Trial, mettre à jour U(v) avec l’équation (3.4.3)
Précisons à présent la résolution de (3.4.3). Pour cela, considérons les deux couples de voisins
opposés du point p en 4-connexité, dénotés par A1, A2 et B1, B2, de sorte qu’on puisse les
ordonner : U(A1) ≤ U(A2), U(B1) ≤ U(B2) et U(A1) ≤ U(B1).
Puisqu’on a Ui,j ≥ U(B1) ≥ U(A1), on déduit de (3.4.3) l’équation :
(Ui,j − U(A1))2 + (Ui,j − U(B1))
2 = P 2i,j (3.4.4)
Le test du discriminant de l’équation quadratique (3.4.4) fournit donc le critère suivant :
– Si Pi,j > U(B1)− U(A1), la solution de (3.4.4) est :
Ui,j =U(B1)+U(A1)+
√2P 2
i,j−(U(B1)−U(A1))2
2.
59
– Sinon, la solution est :
Ui,j = U(A1) + Pi,j .
L’ensemble de points Trial est souvent appelé la bande étroite (narrow band, en anglais) et
représente le front de propagation. Du point de vue pratique, on peut l’implanter efficacement au
moyen d’une structure min-heap [KR99]. La complexité de l’algorithme est donc O(Nlog(N)),
où N dénote le nombre total de pixels dans la grille. Si, en plus, on utilise une précision finie,
alors la complexité est réduite à O(N).
Remarquons que le Fast Marching n’est qu’une modification de l’algorithme pour la construc-
tion de chemins de longueur minimale entre deux noeuds d’un graphe [Dij59]. La différence
réside dans la formule pour l’actualisation de la distance (3.4.3), qui garantit la convergence de
U vers la solution de viscosité de l’équation Eikonale.
Comme tout algorithme de propagation d’une information sur un graphe, le Fast Marching
peut s’étendre facilement d’un site unique à un ensemble de sites. Dans ce but, la propagation
peut se réaliser en parallèle ou séquentiellement. Dans le premier cas, la seule modification de
l’algorithme du Tableau 3.1 est l’initialisation, où tous les sites sont considérés Alive et tous leurs
voisins Trial. Dans le deuxième cas, on calcule tour à tour la distance à chacun des sites et on
considère le minimum en chaque point. Notons qu’il n’est pas nécessaire de calculer chaque fois
U sur la totalité du domaine, mais qu’une propagation partielle (tant que la distance au site actuel
est inférieure à celle déjà calculée) suffit. Cette astuce rend la méthode séquentielle envisageable
dans le cas d’un nombre élevé de sites, même si le coût de calcul demeure supérieur à celui de la
propagation en parallèle.
La propagation à partir d’un ensemble de sites est en particulier nécessaire pour la construc-
tion de diagrammes de Voronoï. Dans ce but, une étiquette est assignée à chacun des sites et
propagée en même temps que la distance. Remarquons que la valeur de la distance est, heureuse-
ment, la même pour les deux méthodes, mais des différences peuvent se présenter au niveau de
l’assignation des étiquettes du V-diagramme. En effet, dans la méthode en parallèle, l’étiquette
60
des points à distance égale d’au moins deux sites dépend de leur ordre d’entrée dans la bande
étroite. Chaque point de la frontière entre deux V-régions est donc assigné arbitrairement à l’une
ou à l’autre. En revanche, avec la méthode séquentielle, la totalité de la frontière commune est
assignée à l’une des deux régions. Cette différence est parfois significative et nous utiliserons
dans la suite la construction séquentielle pour les V-diagrammes des distances pondérées.
3.5 Segmentation par distances pondérées
Dans le contexte de l’analyse d’images, les thèmes exposés dans les pages précédentes ont
servi de cadre unificateur à des approches provenant d’horizons différents. Considérons par
exemple le potentiel constant P ≡ 1. La distance pondérée correspondante, définie par :
ψ(x, y) = infγ∈Γxy
∫ L
0
dl , (3.5.1)
est appelée la distance géodésique en morphologie mathématique [SM94]. Celle-ci mesure la
longueur euclidienne du plus court chemin entre x and y. Si le domaine est de surcroît convexe
pour ε, alors ψ coïncide avec la distance euclidienne usuelle.
Alternativement, l’ensemble de niveau t de la distance (3.5.1) à un ensemble délimité par une
courbe γ0 correspond au front de propagation de la courbe avec vitesse normale v ≡ 1. La défor-
mation de γ est donc causée dans ce cas par la force de pression introduite par Cohen [Coh91].
Cette évolution coïncide par ailleurs avec la dilatation multi-échelles de la courbe initiale, lorsque
l’élément structurant est le disque euclidien [AGLM93, BS94, BM94].
L’utilisation des distances pondérées en analyse d’images passe par la définition d’un po-
tentiel approprié pour traiter un problème particulier. Parmi les principales applications de cette
approche on peut citer le shading from shape [VV90], le shape from shading [KB95], la mor-
phologie mathématique continue [KKB96, MB00] et le regroupement perceptuel [Coh01].
Dans le contexte de la segmentation, certaines techniques se fondent sur l’utilisation des
61
géodésiques d’une distance pondérée [CK97, Coh05]. Cette section passe en revue quelques
unes des méthodes de segmentation en régions fondées sur ce type de distances.
3.5.1 Partitions par seuillage
La motivation pour appliquer la théorie d’évolution des courbes à la segmentation est la
même que pour les modèles de contours actifs [KWT87, Ter87]. Intuitivement, la courbe évolue
à partir d’une position initiale et sous l’influence de forces internes et externes, pour se placer sur
les bords de la caractéristique qu’on veut extraire de l’image. Ainsi, la vitesse normale au front
doit être définie de sorte que la courbe se propage très rapidement dans les régions homogènes
et s’arrête sur les contours des objets ou autres lignes caractéristiques. Si on suppose que l’ho-
mogénéité est quantifiée par le module du gradient de l’image originale, ce comportement peut
s’obtenir en définissant une vitesse de la forme :
v = f(‖∇(u)‖),
où f : R+ → R+ est une fonction décroissante. On peut par exemple choisir la vitesse suivante
[MSV95, CK97, Set99] :
v =1
‖∇(Gσ ∗ u)‖+ w,
où l’expression Gσ ∗ u dénote la convolution de l’image originale u avec une gaussienne d’écart
type σ. Un tel filtrage est réalisé dans le but de bien-poser la différenciation. Le potentiel associé
à cette vitesse est donné par :
P =1
v= ‖∇(Gσ ∗ u)‖+ w
Une courbe évoluant à partir d’un site s avec vitesse v correspond donc aux lignes de niveau
de la fonction :
U(x) = Ww(s, x),
62
où la distance pondérée Ww est donnée par la formule :
Ww(x, y) = infγ∈Γxy
∫ L
0
P (γ(l)) dl = infγ∈Γxy
∫ L
0
‖∇(Gσ ∗ u)(γ(l))‖ dl + infγ∈Γxy
∫ L
0
w dl. (3.5.2)
On constate que l’évolution de la courbe est régie par deux forces. La première est externe et
mesure l’attache aux données, tandis que la deuxième force contrôle la régularité de la courbe
en imposant une pénalité, pondérée par la constante w > 0, sur la longueur euclidienne des
chemins. Notons par ailleurs que l’inclusion de ce terme garantit que le potentiel est strictement
positif. Par conséquent, la vitesse est toujours finie et la pseudo-métrique une métrique.
La Figure 3.2 présente un exemple de segmentation par cette méthode. La ligne 1 montre le
module du gradient de l’image lissée (le terme d’attache aux données du potentiel) et l’empla-
cement du site. La variance de la gaussienne est fixée à σ = 1. Les lignes 2 à 4 présentent la
distance au site en image des intensités (gauche), le même résultat quantifié en 10 niveaux et en
fausses couleurs (centre) et une partition par seuillage (droite). Le paramètre w, qui contrôle la
régularité de la courbe, augmente de haut en bas : w1 = 0.001, w2 = 0.005 et w3 = 0.01.
Lorsque le paramètre régularisateur est très faible (w = w1), l’évolution de la courbe est
guidée principalement par le gradient. L’information se propage rapidement à toute l’image par
les endroits où le gradient est faible et on observe des "fuites", par exemple dans les jambes du
photographe ou dans le trépied. Les plus grandes distances se situent sur les contours prononcés,
qui forment des "îles" (observables aussi sur l’aire des jambes), autour desquelles les lignes de
niveau de la distance au site se referment.
Au fur et à mesure que w croît, la prise en compte de la longueur euclidienne des chemins
dans la distance augmente l’isotropie des ensembles de niveau et réduit les fuites. Un point
d’équilibre est atteint pour la valeur w2. Notons cependant que, à cause de la forme allongée de
la silhouette humaine, la partie supérieure n’est extraite que partiellement et la partie inférieure
présente toujours des fuites.
63
‖∇(Gσ ∗ u)‖ site s
Ww1s Ww1
s Π(Ww1 , s, 0.1)
Ww2s Ww2
s Π(Ww2 , s, 0.3)
Ww3s Ww3
s Π(Ww3 , s, 0.3)
FIG. 3.2 – Partitions par seuillage d’une distance pondérée
64
Enfin, pour des valeurs de w élevées, Ww se rapproche de plus en plus de la distance eu-
clidienne et les ensembles de niveau deviennent circulaires. Les plus grandes distances pour w3
sont situées sur la frontière du domaine. On commence à observer des fuites sur les contours les
plus proches du site, la distance euclidienne prédominant sur l’information du gradient.
Cette méthode nécessite donc la connaissance préalable des caractéristiques géométriques
des objets qu’on veut extraire de l’image pour l’ajustement du paramètre w.
L’efficacité algorithmique du Fast Marching et son extension immédiate aux dimensions su-
périeures ont permis l’utilisation de cette technique en analyse d’images médicales 3D. Elle est
notamment employée dans [MSV95, Set99] pour obtenir une segmentation initiale qui est en-
suite raffinée en utilisant des vitesses plus complexes. Elle est aussi utilisée pour l’extraction de
formes anatomiques tubulaires dans [DC01], avec un potentiel de la forme :
P = eα‖∇(Gσ∗u)‖, α > 0
3.5.2 Partitions de Voronoï
La Figure 3.3 présente un exemple de partitions de Voronoï avec la distance pondérée Ww.
L’ensemble de sites S a été choisi manuellement. La Ligne 2 montre les images des intensités
de la distance à l’ensemble S, la Ligne 3 les partitions de Voronoï correspondantes et la ligne
4 les mosaïques. La valeur du paramètre est, de gauche à droite : w1 = 0.0001, w2 = 0.001
et w3 = 0.01. On peut observer les mêmes effets que dans l’expérience de la Figure 3.2. Au
fur et à mesure que le poids w augmente, le terme de régularité du potentiel prend l’ascendant
sur le terme d’attaches aux données et Ww se rapproche de la distance euclidienne. On constate
l’apparition de zones sombres (indiquant une grande distance à S) sur l’image des intensités
dans des régions homogènes (par exemple, sur le ciel à droite) et une plus grande isotropie
des V-partitions. Remarquons que la prise en compte de la longueur euclidienne des chemins
dans la distance devient une limitation dans cet exemple. D’une part, l’interaction des sites rend
65
‖∇(Gσ ∗ u)‖ Ensemble de sites S
Ww1S Ww2
S Ww3S
Π(Ww1 , S) Π(Ww2 , S) Π(Ww3 , S)
FIG. 3.3 – V-partitions d’une distance pondérée
66
l’extraction de formes allongées comme la silhouette humaine encore plus difficile que pour le
cas d’un site unique. D’autre part, à cause de l’éloignement (dans le sens de ε) des sites s1 et s2,
la région du ciel est fractionnée en deux parties pour toutes les valeurs du w.
L’exemple précédent illustre les limitations de cette approche pour la segmentation de bas
niveau. Une amélioration a été proposée dans [Des01], dans le cadre de la segmentation inter-
active d’images médicales. L’idée principale de cette méthode, appelée par l’auteur compétition
des fronts est la suivante :
1. Choisir manuellement un ensemble de sites s1, ...sn
2. Définir un potentiel différent pour chaque site P1, ..., Pn
3. Déterminer les régions au moyen du Fast Marching.
Le potentiel proposé dans cette référence est le suivant :
Pi(x) = maxu(x)− u(si), 0)+ w, ∀x ∈ Ω, ∀i ∈ [1, ..., n] .
La vitesse du front est donc inversement proportionnelle à la différence entre le niveau de gris du
site et les autres points de l’image.
On peut donc définir une carte d’action minimale pour chaque site , donnée par la distance
pondérée à si :
Ui(x) = infγ∈Γsix
∫ L
0
Pi(γ(l))dl
Et une carte d’action minimale globale :
U(x) = mini=1,...,n
Ui(x) .
dont les bassins versants des sites correspondent aux régions de la partition.
La Figure 3.4 montre un exemple des segmentations obtenues avec cette méthode [Des01].
L’image originale, à gauche, est une image de rayons X du ventricule gauche du coeur. Le résultat
se trouve à droite, où les points blancs représentent les sites.
67
FIG. 3.4 – Segmentation par compétition des fronts
3.5.3 Remarques
Les méthodes de segmentation fondées sur les distances pondérées possèdent plusieurs ca-
ractéristiques intéressantes. En plus des liens avec la physique, la modélisation par équations
aux dérivées partielles permet de construire des solutions cohérentes avec le cadre continu et de
précision sous-pixellique. En outre, la faible complexité computationnelle du Fast Marching par
rapport à la méthode des Level-sets générale facilite son application aux dimensions supérieures.
Cependant, pour pouvoir interpréter la propagation d’une courbe comme une distance, le
signe de la vitesse normale au front doit être constant. Ainsi, le rang de vitesses qui peuvent être
utilisées avec le Fast Marching est réduit en comparaison aux Level-sets. De plus, puisque la
propagation se fait sur toute l’image, le choix d’un critère d’arrêt s’avère nécessaire, or celui-ci
ne peut souvent se faire que par inspection visuelle du résultat.
D’autre part, l’isotropie des lignes de niveau peut aussi devenir un inconvénient dans le cas
de structures à forme allongée ou complexe, comme dans les exemples des Figures 3.2 et 3.3.
Pour corriger le problème des "fuites", les auteurs de [DC01] proposent une méthode où le front
de propagation est "gelé" après un certain temps. De même, dans [DL03, PWKB02], les auteurs
modifient le Fast marching pour privilégier une direction de propagation.
68
En conclusion, les méthodes de segmentation passées en revue dans cette section sont dif-
ficilement exploitables pour la segmentation générale de bas niveau. À l’instar des modèles de
contours actifs, leurs caractéristiques les rendent plus appropriées pour des applications où on
dispose d’une plus grande quantité d’information sémantique. C’est le cas par exemple en ima-
gerie médicale, ou la connaissance préalable de la géométrie des objets, la régularité de leurs
contours ou le type d’images peut s’incorporer dans la définition du potentiel.
Chapitre 4
Variation de chemin
4.1 Introduction
L’introduction de la notion de variation totale pour les fonctions d’une variable remonte aux
travaux de Jordan en 1881 [Jor81]. Depuis, cette fonctionnelle a été appliquée dans plusieurs
branches des mathématiques [Leb28, Nat64] ; en particulier, elle se trouve à la base de la théorie
de l’intégrale de Stieltjes. Dans le cadre régulier, la variation totale d’une fonction f : [0, L] → R
est donnée par [HS69] :
v(f) =
∫ L
0
|f ′(l)| dl . (4.1.1)
De nombreuses généralisations de la variation totale pour les fonctions de plusieurs variables
ont été proposées : Variation de Arzela, Variation de Vitali, Variation planaire de Tonelli, Varia-
tion planaire de Kronrod, etc.
Lorsque la fonction u : Ω ⊂ Rn → R est de classe C1(Ω), une extension naturelle de (4.1.1)
consiste à remplacer la valeur absolue de la dérivée par le module du gradient :
TV (u) =
∫
Ω
‖∇u(x)‖ dx . (4.1.2)
Dans le cas général, la variation totale d’une fonction u ∈ L1(Ω) est définie au moyen de la
69
70
dérivée au sens des distributions [EG92] :
TV (u) = sup∫
Ω
udivφdx |φ ∈ C1c (Ω,Rn), ‖φ‖ ≤ 1. (4.1.3)
Dans le contexte de l’analyse d’images, la variation totale a été considérée pour la première
fois par Osher et Rudin [OR90, RO94]. La représentation des images proposée par ces auteurs
sous la forme u = u1 +u2, où u1 est une fonction à variation totale bornée qui contient essentiel-
lement l’information géométrique de l’image et u2 est un terme dû au bruit et aux textures, a été
largement adoptée. Au cours de la dernière décennie, des méthodes fondées sur la minimisation
de la variation totale ont été appliquées avec succès à la restauration d’images et au débruitage
[ROF92, CL97, BC98, DK00].
Dans ce chapitre, nous étudions une notion de variation qui, contrairement à la notion usuelle
de variation totale, est définie pour chaque couple de points du domaine. Plus précisément, nous
considérons la métrique de chemin obtenue en mesurant la variation totale à l’ordre p en tant que
notion de longueur des chemins.
4.2 Définitions
4.2.1 Variation totale
Définissons d’abord la variation totale des fonctions d’une variable lorsque l’espace d’arrivée
est un espace pseudo-métrique.
Soit (X, ψ) un espace pseudo-métrique. On considère une subdivision finie de l’intervalle
[a, b], σ = t0, ..., tn telle que a = t0 < t1 < ... < tn = b et on note Φ l’ensemble de ces
subdivisions.
Définition 4.2.1. La variation totale à l’ordre p, pour 0 < p < ∞, d’une fonction f : [a, b] →
71
(X,ψ) est définie par la formule :
vp(f) = supσ∈Φ
n∑i=1
ψ(f(ti), f(ti−1))p.
Considérons à présent le cas où l’espace d’arrivée est l’ensemble des nombres réels muni
de la distance usuelle (X,ψ) = (R, ε). Alors, la variation totale à l’ordre 1 coïncide avec la
définition donnée par Jordan :
v(f) = supσ∈Φ
n∑i=1
|f(ti)− f(ti−1)| .
De même, pour 1 < p < ∞, la variation totale à l’ordre p devient la notion étudiée par
Wiener [Wie24].
4.2.2 Variation de chemin
Dans le cas des fonctions de plusieurs variables, et des images en particulier, nous considé-
rons la métrique de chemin associée à la variation totale à l’ordre p. Cette distance est donnée
par le minimum de la variation totale de la fonction sur tous les chemins qui relient entre eux
deux points du domaine :
Définition 4.2.2. La variation de chemin à l’ordre p d’une fonction u : Ω ⊆ Rn → (X,ψ) est
définie par la formule :
Vp(u)(x, y) = infγ∈Γxy
vp(u γ), ∀x, y ∈ Ω.
Remarquons que l’application e = vp u est une structure de longueur dans le sens de
la Définition 3.1.1. La variation de chemin à l’ordre p est donc effectivement une métrique de
chemin.
Par ailleurs, puisque la variation de chemin à l’ordre p est une fonction de deux variables,
sa valeur dépend aussi bien de la fonction u que du couple de points où elle est calculée, en
72
contraste avec la notion usuelle de variation totale pour les fonctions de plusieurs variables, qui
est une fonctionnelle.
Remarquons en outre que la classe d’équivalence d’un point x ∈ Ω pour Vp(u) coïncide
avec Cx(u), la composante connexe de u qui contient x. L’espace quotient pour la p-variation de
chemin est donc homéomorphe à l’espace des composantes de la fonction :
Ω(Vp(u)) = C(u).
Définition 4.2.3. L’espace des fonctions à p-variation de chemin bornée du domaine Ω, noté
par BV p(Ω) est défini par
BV p(Ω) = u : Ω → (X, ψ) | ∀x, y ∈ Ω, ∃ γ ∈ Γxy : Vp(u)(x, y) = vp(u γ) < ∞ .
Les fonctions considérées dans la suite seront toutes à variation de chemin bornée.
4.3 Propriétés
Dans cette section, nous nous intéressons particulièrement aux propriétés de la variation de
chemin à l’ordre 1. De plus, nous considérons le cas où la fonction u est une image scalaire.
L’espace d’arrivée (X, ψ) est donc (R, ε).
L’interprétation intuitive de la variation de chemin est illustrée dans la Figure 4.1. Considé-
rons une particule qui se déplace sur le graphe de la fonction u, représenté à gauche, à partir
du site s. Alors, comme le montre l’image de droite, la distance à s, Vs(u), évaluée en un point
x ∈ Ω représente la somme minimale de montées et de descentes à parcourir pour atteindre x.
73
FIG. 4.1 – Haut : Fonctions u et Vs(u). Bas : Leurs graphes.
4.3.1 Variation linéaire
En 1950, Kronrod1 publia une monographie [Kro50] où il propose, selon ses termes, une
théorie géométrique pour les fonctions réelles de deux variables. Une des notions définies dans
cette étude, la variation linéaire entre deux points, exprime la même idée géométrique que la
variation de chemin. Nous précisons dans ce paragraphe le lien entre les deux notions.
1Le mathématicien russe A.S. Kronrod (1921-1986) est souvent connu pour sa formule de quadrature, nomméequadrature de Gauss-Kronrod. Sa carrière fut divisée en deux parties. La première, consacrée aux mathématiquespures, fut couronnée par l’étude dont il est question dans ce paragraphe. Il s’intéressa ensuite aux mathématiquesappliquées et à leur développement au sein de l’ancienne Union Soviétique. Les dernières années de sa vie furentdédiées à la recherche d’un traitement contre le cancer. Une biographie est disponible dans [LY00].
74
La théorie de Kronrod est construite à partir des composantes, qu’il définit comme compo-
santes connexes des isoensembles de niveau. Les composantes d’une fonction continue sont des
sous-ensembles fermés du domaine, disjoints deux à deux. Si u est de classe C1, alors, pour
presque tous les niveaux, l’isoensemble de niveau t est l’union d’un nombre fini de courbes de
Jordan. Les composantes sont dans ce cas les lignes de niveau de la fonction, les frontières des
ensembles de niveau. La représentation d’une fonction par ses lignes de niveau, nommée carte
topographique de u, est étudiée dans [CCM99].
Kronrod prouve que l’espace des composantes d’une fonction continue est un continuum
de dimension 1 qui est plat, localement connexe et ne contient pas de sous-ensembles homéo-
morphes à un cercle. Il s’agit donc d’un arbre dans le sens topologique, que nous appelons arbre
de composantes de u et notons C(u). L’arbre possède au plus un nombre dénombrable de points
terminaux et de points de ramification ; les premiers sont les composantes qui ne divisent pas
le domaine (les extrema et certaines singularités) et les seconds sont celles qui le divisent en
au moins trois parties. Par exemple, l’arbre de la fonction de la Figure 4.1 est homéomorphe à
quatre segments, représentant les quatre pics, qui se rencontrent en un point de ramification, la
composante du point selle.
L’intérêt de l’arbre de composantes est de permettre l’étude de certaines propriétés des fonc-
tions de deux variables en tant que propriétés des fonctions définies sur un espace de dimension
1. Dans ce but, on définit la fonction u∗ : C(u) → R donnée par
u∗(τu(x)) = u(x), ∀x ∈ Ω, (4.3.1)
où τu dénote la projection naturelle qui assigne à tout point de Ω sa composante sur C(u).
La fonction de multiplicité de u entre deux points x, y ∈ Ω, notée φuxy : R → N ∪ ∞, est
donnée par :
φuxy(t) = #(Dxy(t)),
où Dxy(t) désigne l’ensemble des composantes de niveau t qui séparent x et y.
75
La variation linéaire de u entre x et y est définie par :
Vu(x, y) =
∫
Rφu
xy(t)dt .
Intuitivement, la variation linéaire compte le nombre de composantes qui séparent les deux
points.
La caractérisation de la variation linéaire en termes de chemins est la suivante :
Vu(x, y) = supn∑
t=1
|u(at)− u(at−1)|
où le supremum est calculé sur toutes les séquences de points de Ω, x = a0, a1, ..., an = y, telles
que Cat(u) sépare Cat−1(u) et Cat+1(u) pour tout t = 1, ..., n− 1.
Kronrod prouve que la variation linéaire correspond à la variation totale sur l’arbre de com-
posantes. Plus précisément, la variation linéaire de u entre deux points x et y est égale à la
variation totale de la restriction de u∗ sur l’arc de C(u) entre les composantes Cx(u) et Cy(u).
La variation linéaire est donc une notion essentiellement mono-dimensionnelle des fonctions de
deux variables.
Ainsi, pour une fonction continue, la variation linéaire coïncide avec la variation de chemin
à l’ordre 1. Nous utiliserons cette définition dans une des implantations de V dans le domaine
discret.
La Figure 4.2 montre un exemple de V-partition de la variation de chemin avec une image
continue, donnée par la formule u(x) = c · ε(x, s0). L’ensemble de sites est dans ce cas S =
s0, s1, où s0 est le sommet supérieur gauche du domaine rectangulaire et s1 est le sommet
inférieur droit. L’arbre de composantes C(u) est donc homéomorphe à un segment, où les extré-
mités sont les composantes des deux sites. La colonne gauche présente en haut le graphe de u et
en bas celui de VS(u). La colonne centrale montre les images des intensités respectives. Notons
que les composantes de u et de VS(u) sont dans ce cas les mêmes et seul leur niveau est modifié.
On peut observer en haut de la colonne droite la partition de Voronoï Π(V(u), S) = V0, V1
76
u u Π(V1(u), S)
V1S(u) V1
S(u) Π(V1(u), S)
FIG. 4.2 – Exemple de V-partition induite par la variation de chemin.
et, en bas, l’image mosaïque obtenue avec l’intensité des sites pour modèle. Le diagramme de
Voronoï ∆(V(u), S), la courbe noire, est la composante dont le niveau est la moyenne de ceux
des sites.
4.3.2 Cadre régulier
Ce paragraphe présente une caractérisation de la variation de chemin pour les fonctions conti-
nûment différentiables.
Un chemin γ est monotone pour u si la fonction u γ est monotone. Par définition, si un che-
min est monotone pour u, alors il est une géodésique de V(u). Réciproquement, toute géodésique
de V(u) résulte de la concatenation de chemins monotones.
Dans le cadre régulier, la variation de chemin peut s’exprimer comme l’intégrale d’une fonc-
tion de potentiel :
77
Proposition 4.3.1. Si u ∈ BV 1(Ω)⋂ C1(Ω), alors la variation de chemin de u est donnée par :
V(u)(x, y) = infγ∈Γxy
∫ L
0
|Dτu(γ(l))| dl, ∀ x, y ∈ Ω , (4.3.2)
où Dτu dénote la dérivée directionnelle de u dans la direction τ tangente au chemin.
Démonstration. La preuve est déduite de la réécriture de la Définition 4.2.2 dans le cas régulier.
Si f ∈ C1([a, b]), alors sa variation totale peut s’exprimer en termes de sa dérivée par la
formule [HS69] :
v(f) =
∫ b
a
|f ′(t)| dt .
Donc, si u est une fonction continûment différentiable, alors la Définition 4.2.2. devient :
V(u)(x, y) = infγ∈Γxy
∫ b
a
∣∣∣∣⟨
Du(γ(t)),γ(t)
‖γ(t)‖⟩∣∣∣∣ ‖γ(t)‖dt ,
où < ·, · > dénote le produit scalaire de R2.
Ainsi, si l’on considère l’abscisse curviligne l, alors la variation de chemin peut s’écrire
comme :
V(u)(x, y) = infγ∈Γxy
∫ L
0
|Dτu(γ(l))| dl ,
où τ dénote le vecteur unitaire tangent au chemin.
On obtient donc une expression de la variation de chemin similaire aux distances pondérées
(3.4.1). La différence réside dans le fait que la fonction de potentiel P = |Dτu| dépend non
seulement du point, mais aussi de la direction tangente au chemin.
4.4 Domaine discret
Nous proposons dans cette section deux méthodes pour mesurer la variation de chemin d’une
fonction échantillonnée sur une grille uniforme. Elles diffèrent essentiellement par la relation
78
privilégiée (connexité ou inclusion) dans la définition discrète de composante connexe. La pre-
mière approche consiste à identifier les composantes connexes aux zones plates de la fonction.
L’espace des composantes peut alors être représenté par un graphe de composantes. La deuxième
approche repose pour sa part sur la définition des composantes à partir des ensembles de niveau.
L’espace C(u) est dans ce cas représenté par un arbre de formes. L’algorithme utilisé pour calcu-
ler la distance est dans les deux cas le même, un algorithme de chemins minimaux sur un graphe,
mais les résultats sont sensiblement différents.
4.4.1 Construction par connexité
La première construction se fonde sur la définition discrète de la variation de chemin. Pour
une image définie sur une grille uniforme, le choix d’une connexité (usuellement 4, 6 ou 8
connexité) détermine une classe de chemins discrets sur le graphe de pixels. On peut alors dé-
finir une composante utilisant ces chemins dans l’équation (2.2.1). Les composantes connexes
discrètes sont dans ce cas définies comme les zones plates de l’image. L’espace de composantes
de la fonction u, C(u), peut donc se représenter par un graphe de composantes G, où les sommets
correspondent aux zones plates et chaque arête relie deux composantes voisines.
Un chemin sur G qui relie entre elles les composantes de deux points x et y est un ensemble
de composantes γ = C0, ..., Cn tel que x ∈ C0, y ∈ Cn, Ci et Ci−1 sont voisines, ∀ i = 1, ..., n.
L’ensemble de ces chemins est noté ΓGxy. Chaque élément de ΓG
xy correspond donc à une famille
de chemins discrets sur le graphe de pixels entre x et y.
Ainsi, l’expression de la variation de chemin à l’ordre p de u devient :
Vp(u)(x, y) = minγ∈ΓG
xy
n∑i=1
ψ(u(Ci), u(Ci−1))p .
Par suite, le calcul de Vp(u)(x, y) revient à trouver un chemin de coût minimal sur un graphe.
Ce problème classique peut être résolu en utilisant un algorithme "glouton" comme celui de
Dijkstra [Dij59, KR99]. La complexité computationnelle de cette implantation de la variation de
79
chemin est donc O(Nlog(N)), où N dénote le nombre total de composantes discrètes de l’image.
Si l’on considère de surcroît une précision finie, le pas d’actualisation de la bande étroite peut
être évité et la complexité devient linéaire : O(N). Notons par ailleurs que cette construction
peut s’appliquer indistinctement aux images scalaires et vectorielles.
Fast Marching
La dépendance du potentiel (4.3.2) par rapport la direction du chemin empêche l’applica-
tion directe de l’algorithme du Fast Marching pour implanter la variation de chemin. Cependant,
comme nous l’avons remarqué, les géodésiques de la distance topographique sont aussi des géo-
désiques de la variation de chemin. On peut donc envisager de calculer V(x, y) en mesurant la
variation totale à l’ordre p de u sur une géodésique pour la distance W entre x et y.
Ainsi, pour déterminer la variation de chemin à un site s, Vs, on peut calculer Ws (par
exemple au moyen du Fast Marching), trouver une géodésique entre s et chaque point du do-
maine (par descente du gradient de Ws) et mesurer sa variation totale à l’ordre p. Notons par
ailleurs que, puisque le Fast Marching construit les géodésiques pendant la propagation, la va-
leur de Vs peut s’estimer au même temps que celle deWs, sans augmenter la complexité compu-
tationnelle de l’algorithme. Néanmoins, sur des images naturelles, la perte d’information due à
l’approximation de l’opérateur de différenciation ne nous a pas permis d’établir une supériorité
manifeste de cette méthode sur la construction précédente.
4.4.2 Construction par inclusion
La deuxième méthode de construction de la variation de chemin est inspirée par les travaux
de Kronrod. Dans ce but, nous interprétons l’arbre de formes de Monasse [Mon00] comme une
extension de l’arbre de composantes pour les fonctions semi-continues.
Cette approche repose donc sur l’identification de la composante connexe d’un point x à
l’ensemble de points dont la plus petite forme de l’arbre qui les contient est la même que celle de
80
image détail connexité inclusion
FIG. 4.3 – Comparaison des deux constructions de la variation de chemin
x (voir équation (2.4.1)). Notons que cette définition diffère de la précédente, notamment parce
qu’une composante peut ici ne pas être connexe dans le sens des connexités discrètes usuelles.
La fonction u∗ de l’équation (4.3.1) est alors définie comme le niveau de chaque forme. La
variation de chemin entre deux points est donnée par la variation totale à l’ordre p de u∗ sur
l’unique chemin de l’arbre joignant les plus petites formes des deux points. Elle peut donc se
calculer aussi au moyen d’un algorithme de chemins minimaux sur un graphe, avec une com-
plexité computationnelle O(Mlog(M)), où M dénote le nombre total de formes de l’arbre.
L’intérêt de cette construction par rapport à la précédente est illustrée dans la Figure 4.3.
L’image de cet exemple est un noyau gaussien et le site a été placé dans une région à fort gra-
dient. La ligne d’en bas présente les mêmes résultats que celle d’en haut, mais en table de cou-
leurs aléatoires. Dans ce cas, l’information de connexité n’est pas suffisante pour reconstruire la
structure géométrique de l’image. Puisque la norme du gradient au voisinage du site est grande,
sa composante connexe est fractionnée par la discrétisation. Les fragments sont des zones plates
différentes et la construction par connexité propage une erreur dans la valeur de la distance. En
revanche, la méthode par inclusion calcule dans ce cas la valeur exacte de la variation de chemin.
81
Sites inclusion connexité
FIG. 4.4 – Comparaison des deux constructions de la variation de chemin
On peut observer que cette construction préserve les lignes de niveau originales et modifie uni-
quement leur niveau. Remarquons cependant que, si le site est placé sur le maximum de l’image,
les deux constructions donnent la valeur exacte de V .
Un problème de la construction par inclusion pour notre application est que, lorsqu’on crée
une partition de Voronoï à partir d’un ensemble de sites, on segmente en réalité l’arbre de formes.
Les V-régions sont par conséquent des sous-ensembles connexes de l’arbre, mais pas forcément
du domaine de l’image. On ne peut donc pas garantir qu’une V-partition avec n sites comporte
le même nombre de V-régions. Cette propriété est en revanche satisfaite par la méthode par
connexité, qui segmente le graphe de composantes. On peut observer un exemple dans la Figure
4.4, où l’ordre a été fixé à p = 2. La région de Voronoï correspondant au ciel (site s1) comporte
dans ce cas plusieurs composantes connexes pour la construction par inclusion, mais une seule
pour la méthode par connexité.
Rappelons en outre que l’arbre de formes est une représentation des images scalaires. La
construction par inclusion pour les images couleur nécessiterait par conséquent la généralisation
de cette structure aux images vectorielles, tâche délicate car elle se fonde sur l’ordre de l’espace
d’arrivée (R, ε).
82
4.5 Segmentation par variation de chemin
Nous présentons dans la fin de ce chapitre quelques expériences de segmentation avec la
variation de chemin. Sauf indication contraire, la méthode employée pour implanter la distance
est l’approche par connexité.
4.5.1 Partitions par seuillage
La Figure 4.5 permet d’observer l’influence de l’ordre p sur la variation de chemin. Les
distances au site s, Vps (u), sont présentées dans la colonne gauche sous forme d’images des
intensités et dans la colonne centrale avec une table de couleurs aléatoires. Les images ont été
normalisées pour des raisons de visualisation et quantifiées en 256 niveaux. On peut observer
que l’importance des transitions brusques le long les chemins, par rapport aux transitions faibles,
augmente avec l’ordre p. Ainsi, pour p = 1, une région d’intensité homogène comme le ciel
contient un grand nombre de niveaux quantifiés. En revanche, la même région ne présente plus
qu’un dizaine de niveaux pour p = 2 et un seul pour p = 10. En outre, pour l’ordre p = 1, on
observe des intensités faibles ( et donc une très grande distance au site ) dans la partie inférieure
droite de l’image. Ceci est dû à la présence de texture dans les régions de la pelouse, qui accroît
le poids de la longueur euclidienne des chemins dans la valeur de la distance et donc l’isotropie
des ensembles de niveau. L’effet disparaît aussi lorsque l’ordre p augmente.
La colonne droite de la figure présente des partitions par seuillage de la variation de chemin.
On peut observer que, contrairement à l’exemple des distances pondérées de la Figure 3.2 (p.
63), la variation de chemin permet d’extraire aisément la figure humaine (ou du moins la région
sombre qui la contient) pour tout p. On constate de légères différences entre p = 1 et p = 2, mais
le résultat est similaire à partir de cet ordre.
83
V1s (u) V1
s (u) Π(V1s (u), 0.2)
V2s (u) V2
s (u) Π(V2s (u), 0.05)
V10s (u) V10
s (u) Π(V10s (u), 0.2)
FIG. 4.5 – Partitions par seuillage de la variation de chemin
84
4.5.2 Partitions de Voronoï
Une partition de Voronoï est déterminée par une distance et un ensemble des sites. Dans ce
paragraphe, nous présentons des exemples où les sites sont choisis manuellement dans le but de
déterminer l’utilité pour la segmentation des V-partitions induites par la variation de chemin et
de comparer cette distance à des distances pondérées.
La sélection des sites par un opérateur humain est une façon de contourner le problème de
l’information sémantique dans le processus de segmentation. Dans ce cas, l’opérateur détermine
les caractéristiques géométriques à extraire et traduit cette information préalable par l’empla-
cement des sites. Sur cette idée repose, entre autres, la méthode des marqueurs pour la LPE
[BM92].
En fixant préalablement les sites, la segmentation interactive permet de comparer des dis-
tances par le biais des V-partitions qu’elles engendrent. La Figure 4.6 reproduit l’expérience de
la Figure 3.3 (p. 65), en utilisant la variation de chemin de l’image originale au lieu de la distance
pondérée Ww. L’ordre p de la distance Vp est le paramètre qui varie de gauche à droite. Ses va-
leurs sont p = 1, p = 5 et p = 10 respectivement. La Ligne 1 présente les images des intensités
de la distance à l’ensemble des sites S et la Ligne 2 contient le même résultat, mais en table de
couleurs aléatoire. On peut observer que, lorsque l’ordre augmente, la valeur de VpS(u) devient
très faible sur une grande partie du domaine. Ceci indique que les régions sont homogènes pour
la variation de chemin et que l’information de la distance se concentre progressivement sur les
contours. La ligne 3 présente les partitions de Voronoï et la Ligne 4 les mosaïques associées. En
comparant les résultats à ceux de la Figure 3.3 (p. 65), on constate que les contours obtenus par
la variation de chemin sont généralement significatifs de l’information de l’image. L’importance
relative des transitions faibles diminuant avec l’augmentation de l’ordre, la forme allongée du
photographe est de mieux en mieux extraite. Le résultat est invariant à partir de p = 10.
La Figure 4.7 présente quelques exemples de segmentation interactive avec la variation de
85
V1S(u) V5
S(u) V10S (u)
Π(V1(u), S) Π(V5(u), S) Π(V10(u), S)
FIG. 4.6 – V-partitions de la Variation de Chemin
86
FIG. 4.7 – Exemples de segmentation interactive avec la variation de chemin.
87
u S V1S(u)
Π(V1(u), S) Π(V1(u), S) V1S(u)
FIG. 4.8 – Motivation pour la mosaïque des extrema.
chemin. L’ordre a été fixé à p = 1 pour toutes les images. On peut observer que les V-régions
obtenues représentent correctement les structures marquées. Les contours ne sont pas forcément
réguliers, mais reproduisent fidèlement les données de l’image. Remarquons toutefois que, en
présence d’un faible nombre de sites, cette distance est appropriée pour la segmentation d’images
peu texturées, où les objets sont définis par leur homogénéité de couleur.
4.6 Mosaïque des extrema
4.6.1 Définition
Les algorithmes de segmentation sont généralement plus robustes lorsqu’ils sont appliqués
non pas à l’image originale, mais à une version simplifiée de celle-ci. Ce pré-traitement, souvent
88
appelé pré-segmentation, est motivé par le fait que les pixels ne sont pas des entités naturelles de
l’image, mais une conséquence du processus de discrétisation. La pré-segmentation cherche donc
à décomposer l’image en entités qui soient locales, plus cohérentes et moins nombreuses que les
pixels et, surtout, qui préservent sa structure géométrique. Parmi les méthodes utilisées à cet
effet, on peut citer les normalized cuts [RM03] ou, en morphologie mathématique, les opérateurs
connexes [CSS+97], la ligne de partage des eaux sans contraintes [MOSV97] et les nivellements
[MM00]. Nous proposons de traiter cette première étape du processus de segmentation au moyen
d’une V-partition induite par la variation de chemin.
Les métriques de chemin obtenues en intégrant une information le long des chemins, comme
les distances pondérées ou la variation de chemin, sont souvent utiles pour un niveau d’analyse
local. Leur définition rend en effet les V-partitions qu’elles engendrent sensibles à l’emplacement
des sites.
Une fois la distance fixée, le problème qui se pose est la sélection d’un ensemble de sites
adéquats pour cette tâche. D’une part, les sites doivent être représentatifs du contenu de l’image.
D’autre part, chaque structure significative doit contenir au moins un site. Dans le cas des fonc-
tions régulières à valeurs réelles, les extrema régionaux sont des candidats naturels. Leur impor-
tance dans la structure géométrique de la fonction est donnée par le fait qu’ils sont des éléments
terminaux de l’arbre de composantes de Kronrod.
Considérons par exemple la fonction régulière u de la Figure 4.8. Une segmentation accep-
table de cette "scène" devrait se composer de quatre régions plus ou moins rondes sur un fond
gris. On pourrait donc représenter les "objets" par leurs extrema et le fond par le bord du do-
maine. La colonne centrale de la figure montre cet ensemble de sites en haut et la partition de
Voronoï avec la variation de chemin en bas. L’image des intensités de la distance aux sites et
son graphe se trouvent dans la colonne droite. On peut apprécier visuellement la qualité de la
reconstruction en bas à gauche.
La structure d’une image réelle peut se représenter localement par une fonction régulière
89
Image originale Mosaïque des extrema
5
10
15
20
25
30
35
40
45
510
1520
2530
3540
45
0
50
100
150
200
250
5
10
15
20
25
30
35
40
45
510
1520
2530
3540
45
0
50
100
150
200
250
FIG. 4.9 – Exemple de pré-segmentation. Gauche : Image originale, détail et graphe du détail.Droite : Mosaïque des extrema, détail et graphe.
90
(voir par exemple le détail de la Figure 4.9). Notons cependant que, le nombre d’extrema d’une
image naturelle étant généralement très élevé, l’inclusion du bord du domaine dans l’ensemble
de sites n’est plus appropriée. Si on l’enlève de l’exemple précédent, l’extremum le plus proche
(dans ce cas s3) prend sa place dans la V-partition.
Les propriétés des extrema de la luminosité des images naturelles sont illustrées dans la ligne
2 de la Figure 4.10. On peut observer que la distribution spatiale des extrema (en noir) reflète la
structure géométrique de l’image ; leur densité est importante dans les régions nettes ou texturées
et faible dans les zones floues ou homogènes.
Nous considérons donc la partition de Voronoï Π(Vp(u), ext(u)), où ext(u) désigne l’en-
semble des composantes extrémales du canal de luminosité L∗ de l’image u. Nous appellerons
mosaïque des extrema (ME) de u une reconstruction constante par morceaux de l’image, obte-
nue par l’assignation d’une couleur à chaque V-région de Π(Vp(u), ext(u)).
Les Figures 4.9 et 4.10 présentent des exemples d’application de la méthode sur des images
naturelles. Dans la Figure 4.9, la taille de l’image originale est 512x512 et celle du détail présenté
est 50x50. Le modèle des V-régions est ici la valeur de l’image à l’extremum. La simplification
réalisée par la méthode est tout d’abord exprimée par la réduction du nombre de composantes ;
dans ce cas, l’image originale a 83430 zones plates (en 8-connexité) et la mosaïque en possède
seulement 1253. Dans la Figure 4.10, le pré-traitement est appliqué à des images couleur. Les
première et seconde lignes présentent les images originales et leurs extrema respectivement. La
troisième ligne montre les images des intensités de la distance à l’ensemble des sites, Vpext(u)(u)
et la Ligne 4 les mosaïques des extrema, avec la couleur médiane comme modèle des V-régions.
Puisque les contours flous et les zones de transition entre deux objets ne sont généralement
pas extrémaux, les plus grandes distances sont localisées sur les bords des régions floues. Les
propriétés du pré-traitement sont donc la réduction du flou, la préservation des textures et, surtout,
de l’information des contours. Accessoirement, le contraste des images est rehaussé.
En résumé, le choix de la variation de chemin en tant que pseudo-métrique et la distribution
91
FIG. 4.10 – Exemples de mosaïque des extrema sur images couleur. De haut en bas : Imagesoriginales, extrema, distance aux sites, mosaïques des extrema
92
spatiale des sites déterminent une partition de Voronoï où un compromis entre simplification et
conservation de contenu est atteint. La mosaïque associée est une reconstruction de l’image à par-
tir de l’information de ses extrema, qui peut s’interpréter comme un premier niveau d’abstraction
en relation aux pixels. Cette méthode de pré-segmentation est employée systématiquement dans
la troisième partie du mémoire et son utilité sera quantifiée dans la quatrième partie.
4.6.2 Comparaison avec la ligne de partage des eaux
Une caractéristique des techniques de segmentation issues de la morphologie mathématique
est leur fondement intuitif. L’exemple le plus célèbre est sans doute la ligne de partage des
eaux (LPE) [BM92], dont la définition repose sur l’analogie qui assimile le graphe d’une image
scalaire à une surface topographique, en identifiant le niveau de gris à une altitude. À l’origine,
cette notion provient de la géographie, où la LPE d’un relief désigne l’ensemble des points à
partir desquels une goutte d’eau peut atteindre deux vallées différentes.
Une interprétation alternative de la LPE repose sur la simulation d’un processus d’inondation
[Beu90] : le relief est percé aux minima et immergé progressivement dans de l’eau. L’eau inonde
uniformément les vallées, ou bassins versants des minima, et, aux points où deux lacs se ren-
contrent, un barrage est construit. Quand le relief est totalement immergé, l’union des barrages
forme la LPE.
L’approche par inondation a permis le développement des premiers algorithmes performants
pour l’implantation de la LPE [VS90]. Elle a par ailleurs motivé la définition continue de cette
transformation, décrite ci-après.
Cadre régulier
La formalisation de la ligne de partage des eaux dans le domaine continu est due aux travaux
de Najman [Naj94, NS94]. Nous comparons dans ce paragraphe la LPE à la variation de chemin.
93
On se place dans le cadre des fonctions de Morse. On suppose donc que l’image scalaire g
considérée est de classe C2 et que son hessien a deux valeurs propres non nulles aux points où
son gradient s’annule. L’image g est donc une fonction régulière avec des points critiques isolés.
On appelle distance image [Naj94], ou distance topographique [Mey94], la distance pondérée
associée au potentiel P = ‖∇g‖ et donnée par la formule :
W(g)(x, y) = infγ∈Γxy
∫ L
0
‖∇g(γ(l))‖ dl .
Cette distance est donc le cas limite des distances pondérées Ww définies dans (3.5.2), lorsque
w = 0.
Le résultat suivant est la caractérisation de la LPE dans le cadre métrique [Naj94] :
Proposition 4.6.1. Soit g une image de Morse qui s’annule sur l’ensemble de ses minima régio-
naux, noté min(g). Alors, la ligne de partage des eaux de g est le diagramme de Voronoï de la
distance image W(g) :
LPE(g) = ∆(W(g),min(g)) . (4.6.1)
Les V-régions de la partition de Voronoï associée à la LPE, Π(W(g),min(g)), coïncident
donc avec les bassins versants du graphe de g. Notons que, dans le cas où g ne s’annule pas sur
tous ses minima, on peut transformer la fonction sans modifier la LPE.
Remarquons par ailleurs que, si la surface topographique considérée est le graphe d’une
distance à un ensemble de sites, g = ψS , alors la LPE coïncide avec le diagramme de Voronoï :
LPE(ψS) = ∆(ψ, S).
La relation entre variation de chemin et distance image est donnée par les propriétés sui-
vantes.
Proposition 4.6.2. Si g est une image de Morse à variation de chemin bornée, alors
|g(x)− g(y)| ≤ V(g)(x, y) ≤ W(g)(x, y), ∀x, y ∈ Ω .
94
En particulier, si x et y appartiennent à une ligne de plus grande pente de g, alors
|g(x)− g(y)| = V(g)(x, y) = W(g)(x, y) .
Démonstration. Soit (x, y) ∈ Ω2 et γ ∈ Γxy.
Alors,
|g(x)− g(y)| =∣∣∣∣∫ L
0
(g γ)′(l)dl
∣∣∣∣ =
∣∣∣∣∫ L
0
∇g(γ(l)) · γ(l) dl
∣∣∣∣ , (4.6.2)
où γ = ∂γ/∂l. Donc,
|g(x)− g(y)| ≤∫ L
0
|∇g(γ(l)) · γ(l)| dl. (4.6.3)
Mais le membre de droite est par définition la longueur du chemin associée à la variation de
chemin. On obtient donc par Cauchy-Schwarz :
|g(x)− g(y)| ≤∫ L
0
|Dγ(g)(γ(l))| dl ≤∫ L
0
‖∇g(γ(l))‖ dl, (4.6.4)
car, l dénotant l’abscisse curviligne, on a ‖γ(l)‖ = 1. Ainsi, puisque γ est un chemin arbitraire,
on obtient :
infγ∈Γxy
|g(x)− g(y)| ≤ infγ∈Γxy
∫ L
0
|Dγ(g)(γ(l))| dl ≤ infγ∈Γxy
∫ L
0
‖∇g(γ(l))‖ dl, (4.6.5)
D’où le résultat :
|g(x)− g(y)| ≤ V(g)(x, y) ≤ W(g)(x, y), ∀x, y ∈ Ω .
Dans le cas où x et y appartiennent à une ligne de plus grande pente ζ de g, alors, ζ étant par
définition parallèle au gradient de g, on a |Dζ(g)| = ‖∇g‖ et
|g(x)− g(y)| ≤ infγ∈Γxy
∫ L
0
‖∇g(γ(l))‖ dl ≤∫ L
0
‖∇g(ζ(l))‖ dl .
De plus, ∫ L
0
‖∇g(ζ(l))‖ dl =
∫ L
0
∣∣Dζ(g)(ζ(l))∣∣ dl = |g(x)− g(y)| .
95
On a donc, finalement,
|g(x)− g(y)| = V(g)(x, y) = W(g)(x, y) .
Pour une image de Morse, il existe toujours une ligne de plus grande pente entre un minimum
m et un point x de son bassin versant. Les deux distances, mesurées par rapport à m, coïncident
donc dans le bassin versant. Si on considère l’ensemble des minima en tant que sites, on obtient
le résultat suivant :
Proposition 4.6.3. Soit g une image de Morse à variation de chemin bornée qui s’annule sur
l’ensemble de ses minima. Alors,
g = Vmin(g)(g) = Wmin(g)(g).
La distance aux minima est donc la même pour la variation de chemin et la distance image.
Elle coïncide de surcroît avec l’image. Cependant, les deux distances diffèrent pour un ensemble
de sites arbitraire. Mesurées par rapport à un seul minimum, elles diffèrent aussi hors du bassin
versant, où V est inférieure à W . On a donc la relation des V-diagrammes suivante :
Proposition 4.6.4. Soit g une image de Morse à variation de chemin bornée qui s’annule sur
l’ensemble de ses minima. Alors,
∆(V(g),min(g)) =⋃
x∈∆(W(g),min(g))
Cx(g) (4.6.6)
Ainsi, le diagramme de Voronoï de V coïncide avec l’ensemble des composantes connexes
de la LPE.
Dans le cadre de notre application, la différence principale entre variation de chemin et dis-
tance topographique est que la première utilise l’information de l’image originale, tandis que
la deuxième est construite sur celle du gradient. La perte d’information due à la dérivation peut,
96
g WS(g) Π(W(g), S)
FIG. 4.11 – Partition de Voronoï induite par la distance image
dans certains cas, annuler l’intérêt des V-partitions induites parW pour la segmentation. Cette si-
tuation est illustrée dans la Figure 4.11 avec l’exemple de la Figure 4.2 (p. 76). Puisque ‖∇g‖ est
dans ce cas constante, WS(g) est proportionnel à la distance euclidienne au site le plus proche
et ∆(W(g), S) correspond à la médiatrice entre les sites. Toute fonction à norme de gradient
constante, par exemple un plan incliné, produira la même V-partition sous W .
Mosaïque des extrema et mosaïque LPE
L’application de la LPE repose sur le choix d’une fonction scalaire g pour représenter la
surface topographique. Dans le cas de la segmentation de bas niveau, l’approche usuelle consiste
à modéliser les contours d’une image u par les lignes de partage des eaux du module de son
gradient g = ‖∇u‖ [BM92, SM94]. Cependant, le grand nombre de minima du gradient d’une
image naturelle conduit en pratique à une sur-segmentation comparable à celle de la mosaïque
des extrema.
Une première stratégie envisagée historiquement pour contourner ce problème consiste à
choisir au préalable un ensemble de sites S, afin de marquer les structures à extraire, et à modifier
l’homotopie de g de sorte à imposer les éléments de S comme seuls minima. La LPE de l’image
modifiée g détermine alors les contours des objets. On obtient ainsi une partition de Voronoï
Π(W(g), S) qui possède le même nombre de V-régions que le cardinal de S.
97
Une deuxième stratégie consiste à calculer la LPE sans contraintes de g et à utiliser la V-
partition Π(W(g),min(g)) comme partition initiale pour un algorithme de segmentation hiérar-
chique [NS96, Vac95, Mey01a]. Cette approche étant l’objet de la troisième partie du mémoire,
nous comparons à présent la LPE et la mosaïque des extrema en tant que méthodes de pré-
segmentation.
Dans ce but, nous considérons la mosaïque associée à la V-partition Π(W(g),min(g)), que
nous appelons mosaïque LPE. La différence fondamentale entre les deux reconstructions est que
la mosaïque des extrema est définie à partir de l’image originale, tandis que la mosaïque LPE
est construite sur le module du gradient. Ceci introduit un paramètre supplémentaire pour la
mosaïque LPE, car différentes approximations discrètes du gradient d’une image produisent des
résultats différents. En outre, les opérateurs de gradient lissent en général l’image originale afin
de bien-poser la dérivation ; or le lissage implique une perte du contenu de l’image et le niveau
de résolution de la mosaïque LPE est par conséquent limité dans certains cas.
La Figure 4.12 compare les reconstructions sur un détail de l’image cameraman. La première
ligne montre le gradient morphologique et l’image originale. La colonne gauche contient les mi-
nima du premier et les extrema de la seconde. Les quatre autres images présentent les mosaïques
associées aux V-partitions obtenues en combinant les deux distances et les deux ensembles de
sites. Dans tous les cas, la 8-connexite a été employée et la représentation des V-régions est la va-
leur de l’image au site. On peut observer que, grâce au grand nombre de sites et à leur distribution
spatiale, toutes les reconstructions préservent les caractéristiques principales de la scène, comme
la silhouette du photographe. Cependant, l’utilisation de la variation de chemin sur l’image origi-
nale permet d’extraire certains détails comme la bouche, les parties intérieures de l’appareil ou la
structure claire allongée, qui sont effacés avec la LPE. La perte d’information est due à l’absence
de minima à l’intérieur de ces régions et à l’utilisation du gradient. Même si le résultat peut être
amélioré en changeant le type de gradient, le problème est intrinsèque à la distance.
98
g = ‖∇(u)‖ u
min(g) LPE : Π(W(g),min(g)) Π(V(u),min(g))
ext(u) Π(W(g), ext(u)) ME : Π(V(u), ext(u))
FIG. 4.12 – Comparaison entre la mosaïque des extrema et mosaïque LPE.
99
Au cours de la dernière décennie, un certain nombre de définitions alternatives et implan-
tations pour la LPE ont vu le jour [RM00]. Citons notamment la construction par évolution des
courbes de [MB98, MB00, MM99], qui repose sur la formulation continue de la LPE de Najman.
L’approche par EDP garantit une précision sous-pixellique et la convergence du résultat vers la
solution continue. Cependant, puisque g désigne usuellement le module du gradient de l’image
originale u, la construction de la LPE par Fast Marching revient à trouver la partition de Voronoï
de la distance pondérée associée au potentiel :
P = ‖∇g‖ = ‖∇(‖∇u‖)‖
Ainsi, cette technique se heurte en pratique à une double différenciation de l’image originale,
ce qui réduit considérablement l’intérêt théorique qu’elle présente par rapport aux implantations
fondées sur la définition discrète de la LPE.
4.6.3 Choix des sites par diffusion non linéaire
Comme conséquence du grand nombre d’extrema du canal de luminosité d’une image na-
turelle, la V-partition des extrema est souvent composée d’une multitude de petites régions. La
question qui se pose est donc comment réduire le nombre d’extrema tout en préservant la struc-
ture géométrique de l’image. La réponse proposée dans ce paragraphe consiste à modifier l’image
originale par un processus de diffusion non linéaire.
Nous considérons donc la version régularisée [CLMC92, Wei98] de l’approche classique de
Perona et Malik [PM90b]. Dans cette méthode, une image filtrée ut = u(x, t) est construite
comme solution de l’équation de diffusion non linéaire suivante :
∂u
∂t= div(g(‖∇(Gσ ∗ u)‖2)∇u) , (4.6.7)
où Gσ dénote un noyau gaussien de variance σ et g(·) est une fonction de diffusivité positive. On
suppose par ailleurs que les conditions de bord sont réflectives et que l’état initial u0 = u(x, 0)
coïncide avec l’image originale.
100
Pour les exemples présentés, nous avons employé la diffusivité :
g(s) =
1, si s ≤ 0
1− exp(−3.315(s/κ)4
), si s > 0
où κ est le paramètre de contraste qui régule le processus de lissage sélectif. Les auteurs de
[WtHRV98] rapportent que cette diffusivité produit des résultats de segmentation meilleurs que
les fonctions proposées originellement dans [PM90b]. Cette approche est utilisée comme pré-
traitement dans [Wei01] pour améliorer la segmentation par LPE.
Les propriétés principales du filtrage par diffusion non linéaire sont illustrées en haut à droite
de la Figure 4.13. L’image initiale u0 dans cette expérience est la mosaïque des extrema du came-
raman, présentée en haut à gauche. Les paramètres de la diffusion sont σ = 1 et κ = 30. L’image
filtrée ut, à droite, correspond à l’échelle t = 180. Dans cette méthode, le lissage à l’intérieur des
régions est préféré au lissage entre régions différentes. Les régions homogènes sont donc lissées
dans l’image filtrée ut, tandis que l’information des contours est rehaussée. En outre, le nombre
d’extrema de l’image filtrée décroît rapidement lorsque l’échelle est augmentée. Ces propriétés
font de ext(ut) un candidat intéressant pour l’ensemble de sites de la V-partition. Deux choix
se présentent alors : considérer la partition des extrema de l’image filtrée, Π(V(ut), ext(ut)), ou
bien reprendre l’image initiale u0 et construire la V-partition Π(V(u0), ext(ut)).
Les résultats sont présentés dans les Lignes 2 et 3 de la Figure 4.13. Le nombre total de com-
posantes extremales (et donc de régions dans la V-partition) passe de 8412 dans l’image originale
à 261 dans l’image filtrée. La colonne gauche montre l’image mosaïque de Π(V(u0), ext(ut)) et
celle à droite présente la mosaïque des extrema de ut. On peut observer que les deux partitions
préservent la structure de l’image originale, malgré la réduction dans le nombre des sites. La dif-
férence principale est la régularité des V-régions dans l’image filtrée par rapport aux V-régions
obtenues avec l’image initiale.
L’utilisation d’un filtrage par diffusion non linéaire permet de trouver un ensemble de sites
représentatif du contenu de l’image. Cependant, l’excès de filtrage détruit l’information des
101
u0 ut
Π(V1(u0), ext(ut)) Π(V1(ut), ext(ut))
FIG. 4.13 – Sélection des sites par diffusion non-linéaire (voir texte).
102
contours. Cette méthode requiert donc un réglage précis des paramètres de diffusion. Notons par
ailleurs que même les régions homogènes comme le ciel de la Fig. 4.13 contiennent plusieurs
extrema après filtrage.
Alternativement, la mosaïque des extrema peut être utilisée comme une technique pour créer
une reconstruction significative et avec un faible nombre de régions d’une image filtrée. Remar-
quons qu’on peut aussi considérer d’autres types filtrages par EDP comme la diffusion linéaire,
le mouvement par courbure (MCM) ou le scale-space morphologique afin (AMSS). Nous avons
présenté le cas de la diffusion non linéaire parce que, dans notre expérience, elle est celle qui
produit les meilleurs résultats parmi les exemples précédents, lorsque les extrema d’une image
fortement filtrée sont utilisés sur l’image originale.
Troisième partie
Ultramétriques
103
104
Chapitre 5
Classification hiérarchique
Ce chapitre expose les éléments de base de la classification hiérarchique des données. Nous
suivons dans ce but les présentations de Benzécri [Ben84] et de Diday [DLPT82]. L’application
de cette théorie à la segmentation sera le sujet du Chapitre 6.
5.1 Ordres et arbres
Un ordre est une relation binaire qui permet de comparer les éléments d’un ensemble entre
eux. L’ordre naturel des nombres réels ≤ ou l’inclusion ensembliste ⊆ en sont deux exemples
classiques. Formellement, on définit :
Définition 5.1.1. Une relation binaire ¹ sur un ensemble A est un ordre si elle satisfait :
∀a, b ∈ A (a ¹ b) ∧ (b ¹ a) ⇔ (a = b) (5.1.1)
∀a, b, c ∈ A (a ¹ b) ∧ (b ¹ c) ⇒ (a ¹ c) (5.1.2)
L’ordre ¹ est total si l’axiome suivant est aussi vérifié :
∀a, b ∈ A (a ¹ b) ∨ (b ¹ a) (5.1.3)
L’Axiome (5.1.3) dit que, dans un ensemble totalement ordonné, tout couple d’éléments peut
être comparé.
105
106
La relation entre deux éléments a ¹ b se lit a est sous b, a succède b ou a est plus petit que b.
On lit aussi cette relation b est sur a, b précède a ou b est plus grand que a. Les éléments p ∈ A
tels que a ¹ p sont appelés les prédécesseurs de a. De même, les éléments tels que p ¹ a sont
appelés les successeurs de a.
On notera l’ordre strict, lorsque l’égalité est exclue, par le symbole ≺.
Définition 5.1.2. Une relation d’ordre total ¹ sur un ensemble A est un ordre hiérarchique si :
∀a, b, c ∈ A (a ¹ b) ∧ (a ¹ c) ⇒ (b ¹ c) ∨ (c ¹ b) (5.1.4)
Le couple (A,¹) est appelé un arbre.
Sur un arbre, l’ensemble des prédécesseurs d’un élément est donc totalement ordonné.
On peut alors définir :
L’ensemble d’éléments minimaux, ou terminaux de (A,¹) :
a ∈ A | ∀ b ∈ A : b ¹ a ⇒ (b = a)
L’ensemble d’éléments maximaux, ou sommets de (A,¹) :
a ∈ A | ∀ b ∈ A : a ¹ b ⇒ (b = a).
Un arbre à sommet unique est dit connexe.
Un arbre est binaire si tout élément non terminal a exactement deux successeurs.
Définition 5.1.3. Un ordre total £ sur un arbre (A,¹) est une stratification s’il satisfait :
∀a, b ∈ A, a ≺ b ⇒ a ¢ b (5.1.5)
Le triplet (A,¹,£) est appelé un arbre stratifié.
Une stratification peut être définie par une application f : A → R, appelée indice de strati-
fication. La relation (5.1.5) s’écrit dans ce cas :
∀a, b ∈ A, a ≺ b ⇒ f(a) < f(b) (5.1.6)
107
(a) (b) (c)
FIG. 5.1 – Exemple de hiérarchie indicée.
Un indice f est donc une fonction strictement croissante pour l’ordre hiérarchique. Nous noterons
ce type d’arbres stratifiés par (A,¹, f).
5.2 Hiérarchie de parties d’un ensemble
Nous nous intéressons à présent aux arbres déterminés par l’ordre de l’inclusion des parties
d’un ensemble.
Soit U un ensemble fini. Nous dirons que U est un univers et que ses éléments x ∈ U sont
des individus.
Définition 5.2.1. Un ensembleH ⊆ P(U)\∅ est une hiérarchie de parties de U s’il satisfait :
∀x ∈ U , x ∈ H (5.2.1)
U ∈ H (5.2.2)
∀a, b ∈ H, a ∩ b ∈ a, b, ∅ (5.2.3)
Les éléments h ∈ H sont nommés les classes, ou les groupes, de la hiérarchie.
Le couple (H,⊆) est donc un arbre connexe où le sommet est l’univers et les éléments ter-
minaux contiennent uniquement les individus.
Étant donné un indice de stratification f , l’arbre stratifié (H,⊆, f) est appelé une hiérarchie
indicée de parties de U .
108
Si on n’exige pas que la croissance de l’indice de stratification soit stricte, la relation (5.1.6)
s’écrit :
∀a, b ∈ H, a ⊂ b ⇒ f(a) ≤ f(b), (5.2.4)
On dira dans ce cas que (H,⊆, f) est une hiérarchie indicée au sens large.
La Figure 5.1.a présente les classes d’une hiérarchie (H,⊆) de parties d’un ensemble U =
a, b, c, d, e. Outre l’univers et les individus, cette hiérarchie contient uniquement deux groupes,
a, b, c et d, e.
Nous utilisons la représentation graphique habituelle d’un arbre (H,⊆) sous forme de den-
drogramme, illustrée dans les Figures 5.1.b et 5.1.c . Un dendrogramme est un graphe planaire
non orienté aux arrêtes anguleuses où les classes sont représentées par des points, les éléments
terminaux se trouvent en bas, le sommet en haut et les traits indiquent l’ordre hiérarchique entre
les classes, dans notre cas, l’inclusion ensembliste.
Cette représentation met en évidence le rôle joué par la stratification de la hiérarchie indicée
(H,⊆, f) : l’application f détermine l’ordonnée de chaque classe. Il est donc clair qu’on peut
construire une infinité d’arbres stratifiés à partir de la même hiérarchie ; il suffit de définir un
indice qui soit compatible avec l’ordre hiérarchique dans le sens de (5.1.6). Dans les exemples
des Figures 5.1.b et 5.1.c, l’indice correspond au niveau d’inclusion à partir des singletons et au
cardinal de la classe respectivement.
Enfin, on s’intéressera aux indices f qui satisfont les deux conditions supplémentaires :
f(U) = 1 et f(x) = 0, ∀x ∈ U .
On dit dans ce cas que f est un indice de diamètre.
Les diamètres sont donc des indices de stratification normalisés. On peut par exemple définir
un diamètre f à partir du cardinal de la classe (voir la Figure 5.1.c) en posant :
f(h) =#(h)− 1
#(U)− 1, ∀h ∈ H.
109
5.3 Ultramétriques
Dans le cadre métrique, les hiérarchies indicées correspondent à un type de distances spé-
ciales appelées ultramétriques. Nous rappelons dans cette section quelques notions de géométrie
ultramétrique.
Un espace ultramétrique (U , Υ) est un espace pseudo-métrique où l’Inégalité Triangulaire
(Axiome 2 de la Définition 1.2.1) est remplacée par la plus forte Inégalité Ultramétrique :
Υ(x, y) ≤ maxΥ(z, x), Υ(z, y)), ∀x, y, z ∈ U . (5.3.1)
Du point de vue géométrique, la relation (5.3.1) indique que tous les triangles dans un espace
ultramétrique sont soit isocèles, soit équilatéraux. Dans le premier cas, la base est le plus petit
des côtés.
Soit x0, ..., xn ⊂ U . Pour une distance ψ quelconque, l’inégalité triangulaire se généralise
par :
ψ(x0, xn) ≤n∑
i=1
ψ(xi−1, xi).
Dans le cas des ultramétriques, la relation (5.3.1) donne :
Υ(x0, xn) ≤ maxi=1,...,n
Υ(xi−1, xi). (5.3.2)
La topologie induite par une ultramétrique diffère significativement du cas euclidien usuel.
Considérons un espace ultramétrique (U , Υ) et une boule fermée de centre x ∈ U et de rayon r :
Bx(r) = y ∈ U| Υx(y) ≤ r.
Alors, une conséquence de l’Inégalité Ultramétrique est que tout point de la boule peut être
considéré comme son centre :
By(r) = Bx(r), ∀y ∈ Bx(r). (5.3.3)
110
De plus, si on considère deux boules ultramétriques Bx(r) et Bx′(r′) telles que r′ ≤ r et un point
y ∈ Bx(r) ∩Bx′(r′), alors y est simultanément le centre des deux boules et on a :
Bx′(r′) = By(r
′) ⊆ By(r) = Bx(r). (5.3.4)
Deux boules ultramétriques ne peuvent donc être que disjointes ou incluses l’une dans l’autre.
Du point de vue des partitions de l’espace qu’elles engendrent, les ultramétriques sont des
distances remarquables. Si on considère une partition de Voronoï ultramétrique Π(Υ, S), alors,
comme conséquence de l’Équation (5.3.3), la partition reste invariante si un site se déplace à
l’intérieur de sa V-région. De même, les V-partitions obtenues en ajoutant ou en enlevant un site
à S sont respectivement des sous- et sur-partitions de la V-partition initiale.
D’autre part, notons que l’Équation (5.3.4) implique que l’ensemble des boules fermées de
rayon fixé r détermine une partition de Voronoï de U . En outre, puisque tout point d’une boule
est son centre, ce type de V-partitions ne dépend plus explicitement d’un ensemble de sites mais
du rayon r. Ce troisième type de partitions métriques, que nous appelons partitions ultramé-
triques, sont notées dans la suite :
Π(Υ, r).
Notons enfin que toute partition de Voronoï dans un espace ultramétrique est centrée.
5.4 Ultramétriques et hiérarchies indicées
Benzécri a prouvé dans [Ben84] qu’il existe une bijection entre la classe des hiérarchies
indicées et celle des espaces ultramétriques. Nous donnons dans cette section les arguments
principaux de la démonstration dans le cadre de notre application, où l’ordre hiérarchique est
donné par l’inclusion.
Considérons un espace ultramétrique (U , Υ), où l’ensemble U est fini. Sans perte de généra-
lité, on peut imposer à la distance Υ de prendre ses valeurs dans l’intervalle [0, 1].
111
L’ensemble des boules ultramétriques de (U , Υ) est noté :
B = B ⊆ U | ∃ x ∈ U ,∃ r ∈ [0, 1] : B = Bx(r).
Vérifions d’abord que le couple (B,⊆) est bien une hiérarchie de parties de U . Les singletons xet l’univers U sont respectivement les boules de rayon nul et la boule de rayon 1. Ils appartiennent
donc à (B,⊆). La préservation de la structure hiérarchique (5.2.3) découle pour sa part de la
propriété (5.3.4), qui dit que deux boules ultramétriques ne peuvent être que disjointes ou incluses
l’une dans l’autre.
Pour définir un indice de stratification sur (B,⊆), notons par ρ(B) le rayon d’une boule
B ∈ B. Puisque tout point de la boule peut être considéré comme son centre (5.3.3), ρ est aussi
le diamètre de B :
ρ(B) = sup(x,y)∈B2
Υ(x, y)
La fonction ρ est par définition compatible avec l’ordre hiérarchique dans le sens de (5.1.6) :
B1 ⊂ B2 ⇒ ρ(B1) < ρ(B2).
Le triplet (B,⊆, ρ) est donc une hiérarchie indicée de parties de U .
Réciproquement, soient U un ensemble fini et (H,⊆, f) une hiérarchie indicée, où f est un
indice de diamètre. Considérons deux éléments x, y ∈ U et notons la plus petite classe de H qui
les contient par :
h(x, y) =⋂h ∈ H | x ∈ h ∧ y ∈ h.
On peut alors définir la distance Υ entre x et y comme l’image de cette classe sous f :
Υ(x, y) = f(h(x, y)).
Pour montrer que Υ est une distance ultramétrique, considérons x, y, z ∈ U . Alors, les classes
h(x, y) et h(x, z) contiennent toutes les deux l’élément x et, d’après (5.2.3), elles sont incluses
112
P1 P2 P3
FIG. 5.2 – Ordre et partitions.
l’une dans l’autre. Ainsi, la plus grande des deux contient les trois points x, y et z. Il s’en suit
l’inégalité ultramétrique :
Υ(x, y) ≤ maxΥ(z, x), Υ(z, y)).
En conclusion, sur un ensemble fini U , il est équivalent de définir une hiérarchie indicée ou
une distance ultramétrique.
5.5 Coupes et partitions
Soit P(U) l’ensemble des partitions de U . On peut définir un ordre dans P(U), appelé finesse,
en considérant la relation binaire suivante :
P1 v P2 ⇔ ∀ a ∈ P1 ∃ b ∈ P2 : a ⊆ b.
Lorsque P1 v P2 on lit que P1 est plus fine que P2 ou que P1 est une sur-partition de P2.
Tout élément de P2 est donc une réunion d’éléments de P1 et on dit que les deux partitions sont
emboîtées. Notons cependant que deux partitions peuvent ne pas être comparables pour v. La
finesse n’est donc pas un ordre total. Par exemple, dans la Figure 5.2 on a P1 v P2, mais aucune
de ces deux partitions ne peut être comparée à P3.
Une coupe d’une hiérarchie (H,⊆) de parties de U est une partition dont les éléments sont
113
C1 C2 C3
FIG. 5.3 – Coupes d’une hiérarchie indicée et partitions correspondantes. a : Coupe non uni-forme. b et c : coupes uniformes.
des classes de (H,⊆) :
P = hii où hi ∈ H, ∀i.
Graphiquement, une coupe est un ensemble de noeuds deH que toute branche deH intersecte
une et une seule fois, comme l’illustre la colonne gauche de la Figure 5.3. Les classes de la
hiérarchie qui composent la partition sont représentées par des carrés.
En général, deux coupes d’une hiérarchie ne sont pas comparables pour l’ordre de finesse,
comme dans le cas des coupes C1 et C2 de la Figure 5.3. Cependant, en présence d’une hiérarchie
indicée (H,⊆, f) on peut considérer la coupe uniforme deH au niveau λ, donnée par l’ensemble
des boules ultramétriques maximales de rayon inférieur ou égal à λ :
C(λ) = B ∈ B | (ρ(B) ≤ λ) ∧ (λ < ρ(B′)), ∀B′ ⊃ B
Sur un dendrogramme, C(λ) est représentée par la ligne horizontale d’ordonnée λ.
114
Les coupes uniformes sont comparables pour l’ordre de finesse : λ < λ′ ⇒ C(λ) < C(λ′).
Les partitions correspondantes sont donc emboîtées. Cette propriété est illustrée par les coupes
C2 = C(0, 35) et C3 = C(0, 75) de la Figure 5.3.
Ainsi, l’ensemble des coupes uniformes d’une hiérarchie indicée, C(λ)λ, est une famille
de partitions emboîtées de U . Réciproquement, si on se donne une famille de partitions emboîtées
Pii∈I , on peut définir une hiérarchie indicée en considérant les partitions en tant que coupes
uniformes. L’indice de stratification est donc celui de la famille et la boule ultramétrique de rayon
i d’un point x ∈ U est la région de Pi qui contient x.
5.6 Ultramétrique sous-dominante
L’information disponible pour classifier un ensemble est souvent une description de ses élé-
ments. Il semble donc naturel d’utiliser les relations entre ces descriptions comme point de départ
pour construire une hiérarchie. Dans le cadre métrique, la notion de ressemblance se quantifie
par une distance entre éléments de l’ensemble. L’inégalité triangulaire ne s’avère cependant pas
nécessaire dans ce cas et il suffit de considérer un indice de distance.
Définition 5.6.1. Un indice de distance sur un ensemble U est une application d : U ×U → R+
telle que ∀x, x′ ∈ U :
d(x, x′) 6= 0 ⇔ x 6= x′
d(x, x′) = d(x′, x)
Ainsi, d’après la caractérisation des hiérarchies indicées en tant qu’ultramétriques, on peut
énoncer en termes géométriques le problème de la classification comme suit : transformer, au
prix d’une déformation minimale, un indice de distance en une distance ultramétrique. Nous
présentons ci-après une solution à ce problème.
115
Soit U un ensemble fini. Notons la classe des ultramétriques sur U par :
U(U) = Υ : U × U → [0, 1] | Υ est ultramétrique.
Considérons l’ensemble des ultramétriques inférieures à un indice de distance d entre les élé-
ments de U :
Ud = Υ ∈ U(U) | Υ(x, y) ≤ d(x, y), ∀ y ∈ U
Alors, l’application Υd définie par :
Υd(x, y) = supΥ∈Ud
Υ(x, y) (5.6.1)
est une ultramétrique. Pour le prouver, vérifions l’inégalité ultramétrique. Soient x, y, z ∈ U ,
alors, puisque les éléments de Ud sont des ultramétriques, on a :
supΥ∈Ud
Υ(x, y) ≤ supΥ∈Ud
maxΥ(z, x), Υ(z, y)
En séparant les termes on obtient :
supΥ∈Ud
Υ(x, y) ≤ max supΥ∈Ud
Υ(z, x), supΥ∈Ud
Υ(z, y)
Ce qui donne l’inégalité ultramétrique :
Υd(x, y) = maxΥd(z, x), Υd(z, y)
Ainsi, le supremum de (5.6.1) est atteint et on peut écrire :
Υd(x, y) = maxΥ∈Ud
Υ(x, y) (5.6.2)
L’ultramétrique Υd est appelée sous-dominante, ou inférieure maxima, de d. On peut prou-
ver qu’elle dépend continûment de d.
Nous pouvons à présent préciser le problème d’optimisation auquel la sous-dominante est
solution. Considérons la mesure de ressemblance entre indices de distance suivante :
116
∆(d, δ) =
[ ∑x,y∈U
[d(x, y)− δ(x, y)]α]1/α
, α > 0. (5.6.3)
Alors,
∆(d, Υd) = minΥ∈Ud
∆(d, Υ) (5.6.4)
Ainsi, l’ultramétrique sous-dominante est la meilleure approximation "par le dessous" d’un
indice de distance d donné, au sens de (5.6.3).
On peut se demander s’il est possible de réaliser un raisonnement similaire à celui que nous
venons d’exposer en considérant les ultramétriques supérieures ou égales à d, pour obtenir une
approximation optimale "par le dessus" d’un indice de distance. On peut cependant prouver qu’il
n’y a pas d’unicité des ultramétriques supérieures minima.
Prouvons enfin la caractérisation de Υd en termes de chemins. Considérons un chemin discret
dans U , γ = x0, ...xn, et notons son plus grand saut par :
saut(γ) = maxi=1,...,n
d(xi, xi−1).
L’ultramétrique du saut minimum est définie par :
Υs(x, y) = infγ∈Γxy
saut(γ)
Proposition 5.6.1. L’ultramétrique du saut minimum est la sous-dominante :
Υd = Υs
Démonstration. Vérifions d’abord que Υs est une ultramétrique. Puisque l’ensemble U est fini, il
existe deux chemins γ1 ∈ Γzx et γ2 ∈ Γzy tels que : Υs(z, x) = saut(γ1) et Υs(z, y) = saut(γ2).
Considérons γ ∈ Γxy obtenu par la concaténation de γ1 et γ2. Alors, par définition
Υs(x, y) ≤ saut(γ) = maxsaut(γ1), saut(γ2)
117
et
Υs(x, y) ≤ maxΥs(z, x), Υs(z, y).
Prouvons à présent que tout élément Υ ∈ Ud (et en particulier Υd ) est inférieur ou égal à Υs.
Le résultat découle de la propriété (5.3.2) :
Υ(x, y) ≤ supi=1,...,n
Υ(xi−1, xi).
donc
Υ(x, y) ≤ supi=1,...,n
d(xi−1, xi) = Υs(x, y).
Considérons à présent un chemin discret, ou chaîne, γ ∈ Γxy, i.e. γ = x0, ...xn. Dans le
cas de la sous-dominante, la relation (5.3.2) s’écrit :
Υd(x0, xn) ≤ supi=1,...,n
d(xi−1, xi). (5.6.5)
Cette propriété, souvent appelée effet de chaîne, peut limiter en pratique l’utilisation de la
sous-dominante, car elle indique que la longueur d’une chaîne pour cette ultramétrique est tou-
jours inférieure ou égale au plus long des maillons. La Figure 5.4 montre un exemple de la distor-
sion de la distance initiale causée par l’effet de chaîne. Dans ce cas, d est la distance euclidienne
ε et la distance entre les deux extrémités de la chaîne est ε(x0, x7) = 5. Cependant, puisque la
longueur de chaque maillon est ε(xi−1, xi) = 1, on a Υε(x0, x7) = 1. Ainsi, deux points éloi-
gnées selon d peuvent être proches selon Υd s’il existe une chaîne de points très proches les uns
des autres les joignant.
118
FIG. 5.4 – Exemple de l’effet de chaîne de l’ultramétrique sous-dominante.
5.7 Classification ascendante hiérarchique
5.7.1 Construction de la hiérarchie
La construction d’une hiérarchie nécessite la définition d’une mesure de ressemblance entre
les parties de l’ensemble.
Définition 5.7.1. Un indice d’agrégation entre les groupes d’un univers U est une relation bi-
naire δ : P(U)× P(U) → R telle que, ∀ h, h′ ∈ P(U) :
δ(h, h′) ≥ 0
δ(h, h′) = δ(h′, h)
L’agrégation est souvent définie à partir d’un indice de distance entre les individus. Parmi les
exemples les plus classiques, on peut citer :
Agrégation du lien minimum :
δ(h, h′) = minx∈h, x′∈h′
d(x, x′) (5.7.1)
Agrégation du lien maximum :
δ(h, h′) = maxx∈h, x′∈h′
d(x, x′) (5.7.2)
Agrégation de la moyenne des distances :
δ(h, h′) =1
#(h)#(h′)
∑
x∈h, x′∈h′d(x, x′) (5.7.3)
119
TAB. 5.1 – Classification Ascendante Hiérarchique
EntréeIndice d’agrégation δ entre groupes de U
SortieHiérarchie de parties de U
1. InitialisationP : partition de U en individusT : tableau d’agrégations entre les classes de P
2. Boucle :Tant que P comporte plus d’une classe
Soient h et h′ deux classes de P qui minimisent δ- remplacer h et h′ par h ∪ h′ dans P- Mettre à jour T
Cette dernière agrégation est donc obtenue par la moyenne des distances entre les individus
pris dans chacun groupes.
Le problème de la classification hiérarchique revient donc à définir une distance ultramé-
trique sur U à partir d’un indice d’agrégation entre ses groupes. Deux méthodes principales
permettent de réaliser cette construction. La première, appelée Classification Descendante Hié-
rarchique (CDH), considère initialement la partition composée d’une seule classe, l’univers U .
Les classes sont ensuite découpées itérativement pour obtenir des partitions de plus en plus fines
jusqu’à la partition en individus. On peut par exemple diviser les classes en deux de façon à
maximiser l’agrégation ou, plus généralement, un critère donné qui dépend de δ.
Nous allons cependant nous concentrer dans la suite sur la stratégie duale, nommée Clas-
sification Ascendante Hiérarchique (CAH). L’algorithme, détaillé dans le Tableau 5.1, consiste
à se donner comme point de départ les individus isolés et à les regrouper récursivement selon
l’agrégation jusqu’à obtenir une seule classe.
Notons que cet algorithme construit une hiérarchie binaire. Cependant, le couple de classes
de la partition qui minimise l’agrégation peut ne pas être unique. Dans ce cas, on peut choisir un
120
des couples candidats au hasard, mais il n’y a pas d’unicité de la hiérarchie.
5.7.2 Définition de l’ultramétrique
Une hiérarchieH construite par CAH peut toujours être indicée en choisissant comme indice
de stratification l’ordre dans lequel les classes ont été formées, ou toute fonction croissante de
cet ordre. De même, on peut faire intervenir l’agrégation en définissant :
∀ h, h′ ∈ H, f(h ∪ h′) = maxδ(h, h′), f(h), f(h′). (5.7.4)
Il est néanmoins souhaitable que l’indice de stratification coïncide avec l’agrégation :
f(h ∪ h′) = δ(h, h′), (5.7.5)
pour tout h, h′ ∈ H tels que h ∩ h′ = ∅ et h ∪ h′ ∈ H.
Malheureusement, pour une agrégation arbitraire, ce choix peut conduire à des inversions,
c’est-à-dire à l’existence de deux classes h, h′ ∈ H telles que h′ h mais f(h′) > f(h).
Le résultat suivant, dû à Diday [DLPT82], caractérise les agrégations pour lesquelles la strati-
fication définie par (5.7.5) détermine une hiérarchie indicée au sens large. On noteraP la partition
qui précède la formation de la classe h = h1 ∪ h2 dans la construction de H par CAH.
Proposition 5.7.1. (H, f) est une hiérarchie indicée au sens large si et seulement si
δ(h, h3) ≥ f(h), ∀h3 ∈ P\h1, h2
Les agrégations usuelles, et en particulier les exemples du paragraphe précédent, satisfont
cette propriété.
Notons par ailleurs que la Proposition 5.7.1 garantit uniquement que la hiérarchie est indicée
au sens large. Elle peut donc contenir des classes h, h′ ∈ H telles que h′ h mais f(h) =
121
f(h′). En supprimant toutes les classes h′ qui se trouvent dans ce cas, on obtient finalement une
hiérarchie indicée mais qui n’est plus nécessairement binaire.
La hiérarchie (H, f) construite par CAH avec agrégation du lien minimum d’un indice de
distance d et où la stratification f est donnée par (5.7.5) est souvent nommée hiérarchie du saut
minimum. On peut prouver que l’ultramétrique associée à cette hiérarchie est la sous-dominante
de d.
La Figure 5.5 présente un exemple du déroulement de l’algorithme de classification ascen-
dante hiérarchique. Les individus sont dans ce cas les points A, B, C, D, E, F de l’espace
(R, ε) et la hiérarchie construite est celle du saut minimum.
122
FIG. 5.5 – Exemple de classification ascendante hiérarchique.
Chapitre 6
Cartes de contours ultramétriques
The separation of edge and region-based approaches expresses more of a difference in initial
orientation than a difference in practice. S.W. Zucker [Suc77]
6.1 Introduction
Segmentation en régions et détection de contours sont deux formes différentes d’approcher
le même problème. La première consiste à créer une partition du domaine de l’image, où les
régions représentent les objets. La seconde cherche à caractériser leurs contours par des mesures
locales. Toute région d’une segmentation possède cependant une frontière, qui devrait coïncider
avec les contours de l’objet.
La détection de contours a été motivée par l’importance des fortes discontinuités de l’image
pour la perception visuelle humaine. Si on se place dans le cas idéal où les objets sont des surfaces
lambertiennes, alors les points où l’intensité change abruptement constituent un ensemble naturel
pour chercher les contours. Dans le cadre continu, la dérivation semble donc être l’opérateur ap-
proprié pour aborder le problème. Ainsi, les techniques de détection de contours ont initialement
cherché à caractériser ces discontinuités par l’étude des dérivées de l’image. Un grand nombre
d’approximations du gradient et de modèles de contours ont vu le jour au cours des dernières
décennies. Parmi les plus connus, on peut citer les passages à zéro du Laplacian [MH80] ou les
123
124
maxima dans la direction du gradient [Can86]. Plus récemment, l’utilisation d’autres attributs
locaux comme l’énergie orientée [PM90a], la couleur et la texture [WHBP00] ainsi que des mé-
thodes d’apprentissage pour les combiner de façon optimale [MFM04], ont considérablement
augmenté la performance des extracteurs de contours.
Malgré leur diversité, la caractéristique commune de la plupart des techniques de détection
de contours demeure l’utilisation d’information locale de l’image. Ces méthodes produisent des
images scalaires où le niveau de gris de chaque pixel quantifie son appartenance aux contours
des objets. Le seuillage d’une telle image fournit donc un ensemble de pixels de contour, mais
qui ne forment pas nécessairement des courbes fermées. Ainsi, les détecteurs locaux nécessitent
dans certaines applications un post-traitement appelé complétion des contours afin d’intégrer leur
information en courbes significatives [EZ96, PZ89, WJ95, Coh01]. En revanche, les frontières
d’une segmentation en régions sont un ensemble de courbes fermées. Cette image de contours
n’est cependant que binaire et l’information qu’elle fournit est par conséquent limitée en compa-
raison de celle d’un détecteur local.
Motivé par la structure de la perception visuelle humaine, nous formulons dans ce chapitre
le problème de la segmentation dans le cadre de la classification hiérarchique des données. Dans
cette perspective, la structure géométrique d’une image est représentée par une famille de seg-
mentations emboîtées, plutôt que par une segmentation unique. Les frontières des segmentations
héritent de la structure des régions et définissent une représentation hiérarchique des contours,
que nous appelons carte de contours ultramétriques (UCM). Cette représentation permet d’étu-
dier la segmentation en régions et la détection de contours comme un seul problème, car une
UCM est une image scalaire dont tout seuillage produit un ensemble de courbes fermées, les
frontières d’une segmentation.
L’utilité d’une telle représentation est néanmoins déterminée par la distance qui la définit.
125
Notre objectif dans ce chapitre est donc la mise au point de distances ultramétriques pour l’ex-
traction des contours des images naturelles. Dans ce but, notre stratégie consiste à intégrer l’infor-
mation de contour locale le long des frontières des régions, puis à la compléter avec l’information
interne.
6.2 Segmentation hiérarchique
L’application des principes de classification hiérarchique des données au problème de la seg-
mentation découle de la traduction des notions du chapitre précédent au contexte des images.
Commençons par la notion d’individu. Les individus sont les éléments terminaux de la hiérar-
chie indicée, les feuilles de l’arbre stratifié. Ce sont les classes d’équivalence de l’ultramétrique,
qui déterminent le niveau de résolution de la distance. Ils constituent les atomes, les éléments
indivisibles de l’analyse, la plus petite échelle à considérer.
Puisque notre système se fonde uniquement sur les données de l’image, nous supposons que
les individus sont ses zones plates. Notre hypothèse de départ est donc qu’une région connexe à
couleur constante ne peut faire partie que d’un seul objet. En d’autres termes, en l’absence d’in-
formation préalable sur le contenu de l’image, nous supposons que l’information des contours
est contenue dans l’ensemble de ses discontinuités, noté K :
K(u) = ∂(z, z′) | z, z′ ∈ C(u),
où ∂(z, z′) désigne la frontière commune des zones plates z et z′.
Ainsi, l’univers que nous considérons, l’espace quotient de l’ultramétrique, est le graphe
de composantes de l’image. En outre, les groupes d’individus sont dans notre application les
segments qui représentent les objets, des régions connexes du domaine de l’image. L’indice de
stratification fournit pour sa part la notion d’échelle et les coupes uniformes d’une hiérarchie
indicée correspondent à des segmentations emboîtées.
126
Plus formellement, soit u0 une image et λ ∈ R une échelle. Suivant [MS95], nous appelons
opérateur de segmentation multi-échelles une application qui à tout couple (u0, λ) assigne une
partition Pλ du domaine de u0.
Nous dirons qu’un opérateur de segmentation multi-échelles est hiérarchique s’il satisfait les
propriétés suivantes :
∃ λ0 ∈ R : Pλ = C(u0), ∀λ ≤ λ0 (6.2.1)
∃ λ1 ∈ R : Pλ = Ω, ∀λ ≥ λ1 (6.2.2)
λ < λ′ ⇒ Pλ < P ′λ (6.2.3)
La première propriété indique qu’il existe une échelle où tous les individus sont détectés
(6.2.1) et la deuxième que la partition qui contient uniquement l’univers est atteinte en échelle
finie (6.2.2). La propriété structurelle des hiérarchies (6.2.3) stipule pour sa part que les seg-
mentations à échelles différentes sont ordonnées selon l’ordre de finesse. Elle indique que les
partitions sont emboîtées et donc que les régions des échelles grossières peuvent s’obtenir en
réunissant les régions des échelles fines ou, inversement, que les segments à faible échelle ré-
sultent de la division de segments aux grandes échelles. Un opérateur qui satisfait cette propriété
est appelé connexe par Salembier et Serra [SS95].
Remarquons que, puisque l’opérateur est défini par la famille de partitions Pλλ, on peut,
sans perte de généralité, faire un changement d’échelle, poser λ0 = 0 et restreindre l’étude à
l’intervalle [0, λ1]. Sous cette convention, le couple (H, f), donné par :
H = R ⊆ Ω | ∃λ : R ∈ Pλ (6.2.4)
f(R) = infλ ∈ [0, λ1] | R ∈ Pλ, ∀ R ∈ H (6.2.5)
est une hiérarchie indicée de parties de C(u0).
L’indice de stratification d’une région est donc son échelle d’apparition dans la hiérarchie.
Comme nous avons vu dans le chapitre précédent, la notion de hiérarchie indicée est équi-
valente à celle de distance ultramétrique. La distance entre deux points, notée Υ, est donnée par
127
P0 P1 P2 P3
Υx Π(Υx, 1) Π(Υx, 2) Π(Υx, 3)
FIG. 6.1 – Exemple d’opérateur hiérarchique et partitions par seuillage
l’échelle d’apparition de la plus petite région les contenant :
Υ(x, y) = inff(R) | x ∈ R ∧ y ∈ R ∧R ∈ H, ∀ x, y ∈ Ω (6.2.6)
On peut à présent comprendre l’intérêt de ces distances pour la segmentation. La boule ul-
tramétrique de rayon λ centrée au point x, Bλ(x), est la région de Pλ qui le contient. Ainsi, les
partitions par seuillage de la distance à x représentent les objets auxquels appartient x à chaque
échelle. La Figure 6.1 montre, en haut, la famille de partitions qui définit un opérateur hiérar-
chique. La partition P0 est donc censée correspondre aux composantes d’une image. En bas,
on peut observer à gauche l’image des intensités de Υx, la distance ultramétrique à un point
x ∈ Ω. Les trois autres images présentent, en gris, les boules ultramétriques de rayon croissant
du point. Notons que, puisque l’espace quotient de l’ultramétrique est le graphe de composantes,
ces boules sont les mêmes pour tout autre point dans la composante de x.
128
6.3 Définition des contours ultramétriques
Une segmentation normale peut s’exprimer de façon équivalente par une partition Pλ =
R1, ..., Rn ou par l’ensemble de ses contours Kλ. On peut donc décrire un opérateur de seg-
mentation multi-échelles au moyen de la famille de segmentations Kλλ.
En termes des contours, la définition d’un opérateur hiérarchique est donc la suivante :
Kλ = K(u0), ∀λ ≤ 0 (6.3.1)
Kλ = ∂Ω, ∀λ ≥ λ1 (6.3.2)
λ < λ′ ⇒ Kλ ⊃ Kλ′ (6.3.3)
La propriété (6.3.1) définit l’ensemble de contours possibles K0, dans notre cas les disconti-
nuités de l’image initiale K(u0). Chaque élément de K0 est donc une frontière commune entre
deux zones plates de u0. La propriété (6.3.2) indique pour sa part que tous les contours dispa-
raissent en échelle finie. Enfin, la propriété (6.3.3), appelée causalité forte dans [MS95], établit
que la localisation des contours est préservée lorsque l’échelle varie. Elle dit que les segmenta-
tions grossières peuvent s’obtenir en supprimant des contours des segmentations fines.
Nous pouvons à présent préciser le modèle de contours qui sera utilisé dans la suite.
Définition 6.3.1. Soit u0 une image et Υ la distance ultramétrique définie par un opérateur hié-
rarchique. La carte de contours ultramétriques (UCM) associée à Υ et à u0 est l’application
∇(Υ, u0) : K0 → [0, λ1] donnée par :
∇(Υ, u0)(∂) = infλ ∈ [0, λ1] | ∂ * Kλ,∀ ∂ ∈ K0.
En l’absence d’ambiguïté, nous omettrons Υ et u0 de la notation. Le nombre∇(∂) est appelé
en morphologie mathématique la saillance du contour ∂. Notons la dualité avec les régions, la
saillance d’un contour étant son échelle de disparition de la hiérarchie.
129
FIG. 6.2 – Exemple de carte de contours ultramétriques
La carte de contours ultramétriques est une représentation de l’opérateur de segmentation en
une image unique. Par définition, l’ensemble de niveau supérieur λ des contours ultramétriques
fournit l’ensemble des frontières Kλ :
[∇(Υ, u0) > λ] = Kλ
La Figure 6.2 montre la carte de contours ultramétriques correspondant à l’opérateur de la
Figure 6.1. Pour des raisons de visibilité, nous présentons dans cette figure et dans la suite l’image
complémentaire de∇, donnée par 1− ∇max(∇)
, où les contours à saillance élevée sont représentés
par des intensités faibles.
Une carte de contours ultramétriques satisfait par définition les mêmes propriétés d’inva-
riance que l’opérateur hiérarchique qu’elle représente. De plus, toute UCM est invariante par
changements d’échelle :
Si h : R→ R est une fonction strictement croissante, alors,
∇(h(Υ), u0) = h(∇(Υ, u0))
Remarquons enfin que, d’après notre définition, toutes les cartes de contours ultramétriques
d’une image u0 pondèrent les éléments du même ensemble K(u0), les discontinuités de l’image
initiale. L’intérêt d’une telle représentation dépend donc de la distance spécifique qui la défi-
nit, car sa valeur détermine la saillance de chaque contour. Ainsi, notre problème consiste à
130
TAB. 6.1 – Fusion de Régions
EntréeImage u0
Mesure de dissemblance entre régions voisines1. Initialisation
P : Partition du domaine de u0 en régions très homogènes.T : Tableau de dissemblances des régions voisines de P
2. Boucle :Tant qu’un critère de fusion est satisfait :
- Fusionner les deux régions les plus semblables de P- Mettre à jour T
construire des ultramétriques dont les contours représentent ceux des objets dans les images na-
turelles.
6.4 Construction ascendante
6.4.1 Fusion de régions
De manière explicite ou implicite, les idées de la classification hiérarchique des données
ont été employées pour traiter le problème de la segmentation depuis les origines de la vision par
ordinateur. En particulier, l’algorithme classique de fusion de régions, dont une version générique
est présentée dans le Tableau 6.1, n’est qu’une application de la méthode ascendante décrite dans
le chapitre précédent.
Plus précisément, la classification ascendante hiérarchique (voir le Tableau 5.1, p. 119) se
fonde sur un indice d’agrégation entre groupes d’individus. En segmentation, les classes étant
des régions connexes du domaine de l’image, l’agrégation peut s’interpréter comme une mesure
de ressemblance ou de dissemblance entre régions adjacentes.
D’autre part, la fusion de régions prend comme point de départ une partition du domaine de
131
l’image en régions homogènes. Cette partition initiale est souvent obtenue par un pré-traitement,
mais peut aussi bien être la partition en pixels ou, comme dans notre cas, la partition en compo-
santes connexes.
Enfin, la fusion de régions est arrêtée lorsqu’un certain critère n’est plus satisfait. Celui-ci est
par exemple le nombre de régions ou une mesure de qualité de la segmentation finale. Lorsqu’on
s’intéresse, comme dans notre cas, à la famille de partitions plutôt qu’à une partition unique, le
critère de fusion est simplement que la partition comporte plus d’une région.
Outre la partition initiale, l’élément déterminant de l’algorithme est la mesure de dissem-
blance. Typiquement, elle est construite à partir des attributs des régions. Un raisonnement na-
turel consiste à approcher u0 par une fonction régulière, par exemple un spline d’ordre fixé, sur
chaque région de la segmentation. Une dissemblance peut alors être définie en comparant les
approximations au moyen d’une norme Lp. Dans le cas le plus simple, où l’approximation est
constante sur chaque région, on peut approcher l’image par sa valeur moyenne sur la région R :
M(R) =
∫R
u0dx
|R|
et mesurer la dissemblance entre deux régions adjacentes par la différence absolue de leurs
moyennes [MMR91, CVSG89] :
δa(Ri, Rj) = |M(Ri)−M(Rj)|
D’autres caractéristiques des régions, telles la variance et la taille [BG89, Nac95], l’orientation
et la texture [YFS02], sont souvent prises en compte.
6.4.2 Dissemblances ultramétriques
L’algorithme de fusion de régions permet de construire une hiérarchie de parties de Ω à
partir d’une partition initiale et d’une mesure de dissemblance. Rappelons cependant que notre
objectif est plus spécifiquement de définir une distance ultramétrique. Cette considération amène
132
à s’intéresser particulièrement à la valeur prise par la dissemblance, facteur souvent négligé dans
la littérature.
Comme nous avons vu dans le chapitre précédent, la structure de hiérarchie indicée peut être
imposée à toute famille de partitions construite par Classification Ascendante Hiérarchique, en
considérant comme indice de stratification l’ordre dans lequel les classes sont formées (l’ordre
de fusion dans notre cas) ou une fonction croissante de cet ordre. L’ultramétrique ainsi définie
est cependant artificielle, de même que la notion d’échelle associée.
Une fois l’image initiale fixée, le seul élément dont nous disposons pour contrôler la valeur de
la distance est la dissemblance. Il semble donc naturel de définir comme indice de stratification
d’une région la valeur de la dissemblance lors de sa formation. Cependant, pour une dissem-
blance arbitraire, ce choix peut entraîner des inversions dans la hiérarchie, ce qui dans notre
cas se traduit par la violation du principe de causalité forte (6.3.3). Pour induire une distance
ultramétrique, la dissemblance doit être compatible avec l’ordre hiérarchique.
Définition 6.4.1. Soient H une hiérarchie construite par fusion de régions avec dissemblance δ
et f : P(Ω) → R l’application définie par :
f(R1 ∪R2) = δ(R1, R2), (6.4.1)
pour tout couple de régions connexes (R1, R2) ∈ H2.
Nous dirons que δ est une dissemblance ultramétrique si (H, f) est une hiérarchie indicée.
On peut déterminer si une dissemblance est ultramétrique a posteriori, en considérant la suite
des valeurs s = δii, où l’élément δi représente la valeur de la dissemblance lorsque la i-ème
fusion a lieu. Alors, (H, f) est une hiérarchie indicée si et seulement si s est croissante. Si, de
plus, s est strictement croissante, alors la hiérarchie indicée est binaire.
Notons par ailleurs que si la croissance de s n’est pas stricte, l’algorithme de fusion de régions
produit une hiérarchie indicée au sens large. Elle peut donc contenir des régions R, R′ ∈ Htelles que R R′ mais f(R) = f(R′). La suppression de toutes les régions R qui se trouvent
133
dans cette situation transforme alors (H, f) en une hiérarchie indicée au sens stricte. D’autres
modifications de l’algorithme sont envisageables lorsque s n’est pas strictement croissante. On
peut par exemple fusionner en parallèle tous les couples de régions à dissemblance égale.
La Proposition (5.7.1) fournit une caractérisation des agrégations compatibles avec l’ordre
hiérarchique dans le sens de la Définition 6.4.1. Dans le contexte de notre application, la dissem-
blance étant définie uniquement sur les régions adjacentes, ce résultat s’écrit :
Proposition 6.4.1. La dissemblance δ est ultramétrique si et seulement si
δ(R1, R2) ≤ δ(R1 ∪R2, R), (6.4.2)
pour tout couple de régions (R1, R2) qui minimise δ et pour toute région R connexe à R1 ∪ R2
et appartenant à la partition obtenue après leur fusion.
Notons par exemple que la dissemblance δa n’est pas ultramétrique. Un processus de fusion
gouverné par cette dissemblance peut donc produire des contours artificiels lorsque la couleur à
l’intérieur des régions varie graduellement.
Remarquons enfin que la méthode de fusion de régions peut être implantée efficacement
à l’aide d’un graphe d’adjacence des régions (RAG) [VC93, GSG98]. Les sommets du RAG
représentent les régions de la partition et les arêtes sont pondérées par la dissemblance. Les
arêtes sont placées dans un tas (min-heap, en anglais), ordonné selon la dissemblance. Le couple
de régions à fusionner est donc le premier élément du tas. Leur fusion est réalisée en enlevant
l’arête joignant les deux sommets et en les réunissant. Les dissemblances entre la nouvelle région
et ses voisins sont alors actualisées et remplacées dans le tas. Enfin, les contours ultramétriques
sont codés par les edgels et, quand deux régions fusionnent, les points de leur frontière commune
sont pondérés par la valeur de la dissemblance dans la grille duale.
134
FIG. 6.3 – De gauche à droite : image synthétique, contours ultramétriques et niveau de la hié-rarchie (image en couleurs dans la version électronique).
6.5 Mesures de contraste
Ainsi, la construction ascendante d’une hiérarchie indicée revient au choix d’une dissem-
blance ultramétrique appropriée. La question centrale est donc de définir cette mesure à partir
des données de l’image. Rappelons que notre objectif est de construire une ultramétrique dont les
contours représentent les contours apparents des objets dans les images naturelles. Nous allons
par conséquent utiliser principalement l’information de l’image le long de la frontière commune
des régions pour mesurer leur dissemblance.
6.5.1 Sous-dominante de la variation de chemin
En classification hiérarchique des données, l’indice d’agrégation entre classes est souvent
défini au moyen d’un indice de distance entre individus. Dans notre cas, les individus sont les
zones plates de l’image et l’univers son graphe de composantes. Une idée naturelle est donc
d’utiliser la variation de chemin sur ce graphe comme indice de distance.
Nous avons présenté dans la Section 5.8 trois indices d’agrégation classiques entre groupes,
définis à partir d’une distance entre individus : le lien minimum, la distance moyenne et le lien
maximum. Considérons le premier, dont l’ultramétrique associée, la sous-dominante, a la pro-
priété d’être la meilleure approximation "par le dessous" de la distance (5.6.3).
135
L’ultramétrique sous-dominante de la variation de chemin est définie par la dissemblance :
δc0(R1, R2) = minV1(u0)(x, y) | x ∈ R1, y ∈ R2
Néanmoins, les régions à fusionner étant connexes, le minimum est forcément atteint sur leur
frontière commune :
δc0(R1, R2) = minδ∗(u0(x), u0(y)) | x ∈ R1, y ∈ R2,
où les composantes des points x et y sont adjacentes.
La dissemblance δc0 est ultramétrique par définition. La distance associée, notée Υc0 , est
donc l’ultramétrique inférieure maxima de la variation de chemin. D’après la caractérisation
de la sous-dominante en termes de chemins (5.6.1), Υc0 , coïncide avec l’ultramétrique du saut
minimum sur le graphe de composantes de u0. Notons que, parmi les trois agrégations classiques
citées plus haut, δc0 est la seule à utiliser exclusivement l’information de frontière commune des
régions.
L’espace pseudo-métrique (Υc0 , Ω) constitue notre premier modèle pour la segmentation hié-
rarchique. Dans cet espace, la boule ultramétrique de rayon λ d’un point x est l’ensemble des
points qui peuvent être atteints, à partir de x, en suivant un chemin le long duquel la plus grande
discontinuité de l’image est inférieure ou égale à λ. En morphologie mathématique, cette boule
ultramétrique est appelée une zone quasi-plate de pente λ, ou zone λ-plate, par extension des
zones plates strictes qui correspondent au cas λ = 0. La distance Υc0 représente donc les objets
de l’image par des régions sans transitions de couleur brusques. Elle est par définition sensible au
bruit et aux textures, mais devrait servir à extraire les contours des objets de couleur relativement
uniforme.
La Figure 6.3 illustre le principe de l’ultramétrique Υc0 sur l’image synthétique u0 de gauche.
La partie centrale présente la carte de contours ultramétriques ∇(Υc0 , u0). On peut observer que
la saillance des contours séparant les trois régions de couleurs différentes (en gras) est large-
ment supérieure aux saillances entre les composantes qui ont des nuances différentes de la même
136
Image originale u0 ∇(Υc0 , u0)
Π(Υc0 , 0.15) Π(Υc0 , 0.15)
Π(Υc0 , 0.4) Π(Υc0 , 0.4)
Π(Υc0 , 0.6) Π(Υc0 , 0.6)
FIG. 6.4 – Exemple de carte de contours ultramétriques associée à la sous-dominante de la va-riation de chemin.
137
couleur. Le contour entre la région jaune et la bleue a la plus haute saillance (1,0) et la pondéra-
tion du contour entre la région bleue et la rouge est de 0,85. La saillance interne la plus élevée
(dans la région bleue) est 0,22. La partie droite montre la mosaïque de la partition Π(Υc0 , 0,3),
avec la couleur médiane sur chaque région. À cette échelle, toutes les composantes de couleurs
proches ont déjà fusionné entre elles. Cet exemple montre aussi que l’approximation de l’espace
des couleurs perceptuellement uniforme des standards de la C.I.E. (l’espace L∗ab dans ce cas)
est globalement correcte.
La Figure 6.4 présente l’application de Υc0 sur une image naturelle. La scène représentée dans
cette image, une nature morte, est composée essentiellement d’objets contrastés et de couleur
uniforme sur un fond lisse. En l’absence d’objets texturés et de bruit, l’image présente des carac-
téristiques appropriées pour tester l’efficacité de Υc0 sur une image réelle. La carte de contours
ultramétriques se trouve en haut à droite. Le résultat donne une première impression visuelle
satisfaisante. On peut identifier aisément les différents végétaux et la saillance des contours les
séparant est sensiblement supérieure aux saillances internes. Notons toutefois que les contours
sont épais.
Les Lignes 2 et 3 de la Figure 6.4 montrent deux partitions ultramétriques, Π(Υc0 , λ), obte-
nues par seuillage de la carte de contours ultramétriques. La distance est normalisée à l’intervalle
[0, 1]. On peut observer, dès l’échelle λ = 0,15, que la quasi totalité des contours coïncide avec
des contours réels. A l’échelle λ = 0,4, les détails ont disparu mais la structure globale de la
scène est encore extraite. On observe néanmoins que certains contours sont ouverts, ce qui en
théorie ne devrait pas arriver avec notre approche. Leur présence s’accentue lorsque l’échelle
augmente, car les régions homogènes fusionnent entre elles. La Ligne 4 présente par exemple la
partition pour l’échelle λ = 0,6 (gauche) et un détail (droite). Les zones de transition entre deux
objets sont la cause de ce phénomène. En effet, lorsqu’un pixel est situé exactement à l’emplace-
ment d’un contour réel, sa couleur est souvent très différente de celles des objets qu’il sépare. Il
en résulte donc de petites régions à haute saillance qui donnent l’apparence de contours ouverts.
138
Image Originale Π(Υc0 , 0.2) Π(Υc0 , 0.4)
Mosaïque des extrema Π(Υc0 , 0.2) Π(Υc0 , 0.4)
FIG. 6.5 – Effets de la pré-segmentation sur les contours ultramétriques.
139
Du point de vue de notre approche, où les régions sont censées représenter des objets réels,
les zones de transition sont une source de bruit. Leur effet est accru en présence de flou, comme
le montrent les Lignes 1 et 2 de la Figure 6.5. Le flou atténue les contours faibles et épaissit les
contours contrastés. Par conséquent, les structures faiblement contrastées, comme celles de l’ar-
rière plan, ne sont pas extraites par les contours ultramétriques. En revanche, les contours sépa-
rant des régions fortement contrastées, comme les tâches claires de l’aile du papillon, sont épais
et contiennent un grand nombre de zones de transition à haute saillance. Ainsi, l’information
extraite par ∇(Υc0 , u0) est essentiellement celle des zones de transition. Les contours obtenus
sont épais aux échelles faibles et ouverts aux échelles hautes, ce qui les rend inutilisables pour
nos propos.
Les exemples précédents mettent en évidence la nécessité de pré-traiter l’image avant de
construire les contours ultramétriques. Le pré-traitement devrait supprimer les zones de transi-
tion tout en préservant la localisation des contours, rehausser le contraste et éliminer le flou. La
mosaïque des extrema, présentée dans le Chapitre 4, satisfait toutes ces propriétés. Nous allons
donc l’utiliser dans la suite comme image initiale u0. Les lignes 3 et 4 de la Figure 6.5 montrent
l’amélioration des contours ultramétriques obtenue grâce à notre méthode de pré-segmentation.
D’une part, les zones de transition n’étant généralement pas extrémales, elles sont absorbées par
la V-région d’un extremum voisin et disparaissent de la partition initiale. Les contours obtenus
sont donc fermés. D’autre part, puisque les contours flous deviennent contrastés, les contours
ultramétriques sont minces. Enfin, le rehaussement du contraste accroît l’échelle de disparition
des contours et permet de mieux séparer les différentes structures.
6.5.2 Ultramétrique de contraste moyen
Outre les zones de transition, une limitation pratique de Υc0 est l’effet de chaîne (5.3.2), selon
lequel la longueur d’une chaîne pour la sous-dominante est toujours inférieure ou égale au plus
long des maillons. Dans le contexte de notre application, l’effet de chaîne entraîne des fuites.
140
En effet, il suffit qu’il existe un chemin entre deux points dont le plus grand saut est faible pour
que leurs régions fusionnent rapidement. On peut observer les fuites dans la Figure 6.4. Même
à échelle réduite, certains des végétaux ont déjà fusionné entre eux et avec le fond. La saillance
des contours les séparant est donc très faible, même si le contraste entre les deux objets est
globalement grand. L’utilisation d’une mosaïque des extrema comme image initiale diminue le
problème, grâce au rehaussement du contraste du pré-traitement. L’effet de chaîne est néanmoins
inhérent à la sous-dominante.
Pour remédier au problème des fuites, reformulons la construction du paragraphe précédent
sur un domaine continu.
Considérons une mesure d’homogénéité locale de la couleur, donnée par la plus grande va-
riation de l’image au voisinage de chaque point :
τ(u0, x) = supδ∗(u0(y), u0(y′)) | ∀y, y′ ∈ Br(x), ∀x ∈ Ω, (6.5.1)
où Br(x) est une boule euclidienne de rayon r.
On peut alors interpréter δc0 comme quantifiant l’homogénéité locale minimale sur le contour
séparant deux régions :
δc0(R1, R2) = infτ(u0, x) | x ∈ ∂(R1, R2),
Sous cette formulation, Υc0 apparaît comme une mesure de contraste entre régions connexes. On
s’aperçoit donc que la cause des fuites est l’absence d’information de contraste en au moins un
point de la frontière. Ainsi, l’existence par exemple d’un pixel de transition entre deux objets de
couleur relativement proche occasionne la fusion prématurée des régions.
Nous considérons donc comme deuxième mesure de contraste l’homogénéité locale moyenne
sur la frontière commune des régions :
δc1(R1, R2) =Σc(∂(R1, R2))
L(∂(R1, R2)), (6.5.2)
141
FIG. 6.6 – Gauche : image synthétique u0. Droite : ∇(Υc1 , u0).
où Σc est donnée par :
Σc(∂(R1, R2)) =
∫
∂(R1,R2)
τ(u0, x(s))ds. (6.5.3)
Du point de vue pratique, nous approchons (6.5.3) en échantillonnant la frontière aux points
centraux des edgels et en considérant un voisinage de rayon unitaire. On calcule donc :
Σc(∂(R1, R2)) =∑
δ∗(u0(p1), u0(p2)), (6.5.4)
où δ∗ est la distance dans l’espace des couleurs et la somme est calculée sur tous les pixels
adjacents tels que p1 ∈ R1 et p2 ∈ R2.
Proposition 6.5.1. La dissemblance δc1 est ultramétrique.
La compatibilité de δc1 avec l’ordre hiérarchique sera prouvée dans la Section 6.6. La distance
ultramétrique induite par δc1 , que nous appelons ultramétrique de contraste moyen et notons
Υc1 , constitue le deuxième modèle que nous allons étudier pour la segmentation hiérarchique.
La Figure 6.6 illustre le principe de l’application de Υc1 sur l’image synthétique de gauche,
où les chiffres indiquent le niveau de gris. Si on utilise Υc0 , la saillance du contour horizontal est
142
(a) (b) (c)
FIG. 6.7 – Comparaison des mesures de contraste sur une image naturelle.
donnée par le minimum des différences des intensités entre les composantes adjacentes du haut
et du bas. Dans ce cas, elle se calcule avec les deux composantes les plus à droite et vaut 100. La
saillance du même contour avec Υc1 est la moyenne des différences. Elle vaut dans ce cas 175,
reflétant plus fidèlement le contraste global entre la région sombre du haut et la région claire du
bas.
En mesurant la moyenne de l’homogénéité locale sur la frontière plutôt que le minimum, on
peut espérer une estimation plus robuste du contraste réel entre deux objets en utilisant Υc1 à la
place de Υc0 . En revanche, contrairement à la sous-dominante, cette ultramétrique n’est pas une
métrique de chemin et sa valeur ne peut pas être exprimée par des mesures le long des chemins.
La Figure 6.7 compare nos deux mesures de contraste sur une image naturelle. Les cartes
de contours ultramétriques présentées sont, de gauche à droite, ∇(Υc0 , u0), ∇(Υc0 , m(u0)) et
∇(Υc1 ,m(u0)), où u0 est l’image originale et m(u0) sa mosaïque des extrema. La méthode de
pré-segmentation accroît considérablement le maximum de la saillance ; dans cet exemple, il
passe de 34 dans (a) à 204 dans (b). En revanche, le maximum du contraste minimum et celui
du contraste moyen sont très proches (205.7 pour (c)). La différence principale entre les deux
ultramétriques est que la saillance relative des structures est plus importante avec Υc1 qu’avec
Υc0 . Par exemple, la saillance de l’aile sombre est de 65% pour la première contre 23% pour
143
FIG. 6.8 – De haut en bas : site, image des intensités de distance Υc1 au site, seuil de 0.35 et seuilde 0.65
144
FIG. 6.9 – Importance de l’information de texture pour la perception humaine.
la seconde. L’ultramétrique de contraste moyen permet donc de mieux séparer les différentes
structures de l’image.
La Figure 6.8 reproduit l’expérience de la Figure 6.1 (p. 127) avec une image naturelle. On
peut observer les partitions par seuillage de la distance Υc1 pour trois sites. Les partitions peuvent
s’obtenir par seuillage de l’image des intensités de la distance au site. Le seuil au niveau λ fournit
la boule ultramétrique du site (en blanc) par rapport à Υc1 et représente l’objet auquel appartient
le site à cette échelle.
6.6 Enrichissement du contraste
Dans la section précédente, nous avons construit deux ultramétriques pour mesurer le contraste
des images naturelles. Ces distances expriment une notion d’homogénéité des objets fondée sur
la couleur, leurs régions étant caractérisées par une plus grande uniformité de couleur à l’intérieur
que sur la frontière. Les limites d’application de ces distances sont donc atteints lorsque l’homo-
généité des objets dépend d’autres facteurs. Un exemple est le cas de la texture ; comme l’illustre
la Figure 6.9, cette information joue souvent un rôle prépondérant dans le regroupement percep-
tuel des images naturelles. Nous étudions dans cette section l’inclusion de telles caractéristiques
dans la définition de la distance.
145
Il est possible de définir d’autres mesures d’homogénéité locale de la couleur que celle don-
née par l’équation (6.5.1). On peut par exemple considérer une boule (euclidienne) autour de
chaque point, la diviser par un diamètre et comparer les histogrammes couleur des deux moitiés.
Une mesure scalaire est alors donnée par le maximum sur toutes les orientations des diamètres.
Cette technique, utilisée dans [MFM04], permet en outre de prendre en considération une plus
large variété d’attributs locaux. Par exemple, dans le cas de la texture, on peut comparer la ré-
ponse de l’image à une banque de filtres de texture, ou textons, sur les deux moitiés du disque.
Une telle approche, dans le cadre de la segmentation, est celle des détecteurs de contours locaux.
Une façon d’enrichir nos ultramétriques de contraste est donc de mesurer d’autres notions
d’homogénéité locale au voisinage des points de la frontière entre deux régions. Plus précisé-
ment, nous supposons que ces informations ont été préalablement extraites de l’image et que
nous disposons, en entrée de notre système, d’un "module du gradient" g, une image scalaire
dont la valeur à chaque point quantifie localement l’homogénéité de l’image par rapport à ces
autres caractéristiques. Nous utilisons en particulier le détecteur de contours de [MFM04] qui
mesure et combine de façon optimale des attributs locaux comme la luminosité, la couleur et la
texture, sur un voisinage de chaque point (voir la Section 8.2.1 pour plus de détails).
Ainsi, nous définissons de façon analogue à la section précédente une dissemblance de gra-
dient minimum sur la frontière :
δg0(R1, R2) = ming(x) | x ∈ ∂(R1, R2), (6.6.1)
Pour augmenter la robustesse de δg0 , nous considérons aussi une dissemblance de gradient
moyen :
δg1(R1, R2) =Σg(∂(R1, R2))
L(∂(R1, R2)), (6.6.2)
où
Σg(∂(R1, R2)) =
∫
∂(R1,R2)
g(x(s))ds. (6.6.3)
146
Du point de vue pratique, nous approchons l’intégrale de (6.6.3) en échantillonnant l’interpola-
tion bilinéaire de g sur les points centraux des edgels.
L’intérêt des distances de la section précédente est que, étant mesurées directement sur l’image
originale, elles préservent la localisation de ses contours, contrairement à δg0 et δg1 . Pour profiter
des avantages des deux approches, nous considérons la dissemblance de frontière suivante :
δf (R1, R2) = δc1(R1, R2) + α1 · δg1(R1, R2) (6.6.4)
où le paramètre α1 pondère l’importance de l’information de contraste de l’image initiale par
rapport à celle du gradient. Notons que, puisque δc1 n’est jamais nul, la carte de contours ultra-
métriques induite par δf préserve la localisation des contours de l’image initiale.
Proposition 6.6.1. La dissemblance δf est ultramétrique.
Nous prouverons que la dissemblance de frontière est compatible avec l’ordre hiérarchique
dans la section suivante. L’ultramétrique associée, notée Υf , est notre troisième modèle de seg-
mentation hiérarchique.
Les Figures 6.10 et 6.11 présentent des exemples d’application de l’ultramétrique Υf . L’ap-
port principal de l’enrichissement du contraste à la distance est le traitement explicite de la tex-
ture. Les régions texturées, comme la robe du personnage ou la fourrure du léopard, sont source
de bruit pour l’ultramétrique Υc1 ; Υf permet en revanche de les extraire correctement, grâce à
la prise en compte de cette notion d’homogénéité par le détecteur local. Remarquons par ailleurs
que l’avantage de notre approche par rapport aux détecteurs locaux est que nos contours, en
tant que frontières de régions, sont fermés. En outre, dans les régions où l’information du gra-
dient et celle de l’image sont contradictoires, comme dans le visage du personnage, leurs effets
s’annulent dans Υf .
147
6.7 Information interne
Les ultramétriques définies jusqu’à présent utilisent exclusivement l’information de l’image
sur les contours. Nous étudions dans cette section l’inclusion de caractéristiques internes des
régions en complément de l’information de frontière, pour la définition de la distance.
Dans ce but, nous mesurons un attribut interne sur chaque région, une fonctionA : P(Ω) →R+ croissante par rapport à l’ordre de l’inclusion :
R ⊂ R′ ⇔ A(R) < A(R′). (6.7.1)
L’exemple le plus simple d’attribut croissant est la taille de la région. Notons en revanche qu’un
attribut comme la couleur moyenne ou le perimètre ne satisfait pas forcement (6.7.1).
Ainsi, à partir de la dissemblance de frontière (6.6.4), nous considérons une dissemblance de
la forme :
δi(R1, R2) = δf (R1, R2) ·minA(R1),A(R2)α2 , (6.7.2)
où le paramètre α2 ≥ 0 permet de balancer l’importance de l’information interne par rapport à
celle de frontière dans la dissemblance.
Prouvons que δi est compatible avec l’ordre hiérarchique.
Proposition 6.7.1. La dissemblance δi définie par (6.7.2) est ultramétrique.
Démonstration. Soit (R1, R2) un couple de régions qui minimise la dissemblance δi définie par
l’équation (6.7.2) et R3 une région connexe à R1∪R2, appartenant à la partition après leur fusion.
Nous allons prouver la relation (6.4.2) :
δi(R1, R2) ≤ δi(R1 ∪R2, R3). (6.7.3)
Par minimalité du couple (R1, R2) on a :
δi(R1, R2) ≤ δi(R1, R3) (6.7.4)
148
image originale segmentation reconstruction
détecteur local g ∇(Υc1) ∇(Υf )
[g ≥ 0.14] Π(Υc1 , 0.3) Π(Υf , 0.18)
FIG. 6.10 – Exemple d’enrichissement du contraste.
149
Image originale
∇(Υc1) Π(Υc1 , 0.3)
détecteur local g [g ≥ 0.11]
∇(Υf ) Π(Υf , 0.3)
FIG. 6.11 – Exemple d’enrichissement du contraste.
150
et donc
δi(R1, R2) ≤ δf (R1, R3) ·minA(R1),A(R3)α2 . (6.7.5)
Par la croissance de l’attribut, on a A(R1) < A(R1 ∪R2) et
δi(R1, R2) ≤ δf (R1, R3) ·minA(R1 ∪R2),A(R3)α2 (6.7.6)
ou encoreδi(R1, R2)
minA(R1 ∪R2),A(R3)α2≤ δf (R1, R3) (6.7.7)
En notant N le membre de gauche, l’inégalité (6.7.7) s’écrit :
N ≤ δf (R1, R3) (6.7.8)
Par ailleurs, la minimalité du couple (R1, R2) implique aussi que :
δi(R1, R2) ≤ δi(R2, R3) (6.7.9)
En répétant le raisonnement, avec R2 à la place de R1 dans les membres de droite, l’inégalité
(6.7.8) devient :
N ≤ δf (R2, R3) (6.7.10)
Prouvons à présent l’inégalité :
N ≤ δf (R1 ∪R2, R3). (6.7.11)
Pour alléger les notations, notons Σijc = Σc(∂(Ri, Rj)), Σij
g = Σg(∂(Ri, Rj)), et Lij =
L(∂(Ri, Rj)).
Les relations (6.7.8) et (6.7.10) s’écrivent donc :
N ≤ Σ13c + α1Σ
13g
L13et N ≤ Σ23
c + α1 · Σ23g
L23
151
d’où on déduit que
N ≤ (Σ13c + Σ23
c ) + α1 · (Σ13g + Σ23
g )
L13 + L23.
Mais, puisque ∂(R1 ∪R2, R3) = ∂(R1, R3) ∪ ∂(R2, R3), on a
N ≤ δc1(R1 ∪R2, R3) + α1 · δg1(R1 ∪R2, R3).
Ainsi, en remplaçant N et δf dans (6.7.11), on obtient :
δi(R1, R2)
minA(R1 ∪R2),A(R3)α2≤ δf (R1 ∪R2, R3) (6.7.12)
d’où
δi(R1, R2) ≤ δf (R1 ∪R2, R3) ·minA(R1 ∪R2),A(R3)α2 (6.7.13)
et finalement,
δi(R1, R2) ≤ δi(R1 ∪R2, R3) (6.7.14)
Toute fusion de régions gouvernée par une dissemblance de la forme (6.7.2) induit donc une
ultramétrique. Cette distance, notée Υi, est notre quatrième modèle pour la segmentation. Notons
que les dissemblances δf et δc1 sont des cas particuliers de δi, en choisissant respectivement
α2 = 0 et (α1, α2) = (0, 0).
Remarquons par ailleurs que, dans la définition de δi (6.7.2), on pourrait envisager d’autres
façons de combiner les attributs internes des deux régions, par exemple, leur moyenne harmo-
nique. Le choix du minimum a cependant l’avantage de rendre la dissemblance asymétrique pour
les régions et permet d’interpréter la fusion des régions comme l’absorption de la région à attribut
minimum par celle à attribut maximum. On peut alors considérer la saillance du contour comme
la valeur d’extinction de la première région. On obtient ainsi une classification des composantes
de l’image initiale, qui sera utilisée dans la section suivante.
152
Image originale Mosaïque des extrema Reconstruction
α2 = 0 - Π(Υi, 0.2) α2 = 0 - Π(Υi, 0.45) α2 = 0 - Π(Υi, 0.6)
α2 = 0.1 - Π(Υi, 0.2) α2 = 0.1 - Π(Υi, 0.45) α2 = 0.1 - Π(Υi, 0.6)
α2 = 0.4 - Π(Υi, 0.2) α2 = 0.4 - Π(Υi, 0.45) α2 = 0.4 - Π(Υi, 0.6)
FIG. 6.12 – Influence du paramètre α2 dans les partitions ultramétriques (voir texte).
153
Dans nos expériences, nous avons considéré l’attribut interne suivant :
A(R) =
∫
R
dx + α3 ·∫
R
δ2∗(u0(x),M(R))dx (6.7.15)
où α3 ≥ 0 et M(R) dénote la couleur moyenne de l’image initiale sur la région R.
Le premier terme de (6.7.15) est la taille de la région et le deuxième l’erreur quadratique
totale de l’approximation par la moyenne. Le poids relatif de ces deux informations est pondéré
par α3.
La Figure 6.12 montre l’influence du paramètre α2 dans le résultat. Dans ce but, les deux
autres paramètres de la dissemblance, α1 et α3, ont été fixés à 0. Ainsi, l’ultramétrique Υi prend
uniquement en compte la taille des régions et leur contraste et α2 pondère l’importance relative
de ces deux informations. La première ligne montre, de gauche à droite, l’image originale, la
mosaïque des extrema et la reconstruction associée à la partition Π(Υi, 0,45), avec α2 = 0,1.
Dans les trois autres lignes, l’échelle λ augmente de gauche à droite et α2 augmente de haut
en bas. La deuxième ligne correspond à α2 = 0. On se trouve donc dans le cas Υi = Υc1 , où
l’ultramétrique est définie uniquement par le contraste. On peut observer que, lorsque l’échelle
croît, les régions les plus contrastées sont effectivement celles qui persistent dans la partition,
indépendamment de leur taille ou de leur homogénéité. La troisième ligne montre les partitions
pour α2 = 0,10. Cette valeur du paramètre fournit un meilleur équilibre entre taille et contraste,
permettant aux régions d’extraire plus précisément le contenu de l’image. Enfin, la valeur de α2
dans la quatrième ligne est de 0,4. Dans ce cas, la taille des régions est prépondérante dans les
partitions.
La Figure 6.13 illustre aussi l’influence de l’information interne dans les contours ultramé-
triques. Elle permet d’une part d’éliminer le bruit et les petites imperfections de l’image, qu’on
peut par exemple observer sur les cheveux du personnage où dans les Figures 6.10 et 6.11. La
prise en compte des caractéristiques internes des régions fournit par ailleurs une plus grande
154
∇(Υf ) Π(Υf , 0,19) Π(Υf , 0,19)
∇(Υi) Π(Υi, 0,19) Π(Υi, 0,19)
FIG. 6.13 – Information Interne.
155
souplesse à la distance, lui permettant de mieux s’adapter au contenu de l’image ou à une appli-
cation particulière. Le paramètre α2 de l’équation (6.7.2) permet de graduer la saillance relative
de structures, comme les tâches sombres du tissu, qui par leur taille déclenchent la réponse du
détecteur local mais dont l’importance dépend de l’application.
6.8 Ultramétrique des marqueurs
6.8.1 Propagation de marqueurs
Une stratégie de segmentation que nous n’avons pas encore exploitée est celle qui consiste
à utiliser l’algorithme de fusion de régions pour propager l’information d’un ensemble de mar-
queurs. Cette méthode suppose qu’on a été capable de déterminer au préalable l’emplacement
des structures à extraire de l’image et qu’on les a marquées, en situant une région pourvue d’une
étiquette à l’intérieur de chacune d’entre elles (et une autre, éventuellement, pour désigner le
fond).
La stratégie consiste alors à appliquer l’algorithme du Tableau 6.1 en interprétant la fusion
de deux régions comme l’absorption de l’une par l’autre. Plus précisément, si une des régions
a l’étiquette d’un marqueur et l’autre pas, l’étiquette est assignée à leur réunion. En revanche,
si les deux régions ont des étiquettes différentes, la fusion n’a pas lieu. Ainsi, l’information des
marqueurs se propage à toute l’image et, lorsque aucune fusion n’est plus possible, on obtient une
partition du domaine où chaque région contient un marqueur. Si l’ensemble des marqueurs est
composé de n régions connexes avec des étiquettes différentes alors, l’information se propageant
par connexité, la partition finale comporte n régions connexes à étiquettes différentes.
Notons que, si la propagation est régie par l’ultramétrique de gradient minimum Υg0, cette
stratégie correspond à la LPE contraine par marqueurs, une des méthodes les plus populaires
en segmentation morphologique. Le choix des marqueurs est interprété comme l’introduction
156
∇(Υi) Π(Υi, 0,09)
Marqueurs M Partition des Marqueurs Reconstruction
FIG. 6.14 – Propagation de Marqueurs.
157
d’information sémantique et la LPE est utilisée pour extraire les contours des objets.
6.8.2 Ultramétrique des marqueurs
Soit PM la partition obtenue par la propagation d’un ensemble de marqueurs M en utilisant
une dissemblance ultramétrique. Notons que si l’on considère un sous ensemble de marqueurs
M ′ ⊂ M , alors la partition PM ′ est une sous partition de PM .
Nous allons utiliser cette stratégie en considérant un ensemble de marqueurs pondérés. Plus
précisément, soit un espace ultramétrique (Υ, Ω) construit par CAH avec dissemblance δ et p :
Ω(Υ) → R+ une fonction de pondération qui assigne un réel positif à chaque région de la
partition initiale. Puisque le nombre de classes d’équivalence de l’espace quotient est fini, notons
p1, ..., pn l’ensemble des valeurs prises par p, ordonnées de sorte que p1 < ... < pn. Soit
Ppila partition obtenue en propageant sous δ l’information de toutes les classes m ∈ Ω(Υ)
telles que p(m) ≥ pi. Alors, la famille Ppii définit une hiérarchie indicée de parties de Ω où
la stratification est donnée par p. Nous appelons cette nouvelle distance l’ultramétrique des
marqueurs induite par δ et p.
Remarquons que si p est l’indice de stratification de Υ, alors l’ultramétrique des marqueurs
induite par δ et p coïncide avec Υ. La construction ne présente donc d’intérêt que si la pondération
diffère de la stratification originale.
Un avantage de l’ultramétrique des marqueurs est qu’elle permet de traiter la pondération des
régions indépendamment de la distance qui définit les contours. Elle nous permettra en particu-
lier dans la Partie 4 de déterminer la meilleure façon d’introduire l’information interne dans la
distance parmi les deux suivantes :
1. Utiliser directement les contours ultramétriques de Υi.
2. Mesurer δi lors de la construction de Υf et définir la fonction de pondération en la région
du couple à attribut minimal. Construire l’ultramétrique des marqueurs induite par δf et p.
158
6.9 Positionnement de l’approche
L’organisation hiérarchique de la perception visuelle humaine a motivé le développement
d’approches multi-échelles pour la segmentation d’images depuis les origines de la vision par
ordinateur. L’idée est présente par exemple dans le paradigme du split and merge de Horowitz
et Pavlidis [HP74, HP76], qui repose sur l’utilisation d’une structure hiérarchique fixe, l’arbre
quaternaire, au sein de laquelle on se déplace en fusionnant et divisant les régions d’une partition
initiale, de sorte à minimiser l’erreur de l’approximation.
À notre connaissance, Ohlander et al. [OPR78] ont été les premiers à formuler explicitement
la segmentation comme un problème de clustering. De nombreuses études ont par la suite abordé
la segmentation dans le cadre de la classification hiérarchique des données. Par exemple, la mé-
thode de Beaulieu et Goldberg [BG89] qui utilise la CAH avec pour dissemblance la variance du
niveau de gris des régions.
C’est cependant dans le cadre de la morphologie mathématique qu’a été abordé explicite-
ment le problème de la définition de distances ultramétriques pour la segmentation. Cette section
présente une révision succincte des principales techniques morphologiques pour la segmentation
hiérarchique, afin de situer notre étude dans ce contexte.
En outre, un grand nombre de travaux en segmentation utilisent des algorithmes de fusion
de régions comme celui présenté dans la Section 6.3.1. La formalisation de ces méthodes dans
le cadre varationnel est due à Morel et Solimini [MS95]. Nous concluons cette partie du mé-
moire par une interprétation dans notre contexte de l’approche hiérarchique de Koepfler et al.
[KLM94, DK97] pour la minimisation de la fonctionnelle de Mumford et Shah [MS89]. Cette
méthode sera utilisée dans la quatrième partie comme référence des techniques de segmentation
variationnelles.
159
6.9.1 Cadre morphologique
Inondations
Un des grands courants en segmentation morphologique s’inspire de la construction de la
ligne de partage des eaux par l’inondation d’un relief [BM92]. Cette démarche de segmentation
hiérarchique repose sur l’utilisation de l’information fournie par une image de contours.
Dans cette construction, la LPE est définie par les barrages qui empêchent les eaux provenant
de minima différents de se mélanger. Une modification naturelle de l’algorithme est de permettre
aux lacs de fusionner aux points de rencontre. Ainsi, des niveaux croissants d’eau produisent
des partitions de plus en plus grossières. La famille de partitions emboîtées résultante peut alors
s’indicer par la hauteur des points col, et la hiérarchie indicée ainsi définie par Grimaud [Gri92]
est connue sous le nom de dynamique. L’échelle associée à la dynamique est donc une notion de
contraste.
La représentation d’une hiérarchie de parties du domaine au moyen d’une image de contours
a été utilisée pour la première fois par Najman [Naj94] pour pondérer les arcs de la LPE par la
dynamique. Néanmoins, à notre connaissance, peu d’études postérieures portent directement sur
l’étude de cette représentation des contours d’une hiérarchie. Citons toutefois le travail récent de
Vanhamel et al. [VPS03] où la saillance de Najman et Schmitt est combinée avec un filtrage par
diffusion non linéaire pour la segmentation d’images couleur.
La sur-segmentation de la LPE sans contraintes, due au grand nombre de minima, justifie la
modification de l’homotopie du relief afin d’imposer un ensemble de marqueurs prédéterminé
comme seuls minima. Le choix d’un ensemble de marqueurs significatif devient dans ce cas le
coeur du problème, la LPE étant utilisée uniquement pour définir les contours des objets [BM92].
Une façon d’aborder ce problème sans l’intervention d’un opérateur humain est d’ordonner tous
les minima de l’image selon un certain critère et de choisir les N minima les plus grands comme
marqueurs. La classification des minima peut se réaliser en comparant les caractéristiques des
160
lacs aux points de rencontre lors de l’inondation du relief. Si on mesure la profondeur, on retrouve
la hiérarchie de la dynamique ; cependant, l’utilisation d’autres caractéristiques physiques des
lacs, comme l’aire et le volume, permet à Vachier [Vac95] d’interpréter la valeur au moment
de la fusion comme la valeur d’extinction du lac à caractéristique minimale. Ces hiérarchies
induisent donc des ultramétriques de marqueurs particulières. Notons que la hiérarchie d’aire
classifie les minima en utilisant uniquement leur information interne, tandis que le volume est
une façon de combiner information interne et de frontière.
Une alternative au processus d’inondation uniforme de la LPE est de définir une inondation
synchrone où tous les lacs partagent une caractéristique commune [Mey00]. Lorsqu’un lac est
"plein", c’est-à-dire lorsqu’il atteint un point col, il est absorbé par son voisin. En utilisant les
mêmes caractéristiques physiques des lacs que pour la classification des minima, les inondations
synchrones permettent de définir de nouvelles ultramétriques. Cependant, dans notre expérience,
ces distances produisent en pratique des résultats très proches à ceux des distances du paragraphe
précédent. Leur intérêt est plutôt théorique car, au moyen de la notion de marqueur flou, où la
vitesse d’inondation de chaque lac est traitée indépendamment, elles permettent à Meyer d’ex-
primer la LPE par marqueurs et les inondations dans le même cadre.
Signalons par ailleurs l’étude des ultramétriques dans le cadre des treillis, proposée par
exemple dans [Mey01a], qui permet de construire de nouvelles ultramétriques en combinant
des distances existantes.
Enfin, toutes les inondations précédentes peuvent s’interpréter dans le cadre de la théorie
de graphes comme des processus de fusion de régions particuliers. Dans ce cas, les régions de
la partition initiale sont les bassins versants des minima et la dissemblance entre régions est la
caractéristique mesurée sur les lacs [Mey97]. Notons que, dans le cas de l’inondation uniforme,
la dissemblance est δg0, le minimum du gradient sur la frontière commune des régions. Les
inondations seront utilisées dans la quatrième partie du mémoire comme référence des méthodes
morphologiques.
161
Opérateurs connexes
Un deuxième grand courant en segmentation morphologique repose sur la notion d’opérateur
connexe [SS93, SS95, Ser04]. La propriété fondamentale de ces opérateurs est d’interagir avec
l’image au moyen de ses zones plates. Plus précisément, un opérateur Ψ est connexe si, pour toute
image u, la partition en zones plates de Ψ(u) est moins fine que la partition en zones plates de
u. Ainsi, lorsqu’une famille d’opérateurs connexes dépend d’un paramètre d’échelle, la structure
pyramidale qu’elle définit est caractérisée par la propriété fondamentale des hiérarchies (6.2.3).
Les propriétés des opérateurs connexes les rendent intéressants pour le filtrage, où ils sont
largement utilisés. Par exemple, en remplaçant l’inondation du gradient par une famille d’opé-
rateurs connexes sur l’image originale, Vachier applique la notion de valeur d’extinction à la
classification des extrema de l’image originale et crée ainsi de nouveaux opérateurs connexes
[VM95, VV95, Vac01].
Dans le cadre de la segmentation, les opérateurs connexes ont motivé une approche par zones
plates [CSS+97], proposée comme alternative aux inondations, pour palier le problème de la ré-
solution limitée du gradient. Dans cette étude, l’image est pré-traitée au moyen d’opérateurs
connexes classiques (filtres alternés séquentiels, ouvertures et fermetures par reconstruction,
etc.). L’image filtrée est ensuite utilisée comme point de départ d’un algorithme de fusion de
régions sur un graphe. La dissemblance utilisée par Crespo et al. est δa, la différence absolue des
moyennes de niveau de gris des régions. L’intérêt principal des opérateurs connexes par rapport
aux inondations est donc de préserver l’emplacement des contours de l’image originale.
Un autre développement important de l’approche connexe sont les travaux de Salembier et
ses collaborateurs, qui étudient les structures d’arbre associées à ces opérateurs. Par exemple,
dans [SOG98], des opérateurs connexes anti-extensifs sont définis et appliqués à l’analyse de
séquences, au moyen de stratégies d’élagage de l’arbre des maxima. La même idée est appliquée
à la segmentation dans [SG00], où la structure traitée est l’arbre associé à un processus de fusion
162
de régions.
Enfin, les opérateurs connexes ont été spécialisés en une sous-famille de filtres appelés nivel-
lements [MM99, MM00], qui ont la propriété supplémentaire de préserver l’ordre des transitions.
Les zones λ-plates, les boules de l’ultramétrique Υc0, en sont un cas particulier. Remarquons ce-
pendant que les zones λ-plates sont usuellement utilisées en pré-traitement ou pour déterminer un
ensemble de marqueurs pour la LPE [Mey01b, Zan01], plutôt que pour l’étape de segmentation
proprement dite.
Notre approche
Nous avons résumé dans cette section les trois éléments qui constituent, en notre opinion,
l’apport fondamental de la morphologie mathématique à la segmentation hiérarchique. D’une
part, la formulation explicite du problème comme la construction d’une distance ultramétrique.
D’autre part, les pyramides d’opérateurs connexes, qui préservent la localisation des contours de
l’image originale. Enfin, la représentation d’une hiérarchie par une carte de contours, qui permet
de traiter la segmentation en régions et l’extraction des contours comme un problème unique.
Nous avons voulu construire l’approche présentée dans ce chapitre à partir de ces trois éléments.
Outre l’utilisation de la mosaïque des extrema comme méthode de pré-segmentation, l’ori-
ginalité de notre démarche dans le contexte morphologique réside principalement dans les dis-
tances que nous construisons. D’une part, nos partitions ultramétriques, en tant qu’opérateurs
connexes, préservent la localisation des contours de l’image originale, contrairement aux inon-
dations. D’autre part, elles profitent de toute la richesse des détecteurs locaux. Enfin, notre façon
générique de combiner information de frontières et information interne fournit à la distance une
souplesse qui sera centrale dans la quatrième partie du mémoire.
Ainsi, l’approche que nous proposons pour l’extraction des contours des images naturelles
peut s’interpréter comme un point de rencontre de deux grands courants en segmentation mor-
phologique.
163
6.9.2 Cadre variationnel
Les méthodes variationnelles pour la segmentation d’images ont connu un grand succès dans
la dernière décennie. Dans cette approche, les expectatives sur les objets de l’image sont expri-
mées au moyen d’une fonctionnelle. Un exemple classique est le modèle proposé par Mumford
et Shah [MS89]. Dans sa version générale, la segmentation d’une image u0 correspond à une
fonction régulière par morceaux u qui minimise la fonctionnelle :
J(u, K) =
∫
Ω\K‖u− u0‖2dx + µ
∫
Ω\K‖∇u‖2dx + λH1(K) , (6.9.1)
où K est l’ensemble des contours de la segmentation, et H1 est la mesure de Hausdorff mono-
dimentionnelle. L’interprétation de cette énergie est la suivante : le premier terme mesure l’at-
tache aux données de la segmentation, le second contrôle la régularité de l’approximation en
dehors des contours et le dernier pénalise leur longueur. Les paramètres µ et λ pondèrent l’équi-
libre entre ces facteurs. Dans ce cadre, les objets de l’image sont donc représentés par des régions
de couleur uniforme avec des frontières régulières.
Morel et Solimini [MS95] remarquent que l’énergie la plus simple qu’on peut associer à une
méthode de fusion de régions comme celle de la Section 6.4.1 est la fonctionnelle de Mumford
et Shah, lorsque l’approximation u est constante par morceaux. Dans ce cas, le deuxième terme
de (6.9.1) s’annule et l’énergie s’écrit :
E(K) =
∫
Ω\K‖u− u0‖2dx + λL(K) , (6.9.2)
où u est la moyenne de u0 sur chaque région de la segmentation. La fonctionnelle ne dépend
donc que de l’ensemble des contours K.
Ils proposent donc une méthode de fusion de régions qui minimise explicitement cette éner-
gie. Plus précisément, le critère pour fusionner un couple de régions (R1, R2) est que la partition
obtenue par leur réunion diminue la valeur de l’énergie globale (6.9.2) :
E(K\∂(R1, R2)) < E(K)
164
et
E(K\∂(R1, R2))− E(K) =|R1| · |R2||R1|+ |R2| · ‖u1 − u2‖2 − λL(∂(R1, R2)) < 0
où ui est la moyenne de u0 sur la région Ri. On a donc
|R1| · |R2||R1|+ |R2| · ‖u1 − u2‖2 − λL(∂(R1, R2)) < 0
et|R1| · |R2|
(|R1|+ |R2|) · L(∂(R1, R2))· ‖ui − uj‖2 < λ.
On obtient ainsi, pour une échelle λ fixée, un critère pour déterminer si la fusion de R1 et R2
diminue l’énergie.
L’algorithme est le suivant [DK97] :
1. Soit (u0, K0) la segmentation triviale (en pixels) de l’image.
2. Pour tout couple de régions voisines, calculer la valeur de λ pour laquelle une fusion est
possible. Ordonner par valeurs croissantes de λ les couples de régions.
3. Effectuer la fusion du couple correspondant à la plus petite valeur de λ et mettre à jour la
structure des données.
4. Répéter le pas (3) jusqu’à obtenir le nombre de régions ou la valeur de λ demandés.
Cette méthode est donc une fusion de régions régie par la dissemblance :
δMS(R1, R2) =|R1| · |R2||R1|+ |R2| ·
1
L(∂(R1, R2))· ‖u1 − u2‖2.
Avec cette écriture, on s’aperçoit que δMS est le carré de la dissemblance δa, la différence absolue
des couleurs moyennes, combinée avec deux autres facteurs. Le premier est proportionnel à
la moyenne harmonique des aires des régions, cette information interne servant à éliminer les
régions de petite taille de la segmentation. L’information de contour est l’inverse de la longueur
de la frontière. Ce deuxième terme contrôle la régularité de la solution car, à attributs internes
égaux, le couple de régions dont la frontière est la plus longue est fusionné le premier.
165
δ1 = 1/2 δ2 = 1/3 δ3 = 25/24
(a) (b) (c) (d)
FIG. 6.15 – La dissemblance δMS n’est pas ultramétrique.
Remarquons cependant que cette dissemblance n’est pas compatible avec l’ordre hiérar-
chique. Un contre exemple est donné dans la Figure 6.15, qui présente le déroulement de l’al-
gorithme de CAH avec dissemblance δMS . Le niveau de gris moyen des régions est donné entre
parenthèses et le contour qui disparaît à chaque fusion est représenté en gras. La taille des régions
est |A| = |B| = |C| = 2 et |D| = 18. Dans l’image initiale (a), le minimum de la dissemblance
est δMS(B, C) = 1/2 = δ1. Une fois les régions B et C fusionnées, le minimum dans (b) est
δMS(A,E) = 1/3 = δ2. Enfin, dans (c) on a δMS(D, F ) = 25/24 = δ3. Ainsi, δ2 < δ1 et la
hiérarchie indicée par la formule (6.4.1) présente des inversions. Du point de vue des contours,
cela signifie que la saillance de ∂(B, C) est supérieure à celle de ∂(A,E) et donc le seuillage de
la carte de contours au niveau 1/2 fournit la partition de (d), qui est incohérente avec le processus
de fusion.
On peut toutefois indicer la hiérarchie H produite par l’algorithme de CAH avec dissem-
blance δMS en choisissant l’indice de stratification de la formule (5.7.4) :
f(R1 ∪R2) = maxδMS(R1, R2), f(R1), f(R2), ∀ R1, R2 ∈ H. (6.9.3)
Dans l’exemple de la Figure 6.15, cette stratification assigne la valeur de 1/2 à la saillance du
contour ∂(A,E).
Les contours ultramétriques associés à la hiérarchie indicée (H, f), où f est donnée par
la formule (6.9.3), seront employés dans la quatrième partie du mémoire comme méthode de
référence des approches variationnelles.
166
Quatrième partie
Évaluation des résultats
167
168
Chapitre 7
Méthodologie d’évaluation
7.1 Introduction
L’importance du problème de la segmentation en vision par ordinateur peut se mesurer par
le nombre de travaux qui lui ont été dédiés. Une étude datée de 1995 recensait plus d’un millier
d’algorithmes proposés [MS95]. Aujourd’hui, étant donnée l’expansion du domaine, on peut
aisément imaginer que ce nombre a doublé.
Face à cette multitude de méthodes, l’évaluation quantitative des résultats est devenue une né-
cessité. Il s’agit cependant d’une tâche délicate qui a traditionnellement constitué un point faible
des approches de segmentation. Souvent, les auteurs se contentent d’illustrer leurs publications
avec quelques exemples d’images fréquemment utilisés ("Lenna", "cameraman", "mandrill", etc.
) ou de présenter des images synthétiques qui mettent en évidence les points forts de leur mé-
thode. La comparaison avec d’autres techniques est généralement réalisée sur un nombre réduit
d’images où l’algorithme proposé "fonctionne bien" et pour lesquelles les différents paramètres
ont été soigneusement ajustés. Une telle démarche qualitative ne permet que difficilement de
prédire la performance réelle d’une méthode.
Un argument souvent invoqué pour justifier cette faiblesse est que la segmentation est un pro-
blème mal posé, car les caractéristiques géométriques qu’on veut extraire de l’image dépendent
essentiellement de l’application. En effet, si les régions d’une segmentation sont par exemple
169
170
définies par une certaine notion d’homogénéité, on ne peut espérer que cette notion soit com-
mune à toutes les images, et il est toujours possible de trouver des cas où elle n’a pas de sens.
Une alternative communément choisie pour contourner cet obstacle est de restreindre la compa-
raison des algorithmes au cadre d’une application spécifique ou d’un type d’images particulier
[HWKR82, RP80, Zha96, BS97].
Dans le cas des images naturelles, la référence pour mesurer la qualité d’une segmentation
devrait être la segmentation humaine, or celle-ci n’a été étudiée quantitativement que récemment
[MFTM01, Mar02]. Une conclusion de ces travaux, comme nous le verrons par la suite, est que la
segmentation d’images naturelles est un problème bien posé, et que la cohérence des différentes
segmentations humaines d’une même image est suffisante pour servir de référence à l’évalua-
tion de techniques de segmentation. Ainsi, l’échec d’un algorithme à segmenter correctement
une image naturelle doit être imputé aux faiblesses de la méthode, plutôt qu’à la définition du
problème.
Deux voies sont envisageables pour mesurer la qualité d’une segmentation par rapport à une
référence : utiliser les régions ou leurs frontières. Une difficulté considérable liée à la première
est l’invariance au raffinement. En effet, une mesure qui pénalise le niveau de détail d’une seg-
mentation serait inconsistante avec la structure hiérarchique de la perception visuelle humaine.
Or cette invariance implique que la qualité des deux partitions triviales, celle où chaque pixel est
une région et celle où la seule région est toute l’image, est parfaite. Ainsi, les mesures proposées
par exemple dans [MFTM01], sont plus utiles pour quantifier la cohérence de la segmentation
humaine que pour comparer la performance de différentes méthodes de segmentation.
L’évaluation des détecteurs de contours repose en revanche sur des bases plus solides. Un cer-
tain nombre de méthodologies à caractère général ont été développées, par exemple l’approche
par théorie de l’information de Konishi [KYCZ99] ou les courbes Receiver Operating Charac-
teristic (ROC) [BKD01]. Aujourd’hui, un cadre de référence pour mesurer la performance des
extracteurs de contours est celui des courbes Précision-Rappel [AP79, MFM04], issu du domaine
171
de l’indexation des données [vR79]. Nous avons décidé d’adopter cette méthodologie fondée sur
les frontières car elle permet de comparer sur les mêmes bases la performance des détecteurs de
contours locaux et des méthodes de segmentation en régions. Dans ce chapitre, nous en propo-
sons une mise en oeuvre originale qui repose sur l’interprétation du problème dans le contexte
de la morphologie mathématique.
7.2 Vérité terrain
La référence ultime pour déterminer la qualité d’une segmentation produite par une ma-
chine devrait être la segmentation humaine. Cependant, lorsqu’on demande à deux personnes
de segmenter la même image on obtient généralement des résultats différents. Cette variabilité
est d’autant plus importante dans les domaines où l’information préalable est déterminante pour
la segmentation. C’est le cas par exemple en imagerie médicale, où la segmentation d’un ob-
servateur naïf et celle d’un expert peuvent différer grandement. Néanmoins, si on se restreint
au cas des images naturelles, on peut se demander si la cohérence de la segmentation humaine
est suffisante pour servir de référence à l’évaluation de méthodes de segmentation. La réponse à
cette question passe par la définition d’une vérité terrain, travail qui a été réalisé par l’équipe de
Berkeley dans [MFTM01] et que nous décrivons ci-après.
Cette étude a pris comme point de départ 1000 images représentatives parmi les 40.000
images de la Corel Image Database, une base de données souvent utilisée en vision par ordi-
nateur. Le critère de choix des images est la représentation de scènes naturelles avec au moins
un objet discernable. Les images abordent une grande diversité de sujets : êtres humains, ani-
maux, plantes, constructions humaines, paysages naturels, scènes sous-marines, etc. Elles sont
très souvent texturées et leur seule caractéristique commune est peut être un certain sens de la
composition, conséquence de leur réalisation par des photographes humains. La Figure 7.1 en
montre un échantillon.
172
FIG. 7.1 – Images naturelles de la BSDB.
173
Chaque image a été segmentée par plusieurs êtres humains (des étudiants de l’université de
Berkeley) à qui on a donné les instructions suivantes : Divisez chaque image en régions, où
chaque région représente des "choses" ou des "parties de choses" discernables dans l’image. Il
est important que toutes les régions aient à peu près la même importance. Le nombre de régions
dans chaque image est laissé à votre choix. Un nombre entre 2 et 30 semble raisonnable dans la
plupart des cas.
Ces instructions, délibérément vagues, avaient pour but d’inciter les "cobayes" à diviser
l’image de façon naturelle. On peut observer quelques résultats dans la Figure 7.2, où les seg-
mentations ont été superposées de sorte que le niveau de gris de chaque pixel est inversement
proportionnel au nombre de sujets qui l’ont marqué.
Plus de 11.000 segmentations humaines ont été ainsi crées, chaque image ayant été segmentée
par 10 opérateurs différents en moyenne. Le but de cette étude était, selon les auteurs, de créer
un étalon pour la segmentation réalisée par les machines, qui permette de mesurer son évolution
à travers le temps vers la segmentation humaine [MFTM01].
Une partie de ces données a été rendue publique sous le nom de Berkeley Segmentation
Dataset and Benchmark (BSDB) [BSD]. Les segmentations humaines, ainsi que la plupart des
images qui illustrent ce mémoire, en font partie. La version publique actuelle de la BSDB est
composée de 300 images naturelles de taille 481x321. Elle est divisée en deux : un ensemble
d’entraînement de 200 images, pour ajuster les paramètres d’un algorithme de segmentation, et
un ensemble de test de 100 images, pour évaluer sa performance. Chaque image a été segmentée
dans sa version en couleurs et à teintes de gris séparément ; un ensemble de 4 à 7 segmentations
humaines est fourni pour chacune des deux présentations.
174
FIG. 7.2 – Segmentations humaines.
175
7.3 Comparaison de segmentations
Une fois une vérité terrain définie, le problème suivant est la mise au point d’une métho-
dologie d’évaluation. Cette section présente la mise en oeuvre que nous proposons du cadre
Précision-Rappel [AP79, MFM04] pour mesurer la performance des algorithmes de segmenta-
tion en tant que détecteurs de contours.
7.3.1 Signal et référence binaires
Soit K l’ensemble des contours d’une segmentation. Nous appelons segmentation binaire
la fonction caractéristique de K.
Le coeur du problème est de comparer deux segmentations binaires. La première, notée S,
joue le rôle du signal et la seconde, notée H , est la vérité terrain. Cette référence sera généra-
lement une segmentation humaine. Considérons d’abord le cas où le signal et la référence sont
deux segmentations humaines de la même image. Un exemple est présenté dans la Figure 7.3 où
S est dessiné en noir et H en rouge. Sémantiquement, H est un raffinement de S où les mêmes
objets, les deux fleurs, ont été extraits. La seule différence est que H comporte plus de détails,
les pétales, que S. On voudrait définir une correspondance qui reflète cette structure.
L’idée immédiate, superposer les deux segmentations, n’est pas suffisante pour résoudre le
problème. En effet, puisque les humains segmentent des objets perceptuels, la localisation exacte
des contours dépend du niveau d’attention accordé à chaque objet. Par exemple, la partie centrale
des fleurs est représentée dans S par une région approximativement circulaire, tandis que dans H
elle est extraite avec plus de précision. Cependant, puisque les deux régions représentent le même
objet perceptuel, la mise en correspondance devrait tenir compte de cette variabilité inhérente à
la vérité terrain.
Les auteurs de [MFM04] abordent le problème de comparer deux segmentations binaires
en définissant une correspondance explicite entre leurs pixels (voir la Section 9.5 pour plus de
176
FIG. 7.3 – Haut : Deux segmentations humaines de la même image. Milieu : Image originale etsegmentations superposées. Bas : Détail des inflorescences de la fleur droite.
177
(a) (b) (c)
FIG. 7.4 – Correspondance de deux courbes. a : courbe de référence H et courbe à correspondreS. b : δH (gris), Vrais Positifs (noir gras) et Faux Positifs (noir). c : δS (gris), points Détectés(noir gras) et Non Détectés (noir).
détails). Nous proposons en revanche une approche morphologique qui se fonde sur l’interpréta-
tion du problème comme une correspondance entre courbes. Plus précisément, pour prendre en
compte la variabilité de la localisation des contours de la segmentation S, nous considérons la
fonction caractéristique d’une dilatation euclidienne de S [SM94] :
δS = χx ∈ Ω | S ∩Bx(r) 6= ∅
et l’érosion de son complémentaire,
εS = χx ∈ Ω | S ∩Bx(r) = ∅
Le seuil de tolérance dans la localisation des contours est ainsi exprimé par le rayon r de la boule
euclidienne.
Nous proposons donc les définitions suivantes, illustrées dans la Figure 7.4.
Les points de la segmentation S sont divisés en :
Vrais Positifs
V P =
∫
Ω
S(x) · δH(x) dx (7.3.1)
Faux Positifs
FP =
∫
Ω
S(x) · εH(x) dx (7.3.2)
178
De façon symétrique, la vérité terrain H se divise en
Points Détectés
D =
∫
Ω
H(x) · δS(x) dx (7.3.3)
Points Non Détectés
ND =
∫
Ω
H(x) · εS(x) dx (7.3.4)
7.3.2 Descripteurs de qualité
La Précision et le Rappel sont deux descripteurs classiques en indexation. Lorsqu’on fait une
requête sur une base de données, on obtient un certain nombre de réponses. On peut mesurer
la qualité du moteur de recherche en considérant la proportion de réponses adéquates parmi la
totalité des réponses (la Précision) et la proportion de documents détectés parmi la totalité des
documents adéquats de la base des données (le Rappel). Dans notre cadre, ces deux notions sont
exprimées en termes des définitions du paragraphe précédent et quantifient la correspondance
d’un signal S par rapport à une référence H .
La Précision, ou la fraction de Vrais Positifs dans S :
P =V P
V P + FP(7.3.5)
Le Rappel, ou la fraction de Points Détectés dans H :
R =D
D + ND(7.3.6)
Les deux descripteurs prennent par définition des valeurs dans l’intervalle [0, 1]. La Précision
mesure la quantité de bruit dans le signal. Elle vaut 1 lorsqu’il n’y a pas de Faux Positifs. En
outre, le Rappel mesure l’attache aux données de la segmentation à correspondre. Lorsque tous
les pixels de la référence ont été détectés, sa valeur est de 1. En termes probabilistes, la Précision
est la probabilité que le signal soit valable, tandis que le Rappel est la probabilité que la vérité
ait été détectée. Notons que nos définitions des deux mesures de qualité sont symétriques, de
179
FIG. 7.5 – Correspondence de deux segmentations binaires. Gauche : Le signal S est divisé enVrais Positifs (noir gras) et Faux Positifs (bleu). Droite : La référence H est divisée en PointsDétectés (noir gras) et Non Détectés (bleu).
sorte que si les rôles de la vérité et du signal sont échangés, la Précision devient le Rappel et
vice-versa.
Enfin, les deux descripteurs sont combinés en une mesure de qualité unique, la F-mesure
[vR79], définie comme la moyenne harmonique de la Précision et du Rappel, pondérée par le
paramètre η :
F (P, R) =PR
ηP + (1− η)R(7.3.7)
Pour une application particulière, η équilibre l’importance du bruit toléré (la Précision) par rap-
port à la quantité de vérité terrain requise (le Rappel). Dans le cas de la segmentation de bas
niveau, il n’y a pas de raison particulière de préférer l’un à l’autre. Ainsi, dans la suite, η est fixé
à la valeur de 1/2 et la F-mesure correspond à la moyenne harmonique usuelle.
A titre d’exemple, considérons la Figure 7.5, où la mise en correspondance des segmentations
de la Figure 7.3 est présentée. Quand le rayon de dilatation est r = 4, 3 le signal est divisé en
2093 pixels Vrais Positifs et 134 Faux Positifs. La vérité comporte pour sa part 2382 pixels
Détectés et 1998 Non Détectés. On peut observer que la quasi-totalité de la partie centrale des
fleurs est considérée comme correcte.
La Précision vaut dans ce cas P = 0,94, ce qui indique qu’il y a très peu de bruit dans le
signal. Le Rappel est de R = 0, 54, exprimant le fait que presque la moitié de la vérité terrain n’a
180
pas été détectée. Ces deux mesures complémentaires quantifient donc bien l’idée intuitive que H
est un raffinement de S. Enfin, la F-mesure, de valeur F = 0, 69, exprime le compromis entre
Précision et Rappel.
7.3.3 Multiples segmentations humaines
Dans le cadre de notre application, une segmentation binaire doit être comparée à plusieurs
segmentations humaines. Une propriété importante de notre approche par courbes est qu’elle
permet de comparer directement un signal S avec une famille de références Hii∈I , indépen-
damment du cardinal de la famille.
Pour cela, on définit la fonction :
Hs =∑i∈I
Hi
Dans notre cas, Hs(x) représente le nombre de sujets qui ont considéré que le point x appartient
à un contour.
Nous supposons que tout point marqué au moins par un humain est valable. En conséquence,
la vérité terrain, notée Hb, est représentée dans ce cas par la fonction caractéristique de l’en-
semble de niveau supérieur à zero de Hs :
Hb = χ[Hs > 0]
Les définitions (7.3.1) à (7.3.4) sont dans ce cas les suivantes :
V P =
∫
Ω
S(x) · δHb(x) dx (7.3.8)
FP =
∫
Ω
S(x) · εHb(x) dx (7.3.9)
Les Points Détectés et Non Détectés de la famille de références sont :
D =
∫
Ω
Hs(x) ·Hb(x) · δS(x) dx (7.3.10)
181
ND =
∫
Ω
Hb(x) · εS(x) dx (7.3.11)
La Précision, le Rappel et la F-mesure sont définis comme dans les équations (7.3.5) à (7.3.7).
7.3.4 Carte de contours
Supposons enfin qu’on veut évaluer une carte de contours ultramétriques C dont un seuillage
Cλ = χ[C ≥ λ] fournit les contours de la segmentation à l’échelle λ.
Les définitions sont étendues en considérant la version fonctionnelle de la dilatation :
δC(x) = supy∈Bx(r)
C(y), ∀x ∈ Ω.
Les définitions des quatre types de points (7.3.8) à (7.3.11) dépendent donc dans ce cas de
l’échelle λ et sont donnés par :
V P (λ) =
∫
Ω
Cλ(x) · δHb(x) dx (7.3.12)
FP (λ) =
∫
Ω
Cλ(x) · εHb(x) dx (7.3.13)
D(λ) =
∫
Ω
Hs(x) ·Hb(x) · (δC)λ(x) dx (7.3.14)
ND(λ) =
∫
Ω
Hb(x) · (εC)λ(x) dx (7.3.15)
Ainsi, lorsque l’échelle varie, on obtient une courbe paramétrée par λ, appelée courbe Précision-
Rappel, qui quantifie la qualité de la carte de contours. Le maximum de la F-mesure est utilisé
comme résumé statistique de la courbe.
Un exemple typique de courbe Précision-Rappel est présenté dans la Figure 7.6. Dans la
Ligne 1 on peut observer une carte de contours ultramétriques à gauche, et la courbe à droite.
182
FIG. 7.6 – Exemple de courbe Précision-Rappel pour une carte de contours.
183
Les autres lignes présentent des seuils croissants des contours ultramétriques et leurs correspon-
dances. Les échelles des Lignes 2, 3 et 4 sont S1 = 0,03, S2 = 0,2 et S3 = 0,75 respectivement.
Lorsque l’échelle est petite, la plupart de la référence est détectée, mais au prix de beaucoup
de bruit. Par conséquent, à l’échelle S1, le Rappel est fort (R = 0,94) et la Précision faible
(P = 0,51). Au fur et à mesure que l’échelle croît, le Rappel diminue et la Précision augmente ;
ainsi, à l’échelle S3 = 0,75, il n’y a pas de bruit (P = 1,00), mais seule une petite fraction
de la vérité est détectée (R = 0,05). Le point de la courbe correspondant au maximum de la
F-mesure fournit l’échelle optimale pour cette image (dans ce cas S2) et exprime le compromis
entre Précision et Rappel F (0,95, 0,65) = 0,77.
7.4 Cohérence de la segmentation humaine
Nous avons expliqué la méthode d’évaluation d’un algorithme sur une image. Pour mesurer sa
performance sur un ensemble d’images, il suffit de définir la Précision et le Rappel en considérant
la totalité des Vrais Positifs, Faux Positifs, Détections et Non Détections sur toutes les images de
l’ensemble. Si l’algorithme produit une segmentation binaire, la F-mesure globale est un nombre.
Dans le cas d’une carte de contours pondérés, on obtient une courbe de Précision-Rappel globale,
dont le maximum de la F-mesure fournit un résumé statistique de la qualité du détecteur sur
l’ensemble d’images.
Une première application de cette méthodologie est de déterminer la cohérence entre les
différentes segmentations humaines de la même image. Considérons par exemple le cas de la
Figure 3 de l’Introduction (p. 6). La Figure 7.7 montre les résultats de la mise en correspondance
de chacune des segmentations en prenant pour référence les deux autres. Dans le cas des humains,
les Faux Positifs (en bleu) correspondent majoritairement aux détails que le sujet a été le seul à
percevoir et les Non Détections (en orange) à ceux qu’il a été le seul à omettre. Ainsi, le Sujet 1
fait une décomposition générale de la scène et sa segmentation est globalement une sous-partition
184
Image Originale Segmentation 1
Segmentation 2 Segmentation 3
FIG. 7.7 – Mise en correspondance de segmentations humaines.
des deux autres. Les descripteurs confirment cette organisation puisque la Précision P = 0,99
indique l’absence quasi totale de bruit, tandis que le faible Rappel R = 0, 44 reflète le manque de
détail. La F-mesure vaut F (0,99, 0,44) = 0, 61 dans ce cas. Le Sujet 2 concentre pour sa part son
attention sur les ours, en détaillant davantage leur anatomie et en ignorant le fond. Notons que
la variabilité dans la localisation des contours, comme dans la patte de l’ours gauche, est tolérée
par la mise en correspondance. On obtient dans ce cas F (0,73, 0,47) = 0,57 indiquant qu’il a été
le seul à voir certains détails, mais que les autres ont vu beaucoup de détails dans le fond qu’il
n’a pas considéré. Enfin, le cas du Sujet 3 est symétrique, puisqu’il s’est concentré sur le fond,
en détaillant les brins d’herbe sur la neige, mais en ignorant les parties des ours. Les valeurs des
descripteurs sont dans ce cas F (0,32, 0,82) = 0,46.
185
FIG. 7.8 – Gauche : Dix segmentations humaines superposées. Droite : graphe Précision-Rappel
La cohérence des segmentations humaines pour cette image est alors évaluée en considérant
la totalité des Vrais Positifs, Faux Positifs, Détections et Non Détections sur les comparaisons
successives. On obtient ici F (0,53, 0,53) = 0,53. La faible F-mesure est due au fait que nous
avons choisi les trois segmentations les plus dissemblables pour illustrer l’organisation de la per-
ception humaine. La figure 7.8 présente le résultat obtenu en utilisant la totalité des segmentations
disponibles pour cette image. La partie gauche montre les dix segmentations humaines superpo-
sées, Hs. La partie droite présente le résultat des mises en correspondance, des points isolés sur
le plan Précision-Rappel car il s’agit de segmentations binaires. Les courbes indiquent les lignes
de niveau de la fonction F et servent de repère à l’emplacement des points. Une correspondance
parfaite aurait pour coordonnées (P,R) = (1, 1) et F (1, 1) = 1.
Notons que, sur les dix humains ayant segmenté l’image, seul le Sujet 3 a extrait les détails
du fond. Sa Précision est par conséquent faible et sa segmentation correspond au point le plus
à gauche du graphe. Sept autres sujets ont produit des segmentations sémantiquement équiva-
lentes à celle du Sujet 1, une description globale de la scène. Ce groupe correspond au nuage
de points à droite. Enfin, deux sujets ont détaillé les ours. La cohérence globale se voit donc
renforcée lorsque le nombre d’observateurs augmente ; les descripteurs globaux ont pour valeur
F (0,84, 0,65) = 0,73 et sont représentés par le point rouge. On peut aussi observer sur ce graphe
186
que le Rappel et la Précision totaux sont de bons représentants du cluster de segmentations indi-
viduelles.
La Figure 7.9 présente un exemple de l’utilisation de l’information sémantique dans la seg-
mentation humaine. Les différentes segmentations humaines sont hautement cohérentes aux en-
droits où les données de l’image permettent de déterminer l’emplacement des contours, leur
variabilité se concentrant là où celles-ci font défaut. La connaissance préalable sur la nature des
objets prend donc le relais là où l’information physique est insuffisante. Par exemple, le contour
de la tête du personnage ne se voit pas sur l’image, mais tous les sujets lui dessinent une coif-
fure, chacun à son goût. De même, tous les humains sauf un dessinent une épaule entre les deux
morceaux de chemise. En outre, la chemise est perçue comme un seul objet, ce qui est difficile à
déduire à partir de l’information physique de l’image.
Ainsi, une estimation de la performance globale des humains pour la tâche de segmentation
peut s’obtenir en considérant la totalité des VP, FP, D et ND sur un ensemble d’images. La Fi-
gure 7.10 présente le résultat obtenu avec toutes les segmentations des 300 images de la BSDB.
Le graphe de gauche correspond aux images couleur et celui de droite aux images en noir et
blanc. La cohérence des segmentations humaines est donc quantifiée dans ce cadre à près de
F (0,90, 0,70) = 0,80. Une première remarque est que la performance des humains est globa-
lement la même pour les deux présentations et que l’information de la couleur est suppléée par
l’information sémantique. La Précision totale montre que, en moyenne, lorsqu’un des sujets seg-
mente une image, 90% des contours qu’il trace ont déjà été marqués par un autre sujet. De même,
la valeur du Rappel total indique que ses contours représentent en moyenne 70% de l’ensemble
des contours marqués par les autres sujets. La grande cohérence des segmentations humaines, en
accord avec les résultats de [Mar02], renforce notre hypothèse de départ, selon laquelle l’organi-
sation perceptuelle des images naturelles est globalement la même pour un groupe d’Humains,
les variations étant dues principalement au niveau de détail.
Soulignons enfin que les résultats précédents sont trop partiels pour exprimer une loi générale
187
FIG. 7.9 – Segmentation humaine et information sémantique. Ligne 1 : Image originale, seg-mentations humaines et leur mise en correspondance. Lignes 2 et 3 : Segmentations de six sujetsdifférents.
188
FIG. 7.10 – Évaluation de la segmentation humaine
sur la vision humaine. L’importance de la BSDB réside plutôt dans le fait de fournir une référence
quantitative pour mesurer la performance des méthodes de segmentation.
7.5 Correspondance de courbes et de pixels
Nous détaillons dans cette section les différences entre notre approche et celle de [MFM04].
La méthodologie de Précision-Rappel évalue la qualité des algorithmes de segmentation en
comparant les contours qu’ils produisent aux frontières des objets marqués par les humains. Elle
peut donc être employée indistinctement sur des méthodes de segmentation en régions ou sur
des détecteurs locaux. L’implantation proposée dans [MFM04] a néanmoins été conçue pour
les seconds. Ces auteurs abordent le problème central, la comparaison de deux segmentations
binaires, dans le cadre discret. Ils proposent de construire une correspondance explicite entre les
pixels des deux segmentations. Ceci est réalisé au moyen d’une assignation à coût minimal sur
un graphe bipartite, où le coût entre deux pixels est proportionnel à leur distance euclidienne. Un
seuil de tolérance dm détermine alors les pixels en correspondance. Du point de vue pratique,
189
étant donnée la compléxité computationnelle d’une assignation dense, la solution est approchée
par une assignation éparse.
Les auteurs de la BSDB justifient leur méthode en citant le travail de Canny [Can86] pour qui
le principe de détection unique est un des trois objectifs que doit viser tout détecteur de contours1.
Bien qu’elle puisse revêtir une certaine importance dans le cas des détecteurs locaux, la détection
unique ne nous semble pas essentielle pour la segmentation en régions. En outre, cette approche
pénalise les contours détaillés par rapport aux contours plus réguliers. Par exemple, il n’existe
pas de correspondance explicite exacte entre les pixels des deux segmentations humaines des
inflorescences centrales de la Figure 7.3 (p. 176).
La différence principale entre notre approche et celle de la BSDB est donc que nos définitions
de Précision et Rappel prennent en compte uniquement la position relative des deux courbes et
non pas leur longueur. Dans leur cas, en considérant les définitions (7.3.1) à (7.3.4), les descrip-
teurs sont donnés par les formules :
Pm =minV P, DV P + FP
Rm =minV P, D
D + ND
Ainsi, pour un même seuil de tolérance, notre F-mesure globale est toujours supérieure ou
égale à celle de la BSDB. Pour obtenir des résultats comparables, nous avons donc choisi un
rayon de dilatation r différent de dm. Notre critère pour ce choix a été d’obtenir les mêmes
Précision et Rappel globaux des segmentations humaines sur la totalité des 300 images.
La Figure 7.11 montre l’évolution de la F-mesure globale des humains lorsque le rayon de
dilatation varie. Puisque la distance euclidienne entre deux pixels est toujours le carré d’un entier,
la F-mesure augmente par pas discrets. Pour le rayon r =√
10, on obtient les résultats présentés
dans la Figure 7.8, ce qui correspond aux valeurs de la BSDB lorsque leur seuil de tolérance est
1Les deux autres principes de Canny sont la bonne détection et la bonne localisation.
190
FIG. 7.11 – Sensibilité de la F-mesure globale des humains au rayon de dilatation
5,75. Sauf indication contraire, toutes les correspondances que nous présentons ont été obtenus
avec ce rayon.
Soulignons par ailleurs qu’un avantage de notre formulation morphologique est que la mise
en correspondance d’une carte de contours pondérés et d’une famille de segmentations ne dépend
pas du cardinal de cette dernière. En revanche, la méthode par pixels nécessite la construction
d’une correspondance explicite pour chaque segmentation humaine. Ainsi, le temps de calcul
est considérablement réduit avec notre approche. Ceci est particulièrement important pour l’op-
timisation des paramètres de notre système où, pour chaque jeu de paramètres, il est nécessaire
de comparer plusieurs centaines de cartes de contours avec cinq segmentations humaines en
moyenne.
Enfin, même si nous considérons la BSDB comme un pas en avant dans l’étude de la seg-
mentation, on peut objecter le faible nombre de segmentations disponibles pour chaque image.
Une étude statistique représentative de la performance humaine pour cette tâche nécessiterait un
échantillonnage beaucoup plus large de la population, en faisant intervenir des facteurs comme
la culture, l’âge ou la formation des opérateurs. Notre méthode de correspondance morpholo-
gique pourrait être appliquée directement dans un tel cadre sans augmenter le temps de calcul,
puisqu’elle est indépendante du nombre de segmentations de référence.
Chapitre 8
Résultats
8.1 Optimisation du système
Le choix méthodologique que nous avons fait consiste à exprimer les degrés de liberté de
notre système de segmentation sous forme de paramètres, dont l’ajustement est interpreté comme
l’introduction d’information préalable sur la structure géométrique des objets présents dans l’image.
La méthodologie du chapitre précédent permet de mesurer la qualité d’un algorithme de
segmentation pour un jeu de paramètres, sur un ensemble d’images et par rapport à une vérité
terrain. Pour le processus d’optimisation du système, nous avons utilisé comme référence les
segmentations humaines des 200 images de l’ensemble d’entraînement de la BSDB.
Nous avons utilisé une méthode classique d’optimisation locale par chemins qui, dans notre
cas, s’est avérée suffisante. Soit P l’espace des paramètres et considérons un jeu initial de pa-
ramètres. À ce point p0 ∈ P , on associe la F-mesure globale des contours ultramétriques sur
l’ensemble des images. On procède alors à une remontée du gradient de F , choisissant parmi
les voisins immédiats de p0 dans P ( 4 voisins en 2D, 6 voisins en 3D, etc...) celui qui maxi-
mise la F-mesure. Le processus est ensuite répété à partir du nouveau point jusqu’à arriver à un
maximum de F.
191
192
La méthode garantit que le changement d’un seul paramètre ne peut pas augmenter la F-
mesure. Cependant, le maximum atteint n’est que local. Pour diminuer la sensibilité de la mé-
thode aux conditions initiales, on utilise une approche multi-résolution. Pour cela, on estime
les rangs maximaux des paramètres et on choisit initialement des pas d’échantillonnage grands
(par exemple, 1/2 du rang), pour réaliser l’optimisation à cette résolution. Une fois le maximum
atteint, on le considère comme point initial et l’optimisation est répétée en diminuant le pas.
Notons que les paramètres de notre système ne sont pas tous de même type ; certains ont des
valeurs réelles, comme le poids de l’attribut interne des ultramétriques, et d’autres sont plutôt
des options, comme le type de connexité discrète.
La méthode d’optimisation, immédiate en théorie, exige en pratique un grand nombre de
calculs, puisque, pour chaque jeu de paramètres, on doit calculer les 200 cartes de contours et
les comparer aux segmentations humaines. Avec les moyens dont nous disposions, l’optimisation
n’a été possible que grâce au fait que nos cartes de contours peuvent se calculer rapidement (entre
10 et 20 secondes en moyenne) et à l’interprétation morphologique du cadre Précision-Rappel
du chapitre précédent (notre approche divise en moyenne le temps d’évaluation par 5 par rapport
à la correspondance par pixels de la BSDB). Même ainsi, l’obtention des résultats de ce chapitre
a nécessité l’utilisation du serveur de calculs du CEREMADE (bi-processeur Xeon à 3,2 Ghz)
en continu pendant près de neuf mois.
La Figure 8.1 condense le résultat de cet effort. On peut observer les courbes Précision-
Rappel optimales des différentes méthodes de segmentation que nous avons testées, sur l’en-
semble d’images d’entraînement. L’évaluation sur l’ensemble d’images de test, présentée dans
la Séction 8.3, fournit des résultats similaires. La courbe rouge représente nos contours ultramé-
triques optimaux, notés dans la suite UCM. Notre courbe domine toutes les autres, justifiant ainsi
l’approche développée dans ce mémoire. Pour un Rappel fixé, notre système fournit les résultats
avec le moins de bruit (la plus grande Précision). Réciproquement, pour une Précision donnée,
193
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.684MFM F(0.65, 0.70) = 0.674MS F(0.63, 0.66) = 0.643WS F(0.59, 0.71) = 0.640
0.9
0.811
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.1 – Résultat global de l’évaluation
194
notre méthode détecte le plus de vérité terrain (le plus grand Rappel). La courbe bleue corres-
pond au détecteur local de [MFM04], noté MFM. On peut observer dans le graphe la supériorité
de notre système sur les deux méthodes de référence en segmentation par régions testées, l’ap-
proche morphologique (WS en orange) et l’approche variationnelle (MS en noir). La première
utilise uniquement l’information d’une image "gradient", tandis que la seconde est construite à
partir de l’image originale. Leur performance globale est cependant équivalente et leurs courbes
se superposent sur un large rang d’échelles. En revanche, la performance de notre système, qui
combine les deux types d’information, est significativement supérieure. Enfin, la courbe vert
foncé est la ligne de niveau de la F-mesure correspondant à la performance de la vision humaine,
0,811 pour cet ensemble d’images, et représente l’objectif ultime à atteindre pour les machines.
Les sections suivantes expliquent comment ces résultats ont été obtenus.
Rappelons que l’optimisation est à faire séparément sur les images couleur et sur les images
à teintes de gris. La position relative des courbes est cependant la même pour les deux types
d’images et nous présentons uniquement les résultats des images couleur.
Le restant de cette section est dédié à l’analyse de l’influence de chacun des paramètres de
notre système sur la performance globale. Dans ce but, la partie gauche des Figures 8.2 à 8.5
présente la courbe des contours ultramétriques optimaux UCM (rouge gras) comparée à celle
des contours ultramétriques lorsque le paramètre en question est nul (bleu). La partie droite
des figures compare pour sa part UCM (rouge gras) aux contours ultramétriques obtenus en
doublant la valeur optimale du paramètre (bleu). On peut observer que, dans toutes les figures,
les courbes de la partie droite sont très proches entre elles, se superposant même dans certains
cas. Ce comportement donne une indication de la robustesse du système, l’augmentation d’un
seul paramètre n’influant que marginalement sur sa performance globale.
195
8.1.1 Pré-segmentation
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.684RAW F(0.60, 0.66) = 0.628
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.6846EM F(0.66, 0.70) = 0.682
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.2 – Influence de la pré-segmentation
L’élément dont l’absence pénalise le plus la performance globale du système est la mosaïque
des extrema (voir la Section 4.6). Le résultat est présenté dans la Figure 8.2. Lorsque les contours
ultramétriques sont calculés sur l’image originale, le score obtenu est de 0,628. On observe donc
une augmentation de qualité de 5,6% grâce à la pré-segmentation. Les plus grands écarts se
présentent aux échelles intermédiaires, les plus importantes du point de vue de notre application.
Le nombre d’itérations optimum est de 3. Lorsqu’on itère davantage la pré-segmentation, les
extrema de la luminosité perdent graduellement leur signification physique et certaines structures
de l’image disparaissent. On constate donc sur le graphe de droite que, pour 6 itérations, le
Rappel diminue aux échelles faibles (moins de vérité terrain détectée) et la Précision aux échelles
hautes (plus de bruit). Les deux courbes sont cependant très proches et coïncident aux échelles
intermédiaires.
La performance optimum a été obtenue avec la couleur médiane comme modèle des V-
régions dans la mosaïque des extrema. Le choix de la moyenne donne des résultats légèrement
inférieurs (−0,5%), et−1% pour la couleur à l’extremum, le plus significatif visuellement. Étant
donné le nombre de sites, l’influence du type de connexité discrète et de la règle d’assignation
196
des éléments du V-diagramme est négligeable. Enfin, l’ordre optimum de la variation de chemin
est p = 1 pour les images à teintes de gris et l’ultramétrique sous-dominante de V1 pour les
images couleur.
8.1.2 Enrichissement du contraste
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.6840G F(0.60, 0.68) = 0.639
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.684GG F(0.63, 0.74) = 0.682
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.3 – Influence de l’enrichissement du contraste
Le deuxième élément par ordre d’importance de notre système est l’enrichissement du contraste
que fournit l’information du détecteur local (voir la Section 6.6). Le résultat est présenté dans
la Figure 8.3. Le score lorsque le paramètre α1 de l’équation (6.6.4) s’annule est de 0,639, soit
4,5% de moins que les contours ultramétriques optimaux. On observe clairement que l’amélio-
ration est due à l’augmentation de la Précision. La cause principale de cette réduction du bruit
est la prise en compte de l’homogénéité de texture dans le système. Lorsque le poids relatif de
l’information du "gradient" augmente à partir de l’optimum (à droite), la Précision aux hautes
échelles diminue mais les deux courbes demeurent très proches.
197
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.6840C F(0.60, 0.69) = 0.643
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.684CC F(0.65, 0.71) = 0.680
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.4 – Influence de la couleur
8.1.3 Couleur
La couleur est le troisième élément par ordre d’importance de notre système (Section 2.1).
Le résultat est présenté dans la Figure 8.4. Si on fixe le paramètre ξ de l’équation (2.1.1) à zéro,
uniquement l’information du canal de luminosité L∗ est prise en compte. On observe dans ce
cas une diminution de 4,1% du score. Nous avons utilisé les segmentations des images couleur
pour obtenir des résultats comparables à ceux des UCM optimaux. Comme pour les paramètres
précédents, la sur-pondération de la chrominance ne produit que des changements mineurs.
Nous n’avons pas constaté de différences de performance significatives entre les deux es-
paces couleur usuels (L∗ab, δ∗) et (L∗uv, δ∗), c’est-à-dire, lorsque ξ = 1. Cependant, cette valeur
neutre du paramètre est optimale pour L∗uv alors que pour L∗ab la pondération de la chromi-
nance augmente le score de près de 2%.
8.1.4 Information interne
La Figure 8.5 montre l’influence de la prise en compte d’informations internes des régions
dans la performance du système. Celle-ci est contrôlée par le paramètre α2 de l’équation (6.7.2).
On peut observer que le score de Υf n’est que légèrement inférieur à celui des UCM (−0,6%),
198
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.6840A F(0.64, 0.72) = 0.678
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.684AA F(0.65, 0.71) = 0.679
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.5 – Influence de l’information interne
mais l’amélioration est plus significative dans les échelles hautes. Rappelons néanmoins que cette
information nous a servi principalement à éliminer le bruit et les petites régions sans signification
sémantique de la partition à l’échelle optimale. L’importance réelle de l’information interne est
donc difficilement mesurable avec la méthodologie d’évaluation qui repose sur les contours.
Curieusement, nous avons trouvé zéro comme valeur optimale du paramètre α3 de l’équa-
tion (6.7.15). Ainsi, l’erreur quadratique de l’approximation à l’image originale n’enrichit pas
l’information donnée par la taille.
8.1.5 Autres éléments
Les résultats globaux pour l’ultramétrique des marqueurs (voir la Section 6.8) et pour l’ultra-
métrique Υi (Section 6.7) sont proches, avec un avantage cependant pour la première de (+1%).
Il est par conséquent plus approprié de déterminer l’emplacement des contours un utilisant uni-
quement l’information des frontières, et se servir de l’information interne dans un second temps
pour classifier les régions.
Remarquons par ailleurs que l’ultramétrique de contraste moyen (Section 6.5.2) est supé-
rieure de (+1,6%) à la sous-dominante de la variation de chemin (Section 6.5.1).
199
Le type de connexité discrète utilisé est secondaire pour la performance globale de la mé-
thode. Nous avons constaté une légère augmentation de la Précision aux hautes échelles en utili-
sant la 4-connexité plutôt que la 8-connexité, mais l’écart des scores est très faible (0,5%).
Enfin, on peut évaluer notre système en normalisant chaque carte de contours individuelle-
ment (λ1 = 1 dans (6.2.5)) ou en considérant une valeur unique sur l’ensemble d’images. Nous
avons obtenu des résultats meilleurs (+2%) avec la deuxième option. Ce résultat donne une in-
dication de l’adéquation au problème des notions d’échelle considérées.
8.2 Comparaison avec d’autres méthodes
8.2.1 Détecteurs de contours locaux
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.684MFM F(0.65, 0.70) = 0.674
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.6 – Nos contours ultramétriques (rouge gras) comparés à l’état de l’art en détecteurs decontours locaux (bleu).
Dans ce paragraphe, nous décrivons brièvement l’étude de [MFM04], que nous utilisons
comme détecteur local en entrée de notre système. La méthode proposée par Martin et al. pour la
détection de contours des images naturelles repose sur la mesure, dans chaque pixel, de disconti-
nuités locales dans plusieurs canaux de caractéristiques, sur un rang d’orientations et d’échelles.
200
FIG. 8.7 – Détecteur MFM avant et après suppression des non-maxima
Outre l’énergie orientée de [PM90a], ces auteurs mettent en oeuvre le paradigme du gradient sur
une famille d’attributs locaux qui inclut l’intensité, la couleur et la texture.
L’approche consiste à considérer, pour chaque point (x, y) de l’image, un disque euclidien
de rayon r divisé par un diamètre d’orientation θ. Une fonction "gradient" G(x, y, r, θ) compare
ensuite le contenu des deux moitiés du disque. Une large différence des caractéristiques locales
sur les deux moitiés indique la présence d’une discontinuité de l’image dans la direction du
diamètre. La reponse maximale sur toutes les orientations définit alors une "norme du gradient".
L’information sur chaque moitié du disque est décrite par un histogramme. Pour l’intensité et
la couleur, la distribution de la luminosité et de la chrominance dans l’espace L∗ab est estimée.
Dans le cas de la texture, le système mesure la réponse à une famille de filtres de texture. Les
histogrammes sont ensuite comparés au moyen de l’opérateur χ2.
Les différentes caractéristiques locales sont combinées et le système est optimisé par rapport
à l’ensemble d’entraînement de la BSDB. L’évaluation quantitative permet aux auteurs de mon-
trer que leur détecteur, noté dans la suite MFM, surclasse toutes les autres techniques locales de
détection de contours.
La Figure 8.6 présente la comparaison avec notre système. On peut observer que notre courbe
domine celle du MFM. La supériorité des UCM est donnée par une plus grande attache aux
données (le Rappel), surtout dans les échelles basses. La différence des scores est faible (1%),
mais rappelons que l’avantage principal de notre approche par rapport aux détecteurs locaux est
de fournir des segmentations en régions, et donc des contours fermés.
201
8.2.2 Approche morphologique
Ce paragraphe présente les résultats que nous avons obtenus avec certaines des méthodes de
segmentation morphologique décrites dans la Section 6.9.1.
Le premier point à considérer pour l’application de la LPE et ses techniques dérivées à la
segmentation générale de bas niveau est l’élection d’un "module du gradient" g. Le choix naturel
semble être le détecteur MFM, l’état de l’art en détecteurs locaux. Cependant, le résultat final de
cette méthode n’est pas directement utilisable pour nos propos, car, suivant l’approche proposée
par Canny, il retient uniquement les maxima dans la direction du gradient. La conséquence en
est que le MFM s’annule sur une grande partie du domaine et ne possède généralement qu’un
unique minimum régional. Or, en présence d’un seul bassin versant, la LPE est vide.
Les expériences que nous présentons ont donc été réalisées en employant le détecteur MFM
sans suppression des non-maxima. Un exemple est présenté dans la Figure 8.7. Ce choix com-
porte plusieurs avantages. Il permet d’une part de comparer directement la performance de la
LPE à celle de la méthode de Canny sur le meilleur détecteur local disponible. D’autre part, il
permet de répondre à des critiques usuelles à la LPE, à notre avis injustifiées : la non régularité
des contours, son inadéquation aux textures et sa sensibilité au bruit. Nos résultats montrent que
ces informations peuvent (et devraient) être gérées par le détecteur local. Les contours obtenus
avec les techniques morphologiques sont en effet les plus réguliers des méthodes testées, tout en
présentant une robustesse aux textures et au bruit équivalente. Un exemple est présenté dans la
Figure 8.8, où on peut observer l’effet de mosaïque caractéristique des inondations.
Nous avons calculé les inondations de la profondeur, de l’aire et du volume des lacs, en
modifiant l’implantation de Pink [Cou] de l’algorithme de Meyer [Mey94] (LPEM). Nous avons
ensuite utilisé l’ultramétrique des marqueurs à partir des minima classifiés pour créer les cartes
de contours ultramétriques.
202
MFM WS-opt UCM
FIG. 8.8 – Haut : Cartes des contours de l’image de la Fig. 8.7. Bas : seuils optimaux
Notons tout d’abord que l’aire et le volume ne sont pas des échelles appropriées pour l’éva-
luation car, typiquement, l’image possède un faible nombre de lacs où ces caractéristiques sont
trop importantes par rapport aux autres. Ainsi, si on échantillonne ces échelles de façon uni-
forme, on obtient une courbe qui contient quelques points épars aux échelles hautes et un grand
nombre de points aux échelles faibles. Nous avons par conséquent utilisé le logarithme népérien
de ces caractéristiques, ce qui permet une distribution plus homogène des points sur la courbe et
donc une estimation plus précise de la F-mesure maximale.
On n’observe par ailleurs pas de différence significative de la performance relative des mé-
thodes sur les images couleur ou à teintes de gris. Le score sur les premières est plus grand
que sur les secondes, mais la position relative des courbes est équivalente. La différence réside
donc dans la supériorité du détecteur pour les images couleur et nous présentons uniquement les
courbes pour ce type d’images.
Parmi les trois inondations, la plus performante est la profondeur (0,641), suivie du volume
(0,622) et, plus loin, de l’aire (0,573). Le résultat est présenté dans la partie gauche de la Figure
8.9. La première observation est donc que l’inondation d’aire est la moins appropriée pour la
203
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
WS−dyn F(0.62, 0.67) = 0.641WS−logvol F(0.64, 0.60) = 0.622WS−logar F(0.56, 0.58) = 0.573
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
WS−opt F(0.63, 0.66) = 0.643WS−dyn F(0.62, 0.67) = 0.641WS−logvol F(0.64, 0.60) = 0.622
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.9 – Contours ultramétriques des inondations
segmentation de bas niveau. On ne peut en revanche pas établir une supériorité manifeste de
l’une des deux inondations restantes sur l’autre, car leurs courbes se croisent. La profondeur est
plus performante aux échelles faibles et le volume aux échelles hautes. Ceci justifie l’élection du
volume dans les applications où l’obtention d’une partition significative avec peu de régions est
importante [Vac95, Zan01].
Une fois le type de gradient et l’algorithme de LPE choisis, les contours ultramétriques dé-
finis par les inondations classiques sont aparamétriques. On pourrait penser que cette propriété
handicape leur performance par rapport à des méthodes qui, comme la nôtre, disposent d’un plus
grand nombre de degrés de liberté. Dans l’expérience suivante, nous avons combiné les caracté-
ristiques des lacs de façon analogue à notre système et défini la dissemblance ultramétrique :
δ(R1, R2) = dyn(R1, R2) · (ln(minvol(R1), vol(R2)) + β1 · ln(minar(R1), ar(R2))]β2
Cette dissemblance est donc composée d’un premier terme de frontière et d’un deuxième terme
qui prend en compte l’information interne des lacs. Les deux paramètres ont été optimisés sur
l’ensemble d’entraînement de la BSDB. Le résultat est présenté dans la partie droite de la Fi-
gure 8.9. La courbe PR de l’inondation optimisée se superpose à celle de la dynamique dans
les échelles faibles et la surpasse dans les échelles hautes. On constate donc que l’optimisation
204
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
MFM F(0.65, 0.70) = 0.674WS−opt F(0.63, 0.66) = 0.643
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.684WS−opt F(0.63, 0.66) = 0.643
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.10 – Gauche : détecteur local (rouge gras) comparé à l’inondation optimisée (bleu).Droite : nos contours ultramétriques (rouge gras) comparés à l’inondation optimisée (bleu).
améliore la performance de l’inondation uniforme lorsque le nombre de régions est faible. Le vo-
lume demeure cependant dominant dans les échelles hautes. La combinaison des caractéristiques
des lacs et leur optimisation fournit donc une plus grande souplesse à l’approche morphologique
dans les échelles intermédiaires.
Dans la partie gauche de la Figure 8.10, on peut observer que le score de l’inondation opti-
misée est inférieur de 3% à celui du détecteur MFM. Ce résultat indique une supériorité de la
méthode de suppression des non-maxima par rapport aux approches morphologiques basées sur
le gradient. Deux facteurs doivent cependant être pris en compte. D’une part, la performance des
inondations est pénalisée en comparaison à la suppression des non-maxima, car cette dernière n’a
pas l’obligation de fournir des courbes fermées. D’autre part, nous avons utilisé dans toutes nos
expériences les paramètres par défaut du détecteur MFM, qui ont été optimisés sur la BSDB en
tenant en compte la suppression des non-maxima. L’optimisation du détecteur local spécifique-
ment pour les techniques morphologiques pourrait par conséquent améliorer leur performance.
Cette optimisation comporterait néanmoins une dizaine de paramètres supplémentaires, ce qui
dépasse largement nos moyens de calcul.
Enfin, la partie droite de la Figure 8.10 compare l’inondation optimisée avec notre système.
205
L’écart des deux courbes est globalement constant pour toutes les échelles, et le score des UCM
est significativement supérieur (+4%).
8.2.3 Approche variationnelle
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
EM−MS F(0.59, 0.71) = 0.640MS F(0.59, 0.68) = 0.633
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.65, 0.72) = 0.684EM−MS F(0.59, 0.71) = 0.640
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.11 – Nos contours ultramétriques comparés à ceux obtenus par la minimisation de lafonctionnelle de Mumford et Shah
Comme référence des méthodes variationnelles, nous avons utilisé les contours ultramé-
triques associés à la minimisation de la fonctionnelle de Mumford et Shah, dont la construc-
tion est décrite dans la Section 6.9.2. Ces expériences ont été réalisées avec l’implantation de
MegaWave [FM] de l’algorithme de [DK97].
Pour obtenir des résultats comparables, nous avons utilisé les espaces couleur (L∗c1c2, δ∗),
avec la pondération de chrominance ξ optimisée. De plus, nous avons optimisé la mosaïque
des extrema comme méthode de pré-segmentation pour cette approche. La partie gauche de la
Figure 8.11 présente les contours ultramétriques de cet algorithme construits à partir de l’image
originale (bleu) et à partir de la mosaïque des extrema (rouge gras). L’amélioration dans le cas
des images couleur est faible (0,7%) et un peu plus importante (1,6%) pour les images à teintes de
gris. Les résultats dans les deux cas sont cependant clairement inférieurs à notre méthode (4,6%),
206
comme le montre la partie droite de la figure. La différence principale réside dans l’inclusion de
l’information de texture du détecteur local. Les résultats sont proches aux nôtres lorsque nous
employons uniquement les données de l’image originale (Figure 8.3-gauche).
8.3 Évaluation
Les images de la BSDB sont divisées en deux parties, un ensemble d’entraînement (200
images) et un ensemble de test (100 images). Les règles du jeu pour l’évaluation (benchmark en
anglais) d’un algorithme sont les suivantes :
1. Apprendre les paramètres optimaux sur l’ensemble d’entraînement.
2. Utiliser ces paramètres sur l’ensemble test.
Soulignons le niveau d’exigence de cette méthodologie. D’une part, la technique évaluée doit
être assez robuste pour fournir, avec un jeu de paramètres unique, des segmentations de qualité
des 200 images naturelles de l’ensemble d’entraînement. D’autre part, elle doit permettre de
segmenter les 100 images test "à l’aveugle", avec les paramètres optimaux de l’ensemble d’en-
traînement. Puisque tous les paramètres ont été ajustés sur un ensemble d’images indépendant, la
méthodologie évalue la performance du système pour la segmentation totalement automatique.
Nous présentons dans la Figure 8.12 la comparaison des algorithmes sur l’ensemble d’images
test. Pour respecter intégralement les règles de jeu, nous avons utilisé dans ce cas la méthode
de correspondance par pixels originale. Remarquons cependant que les résultats sont presque
identiques avec notre correspondance de courbes. Notons par ailleurs que la cohérence humaine
sur l’ensemble d’images test est inférieure de près de 3% à celle des images d’entraînement
(0,782 au lieu de 0,811 pour la correspondance par courbes). Ceci se traduit par une diminution
du score de tous les algorithmes. La position relative des courbes est néanmoins la même pour les
deux ensembles d’images, ce qui indique la robustesse des algorithmes testés. On constate que
les courbes sont plus proches entre elles que dans la Figure 8.1 (p. 193), mais notre méthode est
207
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.64, 0.68) = 0.660MS F(0.60, 0.67) = 0.633WS F(0.61, 0.66) = 0.632
0.9
0.787
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
0 0.25 0.5 0.75 10
0.25
0.5
0.75
1
Précision
Rap
pel
UCM F(0.64, 0.68) = 0.660MFM F(0.61, 0.69) = 0.648Canny F(0.52, 0.69) = 0.584
0.9
0.787
0.7
0.6
0.5
0.4
0.3
0.2
0.1
IsoF
FIG. 8.12 – Résultats de l’Évaluation. Nos cartes de contours ultramétriques (rouge gras) com-parées à deux méthodes de référence en segmentation hiérarchique (haut) et à l’état de l’art endétecteurs de contours locaux (bas).
208
toujours dominante. Le score obtenu (0,66) place notre système au premier rang (pour l’instant,
au moins) du classement d’algorithmes de segmentation de l’université de Berkeley.
La BSDB représente pour nous une ligne de séparation dans l’orientation générale de l’étude
de la segmentation, car elle pose les bases pour une approche quantitative au problème. Depuis sa
publication, en 2003, cette étude est devenue une référence dans le milieu, et nous pensons que le
benchmark des résultats sera dans les années à venir un préalable à la publication des recherches
en segmentation et en détection des contours. Bien que la base de données soit utilisée de plus
en plus souvent dans les publications des deux dernières années, la seule évaluation qui ait été
menée en suivant rigoureusement les règles du jeu est celle de ses auteurs [BSD], qui porte
exclusivement sur les détecteurs de contours locaux.
À notre connaissance, la seule publication à ce jour sur l’évaluation d’algorithmes de seg-
mentation en régions dans le cadre de la BSDB est [EJ05]. Cette étude constitue par conséquent
un repère pour situer notre travail par rapport à l’état de l’art du domaine, et nous la décrivons
ci-après brièvement.
Estrada et Jepson [EJ05] proposent un algorithme de segmentation, nommé SE-Mincut, qui
repose sur l’immersion spectrale (spectral embedding) et les coupes minimales sur un graphe
(min-cuts). Au moyen du cadre Précision-Rappel, ces auteurs comparent leur méthode à trois
algorithmes de référence des dernières années : le Mean-Shift [CM97, CM99], les Normalized-
Cuts [SM00] et la Local Variation [FH98]. L’évaluation est réalisée en utilisant les implantations
distribuées par les auteurs de chacune des méthodes. Cette étude a pour nous l’intérêt supplé-
mentaire d’évaluer des approches descendantes (par coupes) en théorie de graphes, réputées su-
périeures aux approches ascendantes (par fusion) comme la nôtre dans des livres de texte [FP03].
Elle nous permet en outre d’illustrer les difficultés pratiques qu’on peut rencontrer en réalisant
une tâche analogue à celle décrite dans ce chapitre.
La première de ces difficultés est que les approches descendantes sont généralement plus
coûteuses en temps de calcul et en ressources que les approches ascendantes. À tel point, que
209
les implantations du SE-Mincut et des Normalized-Cuts ne fonctionnent pas sur des images de
la taille de celles de la BSDB. Notre expérience avec les Normalized-Cuts confirme ce fait.
Estrada et Jepson sont donc obligés de sous-échantillonner les images d’un facteur de 4 (taille
121x88) dans leurs expériences. De plus, l’évaluation se limite aux images a teintes de gris, les
algorithmes permettant uniquement l’utilisation de ce type d’images. D’autre part, le seuil de
tolérance dans la localisation des contours est choisi à 5 pixels ce qui, étant donnée la résolution
des images, est largement supérieur à celui de la BSDB et au nôtre. Remarquons par ailleurs
que la cohérence de la segmentation humaine pour ce protocole expérimental n’est pas donnée.
Enfin, l’évaluation est réalisée sur les 300 images de la BSDB et non pas sur les 100 images de
test. Étant donné le faible nombre de paramètres des algorithmes et leur coût computationnel,
l’étape d’optimisation est omise, les courbes comportent uniquement une dizaine de points et le
choix de la courbe optimale se fait par inspection visuelle.
L’effet des différents facteurs que nous venons d’énumérer devrait être de sur-évaluer la per-
formance des algorithmes en relation aux règles de jeu de la BSDB. Ceci n’est malheureusement
pas vérifiable car l’article fournit uniquement un graphe des courbes, sans aucune mention des
F-mesures maximales. Le seul élément qui permette de comparer les performances obtenues aux
nôtres est le détecteur de contours de Canny, utilisé comme référence des détecteurs locaux. Sur
la Figure 4 de [EJ05], on observe que l’algorithme le plus performant est le SE-Mincut, suivi
de près par la méthode de Canny, puis les Normalized-cuts, la Local Variation et, plus loin, le
Mean-Shift. Toutes les courbes sont cependant assez proches (à l’exception de la dernière) et leur
performance se situe dans l’ordre de grandeur de celle de Canny. Notons cependant que le dé-
tecteur de Canny est évalué à la résolution des autres techniques et sans seuillage par hysteresis.
Cette même méthode, évaluée en suivant les règles de la BSDB (avec hystéresis, à résolution
normale et uniquement sur l’ensemble test) a une performance de seulement F = 0,58, comme
on peut observer sur la partie inférieure de la figure 8.12.
210
L’analyse précédente nous permet d’estimer que les trois méthodes de segmentation en ré-
gions que nous avons testés surclassent les quatre techniques évaluées dans [EJ05]. Une compa-
raison directe se trouve cependant hors de portée pour l’instant.
8.4 Exemples
Les Figures 8.13 à 8.15 présentent quelques résultats de notre système. Les cartes de contours
ultramétriques ont été obtenues en utilisant un jeu unique de paramètres, l’optimum sur l’en-
semble d’entraînement. La partition donnée correspond à l’échelle optimum des UCM pour
l’image. La reconstruction, où chaque région est représentée par sa couleur médiane, permet
de juger qualitativement le résultat. Remarquons que, bien que les paramètres aient été optimi-
sés pour l’extraction des contours, les régions coïncident souvent avec des objets ou des parties
d’objets présents dans l’image. Dans la carte de contours ultramétriques, on peut observer que
certains objets qui ne sont pas extraits ou qui sont fragmentés à l’échelle optimum, sont complets
à une autre échelle. Dans la mise en correspondance avec les segmentations humaines, les vrais
positifs sont représentés en noir, les faux positifs en bleu et les non détections en orange.
211
Image Reconstruction UCM Correspondance
FIG. 8.13 – Résultats
212
Image UCM Correspondance Reconstruction
FIG. 8.14 – Résultats
213
Image UCM Correspondance Reconstruction
FIG. 8.15 – Résultats
214
Chapitre 9
Conclusions et perspectives
9.1 Résumé
La thèse présentée dans ce mémoire a été dédiée à l’étude d’un problème fondamental en
Vision par Ordinateur : la segmentation. Cette tâche vise à extraire les caractéristiques géomé-
triques d’une image en créant une partition de son domaine de définition. Dans le cas des images
naturelles (images de scènes du monde réel), les régions de la partition représentent des ob-
jets physiques. La démarche méthodologique adoptée, dite de bas niveau, consiste à segmenter
l’image sans connaître préalablement son contenu sémantique.
Les paragraphes suivants résument les quatre parties qui constituent le présent mémoire.
Cadre de travail
L’approche proposée dans cette thèse pour la segmentation automatique d’images naturelles
repose sur la formulation du problème dans le cadre des espaces pseudo-métriques, où une seg-
mentation est modélisée comme une partition métrique du domaine de l’image.
Les fondements du formalisme métrique sont exposés dans le CHAPITRE 1. Après une pré-
sentation des notions de base, deux types de partitions de l’espace induites par une distance sont
étudiées. Les premières, nommées partitions par seuillage, sont obtenues en séparant des autres
points de l’espace ceux dont la distance à un ensemble est inférieure à un certain seuil. Les se-
condes, appelées partitions de Voronoï, décomposent l’espace par rapport à une famille de points,
215
216
ou sites, en assignant chaque point au site le plus proche. Enfin, une formulation variationnelle
de ce type de partitions métriques est présentée.
La première partie du mémoire est complétée par le CHAPITRE 2, qui traite plus spécifique-
ment des images numériques et des structures mathématiques et algorithmiques pour les repré-
senter et les manipuler. On s’intéresse en particulier à la représentation de la couleur, à la notion
de composante connexe, centrale pour la suite de l’exposé, et à la définition des segmentations
en termes des contours. De même, on introduit les structures de graphe d’adjacence et d’arbre
d’inclusion, sur lesquelles reposent nos constructions algorithmiques.
L’application de la théorie métrique nécessite la définition de distances appropriées pour
traiter un problème spécifique. Dans le cas de la segmentation, les distances se construisent
à partir des données de l’image. Les deuxième et troisième parties du mémoire étudient deux
classes de distances différentes.
Métriques de chemin
La deuxième partie du mémoire s’intéresse aux métriques de chemin, définies en mesurant le
minimum d’une notion de longueur généralisée des chemins entre points de l’espace.
À chaque notion de longueur correspond une distance différente. Le CHAPITRE 3 présente
une étude bibliographique des métriques de chemin les plus connues, les distances pondérées.
Partant de la notion physique de distance optique, nous étudions la relation entre ces distances,
la théorie de propagation des fronts et le formalisme des ensembles de niveau, pour aboutir à
l’Équation Eikonale. Nous considérons ensuite l’implantation de ce type de distances au moyen
de l’algorithme du Fast Marching, qui permet la convergence de la construction vers la solu-
tion de viscosité de l’Équation Eikonale. Est discutée enfin l’application à la segmentation des
partitions métriques associées aux distances pondérées.
Dans le CHAPITRE 4, nous proposons l’étude de la distance définie en considérant comme
longueur la variation totale de l’image sur les chemins, que nous appelons variation de chemin.
217
Nous étudions d’abord la définition et les propriétés de cette distance dans le cadre continu,
et remarquons son équivalence dans le cas des fonctions continues avec la notion de variation
linéaire de Kronrod. Nous proposons et comparons ensuite deux constructions différentes de la
variation de chemin sur une grille régulière. L’intérêt de cette distance pour la segmentation est
illustré en comparant les partitions métriques qu’elle engendre à celles des distances pondérées
du Chapitre 3.
L’application principale de cette partie de la thèse est une technique de segmentation appelée
mosaïque des extrema. Elle est déterminée par la partition de Voronoï associée à la variation de
chemin et aux extrema régionaux du canal de luminosité de l’image. Cette partition métrique
permet de définir une reconstruction de l’image constante par morceaux où un équilibre entre
simplification et conservation de contenu est atteint. Ses propriétés principales sont la réduction
du flou et la préservation de l’information géométrique de l’image, en particulier des contours.
Enfin, nous étudions la relation entre la mosaïque des extrema et la ligne de partage des eaux et
proposons une méthode pour le choix d’un sous-ensemble d’extrema significatifs au moyen d’un
filtrage par EDP.
Ultramétriques
Motivée par l’organisation de la perception visuelle humaine, la troisième partie du mémoire
s’intéresse à l’étude de la segmentation hiérarchique dans le cadre métrique. Le CHAPITRE 5
expose les bases de la théorie de classification hiérarchique des données, partant de la structure
de hiérarchie indicée pour aboutir a la notion équivalente de distance ultramétrique. Ces distances
induisent un nouveau type de partitions métriques, les partitions ultramétriques, qui sont à la fois
des partitions par seuillage et de Voronoï. Enfin, nous rappelons la méthode ascendante classique
de classification hiérarchique des données.
Le CHAPITRE 6 s’intéresse plus spécifiquement à l’application des distances ultramétriques à
la segmentation. Dans ce but, remarquant que l’information géométrique des objets est exprimée
218
en grande partie dans leurs contours, nous formulons la segmentation hiérarchique en termes des
frontières des régions. Cette démarche conduit à placer au centre de l’analyse la carte de contours
ultramétriques, l’image à valeurs réelles représentant une hiérarchie indicée. Nous caractérisons
les méthodes de fusion de régions qui permettent de définir une ultramétrique et mettons au
point des distances spécifiques pour l’extraction des contours des images naturelles. Celles-ci
sont construites en mesurant plusieurs types d’information de bas niveau de l’image (luminosité,
couleur, texture, taille des régions, etc...) et en les combinant au moyen de formules génériques.
Enfin, nous mettons en perspective la méthode proposée en la positionnant par rapport à deux
approches fondatrices en segmentation hiérarchique.
Évaluation des Résultats
L’évaluation quantitative des résultats obtenus est le sujet de la quatrième partie du mémoire.
Le CHAPITRE 7 propose une interprétation originale et une mise en oeuvre fondée sur des opé-
rateurs morphologiques du cadre Précision-Rappel, une méthodologie d’évaluation amplement
reconnue dans le domaine. Celle-ci se fonde sur la comparaison des contours détectés par la
machine par rapport à des segmentations réalisées par des êtres humains, sur une large base
d’images naturelles.
Une partie importante du travail expérimental rapporté dans le CHAPITRE 8 a été dédiée à
l’apprentissage des paramètres optimaux du système au moyen du cadre Précision-Rappel, ainsi
qu’à l’optimisation et évaluation de méthodes de segmentation externes. Le protocole expéri-
mental mis en place permet notamment de prouver que la méthode proposée est significativement
supérieure à deux techniques de référence en segmentation hiérarchique : la minimisation de la
fonctionnelle de Mumford et Shah et les inondations morphologiques. En outre, l’évaluation des
résultats montre que les UCM surclassent l’état de l’art en détecteurs de contours locaux, tout en
fournissant un ensemble de courbes fermées pour tout seuillage.
219
9.2 Conclusions
Ce mémoire a présenté la mise au point et l’évaluation d’un système de segmentation auto-
matique de bas niveau.
L’approche proposée s’inspire des idées fondatrices du domaine et son implantation repose
sur deux des algorithmes les plus classiques en théorie de graphes : les chemins minimaux et la
fusion de régions.
La formulation du problème dans le cadre métrique, ainsi que son interprétation comme un
processus de classification hiérarchique des données, nous ont permis de traiter conjointement la
segmentation en régions et la détection des contours.
Notre stratégie pour concevoir des distances significatives pour l’extraction des contours des
images naturelles a consisté à intégrer l’information de contour locale le long des frontières des
régions, puis à la compléter avec l’information interne.
Le résultat du système est une représentation hiérarchique des contours de l’image sous forme
d’une image scalaire, dont tout seuillage définit un ensemble de courbes fermées, les frontières
d’une segmentation.
En outre, nous avons mesuré la qualité de nos résultats par rapport à la vision humaine. La
méthodologie d’évaluation adoptée nous a permis de montrer la supériorité du système proposé
sur d’autres méthodes de segmentation actuelles et, surtout, permettra de le comparer à des tech-
niques futures.
Nos cartes de contours ultramétriques sont une description structurée de l’information géo-
métrique de l’image. Conjuguées au protocole d’optimisation et évaluation mis en place, elles
constituent un système d’extraction de contours dont les caractéristiques principales sont les sui-
vantes :
– Qualité : L’évaluation des résultats situe les UCM à la pointe des méthodes de segmenta-
tion et de détection de contours actuelles.
220
– Richesse : Chaque UCM contient l’information de toute une hiérarchie de segmentations
en une image scalaire unique.
– Robustesse : La diversité des images de la base de données d’évaluation montre la capa-
cité du système à s’adapter à un grand nombre de situations différentes.
– Automatisme : La définition d’une vérité-terrain (base d’images segmentées) suffit pour
l’apprentissage des paramètres optimaux du système dans un contexte donné.
– Portabilité : L’information relative au type d’images ou à une application spécifique peut
s’incorporer dans la définition de l’ultramétrique et les segmentations de la vérité-terrain.
Par ailleurs, une des questions de l’introduction portait sur la quantité d’information séman-
tique employée par les êtres humains pour segmenter une image naturelle. À cet égard, la dé-
marche suivie dans cette étude permet d’esquisser une réponse. Le score des UCM (0,66) repré-
sente près de 83% du score de référence pour les humains (0,79). Puisque notre système utilise
uniquement l’information physique de l’image, ce résultat permet de situer aux environs de 17%
la borne supérieure du pourcentage d’information sémantique employée par ce groupe de sujets
pour la tâche de segmentation.
La performance des machines pour la segmentation automatique d’images naturelles de-
meure cependant loin de la référence de la vision humaine dont nous disposons. Les méthodes
actuelles se situent dans la tranche des soixantes, leur F-mesure globale variant entre 0.6 et 0.7.
On peut espérer dans les années à venir un rapprochement des techniques de bas niveau vers
une performance de 0.7. Néanmoins, pour accéder à la tranche des soixante-dix et s’approcher
de la vision humaine, nous estimons que l’introduction d’information de plus haut niveau est
221
nécessaire.
Considérons par exemple l’image de la dernière ligne de la Figure 8.15. Les images repré-
sentant un animal dans son environnement naturel sont parfois difficiles à segmenter pour notre
système ; échapper aux yeux des autres est justement le sens du camouflage comme stratégie évo-
lutive. Dans ce cas, les humains perçoivent le tigre comme une entité unique (bien que la fourrure
soit une des caractéristiques qui permettent de l’identifier parmi les félins). En revanche, pour la
machine, l’échelle de certaines rayures est comparable à celle des contours externes. Remarquons
cependant qu’on peut reconstruire une grande partie de l’animal en regroupant des régions des
UCM. Notre représentation de bas niveau des contours de l’image pourrait servir comme point
de départ pour un système de regroupement perceptuel plus haut niveau.
Enfin, l’étude de la segmentation dans le cadre de la classification hiérarchique est parfois
qualifiée d’arbitraire dans le milieu. Un exemple est donné par la remarque suivante, extraite
d’un livre de texte récent [FP03] :
Clustering methods tend to be rather arbitrary (...) because there really isn’t much theory
available to predict what should be clustered and how. It is clear that what we should be doing
is forming clusters that are helpful for a particular application, but this criterion hasn’t been
formalized in any useful way.
Nous espérons que l’étude présentée dans ce mémoire contribuera à la formalisation d’un tel
critère.
9.3 Perspectives
La partie expérimentale de notre travail a été réalisée dans le cadre propre à une thèse. Nous
pensons que la qualité des résultats pourrait s’améliorer en traitant la phase d’optimisation du
système dans un cadre plus large. En particulier, nous avons utilisé dans toutes les expériences
les paramètres par défaut du détecteur MFM. L’optimisation conjointe du détecteur local et de
222
notre système, ainsi que l’utilisation de techniques d’apprentissage des paramètres plus élabo-
rées, devraient augmenter la performance globale.
D’autre part, l’injustement méconnue théorie de Kronrod mériterait une plus large diffusion.
Nous n’avons considéré dans ce mémoire qu’un seul des concepts qu’il définit, la variation
linéaire entre deux points. Kronrod étudie néanmoins d’autres notions, comme la variation li-
néaire sur un ensemble, la variation signée ou la variation planaire (la variation totale pour les
fonctions de deux variables). Nous pensons que leur application à l’analyse d’images pourrait
s’avérer fructueuse. Ces notions sont de surcroît étudiées au moyen de l’arbre de composantes,
et leur implantation en utilisant l’arbre de formes de Monasse est envisageable. Une première
étude a été réalisée dans ce sens, à notre connaissance indépendamment de la théorie de Kron-
rod, par Dibos et Koepfler [DK00].
En ce qui concerne les distances ultramétriques que nous avons construites, il serait sou-
haitable d’évaluer une plus large gamme d’attributs internes des régions (voir par exemple le
Chapitre II de [CP95]). Ceux que nous avons considérés n’améliorent que marginalement la per-
formance du système. De même, d’autres façons de combiner information de frontière et interne
pourraient être envisagées.
D’autre part, on peut observer dans les résultats que les contours que produit notre mé-
thode ne sont pas forcément réguliers. Cette caractéristique n’est pas gênante pour la segmenta-
tion de bas niveau d’images naturelles car, en dehors des environnements humains, les images
contiennent généralement peu d’objets aux contours réguliers. Elle pourrait cependant le deve-
nir dans d’autres applications. À cet égard, notons que l’utilisation en entrée du détecteur local
MFM dans les mêmes conditions que pour les inondations morphologiques (avant suppression
des non-maxima) permet d’augmenter la régularité des contours. Une autre voie qui peut être ex-
plorée dans ce sens est celle proposée dans [NWvdB03], où la régularité de la LPE est contrôlée
en incluant un terme de longueur dans l’énergie (1.3.5) associée aux partitions de Voronoï.
223
Par rapport aux techniques morphologiques et variationnelles testées, signalons que les ex-
périences réalisées sont très loin d’être exhaustives et étaient destinées uniquement à fournir un
point de référence externe pour notre méthode. L’idéal serait bien sûr de comparer toutes les
techniques de segmentation actuelles. Comme nous l’avons remarqué auparavant, nous sommes
confiant que ce travail se réalisera graduellement (et collectivement !) dans les années à venir,
et que la standardisation d’une méthodologie d’évaluation quantitative donnera un nouvel élan à
l’étude de la segmentation.
Plus spécifiquement, en relation aux méthodes morphologiques, soulignons que nous n’avons
testé qu’un seul algorithme de LPE, parmi les dizaines proposés dans les dernières années
[RM00]. Par exemple, une approche récente, nommée LPE topologique [Ber05], a la propriété
de conserver l’altitude des points col du relief [NCB05]. Cette caractéristique est importante du
point de vue théorique, car sur cette mesure reposent les hiérarchies d’inondation. L’influence de
ce facteur dans la performance globale mérite d’être étudié.
De même, nous n’avons évalué qu’un seul algorithme dans le cadre variationnel, une des
approches de segmentation les plus populaires des dernières années. La méthode hiérarchique
pour la minimisation de la fonctionnelle de Mumford et Shah de [KLM94, DK97] a été étendue,
par exemple dans [GLMC03], à une classe d’énergies plus large et il serait intéressant de les
comparer. Nous pensons en particulier qu’une énergie combinant l’information du gradient sur
les contours et celle de l’image originale sur les régions devrait avoir une bonne performance.
Enfin, la segmentation est considérée la clef de voûte de la Vision par Ordinateur, car elle
permet d’élever le niveau d’analyse, en passant du pixel à la région. Disposer d’un outil de
segmentation automatique qui soit fiable est une étape souhaitable, et souvent indispensable,
pour aborder d’autres problèmes fondamentaux de la discipline. Nous croyons que nos cartes de
contours ultramétriques seraient utiles pour des problèmes comme la reconnaissance des formes,
la stéréo ou l’indexation par le contenu. En outre, l’extension de nos techniques aux dimensions
224
supérieures ne devrait pas, en principe, poser plus de problèmes que le passage des images sca-
laires aux images vectorielles. Leur implantation sur un domaine de dimension trois ou quatre
pourrait être utile pour l’analyse de séquences et d’images médicales. Sur ce dernier point, remar-
quons que, bien que notre système soit initialement conçu pour segmenter des images naturelles,
l’information préalable spécifique à un type d’images ou à une application peut s’incorporer dans
la phase d’optimisation.
225
9.4 Liste des communications
Les travaux présentés dans ce mémoire ont donné lieu aux communications suivantes.
Articles dans des revues à comité de lecture
1. P. Arbeláez and L. Cohen. A Metric Approach to Vector-Valued Image Segmentation. Inter-
national Journal of Computer Vision. Special Issue on Geometrical, Variational and Level
Sets Methods in Computer Vision. Sous presse. A paraître en 2006.
2. P. Arbeláez et L. Cohen. Segmentation d’Images Couleur par Partitions de Voronoï. Revue
Traitement du Signal. Numéro spécial Image Couleur. Vol. 21. No. 5. pp. 407-421. 2004
3. P. Arbeláez and L. Cohen. Energy Partitions and Image Segmentation. Journal of Mathe-
matical Imaging and Vision. Vol. 20. No. 1-2. pp. 43-57. 2004
Articles dans des conférences à comité de lecture
1. P. Arbeláez. Boundary Extraction in Natural Images Using Ultrametric Contour Maps.
Proceedings 5th IEEE Workshop on Perceptual Organization in Computer Vision (POCV’06).
A paraître. Juin 2006. New York, USA.
2. P. Arbeláez et L. Cohen. Segmentation d’Images Vectorielles par Partitions de Voronoï
Généralisées. Actes 14ème Congrès Francophone de Reconnaissance des Formes et Intel-
ligence Artificielle (RFIA’04). pp. 1123-1132. Janvier 2004. Toulouse, France.
3. P. Arbeláez and L. Cohen. Generalized Voronoi Tessellations for Vector-Valued Image Seg-
mentation. Proceedings 2nd IEEE Workshop on Variational, Geometric and Level Set Me-
thods in Computer Vision (VLSM’03). pp. 49-56. Septembre 2003. Nice, France.
4. P. Arbeláez and L. Cohen. The Extrema Edges. Proceedings 4th International Conference
on Scale-Space Theories in Computer Vision (Scale-Space’03). pp. 180-195. July 2003.
226
Isle of Skye, U.K.
5. P. Arbeláez and L. Cohen. Path Variation and Image Segmentation. Proceedings 4th In-
ternational Workshop on Energy Minimization Methods in Computer Vision and Pattern
Recognition (EMMCVPR’03). pp. 246-260. June 2003. Lisbonne, Portugal.
6. P. Arbeláez et L. Cohen. Partitions d’Énergie et Segmentation d’Images. Actes des Jour-
nées Francophones des Jeunes Chercheurs en Vision par Ordinateur (ORASIS’03). pp.
375-384. Mai 2003. Gérardmer, France
Communications orales
1. P. Arbeláez. Évaluation d’Algorithmes d’Extraction de Contours. Groupe de Travail des
Thésards du CEREMADE. 29 mars 2005. Paris, France.
2. P. Arbeláez. Les Contours des Extrema. Séminaire CEREMADE. 20 juin 2003. Paris,
France.
3. P. Arbeláez. Distances et Segmentation Morphologique. Journée Morphologie Mathéma-
tique, GDR MSPC. GT Vision et Perception. 27 mai 2003. Paris, France.
4. P. Arbeláez. The Extrema Mosaic. International Workshop on Mathematics and Image
Analysis (MIA’02). 12 septembre 2002. Paris, France.
Bibliographie
[AAS85] N. Ahuja, B. An, and B. Schachter. Image representation using Voronoi tessella-
tion. CVGIP, 29(3) :286–295, March 1985.
[AGLM93] L. Alvarez, F. Guichard, P.L. Lions, and J.M. Morel. Axioms and fundamentals
equations of image processing. Archiv.Rat.Mech, 123 :199–257, 1993.
[AK00] F. Aurenhammer and R. Klein. Handbook of Computational Geometry, chapter 5 :
Voronoi Diagrams, pages 201–290. Elsevier Science Publishing, 2000.
[AP79] I.E. Abdou and W.K. Pratt. Qualitative design and evaluation of enhance-
ment/thresholding edge detector. PIEEE, 67(5) :753–763, May 1979.
[BC98] P. Blomgren and T.F. Chan. Color TV : Total variation methods for restoration of
vector-valued images. IEEE Trans. on Image Processing, 7(3) :304–309, March
1998.
[Ben84] J.P. Benzécri. L’Analyse des Données. Tome I : La Taxinomie. Dunod, Paris, 4
edition, 1984.
[Ber05] G. Bertrand. On topological watersheds. International Journal of Computer Vision,
22 :217–230, 2005.
[Beu90] S. Beucher. Segmentation d’images et morphologie mathématique. PhD thesis,
Ecole des Mines de Paris, 1990.
[BF90] M. Bardi and M. Falcone. An approximation scheme for the minimum time func-
tion. SIAM Journal of Control and Optimization, 28 :950–965, 1990.
[BG89] J.M. Beaulieu and M. Goldberg. Hierarchy in picture segmentation : a stepwise
optimization approach. IEEE Trans. on PAMI, 11(2) :150–163, February 1989.
227
228
[BKD01] K.W. Bowyer, C. Kranenburg, and S. Dougherty. Edge detector evaluation using
empirical roc curves. CVIU, 84(1) :77–103, October 2001.
[BM92] S. Beucher and F. Meyer. Mathematical Morphology in Image Processing, chapter
12 : The Morphological Approach to Segmentation : The Watershed Transforma-
tion, pages 433–481. Marcel Dekker, 1992.
[BM94] R. Brockett and P. Maragos. Evolution equations for continuous-scale morpholo-
gical filtering. IEEE Trans. on Signal Processing, 42 :3377–3386, 1994.
[BS94] R. van den Boomgaard and A. Smeulders. The morphological structure of images :
The differential equations of morphological scale-space. IEEE Trans. on PAMI,
16 :1101–1113, 1994.
[BS97] S. Borra and S. Sharkar. A framework for performance characterization of
intermediate-level grouping modules. IEEE Trans. on PAMI, 19(11) :1306–1312,
november 1997.
[BSD] The Berkeley Segmentation Dataset and Benchmark (BSDB).
www.cs.berkeley.edu/projects/vision/grouping/segbench/.
[BW80] M. Born and E. Wolf. Principles of Optics. Pergamon Press, 1980.
[Can86] J. Canny. A computational approach to edge detection. IEEE Trans. on PAMI,
8(6) :679–698, November 1986.
[CCM99] V. Caselles, B. Coll, and J.M. Morel. Topographic maps and local contrast changes
in natural images. International Journal of Computer Vision, 33(1) :5–27, Septem-
ber 1999.
[CK97] L.D. Cohen and R. Kimmel. Global minimum for active contour models : A mi-
nimal path approach. International Journal of Computer Vision, 24(1) :57–78,
August 1997.
[CL97] A. Chambolle and P.L. Lions. Image recovery via total variation minimization and
related problems. Numerische Mathematik, 76 :167–188, 1997.
[CLMC92] F. Catté, P.L. Lions, J.M. Morel, and T. Coll. Image selective smoothing and edge
detection by nonlinear diffusion. SIAM Journal of Numerical Analysis, 29(1) :182–
193, 1992.
229
[CM97] D. Comaniciu and P. Meer. Robust analysis of feature spaces : Color image segmen-
tation. In IEEE Conference on Computer Vision and Pattern Recognition, pages
750–755, 1997.
[CM99] D. Comaniciu and P. Meer. Mean shift analysis and applications. In IEEE Interna-
tional Conference on Computer Vision, pages 1197–1203, 1999.
[CNB05] M. Couprie, L. Najman, and G. Bertrand. Quasi-linear algorithms for topologi-
cal watershed. Journal of Mathematical Imaging and Vision, 22 :213–249, 2005.
Special Issue on Mathematical Morphology.
[Coh91] L.D. Cohen. On active contour models and balloons. CVGIP : Image Understan-
ding, 53(2) :211–218, March 1991.
[Coh01] L.D. Cohen. Multiple contour finding and perceptual grouping using minimal
paths. Journal of Mathematical Imaging and Vision, 14(3) :225–236, 2001.
[Coh03] L.D. Cohen. Chemins minimaux et modèles déformables en analyse d’images.
Traitement du Signal, 20(3) :225–241, December 2003. Numéro spécial : Le trai-
tement du signal à l’aube du XXIème siècle.
[Coh05] L.D. Cohen. In Mathematical Models in Computer Vision : The Handbook, chapter
Minimal Paths and Fast Marching Methods for Image Analysis. Springer, 2005.
[Cou] M. Couprie. Library of operators in image processing PINK.
http ://www.esiee.fr/ coupriem.
[CP95] J.P. Cocquerez and S. Philipp. Analyse d’Images : filtrage et segmentation. Masson,
1995.
[CSS+97] J. Crespo, R.W. Schafer, J. Serra, C. Gratin, and F. Meyer. The flat zone approach :
A general low-level region merging segmentation method. IEEE Trans. on Signal
Processing, 62 :37–60, 1997.
[CVSG89] L.D. Cohen, L. Vinet, P. Sander, and A. Gagalowicz. Hierarchical region based
stereo matching. In Proc. IEEE Conference on Computer Vision and Pattern Re-
cognition (CVPR’89), 1989.
[DC01] T. Deschamps and L.D. Cohen. Fast extraction of minimal paths in 3D images and
applications to virtual endoscopy. Medical Image Analysis, 5(4) :281–299, 2001.
230
[Des44] R. Descartes. Principia Philosophiae. Ludovicus Elzevirius, Amsterdam, 1644.
[Des01] T. Deschamps. Extraction de Courbes et Surfaces par Methodes de Chemins Mi-
nimaux et Ensembles de Niveaux. Applications en Imagerie Medicale 3D. PhD
thesis, CEREMADE, Université Paris Dauphine, 2001.
[DFG] Q. Du, V. Faber, and M. Gunzburger. Centroidal voronoi tessellations : Applica-
tions and algorithms. SIAM Journal on Numerical Analysis.
[Dij59] E.W. Dijkstra. A note on two problems in connection with graphs. Numerische
Mathemetic, 1 :269–271, 1959.
[Dir50] P.G.L. Dirichlet. Uber die Reduction der positiven quadratischen Formen mit drei
unbestimmten ganzen Zalhen. J. Reine Angew. Mathematik, 40 :209–227, 1850.
[DK97] F. Dibos and G. Koepfler. Segmentation d’images couleur par méthode variation-
nelle. In Actes du 16eme Colloque GRETSI, pages 367–370, 1997.
[DK00] F. Dibos and G. Koepfler. Global total variation minimization. SIAM Journal of
Numerical Analysis, 37(2) :646–664, 2000.
[DL03] P.E. Danielsson and Q. Lin. A modified fast marching method. In Scandinavian
Conference on Image Analysis, pages 1154–1161, 2003.
[DLPT82] E. Diday, J. Lemaire, J. Pouget, and F. Testu. Elements d’Analyse des Données.
Dunod, 1982.
[EG92] L.C. Evans and R.F. Gariepy. Measure Theroy and Fine Properties of Functions.
Studies in advanced mathematics. CRC Press Inc., 1992.
[EJ05] F.J. Estrada and A.D. Jepson. Quantitative evaluation of a novel image segmenta-
tion algorithm. In IEEE Conference on Computer Vision and Pattern Recognition,
pages II : 1132–1139, 2005.
[EZ96] J. Elder and S. Zucker. Computing contour closures. In Proc. ECCV, page
399U412, 1996.
[FGL94] M. Falcone, T. Goirgi, and P. Loretti. Level sets of viscosity solutions : Some appli-
cations to fronts and rendez-vous problems. SIAM Journal of Applied MAthematics,
54 :1335–1354, 1994.
231
[FH98] P.F. Felzenszwalb and D.P. Huttenlocher. Image segmentation using local variation.
In IEEE Conference on Computer Vision and Pattern Recognition, pages 98–104,
1998.
[FM] J. Froment and L. Moisan. Image processing software megawave.
http ://www.cmla.ens-cachan.fr/Cmla/Megawave/.
[FP03] D.A. Forsyth and J. Ponce. Computer Vision : A Modern Approach. Prentice Hall,
2003.
[GLMC03] L. Guigues, H. Le Men, and J. Cocquerez. Scale-sets image analysis. In ICIP03,
pages II : 45–48, 2003.
[Gor97] I. Gordon. Theories of Visual Perception. Johen Wiley and Son, 1997.
[Gri92] M. Grimaud. New measure of contrast : Dynamics. In Image Algebra and Mor-
phological Processing III, SPIE, San Diego, USA, 1992.
[Gro99] M. Gromov. Metric Structures for Riemannian and Non-Riemannian Spaces. Bir-
khauser, Boston, 1999.
[GSG98] L. Garrido, P. Salembier, and D. Garcia. Extensive operators in partition lattices
for image sequence analysis. IEEE Trans. on Signal Processing, 66(2) :157–180,
April 1998. Special Issue on Video Sequence Segmentation.
[HP74] S.L. Horowitz and T. Pavlidis. Picture segmentation by a directed split-and-merge
procedure. In Proceedings of the Second International Joint Conference on Pattern
Recognition, pages 424–433, 1974.
[HP76] S.L. Horowitz and T. Pavlidis. Picture segmentation by a tree traversal algorithm.
Journal of the ACM, 23 :368–388, 1976.
[HS69] E. Hewitt and K. Stromberg. Real and Abstract Analysis. Springer Verlag, 1969.
[HWKR82] R.L. Hartley, C.Y. Wang, L. Kitchen, and A. Rosenfeld. Segmentation of FLIR
images : A comparative study. IEEE Trans. on Systems, Man and Cybernetics,
12(4) :553–566, July 1982.
[Jor81] C. Jordan. Sur la série de fourier. Comptes Rendus de l’Académie des Sciences.
Série Mathématique., 92(5) :228–230, 1881.
232
[KB95] R. Kimmel and A.M. Bruckstein. Global shape from shading. Computer Vision
and Image Understanding, 62(3) :360–369, 1995.
[Kel75] J.L. Kelley. General Topology. Springer, 1975.
[KKB96] R. Kimmel, N. Kiryati, and A.M. Bruckstein. Distance maps and weighted distance
transforms. Journal of Mathematical Imaging and Vision, 6 :223–233, May 1996.
Special Issue on Topology and Geometry in Computer Vision.
[KLM94] G. Koepfler, C. Lopez, and J.M. Morel. A multiscale algorithm for image segmenta-
tion by variational method. SIAM Journal on Numerical Analysis, 31(1) :282–299,
1994.
[KR99] R. Kruse and A. Ryba. Data structures and program design in C++. Prentice Hall,
New York, 1999.
[Kro50] A.S. Kronrod. On functions of two variables. Uspehi Mathematical Sciences,
5(35), 1950. In Russian.
[Kur66] K. Kuratowski. Topology, volume I. Academic Press, 1966.
[KWT87] M. Kass, A. Witkin, and D. Terzopoulos. Snakes : Active contour models. In IEEE
International Conference on Computer Vision, pages 259–268, June 1987.
[KYCZ99] S. Konishi, A.L. Yuille, J.M. Coughlan, and S.C. Zhu. Fundamental bounds on edge
detection : An information theoretic evaluation of different edge cues. In CVPR99,
pages I : 573–579, 1999.
[Lan78] C. Lantuejoul. La Squelettisation et son Application aux Mesures Topologiques des
Mosaïques Polycristallines. PhD thesis, Ecole des Mines de Paris, 1978.
[Leb28] H. Lebesgue. Leçons sur l’Intégration et la Recherche des Fonctions Primitives.
Gauthier Villars, 1928.
[Llo82] S. Lloyd. Least square quantization in PCM. IEEE Trans. in Information Thory,
28 :129–137, 1982.
[LY00] E.M. Landis and I.M. Yaglom. Remembering A.S. kronrod. Technical Report
SCCM-00-01, Stanford University, 2000.
[Mar82] D. Marr. Vision. Freeman, San Francisco, 1982.
233
[Mar02] D. Martin. An empirical approach to grouping and segmentation. PhD thesis,
University of California, Berkeley, 2002.
[MB98] P. Maragos and M.A. Butt. Advances in differential morphology : Image segmen-
tation via eikonal PDE and curve evolution and reconstruction via constrained di-
lation flow. In Mathematical Morphology and its Applications to Image and Signal
Processing, volume 12, pages 167–174. Kluwer Academic, 1998.
[MB00] P. Maragos and M.A. Butt. Curve evolution, differential morphology and distance
transforms applied to multiscale and eikonal problems. Fundamenta Informaticae,
41 :91–129, 2000.
[Mey94] F. Meyer. Topographic distances and watershed lines. IEEE Trans. on Signal Pro-
cessing, 38 :113–125, 1994.
[Mey97] F. Meyer. Morphological segmentation on a neighborhood graph. Acta Stereolo-
gica, 16(3) :175–182, 1997.
[Mey00] F. Meyer. Flooding and segmentation. In Proc. ISMM’00, pages 189–198, 2000.
[Mey01a] F. Meyer. Hierarchies of partitions and morphological segmentation. In Michael
Kerckhove, editor, Scale Space and Morphology in Computer Vision, pages 161–
182, 2001.
[Mey01b] F. Meyer. An overview of morphological segmentation. International Journal of
Pattern Recognition and Artificial Intelligence, 15(7) :1089–1118, 2001.
[MFM04] D. Martin, C. Fowlkes, and J. Malik. Learning to detect natural image boundaries
using local brightness, color and texture cues. IEEE Trans. on PAMI, 26(5) :530–
549, 2004.
[MFTM01] D. Martin, C. Fowlkes, D. Tal, and J. Malik. A database of human segmented natu-
ral images and its application to evaluating segmentation algorithms and measuring
ecological statistics. In Proc. ICCV’01, volume II, pages 416–423, Vancouver, Ca-
nada, 2001.
[MH80] D. Marr and E. Hildreth. Theory of edge detection. In Proc. of Royal Sociery of
London, volume B-207, pages 187–217, 1980.
234
[MM99] F. Meyer and P. Maragos. Multiscale morphological segmentations based on wa-
tershed, flooding, and eikonal PDE. In Scale-Space Theories in Computer Vision,
Lecture Notes in Computer Science, pages 351–362. Springer-Verlag, 1999.
[MM00] F. Meyer and P. Maragos. Nonlinear scale-space representation with morphological
levelings. Journal of Visual Communication and Image Representation, (11) :245–
265, 2000.
[MMR91] A. Montanvert, P. Meer, and A. Rosenfeld. Hierarchical image analysis using irre-
gular tessellations. IEEE Trans. on PAMI, 13(4) :307–316, April 1991.
[Mon00] P. Monasse. Représentation morphologique d’images numériques et application
au recalage. PhD thesis, Université Paris Dauphine, 2000.
[MOSV97] F. Meyer, A. Oliveras, P. Salembier, and C. Vachier. Morphological tools for seg-
mentation : Connected filters and watersheds. Annals of Telecommunications, 52(7-
8) :367–379, 1997.
[MR96] N. Mayya and V.T. Rajan. Voronoi diagrams of polygons : A framework for shape
representation. Journal of Mathematical Imaging and Vision, 6(4) :355–378, De-
cember 1996.
[MS89] D. Mumford and J. Shah. Optimal approximations by piecewise smooth functions
and variational problems. Communications on Pure and Applied Mathematics,
42(5) :577–684, 1989.
[MS95] J.M. Morel and S. Solimini. Variational Methods in Image Segmentation. Birkhau-
ser, 1995.
[MSV95] R. Malladi, J.A. Sethian, and B.C. Vemuri. Shape modeling with front propagation :
A level set approach. IEEE Trans. on PAMI, 17(2) :158–175, February 1995.
[Nac95] P.F.M. Nacken. Image segmentation by connectivity preserving relinking in hierar-
chical graph structures. Pattern Recognition, 28(6) :907–920, June 1995.
[Naj94] L. Najman. Morphologie Mathématique : de la Segmentation d’Images à l’Analyse
Multivoque. PhD thesis, Université Paris Dauphine, 1994.
[Nat64] I.P. Natansson. Theory of Functions of a Real Variable. Frederick Ungar Publi-
shing, New York, 1964.
235
[NCB05] L. Najman, M. Couprie, and G. Bertrand. Mosaics and watersheds. In Mathemati-
cal Morphology : 40 years on, Proc. ISMM’05, pages 187–196, 2005.
[NS94] L. Najman and M. Schmitt. Watershed of a continuous function. IEEE Trans. on
Signal Processing, 38(1) :99–112, July 1994.
[NS96] L. Najman and M. Schmitt. Geodesic saliency of watershed contours and hierar-
chical segmentation. IEEE Trans. on PAMI, 18(12) :1163–1173, 1996.
[NWvdB03] H.T. Nguyen, M. Worring, and R. van den Boomgaard. Watersnakes : Energy-
driven watershed segmentation. IEEE Trans. on PAMI, 25(3) :330–342, March
2003.
[OBSC02] A. Okabe, B. Boots, K. Sugihara, and S.N. Chiu. Spatial Tessellations : Concepts
and Applications of Voronoi Diagrams. Wiley, 2 edition, 2002.
[OPR78] R. Ohlander, K. Price, and R. Reddy. Picture segmentation by a recursive region
splitting method. Computer Graphics Image Processing, 8 :313–333, 1978.
[OR90] S. Osher and L.I. Rudin. Feature-oriented image enhancement using shock filters.
SIAM Journal of Numerical Analysis, 27(4) :919–940, 1990.
[OS88] S.J. Osher and J.A. Sethian. Fronts propagation with curvature dependent speed :
Algorithms based on Hamilton-Jacobi formulations. Journal of Computational
Physics, 79 :12–49, 1988.
[Pal99] S. Palmer. Vision Science : Photons to Phenomenology. MIT Press, 1999.
[PM90a] P. Perona and J. Malik. Detecting and localizing edges composed of steps, peaks
and roofs. In ICCV90, pages 52–57, 1990.
[PM90b] P. Perona and J. Malik. Scale-space and edge detection using anisotrppic diffusion.
IEEE Trans. on PAMI, 12(7) :629–639, 1990.
[PWKB02] G.J.M. Parker, C.A.M. Wheeler-Kingshot, and G.J. Barker. Estimating distributed
anatomical connectivity using fast marching methods and diffusion tensor imaging.
IEEE Trans. on Medical Imaging, 21(5) :505–512, oct 2002.
[PZ89] P. Parent and S. Zucker. Trace inference curvature consistency and curve detection.
IEEE Trans. on PAMI, 11(8) :823–839, Aug. 1989.
236
[RM00] J. Roerdink and A. Meijster. The watershed transform : Definitions, algorithms and
parallelization strategies. Fundamenta Informaticae, (41) :187–228, 2000.
[RM03] X. Ren and J. Malik. Learning a classification model for segmentation. In Proc.
ICCV’03, pages 10–17, 2003.
[RO94] L.I. Rudin and S. Osher. Total variation based image restoration with free local
constraints. In Proc. ICIP’94, pages 31–35, 1994.
[ROF92] L.I. Rudin, S. Osher, and E. Fatemi. Nonlinear total variation based noise removal
algorithms. Physica D, 60 :259–268, 1992.
[RP80] S. Ranade and J.M.S. Prewitt. A comparison of some segmentation algorithms for
cytology. In Proc. Int. Conf. on Pattern Recognition, pages 561–564, 1980.
[Sea49] F.W. Sears. Optics. Addison-Wesley, 1949.
[Ser04] J. Serra. A lattice approach to segmentation. Rapport Technique CMM - Ecole des
Mines de Paris, N-02/04/MM, 2004.
[Set96] J.A. Sethian. A fast marching level set method for monotonically advancing fronts.
Proc. Nat. Acad. Sci., 93(4) :1591–1595, 1996.
[Set99] J.A. Sethian. Level Set Methods and Fast Marching Methods. Cambridge Univer-
sity Press, Cambridge, UK, 2 edition, 1999.
[SG00] P. Salembier and L. Garrido. Binary partition tree as an efficient representation for
image processing, segmentation, and information retrieval. IEEE Trans. on Image
Processing, 9(4) :561–576, 2000.
[SM94] M. Schmitt and J. Mattioli. Morphologie Mathématique. Masson, 1994.
[SM00] J. Shi and J. Malik. Normalized cuts and image segmentation. IEEE Trans. on
PAMI, 22(8) :888–905, August 2000.
[SOG98] P. Salembier, A. Oliveras, and L. Garrido. Anti-extensive connected operators for
image and sequence analysis. IEEE Trans. on Image Processing, 7(4) :555–570,
1998.
237
[SS93] J. Serra and P. Salembier. Connected operators and pyramids. In SPIE, editor,
Image Algebra and Mathematical Morphology, volume 2030, pages 65–76, San
Diego, CA, July 1993.
[SS95] P. Salembier and J. Serra. Flat zones filtering, connected operators, and filters by
reconstruction. IEEE Trans. on Image Processing, 4(8) :1153–1160, 1995.
[ST91] B.E.A. Saleh and M.C. Teich. Fundamentals of Photonics. Wiley, 1991.
[Suc77] S.W. Sucker. Digital Image Processing and Analysis, chapter Algorithms for Image
Segmentation. 1977.
[Ter87] D. Terzopoulos. On matching deformable models to images : Direct and itera-
tive solutions. In Topical Meeting on Machine Vision, Technical Digest Series,
volume 12, pages 160–167. Optical Society of America, 1987.
[TJ90] M. Tuceryan and A.K. Jain. Texture segmentation using Voronoi polygons. IEEE
Trans. on PAMI, 12(2) :211–216, February 1990.
[Vac95] C. Vachier. Extraction de Caractéristiques, Segmentation d’Image et Morphologie
Mathématique. PhD thesis, Ecole des Mines de Paris, 1995.
[Vac01] C. Vachier. Morphological scale-space analysis and feature extraction. In Proc.
ICIP’01, Greece, 2001.
[VC93] T. Vlachos and A.G. Constantinides. Graph-theoretical approach to colour picture
segmentation and contour classification. In IEEE Proc. Vision, Image and Sig.
Proc., volume 140, pages 36–45, February 1993.
[VM95] C. Vachier and F. Meyer. Extinction value : a new measurement of persistence.
In IEEE Workshop on Nonlinear Signal and Image Processing, volume 1, pages
254–257, June 1995.
[Vor07] G.M. Voronoi. Nouvelles applications des paramètres continus à la théorie des
formes quadratiques. premier mémoire : Sur quelques propriétés des formes qua-
dratiques positives parfaites. Journal fur die Reine und Angewandte Mathematik,
133 :97–178, 1907.
238
[Vor08] G.M. Voronoi. Nouvelles applications des paramètres continus à la théorie des
formes quadratiques. deuxième mémoire : Recherches sur les paralléloèdres primi-
tifs. Journal fur die Reine und Angewandte Mathematik, 134 :198–287, 1908.
[Vor09] G.M. Voronoi. Nouvelles applications des paramètres continus à la théorie des
formes quadratiques. deuxième mémoire : Recherches sur les paralléloèdres pri-
mitifs. séconde partie : Domaines des formes cuadratiques correspondant aux dif-
férents types de paralléloèdres primitifs. Journal fur die Reine und Angewandte
Mathematik, 136 :67–181, 1909.
[VPS03] I. Vanhamel, I. Pratikakis, and H. Sahli. Multiscale gradient watersheds of color
images. IEEE Trans. on Image Processing, 12(6) :617–626, 2003.
[vR79] V. van Rijsbergen. Information Retrieval. Dept. of Comp. Science, Univ. of Glas-
gow, 1979.
[VS90] L. Vincent and P. Soille. Watersheds in digital spaces : an efficient algorithm based
on immersion simulations. IEEE Trans. on PAMI, 13(6) :583–598, 1990.
[VV90] P. Verbeek and B. Verwer. Shading from shape, the eikonal equation solved by
gray-weighted distance transform. Pattern Recognition Letters, 11 :618–690, 1990.
[VV95] C. Vachier and L. Vincent. Valuation of image extrema using alternating filters by
reconstruction. In Image Algebra and Morphological Processing, SPIE, 1995.
[Wei98] J. Weickert. Anisotropic Diffusion in Image Processing. Teubner, 1998.
[Wei01] J. Weickert. Efficient image segmentation using partial differential equations and
morphology. Pattern Recognition, 34(9) :1813–1824, 2001.
[WHBP00] S. Will, L. Hermes, J.M. Buhmann, and J. Puzicha. On learning texture edge de-
tectors. In ICIP00, pages Vol III : 877–880, 2000.
[Wie24] N. Wiener. The quadratic variation of a function and its fourier coeficients. Journal
of Mathematics and Physics, 3 :72–94, 1924.
[WJ95] L. Williams and D. Jacobs. Stochastic completion fields : a neural model for illu-
sory contour shape and salience. In Proc. ICCV, 1995.
239
[WS82] G. Wyszecki and W.S. Stiles. Color Science : Concepts and Methods, Quantitative
Data and Formulas. J. Wiley and Sons, 1982.
[WtHRV98] J. Weickert, B.M. ter Haar Romeny, and M.A. Viergever. Efficient and reliable
schemes for nonlinear diffusion filtering. IEEE Trans. on Image Processing,
7(3) :398–410, March 1998.
[YFS02] W. Yu, J. Fritts, and F. Sun. A hierarchical image segmentation algorithm. In Proc.
ICME’02, pages 221–224, August 2002.
[Zan01] M.F. Zanoguera. Segmentation interactive d’images fixes et de séquences vidéo
basée sur des hiérarchies de partitions. PhD thesis, CMM, Ecole des Mines de
Paris, 2001.
[Zha96] Y.J. Zhang. A survey on evaluation methods for image segmentation. 29(8) :1335–
1346, August 1996.
Vu : le Président
Vu : les suffragants
Vu et permis d’imprimer : le Vice-président du Conseil Scientifique Chargé de la Re-cherche de l’Université Paris Dauphine
RésuméLa segmentation de bas niveau est la tâche qui vise à extraire les caractéristiques
géométriques d’une image en créant une partition de son domaine de définition, sansconnaître préalablement son contenu sémantique. L’approche proposée dans cette thèserepose sur la formulation du problème dans le cadre métrique, où les partitions del’espace sont déterminées par la définition d’une distance.
Deux types de distances sont étudiés afin d’appliquer le formalisme métrique à lasegmentation d’images naturelles. Le premier est obtenu en mesurant une énergie lelong des chemins. Nous construisons notamment une distance définie par le minimumde la variation totale de l’image sur les chemins. Nous considérons ensuite une repré-sentation hiérarchique des contours des images fondée sur un deuxième type de dis-tances, les ultramétriques. Enfin, au moyen de segmentations humaines, nous évaluonsquantitativement notre approche et la comparons à d’autres méthodes de segmentation.
Mots Clés : Segmentation d’images, distances, extraction de contours, métriquesde chemin, ultramétriques.
AbstractLow-level segmentation consists in extracting the geometric characteristics of an
image by creating a partition of its domain of definition, without prior knowledge ofits semantic contents. The approach proposed in this thesis relies on the formulation ofthe problem in the metric framework, where the partitions of the space are determinedby the definition of a distance.
Two types of distances are studied in order to apply the metric formalism to thesegmentation of natural images. The first type is obtained by measuring an energyalong the paths. We notably construct a distance defined by the minimum total variationof the image on the paths. We next consider a hierarchical representation of the imagecontours based on a second type of distances, the ultrametrics. Finally, by using humansegmentations, we evaluate our approach quantitatively and we compare it to othersegmentation methods.
Keywords : Image segmentation, distances, contour extraction, path metrics, ul-trametrics.