arbelaez these

255
UNIVERSITÉ PARIS DAUPHINE U.F.R. MATHÉMATIQUES DE LA DÉCISION Nouveau doctorat en sciences (arrêté du 25 avril 2002) No. attribué par la bibliothèque | | | | | | | | | | Pablo Andrés ARBELÁEZ ESCALANTE Une approche métrique pour la segmentation d’images Thèse pour l’obtention du titre de D OCTEUR EN S CIENCES Spécialité : MATHÉMATIQUES A PPLIQUÉES Le 24 novembre 2005 JURY Directeur : M. Laurent COHEN Directeur de Recherche CNRS Président : M. Jean-Michel MOREL Professeur ENS Cachan Rapporteurs : M. Henri MAITRE Professeur ENST M. Jean SERRA Directeur de Recherche ENSMP Examinateurs : Mme. Françoise DIBOS Professeur Paris-Nord M. Laurent NAJMAN Professeur Associé ESIEE

Upload: gata-hipogata

Post on 23-Jun-2015

462 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Arbelaez these

UNIVERSITÉ PARIS DAUPHINEU.F.R. MATHÉMATIQUES DE LA DÉCISION

Nouveau doctorat en sciences(arrêté du 25 avril 2002)

No. attribué par la bibliothèque| | | | | | | | | |

Pablo Andrés ARBELÁEZ ESCALANTE

Une approche métriquepour la

segmentation d’images

Thèse pour l’obtention du titre de

DOCTEUR EN SCIENCES

Spécialité :MATHÉMATIQUES APPLIQUÉES

Le 24 novembre 2005

JURY

Directeur : M. Laurent COHEN Directeur de Recherche CNRS

Président : M. Jean-Michel MOREL Professeur ENS Cachan

Rapporteurs : M. Henri MAITRE Professeur ENST

M. Jean SERRA Directeur de Recherche ENSMP

Examinateurs : Mme. Françoise DIBOS Professeur Paris-Nord

M. Laurent NAJMAN Professeur Associé ESIEE

Page 2: Arbelaez these
Page 3: Arbelaez these

Para Roxana e Irene

Page 4: Arbelaez these
Page 5: Arbelaez these

L’université n’entend donner aucune approbation ni improbation aux opinions émisesdans les thèses : ces opinions doivent être considérées comme propres à leurs auteurs.

Page 6: Arbelaez these
Page 7: Arbelaez these

Remerciements

L’étude exposée dans ce mémoire a été réalisée dans le cadre de ma thèse docto-rale au sein du Centre de Recherche en Mathématiques de la Décision (CEREMADE),à l’Université Paris-Dauphine. Elle n’aurait jamais pu aboutir sans le concours d’ungrand nombre de personnes auxquelles je voudrais exprimer ma profonde reconnais-sance.

Je tiens à remercier en premier lieu LAURENT COHEN, mon directeur de thèse, pourson encadrement, ses conseils et pour la confiance dont il m’a fait preuve en me laissantune liberté totale dans le choix du sujet et l’orientation de ma recherche.

Je voudrais exprimer ma sincère gratitude aux membres de mon Jury de thèse.JEAN-MICHEL MOREL, pour l’honneur qu’il me fait de le présider ; ses qualités hu-maines et scientifiques sont pour moi une source constante d’inspiration. JEAN SERRA

et HENRI MAÎTRE, pour l’intérêt qu’ils ont manifesté à mon travail en acceptant d’enêtre rapporteurs ; leur regard et leurs commentaires m’ont permis de l’améliorer gran-dement. FRANÇOISE DIBOS, dont le cours de DEA m’a initié au monde des images,pour avoir accepté de faire partie du Jury. LAURENT NAJMAN, pour avoir bien vouluexaminer cette étude, dont ses recherches sur la LPE ont constitué un point de départ.

Je remercie également les membres du CEREMADE, les thésards du groupe Imageset, plus particulièrement, OLIVIA SANCHEZ, CLAIRE JONCHERY, FLORENT RAN-CHIN et SYLVAIN PELLETIER ; sans eux, je me serais senti étranger au labo. Merciaussi à MICHEL VANBREUGEL pour sa patience, sa disponibilité et son aide avec lesmanips et à JOSETTE LÉVY pour son assistance lors des missions.

D’autre part, je voudrais remercier toutes les personnes avec qui j’ai eu la chanced’avoir d’enrichissants échanges scientifiques. En particulier, CORINNE VACHIER,pour l’introduction à la segmentation morphologique qu’elle m’a faite en début dethèse et qui a grandement influencé la suite des travaux. PASCAL MONASSE pour lesdiscussions sur la FLST et pour avoir eu la générosité de me prêter sa copie de l’articlede Kronrod, ainsi que sa précieuse traduction à l’anglais. MICHEL COUPRIE pour lamise à disposition du logiciel PINK.

Page 8: Arbelaez these

Je remercie affectueusement mes parents, ma famille et mes amis pour leur sou-tien permanent et inconditionnel. Parmi eux, une pensée spéciale pour EMMANUELLE

PORCHER, qui a accepté le fardeau de corriger la version préliminaire de ce manuscrit.Je ne saurais lui exprimer ma reconnaissance pour sa solidarité et son amitié en cesquelques lignes.

Quiero agradecer finalmente a CAMILO, HEDDA, MARIA JOSÉ y MARIA PATRI-CIA, los hermanos que la vida me ha dado y que me acompañan siempre y a ROXANA

e IRENE, quienes dan sentido a mi existencia.

Page 9: Arbelaez these

Table des matières

Introduction 1

I Cadre de travail 11

1 Distances et partitions 13

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2 Espaces pseudo-métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2.2 Espace quotient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.2.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.2.4 Chemins et convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.3 Partitions métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.3.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.3.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.3.3 Cadre variationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.3.4 Partitions de Voronoï centrées . . . . . . . . . . . . . . . . . . . . . . . 30

2 Images et segmentations 33

2.1 Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2 Composantes connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.3 Segmentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3.2 Représentation des contours . . . . . . . . . . . . . . . . . . . . . . . . 37

i

Page 10: Arbelaez these

ii

2.3.3 Images mosaïques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.4 Graphes et arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.4.2 Graphes d’adjacence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.4.3 Arbres d’inclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.4.4 Distances sur un graphe . . . . . . . . . . . . . . . . . . . . . . . . . . 44

II Métriques de chemin 47

3 Distances pondérées 49

3.1 Définition des métriques de chemin . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2 Optique géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.3 Propagation des fronts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.4 Implantation par Fast Marching . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.5 Segmentation par distances pondérées . . . . . . . . . . . . . . . . . . . . . . . 60

3.5.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.5.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.5.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4 Variation de chemin 69

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.2.1 Variation totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.2.2 Variation de chemin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.3.1 Variation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.3.2 Cadre régulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.4 Domaine discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.4.1 Construction par connexité . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.4.2 Construction par inclusion . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.5 Segmentation par variation de chemin . . . . . . . . . . . . . . . . . . . . . . . 82

4.5.1 Partitions par seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

Page 11: Arbelaez these

iii

4.5.2 Partitions de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.6 Mosaïque des extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.6.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.6.2 Comparaison avec la ligne de partage des eaux . . . . . . . . . . . . . . 92

4.6.3 Choix des sites par diffusion non linéaire . . . . . . . . . . . . . . . . . 99

III Ultramétriques 103

5 Classification hiérarchique 105

5.1 Ordres et arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.2 Hiérarchie de parties d’un ensemble . . . . . . . . . . . . . . . . . . . . . . . . 107

5.3 Ultramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.4 Ultramétriques et hiérarchies indicées . . . . . . . . . . . . . . . . . . . . . . . 110

5.5 Coupes et partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.6 Ultramétrique sous-dominante . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

5.7 Classification ascendante hiérarchique . . . . . . . . . . . . . . . . . . . . . . . 118

5.7.1 Construction de la hiérarchie . . . . . . . . . . . . . . . . . . . . . . . . 118

5.7.2 Définition de l’ultramétrique . . . . . . . . . . . . . . . . . . . . . . . . 120

6 Cartes de contours ultramétriques 123

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

6.2 Segmentation hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

6.3 Définition des contours ultramétriques . . . . . . . . . . . . . . . . . . . . . . . 128

6.4 Construction ascendante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

6.4.1 Fusion de régions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

6.4.2 Dissemblances ultramétriques . . . . . . . . . . . . . . . . . . . . . . . 131

6.5 Mesures de contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

6.5.1 Sous-dominante de la variation de chemin . . . . . . . . . . . . . . . . . 134

6.5.2 Ultramétrique de contraste moyen . . . . . . . . . . . . . . . . . . . . . 139

6.6 Enrichissement du contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

6.7 Information interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6.8 Ultramétrique des marqueurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Page 12: Arbelaez these

iv

6.8.1 Propagation de marqueurs . . . . . . . . . . . . . . . . . . . . . . . . . 155

6.8.2 Ultramétrique des marqueurs . . . . . . . . . . . . . . . . . . . . . . . . 157

6.9 Positionnement de l’approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

6.9.1 Cadre morphologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

6.9.2 Cadre variationnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

IV Évaluation des résultats 167

7 Méthodologie d’évaluation 169

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

7.2 Vérité terrain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

7.3 Comparaison de segmentations . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

7.3.1 Signal et référence binaires . . . . . . . . . . . . . . . . . . . . . . . . . 175

7.3.2 Descripteurs de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

7.3.3 Multiples segmentations humaines . . . . . . . . . . . . . . . . . . . . . 180

7.3.4 Carte de contours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

7.4 Cohérence de la segmentation humaine . . . . . . . . . . . . . . . . . . . . . . 183

7.5 Correspondance de courbes et de pixels . . . . . . . . . . . . . . . . . . . . . . 188

8 Résultats 191

8.1 Optimisation du système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

8.1.1 Pré-segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

8.1.2 Enrichissement du contraste . . . . . . . . . . . . . . . . . . . . . . . . 196

8.1.3 Couleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

8.1.4 Information interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

8.1.5 Autres éléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

8.2 Comparaison avec d’autres méthodes . . . . . . . . . . . . . . . . . . . . . . . . 199

8.2.1 Détecteurs de contours locaux . . . . . . . . . . . . . . . . . . . . . . . 199

8.2.2 Approche morphologique . . . . . . . . . . . . . . . . . . . . . . . . . 201

8.2.3 Approche variationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 205

8.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

8.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

Page 13: Arbelaez these

v

9 Conclusions et perspectives 215

9.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

9.2 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

9.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221

9.4 Liste des communications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

Bibliographie 227

Page 14: Arbelaez these
Page 15: Arbelaez these

Introduction

Motivations

Perception visuelle

The Unicorn looked dreamily at Alice, and said : "Talk, child."

Alice could not help her lips curling up into a smile as she began : "Do you know, I always

thought Unicorns were fabulous monsters, too ? I never saw one alive before !"

"Well, now that we have seen each other," said the Unicorn, "if you’ll believe in me, I’ll

believe in you. Is that a bargain ?"

Lewis Carroll. Through the Looking-Glass.

Vision artificielle

La vision artificielle, ou vision par ordinateur, est la discipline qui cherche à reproduire les

processus visuels au moyen de machines. La vue nous permet de réaliser une large diversité

de tâches dès le plus jeune âge ; avant même l’acquisition du langage, un enfant de dix-huit

mois peut reconnaître sans difficulté les personnes de son entourage sur une photo, éviter un

obstacle sur son chemin ou identifier un objet étranger à son environnement familier. La vision

semblerait donc faire partie des processus cognitifs les plus élémentaires et son étude pourrait

représenter un raccourci pour comprendre les mécanismes de l’intelligence humaine. Si tel est

le cas, nous sommes encore loin de dévoiler tous les mystères du cerveau. En 1968, l’ordinateur

du film 2001 : L’Odyssée de l’Espace, de Stanley Kubrick, reconnaissait des humains à partir

d’esquisses. Une telle prouesse relève aujourd’hui encore du domaine de la science fiction.

1

Page 16: Arbelaez these

2

Images naturelles

De quel type d’information notre cerveau dispose-t-il pour voir ? La structure anatomique de

notre appareil visuel est d’une complexité considérable, mais les stades premiers de l’acquisition

des stimuli visuels sont schématiquement simples. Suite à une transformation optique réalisée

dans la partie antérieure du globule oculaire, le flot lumineux est projeté sur la rétine, où une

image rétinienne se forme. La membrane rétinienne est tapissée de millions de cellules, appelées

photorécepteurs, qui réagissent aux différentes longueurs d’onde de la lumière. Elles transmettent

le signal au nerf optique, qui l’achemine vers le cortex visuel.

L’image numérique est un modèle naturel des données d’entrée de notre système visuel. Une

image numérique représentant une scène du monde réel, ou image naturelle, est un tableau où

chaque case, ou pixel1, codifie une teinte de gris ou une couleur. Une image est donc consti-

tuée d’un grand volume de données locales et non structurées, dont l’analyse est le propos des

systèmes de vision artificielle.

Segmentation

Lorsqu’un être humain observe une image naturelle, il voit généralement des objets phy-

siques ou leurs parties. Il peut donc diviser l’image en régions, ou segments, les représentant.

Nous allons étudier dans ce mémoire comment une machine peut reproduire cette tâche de seg-

mentation.

La segmentation est un processus de synthèse, visant à extraire les caractéristiques géomé-

triques des images en faisant abstraction des nuances de couleur, des reflets, des transparences,

des ombres, des textures et autres éléments qui constituent l’incroyable richesse de l’information

visuelle.

Comment aborder un tel problème ? Sur l’image de la Figure 1.a, on voit un dalmatien sur

une pelouse. On peut donc représenter cette information sémantique par la segmentation de la

1pixel : de l’anglais pic-ture el-ement

Page 17: Arbelaez these

3

(a) (b)

FIG. 1 – Exemple de segmentation d’une image naturelle.

partie (b), où la forme du chien se détache du fond. Comment passer de l’un à l’autre ? Comment

extraire ces régions d’un tableau de plusieurs millions de pixels, chacun d’entre eux teint d’une

couleur, parmi des millions ? Est-ce uniquement parce qu’un être humain reconnaît le chien qu’il

est capable de tracer ses contours ?

Les travaux de psychologues qui ont étudié la vision humaine au XXe siècle, et notamment

l’école du Gestalt et Juletz, suggèrent que notre perception visuelle agit plutôt dans la direction

inverse (voir [Gor97, Pal99] pour une synthèse récente du sujet). Ces chercheurs ont postulé l’hy-

pothèse d’un traitement de bas niveau agissant lors des stades initiaux de l’acquisition des stimuli

visuels, indépendant de l’information sémantique, et dont le rôle principal serait de structurer le

flot de données brutes perçues par la rétine. L’extraction des caractéristiques géométriques de

l’image rétinienne permettrait dans un second temps la réalisation de tâches de haut niveau,

comme la reconnaissance et la catégorisation, où une signification sémantique est attribuée à

l’information visuelle.

La démarche méthodologique que nous suivons pour aborder le problème de la segmentation

[Mar82, MS95] s’inspire de ces idées. Nous chercherons donc à effectuer le traitement de bas

niveau en segmentant l’image uniquement à partir de ses données physiques, sans connaître

préalablement son contenu.

Page 18: Arbelaez these

4

FIG. 2 – Segmentation et information préalable.

Information sémantique

La segmentation de bas niveau est souvent considérée comme la clef de voûte de la vision

artificielle. Si on était en mesure de représenter automatiquement chaque objet de l’image par

une région, alors la compréhension de son contenu sémantique serait amplement facilitée. On

pourrait par exemple identifier le chien de la Figure 1 en utilisant des attributs de la région telles

la forme, la couleur, la taille, la texture, etc.

Remarquons néanmoins qu’une approche fondée uniquement sur les données de l’image ne

peut expliquer que partiellement le fonctionnement de la vision humaine. Les interactions entre

information physique et sémantique dans notre cerveau sont certainement beaucoup plus subtiles

et complexes que notre modèle d’étude ne le laisse entendre. Observons par exemple la Figure

2, photographie attribuée à Ronald C. James [Mar82]. Bien qu’on puisse décrire cette image

et la Figure 1 avec les mêmes mots, il est difficile de s’en apercevoir au premier coup d’oeil.

En revanche, une fois qu’on l’a identifié, on voit clairement le chien se détacher du fond et

l’organisation perceptuelle de la scène ne présente plus d’ambiguïtés. On pourrait même essayer

de tracer ses contours, mais quelle proportion de ces contours se trouve réellement dans l’image ?

Peut-on réaliser cette tâche si on n’a jamais vu un dalmatien ? Cet exemple est-il un cas limite ou

typique du fonctionnement de notre appareil visuel ?

Page 19: Arbelaez these

5

La question de fond qui se pose est de savoir s’il est possible de quantifier le rôle de l’in-

formation sémantique dans la segmentation d’images naturelles. Notre façon d’y répondre sera

de créer un système de segmentation de bas niveau et de comparer sa performance à celle des

Humains sur une large base d’images naturelles.

Segmentation hiérarchique

Pour segmenter une image naturelle, un Humain identifie des objets physiques et démarque

leurs contours jusqu’à un certain niveau de détail, donné par l’attention qu’il leur accorde. Si on

suppose que tous les sujets d’un groupe d’Humains perçoivent les mêmes objets dans une image,

alors la superposition des contours (ou l’intersection des segments) de leurs segmentations four-

nit le plus fin niveau de détail considéré (voir la Figure 7.2, p. 174), aux erreurs de localisation

près. Les détails peuvent alors se regrouper en objets et puis en ensembles d’objets, etc. L’or-

ganisation perceptuelle de l’image peut donc se représenter par un arbre de régions, ordonné

selon l’inclusion, comme celui de la Figure 3. La racine de l’arbre perceptuel est la scène entière,

les feuilles sont les plus fins détails et chaque région représente un objet à une certaine échelle

d’observation.

Si on demandait à chaque sujet de construire un arbre perceptuel, on obtiendrait sans doute,

comme pour les segmentations, des résultats différents. Notre hypothèse de travail sera qu’on

peut reconstruire à partir des segmentations humaines un arbre qui explique le contenu séman-

tique de l’image. Les différentes segmentations peuvent alors s’interpréter comme un élagage de

l’arbre par l’attention de chaque sujet.

Dans l’expérience de la Figure 3, les instructions données aux sujets spécifiaient que toutes

les régions devaient avoir la même importance [Mar02], les encourageant ainsi à segmenter à

échelle constante. Le résultat montre que la notion d’échelle est subjective et varie d’un sujet à

un autre. Il s’agit en outre d’une information de haut niveau, déterminée par le contenu séman-

tique. Si on devait par exemple diviser en deux régions un portrait, probablement tous les sujets

Page 20: Arbelaez these

6

Image originale Segmentations humaines Arbre perceptuel

Segmentation 1 Segmentation 1 Coupe 1

Segmentation 2 Segmentation 2 Coupe 2

Segmentation 3 Segmentation 3 Coupe 3

FIG. 3 – Organisation hiérarchique de la perception visuelle humaine. Haut : Image originale,segmentations humaines superposées et arbre perceptuel possible. Lignes 2 à 4 : Trois segmen-tations humaines et coupes correspondantes dans l’arbre.

Page 21: Arbelaez these

7

sépareraient la figure humaine du fond, se souciant peu des données physiques de l’image.

L’importance de l’information préalable dans l’organisation perceptuelle rend vaine la re-

construction d’un arbre perceptuel au moyen d’une approche de bas niveau comme la nôtre. La

structure hiérarchique de la perception humaine suggère néanmoins qu’une stratégie à plusieurs

niveaux d’observation, ou multi-échelles, est souhaitable pour l’étude de la segmentation.

Présentation de l’approche

Les observations des pages précédentes avaient pour objectif de sensibiliser le lecteur à l’in-

térêt de l’étude de la segmentation et à ses difficultés intrinsèques. La vision artificielle est une

discipline jeune dont les principaux problèmes restent encore à élucider. Dans le cas de la seg-

mentation, le niveau de performance des techniques actuelles est encore loin de celui atteint par

les Humains. Le présent mémoire expose les travaux réalisés au cours de notre thèse doctorale

pour étudier la segmentation d’images naturelles. L’approche proposée, délibérément naïve, est

construite à partir des notions qui nous semblent centrales au problème.

Cadre de travail

La segmentation peut se concevoir comme un processus de regroupement perceptuel. Une

façon naturelle de regrouper ou de séparer des données est de les comparer au moyen d’une

distance. Ceci nous a conduit à formuler le problème dans le cadre métrique et à étudier les

partitions de l’espace induites par une distance. Deux types de partitions métriques, illustrés dans

la Figure 1.1, sont initialement considérées. Les premières, appelées partitions par seuillage,

sont obtenues en séparant des autres points de l’espace ceux dont la distance à un ensemble

est inférieure à un certain seuil. Les secondes, nommées partitions de Voronoï, décomposent

l’espace par rapport à une famille de points, ou sites, en assignant chaque point au site le plus

proche.

Le Chapitre 1 du mémoire présente les fondements du formalisme métrique. Cette première

Page 22: Arbelaez these

8

partie est complétée par le Chapitre 2, qui traite des images ainsi que des structures pour les

représenter et les manipuler.

L’application de la théorie métrique nécessite la définition de distances appropriées pour

traiter un problème spécifique. Dans le cas de la segmentation, les distances se construisent à

partir des données de l’image. Les deuxième et troisième parties du mémoire présentent deux

voies pour atteindre ce but.

Métriques de chemin

La deuxième partie s’intéresse aux métriques de chemin, définies en mesurant le minimum de

la longueur des chemins entre points de l’espace. À chaque notion de longueur correspond une

distance différente. Nous présentons dans le Chapitre 3 l’exemple le plus classique, les distances

pondérées, ainsi que leurs applications principales à la segmentation. Dans le Chapitre 4, nous

proposons l’étude de la distance appelée variation de chemin, obtenue en considérant comme

longueur la variation totale de l’image sur le chemin.

Ultramétriques

La caractéristique principale de la perception visuelle humaine est son organisation hiérar-

chique. Cette constatation suggère d’approcher la segmentation comme un problème de classifi-

cation hiérarchique des données, voie que nous explorons dans la troisième partie du mémoire.

Le Chapitre 5 rappèle les éléments de base de cette théorie, issue historiquement du domaine de

la taxinomie numérique. Dans cette perspective, il semble plus approprié d’étudier la segmenta-

tion au moyen d’une famille de partitions emboîtées, plutôt qu’une partition unique. Ajoutée à la

notion d’échelle, cette idée conduit à la structure de hiérarchie indicée.

Dans le cadre métrique, les hiérarchies indicées correspondent à un type de distances appelées

ultramétriques. Ces distances induisent un nouveau type de partitions métriques, les partitions

ultramétriques, qui sont à la fois des partitions par seuillage et de Voronoï. Nous abordons dans

Page 23: Arbelaez these

9

le Chapitre 6 le problème de la construction d’ultramétriques significatives pour la segmentation.

Dans ce but, nous remarquons que l’information géométrique des objets est en grande partie

exprimée dans leurs contours. Ainsi, nous proposons des ultramétriques spécifiques pour l’ex-

traction des contours des images naturelles. Ces distances sont déterminées principalement par

l’information de frontière des régions, qui est ensuite complétée par leurs attributs internes.

Évaluation des résultats

La démarche méthodologique suivie consiste à utiliser uniquement l’information de bas ni-

veau, retardant le plus possible l’utilisation de la connaissance sémantique dans le processus de

segmentation. Ainsi, nous exprimons systématiquement les degrés de liberté de notre système

sous forme de paramètres et interprétons leur ajustement comme l’introduction d’information de

plus haut niveau sur la structure géométrique des objets. La dernière partie du mémoire s’inté-

resse à l’inclusion de ce type d’information dans notre système de segmentation. Nous présentons

dans le Chapitre 7 une méthodologie générale pour mesurer la qualité d’une segmentation par

rapport à une référence. Cette vérité terrain contient l’information préalable, qui est dans notre

cas composée de segmentations humaines d’images naturelles. Ce cadre nous permet finalement

dans le Chapitre 8 d’optimiser les paramètres du système, d’évaluer quantitativement la perti-

nence de notre approche, et de la comparer à d’autres méthodes de segmentation.

Page 24: Arbelaez these

10

Page 25: Arbelaez these

Première partie

Cadre de travail

11

Page 26: Arbelaez these

12

Page 27: Arbelaez these

Chapitre 1

Distances et partitions

1.1 Introduction

La notion de distance est intimement liée à notre façon d’appréhender le monde. Qu’il

s’agisse d’objets physiques ou de concepts, il nous semble naturel de comparer deux éléments

d’un ensemble en disant qu’ils sont "proches" ou "éloignés". La formalisation mathématique la

plus répandue de cette idée intuitive est celle d’espace métrique, où les éléments de l’ensemble

sont appelés points et la distance est mesurée avec des nombres réels positifs.

Les distances sont en particulier utilisées pour décomposer des ensembles. Dans cette op-

tique, deux stratégies semblent naturelles. La première consiste à considérer un point ou un

ensemble initial S et à diviser les points de l’espace selon que leur distance à S est inférieure

ou supérieure à un seuil. Nous appelons cette approche partition par seuillage de la distance.

La Figure 1.1.a présente un exemple où S est un point isolé. Dans ce cas, l’ensemble de niveau

inférieur de la distance est la boule centrée en S.

La deuxième stratégie consiste à se donner une famille de points ou de sous-ensembles, ap-

pelés sites, et à assigner chaque point de l’espace au site le plus proche. Cette construction est

connue sous le nom de partition de Voronoï et les régions qu’elle définit sont souvent nom-

mées régions de Voronoï. La Figure 1.1.b présente une partition de Voronoï classique. Dans cet

exemple, un rectangle du plan est divisé en mesurant la distance euclidienne entre chaque point

13

Page 28: Arbelaez these

14

(a) (b)

FIG. 1.1 – Exemple de partitions de l’espace induites par la distance euclidienne. a : partitionpar seuillage. b : partition de Voronoï.

et quatre sites. Les régions de Voronoï sont ici des polygones convexes.

De nombreux objets naturels, comme ceux des Figures 1.2.a et 1.2.b, présentent une structure

similaire aux partitions de Voronoï. Il n’est donc guère surprenant que cette notion soit de longue

date familière au monde scientifique. En 1644, Descartes utilisait déjà des constructions proches

des partitions de Voronoï dans ses Principia Philosophiae [Des44]. La Figure 1.2.c reproduit

par exemple une illustration employée par l’auteur pour décrire la distribution de la matière aux

alentours du système solaire.

Les premières formalisations du concept sont attribuées à Dirichlet [Dir50] et à Voronoï

[Vor07, Vor08, Vor09] dans le cadre de leurs études sur les formes quadratiques. Cependant,

grâce à la nature hautement intuitive de sa définition, la partition de Voronoï fut redécouverte

indépendamment dans des domaines très divers. Ainsi, les régions de Voronoï sont fréquemment

appelées pleisohedra en cristallographie, polygones de Thiessen en météorologie, régions de

Wigner-Seitz en chimie, ou encore zones d’influence en morphologie mathématique.

Depuis son introduction, la partition de Voronoï a trouvé son application dans un très large

spectre de disciplines et a fait l’objet de nombreuses généralisations. Le livre de Okabe et al.

[OBSC02] et la monographie de Aurenhammer et Klein [AK00] sont deux ouvrages de référence

sur le sujet. Parmi les applications des Partitions de Voronoï à l’analyse d’images, on peut citer

Page 29: Arbelaez these

15

(a) (b) (c)

FIG. 1.2 – a et b : Structures naturelles semblables à une partition de Voronoï. c : Représentationdes alentours du système solaire par Descartes : S désigne le soleil, F une étoile proche et lacourbe qui passe par les points E et V décrit la trajectoire d’un comète.

la compression [AAS85], la représentation des formes [MR96] ou la classification des textures

[TJ90].

Voronoï fut aussi le premier à remarquer qu’une partition duale de l’espace peut être définie

en joignant par un segment de droite tous les sites dont les régions sont adjacentes. Cette autre

structure, connue aujourd’hui sous le nom de triangulation de Delaunay, est aussi largement

utilisée. Son étude dépasse cependant le cadre du présent travail. Le lecteur intéressé trouvera

dans [OBSC02] un traitement exhaustif du sujet.

Ce premier chapitre présente le cadre mathématique de notre étude ; les principales notions

sont définies et les notations employées tout au long du mémoire sont introduites. Nous commen-

çons par rappeler les bases du formalisme métrique pour nous intéresser ensuite aux partitions

de l’espace induites par une distance.

Page 30: Arbelaez these

16

1.2 Espaces pseudo-métriques

1.2.1 Définitions

Définition 1.2.1. Une pseudo-métrique [Kel75] sur un ensemble Ω est une application ψ :

Ω× Ω → R qui satisfait les axiomes suivants :

Réflexivité :

ψ(x, x) = 0, ∀x ∈ Ω. (1.2.1)

Inégalité Triangulaire :

ψ(x, y) ≤ ψ(z, x) + ψ(z, y), ∀x, y, z ∈ Ω. (1.2.2)

Le couple (Ω, ψ) est appelé un espace pseudo-métrique et le nombre ψ(x, y) est la distance

entre les points x et y. Les pseudo-métriques sont parfois aussi appelées écarts finis [Kur66].

Les deux propriétés suivantes sont conséquence immédiate de la Définition 1.2.1 :

Proposition 1.2.1. Si (Ω, ψ) est un espace pseudo-métrique, alors :

Symétrie :

ψ(x, y) = ψ(y, x), ∀x, y ∈ Ω. (1.2.3)

Positivité :

0 ≤ ψ(z, y), ∀z, y ∈ Ω. (1.2.4)

Démonstration. Pour prouver la Symétrie, considérons l’Inégalité Triangulaire en remplaçant z

par y :

ψ(x, y) ≤ ψ(y, x) + ψ(y, y).

Or, d’après la Réflexivité, ψ(y, y) = 0, donc :

ψ(x, y) ≤ ψ(y, x).

Page 31: Arbelaez these

17

En inversant les rôles de x et y on obtient l’inégalité inverse ψ(y, x) ≤ ψ(x, y), d’où le résultat.

Prouvons la Positivité. D’après l’Inégalité Triangulaire avec x = y, on a :

ψ(y, y) ≤ ψ(z, y) + ψ(z, y)

et donc, d’après la Réflexivité, 0 ≤ ψ(z, y).

Souvent, la structure métrique est utilisée pour organiser les points de l’espace par rapport à

un point ou un ensemble fixé.

La distance à un point s ∈ Ω est l’application d’une seule variable ψs : Ω → R+ donnée

par :

ψs(x) = ψ(x, s),∀x ∈ Ω.

La distance à un ensemble S ⊂ Ω est définie comme le minimum de la distance aux points de

S :

ψS(x) = infs∈S

ψs(x),∀x ∈ Ω. (1.2.5)

La boule (ouverte) centrée en un point s ∈ Ω et de rayon r > 0 est définie comme dans un

espace métrique :

Bs(r) = x ∈ Ω | ψ(s, x) < r

On prouve que la famille de boules

B = Bs(r) | s ∈ Ω, r > 0

est une base pour une topologie, nommée topologie pseudo-métrique de Ω induite par ψ.

1.2.2 Espace quotient

Remarquons que la seule différence entre la Définition 1.2.1 et celle d’un espace métrique

est la Réflexivité, qui remplace l’axiome de Séparation habituel :

Page 32: Arbelaez these

18

ψ(x, y) = 0 ⇔ x = y.

Par conséquent, deux points distincts peuvent se trouver à distance nulle dans un espace

pseudo-métrique.

Cependant, la relation ∼ψ, définie dans Ω× Ω par la formule

x ∼ψ y ⇔ ψ(x, y) = 0

satisfait clairement les trois propriétés suivantes :

x ∼ψ x, ∀x ∈ Ω.

x ∼ψ y ⇔ y ∼ψ x.

Si x ∼ψ y et y ∼ψ z, alors x ∼ψ z.

La relation ∼ψ est donc une relation d’équivalence et on peut considérer la classe d’équiva-

lence d’un point x, formée par tous les points qui sont à distance nulle de x :

x(ψ) = y ∈ Ω | ψ(x, y) = 0.

Ainsi, x(ψ) est la fermeture de x pour la topologie pseudo-métrique. Les classes d’équivalence

indiquent le niveau de résolution de l’espace, en dessous duquel la distance est aveugle.

L’ensemble des classes d’équivalence est noté par :

Ω(ψ) = x(ψ)| x ∈ Ω.

Une topologie pour Ω(ψ) est alors définie en considérant le système de voisinages suivant :

Soit U une partie ouverte de Ω pour la topologie pseudo-métrique qui contient la classe

x(ψ). Un voisinage de x(ψ) dans Ω(ψ) est défini comme l’union de tous les y(ψ) ∈ Ω(ψ) tels

que y(ψ) ⊂ U dans Ω.

Page 33: Arbelaez these

19

L’ensemble Ω(ψ) muni de cette topologie est appelé l’espace quotient de Ω sous ∼ψ. Ainsi,

la projection naturelle πψ : Ω → Ω donnée par la formule πψ(x) = x(ψ),∀ x ∈ Ω est une

fonction continue.

Par conséquent, l’application ψ : Ω(ψ) × Ω(ψ) → R définie par ψ(x, y) = ψ(x, y) est une

métrique pour l’espace quotient. Remarquons que, dans le cas où ψ est déjà une métrique, alors

l’espace quotient Ω(ψ) est homéomorphe à Ω.

1.2.3 Exemples

Illustrons à présent les définitions avec trois exemples élémentaires de pseudo-métriques dans

le plan : la distance euclidienne et deux projections.

Exemple 1

L’espace métrique canonique est l’espace euclidien (Rn, ε), où la distance entre deux points

x = (x1, ..., xn) et y = (y1, ..., yn) est donnée par la formule de Pythagore :

ε(x, y) =

[n∑

i=1

(xi − yi)2

]1/2

.

Puisque ε est une métrique, l’espace quotient Rn(ε) coïncide avec Rn et s(ε), la classe d’équiva-

lence du point s, est réduite au singleton s.

La Figure 1.3 montre deux exemples de distance euclidienne à un ensemble S ⊂ R2. En

haut, S est réduit à un point isolé et le graphe de εS est un cône. Dans l’exemple d’en bas, S est

une courbe. Cette figure illustre aussi deux façons de présenter la distance à un sous-ensemble

du plan. La première est l’image des intensités (au centre), où le niveau de gris de chaque pixel

est proportionnel à sa distance à S, et la seconde est le graphe (à droite), comme sous-ensemble

de R3 :

(x, ψS(x)) | x ∈ R2.

Page 34: Arbelaez these

20

S εs εs

(a) (b) (c)

FIG. 1.3 – a : Ensemble de référence S : un point isolé (haut) et une courbe (bas). b : Imagesdes intensités de la distance euclidienne à S. c : Graphes de εS .

Exemple 2

Soit l’application ψ1 : R2 × R2 → R définie, pour tout couple de points x = (x1, x2), y =

(y1, y2) ∈ R2, par la formule :

ψ1(x, y) = |x2 − y2| = ε(x2, y2).

Remarquons que, puisque (R, ε) est un espace métrique, ψ1 satisfait les deux axiomes de la

Définition 1.2.1 :

ψ1(x, x) = |x2 − x2| = 0, ∀x ∈ Ω.

ψ1(x, y) = |x2 − y2| ≤ |z2 − x2|+ |z2 − y2| = ψ1(z, x) + ψ1(z, y), ∀x, y, z ∈ Ω.

Ainsi, (R2, ψ1) est un espace pseudo-métrique. Cet espace n’est cependant pas métrique, car

la classe d’équivalence d’un point s = (s1, s2) correspond à la droite horizontale qui passe par

s :

s(ψ1) = y ∈ R2 | ψ1(s, y) = 0 = (y1, y2) ∈ R2 | y2 = s2.

Page 35: Arbelaez these

21

s(ψ1) ψ1s ψ1

s

s(ψ2) ψ2s ψ2

s

(a) (b) (c)

FIG. 1.4 – a : Classes d’équivalence d’un point. b : Images des intensités de la distance au point.c : Graphes de la distance au point.

L’espace quotient R2(ψ1) est donc homéomorphe à la droite des réels (R, ε). Enfin, la projection

πψ1 est ici la projection du plan cartésien sur l’axe des ordonnées : πψ1(x1, x2) = x2, et la

métrique quotient ψ1 coïncide avec la distance euclidienne dans R.

Exemple 3

Exprimons enfin les points du plan en coordonnées polaires et considérons l’application ψ2

définie, pour tout couple de points x = (r1, θ1), y = (r2, θ2) ∈ R+ × [0, 2π[ , par la formule :

ψ2(x, y) = |r1 − r2| = ε(r1, r2).

La vérification que ψ2 est une pseudo-métrique est identique à l’Exemple 2. Par ailleurs, puisque

ψ2 mesure la différence absolue des modules des points, la classe d’équivalence d’un point s =

(r0, θ0) est le cercle centré en l’origine O et de rayon r0 :

s(ψ2) = (r, θ) ∈ R+ × [0, 2π[ | r = r0.

Page 36: Arbelaez these

22

L’espace quotient de R+ × [0, 2π[ sous ψ2 est une semi-droite munie de la distance euclidienne.

La Figure 1.4 illustre les définitions avec les pseudo-métriques ψ1 et ψ2, dans le cas où S est

un point isolé.

Notons enfin que, pour ces exemples simples de pseudo-métriques, l’application ψs mesure

la distance euclidienne à l’ensemble s(ψ).

1.2.4 Chemins et convexité

La notion usuelle de convexité dans Rn repose sur la distance euclidienne. On dit qu’un

ensemble Ω ⊂ Rn est convexe si, pour tout couple de points, le segment de droite les joignant

est entièrement contenu dans Ω. L’étude des partitions d’un espace pseudo-métrique requiert

l’extension de ce concept.

Un chemin γ entre deux points x, y ∈ Ω est une application continue d’un segment de (R, ε)

dans l’espace (Ω, ψ) :

γ : [a, b] → Ω tel que γ(a) = x et γ(b) = y.

L’image d’un chemin est appelée une courbe de Ω et notée aussi γ :

γ = x ∈ Ω | ∃t ∈ [a, b] : x = γ(t)

L’ensemble des chemins entre x et y est noté Γxy et l’ensemble des chemins entre points de

Ω est noté ΓΩ.

Un ensemble Ω est connexe par arcs s’il existe un chemin reliant entre eux tout couple de

points.

Un chemin γ ∈ Γxy est ψ−droit s’il satisfait la condition suivante :

∀ t ∈ [a, b], ψ(x, y) = ψ(x, γ(t)) + ψ(γ(t), y)

Les chemins ψ−droits sont donc l’équivalent des segments de droite pour une distance arbitraire.

Ce sont les chemins pour lesquels l’Inégalité Triangulaire devient une égalité. Notons cependant

Page 37: Arbelaez these

23

que, à la différence de l’espace euclidien, un chemin ψ−droit entre deux points d’un espace

pseudo-métrique peut ne pas être unique.

Ainsi, la notion de convexité dans notre cadre de travail est la suivante :

Définition 1.2.2. Un espace pseudo-métrique (Ω, ψ) est convexe si et seulement si, pour tout

couple de points, il existe un chemin ψ−droit les joignant.

On dira aussi que l’ensemble Ω est convexe pour ψ. Notons enfin que tout espace convexe

est connexe par arcs.

1.3 Partitions métriques

Cette section s’intéresse aux partitions induites par une distance. Nous commençons par pré-

ciser la notion de décomposition de l’espace considérée.

Définition 1.3.1. Soit (Ω, ψ) un espace pseudo-métrique. Une partition de Ω est une famille

finie Ω1, ..., Ωn de sous-ensembles de Ω, qui satisfait les conditions suivantes :

Ωi est fermé, ∀i ∈ 1, ..., n. (1.3.1)

[Ωi \ ∂Ωi]⋂

[Ωj \ ∂Ωj] = ∅, ∀ i 6= j. (1.3.2)

n⋃i=1

Ωi = Ω. (1.3.3)

Une partition est donc un recouvrement de Ω en régions fermées qui se superposent unique-

ment sur leurs frontières.

Page 38: Arbelaez these

24

1.3.1 Partitions par seuillage

Un premier type de partitions métriques repose sur la notion d’ensemble de niveau d’une

fonction scalaire.

Définition 1.3.2. L’isoensemble de niveau k d’une fonction F : Ω → R est défini par :

[F = k] = F−1(k).

L’ensemble de niveau inférieur (au niveau k) d’une fonction F : Ω → R est donné par :

[F ≤ k] = x ∈ Ω | F (x) ≤ k.

De même, on définit l’ensemble de niveau supérieur (au niveau k) de F :

[F ≥ k] = x ∈ Ω | F (x) ≥ k.

Si on se donne un ensemble de référence S ⊂ Ω, une première façon de décomposer un

espace pseudo-métrique (Ω, ψ) est de considérer les ensembles de niveau de la fonction scalaire

ψS . Ainsi, on peut partager les points de l’espace entre ceux qui se trouvent à une distance de S

inférieure ou égale à un seuil k :

[ψS ≤ k] = x ∈ Ω | ψS(x) ≤ k

et ceux dont la distance à S est supérieure ou égale à k :

[ψS ≥ k] = x ∈ Ω | ψS(x) ≥ k.

Remarquons que, si S est connexe, alors l’ensemble de niveau inférieur de ψS l’est aussi. En

revanche, l’ensemble de niveau supérieur de la distance à S, [ψS ≥ k], peut posséder plusieurs

composantes connexes, notées [ψS ≥ k]1, ..., [ψS ≥ k]q .

Page 39: Arbelaez these

25

Π(ε, s, k) Π(ψ1, s, k) Π(ψ2, s, k)

FIG. 1.5 – Exemples de partitions par seuillage de la distance à un point.

Nous appelons partition par seuillage de la distance l’ensemble :

Π(ψ, S, k) = [ψS ≤ k], [ψS ≥ k]1, ..., [ψS ≥ k]q

En termes morphologiques, la construction de Π(ψ, S, k) est équivalente à la dilatation de S

lorsque l’élément structurant est une boule de rayon k pour la distance ψ.

La Figure 1.5 montre trois exemples de ce type de partitions. L’ensemble initial est le point

s de la Figure 1.4 et les pseudo-métriques sont celles de la Section 1.2.3. Dans chaque cas, le

niveau k à été fixé à 3/10 du maximum de la distance sur l’ensemble.

1.3.2 Partitions de Voronoï

Une deuxième façon de décomposer l’espace à partir de sa structure métrique est de consi-

dérer les "régions d’attraction" d’un ensemble de points fixés appelés, selon le contexte, sites,

sources ou générateurs.

Définition 1.3.3. Soit (Ω, ψ) un espace pseudo-métrique fermé et S = s1, ..., sn ⊆ Ω un

ensemble fini de sites.

La région de Voronoï, ou V-région, du site si ∈ S est définie par :

Vi = x ∈ Ω|ψsi(x) ≤ ψsj

(x),∀j ∈ 1, ..., n, j 6= i.

La partition de Voronoï, ou V-partition, de Ω associée à ψ et à S est l’ensemble des régions

Page 40: Arbelaez these

26

de Voronoï :

Π(ψ, S) = V1, ..., Vn.

Le diagramme de Voronoï, ou V-diagramme, de Ω associé à ψ et à S est l’union des fron-

tières des régions de Voronoï :

∆(ψ, S) =n⋃

i=1

∂Vi.

En morphologie mathématique, les V-régions s’appellent aussi les zones d’influence des sites

et le V-diagramme, le squelette par zones d’influence [Lan78].

Notons que la famille finie Π(ψ, S) est bien une partition de Ω, dans le sens de la Définition

1.3.1. Dans le cas des espaces convexes, les régions de Voronoï sont de surcroît des ensembles

connexes, comme le montre le résultat suivant.

Proposition 1.3.1. Soit Π(ψ, S) une V-partition dans un espace pseudo-métrique convexe et

fermé (Ω, ψ). Alors, tout chemin ψ−droit entre un site si et un point x ∈ Vi est complètement

inclus dans Vi.

Démonstration. Puisque (Ω, ψ) est convexe, il existe un chemin ψ−droit reliant entre eux tout

couple de points de Ω. Notons γ un chemin ψ−droit entre un site si et un point x de sa région de

Voronoï. Supposons que γ n’est pas complètement inclus dans Vi. Il existe alors un point y dans

la courbe γ tel que y /∈ Vi. Donc, puisque les régions de Voronoï recouvrent Ω, il existe un autre

site sj 6= si tel que ψsj(y) < ψsi

(y). Mais, étant donné que γ est un chemin ψ−droit, l’Inégalité

Triangulaire donne :

ψsj(x) = ψ(x, sj) ≤ ψ(y, x) + ψ(y, sj) < ψ(y, x) + ψ(y, si) = ψ(x, si) = ψsi

(x).

Ainsi ψsj(x) < ψsi

(x). On en déduit que x /∈ Vi, ce qui est en contradiction avec les hypothèses.

Page 41: Arbelaez these

27

(a) (b) (c)

FIG. 1.6 – a : Ensemble de sites S et univers Ω. b et c : Partitions de Voronoï Π(ψ1, S) etΠ(ψ2, S).

Toute région de Voronoï d’un espace pseudo-métrique convexe est donc un sous-ensemble

connexe de Ω. Notons par ailleurs que le résultat précédent fournit une description géométrique

plus précise des V-régions : celles-ci ont la forme d’une étoile à partir du site. Dans le cas des

partitions de Voronoï induites par la métrique euclidienne, les V-régions sont des polygones

convexes, comme le montre la Figure 1.1.a. La convexité n’est cependant pas forcément préser-

vée pour une distance arbitraire [AK00].

Remarquons que tout élément d’une partition de Voronoï est une union d’éléments de l’es-

pace quotient. De plus, notons que ψs = ψy, ∀y ∈ s(ψ). Un site peut donc être remplacé par

un autre point de sa classe d’équivalence sans affecter la V-partition. Par suite, la notion de site

désignera indistinctement le point s ou sa classe d’équivalence s(ψ).

Considérons par exemple l’ensemble de sites S = s1, s2, s3, s4 dans l’univers rectangulaire

Ω de la Figure 1.6.a et les pseudo-métriques ψ1 et ψ2 de la Section 1.2.2. Puisque s1 et s4

ont même ordonnée, leurs classes d’équivalence sous ψ1 coïncident et correspondent à la droite

horizontale tracée en noir. De même, si l’origine est choisie en s2, alors on a s1(ψ2) = s4(ψ

2)

et cette classe d’équivalence unique correspond au cercle noir. Par conséquent, dans toute V-

partition induite par ψ1 ou ψ2 les deux points appartiendront à la même V-région. En outre, pour

ces deux pseudo-métriques, les ensembles de sites s1, s2, s3, s4, s1, s2, s3 et s2, s3, s4 sont

équivalents.

Les Figures 1.6.b et 1.6.c montrent les partitions de Voronoï obtenues avec l’ensemble de

Page 42: Arbelaez these

28

sites de la Figure 1.6.a et les pseudo-métriques ψ1 et ψ2 respectivement. Dans le premier cas,

les régions de Voronoï sont des bandes horizontales, tandis que pour ψ2 ce sont des couronnes

centrées en l’origine.

Remarquons toutefois que l’espace pseudo-métrique (Ω, ψ2) n’est pas convexe. Ceci peut

s’observer aussi dans la Figure 1.6.a : tout chemin ψ2-droit joignant s1 et s4 est par définition

contenu dans s1(ψ2), le cercle noir, or celui-ci n’est pas entièrement contenu dans le rectangle

Ω. Par conséquent, les V-régions sous ψ2 dans cet univers peuvent ne pas être connexes.

1.3.3 Cadre variationnel

Nous complétons ce chapitre par une formulation variationnelle de l’approche métrique. Ce

paragraphe présente les V-partitions en tant que minimisatrices d’une énergie et le paragraphe

suivant contient un résultat analogue pour les V-partitions centrées. On se place ici dans Rn et on

suppose que (Ω, ψ) est un espace métrique.

Lemme 1.3.2. Soit S = s1, ..., sn un ensemble de sites et Π = Ω1, ..., Ωn une partition de

Ω ⊂ Rn telle que si ∈ Ωi, ∀i ∈ [1, ..., n].

Alors, Π est une partition de Voronoï si et seulement si

ψsi(x) = ψS(x),∀ x ∈ Ω. (1.3.4)

Démonstration. Supposons que Π = V1, ..., Vn est la partition de Voronoï associée à S. Soient

x ∈ Ω et Vi ∈ Π tels que x ∈ Vi. Alors, par définition de V-région, on a

ψsi(x) ≤ ψsj

(x),∀j ∈ 1, ..., n, j 6= i

Donc, d’après la définition de distance à un ensemble (1.2.5),

ψsi(x) = ψS(x).

Page 43: Arbelaez these

29

Réciproquement, si Π n’est pas une partition de Voronoï, alors au moins une de ses régions n’est

pas une V-région : ∃i : Ωi 6= Vi. Considérons un point x ∈ Ωi\Vi. Il existe alors une V-région

Vj 6= Vi telle que x ∈ Vj . On a donc

ψS(x) = ψsj(x) < ψsi

(x).

Théorème 1.3.3. Soit S = s1, ..., sn un ensemble de sites et Π = Ω1, ..., Ωn une partition

de Ω telle que si ∈ Ωi, ∀i ∈ [1, ..., n].

Alors, Π minimise l’énergie :

E(Ω1, ..., Ωn) =n∑

i=1

Ωi

ψsi(x)dx (1.3.5)

si et seulement si Π est une partition de Voronoï.

Démonstration. Par définition de ψS , on a l’inégalité :

E(Ω1, ..., Ωn) =n∑

i=1

Ωi

ψsi(x)dx ≥

n∑i=1

Ωi

ψS(x)dx =

Ω

ψS(x)dx = E(V1, ..., Vn). (1.3.6)

Pour une partition de Voronoï, l’énergie est donc minimale.

Réciproquement, si (1.3.6) est une égalité, alors pour tout i, on a∫

Ωiψsi

(x)−ψS(x)dx = 0.

Mais, par définition, ψsi(x) ≥ ψS(x) et on a :

∫Uψsi

(x)−ψS(x)dx = 0, pour tout U ⊆ Ωi.

Ainsi, puisque ψsiet ψS sont des fonctions continues, l’égalité est vraie sur Int(Ωi) = Ωi.

On a donc prouvé que : ∀x ∈ Ωi, ψsi(x) = ψS(x), ce qui est équivalent à dire que Ω1, ...Ωn

est une partition de Voronoï d’après le Lemme 1.3.2.

Un avantage de cette formulation variationnelle est qu’elle permet d’introduire de l’informa-

tion préalable dans la V-partition. On peut par exemple contrôler la régularité des V-régions en

ajoutant un terme de longueur de bord à l’énergie (1.3.6). Dans le contexte de la segmentation,

cette idée a été employée pour régulariser les contours obtenus par ligne de partage des eaux

[NWvdB03]. Cependant, puisque nous ne voulons pas inclure de connaissance à priori sur le

contenu de l’image dans notre système, cette approche ne sera pas développée dans la suite.

Page 44: Arbelaez these

30

(a) (b) (c)

FIG. 1.7 – a : V-Partition non centrée. b et c : Partitions de Voronoï centrées.

1.3.4 Partitions de Voronoï centrées

Une partition de Voronoï centrée est une V-partition où chaque site est le barycentre de

sa V-région. Notons que cette condition n’est généralement pas satisfaite dans une V-partition

arbitraire, comme le montre la Figure 1.7.a.

Le barycentre ou centre de masse z∗ d’un ensemble V est défini au moyen d’une fonction de

densité ρ :

z∗ =

∫V

xρ(x)dx∫V

ρ(x)dx

Alternativement, on peut définir le barycentre de V par la minimisation d’une énergie :

z∗ = infz∈V

V

ρ(x)ψ(x, z)dx

Enfin, on peut prouver le résultat suivant [DFG] :

Théorème 1.3.4. Soit S = s1, ..., sn un ensemble de sites et Π = Ω1, ..., Ωn une partition

de Ω telle que si ∈ Ωi, ∀i ∈ [1, ..., n].

Si Π minimise l’énergie :

F(Ω1, ..., Ωn, s1, ..., sn) =n∑

i=1

Ωi

ρ(x)ψ2si(x)dx (1.3.7)

alors Π est une partition de Voronoï centrée.

Page 45: Arbelaez these

31

TAB. 1.1 – Algorithme de Lloyd• Initialisation Partition de Voronoï initiale Π(ψ, S), où S = s1, ..., sn.

• Boucle : Itérer jusqu’à convergence : Calculer les barycentres des V-régions : S∗ = s∗1, ..., s∗n. Construire la Partition de Voronoï Π(ψ, S∗)

Notons que la fonctionnelle (1.3.7) dépend aussi bien des régions que des sites, contrairement

à celle définie par l’équation (1.3.5). Ce problème de minimisation admet une solution, mais elle

n’est généralement pas unique, comme le montrent les Figures 1.7.b et 1.7.c.

Il existe un certain nombre d’approches probabilistes et déterministes pour construire des

partitions de Voronoï centrées. Une des plus célèbres est l’algorithme de Lloyd [Llo82], présenté

dans le Tableau 1.1. Cette méthode, un cas particulier des nuées dynamiques de Diday [DLPT82],

repose sur l’alternance du calcul des barycentres et de la construction des V-partitions.

(a) (b)

FIG. 1.8 – Construction d’une Partition de Voronoï centrée par l’algorithme de Lloyd. a : V-partition initiale. b : Résultat après 50 itérations.

La Figure 1.8 présente un exemple d’application de cet algorithme. Un ensemble initial de

40 sites a été choisi aléatoirement. La fonction de densité est dans ce cas constante, de sorte que

z∗ soit le barycentre usuel, et la distance considérée est la distance euclidienne. On peut observer

que les sites tendent à se distribuer uniformément sur l’ensemble.

Page 46: Arbelaez these

32

Page 47: Arbelaez these

Chapitre 2

Images et segmentations

Nous nous intéressons dans ce chapitre au passage du monde continu au monde discret ainsi

qu’aux structures mathématiques et algorithmiques qui nous permettront de représenter et mani-

puler les images et leurs segmentations.

2.1 Images

Afin d’appliquer les notions introduites dans le chapitre précédent à la segmentation, l’en-

semble Ω désignera dorénavant le domaine d’une image.

Plus précisément, une image est une fonction u : Ω → (X, d), où le domaine de définition

Ω est, soit un sous ensemble de Rn dans le cadre continu, soit son intersection par une grille

régulière dans le cadre discret.

Le domaine d’une image 2D est usuellement un rectangle fermé du plan dans le cas continu

et une partie bornée de Z2 dans le cas discret.

Pour les images monochromatiques, l’espace pseudo-métrique d’arrivée (X, d) est (R, ε),

l’ensemble des réels muni de la distance usuelle. Le cas des images couleur requiert en revanche

une étude plus détaillée de l’espace des couleurs.

La représentation de la couleur est le sujet de la colorimétrie ; le lecteur intéressé dans ce do-

maine trouvera en [WS82] un ouvrage de référence. Le fondement de cette discipline sont les lois

33

Page 48: Arbelaez these

34

expérimentales d’égalisation des couleurs, résumées dans le principe de généralisation trichro-

matique. Selon ce principe, la plupart des stimuli couleur perceptibles par l’œil humain peuvent

s’obtenir par le mélange pondéré de trois stimuli primaires. Les couleurs sont par conséquent

usuellement représentées par des vecteurs dans un espace de dimension trois, d’où X = R3.

L’espace le plus souvent utilisé est le système RVB, où la couleur d’un pixel est représentée

par le mélange additif des trois canaux chromatiques primaires Rouge, Vert et Bleu. D’une grande

utilité pratique pour le codage, cet espace présente néanmoins deux désavantages majeurs pour

notre application : il ne possède pas de métrique naturelle et il est mal adapté à la perception

humaine.

Outre l’existence d’une distance entre les couleurs, il serait souhaitable que la représentation

sépare l’information de luminosité de celle de chrominance, pour pouvoir inclure les images

monochromatiques comme un cas particulier du même modèle.

Les considérations précédentes nous ont conduit à adopter les standards L∗ab et L∗uv de la

Commission Internationale de l’Éclairage (CIE). Ces représentations sont des approximations

de l’espace des couleurs perceptuellement uniforme, où la couleur d’un pixel est décomposée

en une composante de luminosité L∗ et deux composantes chromatiques c1 et c2 ((a, b) et (u, v)

respectivement).

La métrique Riemannienne de l’espace des couleurs est généralement approchée dans les

systèmes L∗ab et L∗uv par la distance euclidienne. Cependant, sous certaines conditions d’obser-

vation, le poids relatif de la luminosité et de la chrominance perçues de deux stimuli de couleurs

peut varier [WS82]. Pour prendre en compte ces variations dans notre système, nous utilisons la

formule de distance suivante entre deux couleurs k = (l, c1, c2) et k′ = (l′, c′1, c′2) de ces espaces :

δ∗(k, k′) =√

(l − l′)2 + ξ(c1 − c′1)2 + ξ(c2 − c′2)2. (2.1.1)

Dans la suite, l’espace pseudo-métrique d’arrivée des images sera (X, d) = (L∗c1c2, δ∗).

Ainsi, lorsque ξ = 0, la seule information prise en compte est la luminosité et on retrouve le cas

Page 49: Arbelaez these

35

des images monochromatiques. Par ailleurs, le poids ξ = 1 correspond aux espaces (L∗ab, ε) et

(L∗uv, ε) usuels.

2.2 Composantes connexes

L’objectif de notre travail est la segmentation de bas niveau, c’est-à-dire sans connaissance

préalable du contenu de l’image. Nous supposons donc que l’information des contours des ob-

jets est présente dans l’image originale et considérons comme contours possibles uniquement

ses discontinuités. Ce choix méthodologique, souvent adopté en segmentation morphologique

[Mey01b, Ser04], conduit à des contours parfois moins réguliers que ceux des approches diffé-

rentielles. En revanche, il n’oblige pas à interpréter l’image comme une fonction régulière.

Nous voulons donc construire des partitions métriques du domaine qui ne fragmentent pas

les zones constantes de l’image. Cette propriété est satisfaite lorsque la classe d’équivalence d’un

point x ∈ Ω coïncide avec la composante connexe de u qui contient x, notée Cx(u) et définie

par :

Cx(u) = y ∈ Ω | ∃γ ∈ Γxy : u(x) = u(y) = u(γ(t)), ∀t ∈ [a, b] . (2.2.1)

Alternativement, on peut définir Cx(u) comme le plus grand ensemble connexe qui contient x et

où u est constante.

On notera C(u) l’ensemble des composantes connexes de u :

C(u) = Cx(u) | x ∈ Ω.

Nous définirons dans la suite des espaces pseudo-métriques tels que x(ψ) = Cx(u). L’es-

pace quotient (Ω(ψ), ψ) est dans ce cas homéomorphe à l’espace des composantes de l’image

(C(u), δ∗) et les régions des partitions métriques considérées sont réunion de composantes connexes

de u.

Remarquons enfin que la non convexité du domaine n’est pas une limitation pour les distances

Page 50: Arbelaez these

36

étudiées dans ce travail. En effet, ces distances sont déterminées par les données de l’image, dont

la définition peut être étendue hors du domaine de sorte qu’il contienne les chemins ψ-droits.

2.3 Segmentations

Nous avons jusqu’à présent considéré les segmentations comme des partitions de l’espace ;

cette section présente le formalisme de Morel et Solimini [MS95] pour leur définition en termes

de contours.

2.3.1 Définitions

Soit γ : [a, b] → Ω un chemin. Considérons σ = t0, ..., tn une subdivision finie de [a, b]

telle que a = t0 < t1 < ... < tn = b et notons Φ l’ensemble de ces subdivisions. La longueur

euclidienne de la courbe γ est définie par :

L(γ) = supσ∈Φ

n∑i=1

ε(γ(ti), γ(ti−1)). (2.3.1)

Une courbe rectifiable est une courbe de longueur euclidienne finie. Dans ce cas, on peut

reparamétrer la courbe par son abscisse curviligne, que nous notons l.

Une segmentation K est l’union d’un ensemble fini de courbes rectifiables.

La longueur d’une segmentation, notée L(K), est définie comme l’infimum des longueurs

de tous les ensembles dénombrables de courbes rectifiables dont l’union est K. Si K est l’union

d’un ensemble de courbes rectifiables se rencontrant uniquement en un ensemble dénombrable

de points, alors L(K) est la somme des longueurs des courbes.

Les régions d’une segmentation sont les composantes connexes de Ω\K. Elles seront notées

(Ωi)i. La mesure de Lebesgue bidimentionnelle de Ωi est notée |Ωi|.La frontière commune de deux régions Ωi et Ωj est contenue dans K et notée ∂(Ωi, Ωj) ou,

en l’absence d’ambiguïté, ∂ij . La frontière de Ωi est notée ∂Ωi.

Page 51: Arbelaez these

37

Une courbe de Jordan est une courbe continue telle que ∀s, s′ ∈]0, 1[, s 6= s′, on a γ(s) 6=γ(s′). Si γ(0) = γ(1), la courbe de Jordan est fermée. Si γ(0) et γ(1) diffèrent, ils sont appelés

les extrémités de la courbe. Les autres points sont appelés points intérieurs de la courbe.

Une segmentation est normale1 si elle est l’union d’un ensemble fini de courbes de Jordan

rectifiables, qui se rencontrent entre elles et rencontrent ∂Ω uniquement en leurs extrémités. De

plus, chaque courbe de Jordan sépare deux régions différentes et chaque extrémité est commune

à au moins trois courbes de Jordan.

Les contours d’une segmentation normale sont les courbes de Jordan qui la composent. Les

points de rencontre de la segmentation sont leurs extrémités. Les contours peuvent être définis

de façon équivalente comme les composantes connexes des frontières communes ∂(Ωi, Ωj).

Les segmentations normales ont les propriétés suivantes :

Une segmentation normale avec α régions peut se décomposer en l’union de α − 1 courbes

de Jordan se rencontrant uniquement sur un ensemble fini de points.

Soit une segmentation normale avec α régions, β contours et η points de rencontre. Alors :

η ≤ 2(α− 1) et β ≤ 3(α− 1)− 2.

2.3.2 Représentation des contours

Une partition a été définie (Définition 1.3.1) comme un recouvrement du domaine en régions

fermées qui se superposent uniquement sur leurs frontières. Dans le cas de l’espace euclidien,

les V-partitions sont effectivement des segmentations normales et l’ensemble des contours K

coïncide avec le V-diagramme. Cependant, en général, l’ensemble des frontières d’une partition

pseudo-métrique peut avoir une aire non nulle. En outre, sur un domaine discret, cet ensemble

peut être fragmenté comme conséquence du processus de discrétisation. Ces considérations nous

ont conduit aux choix méthodologiques que nous décrivons dans ce paragraphe.

1appelée 1-normale dans [MS95]

Page 52: Arbelaez these

38

(a) (b)

FIG. 2.1 – Représentation des contours. a : pixels. b : edgels.

Un premier problème pratique qui se pose est la représentation de la frontière entre deux

régions. Pour les images numériques définies sur une grille carrée, on représente usuellement

les frontières par un ensemble de pixels ou par les éléments d’une grille duale d’espaces inter-

pixellaires appelés edgels2, comme le montre la Figure 2.1.

Si on considère le processus d’acquisition de l’image comme l’échantillonnage d’un phéno-

mène continu, le modèle pixellaire semble le plus approprié géométriquement. En effet, puisque

la mesure obtenue dans les pixels frontière est un mélange des mesures des pixels voisins, il est

possible de déduire une estimation sous-pixellaire de la frontière réelle si on maîtrise les condi-

tions d’acquisition de l’image. Ce ne sera généralement pas notre cas. Le modèle pixellaire sur

une grille carrée présente par ailleurs des problèmes en topologie discrète, comme la non validité

du théorème de Jordan ou la nécessité de choisir deux connexités différentes pour une région et

sa frontière (voir par exemple [SM94]).

Nous avons par conséquent adopté le modèle inter-pixellaire qui, du point de vue de la seg-

mentation, est plus naturel et facile à gérer. Nous allons donc considérer en pratique des partitions

qui sont un recouvrement du domaine discret en régions disjointes.

2edgel : acronyme formé des mots anglais edg-e et el-ement.

Page 53: Arbelaez these

39

Définition 2.3.1. Une partition du domaine de définition Ω d’une image numérique est une

famille finie Ω1, ..., Ωn de sous-ensembles de Ω, qui satisfait les conditions suivantes :

1. Ωi

⋂Ωj = ∅, ∀ i 6= j.

2.n⋃

i=1

Ωi = Ω.

Nous supposerons dans la suite que les points centraux des edgels d’une partition discrète

sont un échantillonnage des contours d’une segmentation normale.

Pour construire une partition discrète, nous assignons les pixels des frontières pseudo-métriques

à l’une des deux régions qu’ils séparent. Nous verrons dans la quatrième partie que, pour les dis-

tances étudiées, ce choix est secondaire pour la qualité globale de la segmentation.

2.3.3 Images mosaïques

A partir d’une segmentation, on peut construire une approximation régulière par morceaux de

l’image originale en choisissant un modèle, par exemple un spline d’ordre fixé, pour représenter

chaque région. Notre approche se fondant sur l’information de l’image originale, nous utiliserons

l’approximation surtout pour présenter les résultats. Le modèle des régions sera donc constant,

par exemple, la valeur de l’image sur le site, la médiane ou la moyenne sur la région. On obtient

ainsi une reconstruction de l’image constante par morceaux qui sera appelée dans la suite une

image mosaïque ou simplement mosaïque.

2.4 Graphes et arbres

2.4.1 Définitions

Graphes et arbres servent à modéliser les images à différents niveaux d’analyse. Nous rappe-

lons dans ce paragraphe les définitions de ces structures et précisons les notations. Pour plus de

détails, le lecteur peut consulter par exemple [CP95].

Page 54: Arbelaez these

40

Un graphe orienté est un couple G = (X, A) où X est un ensemble fini et A est un sous-

ensemble de X2 définissant une relation binaire sur X .

Les éléments de X sont les sommets du graphe et ceux de A sont les arcs.

On considère l’application V : X → P(X) définie par V (x) = y ∈ X | (x, y) ∈ A.

L’ensemble V (x) est appelé un voisinage du sommet x ∈ X . Si y ∈ V (x), on dit que x et y sont

adjacents.

Un élément a ∈ A de la forme a = (x, x) pour x ∈ X est appelé une boucle.

Si les propriétés de G ne dépendent pas du sens des arcs, on dit que G est un graphe non

orienté. On considère dans ce cas les couples non ordonnés a = (x, y), qu’on appelle arêtes.

Un graphe est simple s’il est sans boucles et s’il n’y a jamais plus d’une arête entre deux

sommets donnés.

Un graphe est planaire s’il est possible de le représenter dans un plan sans que deux arcs ne

se croisent.

Un chemin, ou chaîne, entre deux sommets x0, xn ∈ X est une séquence π = x0, x1, ..., xntelle que xi+1 ∈ V (xi) pour tout i = 0, ..., n − 1. L’ensemble des chemins entre x et y est noté,

comme dans le cas continu, Γxy.

Un cycle est une chemin dont les extrémités coïncident et qui n’utilise pas deux fois le même

arc.

Un graphe est connexe si, pour tout couple de sommets, il existe un chemin les joignant.

Un arbre est un graphe non orienté simple, connexe et sans cycle.

La structure de graphe peut être enrichie en considérant une application à valeurs réelles w

définie sur X ou sur A. Dans le premier cas, on parle d’attribut d’un sommet et, dans le second,

de poids d’une arête. G est appelé dans les deux cas un graphe valué.

Page 55: Arbelaez these

41

Image Zones plates Graphe de composantes

FIG. 2.2 – Exemple de graphe de composantes d’une image.

2.4.2 Graphes d’adjacence

Graphe de pixels

Une image peut toujours être traitée comme un graphe de pixels, où les sommets sont les

pixels et les arêtes relient des pixels voisins pour une connexité discrète (usuellement 4, 6 ou 8

connexité). Dans ce cas, on peut assigner comme attribut à chaque sommet la valeur de l’image

dans le pixel. Le poids des arêtes sert à exprimer des relations entre pixels voisins. Ce graphe est

utilisé dans le Chapitre 3 pour implanter les distances pondérées.

Graphe de composantes

Dans le cadre de notre approche, les éléments de base ne sont pas les pixels mais les com-

posantes connexes de l’image. Une première façon d’interpréter les composantes dans le cadre

discret est de considérer des chemins sur le graphe de pixels dans leur définition (2.2.1). La

composante d’un point est ainsi définie comme sa zone plate, l’ensemble des points qu’on peut

atteindre en suivant un chemin discret où l’image est constante.

Ainsi, nous utilisons souvent un graphe de composantes à la place du graphe de pixels. Dans

ce graphe, les sommets représentent les zones plates de l’image et leur attribut est la valeur du

canal de luminosité L∗. Les arêtes sont pondérées par la distance couleur δ∗ entre deux compo-

santes voisines. Sur cette structure repose une des constructions de la distance étudiée dans le

Page 56: Arbelaez these

42

Chapitre 4.

Graphe de régions

Une segmentation est une partition du domaine de l’image et, à toute partition discrète, on

peut associer un graphe appelé graphe d’adjacence de régions (RAG3). Les sommets du graphe

sont les parties connexes des régions qui composent la partition. Deux sommets sont reliés par

une arête si les deux régions sont adjacentes, c’est-à-dire s’il existe au moins deux pixels voisins

appartenant chacun à l’une des deux régions. De même que le graphe de composantes, le RAG

dépend du type de connexité entre les pixels. Il est planaire pour la 4-connexité mais pas pour la

8-connexité.

Dans le cas du RAG, nous allons considérer une liste d’attributs pour décrire les caractéris-

tiques internes de chaque région. Le poids des arêtes sera pour sa part une mesure de dissem-

blance entre deux régions adjacentes.

Un avantage du RAG est d’élever le niveau de représentation de l’image en passant des pixels

(ou des composantes connexes) aux régions. Ces graphes se trouvent à la base des représentations

hiérarchiques des images qui seront construites dans la troisième partie du mémoire. Le graphe

de pixels et le graphe de composantes en sont des cas particuliers.

2.4.3 Arbres d’inclusion

La représentation de l’image par un graphe d’adjacence privilégie la relation de connexité.

La relation d’inclusion est pour sa part codifiée naturellement par une structure d’arbre.

Arbre de formes

Le graphe de composantes est construit en représentant, dans le cadre discret, les compo-

santes connexes par des zones plates. Pour les images monochromatiques, une alternative est de3RAG : de l’anglais Region Adjacency Graph.

Page 57: Arbelaez these

43

[u ≥ 0] [u ≥ 1] [u ≥ 2] Arbre de maxima

[u ≤ 2] [u ≤ 1] [u ≤ 0] Arbre de minima

FIG. 2.3 – Exemple d’arbres de minima et de maxima avec l’image de la Figure 2.2.

considérer les ensembles de niveau (voir la Définition 1.3.2).

Les composantes connexes des ensembles de niveau sont ordonnées par l’inclusion (voir

la Figure 2.3). Les ensembles de niveau supérieurs définissent donc un arbre, appelé arbre de

maxima (max-tree), dont les feuilles sont les maxima régionaux de l’image et la racine est le plus

bas niveau [SOG98]. La même construction, réalisée avec les ensembles de niveau inférieurs,

définit un arbre de minima (min-tree). Une implantation efficiente de ces structures est proposée

dans [CNB05].

Les arbres de minima et de maxima sont des structures complémentaires mais redondantes.

Une façon de combiner leurs informations en une structure unique a été proposée par Monasse

[Mon00]. Dans ce travail, les éléments de base sont les "formes", les composantes connexes des

ensembles de niveau (inférieurs et supérieurs) dont on remplit les "trous". Un arbre de formes,

dont les feuilles sont les extrema de l’image sans trous, est alors construit. Cet arbre est une re-

présentation de l’image sans redondance et invariante par changements de contraste. Un exemple

d’arbre de formes est présenté dans la Figure 2.4, où on peut observer que l’information des

formes est codée une seule fois.

Ainsi, nous considérons une deuxième définition discrète de composante. Soit u une image

scalaire et Px la plus petite forme de l’arbre de formes de u qui contient le point x. La composante

Page 58: Arbelaez these

44

Image u Arbre de formes

FIG. 2.4 – Exemple d’arbre de formes d’une image.

connexe de u contenant x est donnée par :

Cx(u) = y ∈ Ω |Py = Px (2.4.1)

L’arbre de formes est utilisé comme alternative au graphe de composantes dans le Chapitre 4.

Arbre de régions

Un graphe de régions sert à représenter une partition du domaine d’une image. Dans le Cha-

pitre 6, nous nous intéressons à des méthodes de segmentation où les régions d’une partition ini-

tiale sont fusionnées de façon itérative. Un tel algorithme peut s’implanter au moyen d’un RAG,

où la fusion de deux régions connexes se réalise en réunissant les deux sommets correspondants

et en supprimant l’arête qui les joint. Le processus de fusion en entier peut se représenter par un

arbre de régions ordonné selon l’inclusion, comme dans l’exemple de la Figure 2.5.

2.4.4 Distances sur un graphe

Rappelons enfin quatre distances classiques qu’on peut construire à partir des chemins d’un

graphe.

Somme des poids :

d1(x, y) = minπ∈Γxy

∑a∈π

w(a).

Page 59: Arbelaez these

45

FIG. 2.5 – Exemple d’arbre de régions. La fusion de deux régions connexes correspond à lacréation d’un sommet de l’arbre. Les arêtes codifient la relation d’inclusion.

Poids maximum :

d2(x, y) = minπ∈Γxy

maxa∈π

w(a).

Somme des attributs :

d3(x, y) = minπ∈Γxy

∑xi∈π

w(xi).

Attribut maximum :

d4(x, y) = minπ∈Γxy

maxxi∈π

w(xi).

Ces distances peuvent s’interpréter en assimilant le graphe à un réseau routier, où les sommets

représentent des villes, l’attribut le péage pour passer par une ville, les arêtes les routes reliant

les villes et leur poids la distance les séparant. Ainsi, d1 mesure la longueur du plus court chemin

entre deux villes et d3 la somme à payer pour emprunter le chemin le moins cher. De même,

d4 mesure le plus petit péage maximum sur les chemins entre deux villes, et d2 la plus petite

distance maximum entre deux villes consécutives des chemins.

Les distances précédentes peuvent se calculer à l’aide d’un algorithme de chemins minimaux

classique comme celui de Dijkstra [Dij59, KR99].

Dans la troisième partie du mémoire, nous construirons un autre type de distances, les ultra-

métriques, sur un graphe de régions.

Page 60: Arbelaez these

46

Page 61: Arbelaez these

Deuxième partie

Métriques de chemin

47

Page 62: Arbelaez these

48

Page 63: Arbelaez these

Chapitre 3

Distances pondérées

L’application du cadre métrique requiert la définition de distances spécifiques pour traiter

un problème particulier. Dans le cas de la segmentation, la distance doit se construire à partir

des données de l’image, afin d’être représentative de son information géométrique. Par exemple,

segmenter une image au moyen d’une V-partition euclidienne est inapproprié, car le choix d’un

ensemble de sites et d’un domaine détermine les V-régions, indépendamment de l’information

de l’image.

La question qui se pose est donc comment construire de telles distances. La réponse proposée

dans cette partie du mémoire repose sur l’étude des chemins entre points du domaine de l’image.

Dans ce but, une quantité, interprétée comme une notion d’énergie ou de longueur généralisée,

est mesurée le long des chemins. La distance est alors donnée par le minimum de l’énergie sur

tous les chemins entre deux points.

Dans ce chapitre, nous commençons par préciser la définition des métriques de chemin dans

la Section 3.1, pour ensuite nous intéresser à l’exemple le plus classique de ce type de pseudo-

métriques, les distances pondérées.

49

Page 64: Arbelaez these

50

3.1 Définition des métriques de chemin

Définition 3.1.1. Une structure de longueur pour l’ensemble Ω [Gro99] est une application

e : ΓΩ → R+ qui satisfait les conditions suivantes :

1. e(γ) = 0 si et seulement si γ est constant.

2. Si γ est la concaténation de γ1 et γ2, alors e(γ) = e(γ1) + e(γ2).

3. Si γ : [a, b] → Ω est un chemin et f : [c, d] → [a, b] est un homéomorphisme, alors γ f

est un chemin et e(γ f) = e(γ).

Les deux premières conditions sont la traduction en termes de chemins de la définition de

pseudo-métrique, comme nous le verrons par la suite. La troisième, pour sa part, indique que

e est invariante par changements de paramètre et donc que la longueur est une notion qui agit

directement sur la courbe image du chemin. Notons par ailleurs que la longueur euclidienne

définie en (2.3.1) satisfait la définition précédente.

À partir d’une structure de longueur, on peut définir une distance en considérant sa valeur

minimale sur tous les chemins qui relient deux points de l’ensemble Ω :

Définition 3.1.2. La métrique de chemin ψ induite par la structure de longueur e est définie

par :

ψ(x, y) = infγ∈Γxy

e(γ), ∀x, y ∈ Ω.

Vérifions qu’une métrique de chemin est effectivement une pseudo-métrique. Pour la Réflexi-

vité de la Définition 1.2.1, considérons un point x ∈ Ω et le chemin constant γ0 ∈ Γxx défini

par : γ0(t) = x, ∀t ∈ [a, b]. Puisque γ0 est constant, d’après la Définition 3.1.1, e(γ0) = 0 et donc

ψ(x, x) ≤ 0. Le résultat découle de l’hypothèse ψ(x, x) ≥ 0.

Pour prouver l’Inégalité Triangulaire, considérons trois points x, y, z ∈ Ω et notons par Γxzy

l’ensemble des chemins entre x et y obtenus par la concaténation d’un chemin entre x et z et

Page 65: Arbelaez these

51

(a) (b)

FIG. 3.1 – Principe de Fermat

d’un chemin entre z et y. On a alors Γxzy ⊂ Γxy, car l’ensemble des chemins qui passent par z

est un sous ensemble de tous les chemins entre x et y. Donc, d’après l’Axiome 2 de la Définition

3.1.1, on obtient :

ψ(x, y) = infγ∈Γxy

e(γ) ≤ infγ∈Γxzy

e(γ) = infγ1∈Γzx

e(γ1) + infγ2∈Γzy

e(γ2) = ψ(z, x) + ψ(z, y),

où γ est la concaténation de γ1 et γ2.

3.2 Optique géométrique

La notion de chemin minimal trouve son fondement physique dans le domaine de l’optique

géométrique. Nous rappelons dans cette section certains résultats classiques de cette discipline

pour situer les distances pondérées dans notre cadre de travail. Le lecteur trouvera une exposition

détaillée du sujet dans des ouvrages de référence tels [BW80, Sea49, ST91].

Un milieu optique où la vitesse de la lumière est constante est appelé milieu homogène. Un

tel milieu est caractérisé par le nombre n ≥ 1, nommé indice de réfraction et défini par le rapport

entre la vitesse de la lumière dans le vide c0 et sa vitesse c dans le milieu.

Les différentes définitions seront illustrées à l’aide de la Figure 3.1.a, où le point s représente

une source ponctuelle de lumière monochromatique. La ligne horizontale médiane correspond

Page 66: Arbelaez these

52

à l’interface entre deux milieux optiques homogènes différents, représentés en blanc et en gris,

avec indices de réfraction n1 et n2 respectivement.

La loi de réflexion de la lumière est connue depuis l’antiquité : si un rayon lumineux part

de s et atteint l’interface, alors une partie de la lumière est réfléchie et l’angle de réflexion est

égal à l’angle d’incidence. Les deux angles sont notés par θ dans le dessin. Héron d’Alexandrie

remarqua que la réflexion obéit à un principe de minimalité puisque, si les deux angles étaient

différents, le temps de parcours de la lumière et la distance parcourue seraient plus grands.

La loi qui régit la réfraction, la partie de la lumière qui traverse l’interface, mit en revanche

beaucoup plus de temps à être élucidée. Si l’indice de réfraction du milieu gris est plus grand que

celui du milieu blanc alors on observe que, comme dans le schéma, le rayon est "plié" vers la

normale à l’interface. L’angle de réfraction α varie cependant de façon non linéaire avec l’angle

d’incidence. Ce ne fut qu’en 1621 que Snell découvrit que le rapport entre les sinus des angles α

et β dépend uniquement des indices de réfraction des deux milieux optiques.

En 1657, Pierre de Fermat, reprenant l’observation d’Héron, eut l’idée d’expliquer la réfrac-

tion et la réflexion comme deux expressions différentes d’un même principe général qu’il énonça

sous la forme suivante : "La Nature agit toujours par le moindre cours". Ce célèbre principe sou-

leva une controverse philosophique qui se poursuit de nos jours, car il accorde une intentionnalité

à la nature qui semble étrangère à l’idée moderne de science.

Le principe de Fermat est pourtant vérifié en optique, où il implique que la trajectoire suivie

par un rayon de lumière monochromatique pour aller d’un point de l’espace à un autre est celle

qui prend le moins de temps. Ainsi, dans un milieu homogène, le temps de parcours est propor-

tionnel à la distance et le rayon lumineux suit la ligne droite entre les deux points. C’est le cas

par exemple pour les points s et y de la Figure 3.1.a, où le rayon est représenté en bleu.

Pour illustrer le comportement de la lumière lorsque le milieu n’est pas homogène, considé-

rons un rayon lumineux qui va du point s au point x et supposons que l’indice de réfraction du

milieu gris est le plus grand. Alors, le principe de Fermat implique que le rayon passera le plus

Page 67: Arbelaez these

53

de temps possible dans le milieu blanc, où sa vitesse est plus grande, avant de s’engouffrer dans

le milieu gris. La lumière suivra donc la trajectoire noire au lieu de la ligne droite (en pointillé),

car, dans ce cas, le rayon devrait parcourir une plus grande distance à une plus petite vitesse et le

temps de parcours ne serait pas minimal.

Plus formellement, le temps t mis par la lumière pour parcourir une distance d dans un milieu

homogène d’indice de réfraction n est donné par t = d/c = nd/c0. Il est donc proportionnel au

produit nd, appelé la longueur optique du chemin. D’autre part, si le milieu n’est pas homogène,

l’indice de réfraction n(x) est une fonction de la position x. La longueur optique d’un chemin

γ ∈ Γsx entre deux points s et x est donnée dans ce cas par l’intégrale de n le long du chemin :

Lγ(s, x) =

∫ L

0

n(γ(l)) dl, (3.2.1)

où l dénote l’abscisse curviligne.

Remarquons que la longueur optique (3.2.1) satisfait les conditions de la Définition 3.1.1.

Il s’agit donc d’une structure de longueur particulière pour les chemins, qui induit une pseudo-

métrique. D’après la Définition 3.1.2, la métrique de chemin associée à la longueur optique,

nommée la distance optique dans ce contexte, est donnée par la formule :

ψ(s, x) = infγ∈Γsx

Lγ(s, x) = infγ∈Γsx

∫ L

0

n(γ(l)) dl, ∀s, x ∈ Ω. (3.2.2)

Or, d’après le principe de Fermat, la lumière suit le chemin qui minimise le temps de parcours

(et donc la longueur optique), les trajectoires des rayons lumineux sont donc les géodésiques de

la distance optique.

La distance optique apparaît également dans d’autres disciplines telles l’électrostatique et

la planification de trajectoire (path planning). Hors du contexte physique, elle est plus connue

sous le nom de distance pondérée. De même, l’indice de réfraction est généralement appelé une

fonction de potentiel. Notons enfin qu’une distance pondérée induite par un potentiel strictement

positif est, comme dans le cas de l’optique, non seulement une pseudo-métrique, mais aussi une

métrique. L’espace quotient d’une telle distance est donc homéomorphe au domaine.

Page 68: Arbelaez these

54

3.3 Propagation des fronts

Une approche alternative pour l’étude des distances pondérées est celle de la propagation

des fronts. Dans le contexte de l’optique, cette démarche correspond à l’explication duale des

phénomènes lumineux au moyen d’ondes. Dans cette section, nous reprenons le formalisme des

ensembles de niveau introduit par Osher et Sethian [OS88] pour dériver l’équation Eikonale.

On considère, à l’instant t = 0, une courbe planaire, simple, fermée et régulière γ(0) qui re-

présente la frontière entre deux régions. L’objectif est de modéliser l’évolution de cette interface

à travers le temps, en supposant que l’évolution se fait uniquement dans la direction normale à la

courbe, avec une vitesse v connue.

La courbe à l’instant t, γ(t), vue comme un front de propagation, peut être représentée dans

le cadre Lagrangien par son vecteur de position C(l, t) = (x1(l, t), x2(l, t)) ∈ R2 où l dénote

l’abscisse curviligne.

L’évolution du front est donc donnée par l’équation différentielle :

∂C(l, t)

∂t= v−→n (l, t) (3.3.1)

où−→n représente le vecteur normal unitaire externe à la courbe et la condition initiale est C(·, 0) =

γ(0).

En général, la vitesse v peut être déterminée par trois types de facteurs [Set99]. Elle peut

dépendre de l’information géométrique locale, comme la courbure ou la direction de la normale.

Elle peut aussi dépendre des propriétés géométriques globales de la courbe, comme sa forme, sa

longueur ou sa position. Enfin, la vitesse peut être fonction de propriétés externes à la courbe,

comme le milieu dans lequel elle évolue. C’est le cas par exemple pour la propagation de la

lumière.

Ainsi, étant données la position initiale de la courbe γ(0) et sa vitesse v, l’objectif est de

modéliser son évolution. Suivant la formulation par ensembles de niveau d’Osher et Sethian

[OS88], le problème est posé dans le cadre Eulerien, c’est-à-dire en supposant que le système de

Page 69: Arbelaez these

55

coordonnées sousjacent est fixé.

On interprète donc la courbe planaire initiale comme la ligne de niveau zéro d’une fonction

Lipschitzienne φ0 : R2 → R :

γ(0) = x ∈ R2|φ0(x) = 0.

L’approche par ensembles de niveau consiste alors à faire évoluer dans l’espace-temps une fonc-

tion φ : R2×R→ R, appelée fonction de niveau, à partir de φ0 et à modéliser γ(t), la courbe à

l’instant t, comme la ligne de niveau zéro de φ :

γ(t) = x ∈ R2|φ(x, t) = 0.

Cette immersion peut s’exprimer de façon équivalente par :

φ(C(l, t), t) = 0, ∀l ∈ [0, L[. (3.3.2)

On peut alors déduire des propriétés géométriques de la courbe à partir des dérivées spatiales de

φ. Par exemple, la normale externe au front est donnée par −→n = −∇φ/‖∇φ‖.

L’EDP qui régit l’évolution de la courbe (3.3.1) engendre une EDP pour la fonction de niveau

φ. On l’obtient en dérivant (3.3.2) par rapport au temps :

∂φ

∂t+∇φ · ∂C

∂t= 0

L’EDP qui gouverne l’évolution de la fonction de niveau est donc :

∂φ

∂t+ v‖∇φ‖ = 0, (3.3.3)

avec condition initiale φ(·, 0) = φ0(·).Réciproquement, comme conséquence de (3.3.3), toutes les lignes de niveau de φ évoluent

avec une vitesse normale v, en particulier la ligne de niveau zéro qui représente la courbe γ(t).

Considérons à présent le cas spécifique de notre problème, où la vitesse est strictement po-

sitive et dépend uniquement de la position : v = v(x) > 0. Cette condition indique que la

Page 70: Arbelaez these

56

propagation se fait vers l’extérieur ou, en termes mécaniques, que la déformation de la courbe

est causée par une force d’expansion.

Notons par T (x) l’instant où la courbe atteint un point x ∈ R2 :

T (x) = inft>0φ(x, t) = 0.

L’équation d’évolution de la fonction de niveau (3.3.3) peut alors être exprimée dans sa formu-

lation stationnaire [OS88, BF90, FGL94] :

v‖∇T‖ = 1, (3.3.4)

avec condition de bord T (γ0) = 0.

Revenons enfin au cadre de l’optique géométrique de la section précédente où v est la vitesse

de la lumière et posons E = c0T . Alors (3.3.4) devient :

‖∇E‖ = n, (3.3.5)

avec condition de bord E(s) = 0.

L’équation (3.3.5) est connue en optique sous le nom d’Équation Eikonale. Sa solution, la

fonction scalaire E, appelée l’Eikonale, permet de caractériser les trajectoires des rayons lumi-

neux. Géométriquement, (3.3.5) indique que les lignes de niveau de E sont toujours orthogonales

aux rayons. Les caractéristiques (lignes maximales du gradient) de l’Eikonale sont donc paral-

lèles aux rayons et on peut reconstruire la trajectoire entre la source s et un point x en se déplaçant

dans la direction du gradient à partir de x. Ces propriétés peuvent s’observer dans la partie (b) de

la Figure 3.1, où les ensembles de niveau de l’Eikonale associée à l’exemple de la partie (a) sont

présentés.

Au moyen du calcul des variations, Hamilton prouva l’équivalence entre l’Équation Eikonale

et le principe de Fermat [BW80]. Dans le cadre de l’optique d’ondes, on peut aussi prouver

que l’Équation Eikonale est le cas limite de l’Équation d’Helmholtz lorsque la longueur d’onde

Page 71: Arbelaez these

57

tend vers zéro. Pour de petites longueurs d’onde, l’Eikonale est donc proportionnelle à la phase

de l’onde lumineuse et ses lignes de niveau sont parallèles aux fronts d’onde [ST91]. On peut

observer le rapprochement des lignes de niveau de E dans la partie inférieure de la Figure 3.1.b,

traduisant une diminution de la vitesse normale au front.

3.4 Implantation par Fast Marching

Les sections précédentes ont décrit deux approches duales pour aborder le même problème

[CK97, Coh03].

D’une part, la définition d’une fonction de potentiel P : Ω → R+ (l’indice de réfraction en

optique) détermine une distance pondérée ψ : Ω × Ω → R. La distance à un site s ∈ Ω, notée

U , est donnée par la formule :

U(x) = ψs(x) = ψ(s, x) = infγ∈Γsx

∫ L

0

P (γ(l)) dl, ∀x ∈ Ω. (3.4.1)

D’autre part, le problème de minimisation (3.4.1) est équivalent à la résolution de l’équation

Eikonale :

‖∇U‖ = P, avec la condition de bord U(s) = 0. (3.4.2)

Dans cette section, nous présentons l’algorithme du Fast Marching, introduit par Sethian

[Set96, Set99] pour construire la solution de viscosité de (3.4.2).

Une des principales difficultés qui se posent pour la résolution de cette équation différentielle

non linéaire est que les solutions peuvent ne pas être différentiables, même avec des conditions

de bord régulières. Par conséquent, les schémas de différences finies classiques ont tendance à

diverger et sont instables. La méthode du Fast Marching contourne cette difficulté en discrétisant

l’équation (3.4.2) au moyen du schéma décentré amont suivant :

(maxUi,j − Ui−1,j,Ui,j − Ui+1,j, 0)2 + (maxUi,j − Ui,j−1,Ui,j − Ui,j+1, 0)2 = P 2i,j (3.4.3)

Page 72: Arbelaez these

58

Cette technique permet de trouver Ui,j , la valeur de la solution de viscosité correcte de (3.4.2) à

chaque point (i, j) de la grille.

L’idée de base du Fast Marching est d’introduire un ordre dans la sélection des points de la

grille. Cet ordre repose sur le fait que l’information se propage vers l’extérieur dans une seule

direction, car la valeur de U ne peut qu’augmenter du fait de la nature quadratique de l’équation

(3.4.3). L’algorithme est détaillé dans le Tableau 3.1.

TAB. 3.1 – Algorithme du Fast Marching• Définitions Points Alive : points où la valeur de U est déterminée et ne changera plus. Points Trial : prochains points de la grille à être examinés. Une estimation de U en ces points

a déjà été faite à l’aide de (3.4.3), en utilisant uniquement l’information des points Alive. Points Far : tous les autres points de la grille, où U n’a pas encore été estimée.

• Initialisation Points Alive : le site s, U(s) = 0. Points Trial : les quatre voisins v de s avec valeur initiale U(v) = P (v). Points Far : tous les autres points p de la grille, avec U(p) = ∞.

• Boucle Tant que l’ensemble Trial n’est pas vide : Soit p le point Trial avec la valeur de U la plus faible. Enlever p des points Trial et le mettre avec les points Alive. Pour chaque voisin v de p :

– Si v est Far, l’ajouter à l’ensemble Trial.– Si v est Trial, mettre à jour U(v) avec l’équation (3.4.3)

Précisons à présent la résolution de (3.4.3). Pour cela, considérons les deux couples de voisins

opposés du point p en 4-connexité, dénotés par A1, A2 et B1, B2, de sorte qu’on puisse les

ordonner : U(A1) ≤ U(A2), U(B1) ≤ U(B2) et U(A1) ≤ U(B1).

Puisqu’on a Ui,j ≥ U(B1) ≥ U(A1), on déduit de (3.4.3) l’équation :

(Ui,j − U(A1))2 + (Ui,j − U(B1))

2 = P 2i,j (3.4.4)

Le test du discriminant de l’équation quadratique (3.4.4) fournit donc le critère suivant :

– Si Pi,j > U(B1)− U(A1), la solution de (3.4.4) est :

Ui,j =U(B1)+U(A1)+

√2P 2

i,j−(U(B1)−U(A1))2

2.

Page 73: Arbelaez these

59

– Sinon, la solution est :

Ui,j = U(A1) + Pi,j .

L’ensemble de points Trial est souvent appelé la bande étroite (narrow band, en anglais) et

représente le front de propagation. Du point de vue pratique, on peut l’implanter efficacement au

moyen d’une structure min-heap [KR99]. La complexité de l’algorithme est donc O(Nlog(N)),

où N dénote le nombre total de pixels dans la grille. Si, en plus, on utilise une précision finie,

alors la complexité est réduite à O(N).

Remarquons que le Fast Marching n’est qu’une modification de l’algorithme pour la construc-

tion de chemins de longueur minimale entre deux noeuds d’un graphe [Dij59]. La différence

réside dans la formule pour l’actualisation de la distance (3.4.3), qui garantit la convergence de

U vers la solution de viscosité de l’équation Eikonale.

Comme tout algorithme de propagation d’une information sur un graphe, le Fast Marching

peut s’étendre facilement d’un site unique à un ensemble de sites. Dans ce but, la propagation

peut se réaliser en parallèle ou séquentiellement. Dans le premier cas, la seule modification de

l’algorithme du Tableau 3.1 est l’initialisation, où tous les sites sont considérés Alive et tous leurs

voisins Trial. Dans le deuxième cas, on calcule tour à tour la distance à chacun des sites et on

considère le minimum en chaque point. Notons qu’il n’est pas nécessaire de calculer chaque fois

U sur la totalité du domaine, mais qu’une propagation partielle (tant que la distance au site actuel

est inférieure à celle déjà calculée) suffit. Cette astuce rend la méthode séquentielle envisageable

dans le cas d’un nombre élevé de sites, même si le coût de calcul demeure supérieur à celui de la

propagation en parallèle.

La propagation à partir d’un ensemble de sites est en particulier nécessaire pour la construc-

tion de diagrammes de Voronoï. Dans ce but, une étiquette est assignée à chacun des sites et

propagée en même temps que la distance. Remarquons que la valeur de la distance est, heureuse-

ment, la même pour les deux méthodes, mais des différences peuvent se présenter au niveau de

l’assignation des étiquettes du V-diagramme. En effet, dans la méthode en parallèle, l’étiquette

Page 74: Arbelaez these

60

des points à distance égale d’au moins deux sites dépend de leur ordre d’entrée dans la bande

étroite. Chaque point de la frontière entre deux V-régions est donc assigné arbitrairement à l’une

ou à l’autre. En revanche, avec la méthode séquentielle, la totalité de la frontière commune est

assignée à l’une des deux régions. Cette différence est parfois significative et nous utiliserons

dans la suite la construction séquentielle pour les V-diagrammes des distances pondérées.

3.5 Segmentation par distances pondérées

Dans le contexte de l’analyse d’images, les thèmes exposés dans les pages précédentes ont

servi de cadre unificateur à des approches provenant d’horizons différents. Considérons par

exemple le potentiel constant P ≡ 1. La distance pondérée correspondante, définie par :

ψ(x, y) = infγ∈Γxy

∫ L

0

dl , (3.5.1)

est appelée la distance géodésique en morphologie mathématique [SM94]. Celle-ci mesure la

longueur euclidienne du plus court chemin entre x and y. Si le domaine est de surcroît convexe

pour ε, alors ψ coïncide avec la distance euclidienne usuelle.

Alternativement, l’ensemble de niveau t de la distance (3.5.1) à un ensemble délimité par une

courbe γ0 correspond au front de propagation de la courbe avec vitesse normale v ≡ 1. La défor-

mation de γ est donc causée dans ce cas par la force de pression introduite par Cohen [Coh91].

Cette évolution coïncide par ailleurs avec la dilatation multi-échelles de la courbe initiale, lorsque

l’élément structurant est le disque euclidien [AGLM93, BS94, BM94].

L’utilisation des distances pondérées en analyse d’images passe par la définition d’un po-

tentiel approprié pour traiter un problème particulier. Parmi les principales applications de cette

approche on peut citer le shading from shape [VV90], le shape from shading [KB95], la mor-

phologie mathématique continue [KKB96, MB00] et le regroupement perceptuel [Coh01].

Dans le contexte de la segmentation, certaines techniques se fondent sur l’utilisation des

Page 75: Arbelaez these

61

géodésiques d’une distance pondérée [CK97, Coh05]. Cette section passe en revue quelques

unes des méthodes de segmentation en régions fondées sur ce type de distances.

3.5.1 Partitions par seuillage

La motivation pour appliquer la théorie d’évolution des courbes à la segmentation est la

même que pour les modèles de contours actifs [KWT87, Ter87]. Intuitivement, la courbe évolue

à partir d’une position initiale et sous l’influence de forces internes et externes, pour se placer sur

les bords de la caractéristique qu’on veut extraire de l’image. Ainsi, la vitesse normale au front

doit être définie de sorte que la courbe se propage très rapidement dans les régions homogènes

et s’arrête sur les contours des objets ou autres lignes caractéristiques. Si on suppose que l’ho-

mogénéité est quantifiée par le module du gradient de l’image originale, ce comportement peut

s’obtenir en définissant une vitesse de la forme :

v = f(‖∇(u)‖),

où f : R+ → R+ est une fonction décroissante. On peut par exemple choisir la vitesse suivante

[MSV95, CK97, Set99] :

v =1

‖∇(Gσ ∗ u)‖+ w,

où l’expression Gσ ∗ u dénote la convolution de l’image originale u avec une gaussienne d’écart

type σ. Un tel filtrage est réalisé dans le but de bien-poser la différenciation. Le potentiel associé

à cette vitesse est donné par :

P =1

v= ‖∇(Gσ ∗ u)‖+ w

Une courbe évoluant à partir d’un site s avec vitesse v correspond donc aux lignes de niveau

de la fonction :

U(x) = Ww(s, x),

Page 76: Arbelaez these

62

où la distance pondérée Ww est donnée par la formule :

Ww(x, y) = infγ∈Γxy

∫ L

0

P (γ(l)) dl = infγ∈Γxy

∫ L

0

‖∇(Gσ ∗ u)(γ(l))‖ dl + infγ∈Γxy

∫ L

0

w dl. (3.5.2)

On constate que l’évolution de la courbe est régie par deux forces. La première est externe et

mesure l’attache aux données, tandis que la deuxième force contrôle la régularité de la courbe

en imposant une pénalité, pondérée par la constante w > 0, sur la longueur euclidienne des

chemins. Notons par ailleurs que l’inclusion de ce terme garantit que le potentiel est strictement

positif. Par conséquent, la vitesse est toujours finie et la pseudo-métrique une métrique.

La Figure 3.2 présente un exemple de segmentation par cette méthode. La ligne 1 montre le

module du gradient de l’image lissée (le terme d’attache aux données du potentiel) et l’empla-

cement du site. La variance de la gaussienne est fixée à σ = 1. Les lignes 2 à 4 présentent la

distance au site en image des intensités (gauche), le même résultat quantifié en 10 niveaux et en

fausses couleurs (centre) et une partition par seuillage (droite). Le paramètre w, qui contrôle la

régularité de la courbe, augmente de haut en bas : w1 = 0.001, w2 = 0.005 et w3 = 0.01.

Lorsque le paramètre régularisateur est très faible (w = w1), l’évolution de la courbe est

guidée principalement par le gradient. L’information se propage rapidement à toute l’image par

les endroits où le gradient est faible et on observe des "fuites", par exemple dans les jambes du

photographe ou dans le trépied. Les plus grandes distances se situent sur les contours prononcés,

qui forment des "îles" (observables aussi sur l’aire des jambes), autour desquelles les lignes de

niveau de la distance au site se referment.

Au fur et à mesure que w croît, la prise en compte de la longueur euclidienne des chemins

dans la distance augmente l’isotropie des ensembles de niveau et réduit les fuites. Un point

d’équilibre est atteint pour la valeur w2. Notons cependant que, à cause de la forme allongée de

la silhouette humaine, la partie supérieure n’est extraite que partiellement et la partie inférieure

présente toujours des fuites.

Page 77: Arbelaez these

63

‖∇(Gσ ∗ u)‖ site s

Ww1s Ww1

s Π(Ww1 , s, 0.1)

Ww2s Ww2

s Π(Ww2 , s, 0.3)

Ww3s Ww3

s Π(Ww3 , s, 0.3)

FIG. 3.2 – Partitions par seuillage d’une distance pondérée

Page 78: Arbelaez these

64

Enfin, pour des valeurs de w élevées, Ww se rapproche de plus en plus de la distance eu-

clidienne et les ensembles de niveau deviennent circulaires. Les plus grandes distances pour w3

sont situées sur la frontière du domaine. On commence à observer des fuites sur les contours les

plus proches du site, la distance euclidienne prédominant sur l’information du gradient.

Cette méthode nécessite donc la connaissance préalable des caractéristiques géométriques

des objets qu’on veut extraire de l’image pour l’ajustement du paramètre w.

L’efficacité algorithmique du Fast Marching et son extension immédiate aux dimensions su-

périeures ont permis l’utilisation de cette technique en analyse d’images médicales 3D. Elle est

notamment employée dans [MSV95, Set99] pour obtenir une segmentation initiale qui est en-

suite raffinée en utilisant des vitesses plus complexes. Elle est aussi utilisée pour l’extraction de

formes anatomiques tubulaires dans [DC01], avec un potentiel de la forme :

P = eα‖∇(Gσ∗u)‖, α > 0

3.5.2 Partitions de Voronoï

La Figure 3.3 présente un exemple de partitions de Voronoï avec la distance pondérée Ww.

L’ensemble de sites S a été choisi manuellement. La Ligne 2 montre les images des intensités

de la distance à l’ensemble S, la Ligne 3 les partitions de Voronoï correspondantes et la ligne

4 les mosaïques. La valeur du paramètre est, de gauche à droite : w1 = 0.0001, w2 = 0.001

et w3 = 0.01. On peut observer les mêmes effets que dans l’expérience de la Figure 3.2. Au

fur et à mesure que le poids w augmente, le terme de régularité du potentiel prend l’ascendant

sur le terme d’attaches aux données et Ww se rapproche de la distance euclidienne. On constate

l’apparition de zones sombres (indiquant une grande distance à S) sur l’image des intensités

dans des régions homogènes (par exemple, sur le ciel à droite) et une plus grande isotropie

des V-partitions. Remarquons que la prise en compte de la longueur euclidienne des chemins

dans la distance devient une limitation dans cet exemple. D’une part, l’interaction des sites rend

Page 79: Arbelaez these

65

‖∇(Gσ ∗ u)‖ Ensemble de sites S

Ww1S Ww2

S Ww3S

Π(Ww1 , S) Π(Ww2 , S) Π(Ww3 , S)

FIG. 3.3 – V-partitions d’une distance pondérée

Page 80: Arbelaez these

66

l’extraction de formes allongées comme la silhouette humaine encore plus difficile que pour le

cas d’un site unique. D’autre part, à cause de l’éloignement (dans le sens de ε) des sites s1 et s2,

la région du ciel est fractionnée en deux parties pour toutes les valeurs du w.

L’exemple précédent illustre les limitations de cette approche pour la segmentation de bas

niveau. Une amélioration a été proposée dans [Des01], dans le cadre de la segmentation inter-

active d’images médicales. L’idée principale de cette méthode, appelée par l’auteur compétition

des fronts est la suivante :

1. Choisir manuellement un ensemble de sites s1, ...sn

2. Définir un potentiel différent pour chaque site P1, ..., Pn

3. Déterminer les régions au moyen du Fast Marching.

Le potentiel proposé dans cette référence est le suivant :

Pi(x) = maxu(x)− u(si), 0)+ w, ∀x ∈ Ω, ∀i ∈ [1, ..., n] .

La vitesse du front est donc inversement proportionnelle à la différence entre le niveau de gris du

site et les autres points de l’image.

On peut donc définir une carte d’action minimale pour chaque site , donnée par la distance

pondérée à si :

Ui(x) = infγ∈Γsix

∫ L

0

Pi(γ(l))dl

Et une carte d’action minimale globale :

U(x) = mini=1,...,n

Ui(x) .

dont les bassins versants des sites correspondent aux régions de la partition.

La Figure 3.4 montre un exemple des segmentations obtenues avec cette méthode [Des01].

L’image originale, à gauche, est une image de rayons X du ventricule gauche du coeur. Le résultat

se trouve à droite, où les points blancs représentent les sites.

Page 81: Arbelaez these

67

FIG. 3.4 – Segmentation par compétition des fronts

3.5.3 Remarques

Les méthodes de segmentation fondées sur les distances pondérées possèdent plusieurs ca-

ractéristiques intéressantes. En plus des liens avec la physique, la modélisation par équations

aux dérivées partielles permet de construire des solutions cohérentes avec le cadre continu et de

précision sous-pixellique. En outre, la faible complexité computationnelle du Fast Marching par

rapport à la méthode des Level-sets générale facilite son application aux dimensions supérieures.

Cependant, pour pouvoir interpréter la propagation d’une courbe comme une distance, le

signe de la vitesse normale au front doit être constant. Ainsi, le rang de vitesses qui peuvent être

utilisées avec le Fast Marching est réduit en comparaison aux Level-sets. De plus, puisque la

propagation se fait sur toute l’image, le choix d’un critère d’arrêt s’avère nécessaire, or celui-ci

ne peut souvent se faire que par inspection visuelle du résultat.

D’autre part, l’isotropie des lignes de niveau peut aussi devenir un inconvénient dans le cas

de structures à forme allongée ou complexe, comme dans les exemples des Figures 3.2 et 3.3.

Pour corriger le problème des "fuites", les auteurs de [DC01] proposent une méthode où le front

de propagation est "gelé" après un certain temps. De même, dans [DL03, PWKB02], les auteurs

modifient le Fast marching pour privilégier une direction de propagation.

Page 82: Arbelaez these

68

En conclusion, les méthodes de segmentation passées en revue dans cette section sont dif-

ficilement exploitables pour la segmentation générale de bas niveau. À l’instar des modèles de

contours actifs, leurs caractéristiques les rendent plus appropriées pour des applications où on

dispose d’une plus grande quantité d’information sémantique. C’est le cas par exemple en ima-

gerie médicale, ou la connaissance préalable de la géométrie des objets, la régularité de leurs

contours ou le type d’images peut s’incorporer dans la définition du potentiel.

Page 83: Arbelaez these

Chapitre 4

Variation de chemin

4.1 Introduction

L’introduction de la notion de variation totale pour les fonctions d’une variable remonte aux

travaux de Jordan en 1881 [Jor81]. Depuis, cette fonctionnelle a été appliquée dans plusieurs

branches des mathématiques [Leb28, Nat64] ; en particulier, elle se trouve à la base de la théorie

de l’intégrale de Stieltjes. Dans le cadre régulier, la variation totale d’une fonction f : [0, L] → R

est donnée par [HS69] :

v(f) =

∫ L

0

|f ′(l)| dl . (4.1.1)

De nombreuses généralisations de la variation totale pour les fonctions de plusieurs variables

ont été proposées : Variation de Arzela, Variation de Vitali, Variation planaire de Tonelli, Varia-

tion planaire de Kronrod, etc.

Lorsque la fonction u : Ω ⊂ Rn → R est de classe C1(Ω), une extension naturelle de (4.1.1)

consiste à remplacer la valeur absolue de la dérivée par le module du gradient :

TV (u) =

Ω

‖∇u(x)‖ dx . (4.1.2)

Dans le cas général, la variation totale d’une fonction u ∈ L1(Ω) est définie au moyen de la

69

Page 84: Arbelaez these

70

dérivée au sens des distributions [EG92] :

TV (u) = sup∫

Ω

udivφdx |φ ∈ C1c (Ω,Rn), ‖φ‖ ≤ 1. (4.1.3)

Dans le contexte de l’analyse d’images, la variation totale a été considérée pour la première

fois par Osher et Rudin [OR90, RO94]. La représentation des images proposée par ces auteurs

sous la forme u = u1 +u2, où u1 est une fonction à variation totale bornée qui contient essentiel-

lement l’information géométrique de l’image et u2 est un terme dû au bruit et aux textures, a été

largement adoptée. Au cours de la dernière décennie, des méthodes fondées sur la minimisation

de la variation totale ont été appliquées avec succès à la restauration d’images et au débruitage

[ROF92, CL97, BC98, DK00].

Dans ce chapitre, nous étudions une notion de variation qui, contrairement à la notion usuelle

de variation totale, est définie pour chaque couple de points du domaine. Plus précisément, nous

considérons la métrique de chemin obtenue en mesurant la variation totale à l’ordre p en tant que

notion de longueur des chemins.

4.2 Définitions

4.2.1 Variation totale

Définissons d’abord la variation totale des fonctions d’une variable lorsque l’espace d’arrivée

est un espace pseudo-métrique.

Soit (X, ψ) un espace pseudo-métrique. On considère une subdivision finie de l’intervalle

[a, b], σ = t0, ..., tn telle que a = t0 < t1 < ... < tn = b et on note Φ l’ensemble de ces

subdivisions.

Définition 4.2.1. La variation totale à l’ordre p, pour 0 < p < ∞, d’une fonction f : [a, b] →

Page 85: Arbelaez these

71

(X,ψ) est définie par la formule :

vp(f) = supσ∈Φ

n∑i=1

ψ(f(ti), f(ti−1))p.

Considérons à présent le cas où l’espace d’arrivée est l’ensemble des nombres réels muni

de la distance usuelle (X,ψ) = (R, ε). Alors, la variation totale à l’ordre 1 coïncide avec la

définition donnée par Jordan :

v(f) = supσ∈Φ

n∑i=1

|f(ti)− f(ti−1)| .

De même, pour 1 < p < ∞, la variation totale à l’ordre p devient la notion étudiée par

Wiener [Wie24].

4.2.2 Variation de chemin

Dans le cas des fonctions de plusieurs variables, et des images en particulier, nous considé-

rons la métrique de chemin associée à la variation totale à l’ordre p. Cette distance est donnée

par le minimum de la variation totale de la fonction sur tous les chemins qui relient entre eux

deux points du domaine :

Définition 4.2.2. La variation de chemin à l’ordre p d’une fonction u : Ω ⊆ Rn → (X,ψ) est

définie par la formule :

Vp(u)(x, y) = infγ∈Γxy

vp(u γ), ∀x, y ∈ Ω.

Remarquons que l’application e = vp u est une structure de longueur dans le sens de

la Définition 3.1.1. La variation de chemin à l’ordre p est donc effectivement une métrique de

chemin.

Par ailleurs, puisque la variation de chemin à l’ordre p est une fonction de deux variables,

sa valeur dépend aussi bien de la fonction u que du couple de points où elle est calculée, en

Page 86: Arbelaez these

72

contraste avec la notion usuelle de variation totale pour les fonctions de plusieurs variables, qui

est une fonctionnelle.

Remarquons en outre que la classe d’équivalence d’un point x ∈ Ω pour Vp(u) coïncide

avec Cx(u), la composante connexe de u qui contient x. L’espace quotient pour la p-variation de

chemin est donc homéomorphe à l’espace des composantes de la fonction :

Ω(Vp(u)) = C(u).

Définition 4.2.3. L’espace des fonctions à p-variation de chemin bornée du domaine Ω, noté

par BV p(Ω) est défini par

BV p(Ω) = u : Ω → (X, ψ) | ∀x, y ∈ Ω, ∃ γ ∈ Γxy : Vp(u)(x, y) = vp(u γ) < ∞ .

Les fonctions considérées dans la suite seront toutes à variation de chemin bornée.

4.3 Propriétés

Dans cette section, nous nous intéressons particulièrement aux propriétés de la variation de

chemin à l’ordre 1. De plus, nous considérons le cas où la fonction u est une image scalaire.

L’espace d’arrivée (X, ψ) est donc (R, ε).

L’interprétation intuitive de la variation de chemin est illustrée dans la Figure 4.1. Considé-

rons une particule qui se déplace sur le graphe de la fonction u, représenté à gauche, à partir

du site s. Alors, comme le montre l’image de droite, la distance à s, Vs(u), évaluée en un point

x ∈ Ω représente la somme minimale de montées et de descentes à parcourir pour atteindre x.

Page 87: Arbelaez these

73

FIG. 4.1 – Haut : Fonctions u et Vs(u). Bas : Leurs graphes.

4.3.1 Variation linéaire

En 1950, Kronrod1 publia une monographie [Kro50] où il propose, selon ses termes, une

théorie géométrique pour les fonctions réelles de deux variables. Une des notions définies dans

cette étude, la variation linéaire entre deux points, exprime la même idée géométrique que la

variation de chemin. Nous précisons dans ce paragraphe le lien entre les deux notions.

1Le mathématicien russe A.S. Kronrod (1921-1986) est souvent connu pour sa formule de quadrature, nomméequadrature de Gauss-Kronrod. Sa carrière fut divisée en deux parties. La première, consacrée aux mathématiquespures, fut couronnée par l’étude dont il est question dans ce paragraphe. Il s’intéressa ensuite aux mathématiquesappliquées et à leur développement au sein de l’ancienne Union Soviétique. Les dernières années de sa vie furentdédiées à la recherche d’un traitement contre le cancer. Une biographie est disponible dans [LY00].

Page 88: Arbelaez these

74

La théorie de Kronrod est construite à partir des composantes, qu’il définit comme compo-

santes connexes des isoensembles de niveau. Les composantes d’une fonction continue sont des

sous-ensembles fermés du domaine, disjoints deux à deux. Si u est de classe C1, alors, pour

presque tous les niveaux, l’isoensemble de niveau t est l’union d’un nombre fini de courbes de

Jordan. Les composantes sont dans ce cas les lignes de niveau de la fonction, les frontières des

ensembles de niveau. La représentation d’une fonction par ses lignes de niveau, nommée carte

topographique de u, est étudiée dans [CCM99].

Kronrod prouve que l’espace des composantes d’une fonction continue est un continuum

de dimension 1 qui est plat, localement connexe et ne contient pas de sous-ensembles homéo-

morphes à un cercle. Il s’agit donc d’un arbre dans le sens topologique, que nous appelons arbre

de composantes de u et notons C(u). L’arbre possède au plus un nombre dénombrable de points

terminaux et de points de ramification ; les premiers sont les composantes qui ne divisent pas

le domaine (les extrema et certaines singularités) et les seconds sont celles qui le divisent en

au moins trois parties. Par exemple, l’arbre de la fonction de la Figure 4.1 est homéomorphe à

quatre segments, représentant les quatre pics, qui se rencontrent en un point de ramification, la

composante du point selle.

L’intérêt de l’arbre de composantes est de permettre l’étude de certaines propriétés des fonc-

tions de deux variables en tant que propriétés des fonctions définies sur un espace de dimension

1. Dans ce but, on définit la fonction u∗ : C(u) → R donnée par

u∗(τu(x)) = u(x), ∀x ∈ Ω, (4.3.1)

où τu dénote la projection naturelle qui assigne à tout point de Ω sa composante sur C(u).

La fonction de multiplicité de u entre deux points x, y ∈ Ω, notée φuxy : R → N ∪ ∞, est

donnée par :

φuxy(t) = #(Dxy(t)),

où Dxy(t) désigne l’ensemble des composantes de niveau t qui séparent x et y.

Page 89: Arbelaez these

75

La variation linéaire de u entre x et y est définie par :

Vu(x, y) =

Rφu

xy(t)dt .

Intuitivement, la variation linéaire compte le nombre de composantes qui séparent les deux

points.

La caractérisation de la variation linéaire en termes de chemins est la suivante :

Vu(x, y) = supn∑

t=1

|u(at)− u(at−1)|

où le supremum est calculé sur toutes les séquences de points de Ω, x = a0, a1, ..., an = y, telles

que Cat(u) sépare Cat−1(u) et Cat+1(u) pour tout t = 1, ..., n− 1.

Kronrod prouve que la variation linéaire correspond à la variation totale sur l’arbre de com-

posantes. Plus précisément, la variation linéaire de u entre deux points x et y est égale à la

variation totale de la restriction de u∗ sur l’arc de C(u) entre les composantes Cx(u) et Cy(u).

La variation linéaire est donc une notion essentiellement mono-dimensionnelle des fonctions de

deux variables.

Ainsi, pour une fonction continue, la variation linéaire coïncide avec la variation de chemin

à l’ordre 1. Nous utiliserons cette définition dans une des implantations de V dans le domaine

discret.

La Figure 4.2 montre un exemple de V-partition de la variation de chemin avec une image

continue, donnée par la formule u(x) = c · ε(x, s0). L’ensemble de sites est dans ce cas S =

s0, s1, où s0 est le sommet supérieur gauche du domaine rectangulaire et s1 est le sommet

inférieur droit. L’arbre de composantes C(u) est donc homéomorphe à un segment, où les extré-

mités sont les composantes des deux sites. La colonne gauche présente en haut le graphe de u et

en bas celui de VS(u). La colonne centrale montre les images des intensités respectives. Notons

que les composantes de u et de VS(u) sont dans ce cas les mêmes et seul leur niveau est modifié.

On peut observer en haut de la colonne droite la partition de Voronoï Π(V(u), S) = V0, V1

Page 90: Arbelaez these

76

u u Π(V1(u), S)

V1S(u) V1

S(u) Π(V1(u), S)

FIG. 4.2 – Exemple de V-partition induite par la variation de chemin.

et, en bas, l’image mosaïque obtenue avec l’intensité des sites pour modèle. Le diagramme de

Voronoï ∆(V(u), S), la courbe noire, est la composante dont le niveau est la moyenne de ceux

des sites.

4.3.2 Cadre régulier

Ce paragraphe présente une caractérisation de la variation de chemin pour les fonctions conti-

nûment différentiables.

Un chemin γ est monotone pour u si la fonction u γ est monotone. Par définition, si un che-

min est monotone pour u, alors il est une géodésique de V(u). Réciproquement, toute géodésique

de V(u) résulte de la concatenation de chemins monotones.

Dans le cadre régulier, la variation de chemin peut s’exprimer comme l’intégrale d’une fonc-

tion de potentiel :

Page 91: Arbelaez these

77

Proposition 4.3.1. Si u ∈ BV 1(Ω)⋂ C1(Ω), alors la variation de chemin de u est donnée par :

V(u)(x, y) = infγ∈Γxy

∫ L

0

|Dτu(γ(l))| dl, ∀ x, y ∈ Ω , (4.3.2)

où Dτu dénote la dérivée directionnelle de u dans la direction τ tangente au chemin.

Démonstration. La preuve est déduite de la réécriture de la Définition 4.2.2 dans le cas régulier.

Si f ∈ C1([a, b]), alors sa variation totale peut s’exprimer en termes de sa dérivée par la

formule [HS69] :

v(f) =

∫ b

a

|f ′(t)| dt .

Donc, si u est une fonction continûment différentiable, alors la Définition 4.2.2. devient :

V(u)(x, y) = infγ∈Γxy

∫ b

a

∣∣∣∣⟨

Du(γ(t)),γ(t)

‖γ(t)‖⟩∣∣∣∣ ‖γ(t)‖dt ,

où < ·, · > dénote le produit scalaire de R2.

Ainsi, si l’on considère l’abscisse curviligne l, alors la variation de chemin peut s’écrire

comme :

V(u)(x, y) = infγ∈Γxy

∫ L

0

|Dτu(γ(l))| dl ,

où τ dénote le vecteur unitaire tangent au chemin.

On obtient donc une expression de la variation de chemin similaire aux distances pondérées

(3.4.1). La différence réside dans le fait que la fonction de potentiel P = |Dτu| dépend non

seulement du point, mais aussi de la direction tangente au chemin.

4.4 Domaine discret

Nous proposons dans cette section deux méthodes pour mesurer la variation de chemin d’une

fonction échantillonnée sur une grille uniforme. Elles diffèrent essentiellement par la relation

Page 92: Arbelaez these

78

privilégiée (connexité ou inclusion) dans la définition discrète de composante connexe. La pre-

mière approche consiste à identifier les composantes connexes aux zones plates de la fonction.

L’espace des composantes peut alors être représenté par un graphe de composantes. La deuxième

approche repose pour sa part sur la définition des composantes à partir des ensembles de niveau.

L’espace C(u) est dans ce cas représenté par un arbre de formes. L’algorithme utilisé pour calcu-

ler la distance est dans les deux cas le même, un algorithme de chemins minimaux sur un graphe,

mais les résultats sont sensiblement différents.

4.4.1 Construction par connexité

La première construction se fonde sur la définition discrète de la variation de chemin. Pour

une image définie sur une grille uniforme, le choix d’une connexité (usuellement 4, 6 ou 8

connexité) détermine une classe de chemins discrets sur le graphe de pixels. On peut alors dé-

finir une composante utilisant ces chemins dans l’équation (2.2.1). Les composantes connexes

discrètes sont dans ce cas définies comme les zones plates de l’image. L’espace de composantes

de la fonction u, C(u), peut donc se représenter par un graphe de composantes G, où les sommets

correspondent aux zones plates et chaque arête relie deux composantes voisines.

Un chemin sur G qui relie entre elles les composantes de deux points x et y est un ensemble

de composantes γ = C0, ..., Cn tel que x ∈ C0, y ∈ Cn, Ci et Ci−1 sont voisines, ∀ i = 1, ..., n.

L’ensemble de ces chemins est noté ΓGxy. Chaque élément de ΓG

xy correspond donc à une famille

de chemins discrets sur le graphe de pixels entre x et y.

Ainsi, l’expression de la variation de chemin à l’ordre p de u devient :

Vp(u)(x, y) = minγ∈ΓG

xy

n∑i=1

ψ(u(Ci), u(Ci−1))p .

Par suite, le calcul de Vp(u)(x, y) revient à trouver un chemin de coût minimal sur un graphe.

Ce problème classique peut être résolu en utilisant un algorithme "glouton" comme celui de

Dijkstra [Dij59, KR99]. La complexité computationnelle de cette implantation de la variation de

Page 93: Arbelaez these

79

chemin est donc O(Nlog(N)), où N dénote le nombre total de composantes discrètes de l’image.

Si l’on considère de surcroît une précision finie, le pas d’actualisation de la bande étroite peut

être évité et la complexité devient linéaire : O(N). Notons par ailleurs que cette construction

peut s’appliquer indistinctement aux images scalaires et vectorielles.

Fast Marching

La dépendance du potentiel (4.3.2) par rapport la direction du chemin empêche l’applica-

tion directe de l’algorithme du Fast Marching pour implanter la variation de chemin. Cependant,

comme nous l’avons remarqué, les géodésiques de la distance topographique sont aussi des géo-

désiques de la variation de chemin. On peut donc envisager de calculer V(x, y) en mesurant la

variation totale à l’ordre p de u sur une géodésique pour la distance W entre x et y.

Ainsi, pour déterminer la variation de chemin à un site s, Vs, on peut calculer Ws (par

exemple au moyen du Fast Marching), trouver une géodésique entre s et chaque point du do-

maine (par descente du gradient de Ws) et mesurer sa variation totale à l’ordre p. Notons par

ailleurs que, puisque le Fast Marching construit les géodésiques pendant la propagation, la va-

leur de Vs peut s’estimer au même temps que celle deWs, sans augmenter la complexité compu-

tationnelle de l’algorithme. Néanmoins, sur des images naturelles, la perte d’information due à

l’approximation de l’opérateur de différenciation ne nous a pas permis d’établir une supériorité

manifeste de cette méthode sur la construction précédente.

4.4.2 Construction par inclusion

La deuxième méthode de construction de la variation de chemin est inspirée par les travaux

de Kronrod. Dans ce but, nous interprétons l’arbre de formes de Monasse [Mon00] comme une

extension de l’arbre de composantes pour les fonctions semi-continues.

Cette approche repose donc sur l’identification de la composante connexe d’un point x à

l’ensemble de points dont la plus petite forme de l’arbre qui les contient est la même que celle de

Page 94: Arbelaez these

80

image détail connexité inclusion

FIG. 4.3 – Comparaison des deux constructions de la variation de chemin

x (voir équation (2.4.1)). Notons que cette définition diffère de la précédente, notamment parce

qu’une composante peut ici ne pas être connexe dans le sens des connexités discrètes usuelles.

La fonction u∗ de l’équation (4.3.1) est alors définie comme le niveau de chaque forme. La

variation de chemin entre deux points est donnée par la variation totale à l’ordre p de u∗ sur

l’unique chemin de l’arbre joignant les plus petites formes des deux points. Elle peut donc se

calculer aussi au moyen d’un algorithme de chemins minimaux sur un graphe, avec une com-

plexité computationnelle O(Mlog(M)), où M dénote le nombre total de formes de l’arbre.

L’intérêt de cette construction par rapport à la précédente est illustrée dans la Figure 4.3.

L’image de cet exemple est un noyau gaussien et le site a été placé dans une région à fort gra-

dient. La ligne d’en bas présente les mêmes résultats que celle d’en haut, mais en table de cou-

leurs aléatoires. Dans ce cas, l’information de connexité n’est pas suffisante pour reconstruire la

structure géométrique de l’image. Puisque la norme du gradient au voisinage du site est grande,

sa composante connexe est fractionnée par la discrétisation. Les fragments sont des zones plates

différentes et la construction par connexité propage une erreur dans la valeur de la distance. En

revanche, la méthode par inclusion calcule dans ce cas la valeur exacte de la variation de chemin.

Page 95: Arbelaez these

81

Sites inclusion connexité

FIG. 4.4 – Comparaison des deux constructions de la variation de chemin

On peut observer que cette construction préserve les lignes de niveau originales et modifie uni-

quement leur niveau. Remarquons cependant que, si le site est placé sur le maximum de l’image,

les deux constructions donnent la valeur exacte de V .

Un problème de la construction par inclusion pour notre application est que, lorsqu’on crée

une partition de Voronoï à partir d’un ensemble de sites, on segmente en réalité l’arbre de formes.

Les V-régions sont par conséquent des sous-ensembles connexes de l’arbre, mais pas forcément

du domaine de l’image. On ne peut donc pas garantir qu’une V-partition avec n sites comporte

le même nombre de V-régions. Cette propriété est en revanche satisfaite par la méthode par

connexité, qui segmente le graphe de composantes. On peut observer un exemple dans la Figure

4.4, où l’ordre a été fixé à p = 2. La région de Voronoï correspondant au ciel (site s1) comporte

dans ce cas plusieurs composantes connexes pour la construction par inclusion, mais une seule

pour la méthode par connexité.

Rappelons en outre que l’arbre de formes est une représentation des images scalaires. La

construction par inclusion pour les images couleur nécessiterait par conséquent la généralisation

de cette structure aux images vectorielles, tâche délicate car elle se fonde sur l’ordre de l’espace

d’arrivée (R, ε).

Page 96: Arbelaez these

82

4.5 Segmentation par variation de chemin

Nous présentons dans la fin de ce chapitre quelques expériences de segmentation avec la

variation de chemin. Sauf indication contraire, la méthode employée pour implanter la distance

est l’approche par connexité.

4.5.1 Partitions par seuillage

La Figure 4.5 permet d’observer l’influence de l’ordre p sur la variation de chemin. Les

distances au site s, Vps (u), sont présentées dans la colonne gauche sous forme d’images des

intensités et dans la colonne centrale avec une table de couleurs aléatoires. Les images ont été

normalisées pour des raisons de visualisation et quantifiées en 256 niveaux. On peut observer

que l’importance des transitions brusques le long les chemins, par rapport aux transitions faibles,

augmente avec l’ordre p. Ainsi, pour p = 1, une région d’intensité homogène comme le ciel

contient un grand nombre de niveaux quantifiés. En revanche, la même région ne présente plus

qu’un dizaine de niveaux pour p = 2 et un seul pour p = 10. En outre, pour l’ordre p = 1, on

observe des intensités faibles ( et donc une très grande distance au site ) dans la partie inférieure

droite de l’image. Ceci est dû à la présence de texture dans les régions de la pelouse, qui accroît

le poids de la longueur euclidienne des chemins dans la valeur de la distance et donc l’isotropie

des ensembles de niveau. L’effet disparaît aussi lorsque l’ordre p augmente.

La colonne droite de la figure présente des partitions par seuillage de la variation de chemin.

On peut observer que, contrairement à l’exemple des distances pondérées de la Figure 3.2 (p.

63), la variation de chemin permet d’extraire aisément la figure humaine (ou du moins la région

sombre qui la contient) pour tout p. On constate de légères différences entre p = 1 et p = 2, mais

le résultat est similaire à partir de cet ordre.

Page 97: Arbelaez these

83

V1s (u) V1

s (u) Π(V1s (u), 0.2)

V2s (u) V2

s (u) Π(V2s (u), 0.05)

V10s (u) V10

s (u) Π(V10s (u), 0.2)

FIG. 4.5 – Partitions par seuillage de la variation de chemin

Page 98: Arbelaez these

84

4.5.2 Partitions de Voronoï

Une partition de Voronoï est déterminée par une distance et un ensemble des sites. Dans ce

paragraphe, nous présentons des exemples où les sites sont choisis manuellement dans le but de

déterminer l’utilité pour la segmentation des V-partitions induites par la variation de chemin et

de comparer cette distance à des distances pondérées.

La sélection des sites par un opérateur humain est une façon de contourner le problème de

l’information sémantique dans le processus de segmentation. Dans ce cas, l’opérateur détermine

les caractéristiques géométriques à extraire et traduit cette information préalable par l’empla-

cement des sites. Sur cette idée repose, entre autres, la méthode des marqueurs pour la LPE

[BM92].

En fixant préalablement les sites, la segmentation interactive permet de comparer des dis-

tances par le biais des V-partitions qu’elles engendrent. La Figure 4.6 reproduit l’expérience de

la Figure 3.3 (p. 65), en utilisant la variation de chemin de l’image originale au lieu de la distance

pondérée Ww. L’ordre p de la distance Vp est le paramètre qui varie de gauche à droite. Ses va-

leurs sont p = 1, p = 5 et p = 10 respectivement. La Ligne 1 présente les images des intensités

de la distance à l’ensemble des sites S et la Ligne 2 contient le même résultat, mais en table de

couleurs aléatoire. On peut observer que, lorsque l’ordre augmente, la valeur de VpS(u) devient

très faible sur une grande partie du domaine. Ceci indique que les régions sont homogènes pour

la variation de chemin et que l’information de la distance se concentre progressivement sur les

contours. La ligne 3 présente les partitions de Voronoï et la Ligne 4 les mosaïques associées. En

comparant les résultats à ceux de la Figure 3.3 (p. 65), on constate que les contours obtenus par

la variation de chemin sont généralement significatifs de l’information de l’image. L’importance

relative des transitions faibles diminuant avec l’augmentation de l’ordre, la forme allongée du

photographe est de mieux en mieux extraite. Le résultat est invariant à partir de p = 10.

La Figure 4.7 présente quelques exemples de segmentation interactive avec la variation de

Page 99: Arbelaez these

85

V1S(u) V5

S(u) V10S (u)

Π(V1(u), S) Π(V5(u), S) Π(V10(u), S)

FIG. 4.6 – V-partitions de la Variation de Chemin

Page 100: Arbelaez these

86

FIG. 4.7 – Exemples de segmentation interactive avec la variation de chemin.

Page 101: Arbelaez these

87

u S V1S(u)

Π(V1(u), S) Π(V1(u), S) V1S(u)

FIG. 4.8 – Motivation pour la mosaïque des extrema.

chemin. L’ordre a été fixé à p = 1 pour toutes les images. On peut observer que les V-régions

obtenues représentent correctement les structures marquées. Les contours ne sont pas forcément

réguliers, mais reproduisent fidèlement les données de l’image. Remarquons toutefois que, en

présence d’un faible nombre de sites, cette distance est appropriée pour la segmentation d’images

peu texturées, où les objets sont définis par leur homogénéité de couleur.

4.6 Mosaïque des extrema

4.6.1 Définition

Les algorithmes de segmentation sont généralement plus robustes lorsqu’ils sont appliqués

non pas à l’image originale, mais à une version simplifiée de celle-ci. Ce pré-traitement, souvent

Page 102: Arbelaez these

88

appelé pré-segmentation, est motivé par le fait que les pixels ne sont pas des entités naturelles de

l’image, mais une conséquence du processus de discrétisation. La pré-segmentation cherche donc

à décomposer l’image en entités qui soient locales, plus cohérentes et moins nombreuses que les

pixels et, surtout, qui préservent sa structure géométrique. Parmi les méthodes utilisées à cet

effet, on peut citer les normalized cuts [RM03] ou, en morphologie mathématique, les opérateurs

connexes [CSS+97], la ligne de partage des eaux sans contraintes [MOSV97] et les nivellements

[MM00]. Nous proposons de traiter cette première étape du processus de segmentation au moyen

d’une V-partition induite par la variation de chemin.

Les métriques de chemin obtenues en intégrant une information le long des chemins, comme

les distances pondérées ou la variation de chemin, sont souvent utiles pour un niveau d’analyse

local. Leur définition rend en effet les V-partitions qu’elles engendrent sensibles à l’emplacement

des sites.

Une fois la distance fixée, le problème qui se pose est la sélection d’un ensemble de sites

adéquats pour cette tâche. D’une part, les sites doivent être représentatifs du contenu de l’image.

D’autre part, chaque structure significative doit contenir au moins un site. Dans le cas des fonc-

tions régulières à valeurs réelles, les extrema régionaux sont des candidats naturels. Leur impor-

tance dans la structure géométrique de la fonction est donnée par le fait qu’ils sont des éléments

terminaux de l’arbre de composantes de Kronrod.

Considérons par exemple la fonction régulière u de la Figure 4.8. Une segmentation accep-

table de cette "scène" devrait se composer de quatre régions plus ou moins rondes sur un fond

gris. On pourrait donc représenter les "objets" par leurs extrema et le fond par le bord du do-

maine. La colonne centrale de la figure montre cet ensemble de sites en haut et la partition de

Voronoï avec la variation de chemin en bas. L’image des intensités de la distance aux sites et

son graphe se trouvent dans la colonne droite. On peut apprécier visuellement la qualité de la

reconstruction en bas à gauche.

La structure d’une image réelle peut se représenter localement par une fonction régulière

Page 103: Arbelaez these

89

Image originale Mosaïque des extrema

5

10

15

20

25

30

35

40

45

510

1520

2530

3540

45

0

50

100

150

200

250

5

10

15

20

25

30

35

40

45

510

1520

2530

3540

45

0

50

100

150

200

250

FIG. 4.9 – Exemple de pré-segmentation. Gauche : Image originale, détail et graphe du détail.Droite : Mosaïque des extrema, détail et graphe.

Page 104: Arbelaez these

90

(voir par exemple le détail de la Figure 4.9). Notons cependant que, le nombre d’extrema d’une

image naturelle étant généralement très élevé, l’inclusion du bord du domaine dans l’ensemble

de sites n’est plus appropriée. Si on l’enlève de l’exemple précédent, l’extremum le plus proche

(dans ce cas s3) prend sa place dans la V-partition.

Les propriétés des extrema de la luminosité des images naturelles sont illustrées dans la ligne

2 de la Figure 4.10. On peut observer que la distribution spatiale des extrema (en noir) reflète la

structure géométrique de l’image ; leur densité est importante dans les régions nettes ou texturées

et faible dans les zones floues ou homogènes.

Nous considérons donc la partition de Voronoï Π(Vp(u), ext(u)), où ext(u) désigne l’en-

semble des composantes extrémales du canal de luminosité L∗ de l’image u. Nous appellerons

mosaïque des extrema (ME) de u une reconstruction constante par morceaux de l’image, obte-

nue par l’assignation d’une couleur à chaque V-région de Π(Vp(u), ext(u)).

Les Figures 4.9 et 4.10 présentent des exemples d’application de la méthode sur des images

naturelles. Dans la Figure 4.9, la taille de l’image originale est 512x512 et celle du détail présenté

est 50x50. Le modèle des V-régions est ici la valeur de l’image à l’extremum. La simplification

réalisée par la méthode est tout d’abord exprimée par la réduction du nombre de composantes ;

dans ce cas, l’image originale a 83430 zones plates (en 8-connexité) et la mosaïque en possède

seulement 1253. Dans la Figure 4.10, le pré-traitement est appliqué à des images couleur. Les

première et seconde lignes présentent les images originales et leurs extrema respectivement. La

troisième ligne montre les images des intensités de la distance à l’ensemble des sites, Vpext(u)(u)

et la Ligne 4 les mosaïques des extrema, avec la couleur médiane comme modèle des V-régions.

Puisque les contours flous et les zones de transition entre deux objets ne sont généralement

pas extrémaux, les plus grandes distances sont localisées sur les bords des régions floues. Les

propriétés du pré-traitement sont donc la réduction du flou, la préservation des textures et, surtout,

de l’information des contours. Accessoirement, le contraste des images est rehaussé.

En résumé, le choix de la variation de chemin en tant que pseudo-métrique et la distribution

Page 105: Arbelaez these

91

FIG. 4.10 – Exemples de mosaïque des extrema sur images couleur. De haut en bas : Imagesoriginales, extrema, distance aux sites, mosaïques des extrema

Page 106: Arbelaez these

92

spatiale des sites déterminent une partition de Voronoï où un compromis entre simplification et

conservation de contenu est atteint. La mosaïque associée est une reconstruction de l’image à par-

tir de l’information de ses extrema, qui peut s’interpréter comme un premier niveau d’abstraction

en relation aux pixels. Cette méthode de pré-segmentation est employée systématiquement dans

la troisième partie du mémoire et son utilité sera quantifiée dans la quatrième partie.

4.6.2 Comparaison avec la ligne de partage des eaux

Une caractéristique des techniques de segmentation issues de la morphologie mathématique

est leur fondement intuitif. L’exemple le plus célèbre est sans doute la ligne de partage des

eaux (LPE) [BM92], dont la définition repose sur l’analogie qui assimile le graphe d’une image

scalaire à une surface topographique, en identifiant le niveau de gris à une altitude. À l’origine,

cette notion provient de la géographie, où la LPE d’un relief désigne l’ensemble des points à

partir desquels une goutte d’eau peut atteindre deux vallées différentes.

Une interprétation alternative de la LPE repose sur la simulation d’un processus d’inondation

[Beu90] : le relief est percé aux minima et immergé progressivement dans de l’eau. L’eau inonde

uniformément les vallées, ou bassins versants des minima, et, aux points où deux lacs se ren-

contrent, un barrage est construit. Quand le relief est totalement immergé, l’union des barrages

forme la LPE.

L’approche par inondation a permis le développement des premiers algorithmes performants

pour l’implantation de la LPE [VS90]. Elle a par ailleurs motivé la définition continue de cette

transformation, décrite ci-après.

Cadre régulier

La formalisation de la ligne de partage des eaux dans le domaine continu est due aux travaux

de Najman [Naj94, NS94]. Nous comparons dans ce paragraphe la LPE à la variation de chemin.

Page 107: Arbelaez these

93

On se place dans le cadre des fonctions de Morse. On suppose donc que l’image scalaire g

considérée est de classe C2 et que son hessien a deux valeurs propres non nulles aux points où

son gradient s’annule. L’image g est donc une fonction régulière avec des points critiques isolés.

On appelle distance image [Naj94], ou distance topographique [Mey94], la distance pondérée

associée au potentiel P = ‖∇g‖ et donnée par la formule :

W(g)(x, y) = infγ∈Γxy

∫ L

0

‖∇g(γ(l))‖ dl .

Cette distance est donc le cas limite des distances pondérées Ww définies dans (3.5.2), lorsque

w = 0.

Le résultat suivant est la caractérisation de la LPE dans le cadre métrique [Naj94] :

Proposition 4.6.1. Soit g une image de Morse qui s’annule sur l’ensemble de ses minima régio-

naux, noté min(g). Alors, la ligne de partage des eaux de g est le diagramme de Voronoï de la

distance image W(g) :

LPE(g) = ∆(W(g),min(g)) . (4.6.1)

Les V-régions de la partition de Voronoï associée à la LPE, Π(W(g),min(g)), coïncident

donc avec les bassins versants du graphe de g. Notons que, dans le cas où g ne s’annule pas sur

tous ses minima, on peut transformer la fonction sans modifier la LPE.

Remarquons par ailleurs que, si la surface topographique considérée est le graphe d’une

distance à un ensemble de sites, g = ψS , alors la LPE coïncide avec le diagramme de Voronoï :

LPE(ψS) = ∆(ψ, S).

La relation entre variation de chemin et distance image est donnée par les propriétés sui-

vantes.

Proposition 4.6.2. Si g est une image de Morse à variation de chemin bornée, alors

|g(x)− g(y)| ≤ V(g)(x, y) ≤ W(g)(x, y), ∀x, y ∈ Ω .

Page 108: Arbelaez these

94

En particulier, si x et y appartiennent à une ligne de plus grande pente de g, alors

|g(x)− g(y)| = V(g)(x, y) = W(g)(x, y) .

Démonstration. Soit (x, y) ∈ Ω2 et γ ∈ Γxy.

Alors,

|g(x)− g(y)| =∣∣∣∣∫ L

0

(g γ)′(l)dl

∣∣∣∣ =

∣∣∣∣∫ L

0

∇g(γ(l)) · γ(l) dl

∣∣∣∣ , (4.6.2)

où γ = ∂γ/∂l. Donc,

|g(x)− g(y)| ≤∫ L

0

|∇g(γ(l)) · γ(l)| dl. (4.6.3)

Mais le membre de droite est par définition la longueur du chemin associée à la variation de

chemin. On obtient donc par Cauchy-Schwarz :

|g(x)− g(y)| ≤∫ L

0

|Dγ(g)(γ(l))| dl ≤∫ L

0

‖∇g(γ(l))‖ dl, (4.6.4)

car, l dénotant l’abscisse curviligne, on a ‖γ(l)‖ = 1. Ainsi, puisque γ est un chemin arbitraire,

on obtient :

infγ∈Γxy

|g(x)− g(y)| ≤ infγ∈Γxy

∫ L

0

|Dγ(g)(γ(l))| dl ≤ infγ∈Γxy

∫ L

0

‖∇g(γ(l))‖ dl, (4.6.5)

D’où le résultat :

|g(x)− g(y)| ≤ V(g)(x, y) ≤ W(g)(x, y), ∀x, y ∈ Ω .

Dans le cas où x et y appartiennent à une ligne de plus grande pente ζ de g, alors, ζ étant par

définition parallèle au gradient de g, on a |Dζ(g)| = ‖∇g‖ et

|g(x)− g(y)| ≤ infγ∈Γxy

∫ L

0

‖∇g(γ(l))‖ dl ≤∫ L

0

‖∇g(ζ(l))‖ dl .

De plus, ∫ L

0

‖∇g(ζ(l))‖ dl =

∫ L

0

∣∣Dζ(g)(ζ(l))∣∣ dl = |g(x)− g(y)| .

Page 109: Arbelaez these

95

On a donc, finalement,

|g(x)− g(y)| = V(g)(x, y) = W(g)(x, y) .

Pour une image de Morse, il existe toujours une ligne de plus grande pente entre un minimum

m et un point x de son bassin versant. Les deux distances, mesurées par rapport à m, coïncident

donc dans le bassin versant. Si on considère l’ensemble des minima en tant que sites, on obtient

le résultat suivant :

Proposition 4.6.3. Soit g une image de Morse à variation de chemin bornée qui s’annule sur

l’ensemble de ses minima. Alors,

g = Vmin(g)(g) = Wmin(g)(g).

La distance aux minima est donc la même pour la variation de chemin et la distance image.

Elle coïncide de surcroît avec l’image. Cependant, les deux distances diffèrent pour un ensemble

de sites arbitraire. Mesurées par rapport à un seul minimum, elles diffèrent aussi hors du bassin

versant, où V est inférieure à W . On a donc la relation des V-diagrammes suivante :

Proposition 4.6.4. Soit g une image de Morse à variation de chemin bornée qui s’annule sur

l’ensemble de ses minima. Alors,

∆(V(g),min(g)) =⋃

x∈∆(W(g),min(g))

Cx(g) (4.6.6)

Ainsi, le diagramme de Voronoï de V coïncide avec l’ensemble des composantes connexes

de la LPE.

Dans le cadre de notre application, la différence principale entre variation de chemin et dis-

tance topographique est que la première utilise l’information de l’image originale, tandis que

la deuxième est construite sur celle du gradient. La perte d’information due à la dérivation peut,

Page 110: Arbelaez these

96

g WS(g) Π(W(g), S)

FIG. 4.11 – Partition de Voronoï induite par la distance image

dans certains cas, annuler l’intérêt des V-partitions induites parW pour la segmentation. Cette si-

tuation est illustrée dans la Figure 4.11 avec l’exemple de la Figure 4.2 (p. 76). Puisque ‖∇g‖ est

dans ce cas constante, WS(g) est proportionnel à la distance euclidienne au site le plus proche

et ∆(W(g), S) correspond à la médiatrice entre les sites. Toute fonction à norme de gradient

constante, par exemple un plan incliné, produira la même V-partition sous W .

Mosaïque des extrema et mosaïque LPE

L’application de la LPE repose sur le choix d’une fonction scalaire g pour représenter la

surface topographique. Dans le cas de la segmentation de bas niveau, l’approche usuelle consiste

à modéliser les contours d’une image u par les lignes de partage des eaux du module de son

gradient g = ‖∇u‖ [BM92, SM94]. Cependant, le grand nombre de minima du gradient d’une

image naturelle conduit en pratique à une sur-segmentation comparable à celle de la mosaïque

des extrema.

Une première stratégie envisagée historiquement pour contourner ce problème consiste à

choisir au préalable un ensemble de sites S, afin de marquer les structures à extraire, et à modifier

l’homotopie de g de sorte à imposer les éléments de S comme seuls minima. La LPE de l’image

modifiée g détermine alors les contours des objets. On obtient ainsi une partition de Voronoï

Π(W(g), S) qui possède le même nombre de V-régions que le cardinal de S.

Page 111: Arbelaez these

97

Une deuxième stratégie consiste à calculer la LPE sans contraintes de g et à utiliser la V-

partition Π(W(g),min(g)) comme partition initiale pour un algorithme de segmentation hiérar-

chique [NS96, Vac95, Mey01a]. Cette approche étant l’objet de la troisième partie du mémoire,

nous comparons à présent la LPE et la mosaïque des extrema en tant que méthodes de pré-

segmentation.

Dans ce but, nous considérons la mosaïque associée à la V-partition Π(W(g),min(g)), que

nous appelons mosaïque LPE. La différence fondamentale entre les deux reconstructions est que

la mosaïque des extrema est définie à partir de l’image originale, tandis que la mosaïque LPE

est construite sur le module du gradient. Ceci introduit un paramètre supplémentaire pour la

mosaïque LPE, car différentes approximations discrètes du gradient d’une image produisent des

résultats différents. En outre, les opérateurs de gradient lissent en général l’image originale afin

de bien-poser la dérivation ; or le lissage implique une perte du contenu de l’image et le niveau

de résolution de la mosaïque LPE est par conséquent limité dans certains cas.

La Figure 4.12 compare les reconstructions sur un détail de l’image cameraman. La première

ligne montre le gradient morphologique et l’image originale. La colonne gauche contient les mi-

nima du premier et les extrema de la seconde. Les quatre autres images présentent les mosaïques

associées aux V-partitions obtenues en combinant les deux distances et les deux ensembles de

sites. Dans tous les cas, la 8-connexite a été employée et la représentation des V-régions est la va-

leur de l’image au site. On peut observer que, grâce au grand nombre de sites et à leur distribution

spatiale, toutes les reconstructions préservent les caractéristiques principales de la scène, comme

la silhouette du photographe. Cependant, l’utilisation de la variation de chemin sur l’image origi-

nale permet d’extraire certains détails comme la bouche, les parties intérieures de l’appareil ou la

structure claire allongée, qui sont effacés avec la LPE. La perte d’information est due à l’absence

de minima à l’intérieur de ces régions et à l’utilisation du gradient. Même si le résultat peut être

amélioré en changeant le type de gradient, le problème est intrinsèque à la distance.

Page 112: Arbelaez these

98

g = ‖∇(u)‖ u

min(g) LPE : Π(W(g),min(g)) Π(V(u),min(g))

ext(u) Π(W(g), ext(u)) ME : Π(V(u), ext(u))

FIG. 4.12 – Comparaison entre la mosaïque des extrema et mosaïque LPE.

Page 113: Arbelaez these

99

Au cours de la dernière décennie, un certain nombre de définitions alternatives et implan-

tations pour la LPE ont vu le jour [RM00]. Citons notamment la construction par évolution des

courbes de [MB98, MB00, MM99], qui repose sur la formulation continue de la LPE de Najman.

L’approche par EDP garantit une précision sous-pixellique et la convergence du résultat vers la

solution continue. Cependant, puisque g désigne usuellement le module du gradient de l’image

originale u, la construction de la LPE par Fast Marching revient à trouver la partition de Voronoï

de la distance pondérée associée au potentiel :

P = ‖∇g‖ = ‖∇(‖∇u‖)‖

Ainsi, cette technique se heurte en pratique à une double différenciation de l’image originale,

ce qui réduit considérablement l’intérêt théorique qu’elle présente par rapport aux implantations

fondées sur la définition discrète de la LPE.

4.6.3 Choix des sites par diffusion non linéaire

Comme conséquence du grand nombre d’extrema du canal de luminosité d’une image na-

turelle, la V-partition des extrema est souvent composée d’une multitude de petites régions. La

question qui se pose est donc comment réduire le nombre d’extrema tout en préservant la struc-

ture géométrique de l’image. La réponse proposée dans ce paragraphe consiste à modifier l’image

originale par un processus de diffusion non linéaire.

Nous considérons donc la version régularisée [CLMC92, Wei98] de l’approche classique de

Perona et Malik [PM90b]. Dans cette méthode, une image filtrée ut = u(x, t) est construite

comme solution de l’équation de diffusion non linéaire suivante :

∂u

∂t= div(g(‖∇(Gσ ∗ u)‖2)∇u) , (4.6.7)

où Gσ dénote un noyau gaussien de variance σ et g(·) est une fonction de diffusivité positive. On

suppose par ailleurs que les conditions de bord sont réflectives et que l’état initial u0 = u(x, 0)

coïncide avec l’image originale.

Page 114: Arbelaez these

100

Pour les exemples présentés, nous avons employé la diffusivité :

g(s) =

1, si s ≤ 0

1− exp(−3.315(s/κ)4

), si s > 0

où κ est le paramètre de contraste qui régule le processus de lissage sélectif. Les auteurs de

[WtHRV98] rapportent que cette diffusivité produit des résultats de segmentation meilleurs que

les fonctions proposées originellement dans [PM90b]. Cette approche est utilisée comme pré-

traitement dans [Wei01] pour améliorer la segmentation par LPE.

Les propriétés principales du filtrage par diffusion non linéaire sont illustrées en haut à droite

de la Figure 4.13. L’image initiale u0 dans cette expérience est la mosaïque des extrema du came-

raman, présentée en haut à gauche. Les paramètres de la diffusion sont σ = 1 et κ = 30. L’image

filtrée ut, à droite, correspond à l’échelle t = 180. Dans cette méthode, le lissage à l’intérieur des

régions est préféré au lissage entre régions différentes. Les régions homogènes sont donc lissées

dans l’image filtrée ut, tandis que l’information des contours est rehaussée. En outre, le nombre

d’extrema de l’image filtrée décroît rapidement lorsque l’échelle est augmentée. Ces propriétés

font de ext(ut) un candidat intéressant pour l’ensemble de sites de la V-partition. Deux choix

se présentent alors : considérer la partition des extrema de l’image filtrée, Π(V(ut), ext(ut)), ou

bien reprendre l’image initiale u0 et construire la V-partition Π(V(u0), ext(ut)).

Les résultats sont présentés dans les Lignes 2 et 3 de la Figure 4.13. Le nombre total de com-

posantes extremales (et donc de régions dans la V-partition) passe de 8412 dans l’image originale

à 261 dans l’image filtrée. La colonne gauche montre l’image mosaïque de Π(V(u0), ext(ut)) et

celle à droite présente la mosaïque des extrema de ut. On peut observer que les deux partitions

préservent la structure de l’image originale, malgré la réduction dans le nombre des sites. La dif-

férence principale est la régularité des V-régions dans l’image filtrée par rapport aux V-régions

obtenues avec l’image initiale.

L’utilisation d’un filtrage par diffusion non linéaire permet de trouver un ensemble de sites

représentatif du contenu de l’image. Cependant, l’excès de filtrage détruit l’information des

Page 115: Arbelaez these

101

u0 ut

Π(V1(u0), ext(ut)) Π(V1(ut), ext(ut))

FIG. 4.13 – Sélection des sites par diffusion non-linéaire (voir texte).

Page 116: Arbelaez these

102

contours. Cette méthode requiert donc un réglage précis des paramètres de diffusion. Notons par

ailleurs que même les régions homogènes comme le ciel de la Fig. 4.13 contiennent plusieurs

extrema après filtrage.

Alternativement, la mosaïque des extrema peut être utilisée comme une technique pour créer

une reconstruction significative et avec un faible nombre de régions d’une image filtrée. Remar-

quons qu’on peut aussi considérer d’autres types filtrages par EDP comme la diffusion linéaire,

le mouvement par courbure (MCM) ou le scale-space morphologique afin (AMSS). Nous avons

présenté le cas de la diffusion non linéaire parce que, dans notre expérience, elle est celle qui

produit les meilleurs résultats parmi les exemples précédents, lorsque les extrema d’une image

fortement filtrée sont utilisés sur l’image originale.

Page 117: Arbelaez these

Troisième partie

Ultramétriques

103

Page 118: Arbelaez these

104

Page 119: Arbelaez these

Chapitre 5

Classification hiérarchique

Ce chapitre expose les éléments de base de la classification hiérarchique des données. Nous

suivons dans ce but les présentations de Benzécri [Ben84] et de Diday [DLPT82]. L’application

de cette théorie à la segmentation sera le sujet du Chapitre 6.

5.1 Ordres et arbres

Un ordre est une relation binaire qui permet de comparer les éléments d’un ensemble entre

eux. L’ordre naturel des nombres réels ≤ ou l’inclusion ensembliste ⊆ en sont deux exemples

classiques. Formellement, on définit :

Définition 5.1.1. Une relation binaire ¹ sur un ensemble A est un ordre si elle satisfait :

∀a, b ∈ A (a ¹ b) ∧ (b ¹ a) ⇔ (a = b) (5.1.1)

∀a, b, c ∈ A (a ¹ b) ∧ (b ¹ c) ⇒ (a ¹ c) (5.1.2)

L’ordre ¹ est total si l’axiome suivant est aussi vérifié :

∀a, b ∈ A (a ¹ b) ∨ (b ¹ a) (5.1.3)

L’Axiome (5.1.3) dit que, dans un ensemble totalement ordonné, tout couple d’éléments peut

être comparé.

105

Page 120: Arbelaez these

106

La relation entre deux éléments a ¹ b se lit a est sous b, a succède b ou a est plus petit que b.

On lit aussi cette relation b est sur a, b précède a ou b est plus grand que a. Les éléments p ∈ A

tels que a ¹ p sont appelés les prédécesseurs de a. De même, les éléments tels que p ¹ a sont

appelés les successeurs de a.

On notera l’ordre strict, lorsque l’égalité est exclue, par le symbole ≺.

Définition 5.1.2. Une relation d’ordre total ¹ sur un ensemble A est un ordre hiérarchique si :

∀a, b, c ∈ A (a ¹ b) ∧ (a ¹ c) ⇒ (b ¹ c) ∨ (c ¹ b) (5.1.4)

Le couple (A,¹) est appelé un arbre.

Sur un arbre, l’ensemble des prédécesseurs d’un élément est donc totalement ordonné.

On peut alors définir :

L’ensemble d’éléments minimaux, ou terminaux de (A,¹) :

a ∈ A | ∀ b ∈ A : b ¹ a ⇒ (b = a)

L’ensemble d’éléments maximaux, ou sommets de (A,¹) :

a ∈ A | ∀ b ∈ A : a ¹ b ⇒ (b = a).

Un arbre à sommet unique est dit connexe.

Un arbre est binaire si tout élément non terminal a exactement deux successeurs.

Définition 5.1.3. Un ordre total £ sur un arbre (A,¹) est une stratification s’il satisfait :

∀a, b ∈ A, a ≺ b ⇒ a ¢ b (5.1.5)

Le triplet (A,¹,£) est appelé un arbre stratifié.

Une stratification peut être définie par une application f : A → R, appelée indice de strati-

fication. La relation (5.1.5) s’écrit dans ce cas :

∀a, b ∈ A, a ≺ b ⇒ f(a) < f(b) (5.1.6)

Page 121: Arbelaez these

107

(a) (b) (c)

FIG. 5.1 – Exemple de hiérarchie indicée.

Un indice f est donc une fonction strictement croissante pour l’ordre hiérarchique. Nous noterons

ce type d’arbres stratifiés par (A,¹, f).

5.2 Hiérarchie de parties d’un ensemble

Nous nous intéressons à présent aux arbres déterminés par l’ordre de l’inclusion des parties

d’un ensemble.

Soit U un ensemble fini. Nous dirons que U est un univers et que ses éléments x ∈ U sont

des individus.

Définition 5.2.1. Un ensembleH ⊆ P(U)\∅ est une hiérarchie de parties de U s’il satisfait :

∀x ∈ U , x ∈ H (5.2.1)

U ∈ H (5.2.2)

∀a, b ∈ H, a ∩ b ∈ a, b, ∅ (5.2.3)

Les éléments h ∈ H sont nommés les classes, ou les groupes, de la hiérarchie.

Le couple (H,⊆) est donc un arbre connexe où le sommet est l’univers et les éléments ter-

minaux contiennent uniquement les individus.

Étant donné un indice de stratification f , l’arbre stratifié (H,⊆, f) est appelé une hiérarchie

indicée de parties de U .

Page 122: Arbelaez these

108

Si on n’exige pas que la croissance de l’indice de stratification soit stricte, la relation (5.1.6)

s’écrit :

∀a, b ∈ H, a ⊂ b ⇒ f(a) ≤ f(b), (5.2.4)

On dira dans ce cas que (H,⊆, f) est une hiérarchie indicée au sens large.

La Figure 5.1.a présente les classes d’une hiérarchie (H,⊆) de parties d’un ensemble U =

a, b, c, d, e. Outre l’univers et les individus, cette hiérarchie contient uniquement deux groupes,

a, b, c et d, e.

Nous utilisons la représentation graphique habituelle d’un arbre (H,⊆) sous forme de den-

drogramme, illustrée dans les Figures 5.1.b et 5.1.c . Un dendrogramme est un graphe planaire

non orienté aux arrêtes anguleuses où les classes sont représentées par des points, les éléments

terminaux se trouvent en bas, le sommet en haut et les traits indiquent l’ordre hiérarchique entre

les classes, dans notre cas, l’inclusion ensembliste.

Cette représentation met en évidence le rôle joué par la stratification de la hiérarchie indicée

(H,⊆, f) : l’application f détermine l’ordonnée de chaque classe. Il est donc clair qu’on peut

construire une infinité d’arbres stratifiés à partir de la même hiérarchie ; il suffit de définir un

indice qui soit compatible avec l’ordre hiérarchique dans le sens de (5.1.6). Dans les exemples

des Figures 5.1.b et 5.1.c, l’indice correspond au niveau d’inclusion à partir des singletons et au

cardinal de la classe respectivement.

Enfin, on s’intéressera aux indices f qui satisfont les deux conditions supplémentaires :

f(U) = 1 et f(x) = 0, ∀x ∈ U .

On dit dans ce cas que f est un indice de diamètre.

Les diamètres sont donc des indices de stratification normalisés. On peut par exemple définir

un diamètre f à partir du cardinal de la classe (voir la Figure 5.1.c) en posant :

f(h) =#(h)− 1

#(U)− 1, ∀h ∈ H.

Page 123: Arbelaez these

109

5.3 Ultramétriques

Dans le cadre métrique, les hiérarchies indicées correspondent à un type de distances spé-

ciales appelées ultramétriques. Nous rappelons dans cette section quelques notions de géométrie

ultramétrique.

Un espace ultramétrique (U , Υ) est un espace pseudo-métrique où l’Inégalité Triangulaire

(Axiome 2 de la Définition 1.2.1) est remplacée par la plus forte Inégalité Ultramétrique :

Υ(x, y) ≤ maxΥ(z, x), Υ(z, y)), ∀x, y, z ∈ U . (5.3.1)

Du point de vue géométrique, la relation (5.3.1) indique que tous les triangles dans un espace

ultramétrique sont soit isocèles, soit équilatéraux. Dans le premier cas, la base est le plus petit

des côtés.

Soit x0, ..., xn ⊂ U . Pour une distance ψ quelconque, l’inégalité triangulaire se généralise

par :

ψ(x0, xn) ≤n∑

i=1

ψ(xi−1, xi).

Dans le cas des ultramétriques, la relation (5.3.1) donne :

Υ(x0, xn) ≤ maxi=1,...,n

Υ(xi−1, xi). (5.3.2)

La topologie induite par une ultramétrique diffère significativement du cas euclidien usuel.

Considérons un espace ultramétrique (U , Υ) et une boule fermée de centre x ∈ U et de rayon r :

Bx(r) = y ∈ U| Υx(y) ≤ r.

Alors, une conséquence de l’Inégalité Ultramétrique est que tout point de la boule peut être

considéré comme son centre :

By(r) = Bx(r), ∀y ∈ Bx(r). (5.3.3)

Page 124: Arbelaez these

110

De plus, si on considère deux boules ultramétriques Bx(r) et Bx′(r′) telles que r′ ≤ r et un point

y ∈ Bx(r) ∩Bx′(r′), alors y est simultanément le centre des deux boules et on a :

Bx′(r′) = By(r

′) ⊆ By(r) = Bx(r). (5.3.4)

Deux boules ultramétriques ne peuvent donc être que disjointes ou incluses l’une dans l’autre.

Du point de vue des partitions de l’espace qu’elles engendrent, les ultramétriques sont des

distances remarquables. Si on considère une partition de Voronoï ultramétrique Π(Υ, S), alors,

comme conséquence de l’Équation (5.3.3), la partition reste invariante si un site se déplace à

l’intérieur de sa V-région. De même, les V-partitions obtenues en ajoutant ou en enlevant un site

à S sont respectivement des sous- et sur-partitions de la V-partition initiale.

D’autre part, notons que l’Équation (5.3.4) implique que l’ensemble des boules fermées de

rayon fixé r détermine une partition de Voronoï de U . En outre, puisque tout point d’une boule

est son centre, ce type de V-partitions ne dépend plus explicitement d’un ensemble de sites mais

du rayon r. Ce troisième type de partitions métriques, que nous appelons partitions ultramé-

triques, sont notées dans la suite :

Π(Υ, r).

Notons enfin que toute partition de Voronoï dans un espace ultramétrique est centrée.

5.4 Ultramétriques et hiérarchies indicées

Benzécri a prouvé dans [Ben84] qu’il existe une bijection entre la classe des hiérarchies

indicées et celle des espaces ultramétriques. Nous donnons dans cette section les arguments

principaux de la démonstration dans le cadre de notre application, où l’ordre hiérarchique est

donné par l’inclusion.

Considérons un espace ultramétrique (U , Υ), où l’ensemble U est fini. Sans perte de généra-

lité, on peut imposer à la distance Υ de prendre ses valeurs dans l’intervalle [0, 1].

Page 125: Arbelaez these

111

L’ensemble des boules ultramétriques de (U , Υ) est noté :

B = B ⊆ U | ∃ x ∈ U ,∃ r ∈ [0, 1] : B = Bx(r).

Vérifions d’abord que le couple (B,⊆) est bien une hiérarchie de parties de U . Les singletons xet l’univers U sont respectivement les boules de rayon nul et la boule de rayon 1. Ils appartiennent

donc à (B,⊆). La préservation de la structure hiérarchique (5.2.3) découle pour sa part de la

propriété (5.3.4), qui dit que deux boules ultramétriques ne peuvent être que disjointes ou incluses

l’une dans l’autre.

Pour définir un indice de stratification sur (B,⊆), notons par ρ(B) le rayon d’une boule

B ∈ B. Puisque tout point de la boule peut être considéré comme son centre (5.3.3), ρ est aussi

le diamètre de B :

ρ(B) = sup(x,y)∈B2

Υ(x, y)

La fonction ρ est par définition compatible avec l’ordre hiérarchique dans le sens de (5.1.6) :

B1 ⊂ B2 ⇒ ρ(B1) < ρ(B2).

Le triplet (B,⊆, ρ) est donc une hiérarchie indicée de parties de U .

Réciproquement, soient U un ensemble fini et (H,⊆, f) une hiérarchie indicée, où f est un

indice de diamètre. Considérons deux éléments x, y ∈ U et notons la plus petite classe de H qui

les contient par :

h(x, y) =⋂h ∈ H | x ∈ h ∧ y ∈ h.

On peut alors définir la distance Υ entre x et y comme l’image de cette classe sous f :

Υ(x, y) = f(h(x, y)).

Pour montrer que Υ est une distance ultramétrique, considérons x, y, z ∈ U . Alors, les classes

h(x, y) et h(x, z) contiennent toutes les deux l’élément x et, d’après (5.2.3), elles sont incluses

Page 126: Arbelaez these

112

P1 P2 P3

FIG. 5.2 – Ordre et partitions.

l’une dans l’autre. Ainsi, la plus grande des deux contient les trois points x, y et z. Il s’en suit

l’inégalité ultramétrique :

Υ(x, y) ≤ maxΥ(z, x), Υ(z, y)).

En conclusion, sur un ensemble fini U , il est équivalent de définir une hiérarchie indicée ou

une distance ultramétrique.

5.5 Coupes et partitions

Soit P(U) l’ensemble des partitions de U . On peut définir un ordre dans P(U), appelé finesse,

en considérant la relation binaire suivante :

P1 v P2 ⇔ ∀ a ∈ P1 ∃ b ∈ P2 : a ⊆ b.

Lorsque P1 v P2 on lit que P1 est plus fine que P2 ou que P1 est une sur-partition de P2.

Tout élément de P2 est donc une réunion d’éléments de P1 et on dit que les deux partitions sont

emboîtées. Notons cependant que deux partitions peuvent ne pas être comparables pour v. La

finesse n’est donc pas un ordre total. Par exemple, dans la Figure 5.2 on a P1 v P2, mais aucune

de ces deux partitions ne peut être comparée à P3.

Une coupe d’une hiérarchie (H,⊆) de parties de U est une partition dont les éléments sont

Page 127: Arbelaez these

113

C1 C2 C3

FIG. 5.3 – Coupes d’une hiérarchie indicée et partitions correspondantes. a : Coupe non uni-forme. b et c : coupes uniformes.

des classes de (H,⊆) :

P = hii où hi ∈ H, ∀i.

Graphiquement, une coupe est un ensemble de noeuds deH que toute branche deH intersecte

une et une seule fois, comme l’illustre la colonne gauche de la Figure 5.3. Les classes de la

hiérarchie qui composent la partition sont représentées par des carrés.

En général, deux coupes d’une hiérarchie ne sont pas comparables pour l’ordre de finesse,

comme dans le cas des coupes C1 et C2 de la Figure 5.3. Cependant, en présence d’une hiérarchie

indicée (H,⊆, f) on peut considérer la coupe uniforme deH au niveau λ, donnée par l’ensemble

des boules ultramétriques maximales de rayon inférieur ou égal à λ :

C(λ) = B ∈ B | (ρ(B) ≤ λ) ∧ (λ < ρ(B′)), ∀B′ ⊃ B

Sur un dendrogramme, C(λ) est représentée par la ligne horizontale d’ordonnée λ.

Page 128: Arbelaez these

114

Les coupes uniformes sont comparables pour l’ordre de finesse : λ < λ′ ⇒ C(λ) < C(λ′).

Les partitions correspondantes sont donc emboîtées. Cette propriété est illustrée par les coupes

C2 = C(0, 35) et C3 = C(0, 75) de la Figure 5.3.

Ainsi, l’ensemble des coupes uniformes d’une hiérarchie indicée, C(λ)λ, est une famille

de partitions emboîtées de U . Réciproquement, si on se donne une famille de partitions emboîtées

Pii∈I , on peut définir une hiérarchie indicée en considérant les partitions en tant que coupes

uniformes. L’indice de stratification est donc celui de la famille et la boule ultramétrique de rayon

i d’un point x ∈ U est la région de Pi qui contient x.

5.6 Ultramétrique sous-dominante

L’information disponible pour classifier un ensemble est souvent une description de ses élé-

ments. Il semble donc naturel d’utiliser les relations entre ces descriptions comme point de départ

pour construire une hiérarchie. Dans le cadre métrique, la notion de ressemblance se quantifie

par une distance entre éléments de l’ensemble. L’inégalité triangulaire ne s’avère cependant pas

nécessaire dans ce cas et il suffit de considérer un indice de distance.

Définition 5.6.1. Un indice de distance sur un ensemble U est une application d : U ×U → R+

telle que ∀x, x′ ∈ U :

d(x, x′) 6= 0 ⇔ x 6= x′

d(x, x′) = d(x′, x)

Ainsi, d’après la caractérisation des hiérarchies indicées en tant qu’ultramétriques, on peut

énoncer en termes géométriques le problème de la classification comme suit : transformer, au

prix d’une déformation minimale, un indice de distance en une distance ultramétrique. Nous

présentons ci-après une solution à ce problème.

Page 129: Arbelaez these

115

Soit U un ensemble fini. Notons la classe des ultramétriques sur U par :

U(U) = Υ : U × U → [0, 1] | Υ est ultramétrique.

Considérons l’ensemble des ultramétriques inférieures à un indice de distance d entre les élé-

ments de U :

Ud = Υ ∈ U(U) | Υ(x, y) ≤ d(x, y), ∀ y ∈ U

Alors, l’application Υd définie par :

Υd(x, y) = supΥ∈Ud

Υ(x, y) (5.6.1)

est une ultramétrique. Pour le prouver, vérifions l’inégalité ultramétrique. Soient x, y, z ∈ U ,

alors, puisque les éléments de Ud sont des ultramétriques, on a :

supΥ∈Ud

Υ(x, y) ≤ supΥ∈Ud

maxΥ(z, x), Υ(z, y)

En séparant les termes on obtient :

supΥ∈Ud

Υ(x, y) ≤ max supΥ∈Ud

Υ(z, x), supΥ∈Ud

Υ(z, y)

Ce qui donne l’inégalité ultramétrique :

Υd(x, y) = maxΥd(z, x), Υd(z, y)

Ainsi, le supremum de (5.6.1) est atteint et on peut écrire :

Υd(x, y) = maxΥ∈Ud

Υ(x, y) (5.6.2)

L’ultramétrique Υd est appelée sous-dominante, ou inférieure maxima, de d. On peut prou-

ver qu’elle dépend continûment de d.

Nous pouvons à présent préciser le problème d’optimisation auquel la sous-dominante est

solution. Considérons la mesure de ressemblance entre indices de distance suivante :

Page 130: Arbelaez these

116

∆(d, δ) =

[ ∑x,y∈U

[d(x, y)− δ(x, y)]α]1/α

, α > 0. (5.6.3)

Alors,

∆(d, Υd) = minΥ∈Ud

∆(d, Υ) (5.6.4)

Ainsi, l’ultramétrique sous-dominante est la meilleure approximation "par le dessous" d’un

indice de distance d donné, au sens de (5.6.3).

On peut se demander s’il est possible de réaliser un raisonnement similaire à celui que nous

venons d’exposer en considérant les ultramétriques supérieures ou égales à d, pour obtenir une

approximation optimale "par le dessus" d’un indice de distance. On peut cependant prouver qu’il

n’y a pas d’unicité des ultramétriques supérieures minima.

Prouvons enfin la caractérisation de Υd en termes de chemins. Considérons un chemin discret

dans U , γ = x0, ...xn, et notons son plus grand saut par :

saut(γ) = maxi=1,...,n

d(xi, xi−1).

L’ultramétrique du saut minimum est définie par :

Υs(x, y) = infγ∈Γxy

saut(γ)

Proposition 5.6.1. L’ultramétrique du saut minimum est la sous-dominante :

Υd = Υs

Démonstration. Vérifions d’abord que Υs est une ultramétrique. Puisque l’ensemble U est fini, il

existe deux chemins γ1 ∈ Γzx et γ2 ∈ Γzy tels que : Υs(z, x) = saut(γ1) et Υs(z, y) = saut(γ2).

Considérons γ ∈ Γxy obtenu par la concaténation de γ1 et γ2. Alors, par définition

Υs(x, y) ≤ saut(γ) = maxsaut(γ1), saut(γ2)

Page 131: Arbelaez these

117

et

Υs(x, y) ≤ maxΥs(z, x), Υs(z, y).

Prouvons à présent que tout élément Υ ∈ Ud (et en particulier Υd ) est inférieur ou égal à Υs.

Le résultat découle de la propriété (5.3.2) :

Υ(x, y) ≤ supi=1,...,n

Υ(xi−1, xi).

donc

Υ(x, y) ≤ supi=1,...,n

d(xi−1, xi) = Υs(x, y).

Considérons à présent un chemin discret, ou chaîne, γ ∈ Γxy, i.e. γ = x0, ...xn. Dans le

cas de la sous-dominante, la relation (5.3.2) s’écrit :

Υd(x0, xn) ≤ supi=1,...,n

d(xi−1, xi). (5.6.5)

Cette propriété, souvent appelée effet de chaîne, peut limiter en pratique l’utilisation de la

sous-dominante, car elle indique que la longueur d’une chaîne pour cette ultramétrique est tou-

jours inférieure ou égale au plus long des maillons. La Figure 5.4 montre un exemple de la distor-

sion de la distance initiale causée par l’effet de chaîne. Dans ce cas, d est la distance euclidienne

ε et la distance entre les deux extrémités de la chaîne est ε(x0, x7) = 5. Cependant, puisque la

longueur de chaque maillon est ε(xi−1, xi) = 1, on a Υε(x0, x7) = 1. Ainsi, deux points éloi-

gnées selon d peuvent être proches selon Υd s’il existe une chaîne de points très proches les uns

des autres les joignant.

Page 132: Arbelaez these

118

FIG. 5.4 – Exemple de l’effet de chaîne de l’ultramétrique sous-dominante.

5.7 Classification ascendante hiérarchique

5.7.1 Construction de la hiérarchie

La construction d’une hiérarchie nécessite la définition d’une mesure de ressemblance entre

les parties de l’ensemble.

Définition 5.7.1. Un indice d’agrégation entre les groupes d’un univers U est une relation bi-

naire δ : P(U)× P(U) → R telle que, ∀ h, h′ ∈ P(U) :

δ(h, h′) ≥ 0

δ(h, h′) = δ(h′, h)

L’agrégation est souvent définie à partir d’un indice de distance entre les individus. Parmi les

exemples les plus classiques, on peut citer :

Agrégation du lien minimum :

δ(h, h′) = minx∈h, x′∈h′

d(x, x′) (5.7.1)

Agrégation du lien maximum :

δ(h, h′) = maxx∈h, x′∈h′

d(x, x′) (5.7.2)

Agrégation de la moyenne des distances :

δ(h, h′) =1

#(h)#(h′)

x∈h, x′∈h′d(x, x′) (5.7.3)

Page 133: Arbelaez these

119

TAB. 5.1 – Classification Ascendante Hiérarchique

EntréeIndice d’agrégation δ entre groupes de U

SortieHiérarchie de parties de U

1. InitialisationP : partition de U en individusT : tableau d’agrégations entre les classes de P

2. Boucle :Tant que P comporte plus d’une classe

Soient h et h′ deux classes de P qui minimisent δ- remplacer h et h′ par h ∪ h′ dans P- Mettre à jour T

Cette dernière agrégation est donc obtenue par la moyenne des distances entre les individus

pris dans chacun groupes.

Le problème de la classification hiérarchique revient donc à définir une distance ultramé-

trique sur U à partir d’un indice d’agrégation entre ses groupes. Deux méthodes principales

permettent de réaliser cette construction. La première, appelée Classification Descendante Hié-

rarchique (CDH), considère initialement la partition composée d’une seule classe, l’univers U .

Les classes sont ensuite découpées itérativement pour obtenir des partitions de plus en plus fines

jusqu’à la partition en individus. On peut par exemple diviser les classes en deux de façon à

maximiser l’agrégation ou, plus généralement, un critère donné qui dépend de δ.

Nous allons cependant nous concentrer dans la suite sur la stratégie duale, nommée Clas-

sification Ascendante Hiérarchique (CAH). L’algorithme, détaillé dans le Tableau 5.1, consiste

à se donner comme point de départ les individus isolés et à les regrouper récursivement selon

l’agrégation jusqu’à obtenir une seule classe.

Notons que cet algorithme construit une hiérarchie binaire. Cependant, le couple de classes

de la partition qui minimise l’agrégation peut ne pas être unique. Dans ce cas, on peut choisir un

Page 134: Arbelaez these

120

des couples candidats au hasard, mais il n’y a pas d’unicité de la hiérarchie.

5.7.2 Définition de l’ultramétrique

Une hiérarchieH construite par CAH peut toujours être indicée en choisissant comme indice

de stratification l’ordre dans lequel les classes ont été formées, ou toute fonction croissante de

cet ordre. De même, on peut faire intervenir l’agrégation en définissant :

∀ h, h′ ∈ H, f(h ∪ h′) = maxδ(h, h′), f(h), f(h′). (5.7.4)

Il est néanmoins souhaitable que l’indice de stratification coïncide avec l’agrégation :

f(h ∪ h′) = δ(h, h′), (5.7.5)

pour tout h, h′ ∈ H tels que h ∩ h′ = ∅ et h ∪ h′ ∈ H.

Malheureusement, pour une agrégation arbitraire, ce choix peut conduire à des inversions,

c’est-à-dire à l’existence de deux classes h, h′ ∈ H telles que h′ h mais f(h′) > f(h).

Le résultat suivant, dû à Diday [DLPT82], caractérise les agrégations pour lesquelles la strati-

fication définie par (5.7.5) détermine une hiérarchie indicée au sens large. On noteraP la partition

qui précède la formation de la classe h = h1 ∪ h2 dans la construction de H par CAH.

Proposition 5.7.1. (H, f) est une hiérarchie indicée au sens large si et seulement si

δ(h, h3) ≥ f(h), ∀h3 ∈ P\h1, h2

Les agrégations usuelles, et en particulier les exemples du paragraphe précédent, satisfont

cette propriété.

Notons par ailleurs que la Proposition 5.7.1 garantit uniquement que la hiérarchie est indicée

au sens large. Elle peut donc contenir des classes h, h′ ∈ H telles que h′ h mais f(h) =

Page 135: Arbelaez these

121

f(h′). En supprimant toutes les classes h′ qui se trouvent dans ce cas, on obtient finalement une

hiérarchie indicée mais qui n’est plus nécessairement binaire.

La hiérarchie (H, f) construite par CAH avec agrégation du lien minimum d’un indice de

distance d et où la stratification f est donnée par (5.7.5) est souvent nommée hiérarchie du saut

minimum. On peut prouver que l’ultramétrique associée à cette hiérarchie est la sous-dominante

de d.

La Figure 5.5 présente un exemple du déroulement de l’algorithme de classification ascen-

dante hiérarchique. Les individus sont dans ce cas les points A, B, C, D, E, F de l’espace

(R, ε) et la hiérarchie construite est celle du saut minimum.

Page 136: Arbelaez these

122

FIG. 5.5 – Exemple de classification ascendante hiérarchique.

Page 137: Arbelaez these

Chapitre 6

Cartes de contours ultramétriques

The separation of edge and region-based approaches expresses more of a difference in initial

orientation than a difference in practice. S.W. Zucker [Suc77]

6.1 Introduction

Segmentation en régions et détection de contours sont deux formes différentes d’approcher

le même problème. La première consiste à créer une partition du domaine de l’image, où les

régions représentent les objets. La seconde cherche à caractériser leurs contours par des mesures

locales. Toute région d’une segmentation possède cependant une frontière, qui devrait coïncider

avec les contours de l’objet.

La détection de contours a été motivée par l’importance des fortes discontinuités de l’image

pour la perception visuelle humaine. Si on se place dans le cas idéal où les objets sont des surfaces

lambertiennes, alors les points où l’intensité change abruptement constituent un ensemble naturel

pour chercher les contours. Dans le cadre continu, la dérivation semble donc être l’opérateur ap-

proprié pour aborder le problème. Ainsi, les techniques de détection de contours ont initialement

cherché à caractériser ces discontinuités par l’étude des dérivées de l’image. Un grand nombre

d’approximations du gradient et de modèles de contours ont vu le jour au cours des dernières

décennies. Parmi les plus connus, on peut citer les passages à zéro du Laplacian [MH80] ou les

123

Page 138: Arbelaez these

124

maxima dans la direction du gradient [Can86]. Plus récemment, l’utilisation d’autres attributs

locaux comme l’énergie orientée [PM90a], la couleur et la texture [WHBP00] ainsi que des mé-

thodes d’apprentissage pour les combiner de façon optimale [MFM04], ont considérablement

augmenté la performance des extracteurs de contours.

Malgré leur diversité, la caractéristique commune de la plupart des techniques de détection

de contours demeure l’utilisation d’information locale de l’image. Ces méthodes produisent des

images scalaires où le niveau de gris de chaque pixel quantifie son appartenance aux contours

des objets. Le seuillage d’une telle image fournit donc un ensemble de pixels de contour, mais

qui ne forment pas nécessairement des courbes fermées. Ainsi, les détecteurs locaux nécessitent

dans certaines applications un post-traitement appelé complétion des contours afin d’intégrer leur

information en courbes significatives [EZ96, PZ89, WJ95, Coh01]. En revanche, les frontières

d’une segmentation en régions sont un ensemble de courbes fermées. Cette image de contours

n’est cependant que binaire et l’information qu’elle fournit est par conséquent limitée en compa-

raison de celle d’un détecteur local.

Motivé par la structure de la perception visuelle humaine, nous formulons dans ce chapitre

le problème de la segmentation dans le cadre de la classification hiérarchique des données. Dans

cette perspective, la structure géométrique d’une image est représentée par une famille de seg-

mentations emboîtées, plutôt que par une segmentation unique. Les frontières des segmentations

héritent de la structure des régions et définissent une représentation hiérarchique des contours,

que nous appelons carte de contours ultramétriques (UCM). Cette représentation permet d’étu-

dier la segmentation en régions et la détection de contours comme un seul problème, car une

UCM est une image scalaire dont tout seuillage produit un ensemble de courbes fermées, les

frontières d’une segmentation.

L’utilité d’une telle représentation est néanmoins déterminée par la distance qui la définit.

Page 139: Arbelaez these

125

Notre objectif dans ce chapitre est donc la mise au point de distances ultramétriques pour l’ex-

traction des contours des images naturelles. Dans ce but, notre stratégie consiste à intégrer l’infor-

mation de contour locale le long des frontières des régions, puis à la compléter avec l’information

interne.

6.2 Segmentation hiérarchique

L’application des principes de classification hiérarchique des données au problème de la seg-

mentation découle de la traduction des notions du chapitre précédent au contexte des images.

Commençons par la notion d’individu. Les individus sont les éléments terminaux de la hiérar-

chie indicée, les feuilles de l’arbre stratifié. Ce sont les classes d’équivalence de l’ultramétrique,

qui déterminent le niveau de résolution de la distance. Ils constituent les atomes, les éléments

indivisibles de l’analyse, la plus petite échelle à considérer.

Puisque notre système se fonde uniquement sur les données de l’image, nous supposons que

les individus sont ses zones plates. Notre hypothèse de départ est donc qu’une région connexe à

couleur constante ne peut faire partie que d’un seul objet. En d’autres termes, en l’absence d’in-

formation préalable sur le contenu de l’image, nous supposons que l’information des contours

est contenue dans l’ensemble de ses discontinuités, noté K :

K(u) = ∂(z, z′) | z, z′ ∈ C(u),

où ∂(z, z′) désigne la frontière commune des zones plates z et z′.

Ainsi, l’univers que nous considérons, l’espace quotient de l’ultramétrique, est le graphe

de composantes de l’image. En outre, les groupes d’individus sont dans notre application les

segments qui représentent les objets, des régions connexes du domaine de l’image. L’indice de

stratification fournit pour sa part la notion d’échelle et les coupes uniformes d’une hiérarchie

indicée correspondent à des segmentations emboîtées.

Page 140: Arbelaez these

126

Plus formellement, soit u0 une image et λ ∈ R une échelle. Suivant [MS95], nous appelons

opérateur de segmentation multi-échelles une application qui à tout couple (u0, λ) assigne une

partition Pλ du domaine de u0.

Nous dirons qu’un opérateur de segmentation multi-échelles est hiérarchique s’il satisfait les

propriétés suivantes :

∃ λ0 ∈ R : Pλ = C(u0), ∀λ ≤ λ0 (6.2.1)

∃ λ1 ∈ R : Pλ = Ω, ∀λ ≥ λ1 (6.2.2)

λ < λ′ ⇒ Pλ < P ′λ (6.2.3)

La première propriété indique qu’il existe une échelle où tous les individus sont détectés

(6.2.1) et la deuxième que la partition qui contient uniquement l’univers est atteinte en échelle

finie (6.2.2). La propriété structurelle des hiérarchies (6.2.3) stipule pour sa part que les seg-

mentations à échelles différentes sont ordonnées selon l’ordre de finesse. Elle indique que les

partitions sont emboîtées et donc que les régions des échelles grossières peuvent s’obtenir en

réunissant les régions des échelles fines ou, inversement, que les segments à faible échelle ré-

sultent de la division de segments aux grandes échelles. Un opérateur qui satisfait cette propriété

est appelé connexe par Salembier et Serra [SS95].

Remarquons que, puisque l’opérateur est défini par la famille de partitions Pλλ, on peut,

sans perte de généralité, faire un changement d’échelle, poser λ0 = 0 et restreindre l’étude à

l’intervalle [0, λ1]. Sous cette convention, le couple (H, f), donné par :

H = R ⊆ Ω | ∃λ : R ∈ Pλ (6.2.4)

f(R) = infλ ∈ [0, λ1] | R ∈ Pλ, ∀ R ∈ H (6.2.5)

est une hiérarchie indicée de parties de C(u0).

L’indice de stratification d’une région est donc son échelle d’apparition dans la hiérarchie.

Comme nous avons vu dans le chapitre précédent, la notion de hiérarchie indicée est équi-

valente à celle de distance ultramétrique. La distance entre deux points, notée Υ, est donnée par

Page 141: Arbelaez these

127

P0 P1 P2 P3

Υx Π(Υx, 1) Π(Υx, 2) Π(Υx, 3)

FIG. 6.1 – Exemple d’opérateur hiérarchique et partitions par seuillage

l’échelle d’apparition de la plus petite région les contenant :

Υ(x, y) = inff(R) | x ∈ R ∧ y ∈ R ∧R ∈ H, ∀ x, y ∈ Ω (6.2.6)

On peut à présent comprendre l’intérêt de ces distances pour la segmentation. La boule ul-

tramétrique de rayon λ centrée au point x, Bλ(x), est la région de Pλ qui le contient. Ainsi, les

partitions par seuillage de la distance à x représentent les objets auxquels appartient x à chaque

échelle. La Figure 6.1 montre, en haut, la famille de partitions qui définit un opérateur hiérar-

chique. La partition P0 est donc censée correspondre aux composantes d’une image. En bas,

on peut observer à gauche l’image des intensités de Υx, la distance ultramétrique à un point

x ∈ Ω. Les trois autres images présentent, en gris, les boules ultramétriques de rayon croissant

du point. Notons que, puisque l’espace quotient de l’ultramétrique est le graphe de composantes,

ces boules sont les mêmes pour tout autre point dans la composante de x.

Page 142: Arbelaez these

128

6.3 Définition des contours ultramétriques

Une segmentation normale peut s’exprimer de façon équivalente par une partition Pλ =

R1, ..., Rn ou par l’ensemble de ses contours Kλ. On peut donc décrire un opérateur de seg-

mentation multi-échelles au moyen de la famille de segmentations Kλλ.

En termes des contours, la définition d’un opérateur hiérarchique est donc la suivante :

Kλ = K(u0), ∀λ ≤ 0 (6.3.1)

Kλ = ∂Ω, ∀λ ≥ λ1 (6.3.2)

λ < λ′ ⇒ Kλ ⊃ Kλ′ (6.3.3)

La propriété (6.3.1) définit l’ensemble de contours possibles K0, dans notre cas les disconti-

nuités de l’image initiale K(u0). Chaque élément de K0 est donc une frontière commune entre

deux zones plates de u0. La propriété (6.3.2) indique pour sa part que tous les contours dispa-

raissent en échelle finie. Enfin, la propriété (6.3.3), appelée causalité forte dans [MS95], établit

que la localisation des contours est préservée lorsque l’échelle varie. Elle dit que les segmenta-

tions grossières peuvent s’obtenir en supprimant des contours des segmentations fines.

Nous pouvons à présent préciser le modèle de contours qui sera utilisé dans la suite.

Définition 6.3.1. Soit u0 une image et Υ la distance ultramétrique définie par un opérateur hié-

rarchique. La carte de contours ultramétriques (UCM) associée à Υ et à u0 est l’application

∇(Υ, u0) : K0 → [0, λ1] donnée par :

∇(Υ, u0)(∂) = infλ ∈ [0, λ1] | ∂ * Kλ,∀ ∂ ∈ K0.

En l’absence d’ambiguïté, nous omettrons Υ et u0 de la notation. Le nombre∇(∂) est appelé

en morphologie mathématique la saillance du contour ∂. Notons la dualité avec les régions, la

saillance d’un contour étant son échelle de disparition de la hiérarchie.

Page 143: Arbelaez these

129

FIG. 6.2 – Exemple de carte de contours ultramétriques

La carte de contours ultramétriques est une représentation de l’opérateur de segmentation en

une image unique. Par définition, l’ensemble de niveau supérieur λ des contours ultramétriques

fournit l’ensemble des frontières Kλ :

[∇(Υ, u0) > λ] = Kλ

La Figure 6.2 montre la carte de contours ultramétriques correspondant à l’opérateur de la

Figure 6.1. Pour des raisons de visibilité, nous présentons dans cette figure et dans la suite l’image

complémentaire de∇, donnée par 1− ∇max(∇)

, où les contours à saillance élevée sont représentés

par des intensités faibles.

Une carte de contours ultramétriques satisfait par définition les mêmes propriétés d’inva-

riance que l’opérateur hiérarchique qu’elle représente. De plus, toute UCM est invariante par

changements d’échelle :

Si h : R→ R est une fonction strictement croissante, alors,

∇(h(Υ), u0) = h(∇(Υ, u0))

Remarquons enfin que, d’après notre définition, toutes les cartes de contours ultramétriques

d’une image u0 pondèrent les éléments du même ensemble K(u0), les discontinuités de l’image

initiale. L’intérêt d’une telle représentation dépend donc de la distance spécifique qui la défi-

nit, car sa valeur détermine la saillance de chaque contour. Ainsi, notre problème consiste à

Page 144: Arbelaez these

130

TAB. 6.1 – Fusion de Régions

EntréeImage u0

Mesure de dissemblance entre régions voisines1. Initialisation

P : Partition du domaine de u0 en régions très homogènes.T : Tableau de dissemblances des régions voisines de P

2. Boucle :Tant qu’un critère de fusion est satisfait :

- Fusionner les deux régions les plus semblables de P- Mettre à jour T

construire des ultramétriques dont les contours représentent ceux des objets dans les images na-

turelles.

6.4 Construction ascendante

6.4.1 Fusion de régions

De manière explicite ou implicite, les idées de la classification hiérarchique des données

ont été employées pour traiter le problème de la segmentation depuis les origines de la vision par

ordinateur. En particulier, l’algorithme classique de fusion de régions, dont une version générique

est présentée dans le Tableau 6.1, n’est qu’une application de la méthode ascendante décrite dans

le chapitre précédent.

Plus précisément, la classification ascendante hiérarchique (voir le Tableau 5.1, p. 119) se

fonde sur un indice d’agrégation entre groupes d’individus. En segmentation, les classes étant

des régions connexes du domaine de l’image, l’agrégation peut s’interpréter comme une mesure

de ressemblance ou de dissemblance entre régions adjacentes.

D’autre part, la fusion de régions prend comme point de départ une partition du domaine de

Page 145: Arbelaez these

131

l’image en régions homogènes. Cette partition initiale est souvent obtenue par un pré-traitement,

mais peut aussi bien être la partition en pixels ou, comme dans notre cas, la partition en compo-

santes connexes.

Enfin, la fusion de régions est arrêtée lorsqu’un certain critère n’est plus satisfait. Celui-ci est

par exemple le nombre de régions ou une mesure de qualité de la segmentation finale. Lorsqu’on

s’intéresse, comme dans notre cas, à la famille de partitions plutôt qu’à une partition unique, le

critère de fusion est simplement que la partition comporte plus d’une région.

Outre la partition initiale, l’élément déterminant de l’algorithme est la mesure de dissem-

blance. Typiquement, elle est construite à partir des attributs des régions. Un raisonnement na-

turel consiste à approcher u0 par une fonction régulière, par exemple un spline d’ordre fixé, sur

chaque région de la segmentation. Une dissemblance peut alors être définie en comparant les

approximations au moyen d’une norme Lp. Dans le cas le plus simple, où l’approximation est

constante sur chaque région, on peut approcher l’image par sa valeur moyenne sur la région R :

M(R) =

∫R

u0dx

|R|

et mesurer la dissemblance entre deux régions adjacentes par la différence absolue de leurs

moyennes [MMR91, CVSG89] :

δa(Ri, Rj) = |M(Ri)−M(Rj)|

D’autres caractéristiques des régions, telles la variance et la taille [BG89, Nac95], l’orientation

et la texture [YFS02], sont souvent prises en compte.

6.4.2 Dissemblances ultramétriques

L’algorithme de fusion de régions permet de construire une hiérarchie de parties de Ω à

partir d’une partition initiale et d’une mesure de dissemblance. Rappelons cependant que notre

objectif est plus spécifiquement de définir une distance ultramétrique. Cette considération amène

Page 146: Arbelaez these

132

à s’intéresser particulièrement à la valeur prise par la dissemblance, facteur souvent négligé dans

la littérature.

Comme nous avons vu dans le chapitre précédent, la structure de hiérarchie indicée peut être

imposée à toute famille de partitions construite par Classification Ascendante Hiérarchique, en

considérant comme indice de stratification l’ordre dans lequel les classes sont formées (l’ordre

de fusion dans notre cas) ou une fonction croissante de cet ordre. L’ultramétrique ainsi définie

est cependant artificielle, de même que la notion d’échelle associée.

Une fois l’image initiale fixée, le seul élément dont nous disposons pour contrôler la valeur de

la distance est la dissemblance. Il semble donc naturel de définir comme indice de stratification

d’une région la valeur de la dissemblance lors de sa formation. Cependant, pour une dissem-

blance arbitraire, ce choix peut entraîner des inversions dans la hiérarchie, ce qui dans notre

cas se traduit par la violation du principe de causalité forte (6.3.3). Pour induire une distance

ultramétrique, la dissemblance doit être compatible avec l’ordre hiérarchique.

Définition 6.4.1. Soient H une hiérarchie construite par fusion de régions avec dissemblance δ

et f : P(Ω) → R l’application définie par :

f(R1 ∪R2) = δ(R1, R2), (6.4.1)

pour tout couple de régions connexes (R1, R2) ∈ H2.

Nous dirons que δ est une dissemblance ultramétrique si (H, f) est une hiérarchie indicée.

On peut déterminer si une dissemblance est ultramétrique a posteriori, en considérant la suite

des valeurs s = δii, où l’élément δi représente la valeur de la dissemblance lorsque la i-ème

fusion a lieu. Alors, (H, f) est une hiérarchie indicée si et seulement si s est croissante. Si, de

plus, s est strictement croissante, alors la hiérarchie indicée est binaire.

Notons par ailleurs que si la croissance de s n’est pas stricte, l’algorithme de fusion de régions

produit une hiérarchie indicée au sens large. Elle peut donc contenir des régions R, R′ ∈ Htelles que R R′ mais f(R) = f(R′). La suppression de toutes les régions R qui se trouvent

Page 147: Arbelaez these

133

dans cette situation transforme alors (H, f) en une hiérarchie indicée au sens stricte. D’autres

modifications de l’algorithme sont envisageables lorsque s n’est pas strictement croissante. On

peut par exemple fusionner en parallèle tous les couples de régions à dissemblance égale.

La Proposition (5.7.1) fournit une caractérisation des agrégations compatibles avec l’ordre

hiérarchique dans le sens de la Définition 6.4.1. Dans le contexte de notre application, la dissem-

blance étant définie uniquement sur les régions adjacentes, ce résultat s’écrit :

Proposition 6.4.1. La dissemblance δ est ultramétrique si et seulement si

δ(R1, R2) ≤ δ(R1 ∪R2, R), (6.4.2)

pour tout couple de régions (R1, R2) qui minimise δ et pour toute région R connexe à R1 ∪ R2

et appartenant à la partition obtenue après leur fusion.

Notons par exemple que la dissemblance δa n’est pas ultramétrique. Un processus de fusion

gouverné par cette dissemblance peut donc produire des contours artificiels lorsque la couleur à

l’intérieur des régions varie graduellement.

Remarquons enfin que la méthode de fusion de régions peut être implantée efficacement

à l’aide d’un graphe d’adjacence des régions (RAG) [VC93, GSG98]. Les sommets du RAG

représentent les régions de la partition et les arêtes sont pondérées par la dissemblance. Les

arêtes sont placées dans un tas (min-heap, en anglais), ordonné selon la dissemblance. Le couple

de régions à fusionner est donc le premier élément du tas. Leur fusion est réalisée en enlevant

l’arête joignant les deux sommets et en les réunissant. Les dissemblances entre la nouvelle région

et ses voisins sont alors actualisées et remplacées dans le tas. Enfin, les contours ultramétriques

sont codés par les edgels et, quand deux régions fusionnent, les points de leur frontière commune

sont pondérés par la valeur de la dissemblance dans la grille duale.

Page 148: Arbelaez these

134

FIG. 6.3 – De gauche à droite : image synthétique, contours ultramétriques et niveau de la hié-rarchie (image en couleurs dans la version électronique).

6.5 Mesures de contraste

Ainsi, la construction ascendante d’une hiérarchie indicée revient au choix d’une dissem-

blance ultramétrique appropriée. La question centrale est donc de définir cette mesure à partir

des données de l’image. Rappelons que notre objectif est de construire une ultramétrique dont les

contours représentent les contours apparents des objets dans les images naturelles. Nous allons

par conséquent utiliser principalement l’information de l’image le long de la frontière commune

des régions pour mesurer leur dissemblance.

6.5.1 Sous-dominante de la variation de chemin

En classification hiérarchique des données, l’indice d’agrégation entre classes est souvent

défini au moyen d’un indice de distance entre individus. Dans notre cas, les individus sont les

zones plates de l’image et l’univers son graphe de composantes. Une idée naturelle est donc

d’utiliser la variation de chemin sur ce graphe comme indice de distance.

Nous avons présenté dans la Section 5.8 trois indices d’agrégation classiques entre groupes,

définis à partir d’une distance entre individus : le lien minimum, la distance moyenne et le lien

maximum. Considérons le premier, dont l’ultramétrique associée, la sous-dominante, a la pro-

priété d’être la meilleure approximation "par le dessous" de la distance (5.6.3).

Page 149: Arbelaez these

135

L’ultramétrique sous-dominante de la variation de chemin est définie par la dissemblance :

δc0(R1, R2) = minV1(u0)(x, y) | x ∈ R1, y ∈ R2

Néanmoins, les régions à fusionner étant connexes, le minimum est forcément atteint sur leur

frontière commune :

δc0(R1, R2) = minδ∗(u0(x), u0(y)) | x ∈ R1, y ∈ R2,

où les composantes des points x et y sont adjacentes.

La dissemblance δc0 est ultramétrique par définition. La distance associée, notée Υc0 , est

donc l’ultramétrique inférieure maxima de la variation de chemin. D’après la caractérisation

de la sous-dominante en termes de chemins (5.6.1), Υc0 , coïncide avec l’ultramétrique du saut

minimum sur le graphe de composantes de u0. Notons que, parmi les trois agrégations classiques

citées plus haut, δc0 est la seule à utiliser exclusivement l’information de frontière commune des

régions.

L’espace pseudo-métrique (Υc0 , Ω) constitue notre premier modèle pour la segmentation hié-

rarchique. Dans cet espace, la boule ultramétrique de rayon λ d’un point x est l’ensemble des

points qui peuvent être atteints, à partir de x, en suivant un chemin le long duquel la plus grande

discontinuité de l’image est inférieure ou égale à λ. En morphologie mathématique, cette boule

ultramétrique est appelée une zone quasi-plate de pente λ, ou zone λ-plate, par extension des

zones plates strictes qui correspondent au cas λ = 0. La distance Υc0 représente donc les objets

de l’image par des régions sans transitions de couleur brusques. Elle est par définition sensible au

bruit et aux textures, mais devrait servir à extraire les contours des objets de couleur relativement

uniforme.

La Figure 6.3 illustre le principe de l’ultramétrique Υc0 sur l’image synthétique u0 de gauche.

La partie centrale présente la carte de contours ultramétriques ∇(Υc0 , u0). On peut observer que

la saillance des contours séparant les trois régions de couleurs différentes (en gras) est large-

ment supérieure aux saillances entre les composantes qui ont des nuances différentes de la même

Page 150: Arbelaez these

136

Image originale u0 ∇(Υc0 , u0)

Π(Υc0 , 0.15) Π(Υc0 , 0.15)

Π(Υc0 , 0.4) Π(Υc0 , 0.4)

Π(Υc0 , 0.6) Π(Υc0 , 0.6)

FIG. 6.4 – Exemple de carte de contours ultramétriques associée à la sous-dominante de la va-riation de chemin.

Page 151: Arbelaez these

137

couleur. Le contour entre la région jaune et la bleue a la plus haute saillance (1,0) et la pondéra-

tion du contour entre la région bleue et la rouge est de 0,85. La saillance interne la plus élevée

(dans la région bleue) est 0,22. La partie droite montre la mosaïque de la partition Π(Υc0 , 0,3),

avec la couleur médiane sur chaque région. À cette échelle, toutes les composantes de couleurs

proches ont déjà fusionné entre elles. Cet exemple montre aussi que l’approximation de l’espace

des couleurs perceptuellement uniforme des standards de la C.I.E. (l’espace L∗ab dans ce cas)

est globalement correcte.

La Figure 6.4 présente l’application de Υc0 sur une image naturelle. La scène représentée dans

cette image, une nature morte, est composée essentiellement d’objets contrastés et de couleur

uniforme sur un fond lisse. En l’absence d’objets texturés et de bruit, l’image présente des carac-

téristiques appropriées pour tester l’efficacité de Υc0 sur une image réelle. La carte de contours

ultramétriques se trouve en haut à droite. Le résultat donne une première impression visuelle

satisfaisante. On peut identifier aisément les différents végétaux et la saillance des contours les

séparant est sensiblement supérieure aux saillances internes. Notons toutefois que les contours

sont épais.

Les Lignes 2 et 3 de la Figure 6.4 montrent deux partitions ultramétriques, Π(Υc0 , λ), obte-

nues par seuillage de la carte de contours ultramétriques. La distance est normalisée à l’intervalle

[0, 1]. On peut observer, dès l’échelle λ = 0,15, que la quasi totalité des contours coïncide avec

des contours réels. A l’échelle λ = 0,4, les détails ont disparu mais la structure globale de la

scène est encore extraite. On observe néanmoins que certains contours sont ouverts, ce qui en

théorie ne devrait pas arriver avec notre approche. Leur présence s’accentue lorsque l’échelle

augmente, car les régions homogènes fusionnent entre elles. La Ligne 4 présente par exemple la

partition pour l’échelle λ = 0,6 (gauche) et un détail (droite). Les zones de transition entre deux

objets sont la cause de ce phénomène. En effet, lorsqu’un pixel est situé exactement à l’emplace-

ment d’un contour réel, sa couleur est souvent très différente de celles des objets qu’il sépare. Il

en résulte donc de petites régions à haute saillance qui donnent l’apparence de contours ouverts.

Page 152: Arbelaez these

138

Image Originale Π(Υc0 , 0.2) Π(Υc0 , 0.4)

Mosaïque des extrema Π(Υc0 , 0.2) Π(Υc0 , 0.4)

FIG. 6.5 – Effets de la pré-segmentation sur les contours ultramétriques.

Page 153: Arbelaez these

139

Du point de vue de notre approche, où les régions sont censées représenter des objets réels,

les zones de transition sont une source de bruit. Leur effet est accru en présence de flou, comme

le montrent les Lignes 1 et 2 de la Figure 6.5. Le flou atténue les contours faibles et épaissit les

contours contrastés. Par conséquent, les structures faiblement contrastées, comme celles de l’ar-

rière plan, ne sont pas extraites par les contours ultramétriques. En revanche, les contours sépa-

rant des régions fortement contrastées, comme les tâches claires de l’aile du papillon, sont épais

et contiennent un grand nombre de zones de transition à haute saillance. Ainsi, l’information

extraite par ∇(Υc0 , u0) est essentiellement celle des zones de transition. Les contours obtenus

sont épais aux échelles faibles et ouverts aux échelles hautes, ce qui les rend inutilisables pour

nos propos.

Les exemples précédents mettent en évidence la nécessité de pré-traiter l’image avant de

construire les contours ultramétriques. Le pré-traitement devrait supprimer les zones de transi-

tion tout en préservant la localisation des contours, rehausser le contraste et éliminer le flou. La

mosaïque des extrema, présentée dans le Chapitre 4, satisfait toutes ces propriétés. Nous allons

donc l’utiliser dans la suite comme image initiale u0. Les lignes 3 et 4 de la Figure 6.5 montrent

l’amélioration des contours ultramétriques obtenue grâce à notre méthode de pré-segmentation.

D’une part, les zones de transition n’étant généralement pas extrémales, elles sont absorbées par

la V-région d’un extremum voisin et disparaissent de la partition initiale. Les contours obtenus

sont donc fermés. D’autre part, puisque les contours flous deviennent contrastés, les contours

ultramétriques sont minces. Enfin, le rehaussement du contraste accroît l’échelle de disparition

des contours et permet de mieux séparer les différentes structures.

6.5.2 Ultramétrique de contraste moyen

Outre les zones de transition, une limitation pratique de Υc0 est l’effet de chaîne (5.3.2), selon

lequel la longueur d’une chaîne pour la sous-dominante est toujours inférieure ou égale au plus

long des maillons. Dans le contexte de notre application, l’effet de chaîne entraîne des fuites.

Page 154: Arbelaez these

140

En effet, il suffit qu’il existe un chemin entre deux points dont le plus grand saut est faible pour

que leurs régions fusionnent rapidement. On peut observer les fuites dans la Figure 6.4. Même

à échelle réduite, certains des végétaux ont déjà fusionné entre eux et avec le fond. La saillance

des contours les séparant est donc très faible, même si le contraste entre les deux objets est

globalement grand. L’utilisation d’une mosaïque des extrema comme image initiale diminue le

problème, grâce au rehaussement du contraste du pré-traitement. L’effet de chaîne est néanmoins

inhérent à la sous-dominante.

Pour remédier au problème des fuites, reformulons la construction du paragraphe précédent

sur un domaine continu.

Considérons une mesure d’homogénéité locale de la couleur, donnée par la plus grande va-

riation de l’image au voisinage de chaque point :

τ(u0, x) = supδ∗(u0(y), u0(y′)) | ∀y, y′ ∈ Br(x), ∀x ∈ Ω, (6.5.1)

où Br(x) est une boule euclidienne de rayon r.

On peut alors interpréter δc0 comme quantifiant l’homogénéité locale minimale sur le contour

séparant deux régions :

δc0(R1, R2) = infτ(u0, x) | x ∈ ∂(R1, R2),

Sous cette formulation, Υc0 apparaît comme une mesure de contraste entre régions connexes. On

s’aperçoit donc que la cause des fuites est l’absence d’information de contraste en au moins un

point de la frontière. Ainsi, l’existence par exemple d’un pixel de transition entre deux objets de

couleur relativement proche occasionne la fusion prématurée des régions.

Nous considérons donc comme deuxième mesure de contraste l’homogénéité locale moyenne

sur la frontière commune des régions :

δc1(R1, R2) =Σc(∂(R1, R2))

L(∂(R1, R2)), (6.5.2)

Page 155: Arbelaez these

141

FIG. 6.6 – Gauche : image synthétique u0. Droite : ∇(Υc1 , u0).

où Σc est donnée par :

Σc(∂(R1, R2)) =

∂(R1,R2)

τ(u0, x(s))ds. (6.5.3)

Du point de vue pratique, nous approchons (6.5.3) en échantillonnant la frontière aux points

centraux des edgels et en considérant un voisinage de rayon unitaire. On calcule donc :

Σc(∂(R1, R2)) =∑

δ∗(u0(p1), u0(p2)), (6.5.4)

où δ∗ est la distance dans l’espace des couleurs et la somme est calculée sur tous les pixels

adjacents tels que p1 ∈ R1 et p2 ∈ R2.

Proposition 6.5.1. La dissemblance δc1 est ultramétrique.

La compatibilité de δc1 avec l’ordre hiérarchique sera prouvée dans la Section 6.6. La distance

ultramétrique induite par δc1 , que nous appelons ultramétrique de contraste moyen et notons

Υc1 , constitue le deuxième modèle que nous allons étudier pour la segmentation hiérarchique.

La Figure 6.6 illustre le principe de l’application de Υc1 sur l’image synthétique de gauche,

où les chiffres indiquent le niveau de gris. Si on utilise Υc0 , la saillance du contour horizontal est

Page 156: Arbelaez these

142

(a) (b) (c)

FIG. 6.7 – Comparaison des mesures de contraste sur une image naturelle.

donnée par le minimum des différences des intensités entre les composantes adjacentes du haut

et du bas. Dans ce cas, elle se calcule avec les deux composantes les plus à droite et vaut 100. La

saillance du même contour avec Υc1 est la moyenne des différences. Elle vaut dans ce cas 175,

reflétant plus fidèlement le contraste global entre la région sombre du haut et la région claire du

bas.

En mesurant la moyenne de l’homogénéité locale sur la frontière plutôt que le minimum, on

peut espérer une estimation plus robuste du contraste réel entre deux objets en utilisant Υc1 à la

place de Υc0 . En revanche, contrairement à la sous-dominante, cette ultramétrique n’est pas une

métrique de chemin et sa valeur ne peut pas être exprimée par des mesures le long des chemins.

La Figure 6.7 compare nos deux mesures de contraste sur une image naturelle. Les cartes

de contours ultramétriques présentées sont, de gauche à droite, ∇(Υc0 , u0), ∇(Υc0 , m(u0)) et

∇(Υc1 ,m(u0)), où u0 est l’image originale et m(u0) sa mosaïque des extrema. La méthode de

pré-segmentation accroît considérablement le maximum de la saillance ; dans cet exemple, il

passe de 34 dans (a) à 204 dans (b). En revanche, le maximum du contraste minimum et celui

du contraste moyen sont très proches (205.7 pour (c)). La différence principale entre les deux

ultramétriques est que la saillance relative des structures est plus importante avec Υc1 qu’avec

Υc0 . Par exemple, la saillance de l’aile sombre est de 65% pour la première contre 23% pour

Page 157: Arbelaez these

143

FIG. 6.8 – De haut en bas : site, image des intensités de distance Υc1 au site, seuil de 0.35 et seuilde 0.65

Page 158: Arbelaez these

144

FIG. 6.9 – Importance de l’information de texture pour la perception humaine.

la seconde. L’ultramétrique de contraste moyen permet donc de mieux séparer les différentes

structures de l’image.

La Figure 6.8 reproduit l’expérience de la Figure 6.1 (p. 127) avec une image naturelle. On

peut observer les partitions par seuillage de la distance Υc1 pour trois sites. Les partitions peuvent

s’obtenir par seuillage de l’image des intensités de la distance au site. Le seuil au niveau λ fournit

la boule ultramétrique du site (en blanc) par rapport à Υc1 et représente l’objet auquel appartient

le site à cette échelle.

6.6 Enrichissement du contraste

Dans la section précédente, nous avons construit deux ultramétriques pour mesurer le contraste

des images naturelles. Ces distances expriment une notion d’homogénéité des objets fondée sur

la couleur, leurs régions étant caractérisées par une plus grande uniformité de couleur à l’intérieur

que sur la frontière. Les limites d’application de ces distances sont donc atteints lorsque l’homo-

généité des objets dépend d’autres facteurs. Un exemple est le cas de la texture ; comme l’illustre

la Figure 6.9, cette information joue souvent un rôle prépondérant dans le regroupement percep-

tuel des images naturelles. Nous étudions dans cette section l’inclusion de telles caractéristiques

dans la définition de la distance.

Page 159: Arbelaez these

145

Il est possible de définir d’autres mesures d’homogénéité locale de la couleur que celle don-

née par l’équation (6.5.1). On peut par exemple considérer une boule (euclidienne) autour de

chaque point, la diviser par un diamètre et comparer les histogrammes couleur des deux moitiés.

Une mesure scalaire est alors donnée par le maximum sur toutes les orientations des diamètres.

Cette technique, utilisée dans [MFM04], permet en outre de prendre en considération une plus

large variété d’attributs locaux. Par exemple, dans le cas de la texture, on peut comparer la ré-

ponse de l’image à une banque de filtres de texture, ou textons, sur les deux moitiés du disque.

Une telle approche, dans le cadre de la segmentation, est celle des détecteurs de contours locaux.

Une façon d’enrichir nos ultramétriques de contraste est donc de mesurer d’autres notions

d’homogénéité locale au voisinage des points de la frontière entre deux régions. Plus précisé-

ment, nous supposons que ces informations ont été préalablement extraites de l’image et que

nous disposons, en entrée de notre système, d’un "module du gradient" g, une image scalaire

dont la valeur à chaque point quantifie localement l’homogénéité de l’image par rapport à ces

autres caractéristiques. Nous utilisons en particulier le détecteur de contours de [MFM04] qui

mesure et combine de façon optimale des attributs locaux comme la luminosité, la couleur et la

texture, sur un voisinage de chaque point (voir la Section 8.2.1 pour plus de détails).

Ainsi, nous définissons de façon analogue à la section précédente une dissemblance de gra-

dient minimum sur la frontière :

δg0(R1, R2) = ming(x) | x ∈ ∂(R1, R2), (6.6.1)

Pour augmenter la robustesse de δg0 , nous considérons aussi une dissemblance de gradient

moyen :

δg1(R1, R2) =Σg(∂(R1, R2))

L(∂(R1, R2)), (6.6.2)

Σg(∂(R1, R2)) =

∂(R1,R2)

g(x(s))ds. (6.6.3)

Page 160: Arbelaez these

146

Du point de vue pratique, nous approchons l’intégrale de (6.6.3) en échantillonnant l’interpola-

tion bilinéaire de g sur les points centraux des edgels.

L’intérêt des distances de la section précédente est que, étant mesurées directement sur l’image

originale, elles préservent la localisation de ses contours, contrairement à δg0 et δg1 . Pour profiter

des avantages des deux approches, nous considérons la dissemblance de frontière suivante :

δf (R1, R2) = δc1(R1, R2) + α1 · δg1(R1, R2) (6.6.4)

où le paramètre α1 pondère l’importance de l’information de contraste de l’image initiale par

rapport à celle du gradient. Notons que, puisque δc1 n’est jamais nul, la carte de contours ultra-

métriques induite par δf préserve la localisation des contours de l’image initiale.

Proposition 6.6.1. La dissemblance δf est ultramétrique.

Nous prouverons que la dissemblance de frontière est compatible avec l’ordre hiérarchique

dans la section suivante. L’ultramétrique associée, notée Υf , est notre troisième modèle de seg-

mentation hiérarchique.

Les Figures 6.10 et 6.11 présentent des exemples d’application de l’ultramétrique Υf . L’ap-

port principal de l’enrichissement du contraste à la distance est le traitement explicite de la tex-

ture. Les régions texturées, comme la robe du personnage ou la fourrure du léopard, sont source

de bruit pour l’ultramétrique Υc1 ; Υf permet en revanche de les extraire correctement, grâce à

la prise en compte de cette notion d’homogénéité par le détecteur local. Remarquons par ailleurs

que l’avantage de notre approche par rapport aux détecteurs locaux est que nos contours, en

tant que frontières de régions, sont fermés. En outre, dans les régions où l’information du gra-

dient et celle de l’image sont contradictoires, comme dans le visage du personnage, leurs effets

s’annulent dans Υf .

Page 161: Arbelaez these

147

6.7 Information interne

Les ultramétriques définies jusqu’à présent utilisent exclusivement l’information de l’image

sur les contours. Nous étudions dans cette section l’inclusion de caractéristiques internes des

régions en complément de l’information de frontière, pour la définition de la distance.

Dans ce but, nous mesurons un attribut interne sur chaque région, une fonctionA : P(Ω) →R+ croissante par rapport à l’ordre de l’inclusion :

R ⊂ R′ ⇔ A(R) < A(R′). (6.7.1)

L’exemple le plus simple d’attribut croissant est la taille de la région. Notons en revanche qu’un

attribut comme la couleur moyenne ou le perimètre ne satisfait pas forcement (6.7.1).

Ainsi, à partir de la dissemblance de frontière (6.6.4), nous considérons une dissemblance de

la forme :

δi(R1, R2) = δf (R1, R2) ·minA(R1),A(R2)α2 , (6.7.2)

où le paramètre α2 ≥ 0 permet de balancer l’importance de l’information interne par rapport à

celle de frontière dans la dissemblance.

Prouvons que δi est compatible avec l’ordre hiérarchique.

Proposition 6.7.1. La dissemblance δi définie par (6.7.2) est ultramétrique.

Démonstration. Soit (R1, R2) un couple de régions qui minimise la dissemblance δi définie par

l’équation (6.7.2) et R3 une région connexe à R1∪R2, appartenant à la partition après leur fusion.

Nous allons prouver la relation (6.4.2) :

δi(R1, R2) ≤ δi(R1 ∪R2, R3). (6.7.3)

Par minimalité du couple (R1, R2) on a :

δi(R1, R2) ≤ δi(R1, R3) (6.7.4)

Page 162: Arbelaez these

148

image originale segmentation reconstruction

détecteur local g ∇(Υc1) ∇(Υf )

[g ≥ 0.14] Π(Υc1 , 0.3) Π(Υf , 0.18)

FIG. 6.10 – Exemple d’enrichissement du contraste.

Page 163: Arbelaez these

149

Image originale

∇(Υc1) Π(Υc1 , 0.3)

détecteur local g [g ≥ 0.11]

∇(Υf ) Π(Υf , 0.3)

FIG. 6.11 – Exemple d’enrichissement du contraste.

Page 164: Arbelaez these

150

et donc

δi(R1, R2) ≤ δf (R1, R3) ·minA(R1),A(R3)α2 . (6.7.5)

Par la croissance de l’attribut, on a A(R1) < A(R1 ∪R2) et

δi(R1, R2) ≤ δf (R1, R3) ·minA(R1 ∪R2),A(R3)α2 (6.7.6)

ou encoreδi(R1, R2)

minA(R1 ∪R2),A(R3)α2≤ δf (R1, R3) (6.7.7)

En notant N le membre de gauche, l’inégalité (6.7.7) s’écrit :

N ≤ δf (R1, R3) (6.7.8)

Par ailleurs, la minimalité du couple (R1, R2) implique aussi que :

δi(R1, R2) ≤ δi(R2, R3) (6.7.9)

En répétant le raisonnement, avec R2 à la place de R1 dans les membres de droite, l’inégalité

(6.7.8) devient :

N ≤ δf (R2, R3) (6.7.10)

Prouvons à présent l’inégalité :

N ≤ δf (R1 ∪R2, R3). (6.7.11)

Pour alléger les notations, notons Σijc = Σc(∂(Ri, Rj)), Σij

g = Σg(∂(Ri, Rj)), et Lij =

L(∂(Ri, Rj)).

Les relations (6.7.8) et (6.7.10) s’écrivent donc :

N ≤ Σ13c + α1Σ

13g

L13et N ≤ Σ23

c + α1 · Σ23g

L23

Page 165: Arbelaez these

151

d’où on déduit que

N ≤ (Σ13c + Σ23

c ) + α1 · (Σ13g + Σ23

g )

L13 + L23.

Mais, puisque ∂(R1 ∪R2, R3) = ∂(R1, R3) ∪ ∂(R2, R3), on a

N ≤ δc1(R1 ∪R2, R3) + α1 · δg1(R1 ∪R2, R3).

Ainsi, en remplaçant N et δf dans (6.7.11), on obtient :

δi(R1, R2)

minA(R1 ∪R2),A(R3)α2≤ δf (R1 ∪R2, R3) (6.7.12)

d’où

δi(R1, R2) ≤ δf (R1 ∪R2, R3) ·minA(R1 ∪R2),A(R3)α2 (6.7.13)

et finalement,

δi(R1, R2) ≤ δi(R1 ∪R2, R3) (6.7.14)

Toute fusion de régions gouvernée par une dissemblance de la forme (6.7.2) induit donc une

ultramétrique. Cette distance, notée Υi, est notre quatrième modèle pour la segmentation. Notons

que les dissemblances δf et δc1 sont des cas particuliers de δi, en choisissant respectivement

α2 = 0 et (α1, α2) = (0, 0).

Remarquons par ailleurs que, dans la définition de δi (6.7.2), on pourrait envisager d’autres

façons de combiner les attributs internes des deux régions, par exemple, leur moyenne harmo-

nique. Le choix du minimum a cependant l’avantage de rendre la dissemblance asymétrique pour

les régions et permet d’interpréter la fusion des régions comme l’absorption de la région à attribut

minimum par celle à attribut maximum. On peut alors considérer la saillance du contour comme

la valeur d’extinction de la première région. On obtient ainsi une classification des composantes

de l’image initiale, qui sera utilisée dans la section suivante.

Page 166: Arbelaez these

152

Image originale Mosaïque des extrema Reconstruction

α2 = 0 - Π(Υi, 0.2) α2 = 0 - Π(Υi, 0.45) α2 = 0 - Π(Υi, 0.6)

α2 = 0.1 - Π(Υi, 0.2) α2 = 0.1 - Π(Υi, 0.45) α2 = 0.1 - Π(Υi, 0.6)

α2 = 0.4 - Π(Υi, 0.2) α2 = 0.4 - Π(Υi, 0.45) α2 = 0.4 - Π(Υi, 0.6)

FIG. 6.12 – Influence du paramètre α2 dans les partitions ultramétriques (voir texte).

Page 167: Arbelaez these

153

Dans nos expériences, nous avons considéré l’attribut interne suivant :

A(R) =

R

dx + α3 ·∫

R

δ2∗(u0(x),M(R))dx (6.7.15)

où α3 ≥ 0 et M(R) dénote la couleur moyenne de l’image initiale sur la région R.

Le premier terme de (6.7.15) est la taille de la région et le deuxième l’erreur quadratique

totale de l’approximation par la moyenne. Le poids relatif de ces deux informations est pondéré

par α3.

La Figure 6.12 montre l’influence du paramètre α2 dans le résultat. Dans ce but, les deux

autres paramètres de la dissemblance, α1 et α3, ont été fixés à 0. Ainsi, l’ultramétrique Υi prend

uniquement en compte la taille des régions et leur contraste et α2 pondère l’importance relative

de ces deux informations. La première ligne montre, de gauche à droite, l’image originale, la

mosaïque des extrema et la reconstruction associée à la partition Π(Υi, 0,45), avec α2 = 0,1.

Dans les trois autres lignes, l’échelle λ augmente de gauche à droite et α2 augmente de haut

en bas. La deuxième ligne correspond à α2 = 0. On se trouve donc dans le cas Υi = Υc1 , où

l’ultramétrique est définie uniquement par le contraste. On peut observer que, lorsque l’échelle

croît, les régions les plus contrastées sont effectivement celles qui persistent dans la partition,

indépendamment de leur taille ou de leur homogénéité. La troisième ligne montre les partitions

pour α2 = 0,10. Cette valeur du paramètre fournit un meilleur équilibre entre taille et contraste,

permettant aux régions d’extraire plus précisément le contenu de l’image. Enfin, la valeur de α2

dans la quatrième ligne est de 0,4. Dans ce cas, la taille des régions est prépondérante dans les

partitions.

La Figure 6.13 illustre aussi l’influence de l’information interne dans les contours ultramé-

triques. Elle permet d’une part d’éliminer le bruit et les petites imperfections de l’image, qu’on

peut par exemple observer sur les cheveux du personnage où dans les Figures 6.10 et 6.11. La

prise en compte des caractéristiques internes des régions fournit par ailleurs une plus grande

Page 168: Arbelaez these

154

∇(Υf ) Π(Υf , 0,19) Π(Υf , 0,19)

∇(Υi) Π(Υi, 0,19) Π(Υi, 0,19)

FIG. 6.13 – Information Interne.

Page 169: Arbelaez these

155

souplesse à la distance, lui permettant de mieux s’adapter au contenu de l’image ou à une appli-

cation particulière. Le paramètre α2 de l’équation (6.7.2) permet de graduer la saillance relative

de structures, comme les tâches sombres du tissu, qui par leur taille déclenchent la réponse du

détecteur local mais dont l’importance dépend de l’application.

6.8 Ultramétrique des marqueurs

6.8.1 Propagation de marqueurs

Une stratégie de segmentation que nous n’avons pas encore exploitée est celle qui consiste

à utiliser l’algorithme de fusion de régions pour propager l’information d’un ensemble de mar-

queurs. Cette méthode suppose qu’on a été capable de déterminer au préalable l’emplacement

des structures à extraire de l’image et qu’on les a marquées, en situant une région pourvue d’une

étiquette à l’intérieur de chacune d’entre elles (et une autre, éventuellement, pour désigner le

fond).

La stratégie consiste alors à appliquer l’algorithme du Tableau 6.1 en interprétant la fusion

de deux régions comme l’absorption de l’une par l’autre. Plus précisément, si une des régions

a l’étiquette d’un marqueur et l’autre pas, l’étiquette est assignée à leur réunion. En revanche,

si les deux régions ont des étiquettes différentes, la fusion n’a pas lieu. Ainsi, l’information des

marqueurs se propage à toute l’image et, lorsque aucune fusion n’est plus possible, on obtient une

partition du domaine où chaque région contient un marqueur. Si l’ensemble des marqueurs est

composé de n régions connexes avec des étiquettes différentes alors, l’information se propageant

par connexité, la partition finale comporte n régions connexes à étiquettes différentes.

Notons que, si la propagation est régie par l’ultramétrique de gradient minimum Υg0, cette

stratégie correspond à la LPE contraine par marqueurs, une des méthodes les plus populaires

en segmentation morphologique. Le choix des marqueurs est interprété comme l’introduction

Page 170: Arbelaez these

156

∇(Υi) Π(Υi, 0,09)

Marqueurs M Partition des Marqueurs Reconstruction

FIG. 6.14 – Propagation de Marqueurs.

Page 171: Arbelaez these

157

d’information sémantique et la LPE est utilisée pour extraire les contours des objets.

6.8.2 Ultramétrique des marqueurs

Soit PM la partition obtenue par la propagation d’un ensemble de marqueurs M en utilisant

une dissemblance ultramétrique. Notons que si l’on considère un sous ensemble de marqueurs

M ′ ⊂ M , alors la partition PM ′ est une sous partition de PM .

Nous allons utiliser cette stratégie en considérant un ensemble de marqueurs pondérés. Plus

précisément, soit un espace ultramétrique (Υ, Ω) construit par CAH avec dissemblance δ et p :

Ω(Υ) → R+ une fonction de pondération qui assigne un réel positif à chaque région de la

partition initiale. Puisque le nombre de classes d’équivalence de l’espace quotient est fini, notons

p1, ..., pn l’ensemble des valeurs prises par p, ordonnées de sorte que p1 < ... < pn. Soit

Ppila partition obtenue en propageant sous δ l’information de toutes les classes m ∈ Ω(Υ)

telles que p(m) ≥ pi. Alors, la famille Ppii définit une hiérarchie indicée de parties de Ω où

la stratification est donnée par p. Nous appelons cette nouvelle distance l’ultramétrique des

marqueurs induite par δ et p.

Remarquons que si p est l’indice de stratification de Υ, alors l’ultramétrique des marqueurs

induite par δ et p coïncide avec Υ. La construction ne présente donc d’intérêt que si la pondération

diffère de la stratification originale.

Un avantage de l’ultramétrique des marqueurs est qu’elle permet de traiter la pondération des

régions indépendamment de la distance qui définit les contours. Elle nous permettra en particu-

lier dans la Partie 4 de déterminer la meilleure façon d’introduire l’information interne dans la

distance parmi les deux suivantes :

1. Utiliser directement les contours ultramétriques de Υi.

2. Mesurer δi lors de la construction de Υf et définir la fonction de pondération en la région

du couple à attribut minimal. Construire l’ultramétrique des marqueurs induite par δf et p.

Page 172: Arbelaez these

158

6.9 Positionnement de l’approche

L’organisation hiérarchique de la perception visuelle humaine a motivé le développement

d’approches multi-échelles pour la segmentation d’images depuis les origines de la vision par

ordinateur. L’idée est présente par exemple dans le paradigme du split and merge de Horowitz

et Pavlidis [HP74, HP76], qui repose sur l’utilisation d’une structure hiérarchique fixe, l’arbre

quaternaire, au sein de laquelle on se déplace en fusionnant et divisant les régions d’une partition

initiale, de sorte à minimiser l’erreur de l’approximation.

À notre connaissance, Ohlander et al. [OPR78] ont été les premiers à formuler explicitement

la segmentation comme un problème de clustering. De nombreuses études ont par la suite abordé

la segmentation dans le cadre de la classification hiérarchique des données. Par exemple, la mé-

thode de Beaulieu et Goldberg [BG89] qui utilise la CAH avec pour dissemblance la variance du

niveau de gris des régions.

C’est cependant dans le cadre de la morphologie mathématique qu’a été abordé explicite-

ment le problème de la définition de distances ultramétriques pour la segmentation. Cette section

présente une révision succincte des principales techniques morphologiques pour la segmentation

hiérarchique, afin de situer notre étude dans ce contexte.

En outre, un grand nombre de travaux en segmentation utilisent des algorithmes de fusion

de régions comme celui présenté dans la Section 6.3.1. La formalisation de ces méthodes dans

le cadre varationnel est due à Morel et Solimini [MS95]. Nous concluons cette partie du mé-

moire par une interprétation dans notre contexte de l’approche hiérarchique de Koepfler et al.

[KLM94, DK97] pour la minimisation de la fonctionnelle de Mumford et Shah [MS89]. Cette

méthode sera utilisée dans la quatrième partie comme référence des techniques de segmentation

variationnelles.

Page 173: Arbelaez these

159

6.9.1 Cadre morphologique

Inondations

Un des grands courants en segmentation morphologique s’inspire de la construction de la

ligne de partage des eaux par l’inondation d’un relief [BM92]. Cette démarche de segmentation

hiérarchique repose sur l’utilisation de l’information fournie par une image de contours.

Dans cette construction, la LPE est définie par les barrages qui empêchent les eaux provenant

de minima différents de se mélanger. Une modification naturelle de l’algorithme est de permettre

aux lacs de fusionner aux points de rencontre. Ainsi, des niveaux croissants d’eau produisent

des partitions de plus en plus grossières. La famille de partitions emboîtées résultante peut alors

s’indicer par la hauteur des points col, et la hiérarchie indicée ainsi définie par Grimaud [Gri92]

est connue sous le nom de dynamique. L’échelle associée à la dynamique est donc une notion de

contraste.

La représentation d’une hiérarchie de parties du domaine au moyen d’une image de contours

a été utilisée pour la première fois par Najman [Naj94] pour pondérer les arcs de la LPE par la

dynamique. Néanmoins, à notre connaissance, peu d’études postérieures portent directement sur

l’étude de cette représentation des contours d’une hiérarchie. Citons toutefois le travail récent de

Vanhamel et al. [VPS03] où la saillance de Najman et Schmitt est combinée avec un filtrage par

diffusion non linéaire pour la segmentation d’images couleur.

La sur-segmentation de la LPE sans contraintes, due au grand nombre de minima, justifie la

modification de l’homotopie du relief afin d’imposer un ensemble de marqueurs prédéterminé

comme seuls minima. Le choix d’un ensemble de marqueurs significatif devient dans ce cas le

coeur du problème, la LPE étant utilisée uniquement pour définir les contours des objets [BM92].

Une façon d’aborder ce problème sans l’intervention d’un opérateur humain est d’ordonner tous

les minima de l’image selon un certain critère et de choisir les N minima les plus grands comme

marqueurs. La classification des minima peut se réaliser en comparant les caractéristiques des

Page 174: Arbelaez these

160

lacs aux points de rencontre lors de l’inondation du relief. Si on mesure la profondeur, on retrouve

la hiérarchie de la dynamique ; cependant, l’utilisation d’autres caractéristiques physiques des

lacs, comme l’aire et le volume, permet à Vachier [Vac95] d’interpréter la valeur au moment

de la fusion comme la valeur d’extinction du lac à caractéristique minimale. Ces hiérarchies

induisent donc des ultramétriques de marqueurs particulières. Notons que la hiérarchie d’aire

classifie les minima en utilisant uniquement leur information interne, tandis que le volume est

une façon de combiner information interne et de frontière.

Une alternative au processus d’inondation uniforme de la LPE est de définir une inondation

synchrone où tous les lacs partagent une caractéristique commune [Mey00]. Lorsqu’un lac est

"plein", c’est-à-dire lorsqu’il atteint un point col, il est absorbé par son voisin. En utilisant les

mêmes caractéristiques physiques des lacs que pour la classification des minima, les inondations

synchrones permettent de définir de nouvelles ultramétriques. Cependant, dans notre expérience,

ces distances produisent en pratique des résultats très proches à ceux des distances du paragraphe

précédent. Leur intérêt est plutôt théorique car, au moyen de la notion de marqueur flou, où la

vitesse d’inondation de chaque lac est traitée indépendamment, elles permettent à Meyer d’ex-

primer la LPE par marqueurs et les inondations dans le même cadre.

Signalons par ailleurs l’étude des ultramétriques dans le cadre des treillis, proposée par

exemple dans [Mey01a], qui permet de construire de nouvelles ultramétriques en combinant

des distances existantes.

Enfin, toutes les inondations précédentes peuvent s’interpréter dans le cadre de la théorie

de graphes comme des processus de fusion de régions particuliers. Dans ce cas, les régions de

la partition initiale sont les bassins versants des minima et la dissemblance entre régions est la

caractéristique mesurée sur les lacs [Mey97]. Notons que, dans le cas de l’inondation uniforme,

la dissemblance est δg0, le minimum du gradient sur la frontière commune des régions. Les

inondations seront utilisées dans la quatrième partie du mémoire comme référence des méthodes

morphologiques.

Page 175: Arbelaez these

161

Opérateurs connexes

Un deuxième grand courant en segmentation morphologique repose sur la notion d’opérateur

connexe [SS93, SS95, Ser04]. La propriété fondamentale de ces opérateurs est d’interagir avec

l’image au moyen de ses zones plates. Plus précisément, un opérateur Ψ est connexe si, pour toute

image u, la partition en zones plates de Ψ(u) est moins fine que la partition en zones plates de

u. Ainsi, lorsqu’une famille d’opérateurs connexes dépend d’un paramètre d’échelle, la structure

pyramidale qu’elle définit est caractérisée par la propriété fondamentale des hiérarchies (6.2.3).

Les propriétés des opérateurs connexes les rendent intéressants pour le filtrage, où ils sont

largement utilisés. Par exemple, en remplaçant l’inondation du gradient par une famille d’opé-

rateurs connexes sur l’image originale, Vachier applique la notion de valeur d’extinction à la

classification des extrema de l’image originale et crée ainsi de nouveaux opérateurs connexes

[VM95, VV95, Vac01].

Dans le cadre de la segmentation, les opérateurs connexes ont motivé une approche par zones

plates [CSS+97], proposée comme alternative aux inondations, pour palier le problème de la ré-

solution limitée du gradient. Dans cette étude, l’image est pré-traitée au moyen d’opérateurs

connexes classiques (filtres alternés séquentiels, ouvertures et fermetures par reconstruction,

etc.). L’image filtrée est ensuite utilisée comme point de départ d’un algorithme de fusion de

régions sur un graphe. La dissemblance utilisée par Crespo et al. est δa, la différence absolue des

moyennes de niveau de gris des régions. L’intérêt principal des opérateurs connexes par rapport

aux inondations est donc de préserver l’emplacement des contours de l’image originale.

Un autre développement important de l’approche connexe sont les travaux de Salembier et

ses collaborateurs, qui étudient les structures d’arbre associées à ces opérateurs. Par exemple,

dans [SOG98], des opérateurs connexes anti-extensifs sont définis et appliqués à l’analyse de

séquences, au moyen de stratégies d’élagage de l’arbre des maxima. La même idée est appliquée

à la segmentation dans [SG00], où la structure traitée est l’arbre associé à un processus de fusion

Page 176: Arbelaez these

162

de régions.

Enfin, les opérateurs connexes ont été spécialisés en une sous-famille de filtres appelés nivel-

lements [MM99, MM00], qui ont la propriété supplémentaire de préserver l’ordre des transitions.

Les zones λ-plates, les boules de l’ultramétrique Υc0, en sont un cas particulier. Remarquons ce-

pendant que les zones λ-plates sont usuellement utilisées en pré-traitement ou pour déterminer un

ensemble de marqueurs pour la LPE [Mey01b, Zan01], plutôt que pour l’étape de segmentation

proprement dite.

Notre approche

Nous avons résumé dans cette section les trois éléments qui constituent, en notre opinion,

l’apport fondamental de la morphologie mathématique à la segmentation hiérarchique. D’une

part, la formulation explicite du problème comme la construction d’une distance ultramétrique.

D’autre part, les pyramides d’opérateurs connexes, qui préservent la localisation des contours de

l’image originale. Enfin, la représentation d’une hiérarchie par une carte de contours, qui permet

de traiter la segmentation en régions et l’extraction des contours comme un problème unique.

Nous avons voulu construire l’approche présentée dans ce chapitre à partir de ces trois éléments.

Outre l’utilisation de la mosaïque des extrema comme méthode de pré-segmentation, l’ori-

ginalité de notre démarche dans le contexte morphologique réside principalement dans les dis-

tances que nous construisons. D’une part, nos partitions ultramétriques, en tant qu’opérateurs

connexes, préservent la localisation des contours de l’image originale, contrairement aux inon-

dations. D’autre part, elles profitent de toute la richesse des détecteurs locaux. Enfin, notre façon

générique de combiner information de frontières et information interne fournit à la distance une

souplesse qui sera centrale dans la quatrième partie du mémoire.

Ainsi, l’approche que nous proposons pour l’extraction des contours des images naturelles

peut s’interpréter comme un point de rencontre de deux grands courants en segmentation mor-

phologique.

Page 177: Arbelaez these

163

6.9.2 Cadre variationnel

Les méthodes variationnelles pour la segmentation d’images ont connu un grand succès dans

la dernière décennie. Dans cette approche, les expectatives sur les objets de l’image sont expri-

mées au moyen d’une fonctionnelle. Un exemple classique est le modèle proposé par Mumford

et Shah [MS89]. Dans sa version générale, la segmentation d’une image u0 correspond à une

fonction régulière par morceaux u qui minimise la fonctionnelle :

J(u, K) =

Ω\K‖u− u0‖2dx + µ

Ω\K‖∇u‖2dx + λH1(K) , (6.9.1)

où K est l’ensemble des contours de la segmentation, et H1 est la mesure de Hausdorff mono-

dimentionnelle. L’interprétation de cette énergie est la suivante : le premier terme mesure l’at-

tache aux données de la segmentation, le second contrôle la régularité de l’approximation en

dehors des contours et le dernier pénalise leur longueur. Les paramètres µ et λ pondèrent l’équi-

libre entre ces facteurs. Dans ce cadre, les objets de l’image sont donc représentés par des régions

de couleur uniforme avec des frontières régulières.

Morel et Solimini [MS95] remarquent que l’énergie la plus simple qu’on peut associer à une

méthode de fusion de régions comme celle de la Section 6.4.1 est la fonctionnelle de Mumford

et Shah, lorsque l’approximation u est constante par morceaux. Dans ce cas, le deuxième terme

de (6.9.1) s’annule et l’énergie s’écrit :

E(K) =

Ω\K‖u− u0‖2dx + λL(K) , (6.9.2)

où u est la moyenne de u0 sur chaque région de la segmentation. La fonctionnelle ne dépend

donc que de l’ensemble des contours K.

Ils proposent donc une méthode de fusion de régions qui minimise explicitement cette éner-

gie. Plus précisément, le critère pour fusionner un couple de régions (R1, R2) est que la partition

obtenue par leur réunion diminue la valeur de l’énergie globale (6.9.2) :

E(K\∂(R1, R2)) < E(K)

Page 178: Arbelaez these

164

et

E(K\∂(R1, R2))− E(K) =|R1| · |R2||R1|+ |R2| · ‖u1 − u2‖2 − λL(∂(R1, R2)) < 0

où ui est la moyenne de u0 sur la région Ri. On a donc

|R1| · |R2||R1|+ |R2| · ‖u1 − u2‖2 − λL(∂(R1, R2)) < 0

et|R1| · |R2|

(|R1|+ |R2|) · L(∂(R1, R2))· ‖ui − uj‖2 < λ.

On obtient ainsi, pour une échelle λ fixée, un critère pour déterminer si la fusion de R1 et R2

diminue l’énergie.

L’algorithme est le suivant [DK97] :

1. Soit (u0, K0) la segmentation triviale (en pixels) de l’image.

2. Pour tout couple de régions voisines, calculer la valeur de λ pour laquelle une fusion est

possible. Ordonner par valeurs croissantes de λ les couples de régions.

3. Effectuer la fusion du couple correspondant à la plus petite valeur de λ et mettre à jour la

structure des données.

4. Répéter le pas (3) jusqu’à obtenir le nombre de régions ou la valeur de λ demandés.

Cette méthode est donc une fusion de régions régie par la dissemblance :

δMS(R1, R2) =|R1| · |R2||R1|+ |R2| ·

1

L(∂(R1, R2))· ‖u1 − u2‖2.

Avec cette écriture, on s’aperçoit que δMS est le carré de la dissemblance δa, la différence absolue

des couleurs moyennes, combinée avec deux autres facteurs. Le premier est proportionnel à

la moyenne harmonique des aires des régions, cette information interne servant à éliminer les

régions de petite taille de la segmentation. L’information de contour est l’inverse de la longueur

de la frontière. Ce deuxième terme contrôle la régularité de la solution car, à attributs internes

égaux, le couple de régions dont la frontière est la plus longue est fusionné le premier.

Page 179: Arbelaez these

165

δ1 = 1/2 δ2 = 1/3 δ3 = 25/24

(a) (b) (c) (d)

FIG. 6.15 – La dissemblance δMS n’est pas ultramétrique.

Remarquons cependant que cette dissemblance n’est pas compatible avec l’ordre hiérar-

chique. Un contre exemple est donné dans la Figure 6.15, qui présente le déroulement de l’al-

gorithme de CAH avec dissemblance δMS . Le niveau de gris moyen des régions est donné entre

parenthèses et le contour qui disparaît à chaque fusion est représenté en gras. La taille des régions

est |A| = |B| = |C| = 2 et |D| = 18. Dans l’image initiale (a), le minimum de la dissemblance

est δMS(B, C) = 1/2 = δ1. Une fois les régions B et C fusionnées, le minimum dans (b) est

δMS(A,E) = 1/3 = δ2. Enfin, dans (c) on a δMS(D, F ) = 25/24 = δ3. Ainsi, δ2 < δ1 et la

hiérarchie indicée par la formule (6.4.1) présente des inversions. Du point de vue des contours,

cela signifie que la saillance de ∂(B, C) est supérieure à celle de ∂(A,E) et donc le seuillage de

la carte de contours au niveau 1/2 fournit la partition de (d), qui est incohérente avec le processus

de fusion.

On peut toutefois indicer la hiérarchie H produite par l’algorithme de CAH avec dissem-

blance δMS en choisissant l’indice de stratification de la formule (5.7.4) :

f(R1 ∪R2) = maxδMS(R1, R2), f(R1), f(R2), ∀ R1, R2 ∈ H. (6.9.3)

Dans l’exemple de la Figure 6.15, cette stratification assigne la valeur de 1/2 à la saillance du

contour ∂(A,E).

Les contours ultramétriques associés à la hiérarchie indicée (H, f), où f est donnée par

la formule (6.9.3), seront employés dans la quatrième partie du mémoire comme méthode de

référence des approches variationnelles.

Page 180: Arbelaez these

166

Page 181: Arbelaez these

Quatrième partie

Évaluation des résultats

167

Page 182: Arbelaez these

168

Page 183: Arbelaez these

Chapitre 7

Méthodologie d’évaluation

7.1 Introduction

L’importance du problème de la segmentation en vision par ordinateur peut se mesurer par

le nombre de travaux qui lui ont été dédiés. Une étude datée de 1995 recensait plus d’un millier

d’algorithmes proposés [MS95]. Aujourd’hui, étant donnée l’expansion du domaine, on peut

aisément imaginer que ce nombre a doublé.

Face à cette multitude de méthodes, l’évaluation quantitative des résultats est devenue une né-

cessité. Il s’agit cependant d’une tâche délicate qui a traditionnellement constitué un point faible

des approches de segmentation. Souvent, les auteurs se contentent d’illustrer leurs publications

avec quelques exemples d’images fréquemment utilisés ("Lenna", "cameraman", "mandrill", etc.

) ou de présenter des images synthétiques qui mettent en évidence les points forts de leur mé-

thode. La comparaison avec d’autres techniques est généralement réalisée sur un nombre réduit

d’images où l’algorithme proposé "fonctionne bien" et pour lesquelles les différents paramètres

ont été soigneusement ajustés. Une telle démarche qualitative ne permet que difficilement de

prédire la performance réelle d’une méthode.

Un argument souvent invoqué pour justifier cette faiblesse est que la segmentation est un pro-

blème mal posé, car les caractéristiques géométriques qu’on veut extraire de l’image dépendent

essentiellement de l’application. En effet, si les régions d’une segmentation sont par exemple

169

Page 184: Arbelaez these

170

définies par une certaine notion d’homogénéité, on ne peut espérer que cette notion soit com-

mune à toutes les images, et il est toujours possible de trouver des cas où elle n’a pas de sens.

Une alternative communément choisie pour contourner cet obstacle est de restreindre la compa-

raison des algorithmes au cadre d’une application spécifique ou d’un type d’images particulier

[HWKR82, RP80, Zha96, BS97].

Dans le cas des images naturelles, la référence pour mesurer la qualité d’une segmentation

devrait être la segmentation humaine, or celle-ci n’a été étudiée quantitativement que récemment

[MFTM01, Mar02]. Une conclusion de ces travaux, comme nous le verrons par la suite, est que la

segmentation d’images naturelles est un problème bien posé, et que la cohérence des différentes

segmentations humaines d’une même image est suffisante pour servir de référence à l’évalua-

tion de techniques de segmentation. Ainsi, l’échec d’un algorithme à segmenter correctement

une image naturelle doit être imputé aux faiblesses de la méthode, plutôt qu’à la définition du

problème.

Deux voies sont envisageables pour mesurer la qualité d’une segmentation par rapport à une

référence : utiliser les régions ou leurs frontières. Une difficulté considérable liée à la première

est l’invariance au raffinement. En effet, une mesure qui pénalise le niveau de détail d’une seg-

mentation serait inconsistante avec la structure hiérarchique de la perception visuelle humaine.

Or cette invariance implique que la qualité des deux partitions triviales, celle où chaque pixel est

une région et celle où la seule région est toute l’image, est parfaite. Ainsi, les mesures proposées

par exemple dans [MFTM01], sont plus utiles pour quantifier la cohérence de la segmentation

humaine que pour comparer la performance de différentes méthodes de segmentation.

L’évaluation des détecteurs de contours repose en revanche sur des bases plus solides. Un cer-

tain nombre de méthodologies à caractère général ont été développées, par exemple l’approche

par théorie de l’information de Konishi [KYCZ99] ou les courbes Receiver Operating Charac-

teristic (ROC) [BKD01]. Aujourd’hui, un cadre de référence pour mesurer la performance des

extracteurs de contours est celui des courbes Précision-Rappel [AP79, MFM04], issu du domaine

Page 185: Arbelaez these

171

de l’indexation des données [vR79]. Nous avons décidé d’adopter cette méthodologie fondée sur

les frontières car elle permet de comparer sur les mêmes bases la performance des détecteurs de

contours locaux et des méthodes de segmentation en régions. Dans ce chapitre, nous en propo-

sons une mise en oeuvre originale qui repose sur l’interprétation du problème dans le contexte

de la morphologie mathématique.

7.2 Vérité terrain

La référence ultime pour déterminer la qualité d’une segmentation produite par une ma-

chine devrait être la segmentation humaine. Cependant, lorsqu’on demande à deux personnes

de segmenter la même image on obtient généralement des résultats différents. Cette variabilité

est d’autant plus importante dans les domaines où l’information préalable est déterminante pour

la segmentation. C’est le cas par exemple en imagerie médicale, où la segmentation d’un ob-

servateur naïf et celle d’un expert peuvent différer grandement. Néanmoins, si on se restreint

au cas des images naturelles, on peut se demander si la cohérence de la segmentation humaine

est suffisante pour servir de référence à l’évaluation de méthodes de segmentation. La réponse à

cette question passe par la définition d’une vérité terrain, travail qui a été réalisé par l’équipe de

Berkeley dans [MFTM01] et que nous décrivons ci-après.

Cette étude a pris comme point de départ 1000 images représentatives parmi les 40.000

images de la Corel Image Database, une base de données souvent utilisée en vision par ordi-

nateur. Le critère de choix des images est la représentation de scènes naturelles avec au moins

un objet discernable. Les images abordent une grande diversité de sujets : êtres humains, ani-

maux, plantes, constructions humaines, paysages naturels, scènes sous-marines, etc. Elles sont

très souvent texturées et leur seule caractéristique commune est peut être un certain sens de la

composition, conséquence de leur réalisation par des photographes humains. La Figure 7.1 en

montre un échantillon.

Page 186: Arbelaez these

172

FIG. 7.1 – Images naturelles de la BSDB.

Page 187: Arbelaez these

173

Chaque image a été segmentée par plusieurs êtres humains (des étudiants de l’université de

Berkeley) à qui on a donné les instructions suivantes : Divisez chaque image en régions, où

chaque région représente des "choses" ou des "parties de choses" discernables dans l’image. Il

est important que toutes les régions aient à peu près la même importance. Le nombre de régions

dans chaque image est laissé à votre choix. Un nombre entre 2 et 30 semble raisonnable dans la

plupart des cas.

Ces instructions, délibérément vagues, avaient pour but d’inciter les "cobayes" à diviser

l’image de façon naturelle. On peut observer quelques résultats dans la Figure 7.2, où les seg-

mentations ont été superposées de sorte que le niveau de gris de chaque pixel est inversement

proportionnel au nombre de sujets qui l’ont marqué.

Plus de 11.000 segmentations humaines ont été ainsi crées, chaque image ayant été segmentée

par 10 opérateurs différents en moyenne. Le but de cette étude était, selon les auteurs, de créer

un étalon pour la segmentation réalisée par les machines, qui permette de mesurer son évolution

à travers le temps vers la segmentation humaine [MFTM01].

Une partie de ces données a été rendue publique sous le nom de Berkeley Segmentation

Dataset and Benchmark (BSDB) [BSD]. Les segmentations humaines, ainsi que la plupart des

images qui illustrent ce mémoire, en font partie. La version publique actuelle de la BSDB est

composée de 300 images naturelles de taille 481x321. Elle est divisée en deux : un ensemble

d’entraînement de 200 images, pour ajuster les paramètres d’un algorithme de segmentation, et

un ensemble de test de 100 images, pour évaluer sa performance. Chaque image a été segmentée

dans sa version en couleurs et à teintes de gris séparément ; un ensemble de 4 à 7 segmentations

humaines est fourni pour chacune des deux présentations.

Page 188: Arbelaez these

174

FIG. 7.2 – Segmentations humaines.

Page 189: Arbelaez these

175

7.3 Comparaison de segmentations

Une fois une vérité terrain définie, le problème suivant est la mise au point d’une métho-

dologie d’évaluation. Cette section présente la mise en oeuvre que nous proposons du cadre

Précision-Rappel [AP79, MFM04] pour mesurer la performance des algorithmes de segmenta-

tion en tant que détecteurs de contours.

7.3.1 Signal et référence binaires

Soit K l’ensemble des contours d’une segmentation. Nous appelons segmentation binaire

la fonction caractéristique de K.

Le coeur du problème est de comparer deux segmentations binaires. La première, notée S,

joue le rôle du signal et la seconde, notée H , est la vérité terrain. Cette référence sera généra-

lement une segmentation humaine. Considérons d’abord le cas où le signal et la référence sont

deux segmentations humaines de la même image. Un exemple est présenté dans la Figure 7.3 où

S est dessiné en noir et H en rouge. Sémantiquement, H est un raffinement de S où les mêmes

objets, les deux fleurs, ont été extraits. La seule différence est que H comporte plus de détails,

les pétales, que S. On voudrait définir une correspondance qui reflète cette structure.

L’idée immédiate, superposer les deux segmentations, n’est pas suffisante pour résoudre le

problème. En effet, puisque les humains segmentent des objets perceptuels, la localisation exacte

des contours dépend du niveau d’attention accordé à chaque objet. Par exemple, la partie centrale

des fleurs est représentée dans S par une région approximativement circulaire, tandis que dans H

elle est extraite avec plus de précision. Cependant, puisque les deux régions représentent le même

objet perceptuel, la mise en correspondance devrait tenir compte de cette variabilité inhérente à

la vérité terrain.

Les auteurs de [MFM04] abordent le problème de comparer deux segmentations binaires

en définissant une correspondance explicite entre leurs pixels (voir la Section 9.5 pour plus de

Page 190: Arbelaez these

176

FIG. 7.3 – Haut : Deux segmentations humaines de la même image. Milieu : Image originale etsegmentations superposées. Bas : Détail des inflorescences de la fleur droite.

Page 191: Arbelaez these

177

(a) (b) (c)

FIG. 7.4 – Correspondance de deux courbes. a : courbe de référence H et courbe à correspondreS. b : δH (gris), Vrais Positifs (noir gras) et Faux Positifs (noir). c : δS (gris), points Détectés(noir gras) et Non Détectés (noir).

détails). Nous proposons en revanche une approche morphologique qui se fonde sur l’interpréta-

tion du problème comme une correspondance entre courbes. Plus précisément, pour prendre en

compte la variabilité de la localisation des contours de la segmentation S, nous considérons la

fonction caractéristique d’une dilatation euclidienne de S [SM94] :

δS = χx ∈ Ω | S ∩Bx(r) 6= ∅

et l’érosion de son complémentaire,

εS = χx ∈ Ω | S ∩Bx(r) = ∅

Le seuil de tolérance dans la localisation des contours est ainsi exprimé par le rayon r de la boule

euclidienne.

Nous proposons donc les définitions suivantes, illustrées dans la Figure 7.4.

Les points de la segmentation S sont divisés en :

Vrais Positifs

V P =

Ω

S(x) · δH(x) dx (7.3.1)

Faux Positifs

FP =

Ω

S(x) · εH(x) dx (7.3.2)

Page 192: Arbelaez these

178

De façon symétrique, la vérité terrain H se divise en

Points Détectés

D =

Ω

H(x) · δS(x) dx (7.3.3)

Points Non Détectés

ND =

Ω

H(x) · εS(x) dx (7.3.4)

7.3.2 Descripteurs de qualité

La Précision et le Rappel sont deux descripteurs classiques en indexation. Lorsqu’on fait une

requête sur une base de données, on obtient un certain nombre de réponses. On peut mesurer

la qualité du moteur de recherche en considérant la proportion de réponses adéquates parmi la

totalité des réponses (la Précision) et la proportion de documents détectés parmi la totalité des

documents adéquats de la base des données (le Rappel). Dans notre cadre, ces deux notions sont

exprimées en termes des définitions du paragraphe précédent et quantifient la correspondance

d’un signal S par rapport à une référence H .

La Précision, ou la fraction de Vrais Positifs dans S :

P =V P

V P + FP(7.3.5)

Le Rappel, ou la fraction de Points Détectés dans H :

R =D

D + ND(7.3.6)

Les deux descripteurs prennent par définition des valeurs dans l’intervalle [0, 1]. La Précision

mesure la quantité de bruit dans le signal. Elle vaut 1 lorsqu’il n’y a pas de Faux Positifs. En

outre, le Rappel mesure l’attache aux données de la segmentation à correspondre. Lorsque tous

les pixels de la référence ont été détectés, sa valeur est de 1. En termes probabilistes, la Précision

est la probabilité que le signal soit valable, tandis que le Rappel est la probabilité que la vérité

ait été détectée. Notons que nos définitions des deux mesures de qualité sont symétriques, de

Page 193: Arbelaez these

179

FIG. 7.5 – Correspondence de deux segmentations binaires. Gauche : Le signal S est divisé enVrais Positifs (noir gras) et Faux Positifs (bleu). Droite : La référence H est divisée en PointsDétectés (noir gras) et Non Détectés (bleu).

sorte que si les rôles de la vérité et du signal sont échangés, la Précision devient le Rappel et

vice-versa.

Enfin, les deux descripteurs sont combinés en une mesure de qualité unique, la F-mesure

[vR79], définie comme la moyenne harmonique de la Précision et du Rappel, pondérée par le

paramètre η :

F (P, R) =PR

ηP + (1− η)R(7.3.7)

Pour une application particulière, η équilibre l’importance du bruit toléré (la Précision) par rap-

port à la quantité de vérité terrain requise (le Rappel). Dans le cas de la segmentation de bas

niveau, il n’y a pas de raison particulière de préférer l’un à l’autre. Ainsi, dans la suite, η est fixé

à la valeur de 1/2 et la F-mesure correspond à la moyenne harmonique usuelle.

A titre d’exemple, considérons la Figure 7.5, où la mise en correspondance des segmentations

de la Figure 7.3 est présentée. Quand le rayon de dilatation est r = 4, 3 le signal est divisé en

2093 pixels Vrais Positifs et 134 Faux Positifs. La vérité comporte pour sa part 2382 pixels

Détectés et 1998 Non Détectés. On peut observer que la quasi-totalité de la partie centrale des

fleurs est considérée comme correcte.

La Précision vaut dans ce cas P = 0,94, ce qui indique qu’il y a très peu de bruit dans le

signal. Le Rappel est de R = 0, 54, exprimant le fait que presque la moitié de la vérité terrain n’a

Page 194: Arbelaez these

180

pas été détectée. Ces deux mesures complémentaires quantifient donc bien l’idée intuitive que H

est un raffinement de S. Enfin, la F-mesure, de valeur F = 0, 69, exprime le compromis entre

Précision et Rappel.

7.3.3 Multiples segmentations humaines

Dans le cadre de notre application, une segmentation binaire doit être comparée à plusieurs

segmentations humaines. Une propriété importante de notre approche par courbes est qu’elle

permet de comparer directement un signal S avec une famille de références Hii∈I , indépen-

damment du cardinal de la famille.

Pour cela, on définit la fonction :

Hs =∑i∈I

Hi

Dans notre cas, Hs(x) représente le nombre de sujets qui ont considéré que le point x appartient

à un contour.

Nous supposons que tout point marqué au moins par un humain est valable. En conséquence,

la vérité terrain, notée Hb, est représentée dans ce cas par la fonction caractéristique de l’en-

semble de niveau supérieur à zero de Hs :

Hb = χ[Hs > 0]

Les définitions (7.3.1) à (7.3.4) sont dans ce cas les suivantes :

V P =

Ω

S(x) · δHb(x) dx (7.3.8)

FP =

Ω

S(x) · εHb(x) dx (7.3.9)

Les Points Détectés et Non Détectés de la famille de références sont :

D =

Ω

Hs(x) ·Hb(x) · δS(x) dx (7.3.10)

Page 195: Arbelaez these

181

ND =

Ω

Hb(x) · εS(x) dx (7.3.11)

La Précision, le Rappel et la F-mesure sont définis comme dans les équations (7.3.5) à (7.3.7).

7.3.4 Carte de contours

Supposons enfin qu’on veut évaluer une carte de contours ultramétriques C dont un seuillage

Cλ = χ[C ≥ λ] fournit les contours de la segmentation à l’échelle λ.

Les définitions sont étendues en considérant la version fonctionnelle de la dilatation :

δC(x) = supy∈Bx(r)

C(y), ∀x ∈ Ω.

Les définitions des quatre types de points (7.3.8) à (7.3.11) dépendent donc dans ce cas de

l’échelle λ et sont donnés par :

V P (λ) =

Ω

Cλ(x) · δHb(x) dx (7.3.12)

FP (λ) =

Ω

Cλ(x) · εHb(x) dx (7.3.13)

D(λ) =

Ω

Hs(x) ·Hb(x) · (δC)λ(x) dx (7.3.14)

ND(λ) =

Ω

Hb(x) · (εC)λ(x) dx (7.3.15)

Ainsi, lorsque l’échelle varie, on obtient une courbe paramétrée par λ, appelée courbe Précision-

Rappel, qui quantifie la qualité de la carte de contours. Le maximum de la F-mesure est utilisé

comme résumé statistique de la courbe.

Un exemple typique de courbe Précision-Rappel est présenté dans la Figure 7.6. Dans la

Ligne 1 on peut observer une carte de contours ultramétriques à gauche, et la courbe à droite.

Page 196: Arbelaez these

182

FIG. 7.6 – Exemple de courbe Précision-Rappel pour une carte de contours.

Page 197: Arbelaez these

183

Les autres lignes présentent des seuils croissants des contours ultramétriques et leurs correspon-

dances. Les échelles des Lignes 2, 3 et 4 sont S1 = 0,03, S2 = 0,2 et S3 = 0,75 respectivement.

Lorsque l’échelle est petite, la plupart de la référence est détectée, mais au prix de beaucoup

de bruit. Par conséquent, à l’échelle S1, le Rappel est fort (R = 0,94) et la Précision faible

(P = 0,51). Au fur et à mesure que l’échelle croît, le Rappel diminue et la Précision augmente ;

ainsi, à l’échelle S3 = 0,75, il n’y a pas de bruit (P = 1,00), mais seule une petite fraction

de la vérité est détectée (R = 0,05). Le point de la courbe correspondant au maximum de la

F-mesure fournit l’échelle optimale pour cette image (dans ce cas S2) et exprime le compromis

entre Précision et Rappel F (0,95, 0,65) = 0,77.

7.4 Cohérence de la segmentation humaine

Nous avons expliqué la méthode d’évaluation d’un algorithme sur une image. Pour mesurer sa

performance sur un ensemble d’images, il suffit de définir la Précision et le Rappel en considérant

la totalité des Vrais Positifs, Faux Positifs, Détections et Non Détections sur toutes les images de

l’ensemble. Si l’algorithme produit une segmentation binaire, la F-mesure globale est un nombre.

Dans le cas d’une carte de contours pondérés, on obtient une courbe de Précision-Rappel globale,

dont le maximum de la F-mesure fournit un résumé statistique de la qualité du détecteur sur

l’ensemble d’images.

Une première application de cette méthodologie est de déterminer la cohérence entre les

différentes segmentations humaines de la même image. Considérons par exemple le cas de la

Figure 3 de l’Introduction (p. 6). La Figure 7.7 montre les résultats de la mise en correspondance

de chacune des segmentations en prenant pour référence les deux autres. Dans le cas des humains,

les Faux Positifs (en bleu) correspondent majoritairement aux détails que le sujet a été le seul à

percevoir et les Non Détections (en orange) à ceux qu’il a été le seul à omettre. Ainsi, le Sujet 1

fait une décomposition générale de la scène et sa segmentation est globalement une sous-partition

Page 198: Arbelaez these

184

Image Originale Segmentation 1

Segmentation 2 Segmentation 3

FIG. 7.7 – Mise en correspondance de segmentations humaines.

des deux autres. Les descripteurs confirment cette organisation puisque la Précision P = 0,99

indique l’absence quasi totale de bruit, tandis que le faible Rappel R = 0, 44 reflète le manque de

détail. La F-mesure vaut F (0,99, 0,44) = 0, 61 dans ce cas. Le Sujet 2 concentre pour sa part son

attention sur les ours, en détaillant davantage leur anatomie et en ignorant le fond. Notons que

la variabilité dans la localisation des contours, comme dans la patte de l’ours gauche, est tolérée

par la mise en correspondance. On obtient dans ce cas F (0,73, 0,47) = 0,57 indiquant qu’il a été

le seul à voir certains détails, mais que les autres ont vu beaucoup de détails dans le fond qu’il

n’a pas considéré. Enfin, le cas du Sujet 3 est symétrique, puisqu’il s’est concentré sur le fond,

en détaillant les brins d’herbe sur la neige, mais en ignorant les parties des ours. Les valeurs des

descripteurs sont dans ce cas F (0,32, 0,82) = 0,46.

Page 199: Arbelaez these

185

FIG. 7.8 – Gauche : Dix segmentations humaines superposées. Droite : graphe Précision-Rappel

La cohérence des segmentations humaines pour cette image est alors évaluée en considérant

la totalité des Vrais Positifs, Faux Positifs, Détections et Non Détections sur les comparaisons

successives. On obtient ici F (0,53, 0,53) = 0,53. La faible F-mesure est due au fait que nous

avons choisi les trois segmentations les plus dissemblables pour illustrer l’organisation de la per-

ception humaine. La figure 7.8 présente le résultat obtenu en utilisant la totalité des segmentations

disponibles pour cette image. La partie gauche montre les dix segmentations humaines superpo-

sées, Hs. La partie droite présente le résultat des mises en correspondance, des points isolés sur

le plan Précision-Rappel car il s’agit de segmentations binaires. Les courbes indiquent les lignes

de niveau de la fonction F et servent de repère à l’emplacement des points. Une correspondance

parfaite aurait pour coordonnées (P,R) = (1, 1) et F (1, 1) = 1.

Notons que, sur les dix humains ayant segmenté l’image, seul le Sujet 3 a extrait les détails

du fond. Sa Précision est par conséquent faible et sa segmentation correspond au point le plus

à gauche du graphe. Sept autres sujets ont produit des segmentations sémantiquement équiva-

lentes à celle du Sujet 1, une description globale de la scène. Ce groupe correspond au nuage

de points à droite. Enfin, deux sujets ont détaillé les ours. La cohérence globale se voit donc

renforcée lorsque le nombre d’observateurs augmente ; les descripteurs globaux ont pour valeur

F (0,84, 0,65) = 0,73 et sont représentés par le point rouge. On peut aussi observer sur ce graphe

Page 200: Arbelaez these

186

que le Rappel et la Précision totaux sont de bons représentants du cluster de segmentations indi-

viduelles.

La Figure 7.9 présente un exemple de l’utilisation de l’information sémantique dans la seg-

mentation humaine. Les différentes segmentations humaines sont hautement cohérentes aux en-

droits où les données de l’image permettent de déterminer l’emplacement des contours, leur

variabilité se concentrant là où celles-ci font défaut. La connaissance préalable sur la nature des

objets prend donc le relais là où l’information physique est insuffisante. Par exemple, le contour

de la tête du personnage ne se voit pas sur l’image, mais tous les sujets lui dessinent une coif-

fure, chacun à son goût. De même, tous les humains sauf un dessinent une épaule entre les deux

morceaux de chemise. En outre, la chemise est perçue comme un seul objet, ce qui est difficile à

déduire à partir de l’information physique de l’image.

Ainsi, une estimation de la performance globale des humains pour la tâche de segmentation

peut s’obtenir en considérant la totalité des VP, FP, D et ND sur un ensemble d’images. La Fi-

gure 7.10 présente le résultat obtenu avec toutes les segmentations des 300 images de la BSDB.

Le graphe de gauche correspond aux images couleur et celui de droite aux images en noir et

blanc. La cohérence des segmentations humaines est donc quantifiée dans ce cadre à près de

F (0,90, 0,70) = 0,80. Une première remarque est que la performance des humains est globa-

lement la même pour les deux présentations et que l’information de la couleur est suppléée par

l’information sémantique. La Précision totale montre que, en moyenne, lorsqu’un des sujets seg-

mente une image, 90% des contours qu’il trace ont déjà été marqués par un autre sujet. De même,

la valeur du Rappel total indique que ses contours représentent en moyenne 70% de l’ensemble

des contours marqués par les autres sujets. La grande cohérence des segmentations humaines, en

accord avec les résultats de [Mar02], renforce notre hypothèse de départ, selon laquelle l’organi-

sation perceptuelle des images naturelles est globalement la même pour un groupe d’Humains,

les variations étant dues principalement au niveau de détail.

Soulignons enfin que les résultats précédents sont trop partiels pour exprimer une loi générale

Page 201: Arbelaez these

187

FIG. 7.9 – Segmentation humaine et information sémantique. Ligne 1 : Image originale, seg-mentations humaines et leur mise en correspondance. Lignes 2 et 3 : Segmentations de six sujetsdifférents.

Page 202: Arbelaez these

188

FIG. 7.10 – Évaluation de la segmentation humaine

sur la vision humaine. L’importance de la BSDB réside plutôt dans le fait de fournir une référence

quantitative pour mesurer la performance des méthodes de segmentation.

7.5 Correspondance de courbes et de pixels

Nous détaillons dans cette section les différences entre notre approche et celle de [MFM04].

La méthodologie de Précision-Rappel évalue la qualité des algorithmes de segmentation en

comparant les contours qu’ils produisent aux frontières des objets marqués par les humains. Elle

peut donc être employée indistinctement sur des méthodes de segmentation en régions ou sur

des détecteurs locaux. L’implantation proposée dans [MFM04] a néanmoins été conçue pour

les seconds. Ces auteurs abordent le problème central, la comparaison de deux segmentations

binaires, dans le cadre discret. Ils proposent de construire une correspondance explicite entre les

pixels des deux segmentations. Ceci est réalisé au moyen d’une assignation à coût minimal sur

un graphe bipartite, où le coût entre deux pixels est proportionnel à leur distance euclidienne. Un

seuil de tolérance dm détermine alors les pixels en correspondance. Du point de vue pratique,

Page 203: Arbelaez these

189

étant donnée la compléxité computationnelle d’une assignation dense, la solution est approchée

par une assignation éparse.

Les auteurs de la BSDB justifient leur méthode en citant le travail de Canny [Can86] pour qui

le principe de détection unique est un des trois objectifs que doit viser tout détecteur de contours1.

Bien qu’elle puisse revêtir une certaine importance dans le cas des détecteurs locaux, la détection

unique ne nous semble pas essentielle pour la segmentation en régions. En outre, cette approche

pénalise les contours détaillés par rapport aux contours plus réguliers. Par exemple, il n’existe

pas de correspondance explicite exacte entre les pixels des deux segmentations humaines des

inflorescences centrales de la Figure 7.3 (p. 176).

La différence principale entre notre approche et celle de la BSDB est donc que nos définitions

de Précision et Rappel prennent en compte uniquement la position relative des deux courbes et

non pas leur longueur. Dans leur cas, en considérant les définitions (7.3.1) à (7.3.4), les descrip-

teurs sont donnés par les formules :

Pm =minV P, DV P + FP

Rm =minV P, D

D + ND

Ainsi, pour un même seuil de tolérance, notre F-mesure globale est toujours supérieure ou

égale à celle de la BSDB. Pour obtenir des résultats comparables, nous avons donc choisi un

rayon de dilatation r différent de dm. Notre critère pour ce choix a été d’obtenir les mêmes

Précision et Rappel globaux des segmentations humaines sur la totalité des 300 images.

La Figure 7.11 montre l’évolution de la F-mesure globale des humains lorsque le rayon de

dilatation varie. Puisque la distance euclidienne entre deux pixels est toujours le carré d’un entier,

la F-mesure augmente par pas discrets. Pour le rayon r =√

10, on obtient les résultats présentés

dans la Figure 7.8, ce qui correspond aux valeurs de la BSDB lorsque leur seuil de tolérance est

1Les deux autres principes de Canny sont la bonne détection et la bonne localisation.

Page 204: Arbelaez these

190

FIG. 7.11 – Sensibilité de la F-mesure globale des humains au rayon de dilatation

5,75. Sauf indication contraire, toutes les correspondances que nous présentons ont été obtenus

avec ce rayon.

Soulignons par ailleurs qu’un avantage de notre formulation morphologique est que la mise

en correspondance d’une carte de contours pondérés et d’une famille de segmentations ne dépend

pas du cardinal de cette dernière. En revanche, la méthode par pixels nécessite la construction

d’une correspondance explicite pour chaque segmentation humaine. Ainsi, le temps de calcul

est considérablement réduit avec notre approche. Ceci est particulièrement important pour l’op-

timisation des paramètres de notre système où, pour chaque jeu de paramètres, il est nécessaire

de comparer plusieurs centaines de cartes de contours avec cinq segmentations humaines en

moyenne.

Enfin, même si nous considérons la BSDB comme un pas en avant dans l’étude de la seg-

mentation, on peut objecter le faible nombre de segmentations disponibles pour chaque image.

Une étude statistique représentative de la performance humaine pour cette tâche nécessiterait un

échantillonnage beaucoup plus large de la population, en faisant intervenir des facteurs comme

la culture, l’âge ou la formation des opérateurs. Notre méthode de correspondance morpholo-

gique pourrait être appliquée directement dans un tel cadre sans augmenter le temps de calcul,

puisqu’elle est indépendante du nombre de segmentations de référence.

Page 205: Arbelaez these

Chapitre 8

Résultats

8.1 Optimisation du système

Le choix méthodologique que nous avons fait consiste à exprimer les degrés de liberté de

notre système de segmentation sous forme de paramètres, dont l’ajustement est interpreté comme

l’introduction d’information préalable sur la structure géométrique des objets présents dans l’image.

La méthodologie du chapitre précédent permet de mesurer la qualité d’un algorithme de

segmentation pour un jeu de paramètres, sur un ensemble d’images et par rapport à une vérité

terrain. Pour le processus d’optimisation du système, nous avons utilisé comme référence les

segmentations humaines des 200 images de l’ensemble d’entraînement de la BSDB.

Nous avons utilisé une méthode classique d’optimisation locale par chemins qui, dans notre

cas, s’est avérée suffisante. Soit P l’espace des paramètres et considérons un jeu initial de pa-

ramètres. À ce point p0 ∈ P , on associe la F-mesure globale des contours ultramétriques sur

l’ensemble des images. On procède alors à une remontée du gradient de F , choisissant parmi

les voisins immédiats de p0 dans P ( 4 voisins en 2D, 6 voisins en 3D, etc...) celui qui maxi-

mise la F-mesure. Le processus est ensuite répété à partir du nouveau point jusqu’à arriver à un

maximum de F.

191

Page 206: Arbelaez these

192

La méthode garantit que le changement d’un seul paramètre ne peut pas augmenter la F-

mesure. Cependant, le maximum atteint n’est que local. Pour diminuer la sensibilité de la mé-

thode aux conditions initiales, on utilise une approche multi-résolution. Pour cela, on estime

les rangs maximaux des paramètres et on choisit initialement des pas d’échantillonnage grands

(par exemple, 1/2 du rang), pour réaliser l’optimisation à cette résolution. Une fois le maximum

atteint, on le considère comme point initial et l’optimisation est répétée en diminuant le pas.

Notons que les paramètres de notre système ne sont pas tous de même type ; certains ont des

valeurs réelles, comme le poids de l’attribut interne des ultramétriques, et d’autres sont plutôt

des options, comme le type de connexité discrète.

La méthode d’optimisation, immédiate en théorie, exige en pratique un grand nombre de

calculs, puisque, pour chaque jeu de paramètres, on doit calculer les 200 cartes de contours et

les comparer aux segmentations humaines. Avec les moyens dont nous disposions, l’optimisation

n’a été possible que grâce au fait que nos cartes de contours peuvent se calculer rapidement (entre

10 et 20 secondes en moyenne) et à l’interprétation morphologique du cadre Précision-Rappel

du chapitre précédent (notre approche divise en moyenne le temps d’évaluation par 5 par rapport

à la correspondance par pixels de la BSDB). Même ainsi, l’obtention des résultats de ce chapitre

a nécessité l’utilisation du serveur de calculs du CEREMADE (bi-processeur Xeon à 3,2 Ghz)

en continu pendant près de neuf mois.

La Figure 8.1 condense le résultat de cet effort. On peut observer les courbes Précision-

Rappel optimales des différentes méthodes de segmentation que nous avons testées, sur l’en-

semble d’images d’entraînement. L’évaluation sur l’ensemble d’images de test, présentée dans

la Séction 8.3, fournit des résultats similaires. La courbe rouge représente nos contours ultramé-

triques optimaux, notés dans la suite UCM. Notre courbe domine toutes les autres, justifiant ainsi

l’approche développée dans ce mémoire. Pour un Rappel fixé, notre système fournit les résultats

avec le moins de bruit (la plus grande Précision). Réciproquement, pour une Précision donnée,

Page 207: Arbelaez these

193

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.684MFM F(0.65, 0.70) = 0.674MS F(0.63, 0.66) = 0.643WS F(0.59, 0.71) = 0.640

0.9

0.811

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.1 – Résultat global de l’évaluation

Page 208: Arbelaez these

194

notre méthode détecte le plus de vérité terrain (le plus grand Rappel). La courbe bleue corres-

pond au détecteur local de [MFM04], noté MFM. On peut observer dans le graphe la supériorité

de notre système sur les deux méthodes de référence en segmentation par régions testées, l’ap-

proche morphologique (WS en orange) et l’approche variationnelle (MS en noir). La première

utilise uniquement l’information d’une image "gradient", tandis que la seconde est construite à

partir de l’image originale. Leur performance globale est cependant équivalente et leurs courbes

se superposent sur un large rang d’échelles. En revanche, la performance de notre système, qui

combine les deux types d’information, est significativement supérieure. Enfin, la courbe vert

foncé est la ligne de niveau de la F-mesure correspondant à la performance de la vision humaine,

0,811 pour cet ensemble d’images, et représente l’objectif ultime à atteindre pour les machines.

Les sections suivantes expliquent comment ces résultats ont été obtenus.

Rappelons que l’optimisation est à faire séparément sur les images couleur et sur les images

à teintes de gris. La position relative des courbes est cependant la même pour les deux types

d’images et nous présentons uniquement les résultats des images couleur.

Le restant de cette section est dédié à l’analyse de l’influence de chacun des paramètres de

notre système sur la performance globale. Dans ce but, la partie gauche des Figures 8.2 à 8.5

présente la courbe des contours ultramétriques optimaux UCM (rouge gras) comparée à celle

des contours ultramétriques lorsque le paramètre en question est nul (bleu). La partie droite

des figures compare pour sa part UCM (rouge gras) aux contours ultramétriques obtenus en

doublant la valeur optimale du paramètre (bleu). On peut observer que, dans toutes les figures,

les courbes de la partie droite sont très proches entre elles, se superposant même dans certains

cas. Ce comportement donne une indication de la robustesse du système, l’augmentation d’un

seul paramètre n’influant que marginalement sur sa performance globale.

Page 209: Arbelaez these

195

8.1.1 Pré-segmentation

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.684RAW F(0.60, 0.66) = 0.628

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.6846EM F(0.66, 0.70) = 0.682

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.2 – Influence de la pré-segmentation

L’élément dont l’absence pénalise le plus la performance globale du système est la mosaïque

des extrema (voir la Section 4.6). Le résultat est présenté dans la Figure 8.2. Lorsque les contours

ultramétriques sont calculés sur l’image originale, le score obtenu est de 0,628. On observe donc

une augmentation de qualité de 5,6% grâce à la pré-segmentation. Les plus grands écarts se

présentent aux échelles intermédiaires, les plus importantes du point de vue de notre application.

Le nombre d’itérations optimum est de 3. Lorsqu’on itère davantage la pré-segmentation, les

extrema de la luminosité perdent graduellement leur signification physique et certaines structures

de l’image disparaissent. On constate donc sur le graphe de droite que, pour 6 itérations, le

Rappel diminue aux échelles faibles (moins de vérité terrain détectée) et la Précision aux échelles

hautes (plus de bruit). Les deux courbes sont cependant très proches et coïncident aux échelles

intermédiaires.

La performance optimum a été obtenue avec la couleur médiane comme modèle des V-

régions dans la mosaïque des extrema. Le choix de la moyenne donne des résultats légèrement

inférieurs (−0,5%), et−1% pour la couleur à l’extremum, le plus significatif visuellement. Étant

donné le nombre de sites, l’influence du type de connexité discrète et de la règle d’assignation

Page 210: Arbelaez these

196

des éléments du V-diagramme est négligeable. Enfin, l’ordre optimum de la variation de chemin

est p = 1 pour les images à teintes de gris et l’ultramétrique sous-dominante de V1 pour les

images couleur.

8.1.2 Enrichissement du contraste

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.6840G F(0.60, 0.68) = 0.639

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.684GG F(0.63, 0.74) = 0.682

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.3 – Influence de l’enrichissement du contraste

Le deuxième élément par ordre d’importance de notre système est l’enrichissement du contraste

que fournit l’information du détecteur local (voir la Section 6.6). Le résultat est présenté dans

la Figure 8.3. Le score lorsque le paramètre α1 de l’équation (6.6.4) s’annule est de 0,639, soit

4,5% de moins que les contours ultramétriques optimaux. On observe clairement que l’amélio-

ration est due à l’augmentation de la Précision. La cause principale de cette réduction du bruit

est la prise en compte de l’homogénéité de texture dans le système. Lorsque le poids relatif de

l’information du "gradient" augmente à partir de l’optimum (à droite), la Précision aux hautes

échelles diminue mais les deux courbes demeurent très proches.

Page 211: Arbelaez these

197

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.6840C F(0.60, 0.69) = 0.643

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.684CC F(0.65, 0.71) = 0.680

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.4 – Influence de la couleur

8.1.3 Couleur

La couleur est le troisième élément par ordre d’importance de notre système (Section 2.1).

Le résultat est présenté dans la Figure 8.4. Si on fixe le paramètre ξ de l’équation (2.1.1) à zéro,

uniquement l’information du canal de luminosité L∗ est prise en compte. On observe dans ce

cas une diminution de 4,1% du score. Nous avons utilisé les segmentations des images couleur

pour obtenir des résultats comparables à ceux des UCM optimaux. Comme pour les paramètres

précédents, la sur-pondération de la chrominance ne produit que des changements mineurs.

Nous n’avons pas constaté de différences de performance significatives entre les deux es-

paces couleur usuels (L∗ab, δ∗) et (L∗uv, δ∗), c’est-à-dire, lorsque ξ = 1. Cependant, cette valeur

neutre du paramètre est optimale pour L∗uv alors que pour L∗ab la pondération de la chromi-

nance augmente le score de près de 2%.

8.1.4 Information interne

La Figure 8.5 montre l’influence de la prise en compte d’informations internes des régions

dans la performance du système. Celle-ci est contrôlée par le paramètre α2 de l’équation (6.7.2).

On peut observer que le score de Υf n’est que légèrement inférieur à celui des UCM (−0,6%),

Page 212: Arbelaez these

198

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.6840A F(0.64, 0.72) = 0.678

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.684AA F(0.65, 0.71) = 0.679

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.5 – Influence de l’information interne

mais l’amélioration est plus significative dans les échelles hautes. Rappelons néanmoins que cette

information nous a servi principalement à éliminer le bruit et les petites régions sans signification

sémantique de la partition à l’échelle optimale. L’importance réelle de l’information interne est

donc difficilement mesurable avec la méthodologie d’évaluation qui repose sur les contours.

Curieusement, nous avons trouvé zéro comme valeur optimale du paramètre α3 de l’équa-

tion (6.7.15). Ainsi, l’erreur quadratique de l’approximation à l’image originale n’enrichit pas

l’information donnée par la taille.

8.1.5 Autres éléments

Les résultats globaux pour l’ultramétrique des marqueurs (voir la Section 6.8) et pour l’ultra-

métrique Υi (Section 6.7) sont proches, avec un avantage cependant pour la première de (+1%).

Il est par conséquent plus approprié de déterminer l’emplacement des contours un utilisant uni-

quement l’information des frontières, et se servir de l’information interne dans un second temps

pour classifier les régions.

Remarquons par ailleurs que l’ultramétrique de contraste moyen (Section 6.5.2) est supé-

rieure de (+1,6%) à la sous-dominante de la variation de chemin (Section 6.5.1).

Page 213: Arbelaez these

199

Le type de connexité discrète utilisé est secondaire pour la performance globale de la mé-

thode. Nous avons constaté une légère augmentation de la Précision aux hautes échelles en utili-

sant la 4-connexité plutôt que la 8-connexité, mais l’écart des scores est très faible (0,5%).

Enfin, on peut évaluer notre système en normalisant chaque carte de contours individuelle-

ment (λ1 = 1 dans (6.2.5)) ou en considérant une valeur unique sur l’ensemble d’images. Nous

avons obtenu des résultats meilleurs (+2%) avec la deuxième option. Ce résultat donne une in-

dication de l’adéquation au problème des notions d’échelle considérées.

8.2 Comparaison avec d’autres méthodes

8.2.1 Détecteurs de contours locaux

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.684MFM F(0.65, 0.70) = 0.674

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.6 – Nos contours ultramétriques (rouge gras) comparés à l’état de l’art en détecteurs decontours locaux (bleu).

Dans ce paragraphe, nous décrivons brièvement l’étude de [MFM04], que nous utilisons

comme détecteur local en entrée de notre système. La méthode proposée par Martin et al. pour la

détection de contours des images naturelles repose sur la mesure, dans chaque pixel, de disconti-

nuités locales dans plusieurs canaux de caractéristiques, sur un rang d’orientations et d’échelles.

Page 214: Arbelaez these

200

FIG. 8.7 – Détecteur MFM avant et après suppression des non-maxima

Outre l’énergie orientée de [PM90a], ces auteurs mettent en oeuvre le paradigme du gradient sur

une famille d’attributs locaux qui inclut l’intensité, la couleur et la texture.

L’approche consiste à considérer, pour chaque point (x, y) de l’image, un disque euclidien

de rayon r divisé par un diamètre d’orientation θ. Une fonction "gradient" G(x, y, r, θ) compare

ensuite le contenu des deux moitiés du disque. Une large différence des caractéristiques locales

sur les deux moitiés indique la présence d’une discontinuité de l’image dans la direction du

diamètre. La reponse maximale sur toutes les orientations définit alors une "norme du gradient".

L’information sur chaque moitié du disque est décrite par un histogramme. Pour l’intensité et

la couleur, la distribution de la luminosité et de la chrominance dans l’espace L∗ab est estimée.

Dans le cas de la texture, le système mesure la réponse à une famille de filtres de texture. Les

histogrammes sont ensuite comparés au moyen de l’opérateur χ2.

Les différentes caractéristiques locales sont combinées et le système est optimisé par rapport

à l’ensemble d’entraînement de la BSDB. L’évaluation quantitative permet aux auteurs de mon-

trer que leur détecteur, noté dans la suite MFM, surclasse toutes les autres techniques locales de

détection de contours.

La Figure 8.6 présente la comparaison avec notre système. On peut observer que notre courbe

domine celle du MFM. La supériorité des UCM est donnée par une plus grande attache aux

données (le Rappel), surtout dans les échelles basses. La différence des scores est faible (1%),

mais rappelons que l’avantage principal de notre approche par rapport aux détecteurs locaux est

de fournir des segmentations en régions, et donc des contours fermés.

Page 215: Arbelaez these

201

8.2.2 Approche morphologique

Ce paragraphe présente les résultats que nous avons obtenus avec certaines des méthodes de

segmentation morphologique décrites dans la Section 6.9.1.

Le premier point à considérer pour l’application de la LPE et ses techniques dérivées à la

segmentation générale de bas niveau est l’élection d’un "module du gradient" g. Le choix naturel

semble être le détecteur MFM, l’état de l’art en détecteurs locaux. Cependant, le résultat final de

cette méthode n’est pas directement utilisable pour nos propos, car, suivant l’approche proposée

par Canny, il retient uniquement les maxima dans la direction du gradient. La conséquence en

est que le MFM s’annule sur une grande partie du domaine et ne possède généralement qu’un

unique minimum régional. Or, en présence d’un seul bassin versant, la LPE est vide.

Les expériences que nous présentons ont donc été réalisées en employant le détecteur MFM

sans suppression des non-maxima. Un exemple est présenté dans la Figure 8.7. Ce choix com-

porte plusieurs avantages. Il permet d’une part de comparer directement la performance de la

LPE à celle de la méthode de Canny sur le meilleur détecteur local disponible. D’autre part, il

permet de répondre à des critiques usuelles à la LPE, à notre avis injustifiées : la non régularité

des contours, son inadéquation aux textures et sa sensibilité au bruit. Nos résultats montrent que

ces informations peuvent (et devraient) être gérées par le détecteur local. Les contours obtenus

avec les techniques morphologiques sont en effet les plus réguliers des méthodes testées, tout en

présentant une robustesse aux textures et au bruit équivalente. Un exemple est présenté dans la

Figure 8.8, où on peut observer l’effet de mosaïque caractéristique des inondations.

Nous avons calculé les inondations de la profondeur, de l’aire et du volume des lacs, en

modifiant l’implantation de Pink [Cou] de l’algorithme de Meyer [Mey94] (LPEM). Nous avons

ensuite utilisé l’ultramétrique des marqueurs à partir des minima classifiés pour créer les cartes

de contours ultramétriques.

Page 216: Arbelaez these

202

MFM WS-opt UCM

FIG. 8.8 – Haut : Cartes des contours de l’image de la Fig. 8.7. Bas : seuils optimaux

Notons tout d’abord que l’aire et le volume ne sont pas des échelles appropriées pour l’éva-

luation car, typiquement, l’image possède un faible nombre de lacs où ces caractéristiques sont

trop importantes par rapport aux autres. Ainsi, si on échantillonne ces échelles de façon uni-

forme, on obtient une courbe qui contient quelques points épars aux échelles hautes et un grand

nombre de points aux échelles faibles. Nous avons par conséquent utilisé le logarithme népérien

de ces caractéristiques, ce qui permet une distribution plus homogène des points sur la courbe et

donc une estimation plus précise de la F-mesure maximale.

On n’observe par ailleurs pas de différence significative de la performance relative des mé-

thodes sur les images couleur ou à teintes de gris. Le score sur les premières est plus grand

que sur les secondes, mais la position relative des courbes est équivalente. La différence réside

donc dans la supériorité du détecteur pour les images couleur et nous présentons uniquement les

courbes pour ce type d’images.

Parmi les trois inondations, la plus performante est la profondeur (0,641), suivie du volume

(0,622) et, plus loin, de l’aire (0,573). Le résultat est présenté dans la partie gauche de la Figure

8.9. La première observation est donc que l’inondation d’aire est la moins appropriée pour la

Page 217: Arbelaez these

203

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

WS−dyn F(0.62, 0.67) = 0.641WS−logvol F(0.64, 0.60) = 0.622WS−logar F(0.56, 0.58) = 0.573

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

WS−opt F(0.63, 0.66) = 0.643WS−dyn F(0.62, 0.67) = 0.641WS−logvol F(0.64, 0.60) = 0.622

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.9 – Contours ultramétriques des inondations

segmentation de bas niveau. On ne peut en revanche pas établir une supériorité manifeste de

l’une des deux inondations restantes sur l’autre, car leurs courbes se croisent. La profondeur est

plus performante aux échelles faibles et le volume aux échelles hautes. Ceci justifie l’élection du

volume dans les applications où l’obtention d’une partition significative avec peu de régions est

importante [Vac95, Zan01].

Une fois le type de gradient et l’algorithme de LPE choisis, les contours ultramétriques dé-

finis par les inondations classiques sont aparamétriques. On pourrait penser que cette propriété

handicape leur performance par rapport à des méthodes qui, comme la nôtre, disposent d’un plus

grand nombre de degrés de liberté. Dans l’expérience suivante, nous avons combiné les caracté-

ristiques des lacs de façon analogue à notre système et défini la dissemblance ultramétrique :

δ(R1, R2) = dyn(R1, R2) · (ln(minvol(R1), vol(R2)) + β1 · ln(minar(R1), ar(R2))]β2

Cette dissemblance est donc composée d’un premier terme de frontière et d’un deuxième terme

qui prend en compte l’information interne des lacs. Les deux paramètres ont été optimisés sur

l’ensemble d’entraînement de la BSDB. Le résultat est présenté dans la partie droite de la Fi-

gure 8.9. La courbe PR de l’inondation optimisée se superpose à celle de la dynamique dans

les échelles faibles et la surpasse dans les échelles hautes. On constate donc que l’optimisation

Page 218: Arbelaez these

204

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

MFM F(0.65, 0.70) = 0.674WS−opt F(0.63, 0.66) = 0.643

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.684WS−opt F(0.63, 0.66) = 0.643

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.10 – Gauche : détecteur local (rouge gras) comparé à l’inondation optimisée (bleu).Droite : nos contours ultramétriques (rouge gras) comparés à l’inondation optimisée (bleu).

améliore la performance de l’inondation uniforme lorsque le nombre de régions est faible. Le vo-

lume demeure cependant dominant dans les échelles hautes. La combinaison des caractéristiques

des lacs et leur optimisation fournit donc une plus grande souplesse à l’approche morphologique

dans les échelles intermédiaires.

Dans la partie gauche de la Figure 8.10, on peut observer que le score de l’inondation opti-

misée est inférieur de 3% à celui du détecteur MFM. Ce résultat indique une supériorité de la

méthode de suppression des non-maxima par rapport aux approches morphologiques basées sur

le gradient. Deux facteurs doivent cependant être pris en compte. D’une part, la performance des

inondations est pénalisée en comparaison à la suppression des non-maxima, car cette dernière n’a

pas l’obligation de fournir des courbes fermées. D’autre part, nous avons utilisé dans toutes nos

expériences les paramètres par défaut du détecteur MFM, qui ont été optimisés sur la BSDB en

tenant en compte la suppression des non-maxima. L’optimisation du détecteur local spécifique-

ment pour les techniques morphologiques pourrait par conséquent améliorer leur performance.

Cette optimisation comporterait néanmoins une dizaine de paramètres supplémentaires, ce qui

dépasse largement nos moyens de calcul.

Enfin, la partie droite de la Figure 8.10 compare l’inondation optimisée avec notre système.

Page 219: Arbelaez these

205

L’écart des deux courbes est globalement constant pour toutes les échelles, et le score des UCM

est significativement supérieur (+4%).

8.2.3 Approche variationnelle

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

EM−MS F(0.59, 0.71) = 0.640MS F(0.59, 0.68) = 0.633

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.65, 0.72) = 0.684EM−MS F(0.59, 0.71) = 0.640

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.11 – Nos contours ultramétriques comparés à ceux obtenus par la minimisation de lafonctionnelle de Mumford et Shah

Comme référence des méthodes variationnelles, nous avons utilisé les contours ultramé-

triques associés à la minimisation de la fonctionnelle de Mumford et Shah, dont la construc-

tion est décrite dans la Section 6.9.2. Ces expériences ont été réalisées avec l’implantation de

MegaWave [FM] de l’algorithme de [DK97].

Pour obtenir des résultats comparables, nous avons utilisé les espaces couleur (L∗c1c2, δ∗),

avec la pondération de chrominance ξ optimisée. De plus, nous avons optimisé la mosaïque

des extrema comme méthode de pré-segmentation pour cette approche. La partie gauche de la

Figure 8.11 présente les contours ultramétriques de cet algorithme construits à partir de l’image

originale (bleu) et à partir de la mosaïque des extrema (rouge gras). L’amélioration dans le cas

des images couleur est faible (0,7%) et un peu plus importante (1,6%) pour les images à teintes de

gris. Les résultats dans les deux cas sont cependant clairement inférieurs à notre méthode (4,6%),

Page 220: Arbelaez these

206

comme le montre la partie droite de la figure. La différence principale réside dans l’inclusion de

l’information de texture du détecteur local. Les résultats sont proches aux nôtres lorsque nous

employons uniquement les données de l’image originale (Figure 8.3-gauche).

8.3 Évaluation

Les images de la BSDB sont divisées en deux parties, un ensemble d’entraînement (200

images) et un ensemble de test (100 images). Les règles du jeu pour l’évaluation (benchmark en

anglais) d’un algorithme sont les suivantes :

1. Apprendre les paramètres optimaux sur l’ensemble d’entraînement.

2. Utiliser ces paramètres sur l’ensemble test.

Soulignons le niveau d’exigence de cette méthodologie. D’une part, la technique évaluée doit

être assez robuste pour fournir, avec un jeu de paramètres unique, des segmentations de qualité

des 200 images naturelles de l’ensemble d’entraînement. D’autre part, elle doit permettre de

segmenter les 100 images test "à l’aveugle", avec les paramètres optimaux de l’ensemble d’en-

traînement. Puisque tous les paramètres ont été ajustés sur un ensemble d’images indépendant, la

méthodologie évalue la performance du système pour la segmentation totalement automatique.

Nous présentons dans la Figure 8.12 la comparaison des algorithmes sur l’ensemble d’images

test. Pour respecter intégralement les règles de jeu, nous avons utilisé dans ce cas la méthode

de correspondance par pixels originale. Remarquons cependant que les résultats sont presque

identiques avec notre correspondance de courbes. Notons par ailleurs que la cohérence humaine

sur l’ensemble d’images test est inférieure de près de 3% à celle des images d’entraînement

(0,782 au lieu de 0,811 pour la correspondance par courbes). Ceci se traduit par une diminution

du score de tous les algorithmes. La position relative des courbes est néanmoins la même pour les

deux ensembles d’images, ce qui indique la robustesse des algorithmes testés. On constate que

les courbes sont plus proches entre elles que dans la Figure 8.1 (p. 193), mais notre méthode est

Page 221: Arbelaez these

207

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.64, 0.68) = 0.660MS F(0.60, 0.67) = 0.633WS F(0.61, 0.66) = 0.632

0.9

0.787

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

Précision

Rap

pel

UCM F(0.64, 0.68) = 0.660MFM F(0.61, 0.69) = 0.648Canny F(0.52, 0.69) = 0.584

0.9

0.787

0.7

0.6

0.5

0.4

0.3

0.2

0.1

IsoF

FIG. 8.12 – Résultats de l’Évaluation. Nos cartes de contours ultramétriques (rouge gras) com-parées à deux méthodes de référence en segmentation hiérarchique (haut) et à l’état de l’art endétecteurs de contours locaux (bas).

Page 222: Arbelaez these

208

toujours dominante. Le score obtenu (0,66) place notre système au premier rang (pour l’instant,

au moins) du classement d’algorithmes de segmentation de l’université de Berkeley.

La BSDB représente pour nous une ligne de séparation dans l’orientation générale de l’étude

de la segmentation, car elle pose les bases pour une approche quantitative au problème. Depuis sa

publication, en 2003, cette étude est devenue une référence dans le milieu, et nous pensons que le

benchmark des résultats sera dans les années à venir un préalable à la publication des recherches

en segmentation et en détection des contours. Bien que la base de données soit utilisée de plus

en plus souvent dans les publications des deux dernières années, la seule évaluation qui ait été

menée en suivant rigoureusement les règles du jeu est celle de ses auteurs [BSD], qui porte

exclusivement sur les détecteurs de contours locaux.

À notre connaissance, la seule publication à ce jour sur l’évaluation d’algorithmes de seg-

mentation en régions dans le cadre de la BSDB est [EJ05]. Cette étude constitue par conséquent

un repère pour situer notre travail par rapport à l’état de l’art du domaine, et nous la décrivons

ci-après brièvement.

Estrada et Jepson [EJ05] proposent un algorithme de segmentation, nommé SE-Mincut, qui

repose sur l’immersion spectrale (spectral embedding) et les coupes minimales sur un graphe

(min-cuts). Au moyen du cadre Précision-Rappel, ces auteurs comparent leur méthode à trois

algorithmes de référence des dernières années : le Mean-Shift [CM97, CM99], les Normalized-

Cuts [SM00] et la Local Variation [FH98]. L’évaluation est réalisée en utilisant les implantations

distribuées par les auteurs de chacune des méthodes. Cette étude a pour nous l’intérêt supplé-

mentaire d’évaluer des approches descendantes (par coupes) en théorie de graphes, réputées su-

périeures aux approches ascendantes (par fusion) comme la nôtre dans des livres de texte [FP03].

Elle nous permet en outre d’illustrer les difficultés pratiques qu’on peut rencontrer en réalisant

une tâche analogue à celle décrite dans ce chapitre.

La première de ces difficultés est que les approches descendantes sont généralement plus

coûteuses en temps de calcul et en ressources que les approches ascendantes. À tel point, que

Page 223: Arbelaez these

209

les implantations du SE-Mincut et des Normalized-Cuts ne fonctionnent pas sur des images de

la taille de celles de la BSDB. Notre expérience avec les Normalized-Cuts confirme ce fait.

Estrada et Jepson sont donc obligés de sous-échantillonner les images d’un facteur de 4 (taille

121x88) dans leurs expériences. De plus, l’évaluation se limite aux images a teintes de gris, les

algorithmes permettant uniquement l’utilisation de ce type d’images. D’autre part, le seuil de

tolérance dans la localisation des contours est choisi à 5 pixels ce qui, étant donnée la résolution

des images, est largement supérieur à celui de la BSDB et au nôtre. Remarquons par ailleurs

que la cohérence de la segmentation humaine pour ce protocole expérimental n’est pas donnée.

Enfin, l’évaluation est réalisée sur les 300 images de la BSDB et non pas sur les 100 images de

test. Étant donné le faible nombre de paramètres des algorithmes et leur coût computationnel,

l’étape d’optimisation est omise, les courbes comportent uniquement une dizaine de points et le

choix de la courbe optimale se fait par inspection visuelle.

L’effet des différents facteurs que nous venons d’énumérer devrait être de sur-évaluer la per-

formance des algorithmes en relation aux règles de jeu de la BSDB. Ceci n’est malheureusement

pas vérifiable car l’article fournit uniquement un graphe des courbes, sans aucune mention des

F-mesures maximales. Le seul élément qui permette de comparer les performances obtenues aux

nôtres est le détecteur de contours de Canny, utilisé comme référence des détecteurs locaux. Sur

la Figure 4 de [EJ05], on observe que l’algorithme le plus performant est le SE-Mincut, suivi

de près par la méthode de Canny, puis les Normalized-cuts, la Local Variation et, plus loin, le

Mean-Shift. Toutes les courbes sont cependant assez proches (à l’exception de la dernière) et leur

performance se situe dans l’ordre de grandeur de celle de Canny. Notons cependant que le dé-

tecteur de Canny est évalué à la résolution des autres techniques et sans seuillage par hysteresis.

Cette même méthode, évaluée en suivant les règles de la BSDB (avec hystéresis, à résolution

normale et uniquement sur l’ensemble test) a une performance de seulement F = 0,58, comme

on peut observer sur la partie inférieure de la figure 8.12.

Page 224: Arbelaez these

210

L’analyse précédente nous permet d’estimer que les trois méthodes de segmentation en ré-

gions que nous avons testés surclassent les quatre techniques évaluées dans [EJ05]. Une compa-

raison directe se trouve cependant hors de portée pour l’instant.

8.4 Exemples

Les Figures 8.13 à 8.15 présentent quelques résultats de notre système. Les cartes de contours

ultramétriques ont été obtenues en utilisant un jeu unique de paramètres, l’optimum sur l’en-

semble d’entraînement. La partition donnée correspond à l’échelle optimum des UCM pour

l’image. La reconstruction, où chaque région est représentée par sa couleur médiane, permet

de juger qualitativement le résultat. Remarquons que, bien que les paramètres aient été optimi-

sés pour l’extraction des contours, les régions coïncident souvent avec des objets ou des parties

d’objets présents dans l’image. Dans la carte de contours ultramétriques, on peut observer que

certains objets qui ne sont pas extraits ou qui sont fragmentés à l’échelle optimum, sont complets

à une autre échelle. Dans la mise en correspondance avec les segmentations humaines, les vrais

positifs sont représentés en noir, les faux positifs en bleu et les non détections en orange.

Page 225: Arbelaez these

211

Image Reconstruction UCM Correspondance

FIG. 8.13 – Résultats

Page 226: Arbelaez these

212

Image UCM Correspondance Reconstruction

FIG. 8.14 – Résultats

Page 227: Arbelaez these

213

Image UCM Correspondance Reconstruction

FIG. 8.15 – Résultats

Page 228: Arbelaez these

214

Page 229: Arbelaez these

Chapitre 9

Conclusions et perspectives

9.1 Résumé

La thèse présentée dans ce mémoire a été dédiée à l’étude d’un problème fondamental en

Vision par Ordinateur : la segmentation. Cette tâche vise à extraire les caractéristiques géomé-

triques d’une image en créant une partition de son domaine de définition. Dans le cas des images

naturelles (images de scènes du monde réel), les régions de la partition représentent des ob-

jets physiques. La démarche méthodologique adoptée, dite de bas niveau, consiste à segmenter

l’image sans connaître préalablement son contenu sémantique.

Les paragraphes suivants résument les quatre parties qui constituent le présent mémoire.

Cadre de travail

L’approche proposée dans cette thèse pour la segmentation automatique d’images naturelles

repose sur la formulation du problème dans le cadre des espaces pseudo-métriques, où une seg-

mentation est modélisée comme une partition métrique du domaine de l’image.

Les fondements du formalisme métrique sont exposés dans le CHAPITRE 1. Après une pré-

sentation des notions de base, deux types de partitions de l’espace induites par une distance sont

étudiées. Les premières, nommées partitions par seuillage, sont obtenues en séparant des autres

points de l’espace ceux dont la distance à un ensemble est inférieure à un certain seuil. Les se-

condes, appelées partitions de Voronoï, décomposent l’espace par rapport à une famille de points,

215

Page 230: Arbelaez these

216

ou sites, en assignant chaque point au site le plus proche. Enfin, une formulation variationnelle

de ce type de partitions métriques est présentée.

La première partie du mémoire est complétée par le CHAPITRE 2, qui traite plus spécifique-

ment des images numériques et des structures mathématiques et algorithmiques pour les repré-

senter et les manipuler. On s’intéresse en particulier à la représentation de la couleur, à la notion

de composante connexe, centrale pour la suite de l’exposé, et à la définition des segmentations

en termes des contours. De même, on introduit les structures de graphe d’adjacence et d’arbre

d’inclusion, sur lesquelles reposent nos constructions algorithmiques.

L’application de la théorie métrique nécessite la définition de distances appropriées pour

traiter un problème spécifique. Dans le cas de la segmentation, les distances se construisent

à partir des données de l’image. Les deuxième et troisième parties du mémoire étudient deux

classes de distances différentes.

Métriques de chemin

La deuxième partie du mémoire s’intéresse aux métriques de chemin, définies en mesurant le

minimum d’une notion de longueur généralisée des chemins entre points de l’espace.

À chaque notion de longueur correspond une distance différente. Le CHAPITRE 3 présente

une étude bibliographique des métriques de chemin les plus connues, les distances pondérées.

Partant de la notion physique de distance optique, nous étudions la relation entre ces distances,

la théorie de propagation des fronts et le formalisme des ensembles de niveau, pour aboutir à

l’Équation Eikonale. Nous considérons ensuite l’implantation de ce type de distances au moyen

de l’algorithme du Fast Marching, qui permet la convergence de la construction vers la solu-

tion de viscosité de l’Équation Eikonale. Est discutée enfin l’application à la segmentation des

partitions métriques associées aux distances pondérées.

Dans le CHAPITRE 4, nous proposons l’étude de la distance définie en considérant comme

longueur la variation totale de l’image sur les chemins, que nous appelons variation de chemin.

Page 231: Arbelaez these

217

Nous étudions d’abord la définition et les propriétés de cette distance dans le cadre continu,

et remarquons son équivalence dans le cas des fonctions continues avec la notion de variation

linéaire de Kronrod. Nous proposons et comparons ensuite deux constructions différentes de la

variation de chemin sur une grille régulière. L’intérêt de cette distance pour la segmentation est

illustré en comparant les partitions métriques qu’elle engendre à celles des distances pondérées

du Chapitre 3.

L’application principale de cette partie de la thèse est une technique de segmentation appelée

mosaïque des extrema. Elle est déterminée par la partition de Voronoï associée à la variation de

chemin et aux extrema régionaux du canal de luminosité de l’image. Cette partition métrique

permet de définir une reconstruction de l’image constante par morceaux où un équilibre entre

simplification et conservation de contenu est atteint. Ses propriétés principales sont la réduction

du flou et la préservation de l’information géométrique de l’image, en particulier des contours.

Enfin, nous étudions la relation entre la mosaïque des extrema et la ligne de partage des eaux et

proposons une méthode pour le choix d’un sous-ensemble d’extrema significatifs au moyen d’un

filtrage par EDP.

Ultramétriques

Motivée par l’organisation de la perception visuelle humaine, la troisième partie du mémoire

s’intéresse à l’étude de la segmentation hiérarchique dans le cadre métrique. Le CHAPITRE 5

expose les bases de la théorie de classification hiérarchique des données, partant de la structure

de hiérarchie indicée pour aboutir a la notion équivalente de distance ultramétrique. Ces distances

induisent un nouveau type de partitions métriques, les partitions ultramétriques, qui sont à la fois

des partitions par seuillage et de Voronoï. Enfin, nous rappelons la méthode ascendante classique

de classification hiérarchique des données.

Le CHAPITRE 6 s’intéresse plus spécifiquement à l’application des distances ultramétriques à

la segmentation. Dans ce but, remarquant que l’information géométrique des objets est exprimée

Page 232: Arbelaez these

218

en grande partie dans leurs contours, nous formulons la segmentation hiérarchique en termes des

frontières des régions. Cette démarche conduit à placer au centre de l’analyse la carte de contours

ultramétriques, l’image à valeurs réelles représentant une hiérarchie indicée. Nous caractérisons

les méthodes de fusion de régions qui permettent de définir une ultramétrique et mettons au

point des distances spécifiques pour l’extraction des contours des images naturelles. Celles-ci

sont construites en mesurant plusieurs types d’information de bas niveau de l’image (luminosité,

couleur, texture, taille des régions, etc...) et en les combinant au moyen de formules génériques.

Enfin, nous mettons en perspective la méthode proposée en la positionnant par rapport à deux

approches fondatrices en segmentation hiérarchique.

Évaluation des Résultats

L’évaluation quantitative des résultats obtenus est le sujet de la quatrième partie du mémoire.

Le CHAPITRE 7 propose une interprétation originale et une mise en oeuvre fondée sur des opé-

rateurs morphologiques du cadre Précision-Rappel, une méthodologie d’évaluation amplement

reconnue dans le domaine. Celle-ci se fonde sur la comparaison des contours détectés par la

machine par rapport à des segmentations réalisées par des êtres humains, sur une large base

d’images naturelles.

Une partie importante du travail expérimental rapporté dans le CHAPITRE 8 a été dédiée à

l’apprentissage des paramètres optimaux du système au moyen du cadre Précision-Rappel, ainsi

qu’à l’optimisation et évaluation de méthodes de segmentation externes. Le protocole expéri-

mental mis en place permet notamment de prouver que la méthode proposée est significativement

supérieure à deux techniques de référence en segmentation hiérarchique : la minimisation de la

fonctionnelle de Mumford et Shah et les inondations morphologiques. En outre, l’évaluation des

résultats montre que les UCM surclassent l’état de l’art en détecteurs de contours locaux, tout en

fournissant un ensemble de courbes fermées pour tout seuillage.

Page 233: Arbelaez these

219

9.2 Conclusions

Ce mémoire a présenté la mise au point et l’évaluation d’un système de segmentation auto-

matique de bas niveau.

L’approche proposée s’inspire des idées fondatrices du domaine et son implantation repose

sur deux des algorithmes les plus classiques en théorie de graphes : les chemins minimaux et la

fusion de régions.

La formulation du problème dans le cadre métrique, ainsi que son interprétation comme un

processus de classification hiérarchique des données, nous ont permis de traiter conjointement la

segmentation en régions et la détection des contours.

Notre stratégie pour concevoir des distances significatives pour l’extraction des contours des

images naturelles a consisté à intégrer l’information de contour locale le long des frontières des

régions, puis à la compléter avec l’information interne.

Le résultat du système est une représentation hiérarchique des contours de l’image sous forme

d’une image scalaire, dont tout seuillage définit un ensemble de courbes fermées, les frontières

d’une segmentation.

En outre, nous avons mesuré la qualité de nos résultats par rapport à la vision humaine. La

méthodologie d’évaluation adoptée nous a permis de montrer la supériorité du système proposé

sur d’autres méthodes de segmentation actuelles et, surtout, permettra de le comparer à des tech-

niques futures.

Nos cartes de contours ultramétriques sont une description structurée de l’information géo-

métrique de l’image. Conjuguées au protocole d’optimisation et évaluation mis en place, elles

constituent un système d’extraction de contours dont les caractéristiques principales sont les sui-

vantes :

– Qualité : L’évaluation des résultats situe les UCM à la pointe des méthodes de segmenta-

tion et de détection de contours actuelles.

Page 234: Arbelaez these

220

– Richesse : Chaque UCM contient l’information de toute une hiérarchie de segmentations

en une image scalaire unique.

– Robustesse : La diversité des images de la base de données d’évaluation montre la capa-

cité du système à s’adapter à un grand nombre de situations différentes.

– Automatisme : La définition d’une vérité-terrain (base d’images segmentées) suffit pour

l’apprentissage des paramètres optimaux du système dans un contexte donné.

– Portabilité : L’information relative au type d’images ou à une application spécifique peut

s’incorporer dans la définition de l’ultramétrique et les segmentations de la vérité-terrain.

Par ailleurs, une des questions de l’introduction portait sur la quantité d’information séman-

tique employée par les êtres humains pour segmenter une image naturelle. À cet égard, la dé-

marche suivie dans cette étude permet d’esquisser une réponse. Le score des UCM (0,66) repré-

sente près de 83% du score de référence pour les humains (0,79). Puisque notre système utilise

uniquement l’information physique de l’image, ce résultat permet de situer aux environs de 17%

la borne supérieure du pourcentage d’information sémantique employée par ce groupe de sujets

pour la tâche de segmentation.

La performance des machines pour la segmentation automatique d’images naturelles de-

meure cependant loin de la référence de la vision humaine dont nous disposons. Les méthodes

actuelles se situent dans la tranche des soixantes, leur F-mesure globale variant entre 0.6 et 0.7.

On peut espérer dans les années à venir un rapprochement des techniques de bas niveau vers

une performance de 0.7. Néanmoins, pour accéder à la tranche des soixante-dix et s’approcher

de la vision humaine, nous estimons que l’introduction d’information de plus haut niveau est

Page 235: Arbelaez these

221

nécessaire.

Considérons par exemple l’image de la dernière ligne de la Figure 8.15. Les images repré-

sentant un animal dans son environnement naturel sont parfois difficiles à segmenter pour notre

système ; échapper aux yeux des autres est justement le sens du camouflage comme stratégie évo-

lutive. Dans ce cas, les humains perçoivent le tigre comme une entité unique (bien que la fourrure

soit une des caractéristiques qui permettent de l’identifier parmi les félins). En revanche, pour la

machine, l’échelle de certaines rayures est comparable à celle des contours externes. Remarquons

cependant qu’on peut reconstruire une grande partie de l’animal en regroupant des régions des

UCM. Notre représentation de bas niveau des contours de l’image pourrait servir comme point

de départ pour un système de regroupement perceptuel plus haut niveau.

Enfin, l’étude de la segmentation dans le cadre de la classification hiérarchique est parfois

qualifiée d’arbitraire dans le milieu. Un exemple est donné par la remarque suivante, extraite

d’un livre de texte récent [FP03] :

Clustering methods tend to be rather arbitrary (...) because there really isn’t much theory

available to predict what should be clustered and how. It is clear that what we should be doing

is forming clusters that are helpful for a particular application, but this criterion hasn’t been

formalized in any useful way.

Nous espérons que l’étude présentée dans ce mémoire contribuera à la formalisation d’un tel

critère.

9.3 Perspectives

La partie expérimentale de notre travail a été réalisée dans le cadre propre à une thèse. Nous

pensons que la qualité des résultats pourrait s’améliorer en traitant la phase d’optimisation du

système dans un cadre plus large. En particulier, nous avons utilisé dans toutes les expériences

les paramètres par défaut du détecteur MFM. L’optimisation conjointe du détecteur local et de

Page 236: Arbelaez these

222

notre système, ainsi que l’utilisation de techniques d’apprentissage des paramètres plus élabo-

rées, devraient augmenter la performance globale.

D’autre part, l’injustement méconnue théorie de Kronrod mériterait une plus large diffusion.

Nous n’avons considéré dans ce mémoire qu’un seul des concepts qu’il définit, la variation

linéaire entre deux points. Kronrod étudie néanmoins d’autres notions, comme la variation li-

néaire sur un ensemble, la variation signée ou la variation planaire (la variation totale pour les

fonctions de deux variables). Nous pensons que leur application à l’analyse d’images pourrait

s’avérer fructueuse. Ces notions sont de surcroît étudiées au moyen de l’arbre de composantes,

et leur implantation en utilisant l’arbre de formes de Monasse est envisageable. Une première

étude a été réalisée dans ce sens, à notre connaissance indépendamment de la théorie de Kron-

rod, par Dibos et Koepfler [DK00].

En ce qui concerne les distances ultramétriques que nous avons construites, il serait sou-

haitable d’évaluer une plus large gamme d’attributs internes des régions (voir par exemple le

Chapitre II de [CP95]). Ceux que nous avons considérés n’améliorent que marginalement la per-

formance du système. De même, d’autres façons de combiner information de frontière et interne

pourraient être envisagées.

D’autre part, on peut observer dans les résultats que les contours que produit notre mé-

thode ne sont pas forcément réguliers. Cette caractéristique n’est pas gênante pour la segmenta-

tion de bas niveau d’images naturelles car, en dehors des environnements humains, les images

contiennent généralement peu d’objets aux contours réguliers. Elle pourrait cependant le deve-

nir dans d’autres applications. À cet égard, notons que l’utilisation en entrée du détecteur local

MFM dans les mêmes conditions que pour les inondations morphologiques (avant suppression

des non-maxima) permet d’augmenter la régularité des contours. Une autre voie qui peut être ex-

plorée dans ce sens est celle proposée dans [NWvdB03], où la régularité de la LPE est contrôlée

en incluant un terme de longueur dans l’énergie (1.3.5) associée aux partitions de Voronoï.

Page 237: Arbelaez these

223

Par rapport aux techniques morphologiques et variationnelles testées, signalons que les ex-

périences réalisées sont très loin d’être exhaustives et étaient destinées uniquement à fournir un

point de référence externe pour notre méthode. L’idéal serait bien sûr de comparer toutes les

techniques de segmentation actuelles. Comme nous l’avons remarqué auparavant, nous sommes

confiant que ce travail se réalisera graduellement (et collectivement !) dans les années à venir,

et que la standardisation d’une méthodologie d’évaluation quantitative donnera un nouvel élan à

l’étude de la segmentation.

Plus spécifiquement, en relation aux méthodes morphologiques, soulignons que nous n’avons

testé qu’un seul algorithme de LPE, parmi les dizaines proposés dans les dernières années

[RM00]. Par exemple, une approche récente, nommée LPE topologique [Ber05], a la propriété

de conserver l’altitude des points col du relief [NCB05]. Cette caractéristique est importante du

point de vue théorique, car sur cette mesure reposent les hiérarchies d’inondation. L’influence de

ce facteur dans la performance globale mérite d’être étudié.

De même, nous n’avons évalué qu’un seul algorithme dans le cadre variationnel, une des

approches de segmentation les plus populaires des dernières années. La méthode hiérarchique

pour la minimisation de la fonctionnelle de Mumford et Shah de [KLM94, DK97] a été étendue,

par exemple dans [GLMC03], à une classe d’énergies plus large et il serait intéressant de les

comparer. Nous pensons en particulier qu’une énergie combinant l’information du gradient sur

les contours et celle de l’image originale sur les régions devrait avoir une bonne performance.

Enfin, la segmentation est considérée la clef de voûte de la Vision par Ordinateur, car elle

permet d’élever le niveau d’analyse, en passant du pixel à la région. Disposer d’un outil de

segmentation automatique qui soit fiable est une étape souhaitable, et souvent indispensable,

pour aborder d’autres problèmes fondamentaux de la discipline. Nous croyons que nos cartes de

contours ultramétriques seraient utiles pour des problèmes comme la reconnaissance des formes,

la stéréo ou l’indexation par le contenu. En outre, l’extension de nos techniques aux dimensions

Page 238: Arbelaez these

224

supérieures ne devrait pas, en principe, poser plus de problèmes que le passage des images sca-

laires aux images vectorielles. Leur implantation sur un domaine de dimension trois ou quatre

pourrait être utile pour l’analyse de séquences et d’images médicales. Sur ce dernier point, remar-

quons que, bien que notre système soit initialement conçu pour segmenter des images naturelles,

l’information préalable spécifique à un type d’images ou à une application peut s’incorporer dans

la phase d’optimisation.

Page 239: Arbelaez these

225

9.4 Liste des communications

Les travaux présentés dans ce mémoire ont donné lieu aux communications suivantes.

Articles dans des revues à comité de lecture

1. P. Arbeláez and L. Cohen. A Metric Approach to Vector-Valued Image Segmentation. Inter-

national Journal of Computer Vision. Special Issue on Geometrical, Variational and Level

Sets Methods in Computer Vision. Sous presse. A paraître en 2006.

2. P. Arbeláez et L. Cohen. Segmentation d’Images Couleur par Partitions de Voronoï. Revue

Traitement du Signal. Numéro spécial Image Couleur. Vol. 21. No. 5. pp. 407-421. 2004

3. P. Arbeláez and L. Cohen. Energy Partitions and Image Segmentation. Journal of Mathe-

matical Imaging and Vision. Vol. 20. No. 1-2. pp. 43-57. 2004

Articles dans des conférences à comité de lecture

1. P. Arbeláez. Boundary Extraction in Natural Images Using Ultrametric Contour Maps.

Proceedings 5th IEEE Workshop on Perceptual Organization in Computer Vision (POCV’06).

A paraître. Juin 2006. New York, USA.

2. P. Arbeláez et L. Cohen. Segmentation d’Images Vectorielles par Partitions de Voronoï

Généralisées. Actes 14ème Congrès Francophone de Reconnaissance des Formes et Intel-

ligence Artificielle (RFIA’04). pp. 1123-1132. Janvier 2004. Toulouse, France.

3. P. Arbeláez and L. Cohen. Generalized Voronoi Tessellations for Vector-Valued Image Seg-

mentation. Proceedings 2nd IEEE Workshop on Variational, Geometric and Level Set Me-

thods in Computer Vision (VLSM’03). pp. 49-56. Septembre 2003. Nice, France.

4. P. Arbeláez and L. Cohen. The Extrema Edges. Proceedings 4th International Conference

on Scale-Space Theories in Computer Vision (Scale-Space’03). pp. 180-195. July 2003.

Page 240: Arbelaez these

226

Isle of Skye, U.K.

5. P. Arbeláez and L. Cohen. Path Variation and Image Segmentation. Proceedings 4th In-

ternational Workshop on Energy Minimization Methods in Computer Vision and Pattern

Recognition (EMMCVPR’03). pp. 246-260. June 2003. Lisbonne, Portugal.

6. P. Arbeláez et L. Cohen. Partitions d’Énergie et Segmentation d’Images. Actes des Jour-

nées Francophones des Jeunes Chercheurs en Vision par Ordinateur (ORASIS’03). pp.

375-384. Mai 2003. Gérardmer, France

Communications orales

1. P. Arbeláez. Évaluation d’Algorithmes d’Extraction de Contours. Groupe de Travail des

Thésards du CEREMADE. 29 mars 2005. Paris, France.

2. P. Arbeláez. Les Contours des Extrema. Séminaire CEREMADE. 20 juin 2003. Paris,

France.

3. P. Arbeláez. Distances et Segmentation Morphologique. Journée Morphologie Mathéma-

tique, GDR MSPC. GT Vision et Perception. 27 mai 2003. Paris, France.

4. P. Arbeláez. The Extrema Mosaic. International Workshop on Mathematics and Image

Analysis (MIA’02). 12 septembre 2002. Paris, France.

Page 241: Arbelaez these

Bibliographie

[AAS85] N. Ahuja, B. An, and B. Schachter. Image representation using Voronoi tessella-

tion. CVGIP, 29(3) :286–295, March 1985.

[AGLM93] L. Alvarez, F. Guichard, P.L. Lions, and J.M. Morel. Axioms and fundamentals

equations of image processing. Archiv.Rat.Mech, 123 :199–257, 1993.

[AK00] F. Aurenhammer and R. Klein. Handbook of Computational Geometry, chapter 5 :

Voronoi Diagrams, pages 201–290. Elsevier Science Publishing, 2000.

[AP79] I.E. Abdou and W.K. Pratt. Qualitative design and evaluation of enhance-

ment/thresholding edge detector. PIEEE, 67(5) :753–763, May 1979.

[BC98] P. Blomgren and T.F. Chan. Color TV : Total variation methods for restoration of

vector-valued images. IEEE Trans. on Image Processing, 7(3) :304–309, March

1998.

[Ben84] J.P. Benzécri. L’Analyse des Données. Tome I : La Taxinomie. Dunod, Paris, 4

edition, 1984.

[Ber05] G. Bertrand. On topological watersheds. International Journal of Computer Vision,

22 :217–230, 2005.

[Beu90] S. Beucher. Segmentation d’images et morphologie mathématique. PhD thesis,

Ecole des Mines de Paris, 1990.

[BF90] M. Bardi and M. Falcone. An approximation scheme for the minimum time func-

tion. SIAM Journal of Control and Optimization, 28 :950–965, 1990.

[BG89] J.M. Beaulieu and M. Goldberg. Hierarchy in picture segmentation : a stepwise

optimization approach. IEEE Trans. on PAMI, 11(2) :150–163, February 1989.

227

Page 242: Arbelaez these

228

[BKD01] K.W. Bowyer, C. Kranenburg, and S. Dougherty. Edge detector evaluation using

empirical roc curves. CVIU, 84(1) :77–103, October 2001.

[BM92] S. Beucher and F. Meyer. Mathematical Morphology in Image Processing, chapter

12 : The Morphological Approach to Segmentation : The Watershed Transforma-

tion, pages 433–481. Marcel Dekker, 1992.

[BM94] R. Brockett and P. Maragos. Evolution equations for continuous-scale morpholo-

gical filtering. IEEE Trans. on Signal Processing, 42 :3377–3386, 1994.

[BS94] R. van den Boomgaard and A. Smeulders. The morphological structure of images :

The differential equations of morphological scale-space. IEEE Trans. on PAMI,

16 :1101–1113, 1994.

[BS97] S. Borra and S. Sharkar. A framework for performance characterization of

intermediate-level grouping modules. IEEE Trans. on PAMI, 19(11) :1306–1312,

november 1997.

[BSD] The Berkeley Segmentation Dataset and Benchmark (BSDB).

www.cs.berkeley.edu/projects/vision/grouping/segbench/.

[BW80] M. Born and E. Wolf. Principles of Optics. Pergamon Press, 1980.

[Can86] J. Canny. A computational approach to edge detection. IEEE Trans. on PAMI,

8(6) :679–698, November 1986.

[CCM99] V. Caselles, B. Coll, and J.M. Morel. Topographic maps and local contrast changes

in natural images. International Journal of Computer Vision, 33(1) :5–27, Septem-

ber 1999.

[CK97] L.D. Cohen and R. Kimmel. Global minimum for active contour models : A mi-

nimal path approach. International Journal of Computer Vision, 24(1) :57–78,

August 1997.

[CL97] A. Chambolle and P.L. Lions. Image recovery via total variation minimization and

related problems. Numerische Mathematik, 76 :167–188, 1997.

[CLMC92] F. Catté, P.L. Lions, J.M. Morel, and T. Coll. Image selective smoothing and edge

detection by nonlinear diffusion. SIAM Journal of Numerical Analysis, 29(1) :182–

193, 1992.

Page 243: Arbelaez these

229

[CM97] D. Comaniciu and P. Meer. Robust analysis of feature spaces : Color image segmen-

tation. In IEEE Conference on Computer Vision and Pattern Recognition, pages

750–755, 1997.

[CM99] D. Comaniciu and P. Meer. Mean shift analysis and applications. In IEEE Interna-

tional Conference on Computer Vision, pages 1197–1203, 1999.

[CNB05] M. Couprie, L. Najman, and G. Bertrand. Quasi-linear algorithms for topologi-

cal watershed. Journal of Mathematical Imaging and Vision, 22 :213–249, 2005.

Special Issue on Mathematical Morphology.

[Coh91] L.D. Cohen. On active contour models and balloons. CVGIP : Image Understan-

ding, 53(2) :211–218, March 1991.

[Coh01] L.D. Cohen. Multiple contour finding and perceptual grouping using minimal

paths. Journal of Mathematical Imaging and Vision, 14(3) :225–236, 2001.

[Coh03] L.D. Cohen. Chemins minimaux et modèles déformables en analyse d’images.

Traitement du Signal, 20(3) :225–241, December 2003. Numéro spécial : Le trai-

tement du signal à l’aube du XXIème siècle.

[Coh05] L.D. Cohen. In Mathematical Models in Computer Vision : The Handbook, chapter

Minimal Paths and Fast Marching Methods for Image Analysis. Springer, 2005.

[Cou] M. Couprie. Library of operators in image processing PINK.

http ://www.esiee.fr/ coupriem.

[CP95] J.P. Cocquerez and S. Philipp. Analyse d’Images : filtrage et segmentation. Masson,

1995.

[CSS+97] J. Crespo, R.W. Schafer, J. Serra, C. Gratin, and F. Meyer. The flat zone approach :

A general low-level region merging segmentation method. IEEE Trans. on Signal

Processing, 62 :37–60, 1997.

[CVSG89] L.D. Cohen, L. Vinet, P. Sander, and A. Gagalowicz. Hierarchical region based

stereo matching. In Proc. IEEE Conference on Computer Vision and Pattern Re-

cognition (CVPR’89), 1989.

[DC01] T. Deschamps and L.D. Cohen. Fast extraction of minimal paths in 3D images and

applications to virtual endoscopy. Medical Image Analysis, 5(4) :281–299, 2001.

Page 244: Arbelaez these

230

[Des44] R. Descartes. Principia Philosophiae. Ludovicus Elzevirius, Amsterdam, 1644.

[Des01] T. Deschamps. Extraction de Courbes et Surfaces par Methodes de Chemins Mi-

nimaux et Ensembles de Niveaux. Applications en Imagerie Medicale 3D. PhD

thesis, CEREMADE, Université Paris Dauphine, 2001.

[DFG] Q. Du, V. Faber, and M. Gunzburger. Centroidal voronoi tessellations : Applica-

tions and algorithms. SIAM Journal on Numerical Analysis.

[Dij59] E.W. Dijkstra. A note on two problems in connection with graphs. Numerische

Mathemetic, 1 :269–271, 1959.

[Dir50] P.G.L. Dirichlet. Uber die Reduction der positiven quadratischen Formen mit drei

unbestimmten ganzen Zalhen. J. Reine Angew. Mathematik, 40 :209–227, 1850.

[DK97] F. Dibos and G. Koepfler. Segmentation d’images couleur par méthode variation-

nelle. In Actes du 16eme Colloque GRETSI, pages 367–370, 1997.

[DK00] F. Dibos and G. Koepfler. Global total variation minimization. SIAM Journal of

Numerical Analysis, 37(2) :646–664, 2000.

[DL03] P.E. Danielsson and Q. Lin. A modified fast marching method. In Scandinavian

Conference on Image Analysis, pages 1154–1161, 2003.

[DLPT82] E. Diday, J. Lemaire, J. Pouget, and F. Testu. Elements d’Analyse des Données.

Dunod, 1982.

[EG92] L.C. Evans and R.F. Gariepy. Measure Theroy and Fine Properties of Functions.

Studies in advanced mathematics. CRC Press Inc., 1992.

[EJ05] F.J. Estrada and A.D. Jepson. Quantitative evaluation of a novel image segmenta-

tion algorithm. In IEEE Conference on Computer Vision and Pattern Recognition,

pages II : 1132–1139, 2005.

[EZ96] J. Elder and S. Zucker. Computing contour closures. In Proc. ECCV, page

399U412, 1996.

[FGL94] M. Falcone, T. Goirgi, and P. Loretti. Level sets of viscosity solutions : Some appli-

cations to fronts and rendez-vous problems. SIAM Journal of Applied MAthematics,

54 :1335–1354, 1994.

Page 245: Arbelaez these

231

[FH98] P.F. Felzenszwalb and D.P. Huttenlocher. Image segmentation using local variation.

In IEEE Conference on Computer Vision and Pattern Recognition, pages 98–104,

1998.

[FM] J. Froment and L. Moisan. Image processing software megawave.

http ://www.cmla.ens-cachan.fr/Cmla/Megawave/.

[FP03] D.A. Forsyth and J. Ponce. Computer Vision : A Modern Approach. Prentice Hall,

2003.

[GLMC03] L. Guigues, H. Le Men, and J. Cocquerez. Scale-sets image analysis. In ICIP03,

pages II : 45–48, 2003.

[Gor97] I. Gordon. Theories of Visual Perception. Johen Wiley and Son, 1997.

[Gri92] M. Grimaud. New measure of contrast : Dynamics. In Image Algebra and Mor-

phological Processing III, SPIE, San Diego, USA, 1992.

[Gro99] M. Gromov. Metric Structures for Riemannian and Non-Riemannian Spaces. Bir-

khauser, Boston, 1999.

[GSG98] L. Garrido, P. Salembier, and D. Garcia. Extensive operators in partition lattices

for image sequence analysis. IEEE Trans. on Signal Processing, 66(2) :157–180,

April 1998. Special Issue on Video Sequence Segmentation.

[HP74] S.L. Horowitz and T. Pavlidis. Picture segmentation by a directed split-and-merge

procedure. In Proceedings of the Second International Joint Conference on Pattern

Recognition, pages 424–433, 1974.

[HP76] S.L. Horowitz and T. Pavlidis. Picture segmentation by a tree traversal algorithm.

Journal of the ACM, 23 :368–388, 1976.

[HS69] E. Hewitt and K. Stromberg. Real and Abstract Analysis. Springer Verlag, 1969.

[HWKR82] R.L. Hartley, C.Y. Wang, L. Kitchen, and A. Rosenfeld. Segmentation of FLIR

images : A comparative study. IEEE Trans. on Systems, Man and Cybernetics,

12(4) :553–566, July 1982.

[Jor81] C. Jordan. Sur la série de fourier. Comptes Rendus de l’Académie des Sciences.

Série Mathématique., 92(5) :228–230, 1881.

Page 246: Arbelaez these

232

[KB95] R. Kimmel and A.M. Bruckstein. Global shape from shading. Computer Vision

and Image Understanding, 62(3) :360–369, 1995.

[Kel75] J.L. Kelley. General Topology. Springer, 1975.

[KKB96] R. Kimmel, N. Kiryati, and A.M. Bruckstein. Distance maps and weighted distance

transforms. Journal of Mathematical Imaging and Vision, 6 :223–233, May 1996.

Special Issue on Topology and Geometry in Computer Vision.

[KLM94] G. Koepfler, C. Lopez, and J.M. Morel. A multiscale algorithm for image segmenta-

tion by variational method. SIAM Journal on Numerical Analysis, 31(1) :282–299,

1994.

[KR99] R. Kruse and A. Ryba. Data structures and program design in C++. Prentice Hall,

New York, 1999.

[Kro50] A.S. Kronrod. On functions of two variables. Uspehi Mathematical Sciences,

5(35), 1950. In Russian.

[Kur66] K. Kuratowski. Topology, volume I. Academic Press, 1966.

[KWT87] M. Kass, A. Witkin, and D. Terzopoulos. Snakes : Active contour models. In IEEE

International Conference on Computer Vision, pages 259–268, June 1987.

[KYCZ99] S. Konishi, A.L. Yuille, J.M. Coughlan, and S.C. Zhu. Fundamental bounds on edge

detection : An information theoretic evaluation of different edge cues. In CVPR99,

pages I : 573–579, 1999.

[Lan78] C. Lantuejoul. La Squelettisation et son Application aux Mesures Topologiques des

Mosaïques Polycristallines. PhD thesis, Ecole des Mines de Paris, 1978.

[Leb28] H. Lebesgue. Leçons sur l’Intégration et la Recherche des Fonctions Primitives.

Gauthier Villars, 1928.

[Llo82] S. Lloyd. Least square quantization in PCM. IEEE Trans. in Information Thory,

28 :129–137, 1982.

[LY00] E.M. Landis and I.M. Yaglom. Remembering A.S. kronrod. Technical Report

SCCM-00-01, Stanford University, 2000.

[Mar82] D. Marr. Vision. Freeman, San Francisco, 1982.

Page 247: Arbelaez these

233

[Mar02] D. Martin. An empirical approach to grouping and segmentation. PhD thesis,

University of California, Berkeley, 2002.

[MB98] P. Maragos and M.A. Butt. Advances in differential morphology : Image segmen-

tation via eikonal PDE and curve evolution and reconstruction via constrained di-

lation flow. In Mathematical Morphology and its Applications to Image and Signal

Processing, volume 12, pages 167–174. Kluwer Academic, 1998.

[MB00] P. Maragos and M.A. Butt. Curve evolution, differential morphology and distance

transforms applied to multiscale and eikonal problems. Fundamenta Informaticae,

41 :91–129, 2000.

[Mey94] F. Meyer. Topographic distances and watershed lines. IEEE Trans. on Signal Pro-

cessing, 38 :113–125, 1994.

[Mey97] F. Meyer. Morphological segmentation on a neighborhood graph. Acta Stereolo-

gica, 16(3) :175–182, 1997.

[Mey00] F. Meyer. Flooding and segmentation. In Proc. ISMM’00, pages 189–198, 2000.

[Mey01a] F. Meyer. Hierarchies of partitions and morphological segmentation. In Michael

Kerckhove, editor, Scale Space and Morphology in Computer Vision, pages 161–

182, 2001.

[Mey01b] F. Meyer. An overview of morphological segmentation. International Journal of

Pattern Recognition and Artificial Intelligence, 15(7) :1089–1118, 2001.

[MFM04] D. Martin, C. Fowlkes, and J. Malik. Learning to detect natural image boundaries

using local brightness, color and texture cues. IEEE Trans. on PAMI, 26(5) :530–

549, 2004.

[MFTM01] D. Martin, C. Fowlkes, D. Tal, and J. Malik. A database of human segmented natu-

ral images and its application to evaluating segmentation algorithms and measuring

ecological statistics. In Proc. ICCV’01, volume II, pages 416–423, Vancouver, Ca-

nada, 2001.

[MH80] D. Marr and E. Hildreth. Theory of edge detection. In Proc. of Royal Sociery of

London, volume B-207, pages 187–217, 1980.

Page 248: Arbelaez these

234

[MM99] F. Meyer and P. Maragos. Multiscale morphological segmentations based on wa-

tershed, flooding, and eikonal PDE. In Scale-Space Theories in Computer Vision,

Lecture Notes in Computer Science, pages 351–362. Springer-Verlag, 1999.

[MM00] F. Meyer and P. Maragos. Nonlinear scale-space representation with morphological

levelings. Journal of Visual Communication and Image Representation, (11) :245–

265, 2000.

[MMR91] A. Montanvert, P. Meer, and A. Rosenfeld. Hierarchical image analysis using irre-

gular tessellations. IEEE Trans. on PAMI, 13(4) :307–316, April 1991.

[Mon00] P. Monasse. Représentation morphologique d’images numériques et application

au recalage. PhD thesis, Université Paris Dauphine, 2000.

[MOSV97] F. Meyer, A. Oliveras, P. Salembier, and C. Vachier. Morphological tools for seg-

mentation : Connected filters and watersheds. Annals of Telecommunications, 52(7-

8) :367–379, 1997.

[MR96] N. Mayya and V.T. Rajan. Voronoi diagrams of polygons : A framework for shape

representation. Journal of Mathematical Imaging and Vision, 6(4) :355–378, De-

cember 1996.

[MS89] D. Mumford and J. Shah. Optimal approximations by piecewise smooth functions

and variational problems. Communications on Pure and Applied Mathematics,

42(5) :577–684, 1989.

[MS95] J.M. Morel and S. Solimini. Variational Methods in Image Segmentation. Birkhau-

ser, 1995.

[MSV95] R. Malladi, J.A. Sethian, and B.C. Vemuri. Shape modeling with front propagation :

A level set approach. IEEE Trans. on PAMI, 17(2) :158–175, February 1995.

[Nac95] P.F.M. Nacken. Image segmentation by connectivity preserving relinking in hierar-

chical graph structures. Pattern Recognition, 28(6) :907–920, June 1995.

[Naj94] L. Najman. Morphologie Mathématique : de la Segmentation d’Images à l’Analyse

Multivoque. PhD thesis, Université Paris Dauphine, 1994.

[Nat64] I.P. Natansson. Theory of Functions of a Real Variable. Frederick Ungar Publi-

shing, New York, 1964.

Page 249: Arbelaez these

235

[NCB05] L. Najman, M. Couprie, and G. Bertrand. Mosaics and watersheds. In Mathemati-

cal Morphology : 40 years on, Proc. ISMM’05, pages 187–196, 2005.

[NS94] L. Najman and M. Schmitt. Watershed of a continuous function. IEEE Trans. on

Signal Processing, 38(1) :99–112, July 1994.

[NS96] L. Najman and M. Schmitt. Geodesic saliency of watershed contours and hierar-

chical segmentation. IEEE Trans. on PAMI, 18(12) :1163–1173, 1996.

[NWvdB03] H.T. Nguyen, M. Worring, and R. van den Boomgaard. Watersnakes : Energy-

driven watershed segmentation. IEEE Trans. on PAMI, 25(3) :330–342, March

2003.

[OBSC02] A. Okabe, B. Boots, K. Sugihara, and S.N. Chiu. Spatial Tessellations : Concepts

and Applications of Voronoi Diagrams. Wiley, 2 edition, 2002.

[OPR78] R. Ohlander, K. Price, and R. Reddy. Picture segmentation by a recursive region

splitting method. Computer Graphics Image Processing, 8 :313–333, 1978.

[OR90] S. Osher and L.I. Rudin. Feature-oriented image enhancement using shock filters.

SIAM Journal of Numerical Analysis, 27(4) :919–940, 1990.

[OS88] S.J. Osher and J.A. Sethian. Fronts propagation with curvature dependent speed :

Algorithms based on Hamilton-Jacobi formulations. Journal of Computational

Physics, 79 :12–49, 1988.

[Pal99] S. Palmer. Vision Science : Photons to Phenomenology. MIT Press, 1999.

[PM90a] P. Perona and J. Malik. Detecting and localizing edges composed of steps, peaks

and roofs. In ICCV90, pages 52–57, 1990.

[PM90b] P. Perona and J. Malik. Scale-space and edge detection using anisotrppic diffusion.

IEEE Trans. on PAMI, 12(7) :629–639, 1990.

[PWKB02] G.J.M. Parker, C.A.M. Wheeler-Kingshot, and G.J. Barker. Estimating distributed

anatomical connectivity using fast marching methods and diffusion tensor imaging.

IEEE Trans. on Medical Imaging, 21(5) :505–512, oct 2002.

[PZ89] P. Parent and S. Zucker. Trace inference curvature consistency and curve detection.

IEEE Trans. on PAMI, 11(8) :823–839, Aug. 1989.

Page 250: Arbelaez these

236

[RM00] J. Roerdink and A. Meijster. The watershed transform : Definitions, algorithms and

parallelization strategies. Fundamenta Informaticae, (41) :187–228, 2000.

[RM03] X. Ren and J. Malik. Learning a classification model for segmentation. In Proc.

ICCV’03, pages 10–17, 2003.

[RO94] L.I. Rudin and S. Osher. Total variation based image restoration with free local

constraints. In Proc. ICIP’94, pages 31–35, 1994.

[ROF92] L.I. Rudin, S. Osher, and E. Fatemi. Nonlinear total variation based noise removal

algorithms. Physica D, 60 :259–268, 1992.

[RP80] S. Ranade and J.M.S. Prewitt. A comparison of some segmentation algorithms for

cytology. In Proc. Int. Conf. on Pattern Recognition, pages 561–564, 1980.

[Sea49] F.W. Sears. Optics. Addison-Wesley, 1949.

[Ser04] J. Serra. A lattice approach to segmentation. Rapport Technique CMM - Ecole des

Mines de Paris, N-02/04/MM, 2004.

[Set96] J.A. Sethian. A fast marching level set method for monotonically advancing fronts.

Proc. Nat. Acad. Sci., 93(4) :1591–1595, 1996.

[Set99] J.A. Sethian. Level Set Methods and Fast Marching Methods. Cambridge Univer-

sity Press, Cambridge, UK, 2 edition, 1999.

[SG00] P. Salembier and L. Garrido. Binary partition tree as an efficient representation for

image processing, segmentation, and information retrieval. IEEE Trans. on Image

Processing, 9(4) :561–576, 2000.

[SM94] M. Schmitt and J. Mattioli. Morphologie Mathématique. Masson, 1994.

[SM00] J. Shi and J. Malik. Normalized cuts and image segmentation. IEEE Trans. on

PAMI, 22(8) :888–905, August 2000.

[SOG98] P. Salembier, A. Oliveras, and L. Garrido. Anti-extensive connected operators for

image and sequence analysis. IEEE Trans. on Image Processing, 7(4) :555–570,

1998.

Page 251: Arbelaez these

237

[SS93] J. Serra and P. Salembier. Connected operators and pyramids. In SPIE, editor,

Image Algebra and Mathematical Morphology, volume 2030, pages 65–76, San

Diego, CA, July 1993.

[SS95] P. Salembier and J. Serra. Flat zones filtering, connected operators, and filters by

reconstruction. IEEE Trans. on Image Processing, 4(8) :1153–1160, 1995.

[ST91] B.E.A. Saleh and M.C. Teich. Fundamentals of Photonics. Wiley, 1991.

[Suc77] S.W. Sucker. Digital Image Processing and Analysis, chapter Algorithms for Image

Segmentation. 1977.

[Ter87] D. Terzopoulos. On matching deformable models to images : Direct and itera-

tive solutions. In Topical Meeting on Machine Vision, Technical Digest Series,

volume 12, pages 160–167. Optical Society of America, 1987.

[TJ90] M. Tuceryan and A.K. Jain. Texture segmentation using Voronoi polygons. IEEE

Trans. on PAMI, 12(2) :211–216, February 1990.

[Vac95] C. Vachier. Extraction de Caractéristiques, Segmentation d’Image et Morphologie

Mathématique. PhD thesis, Ecole des Mines de Paris, 1995.

[Vac01] C. Vachier. Morphological scale-space analysis and feature extraction. In Proc.

ICIP’01, Greece, 2001.

[VC93] T. Vlachos and A.G. Constantinides. Graph-theoretical approach to colour picture

segmentation and contour classification. In IEEE Proc. Vision, Image and Sig.

Proc., volume 140, pages 36–45, February 1993.

[VM95] C. Vachier and F. Meyer. Extinction value : a new measurement of persistence.

In IEEE Workshop on Nonlinear Signal and Image Processing, volume 1, pages

254–257, June 1995.

[Vor07] G.M. Voronoi. Nouvelles applications des paramètres continus à la théorie des

formes quadratiques. premier mémoire : Sur quelques propriétés des formes qua-

dratiques positives parfaites. Journal fur die Reine und Angewandte Mathematik,

133 :97–178, 1907.

Page 252: Arbelaez these

238

[Vor08] G.M. Voronoi. Nouvelles applications des paramètres continus à la théorie des

formes quadratiques. deuxième mémoire : Recherches sur les paralléloèdres primi-

tifs. Journal fur die Reine und Angewandte Mathematik, 134 :198–287, 1908.

[Vor09] G.M. Voronoi. Nouvelles applications des paramètres continus à la théorie des

formes quadratiques. deuxième mémoire : Recherches sur les paralléloèdres pri-

mitifs. séconde partie : Domaines des formes cuadratiques correspondant aux dif-

férents types de paralléloèdres primitifs. Journal fur die Reine und Angewandte

Mathematik, 136 :67–181, 1909.

[VPS03] I. Vanhamel, I. Pratikakis, and H. Sahli. Multiscale gradient watersheds of color

images. IEEE Trans. on Image Processing, 12(6) :617–626, 2003.

[vR79] V. van Rijsbergen. Information Retrieval. Dept. of Comp. Science, Univ. of Glas-

gow, 1979.

[VS90] L. Vincent and P. Soille. Watersheds in digital spaces : an efficient algorithm based

on immersion simulations. IEEE Trans. on PAMI, 13(6) :583–598, 1990.

[VV90] P. Verbeek and B. Verwer. Shading from shape, the eikonal equation solved by

gray-weighted distance transform. Pattern Recognition Letters, 11 :618–690, 1990.

[VV95] C. Vachier and L. Vincent. Valuation of image extrema using alternating filters by

reconstruction. In Image Algebra and Morphological Processing, SPIE, 1995.

[Wei98] J. Weickert. Anisotropic Diffusion in Image Processing. Teubner, 1998.

[Wei01] J. Weickert. Efficient image segmentation using partial differential equations and

morphology. Pattern Recognition, 34(9) :1813–1824, 2001.

[WHBP00] S. Will, L. Hermes, J.M. Buhmann, and J. Puzicha. On learning texture edge de-

tectors. In ICIP00, pages Vol III : 877–880, 2000.

[Wie24] N. Wiener. The quadratic variation of a function and its fourier coeficients. Journal

of Mathematics and Physics, 3 :72–94, 1924.

[WJ95] L. Williams and D. Jacobs. Stochastic completion fields : a neural model for illu-

sory contour shape and salience. In Proc. ICCV, 1995.

Page 253: Arbelaez these

239

[WS82] G. Wyszecki and W.S. Stiles. Color Science : Concepts and Methods, Quantitative

Data and Formulas. J. Wiley and Sons, 1982.

[WtHRV98] J. Weickert, B.M. ter Haar Romeny, and M.A. Viergever. Efficient and reliable

schemes for nonlinear diffusion filtering. IEEE Trans. on Image Processing,

7(3) :398–410, March 1998.

[YFS02] W. Yu, J. Fritts, and F. Sun. A hierarchical image segmentation algorithm. In Proc.

ICME’02, pages 221–224, August 2002.

[Zan01] M.F. Zanoguera. Segmentation interactive d’images fixes et de séquences vidéo

basée sur des hiérarchies de partitions. PhD thesis, CMM, Ecole des Mines de

Paris, 2001.

[Zha96] Y.J. Zhang. A survey on evaluation methods for image segmentation. 29(8) :1335–

1346, August 1996.

Page 254: Arbelaez these

Vu : le Président

Vu : les suffragants

Vu et permis d’imprimer : le Vice-président du Conseil Scientifique Chargé de la Re-cherche de l’Université Paris Dauphine

Page 255: Arbelaez these

RésuméLa segmentation de bas niveau est la tâche qui vise à extraire les caractéristiques

géométriques d’une image en créant une partition de son domaine de définition, sansconnaître préalablement son contenu sémantique. L’approche proposée dans cette thèserepose sur la formulation du problème dans le cadre métrique, où les partitions del’espace sont déterminées par la définition d’une distance.

Deux types de distances sont étudiés afin d’appliquer le formalisme métrique à lasegmentation d’images naturelles. Le premier est obtenu en mesurant une énergie lelong des chemins. Nous construisons notamment une distance définie par le minimumde la variation totale de l’image sur les chemins. Nous considérons ensuite une repré-sentation hiérarchique des contours des images fondée sur un deuxième type de dis-tances, les ultramétriques. Enfin, au moyen de segmentations humaines, nous évaluonsquantitativement notre approche et la comparons à d’autres méthodes de segmentation.

Mots Clés : Segmentation d’images, distances, extraction de contours, métriquesde chemin, ultramétriques.

AbstractLow-level segmentation consists in extracting the geometric characteristics of an

image by creating a partition of its domain of definition, without prior knowledge ofits semantic contents. The approach proposed in this thesis relies on the formulation ofthe problem in the metric framework, where the partitions of the space are determinedby the definition of a distance.

Two types of distances are studied in order to apply the metric formalism to thesegmentation of natural images. The first type is obtained by measuring an energyalong the paths. We notably construct a distance defined by the minimum total variationof the image on the paths. We next consider a hierarchical representation of the imagecontours based on a second type of distances, the ultrametrics. Finally, by using humansegmentations, we evaluate our approach quantitatively and we compare it to othersegmentation methods.

Keywords : Image segmentation, distances, contour extraction, path metrics, ul-trametrics.